E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
hadoop;hdfs
hive sql 优化-转载csdn
FileFormat)toreadandwritetablerows.读数据过程:
HDFS
files–>InputFileFormat(把文件切成不同的文档,每
仲間_9ee4
·
2024-01-11 23:36
使用Sqoop将Hive数据导出到TiDB
关系型数据库与大数据平台之间的数据传输之前写过一些使用Sqoop将数据在
HDFS
与MySQL互导使用Sqoop将SQLServer视图中数据导入Hive使用DataX将Hive与MySQL中的表互导使用
光于前裕于后
·
2024-01-11 19:26
大数据动物园
hive
sqoop
tidb
pyspark config设置、增加配置、限制_success文件生成;spark-submit 集群提交参数
1、pyspark增加config设置javaheap错误增加内存spark=(SparkSession.builder.config("spark.
hadoop
.hive.exec.dynamic.partition
loong_XL
·
2024-01-11 18:00
机器学习
python
数据挖掘
linux
运维
服务器
MPP架构与
Hadoop
架构是一回事吗?
它的“谬误”之处在于,明明叫做“MassivelyParallelProcessing(大规模并行处理)”,却让非常多的人拿它与大规模并行处理领域最著名的开源框架
Hadoop
相关框架做对比,这实在是让人困惑
ThoughtWorks
·
2024-01-11 17:47
《PySpark大数据分析实战》-27.数据可视化图表Pyecharts介绍
对大数据技术栈
Hadoop
、Hive、Spark、Kafka等有深入研究,对Data
wux_labs
·
2024-01-11 16:21
PySpark大数据分析实战
数据分析
数据挖掘
大数据
数据科学
PySpark
【2019-05-06】map reduce工作机制
mapreduce作业运行机制
Hadoop
运行mapreduce作业的工作原理(1)作业提交Job的submit()方法创建一个内部的JobSubmitter实例,并且调用其submitJobInternal
BigBigFlower
·
2024-01-11 15:31
GBase 8a MPP分析型数据库集群并行加载
GBase8aMPPCluster中,集群加载功能直接集成在GBase8aMPPCluster内部,提供了面向用户的SQL接口,集群和单机加载方式统一,支持如下功能:支持从通用数据服务器拉取数据,支持ftp/http/
hdfs
kaixin.1
·
2024-01-11 14:25
数据库
hdfs
database
hadoop
Hadoop
高可靠集群搭建步骤(手把手教学)【超级详细】
Hadoop
高可靠集群搭建步骤(手把手教学)【超级详细】文章目录1HA集群基础配置1.1创建系统为Centos7(Linux)的虚拟机1.2基本网络配置1.3连接FinalShell2NTP时间同步和免密登录
小伍_Five
·
2024-01-11 11:50
hadoop
大数据
分布式
NameNode: Permission denied&无法启动
Hadoop
解决方法
NameNode:Permissiondenied(publickey,gssapi-keyex,gssapi-with-mic,password).就是这个原因这个问题的出现主要是因为没有给authorized_keys授权,解决方法如下:把产生的公钥文件放置到authorized_keys文件中,命令如下:[root@node1etc]#cat~/.ssh/id_rsa.pub>>~/.ssh
eyexin2018
·
2024-01-11 09:46
Hadoop学习之路
hadoop
linux
大数据
Hbase读写原理
首先Hbase是依赖于
HDFS
和zookeeper的。Zookeeper分担了Hmaster
黑色叉腰魔头
·
2024-01-11 09:55
DataX 学习笔记
一.DataX简介1.1DataX概述DataX是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、
HDFS
、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能
十二同学啊
·
2024-01-11 08:39
数据离线同步框架
数据库
big
data
database
(十八)大数据学习之HA
HA专题一.保证服务器时间相同date-s2019-04-21把所有机器时间设置成00:00:00二.
Hadoop
HA1.
HDFS
HA/usr/local/
hadoop
-2.8.4/etc/
hadoop
Movle
·
2024-01-11 08:43
搭建时间服务器并配置集群自动时钟同步
搭建时间服务器并配置集群自动时钟同步一、搭建时间服务器(一)为什么要搭建时间服务器因为
Hadoop
对集群中各个机器的时间同步要求比较高,要求各个机器的系统时间不能相差太多,不然会造成很多问题。
Y先生的领地
·
2024-01-11 08:58
spark基础--学习笔记
1spark介绍1.1spark概念ApacheSpark是专为大规模数据处理而设计的快速通用的分布式计算引擎,是开源的类
Hadoop
MapReduce的通用分布式计算框架。
祈愿lucky
·
2024-01-11 07:58
大数据
spark
学习
笔记
Hadoop
安装遇到的一些问题
image.pngimage.png解决选择CentOs.vmx无反应问题:image.png打开之后,选择Poweron之后,选择Imovedit:第一次点mved,以后点copiedroot登陆,密码:
hadoop
博弈史密斯
·
2024-01-11 07:30
Hadoop
之mapreduce参数大全-5
101.指定任务启动过程中允许的最大跳过尝试次数mapreduce.task.skip.start.attempts是
Hadoop
MapReduce框架中的一个配置属性,用于指定任务启动过程中允许的最大跳过尝试次数
OnePandas
·
2024-01-11 07:45
Hadoop
hadoop
mapreduce
hive sql 和 spark sql的区别
HiveSQL和SparkSQL都是用于在大数据环境中处理结构化数据的工具,但它们有一些关键的区别:底层计算引擎:HiveSQL:Hive是建立在
Hadoop
生态系统之上的,使用MapReduce作为底层计算引擎
深度学习研究员
·
2024-01-11 07:08
hive
sql
spark
数据库
HDFS
相关API操作
文章目录API文档环境配置API操作准备工作创建文件夹文件上传文件下载文件删除文件的更名和移动获取文件详细信息API文档
HDFS
API官方文档:https://
hadoop
.apache.org/docs
欲无缘
·
2024-01-11 06:56
大数据
hdfs
hadoop
大数据
Flink复习3-2-4-6-1(v1.17.0): 应用开发 - DataStream API - 状态和容错 - 数据类型&序列化 - 概述
SerializationSupportedDataTypes(支持的数据类型)TuplesandCaseClassesPOJOsPrimitiveTypes(基本数据类型)GeneralClassTypes(一般类型)Values
Hadoop
WritablesSpecialTypes
ε(´ο`*)))
·
2024-01-11 05:30
flink复习
flink
大数据
【大数据架构】日志采集方案对比
整体架构日志采集端FlumeFlume的设计宗旨是向
Hadoop
集群批量导入基于事件的海量数据。系统中最核心的角色是agent,Flume采集系统就是由一个个agent所连接起来形成。
话数Science
·
2024-01-11 04:03
大数据
面试
大数据
面试
架构
大数据独角兽 Cloudera 股价腰斩,
Hadoop
将何去何从?
围绕
Hadoop
进行商业化有著名的三巨头,分别是Cloudera、Hortonworks和MapR,如今都不约而同地陨落了。
烽火程序猿
·
2024-01-11 04:15
记一次Maxwell出现Communications link failure
原报错信息:connectingtojdbc:mysql://
hadoop
01:3306/maxwell?
玖玖1704
·
2024-01-11 03:34
maxwell
hadoop
大数据
etl
数据库
9.2、增量表数据同步
1、数据通道2、Flume配置1)Flume配置概述Flume需要将Kafka中topic_db主题的数据传输到
HDFS
,故其需选用KafkaSource以及
HDFS
Sink,Channel选用FileChannel
施小赞
·
2024-01-11 02:16
数仓架构搭建
增量数据同步
10、采集通道启动、停止脚本
1)在/home/shuidi/bin目录下创建脚本cluster.sh[shuidi@
hadoop
102bin]$vimcluster.sh在脚本中填写如下内容#!
施小赞
·
2024-01-11 02:16
数仓架构搭建
linux
运维
服务器
9.1、全量表数据同步
1、数据通道全量表数据由DataX从MySQL业务数据库直接同步到
HDFS
,具体数据流向如下图所示。
施小赞
·
2024-01-11 02:15
数仓架构搭建
全量同步
从零到一:
Hadoop
开发者的成长之路
从零到一:
Hadoop
开发者的成长之路随着大数据时代的来临,
Hadoop
作为处理大规模数据的开源框架,已成为企业和开发者关注的焦点。那么,如何从零开始,逐步成长为一名优秀的
Hadoop
开发者呢?
乌龙饼干
·
2024-01-11 01:45
hadoop
大数据
分布式
Hadoop
的未来发展趋势与挑战分析
Hadoop
的未来发展趋势与挑战分析
Hadoop
,作为大数据领域的老牌开源框架,已经历了十多年的风风雨雨。
乌龙饼干
·
2024-01-11 01:45
hadoop
大数据
分布式
Hadoop
中的数据治理策略与实践
Hadoop
中的数据治理策略与实践随着大数据技术的快速发展,
Hadoop
已成为企业存储和处理大规模数据集的首选平台。然而,随着数据量的不断增长,数据治理问题也日益凸显。
乌龙饼干
·
2024-01-11 01:15
hadoop
大数据
分布式
Hadoop
与Spark:大数据处理框架的比较与选择
Hadoop
与Spark:大数据处理框架的比较与选择在大数据的时代背景下,数据处理和分析的需求日益增长。
乌龙饼干
·
2024-01-11 01:14
hadoop
spark
大数据
利用
Hadoop
进行数据湖构建与管理
利用
Hadoop
进行数据湖构建与管理一、引言在大数据的时代,数据的增长速度已经远超过了传统的数据处理和存储能力。为了解决这个问题,数据湖的概念应运而生。
乌龙饼干
·
2024-01-11 01:14
hadoop
大数据
分布式
Hadoop
简介:开启大数据处理之门
在此背景下,
Hadoop
作为一种分布式系统基础架构,应运而生,为大数据处理打开了新的大门。
乌龙饼干
·
2024-01-11 01:44
hadoop
大数据
分布式
Hadoop
在大数据分析中的应用与挑战
Hadoop
在大数据分析中的应用与挑战随着数字化时代的来临,数据呈现爆炸性增长,大数据处理和分析成为了企业和研究机构不可或缺的一部分。
乌龙饼干
·
2024-01-11 01:44
hadoop
hdfs
mapreduce
如何搭建一个高效的
Hadoop
集群环境?
如何搭建一个高效的
Hadoop
集群环境在大数据处理和分析的领域中,
Hadoop
已经成为了一个非常流行的工具。
乌龙饼干
·
2024-01-11 01:44
hadoop
大数据
分布式
深入了解
Hadoop
:架构、组件与工作流程
深入了解
Hadoop
:架构、组件与工作流程随着大数据时代的来临,
Hadoop
已经成为了一个不可或缺的开源工具。
乌龙饼干
·
2024-01-11 01:42
hadoop
架构
大数据
CDH5x离线安装+解决报错教程
前言CDH集成了Apache
Hadoop
中各种相关组件,提供的CM服务提高了我们对于集群管理与安装的便捷性。
李指导、
·
2024-01-11 01:09
大数据
Linux
CDH安装
CDH基于http搭建
cdh5.12.1
linux
cloudera
黑猴子的家:Hive 数据倾斜优化之 小文件合并
HiveInputFormat没有对小文件合并功能hive>sethive.input.format=org.apache.
hadoop
.hive.ql.io.CombineHiveInputFormat
黑猴子的家
·
2024-01-10 20:26
阿里云服务器得免费使用领取
系列文章目录华为云耀云服务器试用领取领取的试用云耀云服务器在哪阿里云服务器得免费使用领取
Hadoop
3.3.5云耀云服务器安装教程-单机/伪分布式配置文章目录系列文章目录领取免费的云服务器页面对云服务器操作通过程序进行远程连接控制通过
柔雾
·
2024-01-10 20:22
阿里云
服务器
云计算
文件下载相关的技术
服务器上的文件系统可以是本地文件系统(如ext4、NTFS等)或分布式文件系统(如
HDFS
、AmazonS3等),具体取决于服务器的架构和需求。
睿智闷骚男
·
2024-01-10 20:22
常识
笔记
Scala操作
HDFS
通过Scala对
HDFS
的一些操作,包括创建目录,删除目录,上传文件,文件读取,删除文件,Append文件等等;importjava.io.
SunnyMore
·
2024-01-10 18:13
【精】彻底理解
HDFS
写文件流程
以及下游节点如何给上游节点发Ack②DFSOutputStream、DataStreamer的原理③Sender、BlockReceiver、PacketResponder的原理作为引子,先从最上游谈起:我们使用
HDFS
API
小北觅
·
2024-01-10 18:22
大数据学习记录
hadoop
(2)
四、
hadoop
之
HDFS
4.1
HDFS
的定义
HDFS
定义:分布式文件系统
HDFS
使用场景:一次写入,多次读写4.2
HDFS
的优缺点优点:1)高容错性(1)数据自动保存多个副本(2)某个副本丢失后,可以自动恢复
不吃海带吃海苔
·
2024-01-10 16:15
RDD 特性——RDD 的分区和 Shuffle
的原理分区的作用RDD使用分区来分布式并行处理数据,并且要做到尽量少的在不同的Executor之间使用网络交换数据,所以当使用RDD读取数据的时候,会尽量的在物理上靠近数据源,比如说在读取Cassandra或者
HDFS
我像影子一样
·
2024-01-10 16:14
Spark
大数据
spark
大数据
Jbd4:Hbase
Jbd4:Hbase教程地址0.背景0.1
Hadoop
的局限性0.2HBaseVS传统数据库0.2.1数据类型0.2.2数据库类型0.2.3数据库区别1.概述1.1HBase简介1.2HBase访问接口
JxWang05
·
2024-01-10 14:05
Juicy_Big_Data
hbase
Linux入门学习笔记
系统2.Linux配置和Linux的目录结构Linux组成结构:硬件资源->内核程序->操作系统的应用程序->用户应用程序(Linux的文件系统均可被内核程序和操作系统的应用程序以及用户的应用程序调用)
Hadoop
RoundOff
·
2024-01-10 14:02
linux学习笔记
linux学习
《PySpark大数据分析实战》-26.数据可视化图表Seaborn介绍
对大数据技术栈
Hadoop
、Hive、Spark、Kafka等有深入研究,对Data
wux_labs
·
2024-01-10 14:58
PySpark大数据分析实战
数据分析
数据挖掘
大数据
数据科学
PySpark
Hive分区表实战 - 单分区字段
创建国别分区的图书表(三)在本地创建数据文件(四)按分区加载数据1、加载中文书籍数据到`country=cn`分区2、加载英文书籍数据到`country=en`分区(五)查看分区表book全部记录(六)通过
HDFS
howard2005
·
2024-01-10 13:55
数仓技术Hive入门
hive
hadoop
分区表
单分区字段
Flink集群安装部署(Standalone,Yarn模式)
目录一.环境准备二.Flink集群安装步骤三.FlinkOnYarn一.环境准备需要提前安装配置JDK,
Hadoop
二.Flink集群安装步骤1.下载安装包下载地址:Indexof/dist/flink
MJK祺
·
2024-01-10 12:03
大数据
hadoop
flink
4.MapReduce 序列化
目录概述序列化序列化反序例化java自带的两种Serializable非Serializable
hadoop
序例化实践分片/InputFormat&InputSplit日志结束概述序列化是分布式计算中很重要的一环境
流月up
·
2024-01-10 12:46
大数据
mapreduce
大数据
序列化
实践
【Linux】linux踢出远程登录用户命令
linux踢出远程登录用户命令:查看当前自己的终端:[root@
hadoop
3~]#whoamirootpts/12013-01-2210:45(192.168.250.110)输入w命令查看已登录用户信息
奔向理想的星辰大海
·
2024-01-10 11:04
Linux
技术研发
项目管理
linux
Zookeeper安装入门并配置为Windows服务开机自动启动
Zookeeper安装入门并配置为Windows服务开机自动启动1、概述zookeeper,它是一个分布式服务框架,是Apache
Hadoop
的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题
新手村张三
·
2024-01-10 09:29
zookeeper
zookeeper
windows
10
上一页
22
23
24
25
26
27
28
29
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他