风一样的女孩纸

CentoOS6下搭建hadoop高可用平台——含多种错误解决方法

@Hadoop高可用搭建

前期搭建可以通过以下链接学习：
一、如何安装虚拟机与通过克隆在虚拟机里安装四台Linux系统及配置安装
二、伪分布式安装

你好！本篇文章主要对完全分布式Hadoop集群环境的安装与配置步骤进行介绍。
本文章的特点是，操作详细，在实践过程中出现的错误进行分析，对常见问题进行了解决，希望可以帮到大家。

下面是需要的一些安装文件，需要者自取
[ 提取码：657t ] jdk安装包、Hadoop、xshell、xftp

hostname	idadderess
node01	NameNode、Jps、JournalNode、DFSZKFailoverController
node02	NameNode、Jps、JournalNode、DFSZKFailoverController、DataNode、QuorumPeerMain、NodeManager
node03	Jps、JournalNode、DataNode、QuorumPeerMain、NodeManager、ResourceManager
node04	Jps、DataNode、QuorumPeerMain、NodeManager、ResourceManager

1、前期准备

我们首先需要下载虚拟机，同时在虚拟机里面安装四台Linux。方便起见，可以选择先添加一台Linux，配置完成后进行克隆。还需要用到xshell方便操作（这里只简要概述，不具体介绍，具体见前面目录一）

1.1 设置IP ：VM:编辑>虚拟网络编辑器

vi etc/sysconfig/network-scripts/ifcfg-eth0

1.2 配置主机名：

vi /etc/sysconfig/network

1.3 配置hosts：

vi /etc/hosts

1.4 关闭防火墙&Selinux：

（1）service iptables stop
（2） chkconfig iptables off
（3） vi /etc/selinux/config
SELINUX=disabled
这样设置更安全，如时间错了就把相应文件变成只读文件

1.5 建立需要的文件夹存放安装文档

（1）存放安装软件 mkdir software
（2）在opt目录中建立gy 文件夹cd /opt
mkdir gy

2、jdk安装

2.1用xshell传文件

安装好xshell之后需要下载Xftp4(用于传文件，链接中有下载文件xshell、Xftp4哦)
如何传文件？

2.2. 用rpm装jdk,首先在node01上安装

rpm -i jdk-7u67-linux-x64.rpm
whereis java

配置文件
目录： vi + /etc/profile
export JAVA_HOME=/usr/bin/java
export PATH=$PATH:$JAVA_HOME/bin
更新一下文件
source /etc/profile

红色框内为打错的，大家可不要出现输入错误哦

输入jps,结果出现 xxxx jps，说明安装成功
注意：出现 command not find

<1>、查看是否输入正确，source必须执行，否则修改无效
<2>、更改绝对路径
export JAVA_HOME=/usr/bin/java
export PATH=$PATH:/usr/java/jdk1.7.0_67/bin

2.3 将jdk 分发到node02、node03、node04，并安装（方法同node01安装相同）

(1)传文件(在node01上)：
注意pwd左右两边的符号，是tab键上面那个

scp jdk-7u67-linux-x64.rpm node02:`pwd`
scp jdk-7u67-linux-x64.rpm node03:`pwd`
scp jdk-7u67-linux-x64.rpm node04:`pwd`

(2)安装文件

在node03、node04、node05上执行rpm安装命令：-rpm -i jdk-7u67-linux-x64.rpm
分发文件node01中的profile文件分发node02、node03、node04
```
 scp profile node02:`pwd`
 scp profile node03:`pwd`
 scp profile node04:`pwd`
```
注意pwd左右两边的符号，是tab键上面那个

(3) 检查是否安装完成
利用Xshell全部会话栏，source /etc/profile
利用Xshell全部会话栏，jps，看02、03、04这三台机子的jdk是否装好。
输入jps,结果出现 xxxx jps，说明安装成功

3、同步所有服务器时间

3.1为什么要同步时间

时间相差太大，集群启动后某些进程跑不起来，所以要同步时间

3.2如何同步时间

yum进行时间同步器的安装
yum -yinstall nt
执行同步命令
ntpdate time1.aliyun.com 和阿里云服务器时间同步

4、检查配置文件

查看HOSTNAME是否正确（四台机子都要看）
cat /etc/sysconfig/network
查看IP映射是否正确（四台机子都要查看）
cat /etc/hosts
查看SELINUX是否disabled（四个都要看）
cat /etc/sysconfig/selinux
SELINUX=disabled
查看防火墙（四个都要看，全部会话即可）
service iptables status

5、免秘钥设置

5.1如何给每台虚拟机免秘钥

在家目录下ll -a:查看有无.ssh文件，如果没有就ssh localhost
ssh localhost 之后一定要exit退出，不然出大问题哦
cd .ssh ,并ll 查看当前文件
免秘钥操作：

-ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
-cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_key
验证：
ssh localhost 看看需不需要输入密码

一定要exit哦

补充说明：（借用老师上课时用的图片说明一下）

5.2 如何让node01与其他三台机子免密

在node01上给其他三个发送公钥（路径为：cd .ssh）

scp  id_dsa.pub   node02:`pwd`/node01.pub
scp  id_dsa.pub   node03:`pwd`/node01.pub
scp  id_dsa.pub   node04:`pwd`/node01.pub

查看一下发送成功没有（到node02、node03、node04的.ssh文件下去看）
首先到目录：cd .ssh
接下来去查看一下 node02：

node03：

node04：
在另外三台机子上追加（node02、node03、node04都要哦）
cat node01.pub >> authorized_keys
验证：
在node01上分别ssh node02,ssh node03,ssh node04,看看能否免秘钥登录
记得ssh 登录以后以后一定要exit

5.3 让两个Namenode之间免秘钥

首先做5、1 使每台机子自己可以免秘钥登录
现在实现让node02也可以直接登录node01

在 node02上：
scp id_dsa.pub node01:'pwd'/node02.pub
在node01的.ssh目录下：
cat node02.pub >> authorized_keys
在node02上ssh node01 验证可否免秘钥登录

6、namenode信息的配置信息修改

6.1 vi hdfs-site.xml修改

到Hadoop目录下更改：cd /opt/gy/hadoop-2.6.5/etc/hadoop/
（1）去掉snn的配置


       dfs.namenode.secondary.http-address
        node03:50090

（2）增加以下property

	
	 		
		dfs.nameservices  		
		mycluster	
	

	
			
		dfs.replication		
		3	
		

		
	  		
		dfs.ha.namenodes. mycluster
		nn1,nn2	
	 


	
	  		
		dfs.namenode.rpc-address. mycluster.nn1
		node01:9000	
	 	
		
	  		
		dfs.namenode.http-address. mycluster.nn1  					
		node01:50070	
	 

		
	  		
		dfs.namenode.rpc-address.mycluster.nn2  					
		node02:9000	
	 	
		
	  		
		dfs.namenode.http-address.mycluster.nn2  					
		node02:50070	
	 	

	
	  		
		dfs.namenode.shared.edits.dir  						
		qjournal://node02:8485;node03:8485;node04:8485/mycluster
	    
		
	  		
		dfs.journalnode.edits.dir  							
		/var/gy/hadoop/ha/jn	                            //这里的gy改成你建立的名字
	  


		
	  		
		dfs.ha.automatic-failover.enabled.cluster  					
		true	
		
		
	    	
		dfs.client.failover.proxy.provider.cluster 		 
		org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider
	  


	
	  		
		dfs.ha.fencing.methods 
		sshfence	
	  	
		
	  		
		dfs.ha.fencing.ssh.private-key-files  					
		/root/.ssh/id_rsa

改动处写有文字注释、注意修改哦

6.2 vi core-site.xml 配置



  fs.defaultFS
  hdfs://mycluster



   ha.zookeeper.quorum
   node02:2181,node03:2181,node04:2181

vi slaves删除node01 添加如下
node02
node03
node04

这段文字改动很小，创建文件名改一下，主机名改一下，但是，一定要注意检查多遍，以防错误，后面查日志文件多半是这里出错

7、安装hadoop2.6.5

7.1如何安装Hadoop

先在node01中安装，后面传输一下即可，传文件方法前面已介绍

利用tar 命令直接解压安装包(此处的gy是自己创建的，具体在文章开头已介绍)
-tar xf hadoop-2.6.5.tar.gz -C /opt/gy (注：-C的C 是大写）

到/opt/gy目录下看是否解压好 cd /opt/gy/hadoop-2.6.5

想要实现任意目录下均可启动hadoop
在目录：cd /opt/gy/hadoop-2.6.5/etc/hadoop/
vi + /etc/profile
```
export JAVA_HOME=/usr/bin/java
export HADOOP_HOME=/opt/ldy/hadoop-2.6.5
export PATH=$PATH:/usr/java/jdk1.7.0_67/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
```
在hadoop路径下（前面完整路径，黄色加粗字体），修改profile文件

进入文件内修改（修改完 !wq 保存退出）

修改完成一定要source

验证：输入hd按Tab键可以联想出hdfs
输入start-d按Tab键可以联想出start-dfs.
就表示配置成功了
不要忘记source,更改会不生效哦

7.2修改Hadoop配置文件

在etc目录中修改：cd /opt/ldy/hadoop-2.6.5/etc/hadoop
以上路径的etc不是根目录的etc
```
vi hadoop-env.sh
vi mapred-env.sh
vi yarn-env.sh
```
给这三个文件夹的JAVA_HOME改成绝对路径：/usr/java/jdk1.7.0_67

如下图所示修改
修改的那句如果有#须要去除

PS：详细的过程可以参考目录下二、伪分布式安装，进行对比学习

7.2.3如何实现四台机子方便的配置

到opt目录下，将其下的目录分发到node02、node03、node04
在目录：cd /opt
```
scp –r  gy/ node02:`pwd`
scp –r  gy/ node03:`pwd`
scp –r  gy/ node04:`pwd`
```
pwd左右的符号是tab键上方的键

将hdfs-site.xml和core-site.xml分发到node02、03、04

scp hdfs-site.xml core-site.xml node02:`pwd`
scp hdfs-site.xml core-site.xml node03:`pwd`
scp hdfs-site.xml core-site.xml node04:`pwd`

pwd上的符号注意注意

8、安装zookeeper

8.1解压安装配置文件

zookeeper是在node02、node03、node04上安装的

解压安装zookeeper
（1）在目录：cd /sotfware（四台都在sotfware里安装，如果无根目录下mkdir softer）
tar xf zookeeper-3.4.6.tar.gz -C /opt/gy

（2）下载传输完成后可以看到在software里看到文件

（3）在sotfware目录下解压安装 tar xf zookeeper-3.4.6.tar.gz -C /opt/gy（gy是你新建的文件夹，在前期准备中有介绍）
（4）安装完成在gy文件夹下查看
修改zookeeper的配置文件
（1） cd /opt/gy/zookeeper-3.4.6/conf

（2）给zoo_sample.cfg改名（以防改错，我们这里用复制命令）
cp zoo_sample.cfg zoo.cfg
vi zoo.cfg

修改信息
```
 dataDir=/var/gy/zk
```
（1）查看是否有zoo.cfg文件

（2）进行修改（数据路径）

（3）并在末尾追加
```
 server.1=node04:2888:3888
 server.2=node05:2888:3888
 server.3=node06:2888:3888
```
其中2888主从通信端口，3888是当主挂断后进行选举机制的端口

8.2如何方便的实现其他几台zookeeper搭建

把zookeeper分发到其他节点
当gy目录下：cd /opt/gy
```
scp -r zookeeper-3.4.6/ node03:`pwd`
scp -r zookeeper-3.4.6/ node04:`pwd`
```
并用ll /opt/gy检查下看分发成功没
修改pwd上方符号

给每台机子创建刚配置文件里的路径
（1）绝对路径，任意目录下均可：mkdir -p /var/gy/zk
cd /var/gy/zk/

对node02来说：	
	echo 1 > /var/gy/zk/myid
	cat /var/gy/zk/myid
对node03来说：	
	echo 2 > /var/gy/zk/myid
	cat /var/gy/zk/myid
对node04来说：	
	echo 3 > /var/gy/zk/myid
	cat /var/gy/zk/myid

（2）图片示意（node04）：
编号必须是数字

分发profile文件

（1）先确定zookeeper-3.4.6的路径（按照下载的一般是/opt/gy/zookeeper-3.4.6其中gy是自己建立的文件名）

（2）在node02中的 /etc/profile里面配置
vi + /etc/profile
```
export ZOOKEEPER_HOME=/opt/gy/zookeeper-3.4.6
export PATH=$PATH:/usr/java/jdk1.7.0_67/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$ZOOKEEPER_HOME/bin
```
第一行是添加、第二行是修改

(2)在node02中，然后在把/etc/profile分发到其他node03、node04(绝对路径，所以在哪个路径下皆可以)
```
scp /etc/profile node05:/etc
scp /etc/profile node06:/etc
```
（3）在node02、03、04里source /etc/profie
输入zkCli.s，按Tab可以把名字补全zkCli.sh

8.3启动zookeeper

全部会话：zkServer.sh start
接着用zkServer.sh status查看每个zookeeper节点的状态

注意：如果启动不起来，请把/etc/profile里的 JAVA_HOME改
成绝对路径。然后记得source刷新一下
export JAVA_HOME=/usr/bin/java
export PATH=$PATH:/usr/java/jdk1.7.0_67/bin

source /etc/profie
如下图所示：就是启动失败
修改绝对路径（四台都要改）

由于我们是在node02、node03、node04上装的，所以全部会话，在node01上找不到命令，是正常的

9、启动journalnode

启动namenode的原因：为了使两台namenode间完成数据同步
在01、02、03三台机子上分别把journalnode启动起来
hadoop-daemon.sh start journalnode
用jps检查下进程启起来了没

node01：

node02：

node03：
没启动起来
检查日志：cd /opt/gy/hadoop-2.6.5/logs/
tail -100 hadoop-root-journalnode-node01.log(相应的日志里去找一下)
常见问题：配置文件括号对应、出现空格等

10、格式化任一namenode

随意挑一台namenode上执行hdfs namenode –format
另一台namenode不用执行，否则clusterID变了，找不到集群了。
然后，启动刚刚格式化的那台namenode
hadoop-daemon.sh start namenode

jps命令出现namenode,没有的话查日志（hdfs配置）
下面这个错误就是括号不对应，参考一下
我们要给另一台namenode同步一下数据，用以下命令
（1）hdfs namenode -bootstrapStandby
（2）格式化zkfc
1. 在node01上执行
  hdfs zkfc -formatZK
2. 在node02上双击开启另一个，执行zkCli.sh打开zookeeper客户端看hadoop-ha是否打开，ls / 看是否成功打开Hadoop-ha
  
  双击node02：
  
  在双击后形成的3 node02上执行zkCli.sh、ls查看
  
  PS:因为执行完zkcli.sh命令以后会导致无法返回，所以先多开一个，方便操作

11、启动集群

在node01上启动hdfs集群：start-dfs.sh
全部会话jps查看都有些什么进程，如果和下图一样，恭喜小可爱成功一半啦
node01:
node02:

node03:

node04:
如果那个节点没起来到hadoop目录下去看那个node的日志文件log
静下心来慢慢找错，日志会提示错误哦
```
 hadoop-daemon.sh start journalnode
 cd /opt/ldy/hadoop-2.6.5/logs/
 tail -100 hadoop-root-journalnode-node03.log
```
接下来去浏览器访问node01:50070和node02:50070
关闭集群：stop-dfs.sh
关闭zookeeper命令：zkServer.sh stop

注意：你下一次启动hdfs集群的时候不需要用hadoop-daemon.sh start journalnode命令启动journalnode
只要start-dfs.sh就可以了。我们之前启动journalnode是为了同步两个namenode之间的信息。

12、为MapReduce做准备

把mapred-site.xml.template留个备份，并且改下名字 node01里先改，发送到node02、node03、node04
cp mapred-site.xml.template mapred-site.xml
在mapred-site.xml里添加如下property

	
        		mapreduce.framework.name
        		yarn

在yarn-site.xml里添加如下property


        yarn.nodemanager.aux-services
        mapreduce_shuffle
    

   yarn.resourcemanager.ha.enabled
   true
 
 
   yarn.resourcemanager.cluster-id
   cluster1
 



   yarn.resourcemanager.ha.rm-ids
   rm1,rm2
 
 
   yarn.resourcemanager.hostname.rm1
   node03
 
 
   yarn.resourcemanager.hostname.rm2
   node04
 
 
   yarn.resourcemanager.zk-address
   node02:2181,node03:2181,node04:2181

把mapred-site.xml和yarn-site.xml 分发到node04、05、06

scp mapred-site.xml yarn-site.xml node02:`pwd`
scp mapred-site.xml yarn-site.xml node03:`pwd`
scp mapred-site.xml yarn-site.xml node04:`pwd`

node03和node04之间相互免秘钥（参考5）
用localhost以后一定要exit
PS：node 03与node04都是resourcemanager,所以他们相互免秘钥
完整的启动步骤
启动zookeeper，全部会话zkServer.sh start
在node01上启动hdfs，start-dfs.sh
在node01上启动yarn，start-yarn.sh
在node02、03上分别启动resourcemanager，
yarn-daemon.sh start resourcemanager
全部会话jps，看进程全不全

node01:

node02:

node03:

node04:
在浏览器访问node03:8088,查看resourcemanager
完整的退出步骤

关闭集群：
node01: stop-dfs.sh
node01: stop-yarn.sh (停止nodemanager)
node03,node04:yarn-daemon.sh stop resourcemanager
Node02、03、04：zkServer.sh stop
如何看是否完全退出
jps之后只有jps xxx

13、完成一个wordcount

到如下目录

cd /opt/ldy/hadoop-2.6.5/share/hadoop/mapreduce

hdfs dfs -mkdir -p /data/in
hdfs dfs -mkdir -p /data/out

将要统计数据的文件上传到输入目录并查看

hdfs dfs -put ~/500miles.txt /data/input	
hdfs dfs -ls /data/input

运行wordcount(注意：此时的/data/out必须是空目录）
hadoop jar hadoop-mapreduce-examples-2.6.5.jar wordcount /data/in /data/out/result
你成功了吗？

首先观察一下，是否出现如下进程map变化

其次去网页观察一下，有sucess嘛

最后我们再去看一下运行完的程序结果

记住此时的/data/out必须是空目录
补充：1、运行失败查看日志文件，多半是配置错误，回到6检查一遍哦
2、运行较慢可能出现map百分之75，最后100%，这样问题不大，可以成功等等就好
3、data/out 运行第二次不为空了，创建另一个文件
hadoop jar hadoop-mapreduce-examples-2.6.5.jar wordcount /data/in /data/out/result_1或者删除
在dfs中删除目录：hadoop fs -rm -r /data/out/result

14、错误小结

问题小结–个人比较粗心遇到的问题比较多，不过解决后收获较多

jps后namenode总不出来
1、根据日志报错（前面有如何看日志介绍见12、3）
2、日志居然找不到错误，检查一下配置（见6 namenode配置，没有空格的地方不要多空格）
3、修改了node01的配置文件，一定记得传输给其他之前同样配置机子。
node01与node02同步了
1、localhost忘记退出了导致混乱，千万不要犯这种低级错误
实现wordout总出现错误
1、根据mycluster,找到有关他的配置文件，如果无误

2、etc/hosts 文件是否配对
出现命令找不到
1、查找自己是否打错，要细心哦
2、查看目录，看一下是否存在
输入易错点
1、免秘钥处 -f前面有空格 -ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
2、pwd上面的符号，在tab上方，不要打成分号
3、输入目录名可以利用tab键自动生成剩余完整的目录名
浏览器打不开
1、hosts里面配置检查一遍
cat /etc/sysconfig/network

查看IP映射是否正确
cat /etc/hosts

3、浏览器不要用360、QQ浏览器，最好用火狐

物理内存不足（实际内存够的）

找到编辑->首选项

选择允许交换大部分虚拟机内存
打不开也关不掉虚拟机显示繁忙（特别常见）

这个问题很容易解决，可以关机重启，删除对应虚拟机存储文件多出的前四个文件
（这个方法最有效，虚拟机多次出现这个问题已解决）
删除的文件可以参考这个链接: https://blog.csdn.net/s546889/article/details/105045714.

以上就是整个过程，如果还有什么问题欢迎评论

你可能感兴趣的:(大数据,hadoop,hdfs)

hadoop3.x--搭建hadoop高可用集群（HA模式）运维小菜 hadoop hadoop hdfs
hadoop高可用集群（HA模式）一、安装前1.集群规划2.安装前配置3.安装jdk与hadoop4.克隆虚拟机与互信配置5.搭建zookeeper集群二、HDFS1.配置hdfs2.初始化启动hdfs集群三、MapReduce与Yarn1.配置MapReduce2.配置yarn3.启动yarn四、验证1.查看java进程2.hdfs与yarn前台页面一、安装前1.集群规划hostnameipNN
直方图梯度提升：大数据时代的极速决策引擎万事可爱^ 大数据机器学习深度学习直方图梯度提升 GBDT 算法
一、为什么需要直方图梯度提升？在Kaggle竞赛的冠军解决方案中，超过70%的获奖方案都使用了梯度提升算法。但当数据量突破百万级时，传统梯度提升树（GBDT）面临三大致命瓶颈：训练耗时剧增：每个特征的分割点计算都需要全量数据排序内存消耗爆炸：存储排序后的特征值需要额外空间处理效率低下：无法有效利用现代CPU的多核特性而梯度提升决策树（GBDT）作为集成学习的代表算法，通过迭代构建决策树实现预测能力
从原理到实践：Go 语言内存优化策略深度解析叶间清风1998 服务器 linux 网络
目录一、引言二、Go语言内存管理基础原理2.1栈与堆内存分配2.2垃圾回收机制剖析三、内存优化策略与实践3.1合理使用指针传递3.2避免不必要的内存分配3.3优化切片与映射的使用3.4控制变量作用域3.5减少闭包导致的变量逃逸四、内存优化工具与性能分析4.1pprof工具的使用4.2其他性能分析辅助手段五、不同场景下的内存优化案例分析5.1高并发Web服务场景5.2大数据处理与分析场景六、总结与展
在虚拟机上安装Hadoop 杜清卿 hadoop
基本步骤与安装java一致:先用finalshell将hadoop-3.1.3.tar.gz导入到opt目录下面的software文件夹下面，然后解压,最后配置环境变量。1.使用finalshell上传。这里直接鼠标拖动操作即可。2.解压。进入到Hadoop安装包路径下，cd/opt/software/，再解压安装文件到/opt/module下，对应的命令是:tar-zxvfhadoop-.1.3
hadoop集群配置-scp拓展使用杜清卿 hadoop 服务器大数据
任务1：在hadoop102上，将hadoop101中/opt/module/hadoop-3.1.3目录拷贝到hadoop102上。分析：使用scp进行拉取操作：先登录到hadoop2使用命令：scp-rroot@hadoop101:/opt/module/hadoop-3.1.3/opt/module/任务2：在hadoop101上操作，将hadoop100中/opt/module目录下所有目
硅谷企业的大数据平台架构什么样？看看Twitter、Airbnb、Uber的实践大数据v 分布式数据库大数据编程语言 hadoop
导读：本文分析一下典型硅谷互联网企业的大数据平台架构。作者：彭锋宋文欣孙浩峰来源：大数据DT（ID：hzdashuju）01Twitter的大数据平台架构Twitter是最早一批推进数字化运营的硅谷企业之一，其公司运营和产品迭代的很多功能是由其底层的大数据平台提供的。图7-2所示为Twitter大数据平台的基本示意图。▲图7-2Twitter大数据平台架构Twitter的大数据平台开发比较早，很多
【图像预处理】瞬间记忆深度学习 python
(4条消息)图像预处理方法总结_AI强仔的博客-CSDN博客对图像进行预处理的一些常见方法包括：调整图像大小和分辨率，以便适应模型的输入要求。对图像进行裁剪或填充，以使其大小和比例符合要求。调整图像的亮度、对比度和饱和度等图像属性。进行图像平滑或锐化操作，以去除噪声或增强图像特征。进行图像归一化或标准化，以确保各个特征在相同的尺度上。应用数据增强技术，如旋转、平移、缩放、翻转等，以扩大数据集，提高
大数据学习（75）-大数据组件总结 viperrrrrrr 大数据 impala yarn hdfs hive CDH mapreduce
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的
大数据点燃智能制造变革之火——从数据到价值的跃迁 Echo_Wish 大数据高阶实战秘籍大数据制造
大数据点燃智能制造变革之火——从数据到价值的跃迁在全球制造业向智能化转型的浪潮中，大数据已然成为点燃变革的关键火种。从车间到供应链，从设备到产品生命周期，制造业正通过大数据分析找到隐形的效率优化机会，打破传统生产模式的桎梏。作为Echo_Wish，今天我将和大家探讨大数据如何融入智能制造，助力实现生产效率和业务价值的双重飞跃。一、智能制造的核心诉求：数据驱动的决策与执行智能制造的目标是通过数据驱动
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
AI预测体彩排3新模型百十个定位预测+胆码预测+杀和尾+杀和值2025年3月21日第25弹 GIS小天体彩排3 人工智能机器学习彩票算法
前面由于工作原因停更了很长时间，停更期间很多彩友一直私信我何时恢复发布每日预测，目前手头上的项目已经基本收尾，接下来恢复发布。当然，也有很多朋友一直咨询3D超级助手开发的进度，在这里统一回复下。由于本人既精通编程+大数据分析，也热衷于彩票研究，所以很多彩友通过一些渠道找到了我。目前，加我的已有不少彩友，分成了3类人群：第一类：平时不懂数据分析，买彩全靠瞎猜乱蒙，这些朋友希望借助我的技术和方法来给他
Zynq PL端IP核之AXI DMA Mazy.v fpga开发嵌入式硬件 arm开发单片机
1.AXIDMA简介Zynq提供了两种DMA，一种是PS中的DMA控制器，通过GP口与PL端连接，另一种是PL中的AXIDMAIP核（软核），通过HP口与PS端连接。Zynq有4个HP接口，每一个HP接口都包含控制和数据FIFO，这些FIFO为大数据量突发传输提供缓冲，让HP接口成为理想的高速数据传输接口。AXIDMAIP内核在AXI4内存映射和AXI4StreamIP接口之间提供高带宽直接储存访
揭秘时空大数据：详细介绍、真实应用场景和数据示例解析陈书予 GIS开发（时空大数据）前端大数据 python 时序数据库
时空大数据(SpatialBigData)是指利用空间环境和时间环境信息，以及数字技术，从多种来源获取的海量、动态的、多维的数据，对空间环境和时间环境进行实时监测，并基于复杂的数据分析和挖掘，获取有价值的信息。时空大数据示例：1）社会网络数据：Twitter、Facebook、Instagram等社交媒体上的海量数据，可以通过时间、空间、主题等来提取有价值的信息。2）遥感图像数据：通过遥感技术从卫
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
ssh命令满分对我强制爱 linux 服务器运维 spark
ssh命令无需密码也可登录要先关闭防火墙，命令如下：systemctlstopfirewalldsystemctldisablefirewalldsystemctlstatusfirewalldeg：目标：hadoop100通过ssh访问hadoop101,hadoop102时不需要密码，其他两台设备也类似。具体操作如下：1.在hadoop100中生成公钥和密码。ssh-keygen-trsa三次
存算一体与存算分离：架构设计的深度解析与实现方案克里斯蒂亚诺罗纳尔多阿维罗大数据数据库
随着数据量的不断增大和对计算能力的需求日益提高，存算一体作为一种新型架构设计理念，在大数据处理、云计算和人工智能等领域正逐步引起广泛关注。在深入探讨存算一体之前，我们需要先了解存储和计算的基本概念，以及存算分离和存算一体之间的区别。什么是存算一体？存算一体，顾名思义，是将数据存储与计算资源紧密结合，形成一个统一的架构。在这种架构下，存储和计算不仅在物理层面上结合，更在架构设计上深度融合。具体来说，
LakeHouse湖仓一体成为下一站灯塔，数仓、数据湖架构即将退出群聊科杰科技大数据数据仓库
摘要：当前的大数据技术应用趋势表明，客户对单一的数据湖和数仓架构并不满意。近年来几乎所有的数据仓库都增加了对Parquet和ORC格式的外部表支持，这使数仓用户可以从相同的SQL引擎查询数据湖表，但它不会使数据湖表更易于管理，也不会消除仓库中数据的ETL复杂性、陈旧性和高级分析挑战。KeenDataLakeHouse（湖仓一体）作为新一代大数据技术架构，将逐渐取代单一数据湖和数仓架构，成为大数据架
数据让农业更聪明——用大数据激活田间地头 Echo_Wish 大数据大数据
数据让农业更聪明——用大数据激活田间地头在农业领域，随着人口增长和气候变化的影响，如何提升生产力始终是个关键话题。大数据，这个曾经只属于科技领域的概念，如今已悄然进入田间地头。今天，我以Echo_Wish的视角，和大家聊聊大数据如何赋能农业生产力，帮农民在阳光下也能掌握“科技的钥匙”。认识农业中的大数据什么是农业中的“大数据”？简单来说，就是收集和分析有关土地、气候、作物、病虫害以及市场需求等方面
GraphCube、Spark和深度学习技术赋能快消行业关键运营环节 weixin_30777913 开发语言大数据深度学习人工智能 spark
在快消品（FMCG）行业，需求计划（DemandPlanning）、库存管理（InventoryManagement）和需求供应管理（DemandSupplyManagement）是影响企业整体效率和利润水平的关键运营环节。GraphCube图多维数据集技术、Spark大数据分析处理技术和深度学习技术的结合，为这些环节提供了智能化、动态化和实时化的解决方案，显著提升业务运营效率和企业利润。一、技术
从 0 到 1 构建 Python 分布式爬虫，实现搜索引擎全攻略七七知享 Python python 分布式爬虫搜索引擎算法程序人生网络爬虫
从0到1构建Python分布式爬虫，实现搜索引擎全攻略在大数据与信息爆炸的时代，搜索引擎已然成为人们获取信息的关键入口。你是否好奇，像百度、谷歌这般强大的搜索引擎，背后是如何精准且高效地抓取海量网页数据的？本文将带你一探究竟，以Python为工具，打造属于自己的分布式爬虫，进而搭建一个简易搜索引擎，完整呈现从底层代码编写到系统搭建的全过程。通过本文的实践，我们成功打造了Python分布式爬虫，并以
第三十篇维度建模：从理论到落地的企业级实践随缘而动，随遇而安数据库 sql 数据仓库大数据数据库架构
目录一、维度建模核心理论体系1.1Kimball方法论四大支柱1.2关键概念对比矩阵二、四步建模法全流程解析2.1选择业务过程（以电商为例）2.2声明原子粒度（订单案例）2.3维度设计规范时间维度（含财年逻辑）SCDType2完整实现（Hudi）2.4事实表类型与设计三、企业级建模实战：电商用户分析3.1业务矩阵分析3.2模型实现代码四、高级建模技巧4.1多星型模式关联4.2大数据场景优化五、性能
Hive面试题御风行云天面试题大全 hive hadoop 数据仓库面试
Hive面试题1Hive基础概念1.1解释Hive是什么以及它的用途Hive的主要用途：1.2描述Hive架构和组件1.HiveCLI/Beeline和WebUI2.HiveQL3.HiveDriver（驱动）4.Metastore5.Compiler（编译器）6.Optimizer（优化器）7.Executor（执行器）8.HadoopCoreComponents（核心组件）9.HiveUDFs
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
深陷“大数据杀熟”漩涡的飞猪，庄卓然如何力挽狂澜？财经三剑客大数据
在线旅游市场（OTA）的蓬勃发展为消费者带来了诸多便利，然而，在这股数字化浪潮中，飞猪旅行却因其频繁陷入“大数据杀熟”的争议而备受瞩目。这一行为不仅损害了消费者的合法权益，更让飞猪的品牌形象蒙上了一层阴影。近年来，飞猪平台上关于价格乱象的投诉屡禁不止。在黑猫投诉平台上，与“飞猪”相关的投诉累计已超9万条，其中直接以“飞猪杀熟”为关键词的投诉便达数百条。消费者们纷纷反映，在飞猪平台上预订机票、酒店等
API item_get 在电商平台的核心作用以及如何测试 index_all 数据供应商京东api java 大数据开发语言
在电商行业蓬勃发展的今天，跨平台运营已成为众多商家的必然选择。然而，随之而来的数据孤岛问题却成为了制约电商企业进一步发展的瓶颈。为了解决这一问题，电商大数据平台应运而生，而item_getAPI作为获取商品详情的关键接口，在其中扮演着至关重要的角色。本文将深入探讨item_getAPI在跨平台电商数据整合中的应用与优势，为电商企业在数据驱动的道路上提供有力支持。一、跨平台电商数据整合的挑战在跨平台
“四预”驱动数字孪生水利：让智慧治水守护山河安澜 GeoSaaS 实景三维智慧城市人工智能 gis 大数据安全
近年来，从黄河秋汛到海河特大洪水，从珠江流域性洪灾到长江罕见骤旱，极端天气频发让水安全问题备受关注。如何实现“治水于未发”？数字孪生水利以“预报、预警、预演、预案”（四预）为核心，正在掀起一场水利治理的智慧革命。一、数字孪生水利：从物理世界到虚拟镜像的跃迁数字孪生水利并非简单的“数字建模”，而是通过高精度传感器、大数据、人工智能等技术，在虚拟空间构建与物理流域完全映射的“数字分身”，实现水情、工情
数智读书笔记系列021《大数据医疗》：探索医疗行业的智能变革 Allen_Lyb 数智读书笔记大数据健康医疗人工智能 python
一、书籍介绍《大数据医疗》由徐曼、沈江、余海燕合著，由机械工业出版社出版。徐曼是南开大学商学院副教授，在大数据驱动的智能决策研究领域颇有建树，尤其在大数据驱动的医疗与健康决策方面有着深入研究，曾获天津优秀博士论文、教育部博士研究生新人奖。沈江等作者也在相关学术和实践领域有着丰富的经验和深厚的专业知识。这本书系统且深入地探讨了大数据技术在医疗领域的应用与变革，对推动医疗行业的智能化发展具有重要的理论
#Hadoop全分布式安装 #mysql安装 #hive安装砸吧砸吧 hadoop hive yarn mysql
分布式（多台机器部署不同组件）与集群（多台机器部署相同组件）概念。Linux基础命令linux具有文件数：目录、文件，从根目录开始，路径具有唯一性。pwd：显示当前路径特殊符号：/：根目录.：隐藏文件，如果路径以.开始，表示当前目录下..：当前目录下的上一级~：当前目录的home目录--help：帮助命令使用linux常用操作命令tab键：自动补全ls：显示指定目录内容默认：当前路径-a：显示所有
OpenEuler kinit报错找不到文件的解决办法久违的太阳其他故障处理服务器运维
客户一套华为大数据集群平台,在一台arm平台openEuler服务器上面安装完集群客户端之后,使用kinit认证出现报错Nosuchfileordirectory:最终定位是操作系统/lib64缺少ld包导致,执行下面的命令恢复：ln-sv/lib/ld-linux-aarch64.so.1/lib64/ld-linux-aarch64.so.1
JAVA学习-练习试用Java实现“对大数据集中的网络日志进行解析和异常行为筛查” 守护者170 java学习 java 学习
问题：编写一个Spark程序，对大数据集中的网络日志进行解析和异常行为筛查。解答思路：下面是一个简单的Spark程序示例，用于解析网络日志并筛查异常行为。这个示例假设日志文件格式如下：timestamp,ip_address,user_id,action,event,extra_info2023-01-0112:00:00,192.168.1.1,123,login,success,none202
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(