lxcong

Hadoop （CDH4发行版）集群部署（部署脚本，namenode高可用，hadoop管理）

前言

折腾了一段时间hadoop的部署管理，写下此系列博客记录一下。

为了避免各位做部署这种重复性的劳动，我已经把部署的步骤写成脚本，各位只需要按着本文把脚本执行完，整个环境基本就部署完了。部署的脚本我放在了开源中国的git仓库里(http://git.oschina.net/snake1361222/hadoop_scripts)。

本文的所有部署都基于cloudera公司的CDH4,CDH4是cloudera公司包装好的hadoop生态圈一系列yum包，把CDH4放到自己的yum仓库中，能极大的提高hadoop环境部署的简易性。

本文的部署过程中涵盖了namenode的HA实现，hadoop管理的解决方案（hadoop配置文件的同步，快速部署脚本等）。

环境准备

一共用5台机器作为硬件环境，全都是centos 6.4

namenode & resourcemanager 主服务器: 192.168.1.1
namenode & resourcemanager 备服务器: 192.168.1.2
datanode & nodemanager 服务器: 192.168.1.100 192.168.1.101 192.168.1.102
zookeeper 服务器集群(用于namenode 高可用的自动切换): 192.168.1.100 192.168.1.101
jobhistory 服务器(用于记录mapreduce的日志): 192.168.1.1
用于namenode HA的NFS: 192.168.1.100

环境部署

一、加入CDH4的YUM仓库

1.最好的办法是把cdh4的包放到自建的yum仓库中,如何自建yum仓库请看自建YUM仓库

2.如果不想自建yum仓库，在所有的hadoop机器执行以下操作加入cdn4的yum仓库

wget http://archive.cloudera.com/cdh4/one-click-install/redhat/6/x86_64/cloudera-cdh-4-0.x86_64.rpm
sudo yum --nogpgcheck localinstall cloudera-cdh-4-0.x86_64.rpm

二、创建用于namenode HA的NFS服务器

1.登录192.168.1.100,执行以下脚本 createNFS.sh

#!/bin/bash
yum -y install rpc-bind nfs-utils
mkdir -p /data/nn_ha/
echo "/data/nn_ha  *(rw,root_squash,all_squash,sync)" >> /etc/exports
/etc/init.d/rpcbind start
/etc/init.d/nfs  start
chkconfig  --level 234 rpcbind   on
chkconfig  -level 234 nfs  on

三、Hadoop Namenode & resourcemanager 主服务器环境部署

1.登录192.168.1.1，创建脚本目录，把脚本从git仓库复制下来

yum �Cy install git
mkdir �Cp /opt/
cd /opt/
git clone http://git.oschina.net/snake1361222/hadoop_scripts.git
/etc/init.d/iptables stop

2.修改hostname

sh /opt/hadoop_scripts/deploy/AddHostname.sh

3.修改部署脚本的配置文件

vim /opt/kingsoft/hadoop_scripts/deploy/config
#添加master服务器的地址，也就是namenode主服务器
master="192.168.1.1"
#添加nfs服务器地址
nfsserver="192.168.1.100"

4.编辑hosts文件(此文件会同步到hadoop集群所有机器)

vim /opt/hadoop_scripts/share_data/resolv_host
127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.1.1 nn.dg.hadoop.cn
192.168.1.2 nn2.dg.hadoop.cn
192.168.1.100 dn100.dg.hadoop.cn
192.168.1.101 dn101.dg.hadoop.cn
192.168.1.102 dn102.dg.hadoop.cn

5.执行部署脚本CreateNamenode.sh

sh /opt/hadoop_scripts/deploy/CreateNamenode.sh

6.搭建saltstack master

PS:类似于puppet的服务器管理开源工具，比较轻量，在这里用于管理hadoop集群，调度datanode，关于saltstack的详细请看 SaltStack部署与使用

a.安装

yum -y install salt salt-master

b.修改配置文件`/etc/salt/master`,下面标志的是需要修改的项

修改监听IP：
interface: 0.0.0.0
多线程池：
worker_threads: 5
开启任务缓存：（官方描叙开启缓存能承载5000minion）
job_cache
开启自动认证：
auto_accept: True

c.开启服务

/etc/init.d/salt-master start
chkconfig  salt-master on

7.部署过程中已经把我的sample配置复制过去了，所以只需要修改部分配置文件

a. /etc/hadoop/conf/hdfs-site.xml (其实就是按实际修改主机名地址)

<property>
  <name>dfs.namenode.rpc-address.mycluster.ns1</name>
  <value>nn.dg.hadoop.cn:8020</value>
  <description>定义ns1的rpc地址</description>
</property>
<property>
  <name>dfs.namenode.rpc-address.mycluster.ns2</name>
  <value>nn2.dg.hadoop.cn:8020</value>
  <description>定义ns2的rpc地址</description>
</property>
<property>
    <name>ha.zookeeper.quorum</name>
    <value>dn100.dg.hadoop.cn:2181,dn101.dg.hadoop.cn:2181,dn102.dg.hadoop.cn:2181,</value>
    <description>指定用于HA的ZooKeeper集群机器列表</description>
</property>

b. mapred-site.xml

<property>
 <name>mapreduce.jobhistory.address</name>
 <value>nn.dg.hadoop.cn:10020</value>
</property>
<property>
 <name>mapreduce.jobhistory.webapp.address</name>
 <value>nn.dg.hadoop.cn:19888</value>
</property>

c. yarn-site.xml

<property>
  <name>yarn.resourcemanager.resource-tracker.address</name>
  <value>nn.dg.hadoop.cn:8031</value>
</property>
<property>
  <name>yarn.resourcemanager.address</name>
  <value>nn.dg.hadoop.cn:8032</value>
</property>
<property>
  <name>yarn.resourcemanager.scheduler.address</name>
  <value>nn.dg.hadoop.cn:8030</value>
</property>
<property>
  <name>yarn.resourcemanager.admin.address</name>
  <value>nn.dg.hadoop.cn:8033</value>
</property>

三、Hadoop Namenode & resourcemanager 备服务器环境部署

1.登录192.168.1.2，创建脚本目录，从主服务器把脚本同步过来

/etc/init.d/iptables stop
mkdir �Cp /opt/hadoop_scripts
rsync �Cavz 192.168.1.1::hadoop_s   /opt/hadoop_scripts

2.执行部署脚本CreateNamenode.sh

sh /opt/hadoop_scripts/deploy/CreateNamenode.sh

3.同步hadoop配置文件

rsync �Cavz 192.168.1.1::hadoop_conf  /etc/hadoop/conf

4.部署saltstack客户端

sh /opt/hadoop_scripts/deploy/salt_minion.sh

四、zookeeper服务器集群部署

zookeeper是一个开源分布式服务，在这里用于namenode 的auto fail over功能。

1.安装

yum install zookeeper zookeeper-server

2.修改配置文件/etc/zookeeper/conf/zoo.cfg

maxClientCnxns=50
# The number of milliseconds of each tick
tickTime=2000
# The number of ticks that the initial
# synchronization phase can take
initLimit=10
# The number of ticks that can pass between
# sending a request and getting an acknowledgement
syncLimit=5
# the directory where the snapshot is stored.
dataDir=/var/lib/zookeeper
# the port at which the clients will connect
clientPort=2181
#这里指定zookeeper集群内的所有机器,此配置集群内机器都是一样的
server.1=dn100.dg.hadoop.cn :2888:3888
server.2=dn101.dg.hadoop.cn:2888:3888

3.指定当前机器的id,并开启服务

#譬如当前机器是192.168.1.100(dn100.dg.hadoop.cn),它是server.1，id是1，SO：
echo "1" >  /var/lib/zookeeper/myid
chown -R zookeeper.zookeeper /var/lib/zookeeper/
service zookeeper-server init
/etc/init.d/zookeeper-server start
chkconfig zookeeper-server on
#如此类推，部署192.168.1.101

五、datanode & nodemanager 服务器部署

1.登录datanode机器,创建脚本目录，从主服务器把脚本同步过来

/etc/init.d/iptables stop
mkdir �Cp /opt/hadoop_scripts
rsync �Cavz 192.168.1.1::hadoop_s   /opt/hadoop_scripts

2.修改hostname，执行部署脚本 CreateDatanode.sh

sh /opt/hadoop_scripts/deploy/AddHostname.sh
sh /opt/hadoop_scripts/deploy/CreateDatanode.sh

集群初始化

到这里，hadoop集群的环境已部署完毕，现在开始初始化集群

一、namenode的HA高可用初始化

1.在namenode主服务器(192.168.1.1)执行zookeeper的failover功能格式化

sudo �Cu hdfs hdfs zkfc �CformatZK

2.把zookeeper集群服务启动(192.168.1.100 192.168.1.101 )

/etc/init.d/zookeeper-server start

3.把namenode主备服务器的zkfc服务起来(192.168.1.1 192.168.1.2)

/etc/init.d/hadoop-hdfs-zkfc start

4.在namenode主服务器(192.168.1.1)格式化hdfs

#确保是用hdfs用户格式化
sudo -u hdfs hadoop namenode �Cformat

5.第一次搭建namenode高可用，需要把name.dir下面的数据复制到namenode备服务器（此坑花了好多时间）

a.在主服务器(192.168.1.1)执行

tar -zcvPf /tmp/namedir.tar.gz /data/hadoop/dfs/name/
nc -l 9999 < /tmp/namedir.tar.gz

b.在备服务器(192.168.1.2)执行

wget 192.168.1.1:9999 -O /tmp/namedir.tar.gz
tar -zxvPf /tmp/namedir.tar.gz

6.主从服务都启动

/etc/init.d/hadoop-hdfs-namenode start
/etc/init.d/hadoop-yarn-resourcemanager start

7.查看hdfs的web界面

http://192.168.1.1:9080
http://192.168.1.2:9080
#如果在web界面看到两个namenode都是backup状态，那就是auto fail over配置不成功
#查看zkfc日志(/var/log/hadoop-hdfs/hadoop-hdfs-zkfc-nn.dg.s.kingsoft.net.log)
#查看zookeeper集群的日志(/var/log/zookeeper/zookeeper.log)

8.现在可以尝试关闭namenode主服务，看是否能主从切换

二、hdfs集群开启

到这里，所有hadoop部署已完成，现在开始把集群启动，验证效果

1.把所有datanode服务器启动

#还记得之前搭建的saltstack管理工具不，现在开始发挥它的作用,登录saltstack master(192.168.1.1)执行
salt -v "dn*" cmd.run "/etc/init.d/hadoop-hdfs-datanode start"

2.查看hdfs web界面,看是否都成为live nodes

3.如果没有问题，现在可以尝试hdfs操作

#创建一个tmp目录
sudo -u hdfs hdfs dfs -mkdir /tmp
#创建一个10G大小的空文件,计算它的MD5值，并放入hdfs
dd if=/dev/zero of=/data/test_10G_file bs=1G count=10
md5sum /data/test_10G_file
sudo -u hdfs hdfs dfs -put /data/test_10G_file  /tmp
sudo -u hdfs hdfs dfs -ls /tmp
#现在可以尝试关闭一台datanode,然后把刚才的测试文件拉取出来，再算一次MD5看是否一样
sudo -u hdfs hdfs dfs -get /tmp/test_10G_file /tmp/
md5sum /tmp/test_10G_file

三、yarn集群开启

hadoop除了hdfs用于大数据的分布式存储，还有更重要的组件，分布式计算(mapreduce)。现在我们来把mapreducev2 yarn集群启动

1.在主服务器把resourcemanager服务起来（192.168.1.1）

/etc/init.d/hadoop-yarn-resourcemanager start

2.把所有nodemanager服务启动

#还是登陆saltstack master，执行
salt -v "dn*" cmd.run "/etc/init.d/hadoop-yarn-nodemanager start"

3.查看yarn 任务追踪界面(http://192.168.1.1:9081/),看是否所有nodes都已加入

4.hadoop自带有基准测试的mapreduce实例，我们利用它来测试yarn环境是否正常

#TestDFSIO测试HDFS的读写性能,写10个文件，每个文件1G.
su hdfs -
hadoop jar /usr/lib/hadoop-mapreduce/hadoop-mapreduce-client-jobclient-2.0.0-cdh4.2.1-tests.jar TestDFSIO  -write -nrFiles 10 -fileSize 1000
#Sort测试MapReduce
##向random-data目录输出数据
hadoop jar /usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar randomwriter  random-data
##运行sort程序
hadoop jar /usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar sort random-data sorted-data
##验证sorted-data 文件是否排好序
hadoop jar /usr/lib/hadoop-mapreduce/hadoop-mapreduce-client-jobclient-2.0.0-cdh4.2.1-tests.jar testmapredsort -sortInput random-data \
-sortOutput sorted-data

Hadoop集群的管理

一、datanode & nodemanager 节点加入

1.修改hosts表,譬如有节点192.168.1.103需要加入

vim /opt/hadoop_scripts/share_data/resolv_host
127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.1.1 nn.dg.hadoop.cn
192.168.1.2 nn2.dg.hadoop.cn
192.168.1.100 dn100.dg.hadoop.cn
192.168.1.101 dn101.dg.hadoop.cn
192.168.1.102 dn102.dg.hadoop.cn
192.168.1.103 dn103.dg.hadoop.cn

2.修改hostname，同步脚本目录,并执行部署

mkdir �Cp /opt/hadoop_scripts
rsync �Cavz 192.168.1.1::hadoop_s   /opt/hadoop_scripts
sh /opt/hadoop_scripts/deploy/CreateDatanode.sh
sh /opt/hadoop_scripts/deploy/AddHostname.sh

3.开启服务

/etc/init.d/hadoop-hdfs-datanode start
/etc/init.d/hadoop-yarn-nodemanager start

二、修改hadoop配置文件

一般在一个hadoop集群中维护一份hadoop配置，这份hadoop配置需要分发到集群中各个成员。这里的做法是 salt + rsync

#修改namenode主服务器的hadoop配置文件  /etc/hadoop/conf/，然后执行以下命令同步到集群中所有成员
sync_h_conf
#脚本目录也是需要维护的，譬如hosts文件/opt/hadoop_scripts/share_data/resolv_host，修改后执行以下命令同步到集群中所有成员
sync_h_script
#其实这两个命令是我自己定义的salt命令的别名，查看这里/opt/hadoop_scripts/profile.d/hadoop.sh

三、监控

比较普遍的方案是,ganglia和nagios监控，ganglia收集大量度量，以图形化程序，nagios在某度量超出阀值后报警.ganglia监控以后补充一下文档

其实，hadoop自带有接口提供我们自己写监控程序，而且这个接口还是比较简单，通过这样便可以访问http://192.168.1.1:9080/jmx,返回值是JSON格式，其中的内容也非常详细。但是每次查询都返回一大串的JSON也是浪费，其实接口还提供更新详细的查询譬如我只想查找系统信息，可以这样调用接口 http://192.168.1.1:9080/jmx?qry=java.lang:type=OperatingSystem 。qry参考后跟的就是整个JSON的“name”这个key的值

总结

在折腾hadoop集群的部署是还是遇到了很多坑，打算下篇写自己所遭遇的问题。通过本文部署遇到问题的可以联系一下我,互相交流一下。QQ:83766787。当然也欢迎大家一起修改部署的脚本，git地址是http://git.oschina.net/snake1361222/hadoop_scripts

【hadoop】master一键启动hadoop集群（高可用）火龙谷 hadoop hadoop linux
之前写了一篇【hadoop】master一键启动zkServer-CSDN博客现在是最好的安排：1.cd~vimhadoop-all.sh#!/bin/bash#检查参数是否为start或stopif["$1"="start"];then#启动服务sh~/zk-all.shstartstart-dfs.shstart-yarn.shelif["$1"="stop"];then#停止服务stop-y
【hadoop】基于hive的B站用户行为大数据分析火龙谷 hadoop hive hadoop 数据仓库
1.需求分析b站现在积累有用户数据和视频列表数据，为了配合市场部门做好用户运营工作，需要对b站的用户行为进行分析，其具体需求如下所示：统计b站视频不同评分等级（行转列）的视频数。统计上传b站视频最多的用户Top10，以及这些用户上传的视频观看次数在前10的视频。统计b站每个类别视频观看数topn。统计b站视频分类热度topn。统计b站视频观看数topn。2.表结构2.1user表结构2.2vide
Kafka详解——介绍与部署克里斯蒂亚诺罗纳尔多阿维罗大数据 kafka 分布式大数据
1.什么是Kafka？Kafka是一个分布式的消息队列系统，最初由LinkedIn开发，后来成为Apache开源项目。它的主要用途包括实时数据处理、日志收集、数据流管道构建等。Kafka具备高吞吐量、可扩展性、持久性和容错性，广泛应用于大数据和实时流处理场景。核心概念Producer（生产者）：负责向Kafka发送消息的数据发布方。Consumer（消费者）：从Kafka读取消息的应用程序。Top
vue常见错误 Hannah vue.js 前端 javascript
1、Can'tresolve'vant/lib/index.less'1.未正确安装Vant首先，确保你已经正确安装了Vant。可以通过以下命令来安装：npminstallvant--save或者使用yarn：yarnaddvant2.LESS加载器未配置如果你在项目中使用了Vant的LESS样式文件（例如vant/lib/index.less），你需要确保项目中已经安装了less和less-lo
爬虫开发者必看：绕过反爬机制获取拼多多商品评论接口数据 lovelin+vI7809804594 数据库人工智能爬虫数据分析 python
在大数据和人工智能快速发展的时代，数据采集成为了许多企业和个人不可或缺的一部分。电商平台作为数据丰富的宝库，吸引了大量爬虫开发者进行数据抓取。然而，随着反爬虫技术的不断进步，如何绕过反爬机制，高效、安全地获取数据成为了一个挑战。本文将深入探讨如何绕过拼多多的反爬机制，获取商品评论接口数据。一、了解拼多多的反爬机制在开始数据抓取之前，首先需要深入了解拼多多的反爬机制。拼多多的反爬机制主要包括以下几个
openGauss数据库源码解析 | openGauss简介(二） openGauss小助手 openGauss openGauss技术分享数据库 openGauss
1.2应用场景openGauss数据库有以下几个主要应用场景。（1）交易型应用。大并发、大数据量、以联机事务处理为主的交易型应用，如电商、金融、O2O、电信CRM/计费等，可按需选择不同的主备部署模式。（2）物联网数据。物联网场景如工业监控、远程控制、智慧城市及其延展领域、智能家居和车联网等。物联网场景的特点是传感监控设备的种类和数量多、数据采样频率高、数据存储为追加模型、对数据的操作和分析并重。
硬核科普 | 新能源轻卡数字孪生：从“虚拟克隆”到能耗精准预测的工业革命新能源汽车--三电老K 科普汽车数学建模
导语当一辆新能源轻卡疾驰在公路上时，它的“数字分身”正在虚拟世界中同步呼吸——实时监测电池温度、计算能耗曲线、预测剩余里程。这并非科幻场景，而是**数字孪生（DigitalTwin）**技术对物流运输行业的颠覆性革新。本文将深度解析数字孪生的核心原理，并揭秘新能源轻卡数字孪生系统搭建全流程！一、数字孪生：物理世界的“元宇宙镜像”1.什么是数字孪生？数字孪生是通过物联网、大数据、AI等技术，为物理实
第4章分布式数据库HBase（又是一篇呕心力作，一文详讲HBase） wyz191 大数据技术原理与应用 -概念存储处理分析与应用大数据 hbase
HBase是谷歌BigTable的开源实现，是一个高可靠、高性能、面向列、可伸缩的分布式数据库，主要用来存储非结构化和半结构化的松散数据。适合于存储大表数据（表的规模可以达到数十亿行以及数百万列），并且对大表数据的读、写访问可以达到实时级别。利用HadoopHDFS(HadoopDistributedFileSystem)作为其文件存储系统，提供实时读写的分布式数据库系统。利用ZooKeeper作
2025年软件测试初级面试题终极指南：助你斩获高薪offer的爆火攻略科技小能手功能测试单元测试压力测试软件构建 python java
一、2025年软件测试行业新趋势（面试加分项）AI驱动测试：AI生成测试用例、缺陷预测、自动化脚本优化成为核心能力，面试需准备AI测试工具（如Testim、Applitools）的使用场景。无脚本自动化测试：低代码/无代码平台（如Katalon）普及，需掌握可视化测试框架的设计逻辑。右移测试（测试左移+右移）：从需求评审阶段介入测试（左移），并关注生产环境监控与用户反馈分析（右移）。云原生与大数据
大数据｜Hive和数据仓库啦啦右一右一的电子笔记合集大数据 hive 数据仓库
前文回顾：HBase基本工作原理目录数据仓库和OLAP数据仓库面向主题集成的时变的非易失的OLTP（联机事务处理）vsOLAP（联机分析处理）Hive基本工作原理Hive和HBase的区别Hive的作用与结构组成Hive的数据模型表（Table）外部表（ExternalTable）分区（Partition）桶（Bucket）Hive查询语言——HiveQL创建数据表的命令装入数据插入数据SELEC
Atlas安装详解 g511266804 大数据大数据 hadoop hive zookeeper
一、Atlas简介1.Atlas概述ApacheAtlas为组织提供开放式元数据管理和治理功能，用以构建其数据资产目录，对这些资产进行分类和管理，并为数据分析师和数据治理团队，提供围绕这些数据资产的协作功能，它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。2.Atlas框架原理2.1Core层Atlas核心包含以下组件：2.1.1类型系统
【大数据安全】大数据安全的挑战与对策&；基础设施安全_数据安全面临的挑战图解 2401_84170391 程序员安全 wpf
一、大数据安全的挑战与对策（一）数据加密技术1、对称密码对称密码的特征是加密密钥和解密密钥相同。对称密码不仅可用于数据加密，也可用于消息的认证，最有影响的对称密码是美国国家标准局颁布的DES/AES算法。对称密码系统的保密性主要取决于密钥的安全性，因此必须通过安全可靠的途径（如信使递送）将密钥送至接收端。2、密钥管理如何将密钥安全、可靠地分配给通信对方，包括密钥产生、分配、存储和销毁等多方面的问题
使用 Python 爬虫抓取数据并存储到 MongoDB Python爬虫项目 python 爬虫 kotlin 网络开发语言数据库 android
1.引言在现代数据工程中，数据的抓取、存储和分析是三个核心环节。随着大数据技术的迅速发展，越来越多的开发者选择使用MongoDB作为数据存储解决方案。MongoDB是一个基于文档的NoSQL数据库，它具有高效的数据存储和灵活的查询功能，非常适合存储结构化或半结构化数据。在Python中，我们可以通过pymongo库来与MongoDB进行交互，将抓取到的数据高效地存储到MongoDB数据库中，进而支
探索自然语言处理：技术、应用及代码示例十四与诗自然语言处理人工智能
自然语言处理（NLP）是人工智能的一个重要分支，它使计算机能够理解、解释和生成人类语言。随着大数据和机器学习技术的发展，NLP在许多领域都有广泛的应用，从搜索引擎和翻译服务到聊天机器人和情感分析。一、自然语言处理的基本概念1.1什么是自然语言处理自然语言处理（NLP）是计算机科学、人工智能和语言学交叉的领域，旨在使计算机能够理解和处理人类语言。NLP涉及多个任务，包括但不限于：语言模型（Langu
深度解析华为仓颉语言阳爱铭华为开发语言青少年编程 java c语言编辑器程序员创富
什么是华为仓颉语言？华为仓颉语言（HuaweiCangjieLanguage，HCL）是华为公司推出的一种新型编程语言，旨在解决大规模分布式系统开发中的复杂性问题。仓颉语言以高效、简洁和易用为设计目标，特别适用于云计算、大数据处理和人工智能等领域。其核心特性包括高性能并行计算、强类型系统、简洁的语法结构和丰富的库支持。与其他同类型产品的对比在分析华为仓颉语言的优缺点时，我们可以将其与其他几种常见的
机器学习：利用Spark MLlib实现分布式机器学习算法训练与预测。 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.背景介绍近年来，随着云计算、大数据、人工智能等技术的不断发展，基于大规模数据处理的机器学习算法也在迅速发展壮大。机器学习（MachineLearning）是一门融合了统计、模式识别、计算机科学、数据挖掘等多领域知识而成的交叉学科，其目的是利用已知的数据，对未知的数据进行预测、分类、聚类、降维等任务，从而提高计算机程序的学习能力，改善自身的决策能力，解决实际问题。随着
Spark-SQL核心编程：DataFrame、DataSet与RDD深度解析不要天天开心 spark
在大数据处理领域，Spark-SQL是极为重要的工具。今天就来深入探讨Spark-SQL中DataFrame、DataSet和RDD这三个关键数据结构。Spark-SQL的前身是Shark，它摆脱了对Hive的过度依赖，在数据兼容、性能优化和组件扩展上有显著提升。DataFrame是基于RDD的分布式数据集，类似二维表格且带有schema元信息，这让SparkSQL能优化执行，性能优于RDD，其A
国密算法面试题解析及应用曼岛_ 密码学实战算法密码学面试
以下是密码学领域常见的面试题及其详细解析，涵盖基础理论、算法实现与应用场景，帮助系统化备战技术面试一、基础概念类1.密码学的主要目标是什么？答案：确保数据的机密性（加密防止窃听）、完整性（哈希校验防篡改）、认证性（数字签名验证身份）和不可否认性（签名防抵赖）。2.对称加密与非对称加密的区别？答案：对称加密（如AES、SM4）：加密解密使用同一密钥，速度快，适合大数据量加密，但密钥分发困难。非对称加
[特殊字符] Python爬虫实战：基于Scrapy和BeautifulSoup爬取新华网和人民网最新新闻 Python爬虫项目 python 爬虫 scrapy 开发语言人工智能 beautifulsoup
在大数据时代，获取和分析新闻数据对于研究社会热点、舆情分析以及新闻推荐系统都至关重要。本文将详细介绍如何使用Python构建一个完整的新闻爬虫，实现从新华网和人民网获取最新新闻内容，并进行数据清洗和存储。一、项目背景新闻是社会舆论的重要风向标，及时获取新闻内容能够帮助我们更好地把握社会动态。手动浏览新闻网站不仅效率低，而且很难做到全面覆盖。因此，使用爬虫技术自动化获取新闻数据是一种高效的解决方案。
大数据人工智能 yzx991013 机器学习人工智能算法深度学习决策树
在大数据人工智能领域，需要具备多种算法和深度学习知识，以下是一些常见的：机器学习算法-线性回归：用于建立输入特征与连续型输出变量之间的线性关系，常用于预测数值型数据。-逻辑回归：主要用于二分类问题，通过将线性函数的输出映射到0到1之间的概率值来进行分类。-决策树：基于树结构进行决策，每个内部节点是一个属性上的测试，分支是测试输出，叶节点是类别或值，可处理分类和回归问题。-支持向量机：在特征空间中寻
大数据面试题目_综合面试_hadoop面试题_hive面试题_sqoop面试题_spark面试题_flume面试题_kafka面试题---大数据面试题007 添柴程序猿大数据 hadoop hive 大数据面试题 flume
大数据面试:1.说一下hadoop的集群部署模式有哪几种,完全分布式如何部署以及配置?2.hadoop的守护进程有哪些?2.之前的公司,为什么要离职?3.之前公司的待遇工资多少?4.用Flink处理过什么场景的业务,是如何实现的,说一下流程?5.有没有用过NIFI?6.做的时候后端是如何做的,用的什么框架?有没有了解过springcloudTencent?7.hadoop中的代理用户功能的作用,和
大数据面试问答-HBase/ClickHouse 孟意昶数据开发面试经验记录大数据面试 hbase
1.HBase1.1概念HBase是构建在HadoopHDFS之上的分布式NoSQL数据库，采用列式存储模型，支持海量数据的实时读写和随机访问。适用于高吞吐、低延迟的场景，如实时日志处理、在线交易等。RowKey（行键）定义：表中每行数据的唯一标识，类似于关系数据库的主键。特点：数据按RowKey的字典序全局排序。所有查询必须基于RowKey或范围扫描（Scan）。示例：user_123_orde
开源：一个完整的数据中台项目，MIT协议，可以随意开发和商业化 qq_38220914 开源
大家好，我是GitHub找项目君，每天为大家介绍GitHub上的开源项目主要分享GitHub上有趣、有意义、重要的项目一个完整的数据中台项目，极具野心的大数据平台开源项目源代码https://www.gitpp.com/supermq/holy-data-center复杂、不简单能实现已经是奇迹底层数据存储+中台数据层+上层应用层holy-data-center是一个技术密集型的大数据平台项目，旨
python利用gdal读取、写出tif格式的遥感卫星影像，包含超大数据量的读写唯物主义孙讨逆 python python 开发语言图像处理矩阵
gdal库特别强大，可以很方便的读写带有地理参考的影像数据1.使用gdal读取tif图像，读入数组data中：fromosgeoimportgdal,osrdefreadTif():#输入路径地址tifpath=r"D:\data.tif"#gdal打开影像，成为dataset数据集（这一步没有放入内存中）dataset=gdal.Open(tiffile,gdal.GA_ReadOnly)#读取
大数据工程师：从牛客整理的 BAT Flink 面试题愤怒的小青春 java
百川智能数据开发笔试腾讯wxg企业微信部门面经金九银十，薪酬谈判技巧美团还真会作废offer啊啊啊啊啊！肠子面试时千万不能说这些话，不然一定凉凉秒杀项目常见问题秋招总结-上感觉读研确实改变了我的人生计算机网络高频面试题美团谈薪2020华为消费者管培生（春招面经）字节跳动前端岗社招面筋分享字节跳动前端岗社招面筋分享虾皮一面_测开_深圳【面经大全】实习&提前批&秋招->277个面经OC记录虾皮测试工程
什么是分布式数据库？ TechCraft 分布式数据库
随着现代互联网应用和大数据时代的到来，分布式数据库成为了解决大规模数据存储和高并发处理的核心技术之一。本文将通过深入浅出的方式，带你全面理解分布式数据库的概念、工作原理以及底层实现技术。无论你是刚刚接触分布式数据库的开发者，还是已经有一定实践经验的架构师，都能从中获得有价值的知识和实践思路。一、什么是分布式数据库？分布式数据库是指将数据存储在多台计算机上，这些计算机通过网络连接起来，共同对数据进行
Python爬虫从入门到实战：8天精通数据抓取技巧七七知享 Python python 爬虫开发语言网络爬虫程序人生程序员编程语言
重要的东西放在前面咯Python爬虫入门到实战Python爬虫从入门到实战：8天精通数据抓取技巧在大数据时代，从互联网海量信息中获取有价值的数据，对于许多领域的工作至关重要。Python凭借其丰富的库和简洁的语法，成为爬虫开发的首选语言。如果你渴望在短时间内掌握Python爬虫技术，实现从网页抓取各类数据，这份精心设计的8天速成攻略将带你开启高效学习之旅，通过丰富的实战案例，让你迅速上手，成长为爬
精准推荐引擎模块：为婚恋交友小程序用户邂逅缘分小程序phpvue.js
婚恋APP在当前环境下的创新发展路径主要包括以下几个方面：技术创新与用户体验优化：大数据与AI算法的应用：通过大数据分析和AI算法，婚恋APP可以更精准地匹配用户需求，提供个性化推荐，提升匹配成功率；通过深度分析用户的个人资料、兴趣爱好、生活习惯以及心理特征，构建出最佳伴侣的心理画像。然后，在庞大的用户数据库中寻找与该画像最匹配的候选人，实现精准推荐隐私保护技术：加强数据加密和访问控制，确保用户信
大数据与分析：数据挖掘概念及流程 NSAcbba 数据挖掘人工智能
数据挖掘是一个从大量数据中提取有价值信息或模式的过程，它依赖于统计学、机器学习、数据库技术和人工智能等多个领域的知识和技术。以下是数据挖掘的概念及其流程的详细解释：一、数据挖掘的概念数据挖掘（DataMining）是指通过特定的计算机算法对大量的数据进行自动分析，以揭示数据中的隐藏模式、未知的相关性和其他有用的信息。这些信息可以帮助企业做出更明智的决策，提高运营效率，发现新的市场机会等。数据挖掘不
Java学习的智慧之路——从入门到精通，轻松掌握编程艺术 inscode_037
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE标题：Java学习的智慧之路——从入门到精通，轻松掌握编程艺术引言在当今数字化时代，Java作为一种广泛应用于企业级应用、移动开发和大数据处理的强大编程语言，已经成为众多开发者和企业的首选。然而，对于初学者来说，Java的学习曲线可能显得陡峭且充满挑战。幸运的是，随着AI技术的发展，智能化工具如InsCodeAIIDE为J
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h

Hadoop （CDH4发行版）集群部署 （部署脚本，namenode高可用，hadoop管理）

前言