snakelxc

Hadoop （CDH4发行版）集群部署

前言

折腾了一段时间hadoop的部署管理，写下此系列博客记录一下。

为了避免各位做部署这种重复性的劳动，我已经把部署的步骤写成脚本，各位只需要按着本文把脚本执行完，整个环境基本就部署完了。部署的脚本我放在了开源中国的git仓库里(http://git.oschina.net/snake1361222/hadoop_scripts)。

本文的所有部署都基于cloudera公司的CDH4,CDH4是cloudera公司包装好的hadoop生态圈一系列yum包，把CDH4放到自己的yum仓库中，能极大的提高hadoop环境部署的简易性。

本文的部署过程中涵盖了namenode的HA实现，hadoop管理的解决方案（hadoop配置文件的同步，快速部署脚本等）。

环境准备

一共用5台机器作为硬件环境，全都是centos 6.4

namenode & resourcemanager 主服务器: 192.168.1.1
namenode & resourcemanager 备服务器: 192.168.1.2
datanode & nodemanager 服务器: 192.168.1.100 192.168.1.101 192.168.1.102
zookeeper 服务器集群(用于namenode 高可用的自动切换): 192.168.1.100 192.168.1.101
jobhistory 服务器(用于记录mapreduce的日志): 192.168.1.1
用于namenode HA的NFS: 192.168.1.100

环境部署

一、加入CDH4的YUM仓库

1.最好的办法是把cdh4的包放到自建的yum仓库中,如何自建yum仓库请看自建YUM仓库

2.如果不想自建yum仓库，在所有的hadoop机器执行以下操作加入cdn4的yum仓库

wget http://archive.cloudera.com/cdh4/one-click-install/redhat/6/x86_64/cloudera-cdh-4-0.x86_64.rpm
sudo yum --nogpgcheck localinstall cloudera-cdh-4-0.x86_64.rpm

二、创建用于namenode HA的NFS服务器

1.登录192.168.1.100,执行以下脚本 createNFS.sh

#!/bin/bash
yum -y install rpc-bind nfs-utils
mkdir -p /data/nn_ha/
echo "/data/nn_ha  *(rw,root_squash,all_squash,sync)" >> /etc/exports
/etc/init.d/rpcbind start
/etc/init.d/nfs  start
chkconfig  --level 234 rpcbind   on
chkconfig  -level 234 nfs  on

三、Hadoop Namenode & resourcemanager 主服务器环境部署

1.登录192.168.1.1，创建脚本目录，把脚本从git仓库复制下来

yum –y install git
mkdir –p /opt/
cd /opt/
git clone http://git.oschina.net/snake1361222/hadoop_scripts.git
/etc/init.d/iptables stop

2.修改hostname

sh /opt/hadoop_scripts/deploy/AddHostname.sh

3.修改部署脚本的配置文件

vim /opt/hadoop_scripts/deploy/config

#添加master服务器的地址，也就是namenode主服务器
master="192.168.1.1"
#添加nfs服务器地址
nfsserver="192.168.1.100"

4.编辑hosts文件(此文件会同步到hadoop集群所有机器)

vim /opt/hadoop_scripts/share_data/resolv_host

127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.1.1 nn.dg.hadoop.cn
192.168.1.2 nn2.dg.hadoop.cn
192.168.1.100 dn100.dg.hadoop.cn
192.168.1.101 dn101.dg.hadoop.cn
192.168.1.102 dn102.dg.hadoop.cn

5.执行部署脚本CreateNamenode.sh

sh /opt/hadoop_scripts/deploy/CreateNamenode.sh

6.搭建saltstack master

PS:类似于puppet的服务器管理开源工具，比较轻量，在这里用于管理hadoop集群，调度datanode，关于saltstack的详细请看 SaltStack部署与使用

a.安装

yum -y install salt salt-master

b.修改配置文件`/etc/salt/master`,下面标志的是需要修改的项

修改监听IP：
interface: 0.0.0.0
多线程池：
worker_threads: 5
开启任务缓存：（官方描叙开启缓存能承载5000minion）
job_cache
开启自动认证：
auto_accept: True

c.开启服务

/etc/init.d/salt-master start
chkconfig  salt-master on

7.部署过程中已经把我的sample配置复制过去了，所以只需要修改部分配置文件

a. /etc/hadoop/conf/hdfs-site.xml (其实就是按实际修改主机名地址)

<property>
  <name>dfs.namenode.rpc-address.mycluster.ns1</name>
  <value>nn.dg.hadoop.cn:8020</value>
  <description>定义ns1的rpc地址</description>
</property>
<property>
  <name>dfs.namenode.rpc-address.mycluster.ns2</name>
  <value>nn2.dg.hadoop.cn:8020</value>
  <description>定义ns2的rpc地址</description>
</property>
<property>
    <name>ha.zookeeper.quorum</name>
    <value>dn100.dg.hadoop.cn:2181,dn101.dg.hadoop.cn:2181,dn102.dg.hadoop.cn:2181,</value>
    <description>指定用于HA的ZooKeeper集群机器列表</description>
</property>

b. mapred-site.xml

<property>
 <name>mapreduce.jobhistory.address</name>
 <value>nn.dg.hadoop.cn:10020</value>
</property>
<property>
 <name>mapreduce.jobhistory.webapp.address</name>
 <value>nn.dg.hadoop.cn:19888</value>
</property>

c. yarn-site.xml

<property>
  <name>yarn.resourcemanager.resource-tracker.address</name>
  <value>nn.dg.hadoop.cn:8031</value>
</property>
<property>
  <name>yarn.resourcemanager.address</name>
  <value>nn.dg.hadoop.cn:8032</value>
</property>
<property>
  <name>yarn.resourcemanager.scheduler.address</name>
  <value>nn.dg.hadoop.cn:8030</value>
</property>
<property>
  <name>yarn.resourcemanager.admin.address</name>
  <value>nn.dg.hadoop.cn:8033</value>
</property>

三、Hadoop Namenode & resourcemanager 备服务器环境部署

1.登录192.168.1.2，创建脚本目录，从主服务器把脚本同步过来

/etc/init.d/iptables stop
mkdir –p /opt/hadoop_scripts
rsync –avz 192.168.1.1::hadoop_s   /opt/hadoop_scripts

2.修改hostname

sh /opt/hadoop_scripts/deploy/AddHostname.sh

2.执行部署脚本CreateNamenode.sh

sh /opt/hadoop_scripts/deploy/CreateNamenode.sh

3.同步hadoop配置文件

rsync –avz 192.168.1.1::hadoop_conf  /etc/hadoop/conf

4.部署saltstack客户端

sh /opt/hadoop_scripts/deploy/salt_minion.sh

四、zookeeper服务器集群部署

zookeeper是一个开源分布式服务，在这里用于namenode 的auto fail over功能。

1.安装

yum install zookeeper zookeeper-server

2.修改配置文件/etc/zookeeper/conf/zoo.cfg

maxClientCnxns=50
# The number of milliseconds of each tick
tickTime=2000
# The number of ticks that the initial
# synchronization phase can take
initLimit=10
# The number of ticks that can pass between
# sending a request and getting an acknowledgement
syncLimit=5
# the directory where the snapshot is stored.
dataDir=/var/lib/zookeeper
# the port at which the clients will connect
clientPort=2181
#这里指定zookeeper集群内的所有机器,此配置集群内机器都是一样的
server.1=dn100.dg.hadoop.cn :2888:3888
server.2=dn101.dg.hadoop.cn:2888:3888

3.指定当前机器的id,并开启服务

#譬如当前机器是192.168.1.100(dn100.dg.hadoop.cn),它是server.1，id是1，SO：
echo "1" >  /var/lib/zookeeper/myid
chown -R zookeeper.zookeeper /var/lib/zookeeper/
service zookeeper-server init
/etc/init.d/zookeeper-server start
chkconfig zookeeper-server on
#如此类推，部署192.168.1.101

五、datanode & nodemanager 服务器部署

1.登录datanode机器,创建脚本目录，从主服务器把脚本同步过来

/etc/init.d/iptables stop
mkdir –p /opt/hadoop_scripts
rsync –avz 192.168.1.1::hadoop_s   /opt/hadoop_scripts

2.修改hostname，执行部署脚本 CreateDatanode.sh

sh /opt/hadoop_scripts/deploy/AddHostname.sh
sh /opt/hadoop_scripts/deploy/CreateDatanode.sh

集群初始化

到这里，hadoop集群的环境已部署完毕，现在开始初始化集群

一、namenode的HA高可用初始化

1.把zookeeper集群服务启动(192.168.1.100 192.168.1.101 )

/etc/init.d/zookeeper-server start

2.在namenode主服务器(192.168.1.1)执行zookeeper的failover功能格式化

sudo –u hdfs hdfs zkfc –formatZK

3.把namenode主备服务器的zkfc服务起来(192.168.1.1 192.168.1.2)

/etc/init.d/hadoop-hdfs-zkfc start

4.在namenode主服务器(192.168.1.1)格式化hdfs

#确保是用hdfs用户格式化
sudo -u hdfs hadoop namenode –format

5.第一次搭建namenode高可用，需要把name.dir下面的数据复制到namenode备服务器（此坑花了好多时间）

a.在主服务器(192.168.1.1)执行

tar -zcvPf /tmp/namedir.tar.gz /data/hadoop/dfs/name/
nc -l 9999 < /tmp/namedir.tar.gz

b.在备服务器(192.168.1.2)执行

wget 192.168.1.1:9999 -O /tmp/namedir.tar.gz
tar -zxvPf /tmp/namedir.tar.gz

6.主从服务都启动

/etc/init.d/hadoop-hdfs-namenode start
/etc/init.d/hadoop-yarn-resourcemanager start

7.查看hdfs的web界面

http://192.168.1.1:9080
http://192.168.1.2:9080
#如果在web界面看到两个namenode都是backup状态，那就是auto fail over配置不成功
#查看zkfc日志(/var/log/hadoop-hdfs/hadoop-hdfs-zkfc-nn.dg.s.kingsoft.net.log)
#查看zookeeper集群的日志(/var/log/zookeeper/zookeeper.log)

8.现在可以尝试关闭namenode主服务，看是否能主从切换

二、hdfs集群开启

到这里，所有hadoop部署已完成，现在开始把集群启动，验证效果

1.把所有datanode服务器启动

#还记得之前搭建的saltstack管理工具不，现在开始发挥它的作用,登录saltstack master(192.168.1.1)执行
salt -v "dn*" cmd.run "/etc/init.d/hadoop-hdfs-datanode start"

2.查看hdfs web界面,看是否都成为live nodes

3.如果没有问题，现在可以尝试hdfs操作

#创建一个tmp目录
sudo -u hdfs hdfs dfs -mkdir /tmp
#创建一个10G大小的空文件,计算它的MD5值，并放入hdfs
dd if=/dev/zero of=/data/test_10G_file bs=1G count=10
md5sum /data/test_10G_file
sudo -u hdfs hdfs dfs -put /data/test_10G_file  /tmp
sudo -u hdfs hdfs dfs -ls /tmp
#现在可以尝试关闭一台datanode,然后把刚才的测试文件拉取出来，再算一次MD5看是否一样
sudo -u hdfs hdfs dfs -get /tmp/test_10G_file /tmp/
md5sum /tmp/test_10G_file

三、yarn集群开启

hadoop除了hdfs用于大数据的分布式存储，还有更重要的组件，分布式计算(mapreduce)。现在我们来把mapreducev2 yarn集群启动

1.在主服务器把resourcemanager服务起来（192.168.1.1）

/etc/init.d/hadoop-yarn-resourcemanager start

2.把所有nodemanager服务启动

#还是登陆saltstack master，执行
salt -v "dn*" cmd.run "/etc/init.d/hadoop-yarn-nodemanager start"

3.查看yarn 任务追踪界面(http://192.168.1.1:9081/),看是否所有nodes都已加入

4.hadoop自带有基准测试的mapreduce实例，我们利用它来测试yarn环境是否正常

#TestDFSIO测试HDFS的读写性能,写10个文件，每个文件1G.
su hdfs -
hadoop jar /usr/lib/hadoop-mapreduce/hadoop-mapreduce-client-jobclient-2.0.0-cdh4.2.1-tests.jar TestDFSIO  -write -nrFiles 10 -fileSize 1000
#Sort测试MapReduce
##向random-data目录输出数据
hadoop jar /usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar randomwriter  random-data
##运行sort程序
hadoop jar /usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar sort random-data sorted-data
##验证sorted-data 文件是否排好序
hadoop jar /usr/lib/hadoop-mapreduce/hadoop-mapreduce-client-jobclient-2.0.0-cdh4.2.1-tests.jar testmapredsort -sortInput random-data \
-sortOutput sorted-data

Hadoop集群的管理

一、datanode & nodemanager 节点加入

1.修改hosts表,譬如有节点192.168.1.103需要加入

vim /opt/hadoop_scripts/share_data/resolv_host
127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.1.1 nn.dg.hadoop.cn
192.168.1.2 nn2.dg.hadoop.cn
192.168.1.100 dn100.dg.hadoop.cn
192.168.1.101 dn101.dg.hadoop.cn
192.168.1.102 dn102.dg.hadoop.cn
192.168.1.103 dn103.dg.hadoop.cn

2.修改hostname，同步脚本目录,并执行部署

mkdir –p /opt/hadoop_scripts
rsync –avz 192.168.1.1::hadoop_s   /opt/hadoop_scripts
sh /opt/hadoop_scripts/deploy/CreateDatanode.sh
sh /opt/hadoop_scripts/deploy/AddHostname.sh

3.开启服务

/etc/init.d/hadoop-hdfs-datanode start
/etc/init.d/hadoop-yarn-nodemanager start

二、修改hadoop配置文件

一般在一个hadoop集群中维护一份hadoop配置，这份hadoop配置需要分发到集群中各个成员。这里的做法是 salt + rsync

#修改namenode主服务器的hadoop配置文件  /etc/hadoop/conf/，然后执行以下命令同步到集群中所有成员
sync_h_conf
#脚本目录也是需要维护的，譬如hosts文件/opt/hadoop_scripts/share_data/resolv_host，修改后执行以下命令同步到集群中所有成员
sync_h_script
#其实这两个命令是我自己定义的salt命令的别名，查看这里/opt/hadoop_scripts/profile.d/hadoop.sh

三、监控

比较普遍的方案是,ganglia和nagios监控，ganglia收集大量度量，以图形化程序，nagios在某度量超出阀值后报警.ganglia监控以后补充一下文档

其实，hadoop自带有接口提供我们自己写监控程序，而且这个接口还是比较简单，通过这样便可以访问http://192.168.1.1:9080/jmx,返回值是JSON格式，其中的内容也非常详细。但是每次查询都返回一大串的JSON也是浪费，其实接口还提供更新详细的查询譬如我只想查找系统信息，可以这样调用接口 http://192.168.1.1:9080/jmx?qry=java.lang:type=OperatingSystem 。qry参考后跟的就是整个JSON的“name”这个key的值

总结

在折腾hadoop集群的部署是还是遇到了很多坑，打算下篇写自己所遭遇的问题。通过本文部署遇到问题的可以联系一下我,互相交流一下。QQ:83766787。当然也欢迎大家一起修改部署的脚本,git地址为:http://git.oschina.net/snake1361222/hadoop_scripts

如何用机器学习实现股票预测 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介近年来，随着互联网技术的飞速发展、移动互联网的兴起、大数据应用的日益普及以及个人电脑的普及化，人们对股票的投资意愿、机会的渴望越来越强烈。而机器学习技术则可以帮助我们更好的预测股票市场。在这本教程中，我将向大家展示如何用机器学习技术，对一只特定的股票进行预测。我们先从基本概念入手，介绍股票预测的相关术语和方法论，然后详细介绍一下机器学习模型中的回归模型，并基于历
企业使用Excel开展数据分析限制和建议完整版技术与健康经验分享
Excel作为企业数据分析的常用工具，虽然功能强大，但也存在一些限制和使用时的注意事项。以下是综合整理的关键点：一、Excel在企业数据分析中的限制数据处理规模有限Excel的行列限制（如Excel2019及之前版本最多支持1,048,576行×16,384列），对于超大规模数据集（如百万级数据）处理效率低，甚至可能崩溃大数据量计算时，公式复杂度过高会导致运行缓慢，甚至卡死缺乏高级统计分析能力仅支
前端包管理工具对比：npm、Yarn 、 cnpm与pnpm 菜菜我是谁前端记忆前端 npm node.js
前端包管理工具深度对比：npm、Yarn、cnpm、pnpm一、核心特性对比工具诞生时间核心特点存储结构npm2010Node.js官方包管理器，逐步改进性能嵌套结构（v3+扁平化）Yarn2016确定性安装、并行下载、workspaces扁平化结构cnpm2014淘宝镜像专用客户端，解决国内网络问题嵌套结构（与npm兼容）pnpm2017硬链接+符号链接，节省磁盘空间内容寻址存储（CAS）二、核
Npm——整理前端包管理工具(cnpm、yarn、pnpm) 一只漫步前行的羊 npm 前端 npm javascript
环境准备：Node.js配置文档：https://blog.csdn.net/qq812457115/article/details/104675645//验证是否安装成功,命令提示符内输入node-vnpm-v#Cnpm//全局安装、用法与npm一样npminstall-gcnpm--registry=https://registry.npm.taobao.org//查看版本cnpm-v#Yar
【NPM】详解yarn 、npm 、 npx 、 cnpm 、 pnpm等包管理工具及其差异 VT.馒头前端学习之旅 npm 前端 node.js
详解yarn、npm、cnpm、pnpm等包管理工具yarn、npm、npx、cnpm、pnpm等包管理工具主要用于帮助开发者高效地管理项目中的各种依赖库、框架、工具以及其他代码模块。这些工具通过自动化的方式处理依赖的下载、安装、更新和卸载，确保项目中使用的每个外部组件都处于正确的版本，并且能够协同工作，避免版本冲突。文章目录详解yarn、npm、cnpm、pnpm等包管理工具一、npm1、安装2
大语言模型(Large Language Models) 原理与代码实例讲解 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型(LargeLanguageModels)-原理与代码实例讲解1.背景介绍1.1问题的由来随着大数据和深度学习技术的飞速发展，大语言模型（LargeLanguageModels,LLMs）成为了自然语言处理（NLP）领域中的热门话题。这类模型通常基于大规模的文本数据集进行训练，通过学习语言结构和规律来生成、理解或生成人类可读的文本。LLMs的出现标志着NLP的一次飞跃，它们不仅能够处理大
【包管理器】主流包管理器_对比_应用场景七灵微基本理论 node.js npm yarn
不定期更新，建议关注收藏点赞。链接：npm专题目录主流包管理器简介对比主流包管理器简介主流的包管理器其实有不少，不同语言和平台都有各自的一套系统。前端（JavaScript/TypeScript）名称简介开发者特点npmNode.js默认包管理器Node.js官方最主流、生态最大YarnFacebook出品Facebook更快、更稳定、支持离线缓存pnpm新一代高性能管理器社区快、占空间小、支持模
MapReduce1中资源预先划分为固定数量的map slot和reduce slot，具体是怎么划分的？ BenBen尔 java 数据库大数据 hadoop
MapReduce1（MRv1）中mapslot与reduceslot的固定划分机制在HadoopMapReduce1（MRv1）中，资源管理采用静态分配的方式，mapslot和reduceslot的数量在集群启动时预先配置，且无法动态调整。以下是具体划分方式及其背后的设计逻辑：一、核心架构与角色MRv1的资源管理由两个核心组件实现：JobTracker负责作业调度（将任务分配给TaskTrack
计算机毕设选题指南晴天毕设工作室计算机网络
选择计算机专业毕业设计题目是一个非常重要的步骤，因为这将直接影响到接下来几个月的学习、研究以及最终成果的质量。下面是一些选题时可以参考的方向和技巧：1.结合兴趣首先要考虑的是个人的兴趣方向。如果你对某个领域感兴趣，例如人工智能、大数据分析、网络安全等，在这个领域的课题会让你更有动力去深入探索。2.实际应用价值尽量选取有现实意义的问题作为研究对象。比如开发一款能够帮助老年人更方便地使用智能手机的应用
Java中equals与 “==” 的区别寒992 java jvm 开发语言
首先我们要掌握基本数据类型和引用类型的概念基本数据类型：byte，short，int,long,float,double,boolean,char基本的八大数据类型都各自封装着包装类，提供了更多的方法，并且都是引言类型引用类型：引用类型主要是一些类、接口、数组。引用类型变量中主要存储的是地址，对应的地址存档数据“==”和equals()方法的区别和联系“==”比较基本数据类型时比较的是表面值，比较
Vue 3 响应式更新问题解析 web网页精选 vue.js 前端 javascript
在Vue3中，即使使用reactive或ref创建的响应式数据，当数据量很大时也可能出现更新不及时的情况。以下是原因和解决方案：核心原因响应式系统优化机制：Vue3使用Proxy实现响应式，比Vue2更高效但为了性能，Vue会批量处理更新（异步更新队列）大数据量的性能权衡：当处理大量数据时，Vue会延迟更新以提高整体性能深层嵌套对象/数组的变更可能不会立即触发更新引用类型数据的特殊行为：直接替换整
让数据告诉你，顾客真正想要什么：大数据驱动的精准营销 Echo_Wish 大数据高阶实战秘籍大数据
让数据告诉你，顾客真正想要什么：大数据驱动的精准营销在现代商业战场中，精准营销已成为“兵家必争之地”。随着消费者行为的日益多样化，传统的广撒网式营销逐渐失去吸引力和效率。而大数据技术的崛起，则为精准营销注入了全新的动能，让企业能够以更低的成本抓住更精准的客户群体。接下来，本文将从大数据在精准营销中的核心策略与实际应用入手，结合代码与案例，深度剖析这项技术如何帮助企业实现用户增长与价值提升。一、大数
【Flink运行时架构】作业提交流程 Data跳动 flink 大数据
本文介绍在单作业模式下Flink提交作业的具体流程，如下图所示。客户端将作业提交给YARN的RM；YARN的RM启动FlinkJobManager，并将作业提交给JobMaster；JobMaster向Flink内置的RM请求slots；Flink内置的RM向YARNRM请求容器；YARN启动带有TaskManager的容器；TaskManager启动之后，向Flink的RM注册自己的可用slot
【详解】使用原生Python编写HadoopMapReduce程序牛肉胡辣汤 c#开发语言
目录使用原生Python编写HadoopMapReduce程序HadoopStreaming简介Python环境准备示例：单词计数1.Mapper脚本2.Reducer脚本3.运行MapReduce作业1.环境准备2.编写Mapper脚本3.编写Reducer脚本4.准备输入数据5.运行MapReduce作业6.查看结果HadoopStreaming原理Python编写的MapReduce示例1.
机器学习之争：Python vs R，谁更胜一筹？ AI与编程之窗杂谈 r语言 python 机器学习 scikit-learn ggplot2 数据分析深度学习
一、引言随着人工智能和大数据的迅速发展，机器学习已成为现代科技的重要组成部分。在医疗、金融、零售、制造等多个领域，机器学习技术的应用无处不在。从数据分析到预测建模，再到深度学习，机器学习正在改变我们的工作和生活方式。然而，在开始机器学习之旅时，选择合适的编程语言是一项关键决策。Python和R是目前最流行的两种机器学习语言，各自拥有独特的优势和应用场景。本文将详细对比Python和R在机器学习中的
Python内置模块之itertools详细功能介绍及示例 demonlg0112 Python python 开发语言后端 jvm 运维
Pythonitertools模块详解及使用示例itertools是Python标准库中的一个模块，提供了许多用于高效循环操作的迭代器函数。这些工具既快速又节省内存，特别适合处理大数据集。下面我将详细介绍itertools的主要方法，并给出实际应用示例。1.无限迭代器1.1count(start=0,step=1)生成从start开始，步长为step的无限序列。importitertools#从1
将mongdb中文档转储到mysql设计思路 JavaNice哥 mysql mysql 数据库
将mondodb中文档转储到mysql设计场景由于mongdb使用率较低，为了节省成本，决定将mongodb中的数据迁移到mysql中。mondodb中是一个大对象，json值可能有几十w个字符，mysql一条记录可能只支持几十kb，存储不下解决思路对mongodb数据进行分片单条数据中主数据在mysql用一张表t_header存储，附带的大数据用一张t_data表存储，将大数据按照每1w个字符切
【区块链+ 人才服务】特范云区块链教学管理平台 | FISCO BCOS 应用案例 FISCO_BCOS FISCO BCOS产业应用发展报告区块链人才服务
北京特范云科技有限公司利用大数据与人工智能等核心技术优势，构建了“学、练、赛、评”一体化智慧体育课堂，促进教育技术、体育科学、IT技术与体育教学的深度融合。公司首次提出了“体育动作积木”的教学概念，通过区块链技术将学生的体测体考成绩上链存证，确保成绩的真实性和有效性，并对教师的课程内容进行版权存证，保护教师的知识版权。平台基于FISCOBCOS区块链技术开发，实现了身份信息、学习过程、学习结果、教
003 数据结构入门：八大数据结构核心详解，从此告别“无从下手”！智趣代码实验室数据结构与算法数据结构
摘要数据结构是算法的基石，掌握核心数据结构能显著提升代码效率和问题解决能力。本文将详解数组、链表、栈、队列、哈希表、集合等基础数据结构，从底层原理到应用场景，搭配LeetCode经典题目，助你快速构建数据结构知识体系！目录数组（Array）链表（LinkedList）栈（Stack）队列（Queue）哈希表（HashTable）集合（Set）数据结构对比与总结1.数组（Array）核心特点内存连续
加油站安全管理解决方案：智能化平台集成巡检、隐患排查与AI分析菲路普科技运维人工智能
随着科技的飞速进步，加油站的安全管理正逐步迈向智能化、信息化的新阶段。为了保障加油站的安全运营，提升管理效能，我们推出了一套集巡检、隐患排查、AI分析功能于一体的加油站安全管理智能化平台。以下是该平台的详细介绍：一、平台概述加油站安全管理智能化平台充分融合了物联网、大数据、人工智能等前沿技术，为加油站提供了全方位、实时性的安全管理解决方案。通过整合巡检系统、隐患排查系统和AI分析系统，平台能够迅速
利用LangChain构建智能多工具Agent：从基础到进阶 sjufgwgfhoia langchain microsoft python
引言在大数据和人工智能的时代，我们不再满足于简单的问答系统。借助像LangChain这样的工具，我们可以打造智能的、可交互的Agent，这些Agent不仅可以回答问题，还能自主决定使用何种工具或资源来获取信息。在本文中，我们将探讨如何使用LangChain的AgentExecutor（传统模型）构建一个可与本地数据库和搜索引擎交互的Agent，从而实现更复杂的对话和信息检索。主要内容使用语言模型语
大数据技术之Scala 北屿升：微信新浪微博 facebook 微信公众平台百度
一、集合常用函数1、集合计算高级函数1)说明①过滤遍历一个集合并从中获取满足指定条件的元素组成一个新的集合②转换、映射（map）将集合中的每一个元素映射到某一个函数③扁平化④扁平化+映射注：flatMap相当于先进行map操作，在进行flatten操作集合中的每个元素的子元素映射到某个函数并返回新集合⑤分组（group）按照指定的规则对集合的元素进行分组⑥简化（规约）⑦折叠2)案例实操object
Flink+Iceberg搭建实时数据湖实战王知无(import_bigdata) 数据库大数据 hadoop hive mysql
点击上方蓝色字体，选择“设为星标”回复"面试"获取更多惊喜全网最全大数据面试提升手册！第一部分：Iceberg核心功能原理剖析：ApacheIceberg摘自官网：Apache Iceberg is an open table format for huge analytic datasets.可以看到Founders对Iceberg的定位是面向海量数据分析场景的高效存储格式。海量数据分析的场景，
【Hadoop入门】Hadoop生态之Pig简介 IT成长日记大数据成长笔记 hadoop 大数据分布式
1什么是Pig？在大数据分析领域，ApachePig是一个不可忽视的重要工具。Pig是ApacheHadoop生态系统中的一个高级数据分析平台，它提供了一种称为PigLatin的脚本语言，用于简化大规模数据集的并行处理。Pig的核心思想是将复杂的数据处理任务转换为一系列经过优化处理的MapReduce运算，使得用户无需深入了解MapReduce的细节，即可轻松进行大规模数据的分析。2Pig的核心价
DataWorks智能体Agent发布！基于MCP实现数据 typescript
在传统的数据开发工作中，企业用户或者开发者常常需要进行繁琐的配置、复杂的代码撰写、反复的性能调优和大量重复性的操作，才能实现数据开发、数据集成和数据治理等工作，效率十分低下。近日，阿里云大数据开发治理平台DataWorks基于MCP协议，正式发布DataWorksAgent，内置DataWorksMCPServerV1.0，让数据开发治理工作从Copilot辅助步入到AIAgent时代。
Hadoop之Oozie _TIM_ hadoop
Oozie简介对于我们的工作，可能需要好几个Hadoop作业来协作完成，往往一个job的输出会被当做另一个job的输入来使用，这个时候就涉及到了数据流的处理。我们不可能就盯着程序，等它运行完再去运行下一个程序，所以，一般的做法就是通过Shell来做，但是如果涉及到的工作流很复杂（比方说有1,2,3,4四个作业，1的输出作为234的输入，然后23的结果运算之后再和1的结果进行某种运算……最后再输出）
Lucene.Net 分词器选择指南：盘古分词 vs 结巴分词的深度对比与未来趋势大富大贵7 mybatis
引言在大数据与自然语言处理的浪潮中，分词技术作为信息检索、文本分析、搜索引擎优化等领域的核心技术，扮演着至关重要的角色。Lucene.Net作为开源的全文检索库，其强大的文本处理能力，使得选择一个合适的分词器成为开发者和企业实现高效检索的关键。而在中文分词的实现中，盘古分词和结巴分词是目前最受关注的两种技术方案。本文将对比这两者的性能、功能和适用场景，探讨它们在Lucene.Net中的实现方式，并
【Hadoop入门】Hadoop生态之Oozie简介 IT成长日记大数据成长笔记 hadoop 大数据分布式
1什么是Oozie？Oozie是Apache基金会下的一个开源工作流调度系统，专门设计用于管理Hadoop作业。作为一个基于工作流的调度服务器，它能够在复杂的任务依赖关系中协调HadoopMapReduce、Pig、Hive等任务的执行，是大数据平台中任务编排的核心组件之一。Oozie允许用户将多个Hadoop任务（如MapReduce作业、Pig脚本、Hive查询、Spark作业等）组合成一个逻
DataWorks智能体Agent发布！基于MCP实现数据开发与治理自动化运行前端
在传统的数据开发工作中，企业用户或者开发者常常需要进行繁琐的配置、复杂的代码撰写、反复的性能调优和大量重复性的操作，才能实现数据开发、数据集成和数据治理等工作，效率十分低下。近日，阿里云大数据开发治理平台DataWorks基于MCP协议，正式发布DataWorksAgent，内置DataWorksMCPServerV1.0，让数据开发治理工作从Copilot辅助步入到AIAgent时代。
基于Python的QQ音乐数据爬取分析与可视化（附源码） AI博士小张大数据分析数据分析
基于Python的QQ音乐数据爬取分析与可视化摘要本文将基于Python编程语言，利用网络爬虫技术获取QQ音乐平台的相关数据，并对这些数据进行分析和可视化。通过对数据的分析和可视化，可以深入了解QQ音乐平台上歌曲、歌手、用户等方面的信息，为用户提供更好的音乐推荐服务，为音乐产业提供更为准确的数据支持。关键词：Python；QQ音乐；数据爬取；数据分析；可视化一、引言在信息时代的背景下，大数据技术得
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s

Hadoop （CDH4发行版）集群部署

前言

环境准备

环境部署

一、加入CDH4的YUM仓库

1.最好的办法是把cdh4的包放到自建的yum仓库中,如何自建yum仓库请看 自建YUM仓库

2.如果不想自建yum仓库，在所有的hadoop机器执行以下操作加入cdn4的yum仓库

二、创建用于namenode HA的NFS服务器

1.登录192.168.1.100,执行以下脚本 createNFS.sh

三、Hadoop Namenode & resourcemanager 主服务器 环境部署

1.登录192.168.1.1，创建脚本目录，把脚本从git仓库复制下来

2.修改hostname

3.修改部署脚本的配置文件

4.编辑hosts文件(此文件会同步到hadoop集群所有机器)

5.执行部署脚本CreateNamenode.sh

6.搭建saltstack master

a.安装

b.修改配置文件`/etc/salt/master`,下面标志的是需要修改的项

7.部署过程中已经把我的sample配置复制过去了，所以只需要修改部分配置文件

a. /etc/hadoop/conf/hdfs-site.xml (其实就是按实际修改主机名地址)

b. mapred-site.xml

c. yarn-site.xml

三、Hadoop Namenode & resourcemanager 备服务器 环境部署

1.登录192.168.1.2，创建脚本目录，从主服务器把脚本同步过来

2.修改hostname

2.执行部署脚本CreateNamenode.sh

3.同步hadoop配置文件

4.部署saltstack客户端

四、zookeeper服务器集群部署

1.安装

2.修改配置文件/etc/zookeeper/conf/zoo.cfg

3.指定当前机器的id,并开启服务

五、datanode & nodemanager 服务器部署

1.登录datanode机器,创建脚本目录，从主服务器把脚本同步过来

2.修改hostname，执行部署脚本 CreateDatanode.sh

集群初始化

一、namenode的HA高可用初始化

1.把zookeeper集群服务启动(192.168.1.100 192.168.1.101 )

2.在namenode主服务器(192.168.1.1)执行zookeeper的failover功能格式化

3.把namenode主备服务器的zkfc服务起来(192.168.1.1 192.168.1.2)

4.在namenode主服务器(192.168.1.1)格式化hdfs

5.第一次搭建namenode高可用，需要把name.dir下面的数据复制到namenode备服务器（此坑花了好多时间）

a.在主服务器(192.168.1.1)执行

b.在备服务器(192.168.1.2)执行

6.主从服务都启动

7.查看hdfs的web界面

8.现在可以尝试关闭namenode主服务，看是否能主从切换

二、hdfs集群开启

1.把所有datanode服务器启动

2.查看hdfs web界面,看是否都成为live nodes

3.如果没有问题，现在可以尝试hdfs操作

三、yarn集群开启

1.在主服务器把resourcemanager服务起来（192.168.1.1）

2.把所有nodemanager服务启动

3.查看yarn 任务追踪界面(http://192.168.1.1:9081/),看是否所有nodes都已加入

4.hadoop自带有基准测试的mapreduce实例，我们利用它来测试yarn环境是否正常

Hadoop集群的管理

一、datanode & nodemanager 节点加入

1.修改hosts表,譬如有节点192.168.1.103需要加入

2.修改hostname，同步脚本目录,并执行部署

3.开启服务

二、修改hadoop配置文件

三、监控

总结

你可能感兴趣的:(hadoop,大数据,hdfs,yarn)

1.最好的办法是把cdh4的包放到自建的yum仓库中,如何自建yum仓库请看自建YUM仓库

三、Hadoop Namenode & resourcemanager 主服务器环境部署

三、Hadoop Namenode & resourcemanager 备服务器环境部署