Shen_R

Apache Hadoop的集群搭建(入门级)

建议3台虚拟机，虚拟机是centos7版本，使用完全分布式运行模式。
hadoop下载地址：https://archive.apache.org/dist/hadoop/common/
hadoop的伪分布式和本地运行模式：https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html
jdk下载：https://repo.huaweicloud.com/java/jdk/

1.虚拟机准备

提示：在你准备虚拟机环境时，有几点你是需要理解的。第一，虚拟机之间需要互相ping通，那么你的网卡和防火墙要配置。集群节点之间互相关闭防火墙，节点组成的集群开启防火墙（防御组）。

1.1、关闭防火墙：

每一个节点都需要。

第一种方式：

//服务关闭
service iptables stop 
//关闭开机自启
chkconfig iptables off 
//检查防火墙是否关闭
service iptables status
chkconfig --list iptables

第二种方式：

systemctl stop firewalld
systemctl disable firewalld
systemctl status firewalld

1.2、创建一般用户（可选）：

使用一般用户来搭建集群，碰到问题会很多，可以帮助你快速成长。这里的创建software和module文件夹是必要的。

//创建一个一般用户rong
useradd rong
//设置密码
password rong
//在/opt目录下创建software和module文件夹，这两个文件夹是用来放后面的软件和其解压包的。这一步是必要的！
mkdir /opt/software /opt/module
//更改文件夹权限
chown rong:rong /opt/software /opt/module
//将用户添加到sudoers管理中，使该用户具有root权限
vi /etc/sudoers
	rong ALL=(ALL)  NOPASSWD:ALL
	:wq! 强制保存下。

1.3、修改Hosts：

每一个节点都需要，集群的节点之间标注位置信息，互相通信。

vim /etc/hosts
	//文件后追加
	节点1的ip 节点1名字
	节点2的ip 节点2名字
	节点3的ip 节点3名字

1.4、修改静态IP：

静态IP的作用就是之前的配置在当IP自动分配时，在每一次重启时，会影响之前的配置信息。每一个节点都需要，要和之前的Hosts里面的信息对上。这里面的网卡信息要注意！

vi /etc/sysconfig/network-scripts/ifcfg-eth0
	DEVICE=eth0
	HWADDR=00:0C:29:F5:1D:6A
	TYPE=Ethernet
	UUID=8f49ebc2-5b1b-4135-863b-6acb0c84453f
	ONBOOT=yes
	BOOTPROTO=static #设置为静态
	IPADDR=192.168.xxx.xxx #修改ip和之前设置的节点ip对上
	PREFIX=24
	NETMASK=255.255.255.0 #掩码
	GATEWAY=192.168.xxx.x #网关
	DNS1=192.168.xxx.x #配置网关连接外网
	NAME=eth0
//使配置文件生效
source /etc/sysconfig/network-scripts/ifcfg-eth0
//重启
service network restart

1.5、修改主机名：

每一个节点都需要，和之前的Hosts中的节点信息对上。

vi /etc/sysconfig/network
	//修改HOSTNAME字段
	HOSTNAME=节点名和之前对上

2、安装JDK

当然是每个节点都需要配置的，因为hadoop的执行需要java的编译。

2.1、卸载现有JDK/OpenJDK：

//查询自带的jdk版本，没有jdk也没关系
java -version
//查询自带的jdk版本号
rpm -qa | grep jdk
//卸载open jdk
yum -y remove $(rpm -qa | grep jdk)
//或者使用sudo来卸载
sudo rpm -e jdk软件包
//再次查询jdk的版本号
java -version
//查询JDK安装路径
which java

2.2、安装JDK：

将jdk的安装包放入到指定文件夹下，可以使用Xftp软件。之前要创建software和moudle文件夹，你可以把安装包和解压包放到这两个文件夹下。

//将压缩包解压到/opt/moudle目录下xzvf也有其特殊的意义，欢迎百度
tar xzvf jdk-8u144-linux-x64.tar.gz -C /opt/moudle

2.3、配置JDK环境：

//配置java的环境变量，将配置信息添加到profile文件中
vi /etc/profile
	//在文件末尾添加jdk的路径
	export JAVA_HOME=/usr/java/jdk1.8.0_144
	export PATH=$JAVA_HOME/bin:$PATH
	export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
//让配置信息生效
source /etc/profile
//再次查询java版本号，查看配置是否成功
java -version

3、安装Hadoop

和jdk安装同理，要将事先下载好的Hadoop压缩包放入到/opt/software文件夹下，之后再解压到moudle文件夹下。

3.1、安装Hadoop：

//解压hadoop压缩文件到moudle文件夹下
tar -zxvf hadoop-2.9.2.tar.gz -C /opt/module/

3.2、配置Hadoop环境：

//在hadoop的解压文件夹下可以获取Hadoop安装路径
pwd
//配置hadoop的环境变量，将配置信息添加到profile文件中
vi /etc/profile
	//在profile文件末尾添加hadoop路径,bin是可执行文件，sbin是可执行脚本
	export HADOOP_HOME=/opt/module/hadoop-2.9.2
	export PATH=$PATH:$HADOOP_HOME/bin
	export PATH=$PATH:$HADOOP_HOME/sbin
//让配置信息生效
source /etc/profile
//查看是否安装成功
hadoop version

总结：到此为止，三个节点上的java和hadoop算是全部安装完成了！

4、配置集群并测试单点启动

scp命令可在不同的主机之间实现文件的快速传输。有3个节点，那么我们就选择一个作为主节点（master），剩下的作为从节点（slave）。所以每个节点上都要配置好第1、2、3节的信息，jdk和Hadoop的安装包全部解压配置安装好。可以尝试使用scp进行快速传输，rsync命令也用于拷贝，但是性质却不一样，建议百度！当然，你可以写个脚本快速执行以上步骤。拷贝文件时，还有一点需要注意，那就是/etc/profile文件别忘记拷贝和之后需要source一下该文件（使之生效）。

4.1、三个节点的规划：

1、穷人版：

2、富人版：

有一个疑问：每一个节点是不是在安装hadoop时就会有了DN和NM？

4.2、配置集群：

我们使用穷人版的集群架构，所以3个节点都有DN和NM，节点1有NN，节点2有RM，节点3有2NN。

另外，在/opt/module/hadoop-2.9.2/etc/hadoop目录下有7个文件需要配置，分别是core-site.xml,hdfs-site.xml,mapred-site.xml,yarn-site.xml,hadoop-env.sh,mapred-env.sh,yarn-env.sh。其中hadoop-env.sh,mapred-env.sh,yarn-env.sh这三个主要是配置下JAVA_HOME。注意，这些文件你在一个节点上做了修改之后，记得分发给其他的节点。

1.核心配置文件core-site.xml：

在/opt/module/hadoop-2.9.2/etc/hadoop目录下。

vi core-site.xml
	//在该文件中编写如下配置
	<!-- 指定HDFS中NameNode的地址 -->
	<property>
			<name>fs.defaultFS</name>
	        <value>hdfs://master:9000</value>
	</property>
	
	<!-- 指定Hadoop运行时产生文件的存储目录 -->
	<property>
			<name>hadoop.tmp.dir</name>
			<value>/opt/module/hadoop-2.9.2/data/tmp</value>
	</property>

2.HDFS配置文件hadoop-env.sh和hdfs-site.xml：

//配置hadoop-env.sh
vi hadoop-env.sh
	export JAVA_HOME=/opt/module/jdk1.8.0_144
//配置hdfs-site.xml
vi hdfs-site.xml
	//在该文件中编写如下配置
	<property>
			<name>dfs.replication</name>
			<value>3</value>
	</property>
	
	<!-- 指定Hadoop辅助名称节点2NN主机配置 -->
	<property>
	        <name>dfs.namenode.secondary.http-address</name>
	        <value>slave2:50090</value>
	</property>

3.YARN配置文件yarn-env.sh和yarn-site.xml：

//配置yarn-env.sh
vi yarn-env.sh
	export JAVA_HOME=/opt/module/jdk1.8.0_144
//配置yarn-site.xml
vi yarn-site.xml
	//在该文件中增加如下配置
	<!-- Reducer获取数据的方式 -->
	<property>
			<name>yarn.nodemanager.aux-services</name>
			<value>mapreduce_shuffle</value>
	</property>
	
	<!-- 指定YARN的ResourceManager的地址 -->
	<property>
			<name>yarn.resourcemanager.hostname</name>
			<value>slave1</value> 
	</property>

4.MapReduce配置文件mapred-env.sh和mapred-site.xml：

//配置mapred-env.sh
vi mapred-env.sh
	export JAVA_HOME=/opt/module/jdk1.8.0_144
//配置mapred-site.xml
vi mapred-site.xml
	//在该文件中增加如下配置
	<!-- 指定MR运行在Yarn上 -->
	<property>
			<name>mapreduce.framework.name</name>
			<value>yarn</value>
	</property>

**总结：**以上的配置信息，每一个节点上都要有。所以在一台节点上配置完成之后，分发到其他节点就可以了。

4.3、集群单点启动：

每一个节点都启动了datanode，会有DM服务的。

在master节点：

hdfs namenode -format #注意一定要在配置了namenode的机器上格式化
hadoop-daemon.sh start namenode #启动namenode
hadoop-daemon.sh start datanode #启动datanode

在slave1节点：

hadoop-daemon.sh start datanode #启动datanode

在slave2节点：

hadoop-daemon.sh start datanode #启动datanode
hadoop-daemon.sh start secondarynamenode #启动2NN

在3个节点上依次执行jps

5、配置SSH无密码登录

主要作用是为了群起集群，配置好了ssh协议就可以使用hadoop自带的群起脚本。群起脚本之前需要配置好位于/opt/moudle/hadoop-2.9.2/etc/hadoop文件夹下slave文件，这里面记录了hadoop集群的所有主机，之后要将这个文件分发给每一台主机。

ssh-keygen -t rsa #生成私钥和公钥，一个私钥对应一个公钥。
ssh-copy-id 节点名 #发送公钥到指定的节点

5.1、需要发送的秘钥图：

节点之间使用公钥和私钥进行比对来判断，所以3个节点之间需要进行9次公钥交换，这是最安全的一种SSH无密码配置。密钥实现无密码登录的原理就是，生成的公钥和私钥时一一对应的，将公钥发个远端，本地使用私钥来进行匹配，匹配成功即为登录成功。

5.2、SSH无密码配置解决方法1：

这种方法是最安全的，在每一个节点上生成公钥和私钥ssh-keygen -t rsa，之后再将每个公钥发送给每一个节点（包括自己）ssh-copy-id 节点名。

5.3、SSH无密码配置解决方法2：

这种方法不推荐，主要是将一个节点上生成的公钥和私钥通过rsync命令分发给每个节点，那么每个节点上拥有的就是相同的公钥和私钥，所以可以实现节点之间的无密码登录。这有一个最严重的问题，就是节点之间传输公钥和私钥时会出现泄漏问题，不安全。

6、群起集群

群起脚本之前需要配置好位于/opt/moudle/hadoop-2.9.2/etc/hadoop文件夹下slave文件，这里面记录了hadoop集群的所有主机，之后要将这个文件分发给每一台主机。

vi /opt/moudle/hadoop-2.9.2/etc/hadoop/slave
	删除localhost
	master
	slave1
	slave2

6.1、群起HDFS脚本：

因为之前我们使用穷人版的集群架构，每一个节点上都应有DN和NM服务，所以需要在一个节点上启动一次就可以了。

start-dfs.sh

6.2、YARN启动：

因为YARN我们主要配置在了slave1节点上，因为我们将ResourceManager配置在了slave1上，所以这个只需要在slave1节点上启动。

start-yarn.sh

6.3、测试：

群起脚本成功之后，就可以使用jps命令查看是不是每个节点都应有下面图中的配置。
启动HDFS和YARN之后并运行MapReduce程序查看集群是否启动成功。

7、历史服务器和日志聚集

配置Yarn历史服务器和日志聚集功能。配置历史服务器主要是查看程序的历史运行情况。日志聚集主要是查看程序运行详情。那么我们在一台节点上配置好这些之后，一定要记得分发给其他节点，让其他节点同步。配置历史服务器之前要将hdfs和yarn关闭。

7.1、停止集群节点服务：

各个服务组件逐一启动/停止
（1）分别启动/停止HDFS组件
hadoop-daemon.sh start / stop namenode / datanode / secondarynamenode
（2）启动/停止YARN
yarn-daemon.sh start / stop resourcemanager / nodemanager
各个模块分开启动/停止（配置ssh是前提）常用
（1）整体启动/停止HDFS
start-dfs.sh / stop-dfs.sh
（2）整体启动/停止YARN
start-yarn.sh / stop-yarn.sh

7.2、配置历史服务器：

配置mapred-site.xml

该文件位于这个/opt/moudle/hadoop-2.9.2/etc/hadoop文件夹下

vi mapred-site.xml
    //在该文件里面增加如下配置
    <!-- 历史服务器端地址 -->
    <property>
    	<name>mapreduce.jobhistory.address</name>
    	<value>slave2:10020</value> #选择节点2作为历史服务器
    </property>
    <!-- 历史服务器web端地址 -->
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>slave2:19888</value>
    </property>

7.3、配置日志聚集：

日志聚集概念：应用运行完成以后，将程序运行日志信息上传到HDFS系统上。日志聚集功能好处：可以方便的查看到程序运行详情，方便开发调试。
注意：开启日志聚集功能，需要重新启动NodeManager 、ResourceManager和HistoryManager。

配置yarn-site.xml

同理，这个文件位于/opt/moudle/hadoop-2.9.2/etc/hadoop文件夹下

vi yarn-site.xml
    //在该文件里面增加如下配置。
    <!-- 日志聚集功能使能 -->
    <property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
    </property>

    <!-- 日志保留时间设置7天 -->
    <property>
        <name>yarn.log-aggregation.retain-seconds</name>
        <value>604800</value> #7天的秒数
    </property>

总结：配置完历史服务器和日志聚集，一定要记得同步到其他节点。

7.4、测试配置：

关闭NodeManager 、ResourceManager和HistoryManager

sbin/yarn-daemon.sh stop resourcemanager
sbin/yarn-daemon.sh stop nodemanager
sbin/mr-jobhistory-daemon.sh stop historyserver

启动NodeManager 、ResourceManager和HistoryManager

sbin/yarn-daemon.sh start resourcemanager
sbin/yarn-daemon.sh start nodemanager
sbin/mr-jobhistory-daemon.sh start historyserver

说明：如果你配置好ssh了，那么上面的两步你可以尝试使用以下的步骤，因为我们要保证在配置历史服务器之前将hdfs和yarn关闭的，配置好之后，我们要将他们呢个重开。在master节点上开启dfs的脚本start-dfs.sh，在slave1上开启yarn的脚本start-yarn.sh，在slave2上开启历史服务mr-jobhistory-daemon.sh start historyserver。因为我们之前将slave2节点作为历史服务器节点。

删除HDFS上已经存在的输出文件

bin/hdfs dfs -rm -R /user/root/output

执行WordCount程序

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/root/input /user/root/output

查看日志

我们是将slave2作为历史服务器的。客户端http://slave2:19888/jobhistory

8、集群时间同步

集群时间同步的作用就是让集群的节点之间的时间取得一直。选择一个节点作为时间同步服务器。hbase对时间的同步要求是很高的。

8.1、时间服务器配置（必须root用户）

那我们选择将master作为一个ntp服务器。

检查ntp是否安装

rpm -qa|grep ntp
    ntp-4.2.6p5-10.el6.centos.x86_64
    fontpackages-filesystem-1.41-1.1.el6.noarch
    ntpdate-4.2.6p5-10.el6.centos.x86_64

检查ntpd状态，并关闭

service ntpd status #正在运行的状态必须关闭
service ntpd stop #将三台服务全部停掉
chkconfing ntpd off
chkconfing --list ntpd #查看是否关闭

修改ntp配置文件

vi /etc/ntp.conf

修改内容如下
a）修改1（授权192.168.1.0-192.168.1.255网段上的所有机器可以从这台机器上查询和同步时间）
```
#restrict 192.168.1.0 mask 255.255.255.0 nomodify notrap
为
restrict 192.168.1.0 mask 255.255.255.0 nomodify notrap
```

b）修改2（集群在局域网中，不使用其他互联网上的时间）
//将下面4行注释掉 server 0.centos.pool.ntp.org iburst server 1.centos.pool.ntp.org iburst server 2.centos.pool.ntp.org iburst server 3.centos.pool.ntp.org iburst 为 #server 0.centos.pool.ntp.org iburst #server 1.centos.pool.ntp.org iburst #server 2.centos.pool.ntp.org iburst #server 3.centos.pool.ntp.org iburst
c）添加3（当该master节点丢失网络连接，依然可以采用本地时间作为时间服务器为集群中的其他节点提供时间同步）
server 127.127.1.0 fudge 127.127.1.0 stratum 10
4. 修改/etc/sysconfig/ntpd文件

vi /etc/sysconfig/ntpd
    //增加内容如下（让硬件时间与系统时间一起同步）
    SYNC_HWCLOCK=yes

重新启动ntpd服务

service ntpd status
		ntpd 已停
service ntpd start
		正在启动 ntpd：                       [确定]

设置ntpd服务开机启动

chkconfig ntpd on

8.2、其他机器配置（必须root用户）

在另外的slave1和slave2节点上配置。

在其他机器配置1分钟与时间服务器同步一次

crontab -e
    编写定时任务如下：
    */1 * * * * /usr/sbin/ntpdate master

修改任意机器时间

date -s "2020-9-11 11:11:11"

一分钟后查看机器是否与时间服务器同步

date

Hive 与 SparkSQL 的语法差异及性能对比自然术算 Hive hive hadoop 大数据 spark
在大数据处理领域，Hive和SparkSQL都是极为重要的工具，它们为大规模数据的存储、查询和分析提供了高效的解决方案。虽然二者都致力于处理结构化数据，并且都采用了类似SQL的语法来方便用户进行操作，但在实际使用中，它们在语法细节和性能表现上存在诸多差异。了解这些差异，对于开发者根据具体业务场景选择合适的工具至关重要。语法差异数据定义语言（DDL）表创建语法Hive：在Hive中创建表时，需要详细
【实操回顾】基于Apache SeaTunnel从MySQL同步到PostgreSQL——Demo方舟计划 SeaTunnel apache mysql postgresql
文章作者：马全才奥克斯集团大数据工程师编辑整理：国电南自赵鸿辉白鲸开源曾辉本文详细演示了如何通过ApacheSeaTunnel2.3.9实现**MySQL**到PostgreSQL的全量数据同步。非常感谢马全才老师花费业余时间为大家演示制作的Demo，也欢迎更多朋友贡献自己熟悉的同步场景，详细请参考社区Demo方舟活动：https://mp.weixin.qq.com/s/5gpiZZ0-8a4I
Flink 初体验：从 Hello World 到实时数据流处理小诸葛IT课堂 flink 大数据
在大数据处理领域，ApacheFlink以其卓越的流批一体化处理能力脱颖而出，成为众多企业构建实时数据应用的首选框架。本文将带领你迈出Flink学习的第一步，从基础概念入手，逐步引导你编写并运行第一个Flink程序——经典的WordCount，让你亲身感受Flink在实时数据流处理方面的强大魅力。一、Flink基础概念速览1.1什么是FlinkFlink是一个分布式流批一体化开源平台，旨在对无界和
大数据开发之Kubernetes篇----安装部署Kubernetes&dashboard 豆豆总 kubernetes
Kubernetes简介由于公司有需要，需要将外后的服务外加Tensorflow模型部署加训练全部集成到k8s上，所以特意记录下这次简单部署的过程。k8s安装部署首先，我们在部署任何大型的组件前都必须要做的事情就是关闭防火墙和设置hostname了vi/etc/hostsk8s001xxx.xxx.xxx.xxk8s002xxx.xxx.xxx.xx...systemctlstopfirewall
毕设分享大数据B站数据分析可视化系统 bee_dc 毕业设计毕设大数据
文章目录0前言1项目运行效果2设计原理数据处理方案可视化呈现方案综合得分计算指标综合得分漏斗图游客画像完成度三连排行榜点赞、投币、收藏与白嫖的比例分析3最后0前言这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天
毕业设计项目大数据B站数据分析可视化系统 bee_dc 毕业设计毕设大数据
文章目录0前言1项目运行效果2设计原理数据处理方案可视化呈现方案综合得分计算指标综合得分漏斗图游客画像完成度三连排行榜点赞、投币、收藏与白嫖的比例分析3最后0前言这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天
python数据可视化玩转Matplotlib subplot子图操作，四个子图（一包四），三个子图，子图拉伸_python subplot 2401_83817843 程序员 python 信息可视化 matplotlib
大锤爱编程的博客_CSDN博客-大数据,Go,数据分析领域博主Matplotlib是一个流行的Python可视化库，它提供了许多功能来创建各种类型的图表。其中一个功能是子图，它允许您在单个图表中绘制多个图。一、创建子图要创建子图，请使用plt.subplots()函数。该函数接受三个参数：行数、列数和子图编号。以下是一个简单的示例：importmatplotlib.pyplotaspltfig,a
C/C++每日一练：实现选择排序風清掦 C/C++~每日一练 c语言 c++算法
选择排序选择排序是一种简单直观的排序算法，时间复杂度为，其中n是数组长度，不适合大数据集的排序，适合于元素较少且对性能要求不高的场景。选择排序的基本思想是：每次从未排序部分选择最小的元素，将其放到已排序部分的末尾。这样经过多轮操作后，整个数组会被逐步排好序。具体步骤如下：初始化：将第一个元素作为已排序区，剩余部分作为未排序区。遍历未排序区：从未排序区间找出最小的元素，记下其位置。交换位置：将找到的
怎么做一个AI产品经理？ AI筑梦师 AI产品经理人工智能产品经理
AI产品经理全面进化：在人工智能迅猛发展的时代，产品经理的角色正经历前所未有的转型。从传统的需求捕捉者到技术与商业紧密结合的创新推动者，AI产品经理肩负着将前沿AI技术转化为解决用户痛点的产品的重要任务。随着大数据、云计算和大模型技术的不断成熟，产品经理不仅需要具备敏锐的市场洞察，还必须深刻理解AI技术本质，跨界整合技术、数据与业务优势，从而推动产品的持续创新与落地。本文将全面解析AI产品经理的角
运维面试常问的100道题（大数据统计）無爲謂人工智能运维面试
一、基础知识类1、请解释什么是运维？运维是指对企业的IT系统进行运行维护，包括硬件设备、软件系统、网络等的监控、管理、优化和故障处理，以确保系统的稳定、高效运行，满足业务需求。2、简述运维的主要职责有哪些？服务器的安装、配置、维护和监控。网络设备的管理和维护。数据库的管理和维护。应用系统的部署、升级和维护。故障处理和应急响应。性能优化和容量规划。安全管理和漏洞修复。3、什么是服务器？有哪些类型？服
融合网络实训室初步建设方案设想武汉唯众智创网络融合网络实训室融合网络融合网络实验室网络融合实训室网络融合实验室
一、引言在数字化浪潮席卷全球的当下，网络技术已然成为推动社会发展和经济增长的关键力量。从日常的生活购物到企业的运营管理，从便捷的社交沟通到前沿的科研探索，网络技术无处不在，深刻地改变着人们的生活与工作方式。随着5G、物联网、云计算、大数据等新兴技术的迅猛发展，网络技术领域对于专业人才的需求呈现出爆发式增长。据权威机构预测，未来几年，网络技术相关岗位的人才缺口将持续扩大。这些岗位不仅要求从业者具备扎
嵌入式SDIO 总线面试题及参考答案大模型大数据攻城狮 fpga开发嵌入式面经 SPI USB接口 SD总线 SDIO总线牛客网
目录SDIO总线与SD总线的核心区别是什么？(附框架图）简述SDIO总线物理接口的组成及其功能（CLK、CMD、DAT0-DAT3）。SDIO总线支持的最大数据传输位宽是多少？如何配置？解释SDIO总线中的主从模式架构及通信流程。SDIO卡的功能类型有哪些（如Wi-Fi、蓝牙、GPS）？SDIO总线时钟信号（CLK）的作用及典型频率范围SDIO协议中的OCR寄存器作用是什么？如何通过CMD5获取卡
大模型和数据要素赋能实体零售行业数字化转型建设和实施方案优享智库大模型数据要素数据治理数据仓库主数据零售
大模型和数据要素赋能实体零售行业数字化转型建设和实施方案更多参考公众号：优享智库引言项目背景与意义数字化转型目标与期望实施方案概述零售行业现状及挑战实体零售行业现状数字化转型面临的挑战市场需求与趋势分析大模型与数据要素赋能策略大模型技术及应用场景数据要素采集、整合与治理赋能策略制定与实施路径数字化转型关键技术与解决方案人工智能技术及应用大数据分析与挖掘技术云计算、物联网等技术支持定制化解决方案设计
京准电钟分享：医院网络内NTP时间同步服务器作用是什么？北京华人开创公司北斗卫星授时 NTP时间同步 GPS对时装置 NTP 时间同步服务器网络时间服务器 NTP时间服务器网络系统时钟同步
京准电钟分享：医院网络内NTP时间同步服务器作用是什么？京准电钟分享：医院网络内NTP时间同步服务器作用是什么？时间同步技术必定将是整个大数据处理系统的重要支撑和保障。时间同步技术使数据产生与处理系统的所有节点具有全局的、统一的标准时间，从而使系统中的所有各种消息、事件、节点、数据等具备正确的逻辑性、协调性以及可追溯性。大数据产生与处理系统是各种计算设备集群的，计算设备将统一、同步的标准时间用于记
204页数字化转型：集团企业信息化规划方案公众号：智慧方案文库精选解决方案（附下载）大数据 database
建立统一共享的信息平台，集团总部能实时监控下属单位的库存、产量、成本、资金流等关键信息，有效利用大数据技术平台为管理层提供全面、及时、准确的决策信息支持。n推动生产、销售、新业务领域的自动化、数字化、网络化、信息化、集成化，为今后打造智能制造、智慧农业奠定坚实基础；n推进IT基础设施建设与提升，采用全新的架构设计理念，建成组件化、集中化、服务化、协同化的统一云平台，提供高质量、可重用的平台服务，营
Java 大视界 -- Java 大数据在智慧交通自动驾驶仿真与测试数据处理中的应用（136）青云交大数据新视界 Java 大视界 java 大数据自动驾驶智慧交通仿真测试数据处理数据存储
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
大数据手册(Spark)--Spark安装配置 WilenWu 数据分析(Data Analysis)大数据 spark 分布式
本文默认在zsh终端安装配置，若使用bash终端，环境变量的配置文件相应变化。若安装包下载缓慢，可复制链接到迅雷下载，亲测极速～准备工作Spark的安装过程较为简单，在已安装好Hadoop的前提下，经过简单配置即可使用。假设已经安装好了hadoop（伪分布式）和hive，环境变量如下JAVA_HOME=/usr/opt/jdkHADOOP_HOME=/usr/local/hadoopHIVE_HO
《java性能调优》2.Stream如何提高遍历集合效率 just_one_wk java性能调优
在Java8中，Collection新增了两个流方法，分别是Stream()和parallelStream()。什么是Stream？在Java8之前，我们通常是通过for循环或者Iterator迭代来重新排序合并数据，又或者通过重新定义Collections.sorts的Comparator方法来实现，这两种方式对于大数据量系统来说，效率并不是很理想。Java8中添加了一个新的接口类Stream，
uni-app App 端分段导出 JSON 数据为文件 _虾仁不眨眼_ uni-app
在开发过程中，我们经常需要将大量数据导出为JSON文件，尤其是在处理长列表或大数据集时。然而，直接将所有数据写入一个文件可能会导致性能问题，尤其是在移动设备上。为了优化性能并提高用户体验，我们可以将数据分段导出到多个文件中。实现思路分段处理数据：将长JSON数据分段，每段包含固定数量的数据。使用plus.io写入文件：利用uni-app的plus.ioAPI，将每段数据写入单独的文件。提示用户导出
智慧运维与物联网技术在地铁车辆段的应用项目罗博深
本文还有配套的精品资源，点击获取简介：随着物联网技术的广泛应用，智慧运维系统通过传感器、大数据分析、云计算等技术集成，提升了地铁车辆段的运维效率和安全性。该系统可以实时监控设备状态、预测故障、提供智能决策支持、优化维护策略，并降低运营成本，同时提高乘客安全。其应用拓展至整个地铁线路，乃至与城市交通系统协同，展现了智慧运维对公共交通系统现代化的贡献。1.物联网技术基础与应用物联网（Interneto
Java多线程与并发编程实战——从基础到进阶 AI天才研究院 Python实战 Java实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介互联网企业都在大力拓展自己的业务，而新的技术革命也带来了海量的数据量，因此，单机并发处理能力已经无法满足现代信息时代对高速数据的需求。大数据和云计算带来的分布式系统架构，让单台计算机不仅能够执行单个任务，而且可以横向扩展处理大量任务。在这种情况下，如何充分利用多核CPU、共享内存等资源并发地处理多项任务就成为现代系统设计者们必备技能之一。本书将以实操为导向，全面
深入解析LTE-A到5G的系统消息架构与功能演进罗博深
本文还有配套的精品资源，点击获取简介：系统消息是移动通信网络中，UE与网络间信息交换的核心，涵盖了网络状态、服务信息与系统配置。文章深入分析了4GLTE-A到5G网络中系统消息的组成、作用及其演进，包括MIB和SIBs的功能与内容，以及5G对系统消息的优化和新技术的引入，如动态调度、网络切片和针对物联网设备的特定参数配置。5G系统消息还通过机器学习和大数据分析实现智能化分发，增强了网络灵活性、智能
机器学习算法实战——天气数据分析（主页有源码）喵了个AI 机器学习实战机器学习算法数据分析
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.引言天气数据分析是气象学和数据科学交叉领域的一个重要研究方向。随着大数据技术的发展，气象数据的采集、存储和分析能力得到了显著提升。机器学习算法在天气数据分析中的应用，不仅能够提高天气预报的准确性，还能为气候研究、灾害预警等提供有力支持。本文将介绍机器学习在天气数据分析中的应用，探讨
多线程到底重不重要？ Vic2334 JAVA java 开发语言
我们先说一下为什么要讲多线程和高并发？原因是，你想拿到一个更高的薪水，在面试的时候呈现出了两个方向的现象：第一个是上天项目经验高并发缓存大流量大数据量的架构设计第二个是入地各种基础算法，各种基础的数据结构JVMOS线程IO等内容多线程和高并发，就是入地里面的内容。基本概念我们先从线程的基本概念开始，给大家复习一下，不知道有多少同学是基础不太好，说什么是线程都不知道的，如果这样的话，花时间去补初级内
Assembly语言的自然语言处理花韵婷包罗万象 golang 开发语言后端
Assembly语言在自然语言处理中的应用引言自然语言处理（NaturalLanguageProcessing,NLP）作为人工智能的一个重要分支，致力于实现计算机与人类语言之间的互动。随着计算能力的提升以及大数据的蓬勃发展，NLP在各个领域的应用如火如荼。从语音识别、机器翻译到情感分析等，NLP正在改变我们与信息之间的互动方式。不过，当前主流的NLP研究通常是用高级编程语言（如Python、Ja
提出机器人自主学习新范式，深大团队最新顶会论文，刷新6大复杂任务SOTA 量子位
关注前沿科技量子位让机器人轻松学习复杂技能有新框架了！深圳大学大数据系统计算技术国家工程实验室李坚强教授团队联合鹏城国家实验室、北京理工莫斯科大学，提出了奖励函数与策略协同进化框架ROSKA。在多个高维度机器人任务上，在仅使用89%训练样本的情况下，比现有SOTA方法平均性能提升95.3%。众所周知，随着机器人技术的快速发展，其应用已渗透至日常生活和工业生产场景。然而在多自由度机器人控制领域，传统
基于Asp.net的汽车租赁管理系统计算机学姐 Asp精选实战项目源码 asp.net 汽车后端 mysql sqlserver vue.js c#
作者：计算机学姐开发技术：SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等，“文末源码”。专栏推荐：前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码精品专栏：Java精选实战项目源码、Python精选实战项目源码、大数据精选实战项目源码系统展示【2025最新】基于Asp.net的汽车租赁管理系统开发
TDengine 使用教程：从入门到实践遇见伯灵说 tdengine 大数据时序数据库
TDengine是一款专为物联网（IoT）和大数据实时分析设计的时序数据库。它能够高效地处理海量的时序数据，并提供低延迟、高吞吐量的性能表现。在本文中，我们将带领大家从TDengine的安装、基本操作到一些高级功能，帮助你快速上手。1.TDengine简介TDengine是一个高效的时序数据存储解决方案，支持高并发写入和快速的实时分析。它适用于各种物联网应用场景，如传感器数据监控、日志数据处理等。
Java：AI 浪潮中的隐形支柱 —— 探秘 Java 在人工智能领域的独特地位琢磨先生David 人工智能
引言在人工智能技术席卷全球的今天，当人们谈论AI开发时，Python、R语言、C++等工具总是最先被提及。然而在这个充满创新的领域，有一个"老兵"正悄然发挥着不可替代的作用——自1995年诞生至今的Java语言，凭借其独特的工程化基因，正在构建起AI世界的底层基础设施。本文将揭示Java如何在大数据、机器学习、企业级AI系统等领域持续创造价值。一、Java的AI基因解码跨平台优势的现代意义"一次编
掌握大数据时代的心跳：实时数据处理的崛起 Echo_Wish 大数据大数据
掌握大数据时代的心跳：实时数据处理的崛起在大数据时代，我们每天都在生成海量的数据——从社交媒体上的点赞到物联网设备上传的传感器数据，数据无处不在。然而，仅仅存储这些数据已经无法满足现代业务的需求，“实时数据处理”已经从一项可选技术跃升为业务成功的关键所在。如何让数据在其生成的瞬间就能被分析、处理并驱动决策，这是我们今天要探讨的重点。为什么实时数据处理如此重要？想象一下这样两个场景：在线交易平台：当
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1

Apache Hadoop的集群搭建(入门级)

Apache Hadoop的集群搭建(入门级)

1.虚拟机准备

1.1、关闭防火墙：

1.2、创建一般用户（可选）：

1.3、修改Hosts：

1.4、修改静态IP：

1.5、修改主机名：

2、安装JDK

2.1、卸载现有JDK/OpenJDK：

2.2、安装JDK：

2.3、配置JDK环境：

3、安装Hadoop

3.1、安装Hadoop：

3.2、配置Hadoop环境：

4、配置集群并测试单点启动

4.1、三个节点的规划：

1、穷人版：

2、富人版：

4.2、配置集群：

4.3、集群单点启动：

5、配置SSH无密码登录

5.1、需要发送的秘钥图：

5.2、SSH无密码配置解决方法1：

5.3、SSH无密码配置解决方法2：

6、群起集群

6.1、群起HDFS脚本：

6.2、YARN启动：

6.3、测试：

7、历史服务器和日志聚集

7.1、停止集群节点服务：

7.2、配置历史服务器：

7.3、配置日志聚集：

7.4、测试配置：

8、集群时间同步

8.1、时间服务器配置（必须root用户）

8.2、其他机器配置（必须root用户）

你可能感兴趣的:(大数据)