hello_heheha

Hadoop完全分布式集群搭建过程（HA高可用）

使用Centos7来进行完全分布式的集群搭建，一般我们用伪分布式的集群就可以了，不需要配置完全分布式的集群
和我们搭建伪分布式集群一样，我们首先要现在好安装包，以及我们需要配置配置JDK，SSH免秘钥登陆，以及Zookeeper分布式的搭建等，下面就开始我们的搭建过程

一、配置Linux虚拟机

1.配置主机名以及主机映射

我们配置集群环境的时候，设置固定的主机名和主机映射能够方便的让我我们使用

修改主机名

修改主机名的时候，Centos6和Centos7完全不一样。下面是Centos7为例来修改我们的主机名

vim /etc/hostname

删除原来的主机名，修改为我们自己的要配置的，在这里我修改的主机名为zj01，zj02，zj03，一般我们都是设置的master，slave1，slave2。按照个人喜好修改主机名

注意：修改主机名后我们需要重启虚拟机才会生效，使用reboot命令重启虚拟机

reboot

补充：Centos6修改主机名

vim /etc/sysconfig/network

将里面原来信息修改为如下信息：

NETWORKING=yes
HOSTNAME=zj01

修改完成后重启虚拟机

配置主机映射

修改配置文件hosts

vim /etc/hosts

根据自己的ip信息，添加如下信息：

#127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
#::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.8.130   zj01
192.168.8.131   zj02
192.168.8.132   zj03

再修改我们的主机映射的时候，我们可以通过ifconfig来查看我们自己的ip信息，进行配置

ifconfig

主机映射配置完毕

2.关闭防火墙

Centos7系统默认防火墙不是iptables,而是firewall,那就得使用以下方式关闭防火墙了。

systemctl stop firewalld.service            #停止firewall
systemctl disable firewalld.service        #禁止firewall开机启动

此时Centos7的防火墙就关闭了。

补充：Centos6关闭防火墙

service iptables status				#查看防火墙状态
service iptables stop				#关闭防火墙，但是重启后会恢复原来状态
chkconfig iptables --list			#查看系统中防火墙的自动
chkconfig iptables off				#关闭防火墙自启动
chkconfig iptables --list			#再次查看防火墙自启动的情况，所有启动状态都变成额off

常时间没有用过Centos6了，应该是–list，如果不是直接关闭就行了，不用纠结这个命令

二、SSH免秘钥的配置

执行以下命令来生成相应得秘钥

ssh-keygen -t rsa

一路回车，生成私有秘钥

cd /root/.ssh
ls

一般在第一次执行的时候，只有id_rsa、id_rsa.pub这两个文件，但是id_rsa.pub文件存的基石私有秘钥，要想让其他节点来连接本台机器我们需要生成公钥，执行ssh-copy-id可以将秘钥转成公钥，在三台节点上执行以下命令：

ssh-copy-id zj01
ssh-copy-id zj02
ssh-copy-id zj03

执行过次语句后，每台节点上都会生成以下两个文件authorized_keys，known_hosts，查看两个文件的内容，执行此语句的时候需要我们先输入yes统一连接，再输入要连接节点的密码就可以了。

cat authorized_keys

此文件里面存储的是三台节点的秘钥。
查看known_hosts文件

cat known_hosts

此文件主要记录的是我们使用ssh连接过的主机名。
相对而言authorized_keys文件是最重要的，有了这个文件我们再使用ssh连接的时候直接就连接了，不用我们再输入密码。

自此SSH免秘钥设置完毕。我们可以继续下面组件的安装配置。

三、JDK的安装部署

创建一个目录，用来存放所有的安装目录。在这里我创建的是目录是/apps/，我们可以将所有的安装包上传到这个文件中，解压后再将安装包删除。

注意：jdk三台都需要配置

1.卸载系统自带的jdk

rpm -qa | grep java

使用rpm进行卸载

rpm -e java-xxx
rpm -e --nodeps java-xxx   #强制卸载

2.下载jdk安装包并上传到虚拟机中

在官网上进行下载jdk的安装包
官网路径：https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

我这里面使用的XShell连接的虚拟机，在XShell连接的时候，执行以下语句就可以实验windows和虚拟机之间的文件传输

yum install lrzsz -y

执行完成后就可以将文拖到虚拟机终端里面进行文件的上传。
注意：这只是其中的一种解决方案，我们还可以下载winscp来实现文件的上传下载。

3.安装jdk

解压并重新命令

tar -zxvf jdk-8u162-linux-x64.tar.gz ./
mv jdk-1.8.0_162 jdk
rm -rf  jdk-8u162-linux-x64.tar.gz

修改环境变量(三个节点都配置)

vim /etc/profile

配置如下：

#JDK 1.8
export JAVA_HOME=/apps/jdk
export PATH=$PATH:$JAVA_HOME/bin

刷新环境变量

source /etc/profile

验证jdk是否安装成功

java -version

输出如下：

我们可以通过以下命令将jdk文件上传到其余的节点中

scp -r /apps/jdk zj02:/apps/
scp -r /apps/jdk zj03:/apps/

这样我们就可以在02，03节点上/apps/目录下查看我们上传的jdk文件，需要我们配置环境变量就可以了。

四、Zookeeper的安装部署

要配置完全分布式的Hadoop集群，Zookeeper的主要作用就是协调集群的运行，在Hadoop生态圈中zookeeper的作用是至关重要的。

下载zookeeper的安装包

首先我们要先下载zookeeper的安装包，在管网上下载安装包就可以了
管网路径：https://archive.apache.org/dist/zookeeper/
这里面有好多版本，我们可以选择自己版本进行下载。

将下载后的安装包，上传到zj01的/apps目录下。

安装zookeeper

解压zookeeper的安装包并重名为zookeeper

tar -zxvf zookeeper-3.4.12.tar.gz 
mv zookeeper-3.4.12 zookeeper
rm -rf zookeeper-3.4.12.tar.gz

修改环境变量(三个节点都配置)

vim /etc/profile

在文件末尾添加一下信息

#zookeeper
export ZOOKEEPER_HOME=/apps/zookeeper
export PATH=$PATH:$ZOOKEEPER_HOME/bin

配置到文件后我们要刷新一下环境变量，让我们的配置信息生效

source /etc/profile

配置zookeeper

进入zookeeper的conf目录下，将zoo_example.cfg复制出来一个为zoo.cfg

cp zoo_example.cfg zoo.cfg

修改zoo.cfg文件

vim zoo.cfg

配置信息如下

server.0=zj01:2888:3888
server.1=zj02:2888:3888
server.2=zj03:2888:3888

其中0、1、2分别代表的是zj01、zj02、zj03的标识符。
创建标识符
进入dataDir设置的目录/apps/zookeeper/tmp，在此目录下创建一个myid文件，用来存放我们设置的标识符

cd /apps/zookeeper/tmp
echo 1 > myid

查看标识符

分发文件到其余的两个节点

scp -r /apps/zookeeper slave2:/apps/zookeeper
scp -r /apps/zookeeper slave3:/apps/zookeeper

记得修改zj02，zj03的标识符为1和2

启动zookeeper

zkServer.sh stat

查看每台zookeeper的状态，会出现一个leader，两个flower。此时zookeeper的集群搭建完毕

五、Hadoop的安装部署

下载安装包

我们可以在官网上进行下载安装包
官网：https://archive.apache.org/dist/hadoop/common/
进入官网选择自己想要下载的安装包进行下载，切记下载64位的tar.gz安装包
将下载好的安装包上传到zj01的/apps/目录下。

安装hadoop

解压并重命名为hadoop

tar -zxvf hadoop-2.7.5.tar.gz 
mv hadoop-2.7.5 hadoop
rm -rf hadoop-2.7.5.tar.gz

修改环境变量(三个节点都配置)

vim /etc/profile

在文件末尾添加一下信息

#hadoop
export HADOOP_HOME=/apps/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

配置到文件后我们要刷新一下环境变量，让我们的配置信息生效

source /etc/profile

修改配置文件

进入hadoop配置文件所在目录

cd /apps/hadoop/etc/hadoop

我们在此目录下需要修改5个配置文件

修改hadoop-env.sh

需要我们指定jdk的版本信息

export JAVA_HOME=/apps/jdk

修改core-site.xml




<configuration>
	
    <property>
        <name>fs.defaultFSname>
        <value>hdfs://bigdatavalue>
    property>
	
	<property>
        <name>hadoop.tmp.dirname>
        <value>/apps/hadoop/tmpvalue>
        <description>Abase for other temporary directories.description>
    property>
	
	
	<property>
		<name>hadoop.proxyuser.hduser.hostsname>
		<value>*value>
	property>
	
	
	<property>
		<name>hadoop.proxyuser.hduser.groupsname>
		<value>*value>
	property>
	
	
	<property>
	<name>ha.zookeeper.quorumname>
	<value>zj01:2181,zj02:2181,zj03:2181value>
	property>
configuration>

修改hdfs-site.xml




<configuration>	
	
	<property>
		<name>dfs.nameservicesname>
		<value>bigdatavalue>
	property>
	
	
	<property>
		<name>dfs.ha.namenodes.bigdataname>
		<value>nn1, nn2value>
	property>
	
	
	<property>
		<name>dfs.namenode.rpc-address.bigdata.nn1name>
		<value>zj01:9000value>
	property>
	
	
	<property>
		<name>dfs.namenode.rpc-address.bigdata.nn2name>
		<value>zj02:9000value>
	property>
	
	
	<property>
		<name>dfs.namenode.http-address.bigdata.nn1name>
		<value>zj01:50070value>
	property>
	
	
	<property>
	<name>dfs.namenode.http-address.bigdata.nn2name>
	<value>zj02:50070value>
	property>
	
	
	<property>
		<name>dfs.journalnode.edits.dirname>
		<value>/home/hadoop/hadoop/journaldatavalue>
	property>
	
	
	<property>
		<name>dfs.namenode.shared.edits.dirname>
		<value>qjournal://zj01:8485;zj02:8485;zj03:8485/bigdatavalue>
	property>
	
	
	<property>
		<name>dfs.namenode.edits.journal-plugin.qjournal name>
		<value>org.apache.hadoop.hdfs.qjournal.client.QuorumJournalManagervalue>
	property>
	
	
	<property>
		<name>dfs.ha.automatic-failover.enabledname>
		<value>truevalue>
	property>
	
	
	<property>
		<name>dfs.namenode.name.dir.restorename>
		<value>truevalue>
	property>
	
	
	<property>
		<name>dfs.client.failover.proxy.provider.bigdataname>
		<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvidervalue>
	property>
	
	
	<property>
		<name>dfs.ha.fencing.methodsname>
		<value>
				sshfence
				shell(/bin/true)
		value>
    property>

	
	
	<property>
		<name>dfs.ha.fencing.ssh.private-key-filesname>
		<value>/root/.ssh/id_rsavalue>
	property>
	
	
	<property>
	<name>dfs.namenode.name.dirname>
	<value>file:///apps/hadoop/dfsdata/namevalue>
	property>
	
	<property>
		<name>dfs.blocksizename>
		<value>67108864value>
	property>
	
	
	<property>
		<name>dfs.datanode.data.dirname>
		<value>file:///apps/hadoop/dfsdata/datavalue>
	property>
	
	
	<property>
		<name>dfs.replicationname>
		<value>3value>
	property>
	
	
	<property>
		<name>dfs.webhdfs.enabledname>
		<value>truevalue>
	property>
configuration>

修改mapred-site.xml

复制mapred-site.xml.template为mapred-site.xml

cp mapred-site.xml.template mapred-site.xml

具体配置信息如下：




<configuration>
	
	<property>
		<name>mapreduce.framework.namename>
		<value>yarnvalue>
	property>
configuration>

修改yarn-site.xml




<configuration>
	
	<property>
		<name>yarn.resourcemanager.connect.retry-interval.msname>
		<value>2000value>
	property>
	
	
	<property>
		<name>yarn.resourcemanager.ha.enabledname>
		<value>truevalue>
	property>
	
	
	<property>
		<name>yarn.resourcemanager.ha.rm-idsname>
		<value>rm1,rm2value>
	property>
	<property>
		<name>yarn.resourcemanager.hostname.rm1name>
		<value>zj01value>
	property>

	<property>
		<name>yarn.resourcemanager.hostname.rm2name>
		<value>zj02value>
	property>
	
	
	<property>
		<name>yarn.resourcemanager.ha.automatic-failover.enabledname>
		<value>truevalue>
	property>

	
	<property>
		<name>yarn.resourcemanager.ha.idname>
		<value>rm1value>
	property>
	
	
	<property>
		<name>yarn.resourcemanager.recovery.enabledname>
		<value>truevalue>
	property>
	
	
	<property>
		<name>yarn.resourcemanager.store.classname>
		<value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStorevalue>
	property>
	
	<property>
		<name>yarn.resourcemanager.zk-addressname>
		<value>zj01:2181,zj02:2181,zj03:2181value>
	property>
	
	
	<property>
		<name>yarn.app.mapreduce.am.scheduler.connection.wait.interval-msname>
		<value>5000value>
	property>
	
	
	<property>
		<name>yarn.resourcemanager.cluster-idname>
		<value>bigdatavalue>
	property>
	
	
	<property>
		<name>yarn.resourcemanager.address.rm1name>
		<value>zj01:8132value>
	property>
	
	<property>
		<name>yarn.resourcemanager.scheduler.address.rm1name>
		<value>zj01:8130value>
	property>
	
	
	<property>
		<name>yarn.resourcemanager.webapp.address.rm1name>
		<value>zj01:8088value>
	property>
	
	<property>
		<name>yarn.resourcemanager.resource-tracker.address.rm1name>
		<value>zj01:8131value>
	property>
	
	
	<property>
		<name>yarn.resourcemanager.admin.address.rm1name>
		<value>zj01:8033value>
	property>
	
	<property>
		<name>yarn.resourcemanager.ha.admin.address.rm1name>
		<value>zj01:23142value>
	property>
	
	
	<property>
		<name>yarn.resourcemanager.address.rm2name>
		<value>zj02:8132value>
	property>
	
	<property>
		<name>yarn.resourcemanager.scheduler.address.rm2name>
		<value>zj02:8130value>
	property>
	
	
	<property>
		<name>yarn.resourcemanager.webapp.address.rm2name>
		<value>zj02:8088value>
	property>
	
	<property>
		<name>yarn.resourcemanager.resource-tracker.address.rm2name>
		<value>zj02:8131value>
	property>
	
	
	<property>
		<name>yarn.resourcemanager.admin.address.rm2name>
		<value>zj02:8033value>
	property>
	
	<property>
		<name>yarn.resourcemanager.ha.admin.address.rm2name>
		<value>zj02:23142value>
	property>
	
	
	<property>
		<name>yarn.nodemanager.aux-servicesname>
		<value>mapreduce_shufflevalue>
	property>
	
	<property>
		<name>yarn.nodemanager.aux-services.mapreduce.shuffle.classname>
		<value>org.apache.hadoop.mapred.ShuffleHandlervalue>
	property>
	
	
	<property>
		<name>yarn.nodemanager.local-dirsname>
		<value>/apps/hadoop/dfsdata/yarn/localvalue>
	property>
	
	<property>
		<name>yarn.nodemanager.log-dirsname>
		<value>/apps/hadoop/dfsdata/logsvalue>
	property>
	
	<property>
		<name>yarn.nodemanager.resource.memory-mbname>
		<value>1024value>
		<discription>每个节点可用内存,单位 MBdiscription>
	property>
	
	<property>
		<name>yarn.scheduler.minimum-allocation-mbname>
		<value>258value>
		<discription>单个任务可申请最少内存，默认 1024MBdiscription>
	property>
	
	<property>
		<name>yarn.scheduler.maximum-allocation-mbname>
		<value>512value>
		<discription>单个任务可申请最大内存，默认 8192MBdiscription>
	property>
	
	<property>
		<name>yarn.nodemanager.webapp.addressname>
		<value>0.0.0.0:8042value>
	property>
configuration>

修改slaves文件

zj01
zj02
zj03

分发hadoop文件到其他节点

scp -r /apps/hadoop slave2:/apps/
scp -r /apps/hadoop slave3:/apps/

初始化hadoop

在执行格式化的时候开启一个进程：

hadoop-daemon.sh start journalnode

格式化之后将name文件拷贝到zj02中，按理说应该是自动生成的，我的没有自动生成，是自己拷贝进去的

hadoop namennode -format

启动hadoop集群

#先启动zookeeper，再启动hadoop集群
start-all.sh

启动情况如下：

查看虚拟机的各个进程：

访问zj01:50070端口和zj02:50070端口
http://zj01:50070
http://zj02:50070

访问zj01:8088端口
http://zj01:8088

hadoop集安装成功，如果安装有什么问题，可以随时提哟，希望能帮助您。
如果你在安装碰见了什么样问题，或者我的文档写的有不合理之处，欢迎指出谢谢。

ssh命令满分对我强制爱 linux 服务器运维 spark
ssh命令无需密码也可登录要先关闭防火墙，命令如下：systemctlstopfirewalldsystemctldisablefirewalldsystemctlstatusfirewalldeg：目标：hadoop100通过ssh访问hadoop101,hadoop102时不需要密码，其他两台设备也类似。具体操作如下：1.在hadoop100中生成公钥和密码。ssh-keygen-trsa三次
存算一体与存算分离：架构设计的深度解析与实现方案克里斯蒂亚诺罗纳尔多阿维罗大数据数据库
随着数据量的不断增大和对计算能力的需求日益提高，存算一体作为一种新型架构设计理念，在大数据处理、云计算和人工智能等领域正逐步引起广泛关注。在深入探讨存算一体之前，我们需要先了解存储和计算的基本概念，以及存算分离和存算一体之间的区别。什么是存算一体？存算一体，顾名思义，是将数据存储与计算资源紧密结合，形成一个统一的架构。在这种架构下，存储和计算不仅在物理层面上结合，更在架构设计上深度融合。具体来说，
LakeHouse湖仓一体成为下一站灯塔，数仓、数据湖架构即将退出群聊科杰科技大数据数据仓库
摘要：当前的大数据技术应用趋势表明，客户对单一的数据湖和数仓架构并不满意。近年来几乎所有的数据仓库都增加了对Parquet和ORC格式的外部表支持，这使数仓用户可以从相同的SQL引擎查询数据湖表，但它不会使数据湖表更易于管理，也不会消除仓库中数据的ETL复杂性、陈旧性和高级分析挑战。KeenDataLakeHouse（湖仓一体）作为新一代大数据技术架构，将逐渐取代单一数据湖和数仓架构，成为大数据架
数据让农业更聪明——用大数据激活田间地头 Echo_Wish 大数据大数据
数据让农业更聪明——用大数据激活田间地头在农业领域，随着人口增长和气候变化的影响，如何提升生产力始终是个关键话题。大数据，这个曾经只属于科技领域的概念，如今已悄然进入田间地头。今天，我以Echo_Wish的视角，和大家聊聊大数据如何赋能农业生产力，帮农民在阳光下也能掌握“科技的钥匙”。认识农业中的大数据什么是农业中的“大数据”？简单来说，就是收集和分析有关土地、气候、作物、病虫害以及市场需求等方面
GraphCube、Spark和深度学习技术赋能快消行业关键运营环节 weixin_30777913 开发语言大数据深度学习人工智能 spark
在快消品（FMCG）行业，需求计划（DemandPlanning）、库存管理（InventoryManagement）和需求供应管理（DemandSupplyManagement）是影响企业整体效率和利润水平的关键运营环节。GraphCube图多维数据集技术、Spark大数据分析处理技术和深度学习技术的结合，为这些环节提供了智能化、动态化和实时化的解决方案，显著提升业务运营效率和企业利润。一、技术
从 0 到 1 构建 Python 分布式爬虫，实现搜索引擎全攻略七七知享 Python python 分布式爬虫搜索引擎算法程序人生网络爬虫
从0到1构建Python分布式爬虫，实现搜索引擎全攻略在大数据与信息爆炸的时代，搜索引擎已然成为人们获取信息的关键入口。你是否好奇，像百度、谷歌这般强大的搜索引擎，背后是如何精准且高效地抓取海量网页数据的？本文将带你一探究竟，以Python为工具，打造属于自己的分布式爬虫，进而搭建一个简易搜索引擎，完整呈现从底层代码编写到系统搭建的全过程。通过本文的实践，我们成功打造了Python分布式爬虫，并以
第三十篇维度建模：从理论到落地的企业级实践随缘而动，随遇而安数据库 sql 数据仓库大数据数据库架构
目录一、维度建模核心理论体系1.1Kimball方法论四大支柱1.2关键概念对比矩阵二、四步建模法全流程解析2.1选择业务过程（以电商为例）2.2声明原子粒度（订单案例）2.3维度设计规范时间维度（含财年逻辑）SCDType2完整实现（Hudi）2.4事实表类型与设计三、企业级建模实战：电商用户分析3.1业务矩阵分析3.2模型实现代码四、高级建模技巧4.1多星型模式关联4.2大数据场景优化五、性能
Hive面试题御风行云天面试题大全 hive hadoop 数据仓库面试
Hive面试题1Hive基础概念1.1解释Hive是什么以及它的用途Hive的主要用途：1.2描述Hive架构和组件1.HiveCLI/Beeline和WebUI2.HiveQL3.HiveDriver（驱动）4.Metastore5.Compiler（编译器）6.Optimizer（优化器）7.Executor（执行器）8.HadoopCoreComponents（核心组件）9.HiveUDFs
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
深陷“大数据杀熟”漩涡的飞猪，庄卓然如何力挽狂澜？财经三剑客大数据
在线旅游市场（OTA）的蓬勃发展为消费者带来了诸多便利，然而，在这股数字化浪潮中，飞猪旅行却因其频繁陷入“大数据杀熟”的争议而备受瞩目。这一行为不仅损害了消费者的合法权益，更让飞猪的品牌形象蒙上了一层阴影。近年来，飞猪平台上关于价格乱象的投诉屡禁不止。在黑猫投诉平台上，与“飞猪”相关的投诉累计已超9万条，其中直接以“飞猪杀熟”为关键词的投诉便达数百条。消费者们纷纷反映，在飞猪平台上预订机票、酒店等
API item_get 在电商平台的核心作用以及如何测试 index_all 数据供应商京东api java 大数据开发语言
在电商行业蓬勃发展的今天，跨平台运营已成为众多商家的必然选择。然而，随之而来的数据孤岛问题却成为了制约电商企业进一步发展的瓶颈。为了解决这一问题，电商大数据平台应运而生，而item_getAPI作为获取商品详情的关键接口，在其中扮演着至关重要的角色。本文将深入探讨item_getAPI在跨平台电商数据整合中的应用与优势，为电商企业在数据驱动的道路上提供有力支持。一、跨平台电商数据整合的挑战在跨平台
“四预”驱动数字孪生水利：让智慧治水守护山河安澜 GeoSaaS 实景三维智慧城市人工智能 gis 大数据安全
近年来，从黄河秋汛到海河特大洪水，从珠江流域性洪灾到长江罕见骤旱，极端天气频发让水安全问题备受关注。如何实现“治水于未发”？数字孪生水利以“预报、预警、预演、预案”（四预）为核心，正在掀起一场水利治理的智慧革命。一、数字孪生水利：从物理世界到虚拟镜像的跃迁数字孪生水利并非简单的“数字建模”，而是通过高精度传感器、大数据、人工智能等技术，在虚拟空间构建与物理流域完全映射的“数字分身”，实现水情、工情
数智读书笔记系列021《大数据医疗》：探索医疗行业的智能变革 Allen_Lyb 数智读书笔记大数据健康医疗人工智能 python
一、书籍介绍《大数据医疗》由徐曼、沈江、余海燕合著，由机械工业出版社出版。徐曼是南开大学商学院副教授，在大数据驱动的智能决策研究领域颇有建树，尤其在大数据驱动的医疗与健康决策方面有着深入研究，曾获天津优秀博士论文、教育部博士研究生新人奖。沈江等作者也在相关学术和实践领域有着丰富的经验和深厚的专业知识。这本书系统且深入地探讨了大数据技术在医疗领域的应用与变革，对推动医疗行业的智能化发展具有重要的理论
#Hadoop全分布式安装 #mysql安装 #hive安装砸吧砸吧 hadoop hive yarn mysql
分布式（多台机器部署不同组件）与集群（多台机器部署相同组件）概念。Linux基础命令linux具有文件数：目录、文件，从根目录开始，路径具有唯一性。pwd：显示当前路径特殊符号：/：根目录.：隐藏文件，如果路径以.开始，表示当前目录下..：当前目录下的上一级~：当前目录的home目录--help：帮助命令使用linux常用操作命令tab键：自动补全ls：显示指定目录内容默认：当前路径-a：显示所有
OpenEuler kinit报错找不到文件的解决办法久违的太阳其他故障处理服务器运维
客户一套华为大数据集群平台,在一台arm平台openEuler服务器上面安装完集群客户端之后,使用kinit认证出现报错Nosuchfileordirectory:最终定位是操作系统/lib64缺少ld包导致,执行下面的命令恢复：ln-sv/lib/ld-linux-aarch64.so.1/lib64/ld-linux-aarch64.so.1
JAVA学习-练习试用Java实现“对大数据集中的网络日志进行解析和异常行为筛查” 守护者170 java学习 java 学习
问题：编写一个Spark程序，对大数据集中的网络日志进行解析和异常行为筛查。解答思路：下面是一个简单的Spark程序示例，用于解析网络日志并筛查异常行为。这个示例假设日志文件格式如下：timestamp,ip_address,user_id,action,event,extra_info2023-01-0112:00:00,192.168.1.1,123,login,success,none202
JAVA学习-练习试用Java实现“实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选” 守护者170 java学习 java 学习
问题：实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选。解答思路：要实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选，需要按照以下步骤进行：1.环境准备确保的环境中已经安装了ApacheSpark。可以从[ApacheSpark官网](https://spark.apache.org/downloads.html)下载并安装。2.创建Spark应用以下是
深度学习的颠覆性发展：从卷积神经网络到Transformer AI天才研究院 AI大模型应用入门实战与进阶 ChatGPT 大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh
Hadoop（在Linux中安装jdk）錠诗味 linux hadoop 运维
安装之前需准备：1.需要远程连接软件2.需要jdk3.需要准备两个文件夹01/export/software安装包02/export/servers解压文件夹现在正式开始安装1.将压缩包存放在/export/software目录下2.进入到software目录进行解压cd/export/software（切换目录）tar-zxvfjdk-8u202-linux-x64.tar.gz-C/expor
数据仓库和非结构化数据。 weixin_30631587 数据库
数据仓库包含标准化数据。还包含外部数据/非结构化数据如果外部数据量小可以保持数据库内部或者专用服务器。如果量大只能记住地址，在etl加载当然也有需求是实时数据比如股票汇率拿只能etl过程处理非结构化数据包含图片，视频音频如果是传统数据库db2oracle存在里面是不合适的。存储影响性能如果是hadoop无所谓影响不大，但是从使用者的角度非结构化数据只能转换关系使用建一张元数据表存储非结构化存储位置
知识管理系统：构建企业智慧大脑 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
第一部分：知识管理概述与重要性第1章：知识管理的定义与基本概念1.1.1知识管理的起源与发展知识管理（KnowledgeManagement，KM）起源于20世纪80年代，当时企业在市场竞争中逐渐意识到知识作为一种战略资源的重要性。早期的知识管理实践主要集中在知识的收集、存储和传播上。随着信息技术的发展，知识管理逐渐融入了更先进的技术手段，如数据挖掘、人工智能和大数据分析，使其成为一个跨学科、多领
CentOS 7系统中hadoop的安装和环境配置代码小张z centos hadoop linux
1.创建Hadoop安装解压路径：mkdir-p/usr/hadoop2.进入路径：cd/usr/hadoop3.下载安装包（我这里用的是阿里云镜像压缩包）：wgethttps://mirrors.aliyun.com/apache/hadoop/common/hadoop-3.3.5/hadoop-3.3.5.tar.gz4.解压安装包到hadoop文件路径：tar-zxvf/usr/hadoo
基于协同过滤推荐算法的景点票务数据系统（python-计算机毕设）计算机程序设计(接毕设) 推荐算法机器学习毕业设计 python 人工智能
摘要IABSTRACTII第1章引言1研究背景及意义1研究背景1研究意义1国内外研究现状2智慧旅游3旅游大数据3研究内容4本章小结4第2章相关技术概述5基于内容的推荐算法5基于内容的推荐算法原理5基于内容的推荐算法实现5协同过滤推荐算法6协同过滤算法原理6协同过滤算法实现7SpringBoot框架9SpringBoot简介9SpringBoot特性10SpringBoot工作原理10Vue.js框
尚硅谷电商数仓6.0，hive on spark,spark启动不了新时代赚钱战士 hive spark hadoop
在datagrip执行分区插入语句时报错[42000][40000]Errorwhilecompilingstatement:FAILED:SemanticExceptionFailedtogetasparksession:org.apache.hadoop.hive.ql.metadata.HiveException:FailedtocreateSparkclientforSparksessio
Elasticsearch 介绍：分布式搜索与分析引擎吱屋猪_ elasticsearch
在如今大数据时代，企业和开发者面临着前所未有的数据量和实时性要求。为了能够高效地处理、存储和查询这些数据，Elasticsearch作为一种强大的分布式搜索引擎，已经成为了很多组织和开发者的首选解决方案。1.什么是Elasticsearch？Elasticsearch是一个开源的、基于ApacheLucene构建的全文搜索引擎。它提供了高效的搜索功能，并且非常适合处理大量数据，尤其是在需要快速搜索
数仓建模—Data Warebase AI 时代数据平台应当的样子不二人生数仓建模人工智能数据仓库数仓建模
DataWarebaseAI时代数据平台应当的样子引言：在这个AI技术飞速发展的时代，我们有能力更深入地发掘数据潜在的价值，而数据处理不应当成为阻碍。云原生分布式DataWarebase将开启处理数据的新范式，它让数据的使用返璞归真，不论是存储还是查询，一个系统满足业务全方位数据需求。打破复杂数据架构的束缚，大大降低数据的使用门槛，释放数据潜能，让数据涌现智能。背景近二十年大数据发展史2002年我
Flink 通过 Chunjun Oracle LogMiner 实时读取 Oracle 变更日志并写入 Doris 的方案 roman_日积跬步-终至千里 #flink 实战 flink oracle 大数据
文章目录一、技术背景二、关键技术1、OracleLogMiner2、Chunjun的LogMiner关键流程3、修复ChunjunOracleLogMiner问题一、技术背景在大数据实时同步场景中，需要将Oracle数据库的变更数据（CDC）采集并写入ApacheDoris，以支持数据分析、BI报表、实时数据仓库等应用。本方案基于Flink+Chunjun，通过OracleLogMiner解析Re
【第11章】亿级电商平台订单系统-海量数据架构设计 cherry5230 架构系统架构架构分布式
1-1本章导学课程导学课程定位：大型系统架构设计核心难点解析核心项目：BToB电商平台订单系统（年交易额200亿级）本章知识体系1.核心概念辨析海量数据vs大数据本质区别解析常见认知误区说明2.方法论框架海量数据处理核心思想分布式计算原理数据分片策略弹性扩展机制3.数据库架构设计方法论体系读写分离模式分库分表策略数据分区方案缓存层设计4.数据处理体系海量数据处理之道批处理与流处理数据压缩技术异步处
NET Core 大数据处理 Gene Z .Net C#c#
在.NETCore里处理10万条以上的大数据时，可采用以下几种方式，同时也适用于不同的应用场景。1.批量处理方式借助批量操作一次性处理大量数据，从而减少与数据库或外部系统的交互次数，提高性能。例如，在向数据库插入大量数据时，可使用批量插入操作。应用场景适用于数据导入、数据迁移等场景。比如将CSV文件中的大量数据批量导入到数据库中。2.并行处理方式运用并行编程技术（像Parallel.ForEach
火山云与腾讯云的优势对比苹果企业签名分发腾讯云云计算
首先，我需要确定用户的需求是什么。可能他们是在选择云服务提供商，或者在做市场调研。用户可能是企业的IT决策者，或者是开发人员，需要了解哪个平台更适合他们的项目。接下来，我得收集火山云和腾讯云的基本信息。火山云是字节跳动旗下的，虽然进入市场较晚，但可能有字节的技术支持，比如大数据和AI方面的优势。腾讯云作为老牌厂商，生态完善，产品线全，尤其在游戏、社交等领域有优势。需要对比的方面包括：背景与市场地位
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多

Hadoop完全分布式集群搭建过程（HA高可用）

一、配置Linux虚拟机

1.配置主机名以及主机映射

修改主机名

配置主机映射

2.关闭防火墙

二、SSH免秘钥的配置

三、JDK的安装部署

1.卸载系统自带的jdk

2.下载jdk安装包并上传到虚拟机中

3.安装jdk

四、Zookeeper的安装部署

下载zookeeper的安装包

安装zookeeper

配置zookeeper

五、Hadoop的安装部署

下载安装包

安装hadoop

修改配置文件

修改hadoop-env.sh

修改core-site.xml

修改hdfs-site.xml

修改mapred-site.xml

修改yarn-site.xml

修改slaves文件

分发hadoop文件到其他节点

初始化hadoop

启动hadoop集群

你可能感兴趣的:(大数据,hadoop)