JMFFFFF

【大数据之Hadoop3.x】

Hadoop 入门

整个学习过程资源来源于尚硅谷大数据技术学习，如有侵权请联系删除！

一、基本概念

特点：大量、高速、多样、低价值密度（4V）
主要解决海里数据存储和分析计算
起源：GFS–>HDFS;Map-Reduce -->MR; BigTable–>HBase
高可靠性：多个数据副本；高扩展性：动态增加节点；高效性：并行工作；高容错性：自动将失败的任务重新分配到其他节点。
Hadoop1.x 2.x 3.x区别：***
3.x在组成上没有变化

1. Hadoop组成

** HDFS 分布式文件系统：**
（1）NameNode（nn）：存储文件的元数据，如文件名、文件目录结构、属性，以及每个文件的块列表和块所在的DataNode
（2） DataNode（dn）：在本地文件系统存储文件块数据，以及块数据的校验和
** YARN资源管理器**
（1）ResourceManager（RM）：管理整个集群资源（内存、CPU等）
（2）NodeManager（NM）：管理单节点服务器资源
（3）ApplicationMaster（AM）：管理单个任务运行
（4）Container：容器，相当于一台独立服务器，封装任务运行需要的资源，如内存、CPU、磁盘、网络等
注意：支持多客户端；集群可以运行多个ApplicationMaster；每个NodeManager可以有多个Container

** Map-Reduce**
（1）Map阶段并行处理输入数据
（2）Reduce对Map结果进行汇总
HDFS 、YARN 、Map-Reduce关系

流程：任务—>找一个节点开启container—>container向resourcemanager申请资源—>在其他节点开启所需的资源（maptask）—>汇总结果（reducetask）

2. 大数据生态体系

二、环境

配置ip、主机名
安装epel-release软件包。yum install -y epel-release
关闭防火墙：systemctl stop firewalld ；
关闭防火墙自启动：systemctl disable firewalld.service
卸载虚拟机自带JDK：rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps
安装JDK：tar -zxvf jdk-8u351-linux-x64.tar.gz -C /opt/module/
配置环境变量：在/etc/profile.d/中添加my_env.sh文件:
#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_351
export PATH= $P A T H :$ JAVA_HOME/bin
然后资源生效：source /etc/profile
安装Hadoop：
清华源地址：https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/
tar -zxvf hadoop-3.3.4.tar.gz -C /opt/module/
配置环境变量：在/etc/profile.d/中添加my_env.sh文件:
#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.3.4
export PATH= $P A T H :$ HADOOP_HOME/bin
export PATH= $P A T H :$ HADOOP_HOME/sbin

三、 Hadoop生成集群搭建

本地模式

数据存储在Linux本地，通常测试使用
词频统计案例：hadoop jar jar包名功能名输入文件名输出文件名
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar wordcount wcinput/ wcoutput/
注意输出文件目录不能重复，否则会异常

伪分布模式

数据存储在HDFS

完全分布式****

数据存储在HDFS、多台服务器工作

scp：实现服务器之间数据拷贝，可以传给其他服务器，也可以从其他服务器拉数据，还可以在中间主机控制另外两台之间数据传输；
语法：scp -r $p d i r /$ fname $u ser @$ host: $p d i r /$ fname
例如：scp -r jdk1.8.0_351/ jmf@hadoop103:/opt/module/
rsync -av $dir $u ser @$ host:$dir 实现数据之间同步，相当于只覆盖差异化部分。
xsync集群分发脚本：https://blog.csdn.net/miachen520/article/details/117588297
无密登录配置原理

配置：
ssh-keygen -t rsa :生成密钥对
ssh-copy-id hadoop103 ：将公钥拷贝到其他服务器
***4. 集群配置 ***

（1）NameNode配置 core-site.xml

<configuration>
 
    <!-- 指定NameNode地址 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://hadoopmaster：8020</value>
    </property>
 
    <!-- 本地磁盘存放数据的目录 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/opt/module/hadoop-3.3.4/data</value>
    </property>
    
    <!-- 配置HDFS网络登录使用的静态用户，网页可以操作 -->
    <property>
        <name>hadoop.http.staticuser.user</name>
        <value>jmf</value>
    </property>
</configuration>

（2）HDFS配置 hdfs-site.xml

<configuration>
 
    <!-- nn web端访问地址 -->
    <property>
        <name>dfs.namenode.http-address</name>
        <value>hadoopmaster:9870</value>
    </property>
 
    <!-- 2nn web端访问地址 -->
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>hadoop103:9868</value>
    </property>
 
</configuration>

（3）YARN配置 yarn-site.xml

<configuration>
 
    <!-- 指定MR走shuffle -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
 
    <!-- 指定ResourceManager -->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop102</value>
    </property>
 	
 	<!-- 环境变量的继承 -->
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>
<!-- 日志聚集功能 -->
    <!-- 开启日志聚集功能 -->
    <property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
    </property>
 
    <!-- 设置日志聚集服务器地址-->
    <property>
        <name>yarn.log.server.url</name>
        <value>http://hadoop101:19888/jobhistory/logs</value>
    </property>
    <!-- 设置日志保留时间为7天 -->
    <property>
        <name>yarn.log-aggregation.retain-seconds</name>
        <value>604800</value>
    </property>
</configuration>

（4）MapReduce配置 mapred-site.xml

<configuration>
 
    <!-- 指定MapReduce程序运行在Yarn上-->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    
    <!-- 配置历史服务器地址  -->
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>hadoop101:10020</value>
    </property>
    <!-- 配置历史服务器web端地址 -->
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>hadoop101:19888</value>
    </property>

</configuration>

（5）配置workers /etc/hadoop/workers （在Hadoop2.x中该文件是slaves）
5.群起集群
（1）配置workers /etc/hadoop/workers
添加主机名即可
（2）第一次启动集群需要格式化NameNode，需要重新格式化NameNode的话一定要先停止namenode和datanode进程，并且删除所有机器的data和logs目录在格式化
命令：hdfs namenode -format
（3）集群群起命令：
sbin/start-dfs.sh 启动hdfs ；web查看hadoop101:9870
sbin/start-yran.sh 启动recoursemanager（一定在配置的节点启动） web查看hadoop102:8088
mapred --daemon start historyserver : 先关闭yran然后启动历史服务器（在主节点启动）

坑：（1）注意配置文件符号，中英文等等
（2）文件夹权限一定要设置好，Hadoop安装目录是属主，（用root安装了软件，使用的时候用其他用户，导致的权限问题）。
(4) 集群测试创建文件夹：hadoop fs -mkdir /wcinput
上传文件：hadoop fs -put wcinput/word.txt /wcinput
（5）集群崩溃处理：删除集群全部节点历史数据data/ logs/ 格式化namenode ，如果启动不成功，查看节点版本号文件id是否一致
（6）集群启停脚本https://blog.csdn.net/weixin_44371237/article/details/126040977
（7）查看全部节点jps脚本

#!/bin/bash

for host in hadoop101 hadoop102 hadoop103
do
        echo =================== $host =========== ===========
        ssh $host jps
done

重点：常用端口号*******

（9）集群时间同步，如果服务器能联网就不需要同步时间
时间服务器配置：
查看所有节点ntpd服务状态和开机自启动状态： systemctl status ntpd
systemctl start ntpd
systemctl enable ntpd
修改主节点的ntp.conf配置文件/etc/ntp.conf，修改网段，添加：
server 127.127.1.0
fudge 127.127.1.0 startum 10
修改主节点的/etc/sysconfig/ntpd文件：使硬件时间和系统时间一致，添加
SYNC HWCLOCK=yes
重启ntpd服务并且设置开机启动
systemctl start ntpd
systemctl enable ntpd
关闭其他节点npt服务和自启动
在其他机器配置一分钟与时间服务器同步一次 crontab -e 编辑*/1**** /usr/sbin/ntpdate hadoop101

四、常见错误案例

防火墙没关闭、或者没启动YARN
主机名称配置错误
IP地址配置错误
ssh没配置好
root用户和子用户启动集群不统一
Hadoop配置文件错误
不识别主机名称java.net.UnknownHostException
(1) 主机名称映射没有配置
（2）主机名称不要带 _ 或者叫hadoop hadoop000等特殊名称
DataNode和NameNode进程同时只能工作一个

解决办法：先关闭所以进程，然后清理全部节点的data和logs文件夹，在格式化NameNode
jps发现进程没有，但是重新启动集群，提示进程已经开启。原因：Linux的根目录下/tmp目录中存在启动的进程临时文件，将集群相关进程删除，在重新启动集群。
jps不生效，全局变量hadoop java没有生效。source /etc/profile
8088端口链接不上注释/etc/hosts中#127.0.0.1和#::1

HDFS

一、概述

分布式文件系统，通过目录树定位文件，适合一次写入，多次读出的场景。
高容错性：自动保存多个副本，一个副本丢失可以自动恢复。
不适合低延时数据访问，无法高效对大量小文件进行存储。如果存储大量小文件，会占用namenode大量的内存来存储文件目录和块信息。小文件存储的寻址时间存超过读取时间。
不支持并发写入、文件随机修改。一个文件只能有一个写，不允许多个线程同时写；仅支持数据append（追加），不支持文件的随机修改。
HDFS组成：namenode、datanode、client、2nn
hdfs文件块大小，块的大小指上限大小并非实际占用大小。在hdfs-default.xml文件中 dfs.blocksize**
寻址时间即为查找到目标block的时间，寻址时间为传输时间的1%时最佳。
块设置太小，会增加寻址时间。块设置太大，从磁盘传输数据时间明显大于定位这个块开始位置所需的时间，导致程序处理这块数据时非常慢。***

二、HDFS的shell操作**

hadoop fs 具体命令或者 hadoop dfs 具体命令
上传命令：
-moveFromLocal：剪切上传到HDFS
-copyFromLocal：复制本地上传到HDFS
-put == copyFromLocal
appendToFile : 追加一个文件到已经存在文件末尾
下载命令：
-copyToLocal：拷贝到本地
-get == copyToLocal
直接操作命令：
-ls 、-cat、-chgrp、-chmod、-chown、-mkdir、-cp、-mv、-du、-rm -r、-tail 均和Linux命令一样l；-setrcp 设置hdfs文件的副本数量

三、HDFS的客户端API

Windows下配置Hadoop环境变量
设置Maven配置，以及log4j配置
参数优先级：hdfs-default.xml=>hdfs-site.xml=> 项目资源目录下的配置文件=>代码中的配置 ****
记住常用的文件操作api

四、HDFS的读写流程**

写入数据流程

读取数据流程

NameNode选择距离待上传数据最近的datanode接收数据。
传输最小大小是packet（64k），packet是许多个chunk+chunksum
写入的时候会往内存和磁盘都写入一份，内存里面的可以继续往后传输。
传输过程有一个ack队列，检验packet是否传输成功，如果没有成功，把失败的packet从ack队列重新放入传输队列。*********
节点距离计算：两个节点到达最近的共同祖先的距离总和。
副本节点选择
读数据流程，如何选择备份节点，主要考虑节点距离和负载均衡；是串行读取

五、NN和2NN

NameNode工作机制

fsimage文件：是hdfs文件系统元数据的一个永久性检查点，其中包含hdfs文件系统的所有目录和文件inode的序列化信息。命令：hdfs oiv -p 文件类型 -i 镜像文件 -o 转换后文件输出路径
edits文件：存放hdfs文件系统的所有更新操作的路径，文件系统客户端执行的所有操作先写入edits文件中。命令：oev 查看
seen_txid文件保存的是一个数字，就是最后一个edits的数字
2NN和NN差一个edits_inprogress文件（当前最新操作信息）
checkpoint时间设置，通常2NN每隔一小时执行一次，配置文件hdfs-default.xml

    <property>
        <name>dfs.namenode.checkpoint.period</name>
        <value>3600s</value>
    </property>
    <--! 操作次数达到100w，2NN执行一次-->
    <property>
	    <name>dfs.namenode.checkpoint.txns</name>
	    <value>1000000</value>
</property>

六、Datanode工作机制

开机后datanode会主动向namenode注册，汇报块信息。DN向NN汇报的时间间隔参数在配置文件hdfs-default.xml中 dfs.blockreport.intervalMsec
数据完整性校验采用CRC32校验，对比传输前后数据是否一致
datanode掉线时限参数，hdfs默认超时时长为10分钟+30秒，参数在配置文件hdfs-default.xml中 dfs.namenode.heartbeat.recheck-interval和dfs.heartbeat.interval
超时时间公式timeout = 2 * dfs.namenode.heartbeat.recheck-interval+10 * dfs.heartbeat.interval

重点：

HDFS文件块大小，取决于硬盘读写速度，一般为128m和256m
HDFS读写流程

MapReduce

一、概念

MapReduce是分布式运算程序的编程框架
优点：易于编程；实现框架接口。良好的扩展性，可动态增加服务器，解决计算资源不够的问题；高容错性，任何一台机器挂掉，可以将任务转移到其他节点；适合海量数据计算（TB/PB）。
缺点：不擅长实时计算；不擅长流式计算；不适合DAG有向无环图计算；
mapreduce分为map和reduce阶段：map阶段并发maptask，互不相干；reduce阶段并发reducetask，数据依赖于上一个阶段的maptask输出。
一个玩着的mapreduce程序在运行时有三类实例进程：
MrAppMaster：负责整个程序的过程调度和状态协调
MapTask：负责map阶段数据处理流程
ReduceTask：负责reduce阶段数据处理流程
写的代码打包上传运行时，需要输入主类名例如hadoop jar wc.jar com.jmf.mapreduce.wordcount.WordCountDriver /input /output3

二、序列化

Hadoop序列化优点：存储空间少，速度快，互操作性。
数据系列化
实现对象序列化步骤：实现writable接口；反序列化时，需要反射调用空参构造函数，须有空参构造；重写序列化方法；重写反序列化方法；反序列化的顺序和序列化顺序完全一致；要想显示结果在文件中，需要重写toString方法；如果需要将自定义bean放在key中传输，则还需要实现comparable接口，因为mapreduce框中的shuffle过程要求对key必须能排序。

三、核心框架原理

3.1 输入数据处理（重点）InputFormat

切片与MapTask并行度决定机制***
数据块：Block是HDFS物理上数据分成独立块。是HDFS存储数据单位。
数据切片：在逻辑上对输入进行分片，并不会在磁盘上将其切分成片进行存储，数据切片是MapReduce程序计算输入数据的单位，一个切片对应启动一个MapTask。切片时不考虑数据集整体，而是对逐个文件单独切片***
默认情况：切片大小 = BlockSize，源码切片大小取决于BlockSize、minsize（默认1）、maxsize（默认Long.MAXValue）
reduceTask并行度决定机制****
reduceTask个数由实验决定，增加reducetask个数查看运行时间，后期reducetask个数变多后会增加运行时间。
reducetask=0，表示没有reduce阶段，输出文件个数与map个数一样；reduce默认为1，输出一个文件；如果数据分布不均，在reduce阶段会产生数据倾斜。具体个数根据需求和生产环境决定。
如果分区不为1，reducetask为1，则不会执行分区过程
mapreduce 提交job会往hdfs的临时目录提交：spilt文件（用于切片）、jar包（集群模式需要）、xml记录job配置信息
job提交流程
如果文件大小在切片的1.1倍以内，会只切一片。例如：切片为32m，文件是35.2m，则只会切为一片。
切片源码
CombineTextInputFormat切片机制
应用场景：小文件过多；可以将多个小文件从逻辑上规划到一个切片中，然后交给一个MapTask处理

3.2MapReduce工作流程

3.3 shuffle机制

Shuffle过程详解，如下：
（1）MapTask收集我们的map()方法输出的kv对，放到内存缓冲区中
（2）从内存缓冲区不断溢出本地磁盘文件，可能会溢出多个文件
（3）多个溢出文件会被合并成大的溢出文件
（4）在溢出过程及合并的过程中，都要调用Partitioner进行分区和针对key进行排序
（5）ReduceTask根据自己的分区号，去各个MapTask机器上取相应的结果分区数据
（6）ReduceTask会抓取到同一个分区的来自不同MapTask的结果文件，ReduceTask会将这些文件再进行合并（归并排序）
（7）合并成大文件后，Shuffle的过程也就结束了，后面进入ReduceTask的逻辑运算过程（从文件中取出一个一个的键值对Group，调用用户自定义的reduce()方法）

注意：分区排序是对索引按照字典进行快排

mapreduce自定义分区，源码默认是1个分区或者多个自定义分区。（if （partition=1）{}else{}）
reduceTask数量 > getPartition数量，会多产生几个空的文件；1 < reduceTask数量 > getPartition数量报IO异常，一部分数据无法存储。如果reduceTask数量=1，则不管mapTask端输出多少个分区文件，都只有一个reduceTask，只产生一个结果文件
分区号必须从0开始，逐一累加
maptask和reducetask均会对数据按key排序
combiner是Mapper和reducer之外的一个组件，父类是reducer；和reducer区别在于：combiner在每一个maptask所在的节点运行，reducer是接受全局mapper输出的结果。combiner对每个maptask的输出进行局部汇总，combiner应用前提是不影响最终的业务逻辑
combiner就是将重复key的键值对合并，并产生一个新的键值对，并将原来的value添加到一个集合中作为value

3.4输出数据处理OutputFormat

继承FileOutputFormat类重写getRecordWriter方法

3.5Join

hadoop迭代器使用了对象重用，value始终指向一个内存地址，改变的是引用指向的内存地址中的数据。（reducer里面遍历value）***细节
map端join适合一张小表和一张大表的场景；在mapper的setup阶段将文件读取到缓存集合

3.6数据清洗ETL

总结

Inputformat
1）默认是textinputformat kv key偏移量；v，一行内容
2）处理小文件combinetextinputformat把多个文件合并到一起
Mapper
setup（）初始化；map（）用户的业务逻辑；clearup（）关闭资源
分区
默认分区是hashpartition ，默认按照key 的hash值%numredeucetask个数
自定义分区
排序
1）部分排序对每个输出的文件的内部排序
2）全排序一个reduce，对所有数据大排序
3）二次排序自定义排序，实现writablecompare接口重写compareto方法
Combiner
前提：不影响最终的业务逻辑；提前聚合（map端完成）解决数据倾斜的一个方法
Reducer
setup（）初始化；reduce（）用户的业务逻辑；clearup（）关闭资源
outputformat
1）默认textoutputformat 按行输出到文件
2）自定义

四、压缩

压缩好处：减少磁盘IO、存储空间；压缩坏处：增加CPU开销
运算密集型的job少用压缩；IO密集型的job多用压缩

1. 各种压缩算法

bzip2压缩后文件最小但是速度慢；LZO压缩后文件大，解压缩速度最快。
snappy 压缩和解压速度非常快，不支持切片，压缩率一般。

2. 在生成环境使用

Hadoop中启用压缩

Yarn

一、基础架构

二、工作机制***********

（1）MR程序提交到客户端所在的节点。
（2）YarnRunner向ResourceManager申请一个Application。
（3）RM将该应用程序的资源路径返回给YarnRunner。
（4）该程序将运行所需资源提交到HDFS上。
（5）程序资源提交完毕后，申请运行mrAppMaster。
（6）RM将用户的请求初始化成一个Task。
（7）其中一个NodeManager领取到Task任务。
（8）该NodeManager创建容器Container，并产生MRAppmaster。
（9）Container从HDFS上拷贝资源到本地。
（10）MRAppmaster向RM 申请运行MapTask资源。
（11）RM将运行MapTask任务分配给另外两个NodeManager，另两个NodeManager分别领取任务并创建容器。
（12）MR向两个接收到任务的NodeManager发送程序启动脚本，这两个NodeManager分别启动MapTask，MapTask对数据分区排序。
（13）MrAppMaster等待所有MapTask运行完毕后，向RM申请容器，运行ReduceTask。
（14）ReduceTask向MapTask获取相应分区的数据。
（15）程序运行完毕后，MR会向RM申请注销自己。

三、Mapreduce、HDFS、Yarn

四、调度器和调度算法

apache Hadoop默认的资源调度器是容量调度器

FIFO

先进先出队列

容量调度器

雅虎开发的多用户调度器
特点：多队列（可以按业务模块创建不同的队列，可以实现任务降级使用，保证特殊时期重要任务优先）、容量保证（每个队列有最低和最高的资源使用上限）、灵活（一个队列资源有剩余可以暂时共享给需要的队列，被借用的有新任务就归还）、多用户（多用户共享集群和多应用程序同时运行，可以对同一用户的作业所占资源进行限制）
每个队列采用FIFO调度策略

公平调度器

特点：多队列、容量保证、灵活性、多用户
与容量调度器不同：
核心调度策略：容量：优先选择资源利用率低的队列；公平：优先选择对资源缺额(在时间尺度上，所有作业获得公平的资源。某一时刻一个作业应获得资源与实际获取资源的差距叫缺额)比例大的
每个队列可以单独设置资源分配方式：容量：FIFO、DRF；公平：FIFO、FAIR（默认）、DRF
算法案例

五、yarn在生产环境需要配置的参数***********

yarn-site.xml

ResourceManager相关
yarn.resourcemanager.scheduler.class 配置调度器，默认容量，并发高可用选择FIFO
yarn.resourcemanager.scheduler.client.thread-count resourcemanager处理调度器请求的线程数量，默认50；
NodeManager相关
yarn.nodemanager.resource.detect-hardware-capabilities 是否让yarn自己检查硬件进行配置，默认false；
yarn.nodemanager.resource.count-logical-processors-as-cores 是否将虚拟核数当CPU核数，默认false （机器配置不同的时候可以考虑开）
yarn.nodemanager.resource.pcores-vcores-multiplier 虚拟核数和物理核数乘数例如4核8线程该参数为2，默认1
yarn.nodemanager.resource.memory-mb 使用内存，默认8G
yarn.nodemanager.resource.system-reserved-memory-mb 为系统保留多少内存（和上一个二选一即可）
yarn.nodemanager.resource.cpu-vcores 使用CPU核数默认8个
yarn.nodemanager.pmem-check-enabled 是否开启物理内存检查限制container，默认打开
yarn.nodemanager.vmem-check-enabled 是否开启虚拟内存检查限制container，默认打开
yarn.nodemanager.vmem-pmem-ratio 虚拟内存物理内存比例，默认2：1
Container相关
yarn.scheduler.minimum-allocation-mb 容器最最小内存，默认1G
yarn.scheduler.maximum-allocation-mb 容器最最大内存，默认8G
yarn.scheduler.minimum-allocation-vcores 容器最小CPU核数，默认1个
yarn.scheduler.maximum-allocation-vcores 容器最大CPU核数，默认4个
任务优先级
yarn.cluster.max-application-priority 默认是0，不开启

六、命令操作yarn

查看运行列表：yarn application -list
根据状态过滤：yarn application -list -appStates FINISHED（ALL、NEW、NEW_SAVING、SUBMITTED、ACCEPTED、RUNNING、FINISHED、FAILED、KILLED）
杀死进程：yarn application -kill application_1612577921195_0001
查看Application日志：yarn logs -applicationId application_1612577921195_0001
查询Container日志：yarn logs -applicationId application_1612577921195_0001 -containerId container_1612577921195_0001_01_000001
列出所有Application尝试的列表：yarn applicationattempt -list application_1612577921195_0001
打印ApplicationAttemp状态：yarn applicationattempt -status appattempt_1612577921195_0001_000001
列出所有Container：yarn container -list appattempt_1612577921195_0001_000001
打印Container状态：yarn container -status container_1612577921195_0001_01_000001
列出所有节点：yarn node -list -all
加载队列配置：yarn rmadmin -refreshQueues （动态修改，不停机）
打印队列信息：yarn queue -status default

生产环境调优

1. HDFS核心参数

NameNode内存生产配置

一个文件块占用约150Byte
namenode最小值为1G，每增加100w个block，增加1G内存；datanode最小值为4G，block数或者副本数增加，都需要调大datanode的值，一个datanode的副本总数超过400w，每增加100w增加1G。修改参数：hadoop-env.sh HDFS_NAMENODE_OPTS 和 HDFS_DATANODE_OPTS

NameNode心跳并发配置

NameNode有一个工作线程池，用来处理不同DataNode的并发心跳以及客户端并发的元数据操作。线程池个数默认为10，通常配置企业经验dfs.namenode.handler.count=20*ln（cluster Size 集群中机器数）

开启回收站

默认是0，禁用回收站，其他值表示设置文件的存活时间，启用修改文件core-site.xml fs.trash.interval
回收站目录在HDFS集群中的路径：/user/jmf/.Trash/…. ；
通过网页上直接删除的文件也不会走回收站；通过程序删除的文件不会经过回收站，需要调用moveToTrash()才进入回收站；只有在命令行利用hadoop fs -rm命令删除的文件才会走回收站
恢复数据 hadoop fs -mv 目录

2. HDFS集群压测

python -m SimpleHTTPServer 可以开启外部下载接口 http://hadoop101:8000/
Hadoop下有一个test包可以提供读写测试；hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar 写操作文件数 = 集群CPU数 - 1
Throughput mb/sec:单个mapTak的吞吐量 :处理的总文件大小/每一个mapTask写数据的时间累加
Average IO rate mb/sec::平均mapTak的吞吐量
IO rate std deviation:方差、反映各个mapTask处理的差值，越小越均衡
写测试

读测试
压测速度2.89mb/s 两个副本 11个文件，则本集群实测速度：2.89112= 63.58M/s；如果客户端不在集群节点，则有三个副本
如果测试异常设置yarn-site.xml中设置虚拟内存检测（yarn.nodemanager.vmem-check-enabled）为false
hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -clean 清除测试数据

3. HDFS多目录

NameNode多目录配置

在hdfs-site.xml中设置dfs.namenode.name.dir

DataNode多目录配置

1.在hdfs-site.xml中设置dfs.datanode.data.dir

集群数据均衡之磁盘间数据均衡

硬盘空间不足，往往需要增加一块硬盘。刚加载的硬盘没有数据时，可以执行磁盘数据均衡命令。
生成均衡计划: hdfs diskbalancer -plan hadoop103
执行均衡计划：hdfs diskbalancer -execute hadoop103.plan.json
查看当前均衡任务的执行情况： hdfs diskbalancer -query hadoop103
取消均衡任务：hdfs diskbalancer -cancel hadoop103.plan.json

4. HDFS集群扩容和缩容

添加白名单

白名单：在白名单的主机IP地址可以，用来存储数据，可以尽量防止黑客恶意访问攻击；注意：集群中不在白名单的主机仍然工作，只是不能存储数据
在hadoop-3.1.3/etc/hadoop目录下分别创建whitelist 和blacklist文件，在hdfs-site.xml配置文件中增加dfs.hosts配置参数，值为白名单路径，然后分发文件到集群，第一次添加白名单需要重启集群

动态添加新数据节点

过程：更改ip，主机名，安装Hadoop，jdk，配置环境变量，配置ssh信任密钥，配置白名单，启动新节点

节点间数据均衡

开启数据均衡命令：sbin/start-balancer.sh -threshold 10 参数10，代表的是集群中各个节点的磁盘空间利用率相差不超过10%
停止数据均衡命令：sbin/stop-balancer.sh
由于HDFS需要启动单独的Rebalance Server来执行Rebalance操作，所以尽量不要在NameNode上执行start-balancer.sh

黑名单动态退役旧节点

配置黑名单在hdfs-site.xml配置文件中增加dfs.hosts.exclude
退役时如果副本数是3，服役节点小于或等于3是不能退役成功的，需要修改副本数。

5. HDFS—存储优化

纠删码

该方法代替多个副本的方式提高数据可靠性，采用计算的方式恢复数据。

RS-3-2-1024k：使用RS编码，每3个数据单元，生成2个校验单元，共5个单元，也就是说：这5个单元中，只要有任意的3个单元存在（不管是数据单元还是校验单元，只要总数=3），就可以得到原始数据。每个单元的大小是1024k=1024*1024=1048576
纠删码策略是给具体一个路径设置。所有往此路径下存储的文件，都会执行此策略。
开启策略：hdfs ec -enablePolicy -policy RS-3-2-1024k
其他策略：RS-10-4-1024k，RS-6-3-1024k（默认），RS-LEGACY-6-3-1024k，XOR-2-1-1024k

异构存储（冷热数据分离）

异构存储主要解决，不同的数据，存储在不同类型的硬盘中
存储策略
查看可用存储策略：hdfs storagepolicies -listPolicies
为指定路径设置存储策略：hdfs storagepolicies -setStoragePolicy -path xxx -policy xxx
配置文件设置hdfs-site.xml中添加参数dfs.storage.policy.enabled值为true开启存储策略，然后添加参数dfs.datanode.data.dir值为路径，例如：[SSD]file:///opt/module/hadoop-3.1.3/hdfsdata/ssd,[DISK]file:///opt/module/hadoop-3.1.3/hdfsdata/disk
WARM存储策略测试：
设置策略：hdfs storagepolicies -setStoragePolicy -path /hdfsdata -policy WARM
按照存储策略自行移动文件块：hdfs mover /hdfsdata
LAZY_PERSIST策略需要配置“dfs.datanode.max.locked.memory”，“dfs.block.size”参数，设置该策略后文件块副本都存储在DISK上的原因：当客户端所在的DataNode节点没有RAM_DISK时，会写入客户端所在的DataNode节点的DISK磁盘；客户端所在的DataNode有RAM_DISK，但“dfs.datanode.max.locked.memory”参数值未设置或者设置过小，在内存存储风险太大，通常不会使用该策略。

6. HDFS—故障排除

NameNode故障处理

NameNode进程挂了并且存储的数据也丢失时将SecondaryNameNode中数据到原NameNode存储数据目录然后重启namenode，即可恢复
命令：scp -r jmf@hadoop103:/opt/module/hadoop-3.4.3/data/dfs/namesecondary/* ./name/
hdfs --daemon start namenode

安全模式和磁盘修复

安全模式：文件系统只接受读数据请求，而不接受删除、修改等变更请求
进入安全模式场景：NameNode在加载镜像文件和编辑日志期间处于安全模式；NameNode再接收DataNode注册时，处于安全模式
退出安全模式条件：dfs.namenode.safemode.min.datanodes:最小可用datanode数量，默认0；dfs.namenode.safemode.threshold-pct:副本数达到最小要求的block占系统总block数的百分比，默认0.999f。（只允许丢一个块）
dfs.namenode.safemode.extension:稳定时间，默认值30000毫秒，即30秒
命令：bin/hdfs dfsadmin -safemode get 安全模式状态；bin/hdfs dfsadmin -safemode enter 进入安全模式状态；bin/hdfs dfsadmin -safemode leave离开安全模式状态；bin/hdfs dfsadmin -safemode wait等待安全模式状态
数据块损坏，进入安全模式：修复磁盘或者删除元数据

慢磁盘减控

通过心跳未联系时间查看，不会超过3秒
fio命令测试磁盘读写性能：
顺序读测试：sudo fio -filename=/home/jmf/test.log -direct=1 -iodepth 1 -thread -rw=read -ioengine=psync -bs=16k -size=2G -numjobs=10 -runtime=60 -group_reporting -name=test_r
顺序写测试：sudo fio -filename=/home/atguigu/test.log -direct=1 -iodepth 1 -thread -rw=write -ioengine=psync -bs=16k -size=2G -numjobs=10 -runtime=60 -group_reporting -name=test_w
随机写测试：sudo fio -filename=/home/atguigu/test.log -direct=1 -iodepth 1 -thread -rw=randwrite -ioengine=psync -bs=16k -size=2G -numjobs=10 -runtime=60 -group_reporting -name=test_randw
混合随机读写：sudo fio -filename=/home/atguigu/test.log -direct=1 -iodepth 1 -thread -rw=randrw -rwmixread=70 -ioengine=psync -bs=16k -size=2G -numjobs=10 -runtime=60 -group_reporting -name=test_r_w -ioscheduler=noop

小文件归档

小文件会大量占用namenode内存，解决办法：HAR文件归档，将文件存入HDFS块，在减少NameNode内存使用的同时，允许对文件进行透明的访问，实际上就是打包为整体。namenode只显示一个
归档命令：hadoop archive -archiveName input.har -p /input /output
查看归档文件：hadoop fs -ls har:///output/input.har
解档归档文件：hadoop fs -cp har:///output/input.har/* /

7 HDFS集群迁移

apache集群间数据拷贝

scp 实现远程主机文件复制
scp -r hello.txt root@hadoop103:/user/atguigu/hello.txt // 推 push
scp -r root@hadoop103:/user/atguigu/hello.txt hello.txt // 拉 pull
scp -r root@hadoop103:/user/atguigu/hello.txt root@hadoop104:/user/atguigu //是通过本地主机中转实现两个远程主机的文件复制；如果在两个远程主机之间ssh没有配置的情况下可以使用该方式
采用distcp命令实现两个Hadoop集群之间的递归数据复制bin/hadoop distcp hdfs://hadoop102:8020/user/atguigu/hello.txt hdfs://hadoop105:8020/user/atguigu/hello.txt

8 MapReduce生产经验

影响mapreduce效率主要从计算机性能（CPU、内存、磁盘、网络）和I/O操作（数据倾斜（一个reduce快速结束，其他没有）；map时间太长，导致reduce等待；小文件过多）优化
常用参数调优*************
减少数据倾斜问题
（1）首先检查是否空值过多造成的数据倾斜
生产环境，可以直接过滤掉空值；如果想保留空值，就自定义分区，将空值加随机数打散。最后再二次聚合。
（2）能在map阶段提前处理，最好先在Map阶段处理。如：Combiner、MapJoin
（3）设置多个reduce个数

9 Hadoop综合调优

Hadoop小文件优化

带来的问题：一方面会大量占用NameNode的内存空间，另一方面就是元数据文件过多，使得寻址索引速度变慢；导致MapTask的处理时间比启动时间还小，白白消耗资源。
解决方案：
1）在数据采集的时候，就将小文件或小批数据合成大文件再上传HDFS（数据源头）
2）Hadoop Archive（存储方向）是一个高效的将小文件放入HDFS块中的文件存档工具，能够将多个小文件打包成一个HAR文件，从而达到减少NameNode的内存使用
3）CombineTextInputFormat（计算方向）CombineTextInputFormat用于将多个小文件在切片过程中生成一个单独的切片或者少量的切片。
4）开启uber模式，实现JVM重用（计算方向）
默认情况下，每个Task任务都需要启动一个JVM来运行，如果Task任务计算的数据量很小，可以让同一个Job的多个Task运行在一个JVM中

MapReduce计算性能测试

使用Hadoop中测试文件的sort程序测试

Hadoop高可用HA

手动模式

1.实现高可用最关键的策略是消除单点故障。HA 严格来说应该分成各个组件的 HA机制：HDFS 的 HA 和 YARN 的 HA。HDFS HA 功能通过配置多个 NameNodes(Active/Standby)实现在集群中对 NameNode 的热备来解决问题。
.2.NameNode 主要在以下两个方面影响 HDFS 集群：NameNode 机器发生意外，如宕机，集群将无法使用；NameNode 机器需要升级，包括软件、硬件升级，此时集群也将无法使用
3. 保证所有 namenode 的数据一致：a.Fsimage:让一台 nn 生成数据,让其他机器 nn 同步；b.Edits:需要引进新的模块 JournalNode 来保证 edtis 的文件的数据一致性
4. 2nn 在 ha 架构中并不存在，定期合并 fsimage 和 edtis 的活由 standby 的 nn 来干
5. 步骤：一定要先启动journalnode： hdfs --daemon start journalnode；在nn1格式化并启动：hdfs namenode -format， hdfs --daemon start namenode；在nn2和nn3同步： hdfs --daemon start namenode；启动nn2和nn3：hdfs --daemon start namenode；启动全部datanode：hdfs --daemon start datanode；将nn1切换为active： hdfs haadmin -transitionToActive nn1；查看是否active：hdfs haadmin -getServiceState nn1
6. 手动模式下，如有namenode挂掉，手动指定active不成功

自动模式

HA故障转移机制
启动步骤：zk start 启动zookeeper集群；start-dfs.sh 启动集群；start-yarn.sh 启动yarn

重要错误：在这里插入代org.apache.hadoop.hdfs.qjournal.client.QuorumException: Got too many exceptions to achieve quorum size 2/3. 3 exceptions thrown: 192.168.6.103:8485: Call From hadoop102/192.168.6.102 to hadoop103:8485 failed on connection exception: java.net.ConnectException: 拒绝连接; For more details see: http://wiki.apache.org/hadoop/ConnectionRefused 192.168.6.102:8485: Call From hadoop102/192.168.6.102 to hadoop102:8485 failed on connection exception: java.net.ConnectException: 拒绝连接; For more details see: http://wiki.apache.org/hadoop/ConnectionRefused 192.168.6.104:8485: Call From hadoop102/192.168.6.102 to hadoop104:8485 failed on connection exception: java.net.ConnectException: 拒绝连接; For more details see: http://wiki.apache.org/hadoop/ConnectionRefused拒绝连接;码片

报错原因：是因为 NameNode 连接不上 JournalNode。为 start-dfs.sh 群起脚本默认的启动顺序是先启动 NN，再启动 DN，然后再启动 JN，并且默认的 rpc 连接参数是重试次数为 10，每次重试的间隔是 1s，也就是说启动完 NN以后的 10s 中内，JN 还启动不起来，NN 就会报错了。
解决方案：core-default.xml 里面有两个参数如下：ipc.client.connect.max.retries NN 连接 JN 重试次数，默认是 10 次；ipc.client.connect.retry.interval 重试时间间隔，默认 1s；

YARN-HA 配置

工作机制

先启动的机器在zookeeper注册一个临时节点，该机器就是active，后面也会注册，但是已经有了就不会注册了，但是保持轮询状态，如果active节点挂了就立马注册一个临时节点成为active
当前 rm 上有很多的计算程序在等待运行,其他的 rm 怎么将这些程序接手过来接着跑：rm 会将当前的所有计算程序的状态存储在 zk 中,其他 rm 上位后会去读取，然后接
着跑

你可能感兴趣的:(hadoop,大数据)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
80 鑫_259b
科普一个谈恋爱的方法。在以前，谈恋爱千难万难，就难在对对方不知底细，不知道对方希望自己是一个怎样的人，要耗费大量的时间去试探、再磨合，往往会因为一些小事一些细节，满盘皆输。在一个信息化的时代，在一个大数据近乎变成了流行语的时代，我们要跟上时代的步伐，通过大数据，去寻找异性最希望自己展现出来的形象是什么，才可以在爱情的道路上少走弯路。那这个大数据怎么操作呢？上街发问卷？问别人的择偶标准？一来会被打死
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
数字化智能工厂数字化供应链架构、全景管理、全流程贯通方案数字化建设方案智能制造数字工厂制造业数字化转型工业互联网架构
随着信息技术的飞速发展，数字化转型已成为制造企业提升竞争力的关键途径。数字化智能工厂通过集成先进的物联网(IoT)、大数据、云计算、人工智能(AI)等技术，实现了生产过程的智能化、供应链管理的精准化及决策的科学化。本方案旨在构建一套完善的数字化供应链架构，实现全景管理、全流程贯通、智慧化升级，以数据为驱动，强化技术支撑与安全管理体系，推动企业向智能制造迈进。一、数字化供应链架构1.**集成化平台构
日记——我的歌单静若小猴
又到一年一度大数据汇总的时候了，听歌已经成为很多人生活里的一种乐趣。春夏秋冬，我们都有自己喜欢的歌，歌词歌曲唱出沃尔玛你的心声。还记得大学时候最喜欢听的《春天里》，我有一天单曲回放了30遍，总觉得听着仿佛看到自己声音。还有的歌，初听不知曲中意，再听已经是曲终人，听着歌流泪，听着歌入睡……还记得那些年少的故事吗，总觉得自己才是故事外的人，却不是自己已经入歌。一段时间会喜欢一个人的音乐，一段时间会沉静
Linux dmesg命令：显示开机信息 fafadsj666 linux 数据库数据挖掘机器学习大数据
通过学习《Linux启动管理》一章可以知道，在系统启动过程中，内核还会进行一次系统检测（第一次是BIOS进行加测），但是检测的过程不是没有显示在屏幕上，就是会快速的在屏幕上一闪而过那么，如果开机时来不及查看相关信息，我们是否可以在开机后查看呢？答案是肯定的，使用dmesg命令就可以。无论是系统启动过程中，还是系统运行过程中，只要是内核产生的信息，都会被存储在系统缓冲区中，已经为大家精心准备了大数据
大数据新视界 --大数据大厂之揭秘大数据时代 Excel 魔法：大厂数据分析师进阶秘籍青云交大数据新视界 Excel 数据分析函数公式数据透视表图表功能规划求解数据分析工具库大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
高职人工智能训练师边缘计算实训室解决方案武汉唯众智创人工智能训练师边缘计算实训室人工智能训练师实训室边缘计算实训室
一、引言随着物联网（IoT）、大数据、人工智能（AI）等技术的飞速发展，计算需求日益复杂和多样化。传统的云计算模式虽在一定程度上满足了这些需求，但在处理海量数据、保障实时性与安全性、提升计算效率等方面仍面临诸多挑战。在此背景下，边缘计算作为一种新兴的计算模式应运而生，通过将计算能力推向数据生成或用户所在的网络边缘，显著降低了数据传输的延迟，提升了处理效率，并增强了数据安全性。针对高等职业院校的人工
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，