whiteblacksheep

hadoop_hadoop-2.6.0-cdh5.7.0源码编译支持压缩以及伪分布式部署

1.需求与设计

1.1需求

直接使用的hadoop-2.6.0-cdh5.7.0.tar.gz包部署的hadoop集群不支持文件压缩，生产上是不可接受的，故需要将hadoop源码下载重新编译支持压缩

1.1概要设计

下载hadoop源码，使用maven编译，使其支持压缩。并成功进行伪分布式集群部署验证压缩功能。
|组件名称|组件版本 |百度网盘链接

2.环境需求以及部署规划

2.1 硬件环境
一台centos6.X虚拟机

2.2 软件环境：

组件版本	百度网盘链接
Hadoop-2.6.0-cdh5.7.0-src.tar.gz	链接：https://pan.baidu.com/s/1uRMGIhLSL9QHT-Ee4F16jw 提取码：jb1d
jdk-7u80-linux-x64.tar.gz	链接：https://pan.baidu.com/s/1xSCQ8rjABVI-zDFQS5nCPA 提取码：lfze
apache-maven-3.3.9-bin.tar.gz	链接：https://pan.baidu.com/s/1ddkdkLW7r7ahFZmgACGkVw 提取码：fdfz
protobuf-2.5.0.tar.gz	链接：https://pan.baidu.com/s/1RSNZGd_ThwknMB3vDkEfhQ 提取码：hvc2

注意:
1、编译的JDK版本必须是1.7，1.8的JDK会导致编译失败,采坑

3.安装centos

请参考VM虚拟机安装Centos6.X以及主机和网络配置

4.编译hadoop

4.1安装必要的依赖库

[root@hadoop001 ~]# yum install -y svn ncurses-devel
[root@hadoop001 ~]# yum install -y gcc gcc-c++ make cmake
[root@hadoop001 ~]# yum install -y openssl openssl-devel svn ncurses-devel zlib-devel libtool
[root@hadoop001 ~]# yum install -y snappy snappy-devel bzip2 bzip2-devel lzo lzo-devel lzop autoconf automake cmake

4.2添加用户以及上传软件

[root@hadoop001 ~]# yum install -y lrzsz
[root@hadoop001 ~]# useradd hadoop
[root@hadoop001 ~]# su - hadoop
[hadoop@hadoop001 ~]$ mkdir app soft source lib data maven_repo shell mysql
[hadoop@hadoop001 ~]$ cd soft/
[hadoop@hadoop001 soft]$ rz

[hadoop@hadoop001 soft]$ ll
total 202192
-rw-r--r--. 1 hadoop hadoop   8491533 Apr  7 11:25 apache-maven-3.3.9-bin.tar.gz
-rw-r--r--. 1 hadoop hadoop  42610549 Apr  6 16:55 hadoop-2.6.0-cdh5.7.0-src.tar.gz
-rw-r--r--. 1 hadoop hadoop 153530841 Apr  7 11:12 jdk-7u80-linux-x64.tar.gz
-rw-r--r--. 1 hadoop hadoop   2401901 Apr  7 11:31 protobuf-2.5.0.tar.gz

4.3安装JDK

解压安装包，安装目录必须是/usr/java,安装后记得修改拥有者为root

[hadoop@hadoop001 soft]$ exit
[root@hadoop001 ~]# mkdir /usr/java
[root@hadoop001 ~]# tar -zxvf /home/hadoop/soft/jdk-7u80-linux-x64.tar.gz -C /usr/java
[root@hadoop001 ~]# cd /usr/java/
[root@hadoop001 java]# chown -R root:root jdk1.7.0_80

添加环境变量

 [root@hadoop001 jdk1.7.0_80]# vim /etc/profile 
 #添加如下两行环境变量
 export JAVA_HOME=/usr/java/jdk1.7.0_80
 export PATH=$JAVA_HOME/bin:$PATH
 [root@hadoop001 jdk1.7.0_80]# source /etc/profile
 #测试java是否安装成功
 [root@hadoop001 jdk1.7.0_80]# java -version
 java version "1.7.0_80"
 Java(TM) SE Runtime Environment (build 1.7.0_80-b15)
 Java HotSpot(TM) 64-Bit Server VM (build 24.80-b11, mixed mode)

4.4安装maven

解压

[root@hadoop001 ~]# su - hadoop
[hadoop@hadoop001 ~]$ tar -zxvf ~/soft/apache-maven-3.3.9-bin.tar.gz -C ~/app/

添加环境变量
#修改haoop用户的环境变量

 [hadoop@hadoop001 ~]$ vim ~/.bash_profile
 #添加或修改如下内容，注意MAVEN_OPTS设置了maven运行的内存，防止内存太小导致编译失败
 export MAVEN_HOME=/home/hadoop/app/apache-maven-3.3.9
 export MAVEN_OPTS="-Xms1024m -Xmx1024m"
 export PATH=$MAVEN_HOME/bin:$PATH
 [hadoop@hadoop001 ~]$ source ~/.bash_profile
 [hadoop@hadoop001 ~]$ which mvn
 ~/app/apache-maven-3.3.9/bin/mvn

配置maven

 [hadoop@hadoop001 protobuf-2.5.0]$ vim ~/app/apache-maven-3.3.9/conf/settings.xml
 #配置maven的本地仓库位置，注意注释符号
 /home/hadoop/maven_repo/repo
 #添加阿里云中央仓库地址，注意一定要写在之间，注意注释符号
 
      nexus-aliyun
      central
      Nexus aliyun
      http://maven.aliyun.com/nexus/content/groups/public

（可选）添加jars到本地仓库，网络慢可能导致mvn第一次编译时下载需要超长的时间甚至编译失败

#jar包链接
链接：https://pan.baidu.com/s/1vq4iVFqqyJNkYzg90bVrfg 
提取码：vugv 
复制这段内容后打开百度网盘手机App，操作更方便哦
#下载后 rz上传解压，注意目录层次
[hadoop@hadoop001 maven_repo]$ rz
[hadoop@hadoop001 maven_repo]$ tar -zxvf repo.tar.gz

4.5安装protobuf

解压

 [hadoop@hadoop001 ~]$ tar -zxvf ~/soft/protobuf-2.5.0.tar.gz -C ~/app/

编译软件

 [hadoop@hadoop001 protobuf-2.5.0]$ cd ~/app/protobuf-2.5.0/
 #  --prefix= 是用来待会编译好的包放在为路径
 [hadoop@hadoop001 protobuf-2.5.0]$ ./configure  --prefix=/home/hadoop/app/protobuf-2.5.0
 #编译以及安装
 [hadoop@hadoop001 protobuf-2.5.0]$ make
 [hadoop@hadoop001 protobuf-2.5.0]$ make install

添加环境变量

 [hadoop@hadoop001 protobuf-2.5.0]$ vim ~/.bash_profile
 #追加如下两行内容，未编译前是没有bin目录的
 export PROTOBUF_HOME=/home/hadoop/app/protobuf-2.5.0
 export PATH=$PROTOBUF_HOME/bin:$PATH
 [hadoop@hadoop001 protobuf-2.5.0]$ source ~/.bash_profile 
 #测试是否生效，若出现libprotoc 2.5.0则为生效
 [hadoop@hadoop001 protobuf-2.5.0]$ protoc --version
 libprotoc 2.5.0

4.6编译hadoop

解压

 [hadoop@hadoop001 protobuf-2.5.0]$ tar -zxvf ~/soft/hadoop-2.6.0-cdh5.7.0-src.tar.gz -C ~/source/

编译hadoop使其支持压缩：mvn clean package -Pdist,native -DskipTests -Dtar

 #进入hadoop的源码目录
 [hadoop@hadoop001 hadoop-2.6.0-cdh5.7.0]$ cd ~/source/hadoop-2.6.0-cdh5.7.0/
 #进行编译，第一次编译会下载很多依赖的jar包，快慢由网速决定，需耐心等待，本人亲测耗时
 [hadoop@hadoop001 hadoop-2.6.0-cdh5.7.0]$ mvn clean package -Pdist,native -DskipTests -Dtar

若报异常，主要信息如下（无异常跳过）：
[FATAL] Non-resolvable parent POM for org.apache.hadoop:hadoop-main:2.6.0-cdh5.7.0: Could not transfer artifact com.cloudera.cdh:cdh-root:pom:5.7.0 from/to cdh.repo (https://repository.cloudera.com/artifactory/cloudera-repos): Remote host closed connectio
#分析：是https://repository.cloudera.com/artifactory/cloudera-repos/com/cloudera/cdh/cdh-root/5.7.0/cdh-root-5.7.0.pom文件下载不了，但是虚拟机确实是ping通远程的仓库，很是费解为什么。
#解决方案：前往本地仓库到目标文件目录，然后通过wget 文件，来成功获取该文件，重新执行编译命令，或者执行4.5的可选步骤，将需要的jar直接放到本地仓库

查看编译后的包：hadoop-2.6.0-cdh5.7.0.tar.gz

 #有 BUILD SUCCESS 信息则表示编译成功
 [INFO] Apache Hadoop Scheduler Load Simulator ............. SUCCESS [ 13.592 s]
 [INFO] Apache Hadoop Tools Dist ........................... SUCCESS [ 12.042 s]
 [INFO] Apache Hadoop Tools ................................ SUCCESS [  0.094 s]
 [INFO] Apache Hadoop Distribution ......................... SUCCESS [01:49 min]
 [INFO] ------------------------------------------------------------------------
 [INFO] BUILD SUCCESS
 [INFO] ------------------------------------------------------------------------
 [INFO] Total time: 37:39 min
 [INFO] Finished at: 2019-04-07T16:48:42+08:00
 [INFO] Final Memory: 200M/989M
 [INFO] ------------------------------------------------------------------------
 [hadoop@hadoop001 hadoop-2.6.0-cdh5.7.0]$ 
 [hadoop@hadoop001 hadoop-2.6.0-cdh5.7.0]$ 
 [hadoop@hadoop001 hadoop-2.6.0-cdh5.7.0]$ 
 [hadoop@hadoop001 hadoop-2.6.0-cdh5.7.0]$ 
 [hadoop@hadoop001 hadoop-2.6.0-cdh5.7.0]$ ll /home/hadoop/source/hadoop-2.6.0-cdh5.7.0/hadoop-dist/target/
 total 564036
 drwxrwxr-x. 2 hadoop hadoop      4096 Apr  7 16:46 antrun
 drwxrwxr-x. 3 hadoop hadoop      4096 Apr  7 16:46 classes
 -rw-rw-r--. 1 hadoop hadoop      1998 Apr  7 16:46 dist-layout-stitching.sh
 -rw-rw-r--. 1 hadoop hadoop       690 Apr  7 16:47 dist-tar-stitching.sh
 drwxrwxr-x. 9 hadoop hadoop      4096 Apr  7 16:47 hadoop-2.6.0-cdh5.7.0
 -rw-rw-r--. 1 hadoop hadoop 191880143 Apr  7 16:47 hadoop-2.6.0-cdh5.7.0.tar.gz
 -rw-rw-r--. 1 hadoop hadoop      7314 Apr  7 16:47 hadoop-dist-2.6.0-cdh5.7.0.jar
 -rw-rw-r--. 1 hadoop hadoop 385618309 Apr  7 16:48 hadoop-dist-2.6.0-cdh5.7.0-javadoc.jar
 -rw-rw-r--. 1 hadoop hadoop      4855 Apr  7 16:47 hadoop-dist-2.6.0-cdh5.7.0-sources.jar
 -rw-rw-r--. 1 hadoop hadoop      4855 Apr  7 16:47 hadoop-dist-2.6.0-cdh5.7.0-test-sources.jar
 drwxrwxr-x. 2 hadoop hadoop      4096 Apr  7 16:47 javadoc-bundle-options
 drwxrwxr-x. 2 hadoop hadoop      4096 Apr  7 16:47 maven-archiver
 drwxrwxr-x. 3 hadoop hadoop      4096 Apr  7 16:46 maven-shared-archive-resources
 drwxrwxr-x. 3 hadoop hadoop      4096 Apr  7 16:46 test-classes
 drwxrwxr-x. 2 hadoop hadoop      4096 Apr  7 16:46 test-dir

5.伪分布式部署

5.1解压安装包

[hadoop@hadoop001 hadoop-2.6.0-cdh5.7.0]$ cp /home/hadoop/source/hadoop-2.6.0-cdh5.7.0/hadoop-dist/target/hadoop-2.6.0-cdh5.7.0.tar.gz /home/hadoop/software/
[hadoop@hadoop001 ~]$ cd ~
[hadoop@hadop001 ~]$ tar -xzvf  ~/software/hadoop-2.6.0-cdh5.7.0.tar.gz   -C  ~/app/

5.2配置环境变量

[hadoop@hadoop001 ~]$ vim ~/.bash_profile 
export HADOOP_HOME=/home/hadoop/app/hadoop-2.6.0-cdh5.7.0
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
[hadoop@hadoop001 ~]$ source ~/.bash_profile 
[hadoop@hadoop001 ~]$ which hadoop
~/app/hadoop-2.6.0-cdh5.7.0/bin/hadoop

5.3配置ssh

[hadoop@hadoop001 ~]$ rm -rf ~/.ssh
[hadoop@hadoop001 ~]$ ssh-keygen  然后按三下回车 
[hadoop@hadoop001 ~]$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
[hadoop@hadoop001 ~]$ chmod 600 ~/.ssh/authorized_keys
#测试ssh是否成功，用户第一ssh会提示输入是否连接，yes。成功显示时间
[hadoop@hadoop001 ~]$ ssh hadoop001 date

5.4修改配置文件

编辑hadoop-env.sh文件相关配置

[hadoop@hadoop001 ~]$ vim ~/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop/hadoop-env.sh 
#将JDK的安装目录修改为绝对路径
export JAVA_HOME=/usr/java/jdk1.7.0_80
#修改hadoop的进程pid的存放目录，如果不修改，默认实在/tmp目下
export HADOOP_PID_DIR=/home/hadoop/data/tmp
[hadoop@hadop001 ~]$ mkdir data/tmp

编辑core-site.xml文件相关配置

[hadoop@hadoop001 ~]$ vim ~/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop/core-site.xml 
#添加如下配置

		  fs.defaultFS
		  hdfs://hadoop001:9000

##下面这个参数必须配，不然默认/tmp/hadoop-hadoop/dfs/namenode文件可能丢失，导致namenode服务起不来

hadoop.tmp.dir
/home/hadoop/data/tmp/hadoop-${user.name}

编辑hdfs-site.xml文件相关配置

[hadoop@hadoop001 ~]$ vim ~/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop/hdfs-site.xml 
#添加如下配置

  dfs.replication
  1


  dfs.namenode.secondary.http-address
  hadoop001:50090


    dfs.namenode.secondary.https-address
    hadoop001:50091

修改datanode的访问主机

[hadoop@hadoop001 ~]$ vim ~/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop/slaves
#添加一行内容如下
hadoop001

编辑mapred-site.xml文件相关配置

[hadoop@hadop001 ~]$ cp    ~/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop/mapred-site.xml.template   ~/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop/mapred-site.xml
[hadoop@hadop001 ~]$ vim   ~/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop/mapred-site.xml

#添加如下配置

mapreduce.framework.name
yarn

编辑yarn-site.xml文件相关配置

[hadoop@hadop001 ~]$ vim ~/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop/yarn-site.xml 
#添加如下配置

        yarn.nodemanager.aux-services
                mapreduce_shuffle



        yarn.resourcemanager.webapp.address
        0.0.0.0:8098

5.5格式化namenode

[hadoop@hadoop001 ~]$ hdfs namenode -format
#若出现 has been successfully formatted 则表示格式化成功
19/04/07 17:42:31 INFO namenode.FSImage: Allocated new BlockPoolId: BP-565897555-192.168.175.135-1554630151139
19/04/07 17:42:31 INFO common.Storage: Storage directory /tmp/hadoop-hadoop/dfs/name has been successfully formatted.
19/04/07 17:42:32 INFO namenode.NNStorageRetentionManager: Going to retain 1 images with txid >= 0
19/04/07 17:42:32 INFO util.ExitUtil: Exiting with status 0
19/04/07 17:42:32 INFO namenode.NameNode: SHUTDOWN_MSG: 
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at hadoop001/192.168.175.135
************************************************************/

5.6启动hadoop

[hadoop@hadoop001 ~]$ start-all.sh 
This script is Deprecated. Instead use start-dfs.sh and start-yarn.sh
Starting namenodes on [hadoop001]
hadoop001: starting namenode, logging to /home/hadoop/app/hadoop-2.6.0-cdh5.7.0/logs/hadoop-hadoop-namenode-hadoop001.out
hadoop001: starting datanode, logging to /home/hadoop/app/hadoop-2.6.0-cdh5.7.0/logs/hadoop-hadoop-datanode-hadoop001.out
Starting secondary namenodes [hadoop001]
hadoop001: starting secondarynamenode, logging to /home/hadoop/app/hadoop-2.6.0-cdh5.7.0/logs/hadoop-hadoop-secondarynamenode-hadoop001.out
starting yarn daemons
starting resourcemanager, logging to /home/hadoop/app/hadoop-2.6.0-cdh5.7.0/logs/yarn-hadoop-resourcemanager-hadoop001.out
hadoop001: starting nodemanager, logging to /home/hadoop/app/hadoop-2.6.0-cdh5.7.0/logs/yarn-hadoop-nodemanager-hadoop001.out

#查询出五个守护进程

	[hadoop@hadoop001 dfs]$ jps
	2176 NameNode
	2694 NodeManager
	2391 SecondaryNameNode
	2264 DataNode
	2601 ResourceManager
	3147 Jps
	[hadoop@hadoop001 dfs]$

6.验证hadoop

6.1 hdfs验证

			访问：http://192.168.137.20:50070

6.2yarn验证

			访问：http://192.168.137.20:8098

6.3检测压缩格式

#true表示支持的意思
[hadoop@hadoop001 ~]$ hadoop checknative
19/04/07 17:50:08 INFO bzip2.Bzip2Factory: Successfully loaded & initialized native-bzip2 library system-native
19/04/07 17:50:08 INFO zlib.ZlibFactory: Successfully loaded & initialized native-zlib library
Native library checking:
hadoop:  true /home/hadoop/app/hadoop-2.6.0-cdh5.7.0/lib/native/libhadoop.so.1.0.0
zlib:    true /lib64/libz.so.1
snappy:  true /usr/lib64/libsnappy.so.1
lz4:     true revision:99
bzip2:   true /lib64/libbz2.so.1
openssl: true /usr/lib64/libcrypto.so

扩展1：protobuf是什么？

protobuf它是一种轻便高效的数据格式，类似于Json，平台无关、语言无关、可扩展，可用于通讯协议和数据存储等领域。
优点：
平台无关，语言无关，可扩展；
提供了友好的动态库，使用简单；
解析速度快，比对应的XML快约20-100倍；
序列化数据非常简洁、紧凑，与XML相比，其序列化之后的数据量约为1/3到1/10。

MapReduce01：基本原理和wordCount代码实现冬至喵喵大数据 mapreduce
本篇文章中，笔者记录了自己对于MapReduce的肤浅理解，参考资料主要包括《大数据Hadoop3.X分布式处理实战》和网络视频课程。下文介绍了MapReduce的基本概念、运行逻辑以及在wordCount代码示例。一、MapReduce概述1.概述google为解决其搜索引擎中的大规模网页数据的并行化处理问题，设计了MapReduce，在发明MapReduce之后首先用其重新改写了搜索引擎中we
大数据集群架构hadoop集群、Hbase集群、zookeeper、kafka、spark、flink、doris、dataeas(二) 争取不加班！ hadoop hbase zookeeper 大数据运维
zookeeper单节点部署wget-chttps://dlcdn.apache.org/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz下载地址tarxfapache-zookeeper-3.8.4-bin.tar.gz-C/data/&&mv/data/apache-zookeeper-3.8.4-bin//data/zoo
输入hadoop version时，解决Cannot execute /home/hadoop/libexec/hadoop-config.sh.的方法有奇妙能力吗 ubuntu hadoop hdfs linux 大数据分布式
在ubuntu用hadoopversion遇到了一个错误：Cannotexecute/home/hadoop/hadoop2.8/libexec/hadoop-config.sh.解决方法：在/etc/profile中找到了这个HADOOP_HOME全局变量，将其删除运行source/etc/profile输入vim.bashrc命令，在最后一行输入unsetHADOOP_HOMEsource.b
Hadoop、Spark、Flink 三大大数据处理框架的能力与应用场景
一、技术能力与应用场景对比产品能力特点应用场景Hadoop-基于MapReduce的批处理框架-HDFS分布式存储-容错性强、适合离线分析-作业调度使用YARN-日志离线分析-数据仓库存储-T+1报表分析-海量数据处理Spark-基于内存计算，速度快-支持批处理、流处理（StructuredStreaming）-支持SQL、ML、图计算等-支持多语言（Scala、Java、Python）-近实时处
Hadoop WordCount 程序实现与执行指南
HadoopWordCount程序实现与执行指南下面是使用Python实现的HadoopWordCount程序，包含完整的Mapper和Reducer部分。这个程序可以在PyCharm中本地测试，也可以部署到远程Hadoop集群上运行。mapper.pyimportsys#从标准输入读取数据forlineinsys.stdin:#移除行首行尾的空白字符line=line.strip()#将行分割为
centos 7+hadoop 2.7.3 mozhw c/c++linu/unix java
安装JDK版本:jdk-8u131-linux-x64.tar.gz需要先删除系统自带的openjdk先查找java再移除[hadoop@localhost~]$rpm-qa|grepjavajava-1.7.0-openjdk-1.7.0.111-2.6.7.8.el7.x86_64python-javapackages-3.4.1-11.el7.noarchtzdata-java-2016g-
MapReduce概述 Tate小白大数据学习 mapreduce
1、MapReduce概述1.1MapReduce定义MapReduce是一个分布式运算程序的编程框架，是用户开发“Hadoop的数据分析应用”的核心框架。MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。Reduc
【笔记-软考】大数据架构-Lambda与Kappa架构对比我叫白小猿软考软考架构大数据 Kappa Lambda
Author：赵志乾Date：2024-07-28Declaration：AllRightReserved！！！1.简介大数据系统架构的设计思想很大程度受技术条件和思维模式的限制；Lambda架构在提出初期面向小范围业务，直接将成熟离线处理技术(Hadoop)和实时处理技术(Storm)相结合，用View模型将二者处理后得到的输出结果结合起来，在服务层进行统一后，再开放给上层服务，是相当可行且高效
HDFS（Hadoop分布式文件系统）总结 Cachel wood 大数据开发 hadoop hdfs 大数据散列表算法哈希算法 spark
文章目录一、HDFS概述1.定义与定位2.核心特点二、HDFS架构核心组件1.NameNode（名称节点）2.DataNode（数据节点）3.Client（客户端）4.SecondaryNameNode（辅助名称节点）三、数据存储机制1.数据块（Block）设计2.复制策略（默认复制因子=3）3.数据完整性校验四、文件读写流程1.写入流程2.读取流程五、高可用性（HA）机制1.单点故障解决方案2.
Spark教程1：Spark基础介绍 Cachel wood 大数据开发 spark 大数据分布式计算机网络数据库数据仓库
文章目录一、Spark是什么？二、Spark的核心优势三、Spark的核心概念四、Spark的主要组件五、Spark的部署模式六、Spark与Hadoop的关系七、Spark应用开发流程八、Spark的应用场景九、Spark版本更新与社区一、Spark是什么？ApacheSpark是一个开源的分布式大数据处理引擎，最初由加州大学伯克利分校AMPLab开发，2013年捐赠给Apache软件基金会，如
Hadoop的部分用法覃炳文20230322027 hadoop hive 大数据分布式
前言Hadoop是一个由Apache基金会开发的开源框架，它允许跨多个机器使用分布式处理大数据集。Hadoop的核心是HDFS（HadoopDistributedFileSystem）和MapReduce编程模型。1.Hadoop环境搭建在开始使用Hadoop之前，你需要搭建Hadoop环境。这通常包括安装Java、配置Hadoop环境变量、配置Hadoop的配置文件等步骤。1.1环境准备在开始安
Netty4.1 - TCP粘包拆包解决方案及案例代码 wwyh520 IO编程 netty
Netty是目前业界最流行的NIO框架之一，它的健壮性、高性能、可定制和可扩展性在同类框架中都是首屈一指。它已经得到了成百上千的商业项目的验证，例如Hadoop的RPC框架Avro就使用了Netty作为底层通信框架，其他的业界主流RPC框架，例如：Dubbo、Google开源的gRPC、新浪微博开源的Motan、Twitter开源的finagle也使用Netty来构建高性能的异步通信能力。另外，阿
Storm核心概念与实战详解 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2010年Hadoop项目开源后，Storm项目也随之走向人气爆棚。在如此火热的当下，给我们带来的好处不仅仅是增强对Hadoop平台的掌控能力，更重要的是让我们感受到了快速发展、海量数据处理能力、低延迟的优势。在这一系列文章中，我将深入浅出地介绍Storm项目，并从实际案例出发，带领大家全面理解Storm中的关键概念及其运作方式，让您轻松掌握Storm的高效率、
基于Hadoop大数据分析应用场景与实战跨过山河大海
一、Hadoop的应用业务分析大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具，而是涉及的业务和技术的许多领域。目前主流的三大分布式计算系统分别为:Hadoop、Spark和Strom：Hadoop当前大数据管理标准之一，运用在当前很多商业应用系统。可以轻松地集成结构化、半结构化甚至非结构化数据集。Spark采用了内存计算。从多迭代批处理出发，允许将数据载入内存作反复
Hadoop 发展过程是怎样的？ AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2003年，美国加州大学洛杉矶分校教授李彦宏博士发明了一种分布式文件系统——GFS（GoogleFileSystem）。由于该文件系统设计得足够简单，可以适应大规模数据集存储需求，在此基础上演化出多种应用，包括MapReduce、BigTable、PageRank等，并成为当时互联网公司的标配技术之一。2004年，Google发布了第一版Hadoop项目，定位是
通过CDH安装Spark的详细指南暴躁哥大数据技术 spark 大数据分布式
通过CDH安装Spark的详细指南简介ClouderaDistributionofHadoop(CDH)是一个企业级的大数据平台，它集成了多个开源组件，包括Hadoop、Spark、Hive等。本文将详细介绍如何通过CDH安装和配置Spark。前提条件在开始安装之前，请确保满足以下条件：已安装CDH集群具有管理员权限所有节点之间网络互通系统时间同步足够的磁盘空间（建议至少预留20GB）安装步骤1.
Hadoop 版本进化论：从 1.0 到 2.0，架构革命全解析拾光师大数据后端
Hadoop版本hadoop1.x版本由三部分组成Common(辅助工具)HDFS(数据存储)MapReduce(计算和资源调度)存在的问题JobTracker同时具备了资源管理和作业控制两个功能，成为了系统的最大瓶颈采用了master/slave结构，master存在单点问题，一旦master出现故障，会导致整个集群不可用采用了基于槽位的资源分配模型，将槽位分为了Mapslot和Reducesl
Hadoop RPC 分层设计的哲学：高内聚、低耦合的最佳实践拾光师大数据后端
HadoopRPCHadoopRPC主要分为四个部分，分别是序列化层、函数调用层、网络传输层和服务器端处理框架，实现机制为：序列化层：主要作用是将结构化对象转为字节流以便于通过网络进行传输或写入持久存储。函数调用层：主要作用是定位要调用的函数并执行该参数，采用了java反射机制和动态代理实现了函数调用网络传输层：描述了client和server之间消息传输的方式，基于TCP/IP的socket机制
基于pyspark的北京历史天气数据分析及可视化_离线大数据CLUB spark数据分析可视化数据分析数据挖掘 hadoop 大数据 spark
基于pyspark的北京历史天气数据分析及可视化项目概况[]点这里,查看所有项目[]数据类型北京历史天气数据开发环境centos7软件版本python3.8.18、hadoop3.2.0、spark3.1.2、mysql5.7.38、scala2.12.18、jdk8开发语言python开发流程数据上传(hdfs)->数据分析(spark)->数据存储(mysql)->后端(flask)->前端(
Hadoop RPC 分层设计的哲学：高内聚、低耦合的最佳实践后端
HadoopRPCHadoopRPC主要分为四个部分，分别是序列化层、函数调用层、网络传输层和服务器端处理框架，实现机制为：序列化层：主要作用是将结构化对象转为字节流以便于通过网络进行传输或写入持久存储。函数调用层：主要作用是定位要调用的函数并执行该参数，采用了java反射机制和动态代理实现了函数调用网络传输层：描述了client和server之间消息传输的方式，基于TCP/IP的socket机制
基于pyspark的北京历史天气数据分析及可视化_实时大数据CLUB spark数据分析可视化数据分析数据挖掘 spark hadoop 大数据
基于pyspark的北京历史天气数据分析及可视化项目概况[]点这里,查看所有项目[]数据类型北京历史天气数据开发环境centos7软件版本python3.8.18、hadoop3.2.0、spark3.1.2、mysql5.7.38、scala2.12.18、jdk8、kafka2.8.2开发语言python开发流程数据上传(hdfs)->数据分析(spark)->数据写kafka(python)
《从零开始：Hadoop 3.3.0 全分布式环境搭建与运行详解（含自动化配置）》李哈哈敲代码学习经验分布式 hadoop 自动化大数据 linux
Hadoop3.3.0全分布并环境搭建与运行部署详解一、准备工作1.1环境要求三台Linux主机，如node1、node2、node3配置推荐:内存大于4GB，CPU大于2核，磁盘空间大于40GB1.2软件列表JDK1.8（！！需要提前上传到software目录下，解压到server目录下）Hadoop3.3.01.3目录规划（注意在根目录下创建export）/export/server#安装目录
Hadoop等大数据处理框架的Java API 扬子鳄008 Java hadoop java 大数据
Hadoop是一个非常流行的大数据处理框架，主要用于存储和处理大规模数据集。Hadoop主要有两个核心组件：HDFS（HadoopDistributedFileSystem）和MapReduce。此外，还有许多其他组件，如YARN（YetAnotherResourceNegotiator）、HBase、Hive等。下面详细介绍Hadoop及其相关组件的JavaAPI及其使用方法。HadoopHad
python--将mysql建表语句转换成hive建表语句呆呆不呆～ spark python mysql hive spark
1.代码importjsonimportsysimportpymysqldefqueryDataBase(tablename):#连接数据库并查询列信息conn=pymysql.connect(user='root',password='123456',host='hadoop11')cursor=conn.cursor()cursor.execute("SELECTcolumn_name,dat
手把手教你玩转 Sqoop：从数据库到大数据的「数据搬运工」 AAA建材批发王师傅数据库 sqoop 大数据 hive hdfs
一、Sqoop是什么？——数据界的「超级搬运工」兄弟们，今天咱们聊个大数据圈的「搬运小能手」——Sqoop！可能有人会问：这玩意儿跟Flume啥区别？简单来说：Flume是专门搬日志数据的「快递员」而Sqoop是搬数据库数据的「搬家公司」它的名字咋来的？SQL+Hadoop，直接告诉你核心技能：在关系型数据库（比如MySQL）和Hadoop家族（HDFS、Hive、HBase）之间疯狂倒腾数据！核
Python 工程师迈向大数据时代： Hadoop 与 Spark 框架深度解析与实战指南清水白石008 python Python题库大数据 python hadoop
Python工程师迈向大数据时代：Hadoop与Spark框架深度解析与实战指南引言亲爱的Python工程师们，欢迎来到大数据时代！在这个数据驱动的时代，海量数据如同奔腾不息的河流，蕴藏着前所未有的价值。然而，传统的数据处理工具在面对TB甚至PB级别的数据时，往往显得力不从心。如何高效地处理、分析和挖掘这些海量数据，成为了现代软件工程师，特别是Python工程师们必须掌握的关键技能。幸运的是，大数
从 0 到 Offer！大数据核心面试题全解析，答案精准拿捏面试官(hadoop篇) 浅谈星痕大数据
1.什么是Hadoop？Hadoop是一个开源的分布式系统基础架构，用于存储和处理大规模数据集。它主要包含HDFS（HadoopDistributedFileSystem）分布式文件系统、MapReduce分布式计算框架以及YARN（YetAnotherResourceNegotiator）资源管理器。HDFS负责数据的分布式存储，将大文件分割成多个数据块存储在不同节点上；MapReduce用于分
[5-03-01].第14节：集群搭建 - 在Linux系统中搭建 1.01^1000 #企业级框架 springcloud
SpringCloud学习大纲三、集群环境搭建：3.1.集群规划1.nacos规划：hadoop103hadoop104hadoop105192.168.148.3192.168.148.4192.168.148.5nacosnacosnacos2.MYSQL规划：192.168.148.333065.7.27
大数据学习（141）-分布式数据库 viperrrrrrr 大数据学习分布式 clickhouse hdfs hbase
在分布式数据库中主要有hdfs、hbase、clickhouse三种。HDFS（HadoopDistributedFileSystem）、HBase和ClickHouse都是处理大数据的分布式系统，但它们的设计目标、架构和适用场景有所不同。一、HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生态系统的一部分，是一个高度容错的系统，适合存储大量数据。它被设计为
HDFS Federation（联邦）架构YARN的Capacity Scheduler调度策略 ResourceManager的共享存储具体实现方式 2401_8554978 hdfs 架构 java
HDFSFederation（联邦）架构什么是HDFSFederation？随着数据量的增长，单一的NameNode成为了HDFS的瓶颈，因为它需要管理整个文件系统的命名空间和所有文件块的位置信息。为了克服这个限制，Hadoop引入了Federation机制，允许一个集群中有多个NameNode/NameSpace，每个NameNode管理一部分文件系统，从而分散负载。优点：提高扩展性：通过增加N
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR