复姓独孤

hadoop（一）入门、hadoop架构、集群环境搭建

hadoop系列笔记
hadoop（一）入门、hadoop架构、集群环境搭建.
hadoop（二）HDFS概述、shell操作、客户端操作（各种API操作）以及hdfs读写流程.
hadoop（三）hdfs的NameNode和DataNode工作机制.
hadoop（四）MapReduce入门及序列化实操.
hadoop（五）MapReduce框架原理及工作机制.
hadoop（六）hadoop数据压缩、yarn架构及工作原理、hadoop企业优化.

文章目录

第一章Hadoop简介
- 1.1Hadoop是什么
- 1.2发展历史
- 1.3 Hadoop三大发行版本
- 1.4 Hadoop的优势（4高）
- 1.5Hadoop组成（面试重点）
- - 1.5.1 HDFS架构概述
  - 1.5.2 YARN架构概述
  - 1.5.3 MapReduce架构概述
- 1.6 大数据技术生态体系
- 1.7 推荐系统框架图（简图，之后还介绍）
第二章Hadoop运行环境搭建（开发重点）
- 2.1 虚拟环境准备
- 2.2 安装jdk
- 2.3 安装Hadoop
- Hadoop目录结构
第3章 Hadoop运行模式
- 3.1 本地运行模式
- - 3.1.1官方Grep案例
  - 3.1.2 官方WordCount案例
- 3.2 伪分布式运行模式
- - 3.2.1启动HDFS并运行MapReduce程序
  - 3.2.2 启动YARN并运行MapReduce程序
- 3.3完全分布式运行模式（开发重点）
- - 3.3.1 虚拟机准备
  - 3.3.2 编写集群分发脚本xsync
  - 3.3.3 集群配置
  - 3.3.4 集群单点启动
  - 3.3.5 SSH无密登录配置
  - 3.3.6 群起集群
  - 3.3.7 配置历史服务器和日志的聚集
  - 3.3.8 集群启动/停止方式总结
  - 3.3.9 集群时间同步

第一章Hadoop简介

1.1Hadoop是什么

1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构
2）主要解决，海量数据的存储和海量数据的分析计算问题。
3）广义上来说，HADOOP通常是指一个更广泛的概念——HADOOP生态圈

1.2发展历史

1）Lucene–Doug Cutting开创的开源软件，用java书写代码，实现与Google类似的全文搜索功能，它提供了全文检索引擎的架构，包括完整的查询引擎和索引引擎
2）2001年年底成为apache基金会的一个子项目
3）对于大数量的场景，Lucene面对与Google同样的困难
4）学习和模仿Google解决这些问题的办法：微型版Nutch
5）可以说Google是hadoop的思想之源(Google在大数据方面的三篇论文)
GFS —>HDFS
Map-Reduce —>MR
BigTable —>Hbase
论文链接.
6）2003-2004年，Google公开了部分GFS和Mapreduce思想的细节，以此为基础Doug Cutting等人用了2年业余时间实现了DFS和Mapreduce机制，使Nutch性能飙升
7）2005 年Hadoop 作为 Lucene的子项目 Nutch的一部分正式引入Apache基金会。2006 年 3 月份，Map-Reduce和Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中
8）名字来源于Doug Cutting儿子的玩具大象
9）Hadoop就此诞生并迅速发展，标志这云计算时代来临

1.3 Hadoop三大发行版本

Hadoop三大发行版本：Apache、Cloudera、Hortonworks。
Apache版本最原始（最基础）的版本，对于入门学习最好。
Cloudera在大型互联网企业中用的较多。
Hortonworks文档较好。

1.4 Hadoop的优势（4高）

1）高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失。
2）高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点。
3）高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度。
4）高容错性：能够自动将失败的任务重新分配。

1.5Hadoop组成（面试重点）

Hadoop1.x和Hadoop2.x区别：

1.5.1 HDFS架构概述

1）NameNode（nn）：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等。
2）DataNode(dn)：在本地文件系统存储文件块数据，以及块数据的校验和。
3）Secondary NameNode(2nn)：用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照。

1.5.2 YARN架构概述

1）ResourceManager(rm)：
- 处理客户端请求
- 启动/监控ApplicationMaster
- 监控NodeManager
- 资源分配与调度；
2）NodeManager(nm)：
- 单个节点上的资源管理
- 处理来自ResourceManager的命令
- 处理来自ApplicationMaster的命令；
3）ApplicationMaster：
- 数据切分
- 为应用程序申请资源，并分配给内部任务
- 任务监控与容错。
4）Container：
- 对任务运行环境的抽象，封装了CPU、内存等多维资源以及环境变量、启动命令等任务运行相关的信息。

1.5.3 MapReduce架构概述

MapReduce将计算过程分为两个阶段：Map和Reduce，如图所示
1）Map阶段并行处理输入数据
2）Reduce阶段对Map结果进行汇总

1.6 大数据技术生态体系

1）Sqoop：sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle 等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。
2）Flume：Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。
3）Kafka：Kafka是一种高吞吐量的分布式发布订阅消息系统，有如下特性：
（1）通过O(1)的磁盘数据结构提供消息的持久化，这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。
（2）高吞吐量：即使是非常普通的硬件Kafka也可以支持每秒数百万的消息
（3）支持通过Kafka服务器和消费机集群来分区消息。
（4）支持Hadoop并行数据加载。
4）Storm：Storm为分布式实时计算提供了一组通用原语，可被用于“流处理”之中，实时处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。 Storm也可被用于“连续计算”（continuous computation），对数据流做连续查询，在计算时就将结果以流的形式输出给用户。
5）Spark：Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。
6）Oozie：Oozie是一个管理Hdoop作业（job）的工作流程调度管理系统。Oozie协调作业就是通过时间（频率）和有效数据触发当前的Oozie工作流程。
7）Hbase：HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。
8）Hive：hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。
10）R语言：R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件，它是一个用于统计计算和统计制图的优秀工具。
11）Mahout:
Apache Mahout是个可扩展的机器学习和数据挖掘库，当前Mahout支持主要的4个用例：
- 推荐挖掘：搜集用户动作并以此给用户推荐可能喜欢的事物。
- 聚集：收集文件并进行相关文件分组。
- 分类：从现有的分类文档中学习，寻找文档中的相似特征，并为无标签的文档进行正确的归类。
- 频繁项集挖掘：将一组项分组，并识别哪些个别项会经常一起出现。
12）ZooKeeper：Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。

1.7 推荐系统框架图（简图，之后还介绍）

第二章Hadoop运行环境搭建（开发重点）

2.1 虚拟环境准备

1.克隆虚拟机
2.修改克隆虚拟机的静态IP

注意，适配器连接方式为NAT，ip地址的前三位要三者一致，Linux的VMnet8、Linux的ip地址，Windows的VMnet8这三个的前三位
3.修改主机名

记住改Hosts（这个改一次就行，之后克隆的都有，不放心可查看看看）
编写一个shell脚本即可：
4.关闭防火墙

centos6和centos7指令不一样了
5.创建新用户
6.配置新用户具有root权限（详见大数据技术之Linux.）

注：这个需要强制保存wq！
7.在/opt目录下创建文件夹
（1）在/opt目录下创建module、software文件夹

（2）修改module、software文件夹的所有者cd
8）最后注意，每克隆一台都要改ip地址和主机名，Centos7以下的系统还需要修改/etc/udev/rules.d/70-persistent-net.rules文件，删掉第一行，第二行改成eth0，Centos7 不需要，重启即克隆完毕

2.2 安装jdk

第一步　　卸载系统自带的OpenJDK以及相关的java文件
- 1.java -version
- 可以看到系统自带的OpenJDK版本信息。
- 2.查询java软件安装情况
- rpm -qa | grep java
- 删除这两个即可
  java-1.8.0-openjdk-1.8.0.102-4.b14.el7.x86_64
  java-1.8.0-openjdk-headless-1.8.0.102-4.b14.el7.x86_64
- noarch文件不需要删除
- 3.开始删除：记住，普通用户没有删除权限，要改成root用户删除（如果前面的权限更改为和root用户权限一样就不用了）
  rpm -e --nodeps java-1.8.0-openjdk-headless-1.8.0.242.b08-1.el7.x86_64
  rpm -e --nodeps java-1.8.0-openjdk-1.8.0.242.b08-1.el7.x86_64
- 4.检查是否已经删除成功java - version
  
  表明删除成功
第二步　　下载最新稳定JDK
- 用SecureCRT工具将JDK导入到opt目录下面的software文件夹下面，“alt+p”进入sftp模式，如图所示
- 选择jdk1.8拖入
- 在Linux系统下的opt目录中查看软件包是否导入成功
  将hadoop包也拖入了
- 解压JDK到/opt/module目录下
  tar -zxvf jdk-8u144-linux-x64.tar.gz -C /opt/module/
  别忘记删除压缩包：
  之后查看module文件，看看是否安装成功
- 配置JDK环境变量
  - （1）先获取JDK路径
  - （2）打开/etc/profile文件
    sudo vim /etc/profile
  - （3）在profile文件末尾添加JDK路径，然后保存退出

#java environment
export JAVA_HOME=/opt/module/jdk1.8.0_144
export CLASSPATH=.:${
     JAVA_HOME}/jre/lib/rt.jar:${
     JAVA_HOME}/lib/dt.jar:${
     JAVA_HOME}/lib/tools.jar
export PATH=$PATH:${
     JAVA_HOME}/bin

- （4）让修改后的文件生效
  source /etc/profile
  - （）最后我们来进行一下测试，看看我们的环境变量是否配置成功
    测试命令：java -version

2.3 安装Hadoop

上面已经将文件复制到Linux的software下了
解压安装文件到/opt/module下面
tar -zxvf hadoop-2.7.2.tar.gz -C /opt/module/
查看是否解压成功
将Hadoop添加到环境变量
- （1）获取Hadoop安装路径
- （2）打开/etc/profile文件
- （3）在profile文件末尾添加hadoop路径，保存后退出

##HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-2.7.2
export PATH=$PATH:${
     HADOOP_HOME}/bin
export PATH=$PATH:${
     HADOOP_HOME}/sbin

- （4）让修改后的文件生效
  - hadoop version测试

Hadoop目录结构

1、查看Hadoop目录结构
2、重要目录
- （1）bin目录：存放对Hadoop相关服务（HDFS,YARN）进行操作的脚本
- （2）etc目录：Hadoop的配置文件目录，存放Hadoop的配置文件
- （3）lib目录：存放Hadoop的本地库（对数据进行压缩解压缩功能）
- （4）sbin目录：存放启动或停止Hadoop相关服务的脚本
- （5）share目录：存放Hadoop的依赖jar包、文档、和官方案例

第3章 Hadoop运行模式

Hadoop运行模式包括：本地模式、伪分布式模式以及完全分布式模式

hadoop官方网站.来配置hadoop2.7.2

我的配置：
在文件中配置java_home

测试：

3.1 本地运行模式

3.1.1官方Grep案例

1.在hadoop-2.7.2文件下面创建一个input文件夹
mkdir input
2.将Hadoop的xml配置文件复制到input
cp etc/hadoop/*.xml input
3.执行share目录下的MapReduce程序
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output ‘dfs[a-z.]+’
4.查看输出结果
cat output/*
说明你能执行本地模式，你的hadoop环境打通了

3.1.2 官方WordCount案例

1.在hadoop-2.7.2文件下面创建一个wcinput文件夹
mkdir wcinput
2.在wcinput文件下创建一个wc.input文件
cd wcinput
touch wc.input
3.编辑wc.input文件
vim wc.input
在文件中输入如下内容
hadoop yarn
hadoop mapreduce
liuyongjun
liuyongjun
保存退出：：wq
4.回到Hadoop目录/opt/module/hadoop-2.7.2
5.执行程序
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput wcoutput
6.查看结果
cat wcoutput/*
注意，本地运行模式执行只用到了hadoop的MapReduce计算，存储是在本地磁盘，资源调度是Linux申请的，不是yarn申请的，本地运行模式测试用的，开发不用。

3.2 伪分布式运行模式

只有一个节点的分布式

3.2.1启动HDFS并运行MapReduce程序

1.分析
（1）配置集群
（2）启动、测试集群增、删、查
（3）执行WordCount案例
2.执行步骤
- （1）配置集群
  需要配置的三个都在/opt/module/hadoop2.7.2/etc/hadoop/下，如图：
  - （a）配置：hadoop-env.sh（上面配过）
    Linux系统中获取JDK的安装路径：
    /opt/module/jdk1.8.0_144
    修改JAVA_HOME 路径：
    export JAVA_HOME=/opt/module/jdk1.8.0_144
  - （b）配置：core-site.xml
  - 在标签configuration中加如下配置

<!-- 指定HDFS中NameNode的地址 -->
	
		fs.defaultFS</name>
    	hdfs://hadoop101:9000</value>
	</property>

<!-- 指定Hadoop运行时产生文件的存储目录 -->
	
		hadoop.tmp.dir</name>
		/opt/module/hadoop-2.7.2/data/tmp</value>
	</property>

- - （c）配置：hdfs-site.xml

<!-- 指定HDFS副本的数量 -->

	dfs.replication</name>
	1</value>
</property>

- （2）启动集群
  - （a）格式化NameNode（第一次启动时格式化，以后就不要总格式化）
    hdfs namenode -format
  - （b）启动NameNode
    hadoop-daemon.sh start namenode
  - （c）启动DataNode
    hadoop-daemon.sh start datanode
  - （3）查看集群
    - （a）查看是否启动成功
      jps
      
      注意：jps是JDK中的命令，不是Linux命令。不安装JDK不能使用jps
    - （b）web端查看HDFS文件系统
      web端查看HDFS文件系统.
      注意：如果不能查看，就是没有修改Windows上的hosts文件
      Hosts文件路径：C:\WINDOWS\system32\drivers\etc
      
      hadoop3.xHTTP端口号是9870
    - （c）查看产生的Log日志
      说明：在企业中遇到Bug时，经常根据日志提示信息去分析问题、解决Bug。
      当前目录：/opt/module/hadoop-2.7.2/logs
    - （d）思考：为什么不能一直格式化NameNode，格式化NameNode，要注意什么？
      注意：格式化NameNode，会产生新的集群id,导致NameNode和DataNode的集群id不一致，集群找不到已往数据。所以，格式NameNode时，一定要先删除data数据和log日志，然后再格式化NameNode。
      
      datanode和namenode的id是一致的
    - 假如我再次格式化namenode，之后会和datanode的id不一致，就联系不上了，如图
    - 演示一波，先停止namenode和datanode，然后再一次格式化namenode
    - 这时将这两个启动之后，jps查看
    - 只有namenode了，datanode自动删除了，这时怎么解决？
    - 以后但凡出现bug，就去日志文件查看
    - datanode出现问题，查看DataNode日志
    - 解决方法：删除datanode
      
      再启动DataNode查看没问题
      
      此时的集群id就换了但是一直：
  - （4）操作集群
    - （a）在HDFS文件系统上创建一个input文件夹
      hdfs dfs -mkdir -p /user/liuyongjun/input
    - （b）将测试文件内容上传到文件系统上
      hdfs dfs -put wcinput/wc.input /user/liuyongjun/input/
    - （c）查看上传的文件是否正确
      hdfs dfs -ls /user/liuyongjun/input/
      
      hdfs dfs -cat /user/liuyongjun/ input/wc.input
    - （d）运行MapReduce程序
      hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/liuyongjun/input/ /user/liuyongjun/output
    - （e）查看输出结果
      - 命令行查看：
        hdfs dfs -cat /user/liuyongjun/output/*
      - 浏览器查看：
        web端查看HDFS文件系统.
        查看output文件
      - （f）将测试文件内容下载到本地
        hdfs dfs -get /user/liuyongjun/output/part-r-00000 ./wcoutput/
      - （g）删除输出结果
        hdfs dfs -rm -r /user/liuyongjun/output

3.2.2 启动YARN并运行MapReduce程序

1.分析
（1）配置集群在YARN上运行MR
（2）启动、测试集群增、删、查
（3）在YARN上执行WordCount案例
2.执行步骤
- （1）配置集群在/opt/module/hadoop-2.7.2/etc/hadoop/中
  - （a）配置yarn-env.sh
    配置一下JAVA_HOME
    export JAVA_HOME=/opt/module/jdk1.8.0_144
  - （b）配置yarn-site.xml

<!-- Reducer获取数据的方式 -->

 		yarn.nodemanager.aux-services</name>
 		mapreduce_shuffle</value>
</property>

<!-- 指定YARN的ResourceManager的地址 -->

yarn.resourcemanager.hostname</name>
hadoop101</value>
</property>

- - （c）配置：mapred-env.sh
    配置一下JAVA_HOME
- - （d）配置： (对mapred-site.xml.template重新命名为) mapred-site.xml
    mv mapred-site.xml.template mapred-site.xml
    
    之后改mapred-site.xml

<!-- 指定MR运行在YARN上 -->

		mapreduce.framework.name</name>
		yarn</value>
</property>

- （2）启动集群
  - （a）启动前必须保证NameNode和DataNode已经启动
  - （b）启动ResourceManager
    sbin/yarn-daemon.sh start resourcemanager
  - （c）启动NodeManager
    sbin/yarn-daemon.sh start nodemanager
  - （3）集群操作
    - （a）YARN的命令行查看，如图所示
    - （a）YARN的浏览器页面查看，如图所示
      浏览器页面查看.
      进入后点Nodes
    - （b）删除文件系统上的output文件
      之前的启动HDFS最后删过，可以再执行试试
      hdfs dfs -rm -R /user/liuyongjun/output
      
      已经删除了
    - （c）执行MapReduce程序
      hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/liuyongjun/input /user/liuyongjun/output
    - （d）查看运行结果，如图所示
      hdfs dfs -cat /user/liuyongjun/output/*
伪分布式也没啥用，大体了解即可
开发重点是完全分布式运行模式

3.3完全分布式运行模式（开发重点）

分析：
1）准备3台客户机（关闭防火墙、静态ip、主机名称）
2）安装JDK
3）配置环境变量
4）安装Hadoop
5）配置环境变量
6）配置集群
7）单点启动
8）配置ssh
9）群起并测试集群

3.3.1 虚拟机准备

这个看前面的章节，简要说明就是克隆虚拟机，然后改ip地址和主机名，用远程工具连接成功即可

3.3.2 编写集群分发脚本xsync

1.scp（secure copy）安全拷贝
- （1）scp定义：
  scp可以实现服务器与服务器之间的数据拷贝。（from server1 to server2）
- （2）基本语法
- （3）案例实操
  （a）将hadoop101中/opt/module目录下的软件拷贝到hadoop102上

scp -r hadoop101:/opt/module/hadoop-2.7.2 hadoop102:/opt/module

- 注意：拷贝过来的/opt/module目录，别忘了在hadoop102、hadoop103、hadoop104上修改所有文件的，所有者和所有者组。sudo chown liuyongjun:liuyongjun -R /opt/module
  - （b）将hadoop101中/etc/profile文件拷贝到hadoop102的/etc/profile上
  - scp -r hadoop101:/etc/profile hadoop102:/etc/profile
  - 以上操作其他虚拟机也一样操作
注意：拷贝过来的配置文件别忘了source一下/etc/profile
2.rsync 远程同步工具
rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。
rsync和scp区别：用rsync做文件的复制要比scp的速度快，rsync只对差异文件做更新。scp是把所有文件都复制过去。
同时注意，scp只是复制了文件的内容，文件的权限、时间戳等都没复制，而rsync是将所有的都复制了
- （1）基本语法
  rsync -av /要拷贝得文件路径/名称目的用户：/目的路径/名称
  或者
  rsync -av 原用户：/要拷贝得文件路径/名称 /目的路径/名称
  也就是只能有一个远程用户操作
  a:归档拷贝 (权限、时间戳等所有的都拷过来)
  v：显示复制过程
- （2）案例实操
  把hadoop101机器上的/opt/module拷贝到hadoop102服务器的相同位置

在hadoop102下执行

rsync -av hadoop101：/opt/module/hadoop-2.7.2 /opt/module

在hadoop101下执行

rsync -av /opt/module/hadoop-2.7.2 hadoop102：/opt/module

3.xsync集群分发脚本
- （1）需求：循环复制文件到所有节点的相同目录下
- （2）需求分析：
  - （a）rsync命令原始拷贝：
    rsync -av /opt/module root@hadoop103:/opt/
  - （b）期望脚本：
    xsync要同步的文件名称
    - （c）说明：在/home/liuyongjun/bin这个目录下存放的脚本，liuyongjun用户可以在系统任何地方直接执行。
- （3）脚本实现
- （a）在/home/liuyongjun目录下创建bin目录，并在bin目录下xsync创建文件，文件内容如下：
  
  在该文件中编写如下代码


#!/bin/bash
#1 获取输入参数个数，如果没有参数，直接退出
pcount=$#
if((pcount==0)); then
echo no args;
exit;
fi

#2 获取文件名称
p1=$1
fname=`basename $p1`
echo fname=$fname

#3 获取上级目录到绝对路径
pdir=`cd -P $(dirname $p1); pwd`
echo pdir=$pdir

#4 获取当前用户名称
user=`whoami`

#5 循环 
for((host=102; host<105; host++)); do
        echo ------------------- hadoop$host --------------
        rsync -av $pdir/$fname $user@hadoop$host:$pdir
done

- （b）修改脚本 xsync 具有执行权限
  [liuyongjun@hadoop102 bin]$ chmod 777 xsync
  （c）调用脚本形式：xsync 文件名称
  xsync /home/liuyongjun/bin
  注意，这的意思是将bin目录下的文件拷到相同位置
  
  
  
  拷贝成功
快速分发hadoop和java
- 1.将hadoop和jdk发到其他虚拟机
  - xsync /opt/module/hadoop-2.7.2
  - xsync jdk1.8.0_144
  - xsync 直接加文件也行
- 2.拷贝配置文件/etc/profile
  - 注意此配置文件的所有者是root用户
  - 需要加sudo 起到临时拥有root用户权限
  - su root
  - 然后xsync /etc/profile
  - 别忘记source /etc/profile
- 3.查看一下java和hadoop版本
  - hadoop version
    
    成功
  - java -version
    
    发现显示openjdk，原来是之前的openjdk未删除，
    利用如下语句删除：（root用户有权限）
    rpm -e --nodeps java-1.8.0-openjdk-headless-1.8.0.242.b08-1.el7.x86_64
    rpm -e --nodeps java-1.8.0-openjdk-1.8.0.242.b08-1.el7.x86_64
    在查看java -version
    
    成功

3.3.3 集群配置

1.集群部署规划

	hadoop102	hadoop103	hadoop104
HDFS	NameNode DataNode	DataNode	SecondaryNameNode DataNode
YARN	NodeManager	ResourceManager NodeManager	NodeManager

对于HDFS集群来说，主机是hadoop102（NameNode在），从机是102,103,104
对于yarn集群来说，主机是hadoop103（ResourceManager在），从机是102,103,104
注：真正集群规划是六台机器，
分别规划：
hadoop101：NameNode
hadoop102：SecondaryNameNode
hadoop103：ResourceManager
hadoop104：DataNode NodeManager
hadoop105：DataNode NodeManager
hadoop106：DataNode NodeManager
但是为甚么用三台呢，学习阶段穷呗，内存12g，16g，只能启动四台机器，家里有矿的32g的可以尝试六台
2.配置集群（注：这些配置文件都在/opt/module/hadoop-2.7.2/etc/hadoop下）
- （1）核心配置文件
  - 配置core-site.xml
  - 在该文件中编写如下配置

<!-- 指定HDFS中NameNode的地址 -->

		fs.defaultFS</name>
      hdfs://hadoop102:9000</value>
</property>

<!-- 指定Hadoop运行时产生文件的存储目录 -->

		hadoop.tmp.dir</name>
		/opt/module/hadoop-2.7.2/data/tmp</value>
</property>

- （2）HDFS配置文件
  - 配置hadoop-env.sh
    - 加入export JAVA_HOME=/opt/module/jdk1.8.0_144
  - 配置hdfs-site.xml
  - 在该文件中编写如下配置

<!-- 指定HDFS副本数量 -->

		dfs.replication</name>
		3</value>
</property>

<!-- 指定Hadoop辅助名称节点主机配置 -->

      dfs.namenode.secondary.http-address</name>
      hadoop104:50090</value>
</property>

- （3）YARN配置文件
  - 配置yarn-env.sh
    - export JAVA_HOME=/opt/module/jdk1.8.0_144
  - 配置yarn-site.xml
  - 在该文件中增加如下配置

<!-- Reducer获取数据的方式 -->

		yarn.nodemanager.aux-services</name>
		mapreduce_shuffle</value>
</property>

<!-- 指定YARN的ResourceManager的地址 -->

		yarn.resourcemanager.hostname</name>
		hadoop103</value>
</property>

- （4）MapReduce配置文件
  - 配置mapred-env.sh
    - export JAVA_HOME=/opt/module/jdk1.8.0_144
  - 配置mapred-site.xml

cp mapred-site.xml.template mapred-site.xml

- - 在mapred-site.xml文件中增加如下配置

<!-- 指定MR运行在Yarn上 -->

		mapreduce.framework.name</name>
		yarn</value>
</property>

注意上面的配置，只配了namenode、secondarynamenode、resourcemanager
从机一台也没配，手动启动集群，从机是不需要配置的.
3．在集群上分发配置好的Hadoop配置文件
- xsync /opt/module/hadoop-2.7.2/etc
4．查看文件分发情况
cat /opt/module/hadoop-2.7.2/etc/hadoop/core-site.xml
成功配置

3.3.4 集群单点启动

（1）如果集群是第一次启动，需要在hadoop102上格式化（不小心再次格式化，解决办法见上面伪分布式）NameNode
- hdfs namenode -format
（2）在hadoop102上启动NameNode
- hadoop-daemon.sh start namenode
- 然后jps查看一下
（3）在hadoop104上启动secondarynamenode
（4）在hadoop102、hadoop103以及hadoop104上分别启动DataNode
- hadoop-daemon.sh start datanode
- 然后jps查看一下
（5）思考：每次都一个一个节点启动，如果节点数增加到1000个怎么办？
所以必然有群启动

3.3.5 SSH无密登录配置

SSH 为 Secure Shell 的缩写，由 IETF 的网络工作小组(Network Working Group)所制定;SSH 为建立在应用层和传输层基础上的安全协议。SSH 是目前较可靠，专为远程登录会话和其他网络服务提供安全性的协议。利用 SSH 协议可以有效防止远程管理过程中的信息泄露问题。SSH最初是UNIX系统上的一个程序，后来又迅速扩展到其他操作平台。SSH在正确使用时可弥补网络中的漏洞。SSH客户端适用于多种平台。几乎所有UNIX平台-包括HP-UX、Linux、AIX、Solaris、Digital UNIX、Irix，以及其他平台，都可运行SSH。
以非对称加密实现身份验证，加密和解密用的是不同的秘钥
RSA加密算法就是非对称加密算法
ssh远程登录主机原理：
- 首先向远程主机发送一个登陆请求，主机返回一个秘钥，用来加密数据流，把密码通过秘钥加密发给主机，主机通过另外配对的秘钥把数据解密，进行认证信息比对，合适即登陆，这就是ssh远程登陆流程，注意首次登陆中途有一个输入yes指令。
1.配置ssh
- （1）基本语法
  ssh另一台电脑的ip地址
- （2）ssh连接时出现Host key verification failed的解决方法
- （3）解决方案如下：直接输入yes
2.无密钥配置
（1）免密登录原理，如图所示

（2）生成公钥和私钥：
ssh-keygen -t rsa
然后敲（三个回车），就会生成两个文件id_rsa（私钥）、id_rsa.pub（公钥）

（3）将公钥拷贝到要免密登录的目标机器上


此文件存放公钥
此时在hadoop102上只需要输入ssh hadoop103就无密登陆hadoop103，注意连接是单向的，只能102 远程登陆103，但是可以再在103上设置远程登陆102，这样实现双通
我们可以看到三台机器互通，配置起来很麻烦，我们可以用一种高效率的方法，只是此方法安全性低，如果服务器之间距离较远，需要外网连接，尽量不要用，如今是学习阶段，可以学习配置一下，了解有这个方法:
- 先删掉hadoop102ssh下的authorized_keys文件，这样102就没有存储的公钥，我们接着利用命令ssh-copy-id hadoop102，这样可以无密登陆自己，之后利用命令 xsync .ssh将.ssh文件发给所有虚拟机，这样各机器都用此文件了，公钥一致了，可以互相无密登陆了
3. $.$ ssh文件夹下（~/.ssh）的文件功能解释

known_hosts	记录ssh访问过计算机的公钥(public key)
id_rsa	生成的私钥
id_rsa.pub	生成的公钥
authorized_keys	存放授权过得无密登录服务器公钥

3.3.6 群起集群

1.配置slaves（从机，小弟们）
- /opt/module/hadoop-2.7.2/etc/hadoop/slaves
- 在该文件中增加如下内容：
  hadoop102
  hadoop103
  hadoop104
  注意：该文件中添加的内容结尾不允许有空格，文件中不允许有空行。
  同步所有节点配置文件 xsync slaves
2.启动集群(首先要免密)
- （1）如果集群是第一次启动，需要格式化NameNode（注意格式化之前，一定要先停止上次启动的所有namenode和datanode进程，然后再删除data和log数据）
  hdfs namenode -format.
- （2）在hadoop102（对于hdfs来说102是主机）上启动HDFS
- start-dfs.sh
- （3）在hadoop103（对于YARN来说103是主机）上启动YARN
- start-yarn.sh
- 注意：NameNode和ResourceManger如果不是同一台机器，不能在NameNode上启动 YARN，应该在ResouceManager所在的机器上启动YARN。

3.3.7 配置历史服务器和日志的聚集

为了查看程序的历史运行情况，需要配置一下历史服务器。具体配置步骤如下：
1.配置mapred-site.xml
在该文件里面增加如下配置

<!-- 历史服务器端地址 -->

mapreduce.jobhistory.address</name>
hadoop104:10020</value>
</property>
<!-- 历史服务器web端地址 -->

    mapreduce.jobhistory.webapp.address</name>
    hadoop104:19888</value>
</property>

日志聚集概念：应用运行完成以后，将程序运行日志信息上传到HDFS系统上。
日志聚集功能好处：可以方便的查看到程序运行详情，方便开发调试。
注意：开启日志聚集功能，需要重新启动NodeManager 、ResourceManager和HistoryManager。
开启日志聚集功能具体步骤如下：
1.配置yarn-site.xml
在该文件里面增加如下配置

<!-- 日志聚集功能使能 -->

yarn.log-aggregation-enable</name>
true</value>
</property>

<!-- 日志保留时间设置7天 -->

yarn.log-aggregation.retain-seconds</name>
604800</value>
</property>

注配置完都要同步一下
测试看看
在104上启动历史服务器
- mr-jobhistory-daemon.sh start historyserver

3.3.8 集群启动/停止方式总结

1.各个服务组件逐一启动/停止
（1）分别启动/停止HDFS组件
hadoop-daemon.sh start / stop namenode / datanode / secondarynamenode
（2）启动/停止YARN
yarn-daemon.sh start / stop resourcemanager / nodemanager
2.各个模块分开启动/停止（配置ssh是前提）常用
（1）整体启动/停止HDFS
start-dfs.sh / stop-dfs.sh
（2）整体启动/停止YARN
start-yarn.sh / stop-yarn.sh

3.3.9 集群时间同步

时间同步的方式：找一个机器，作为时间服务器，所有的机器与这台集群时间进行定时的同步，比如，每隔十分钟，同步一次时间。
配置时间同步具体实操：
1.时间服务器配置（必须root用户）
- （1）检查ntp是否安装
  rpm -qa|grep ntp
  
  没有安装，先用命令yum -y install ntp安装，三台都安
  
  注意开始配置之前查看你的ntp服务是否启动
  systemctl status ntpd
  
  三台要全部停掉
- （2）修改ntp配置文件
  vim /etc/ntp.conf
  修改内容如下
  - a）修改1（授权192.168.199.0-192.168.199.255网段上的所有机器可以从这台机器上查询和同步时间）
    #restrict 192.168.1.0 mask 255.255.255.0 nomodify notrap为
    restrict 192.168.1.0 mask 255.255.255.0 nomodify notrap
  - b）修改2（集群在局域网中，不使用其他互联网上的时间）
    server 0.centos.pool.ntp.org iburst
    server 1.centos.pool.ntp.org iburst
    server 2.centos.pool.ntp.org iburst
    server 3.centos.pool.ntp.org iburst为
    #server 0.centos.pool.ntp.org iburst
    #server 1.centos.pool.ntp.org iburst
    #server 2.centos.pool.ntp.org iburst
    #server 3.centos.pool.ntp.org iburst
  - c）添加3（当该节点丢失网络连接，依然可以采用本地时间作为时间服务器为集群中的其他节点提供时间同步）
    server 127.127.1.0
    fudge 127.127.1.0 stratum 10
- （3）修改/etc/sysconfig/ntpd 文件
  增加内容如下（让硬件时间与系统时间一起同步）
  SYNC_HWCLOCK=yes
- （4）重新启动ntpd服务
  systemctl start ntpd
- （5）设置ntpd服务开机启动
  systemctl enable ntpd
2.其他机器配置（必须root用户）
- （1）在其他机器配置10分钟与时间服务器同步一次
  crontab -e
  编写定时任务如下：
  */10 * * * * /usr/sbin/ntpdate hadoop102
  上面语句的意思是每隔十分钟去102获取时间
- （2）修改任意机器时间
  date -s “2017-9-11 11:11:11”
- （3）十分钟后查看机器是否与时间服务器同步
  date
  说明：测试的时候可以将10分钟调整为1分钟，节省时间。

你可能感兴趣的:(Bigdata,#,Hadoop,hadoop)

Hive 事务表(ACID)问题梳理
文章目录问题描述分析原因什么是事务表概念事务表和普通内部表的区别相关配置事务表的适用场景注意事项设计原理与实现文件管理格式参考博客问题描述工作中需要使用pyspark读取Hive中的数据，但是发现可以获取metastore，外部表的数据可以读取，内部表数据有些表报错信息是：AnalysisException:org.apache.hadoop.hive.ql.metadata.HiveExcept
Docker快速构建Hive测试环境静谧星光 docker hive 容器编程
Docker是一种流行的容器化平台，可以帮助我们快速构建和管理应用程序的环境。在本文中，我们将学习如何使用Docker快速构建Hive测试环境。Hive是一个基于Hadoop的数据仓库基础设施，它提供了一种类似于SQL的查询语言，用于分析和处理大规模数据集。步骤1：安装Docker和DockerCompose首先，我们需要安装Docker和DockerCompose。您可以根据您的操作系统类型，从
HDFS 伪分布模式搭建与使用全攻略（适合初学者 & 开发测试环境） huihui450 hdfs hadoop 大数据
HDFS（HadoopDistributedFileSystem）作为Hadoop生态系统的核心组件，广泛应用于海量数据的分布式存储场景。对于开发者而言，伪分布模式提供了一种低成本、高还原度的学习与测试方式。本文将详细介绍如何在本地搭建并使用HDFS的伪分布模式，包括环境准备、配置过程、常用命令及常见问题排查，帮助你快速入门Hadoop分布式文件系统的实践操作。一、什么是伪分布模式？Hadoop有
【量化系统实战】深入解析：大规模数据管理与分布式计算，打造你的量化“超级工厂” Natsume1710 python github 开发语言算法大数据数据仓库
前言随着量化策略的不断演进，以及对高频数据、另类数据（新闻、社交媒体、卫星图像等）需求的日益增长，许多朋友可能都会遇到一个棘手的问题：当数据量达到TB甚至PB级别，复杂的因子计算和超大规模回测在单机上变得举步维艰，系统效率严重受限。本文将作为量化系统构建系列的进阶篇，聚焦于大规模数据管理（BigDataManagement）和分布式计算（DistributedComputing）。我们将详细阐述如
QueryBook常见问题解答：从查询失败到数据文档管理的完整指南汤力赛Frederica
QueryBook常见问题解答：从查询失败到数据文档管理的完整指南querybookQuerybookisaBigDataQueryingUI,combiningcollocatedtablemetadataandasimplenotebookinterface.项目地址:https://gitcode.com/gh_mirrors/qu/querybook查询执行问题排查当您在QueryBook
QueryBook项目中的查询引擎支持与集成指南倪俊炼
QueryBook项目中的查询引擎支持与集成指南querybookQuerybookisaBigDataQueryingUI,combiningcollocatedtablemetadataandasimplenotebookinterface.项目地址:https://gitcode.com/gh_mirrors/qu/querybook概述QueryBook作为一个数据查询与分析平台，其核心功
YARN container cpu超核如何解决 fzip YARN 超核
在ApacheHadoopYARN中，ContainerCPU超核（即Container使用的CPU资源超过分配量）是一个常见问题，可能导致集群性能下降或不稳定。以下是解决该问题的详细步骤：1.问题诊断1.1确认超核现象查看YARNWebUI：访问http://:8088，检查Container的CPU使用率是否持续超过分配的vCore数。检查NodeManager日志：查看/var/log/ha
Hadoop-Mapreduce入门
Hadoop-Mapreduce入门MapReduce介绍mapreduce设计MapReduce编程规范入门案例WordCountMapReduce介绍MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。知识。Map负责“分”，把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。Redu
Hadoop MapReduce入门且行且安~ 数据分析进阶之路 Linux命令 hadoop MapReduce入门
入门简介计算过程分为两个阶段Map和ReduceMap阶段并行处理输入数据Reduce阶段对Map结果进行汇总针对python语言来说：map函数或者reduce函数来说，输出的数据格式为元组tuple一个简单的MapReduce程序只需要指定map()reduce()input()output()剩下的由框架完成。Linux常见命令：-读取文件（文本文件，在Windows下使用记事本打开的文件）
Hadoop MapReduce 入门
一、Hadoop3.0.4环境准备1.环境要求Java8（Hadoop3.0.4不支持Java11+）单节点或多节点Linux系统（推荐Ubuntu18.04+）至少4GB内存（建议8GB+）50GB以上磁盘空间2.安装Java#安装Java8sudoapt-getinstallopenjdk-8-jdk#验证安装java-version3.下载与安装Hadoop3.0.4#下载Hadoop3.0
管理大数据存储的十大技巧 weixin_34238633 大数据数据库运维
在1990年，每一台应用服务器都倾向拥有直连式系统(DAS)。SAN的构建则是为了更大的规模和更高的效率提供共享的池存储。Hadoop已经逆转了这一趋势回归DAS。每一个Hadoop集群都拥有自身的——虽然是横向扩展型——直连式存储，这有助于Hadoop管理数据本地化，但也放弃了共享存储的规模和效率。如果你拥有多个实例或Hadoop发行版，那么你就将得到多个横向扩展的存储集群。而我们所遇到的最大挑
MapReduce数据处理过程2万字保姆级教程大模型大数据攻城狮 mapreduce 大数据 yarn cdh hadoop 大数据面试 shuffle
目录1.MapReduce的核心思想：分而治之的艺术2.HadoopMapReduce的架构：从宏观到微观3.WordCount实例：从代码到执行的完整旅程4.源码剖析：Job.submit的魔法5.Map任务的执行：从分片到键值对6.Shuffle阶段：MapReduce的幕后英雄7.Reduce任务的执行：从数据聚合到最终输出8.Combiner的魔法：提前聚合的性能利器9.Partition
Hadoop核心组件最全介绍 Cachel wood 大数据开发 hadoop 大数据分布式 spark 数据库计算机网络
文章目录一、Hadoop核心组件1.HDFS(HadoopDistributedFileSystem)2.YARN(YetAnotherResourceNegotiator)3.MapReduce二、数据存储与管理1.HBase2.Hive3.HCatalog4.Phoenix三、数据处理与计算1.Spark2.Flink3.Tez4.Storm5.Presto6.Impala四、资源调度与集群管
数据仓库技术及应用（Hive 产生背景与架构设计，存储模型与数据类型）娟恋无暇数据仓库笔记 hive
1.Hive产生背景传统Hadoop架构存在的一些问题：MapReduce编程必须掌握Java，门槛较高传统数据库开发、DBA、运维人员学习门槛高HDFS上没有Schema的概念，仅仅是一个纯文本文件Hive的产生：为了让用户从一个现有数据基础架构转移到Hadoop上现有数据基础架构大多基于关系型数据库和SQL查询Facebook诞生了Hive2.Hive是什么官网：https://hive.ap
缺少关键的 MapReduce 框架文件
计算圆周率时提醒Hadoop集群缺少关键的MapReduce框架文件mr-framework.tar.gz在http://master:7180/cmf/services/4/status里直接安装再次运行代码：
大数据 ETL 工具 Sqoop 深度解析与实战指南
一、Sqoop核心理论与应用场景1.1设计思想与技术定位Sqoop是Apache旗下的开源数据传输工具，核心设计基于MapReduce分布式计算框架，通过并行化的Map任务实现高效的数据批量迁移。其特点包括：批处理特性：基于MapReduce作业实现导入/导出，适合大规模离线数据迁移，不支持实时数据同步。异构数据源连接：支持关系型数据库（如MySQL、Oracle）与Hadoop生态（HDFS、H
安装Hadoop集群&入门&源码编译只年大数据 Hadoop hadoop 大数据分布式
安装Hadoop集群完全分布式先决条件准备三台机器NameStaticIPDESCbigdata102192.168.1.102DataNode、NodeManager、NameNodebigdata103192.168.1.103DataNode、NodeManager、ResourceManagerbigdata104192.168.1.104DataNode、NodeManager、Seco
Hadoop之HDFS 只年大数据 Hadoop HDFS hadoop hdfs 大数据
Hadoop之HDFSHDFS的Shell操作启动Hadoop集群（方便后续测试）[atguigu@hadoop102~]$sbin/start-dfs.sh[atguigu@hadoop102~]$sbin/start-yarn.sh-help：输出这个命令参数[atguigu@hadoop102~]$hadoopfs-helprm-ls：显示目录信息[atguigu@hadoop102~]$h
安装Python3.12报错：HTTP 429 TOO MANY REQUESTS for url ＜https://mirrors.ustc.edu.cn/anaconda/pkgs/free/li
安装Python3.12报错(base)[xxx@hadoop104python_shell]$condacreate--namepythonThirteenpython=3.12报错如下：Retrievingnotices:…working…ERRORconda.notices.fetch:get_channel_notice_response(63):Requesterrorforchanne
大数据分析技术的学习路径，不是绝对的，仅供参考水云桐程序员学习大数据数据分析学习方法
阶段一：基础筑基（1-3个月）1.编程语言：Python：掌握基础语法、数据结构、流程控制、函数、面向对象编程、常用库（NumPy,Pandas）。SQL：精通SELECT语句（过滤、排序、分组、聚合、连接）、DDL/DML基础。理解关系型数据库概念（表、主键、外键、索引）。MySQL或PostgreSQL是很好的起点。Java/Scala：深入理解Hadoop/Spark等框架会更有优势。初学者
头歌作业-HBase 开发：使用Java操作HBase http_lizi hbase java python
第一关packagestep1;importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.apache.hadoop.hbase.HColumnDescriptor;importorg.apache.h
HDFS中fsimage和edits究竟是什么清平乐的技术博客大数据运维 hdfs hadoop 大数据
fsimage和edits是HadoopHDFS(Hadoop分布式文件系统)中的两个关键组件，用于存储文件系统的元数据，以确保文件系统的持久性和一致性。在理解它们的作用之前，我们先了解一下HDFS的基本工作原理。HDFS采用了一种分布式文件系统的架构，其中数据被划分成块并分布在不同的数据节点上，而元数据(文件和目录的信息)则由单独的组件进行管理。元数据的持久性和一致性非常重要，因为文件系统的正确
spark处理kafka的用户行为数据写入hive 月光一族吖 spark kafka hive
在CentOS上部署Hadoop（Hadoop3.4.1）和Hive（Hive3.1.2）的详细步骤说明。这份指南面向单机安装（伪集群模式），如果需要搭建真正的多节点集群，各节点间的网络互访、SSH免密登录以及配置同步需进一步调整。注意：本指南假设你已拥有root权限或者具有sudo权限，并且系统连接Internet（用于下载安装包）。步骤中的版本号可根据实际需要进行更改。一、环境准备更新系统软件
【Hadoop】Hadoop车辆数据存储 db_hjx_2066 java hadoop
Hadoop车辆数据存储本作业旨在实现将车辆数据按天存储到Hadoop分布式文件系统（HDFS）中，并根据数据文件大小分割成多个文件进行存储。数据格式为JSON。作业要求车辆数据按天存储，每天的数据存储在一个文件夹下。数据文件以JSON格式存储。如果数据文件大于100M，则另起一个文件存储。每天的数据总量不少于300M。实现方法1.代码说明以下是用Java编写的实现代码：1.导入类//导入必要的类
计算机毕业设计之基于Hadoop的公共自行车数据分布式存储与计算
如今，在科学技术飞速发展的情况下，信息化的时代也已因为计算机的出现而来临，信息化也已经影响到了社会上的各个方面。它可以为人们提供许多便利之处，可以大大提高人们的工作效率。随着计算机技术的发展的普及，各个领域也都体会到其强大的数据处理能力，这也成为各行各业不可或缺的工具。所以计算机技术被广泛应用于信息管理系统和数据处理等方面。通过它可以大大减少相关的工作处理步骤，也可以提高信息和数据的安全性。本文对
如何学习才能更好地理解人工智能工程技术专业和其他信息技术专业的关联性？人工智能教学实践 python编程实践人工智能学习人工智能
要深入理解人工智能工程技术专业与其他信息技术专业的关联性，需要跳出单一专业的学习框架，通过“理论筑基-实践串联-跨学科整合”的路径构建系统性认知。以下是分阶段、可落地的学习方法：一、建立“专业关联”的理论认知框架绘制知识关联图谱操作方法：用XMind或Notion绘制思维导图，以AI为中心，辐射关联专业的核心技术节点。例如：AI（机器学习）├─数据支撑：大数据技术（Hadoop/Spark）+数据
HDFS与HBase有什么关系？ lucky_syq hdfs hbase hadoop
1、HDFS文件存储系统和HBase分布式数据库HDFS是Hadoop分布式文件系统。HBase的数据通常存储在HDFS上。HDFS为HBase提供了高可靠性的底层存储支持。Hbase是Hadoopdatabase，即Hadoop数据库。它是一个适合于非结构化数据存储的数据库，HBase基于列的而不是基于行的模式。
大数据基础知识-Hadoop、HBase、Hive一篇搞定原来是猪猪呀 hadoop 大数据分布式
HadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构，其核心设计包括分布式文件系统（HDFS）和MapReduce编程模型；Hadoop是一个开源的分布式计算框架，旨在帮助用户在不了解分布式底层细节的情况下，开发分布式程序。它通过利用集群的力量，提供高速运算和存储能力，特别适合处理超大数据集的应用程序。Hadoop生态圈Hadoop生态圈是一个由多个基于Hadoop开发的相
Hadoop、HDFS、Hive、Hbase区别及联系静心观复大数据 hadoop hdfs hive
Hadoop、HDFS、Hive和HBase是大数据生态系统中的关键组件，它们都是由Apache软件基金会管理的开源项目。下面将深入解析它们之间的区别和联系。HadoopHadoop是一个开源的分布式计算框架，它允许用户在普通硬件上构建可靠、可伸缩的分布式系统。Hadoop通常指的是整个生态系统，包括HadoopCommon（共享库和工具）、HadoopDistributedFileSystem(
Hadoop入门案例WordCount 码喵喵 hadoop mapreduce 大数据
wordcount可以说是hadoop的入门案例，也是基础案例主要体现思想就是mapreduce核心思想原始文件为hadoop.txt，内容如下：hello,javahello,java,linux,hadoophadoop,java,linuxhello,java,linuxlinux,c,javac,php,java在整个文件中单词所出现的次数Hadoop思维：Mapreduce-----》M
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地