沙漠v仙人掌

大数据技术之Hadoop入门（二）

一从Hadoop框架讨论大数据生态
1.1 Hadoop是什么
1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构
2）主要解决，海量数据的存储和海量数据的分析计算问题。
3）广义上来说，HADOOP通常是指一个更广泛的概念——HADOOP生态圈
1.2 Hadoop发展历史
1）Lucene–Doug Cutting开创的开源软件，用java书写代码，实现与Google类似的全文搜索功能，它提供了全文检索引擎的架构，包括完整的查询引擎和索引引擎
2）2001年年底成为apache基金会的一个子项目
3）对于大数量的场景，Lucene面对与Google同样的困难
4）学习和模仿Google解决这些问题的办法：微型版Nutch
5）可以说Google是hadoop的思想之源(Google在大数据方面的三篇论文)
GFS —>HDFS
Map-Reduce —>MR
BigTable —>Hbase
6）2003-2004年，Google公开了部分GFS和Mapreduce思想的细节，以此为基础Doug Cutting等人用了2年业余时间实现了DFS和Mapreduce机制，使Nutch性能飙升
7）2005 年Hadoop 作为 Lucene的子项目 Nutch的一部分正式引入Apache基金会。2006 年 3 月份，Map-Reduce和Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中
8）名字来源于Doug Cutting儿子的玩具大象
9）Hadoop就此诞生并迅速发展，标志这云计算时代来临
1.3 Hadoop三大发行版本
Hadoop 三大发行版本: Apache、Cloudera、Hortonworks
Apache版本最原始（最基础）的版本，对于入门学习最好。
Cloudera在大型互联网企业中用的较多。
Hortonworks文档较好。
1）Cloudera Hadoop
（1）2008年成立的Cloudera是最早将Hadoop商用的公司，为合作伙伴提供Hadoop的商用解决方案，主要是包括支持、咨询服务、培训。
（2）2009年Hadoop的创始人Doug Cutting也加盟Cloudera公司。Cloudera产品主要为CDH，Cloudera Manager，Cloudera Support
（3）CDH是Cloudera的Hadoop发行版，完全开源，比Apache Hadoop在兼容性，安全性，稳定性上有所增强。
（4）Cloudera Manager是集群的软件分发及管理监控平台，可以在几个小时内部署好一个Hadoop集群，并对集群的节点及服务进行实时监控。Cloudera Support即是对Hadoop的技术支持。
（5）Cloudera的标价为每年每个节点4000美元。Cloudera开发并贡献了可实时处理大数据的Impala项目。
2）Hortonworks Hadoop
（1）2011年成立的Hortonworks是雅虎与硅谷风投公司Benchmark Capital合资组建。
（2）公司成立之初就吸纳了大约25名至30名专门研究Hadoop的雅虎工程师，上述工程师均在2005年开始协助雅虎开发Hadoop，贡献了Hadoop80%的代码。
（3）雅虎工程副总裁、雅虎Hadoop开发团队负责人Eric Baldeschwieler出任Hortonworks的首席执行官。
（4）Hortonworks的主打产品是Hortonworks Data Platform（HDP），也同样是100%开源的产品，HDP除常见的项目外还包括了Ambari，一款开源的安装和管理系统。
（5）HCatalog，一个元数据管理系统，HCatalog现已集成到Facebook开源的Hive中。Hortonworks的Stinger开创性的极大的优化了Hive项目。Hortonworks为入门提供了一个非常好的，易于使用的沙盒。
（6）Hortonworks开发了很多增强特性并提交至核心主干，这使得Apache Hadoop能够在包括Window Server和Windows Azure在内的microsoft Windows平台上本地运行。定价以集群为基础，每10个节点每年为12500美元。
1.4 Hadoop的优势
1）高可靠性：因为Hadoop假设计算元素和存储会出现故障，因为它维护多个工作数据副本，在出现故障时可以对失败的节点重新分布处理。
2）高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点。
3）高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度。
4）高容错性：自动保存多份副本数据，并且能够自动将失败的任务重新分配。
1.5 Hadoop组成
1）Hadoop HDFS：一个高可靠、高吞吐量的分布式文件系统。
2）Hadoop MapReduce：一个分布式的离线并行计算框架。
3）Hadoop YARN：作业调度与集群资源管理的框架。
4）Hadoop Common：支持其他模块的工具模块。

1.5.1 HDFS架构概述
1）NameNode（nn）：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等。
2）DataNode(dn)：在本地文件系统存储文件块数据，以及块数据的校验和。
3）Secondary NameNode(2nn)：用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照。
1.5.2 YARN架构概述
1）ResourceManager(rm)：处理客户端请求、启动/监控ApplicationMaster、监控NodeManager、资源分配与调度；
2）NodeManager(nm)：单个节点上的资源管理、处理来自ResourceManager的命令、处理来自ApplicationMaster的命令；
3）ApplicationMaster：数据切分、为应用程序申请资源，并分配给内部任务、任务监控与容错。
4）Container：对任务运行环境的抽象，封装了CPU、内存等多维资源以及环境变量、启动命令等任务运行相关的信息。
1.5.3 MapReduce架构概述
MapReduce将计算过程分为两个阶段：Map和Reduce
1）Map阶段并行处理输入数据
2）Reduce阶段对Map结果进行汇总
1.6 大数据技术生态体系

图中涉及的技术名词解释如下：
1）Sqoop：sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle 等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。
2）Flume：Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。
3）Kafka：Kafka是一种高吞吐量的分布式发布订阅消息系统，有如下特性：
（1）通过O(1)的磁盘数据结构提供消息的持久化，这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。
（2）高吞吐量：即使是非常普通的硬件Kafka也可以支持每秒数百万的消息
（3）支持通过Kafka服务器和消费机集群来分区消息。
（4）支持Hadoop并行数据加载。
4）Storm：Storm为分布式实时计算提供了一组通用原语，可被用于“流处理”之中，实时处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。 Storm也可被用于“连续计算”（continuous computation），对数据流做连续查询，在计算时就将结果以流的形式输出给用户。
5）Spark：Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。
6）Oozie：Oozie是一个管理Hdoop作业（job）的工作流程调度管理系统。Oozie协调作业就是通过时间（频率）和有效数据触发当前的Oozie工作流程。
7）Hbase：HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。
8）Hive：hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。
10）R语言：R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件，它是一个用于统计计算和统计制图的优秀工具。
11）Mahout:
Apache Mahout是个可扩展的机器学习和数据挖掘库，当前Mahout支持主要的4个用例：
推荐挖掘：搜集用户动作并以此给用户推荐可能喜欢的事物。
聚集：收集文件并进行相关文件分组。
分类：从现有的分类文档中学习，寻找文档中的相似特征，并为无标签的文档进行正确的归类。
频繁项集挖掘：将一组项分组，并识别哪些个别项会经常一起出现。
12）ZooKeeper：Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。
1.7 推荐系统框架图

二 Hadoop运行环境搭建
2.1 虚拟机网络模式设置为NAT

最后，重新启动系统。
[root@hadoop101 ~]# sync
[root@hadoop101 ~]# reboot
2.2 克隆虚拟机
1）克隆虚拟机



2）启动虚拟机
2.3 修改为静态ip
1）在终端命令窗口中输入
[root@hadoop101 /]#vim /etc/udev/rules.d/70-persistent-net.rules
进入如下页面，删除eth0该行；将eth1修改为eth0，同时复制物理ip地址

2）修改IP地址
[root@hadoop101 /]#vim /etc/sysconfig/network-scripts/ifcfg-eth0
需要修改的内容有5项：
IPADDR=192.168.1.101
GATEWAY=192.168.1.2
ONBOOT=yes
BOOTPROTO=static
DNS1=192.168.1.2
（1）修改前

（2）修改后

：wq 保存退出
3）执行service network restart

4）如果报错，reboot，重启虚拟机
2.4 修改主机名
1）修改linux的hosts文件
（1）进入Linux系统查看本机的主机名。通过hostname命令查看
[root@hadoop ~]# hostname
hadoop100
（2）如果感觉此主机名不合适，我们可以进行修改。通过编辑/etc/sysconfig/network文件
#vi /etc/sysconfig/network

文件中内容
NETWORKING=yes
NETWORKING_IPV6=no
HOSTNAME= hadoop101
注意：主机名称不要有“_”下划线
（3）打开此文件后，可以看到主机名。修改此主机名为我们想要修改的主机名hadoop101。
（4）保存退出。
（5）打开/etc/hosts
vim /etc/hosts
添加如下内容
192.168.1.100 hadoop100
192.168.1.101 hadoop101
192.168.1.102 hadoop102
192.168.1.103 hadoop103
192.168.1.104 hadoop104
192.168.1.105 hadoop105
192.168.1.106 hadoop106
192.168.1.107 hadoop107
192.168.1.108 hadoop108
192.168.1.109 hadoop109
192.168.1.110 hadoop110
（6）并重启设备，重启后，查看主机名，已经修改成功
2）修改window7的hosts文件
（1）进入C:\Windows\System32\drivers\etc路径
（2）打开hosts文件并添加如下内容
192.168.1.100 hadoop100
192.168.1.101 hadoop101
192.168.1.102 hadoop102
192.168.1.103 hadoop103
192.168.1.104 hadoop104
192.168.1.105 hadoop105
192.168.1.106 hadoop106
192.168.1.107 hadoop107
192.168.1.108 hadoop108
192.168.1.109 hadoop109
192.168.1.110 hadoop110
2.5 关闭防火墙
1）查看防火墙开机启动状态
chkconfig iptables --list
2）关闭防火墙
chkconfig iptables off
2.6 在opt目录下创建文件
1）创建atguigu用户
在root用户里面执行如下操作
[root@hadoop101 opt]# adduser atguigu
[root@hadoop101 opt]# passwd atguigu
更改用户 test 的密码。
新的密码：
无效的密码：它没有包含足够的不同字符
无效的密码：是回文
重新输入新的密码：
passwd：所有的身份验证令牌已经成功更新。
2）设置atguigu用户具有root权限
修改 /etc/sudoers 文件，找到下面一行，在root下面添加一行，如下所示：

Allow root to run any commands anywhere

root ALL=(ALL) ALL
atguigu ALL=(ALL) ALL
修改完毕，现在可以用atguigu帐号登录，然后用命令 su - ，即可获得root权限进行操作。
3）在/opt目录下创建文件夹
（1）在root用户下创建module、software文件夹
mkdir module
mkdir software
（2）修改module、software文件夹的所有者
[root@hadoop101 opt]# chown atguigu module
[root@hadoop101 opt]# chown atguigu software
[root@hadoop101 opt]# ls -al
总用量 24
drwxr-xr-x. 6 root root 4096 4月 24 09:07 .
dr-xr-xr-x. 23 root root 4096 4月 24 08:52 …
drwxr-xr-x. 4 atguigu root 4096 4月 23 16:26 module
drwxr-xr-x. 2 root root 4096 3月 26 2015 rh
drwxr-xr-x. 2 atguigu root 4096 4月 23 16:25 software
2.7 安装jdk
1）卸载现有jdk
（1）查询是否安装java软件：
rpm -qa|grep java
（2）如果安装的版本低于1.7，卸载该jdk：
rpm -e 软件包
2）用filezilla工具将jdk、Hadoop-2.7.2.tar.gz导入到opt目录下面的software文件夹下面

3）在linux系统下的opt目录中查看软件包是否导入成功。
[root@hadoop101opt]# cd software/
[root@hadoop101software]# ls
jdk-7u79-linux-x64.gz hadoop-2.7.2.tar.gz
4）解压jdk到/opt/module目录下
tar -zxf jdk-7u79-linux-x64.gz -C /opt/module/
5）配置jdk环境变量
（1）先获取jdk路径：
[root@hadoop101 jdk1.7.0_79]# pwd
/opt/module/jdk1.7.0_79
（2）打开/etc/profile文件：
[root@hadoop101 jdk1.7.0_79]# vi /etc/profile
在profie文件末尾添加jdk路径：
##JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.7.0_79
export PATH= $P A T H :$ JAVA_HOME/bin
（3）保存后退出：
:wq
（4）让修改后的文件生效：
[root@hadoop101 jdk1.7.0_79]# source /etc/profile
（5）重启（如果java –version可以用就不用重启）：
[root@hadoop101 jdk1.7.0_79]# sync
[root@hadoop101 jdk1.7.0_79]# reboot
6）测试jdk安装成功
[root@hadoop101 jdk1.7.0_79]# java -version
java version “1.7.0_79”
2.8 安装Hadoop
1）进入到Hadoop安装包路径下：
[root@hadoop101 ~]# cd /opt/software/
2）解压安装文件到/opt/module下面
[root@hadoop101 software]# tar -zxf hadoop-2.7.2.tar.gz -C /opt/module/
3）查看是否解压成功
[root@hadoop101 software]# ls /opt/module/
hadoop-2.7.2
4）配置hadoop中的hadoop-env.sh
（1）Linux系统中获取jdk的安装路径：
[root@hadoop101 jdk1.7.0_79]# echo $KaTeX parse error: Expected 'EOF', got '#' at position 176: \dots1 hadoop-2.7.2]#̲ pwd /opt/modul\dots$ PATH: $HADOOP_HOME/bin export PATH=$ PATH: $KaTeX parse error: Expected 'EOF', got '#' at position 79: \dots1 hadoop-2.7.2]#̲ source /etc/pr\dots$ mkdir input
2）将hadoop的xml配置文件复制到input
[atguigu@hadoop101 hadoop-2.7.2] $c p e t c / h a d o o p / * . x m l i n p u t 3 ）执行 s h a r e 目录下的 m a p r e d u c e 程序 [a t g u i g u @ h a d o o p 101 h a d o o p - 2.7.2]$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output ‘dfs[a-z.]+’
4）查看输出结果
[atguigu@hadoop101 hadoop-2.7.2]$ cat output/*
3.1.2 官方wordcount案例
1）创建在hadoop-2.7.2文件下面创建一个wcinput文件夹
[atguigu@hadoop101 hadoop-2.7.2] $m k d i r w c i n p u t 2 ）在 w c i n p u t 文件下创建一个 w c . i n p u t 文件 [a t g u i g u @ h a d o o p 101 h a d o o p - 2.7.2]$ cd wcinput
[atguigu@hadoop101 wcinput] $t o u c h w c . i n p u t 3 ）编辑 w c . i n p u t 文件 [a t g u i g u @ h a d o o p 101 w c i n p u t]$ vim wc.input
在文件中输入如下内容
hadoop yarn
hadoop mapreduce
atguigu
atguigu
保存退出：：wq
4）回到hadoop目录/opt/module/hadoop-2.7.2
5）执行程序：
[atguigu@hadoop101 hadoop-2.7.2]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput wcoutput
6）查看结果：
[atguigu@hadoop101 hadoop-2.7.2]$cat wcoutput/part-r-00000
atguigu 2
hadoop 2
mapreduce 1
yarn 1
3.2 伪分布式运行Hadoop 案例
3.2.1 HDFS上运行MapReduce 程序
1）分析：
（1）准备1台客户机
（2）安装jdk
（3）配置环境变量
（4）安装hadoop
（5）配置环境变量
（6）配置集群
（7）启动、测试集群增、删、查
（8）在HDFS上执行wordcount案例
2）执行步骤
需要配置hadoop文件如下
（1）配置集群
（a）配置：hadoop-env.sh
Linux系统中获取jdk的安装路径：
[root@ hadoop101 ~]# echo $JAVA_HOME
/opt/module/jdk1.7.0_79
修改JAVA_HOME 路径：
export JAVA_HOME=/opt/module/jdk1.7.0_79
（b）配置：core-site.xml

fs.defaultFS hdfs://hadoop101:9000 hadoop.tmp.dir /opt/module/hadoop-2.7.2/data/tmp （c）配置：hdfs-site.xml dfs.replication 1 （2）启动集群（a）格式化namenode（第一次启动时格式化，以后就不要总格式化） bin/hdfs namenode -format （b）启动namenode sbin/hadoop-daemon.sh start namenode （c）启动datanode sbin/hadoop-daemon.sh start datanode （3）查看集群（a）查看是否启动成功 [root@hadoop101 ~]# jps 13586 NameNode 13668 DataNode 13786 Jps （b）查看产生的log日志当前目录：/opt/module/hadoop-2.7.2/logs [root@hadoop101 logs]# ls hadoop-root-datanode-hadoop.atguigu.com.log hadoop-root-datanode-hadoop.atguigu.com.out hadoop-root-namenode-hadoop.atguigu.com.log hadoop-root-namenode-hadoop.atguigu.com.out SecurityAuth-root.audit [root@hadoop101 logs]# cat hadoop-root-datanode-hadoop.atguigu.com.log （c）web端查看HDFS文件系统 http://192.168.1.101:50070/dfshealth.html#tab-overview 注意：如果不能查看，看如下帖子处理 http://www.cnblogs.com/zlslch/p/6604189.html （4）操作集群（a）在hdfs文件系统上创建一个input文件夹 [atguigu@hadoop101 hadoop-2.7.2]$ bin/hdfs dfs -mkdir -p /user/atguigu/mapreduce/wordcount/input （b）将测试文件内容上传到文件系统上 bin/hdfs dfs -put wcinput/wc.input /user/atguigu/mapreduce/wordcount/input/ （c）查看上传的文件是否正确 bin/hdfs dfs -ls /user/atguigu/mapreduce/wordcount/input/ bin/hdfs dfs -cat /user/atguigu/mapreduce/wordcount/input/wc.input （d）在Hdfs上运行mapreduce程序 bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/atguigu/mapreduce/wordcount/input/ /user/atguigu/mapreduce/wordcount/output （e）查看输出结果命令行查看： bin/hdfs dfs -cat /user/atguigu/mapreduce/wordcount/output/* 浏览器查看

	（f）将测试文件内容下载到本地

hadoop fs -get /user/atguigu/mapreduce/wordcount/output/part-r-00000 ./wcoutput/
（g）删除输出结果
hdfs dfs -rmr /user/atguigu/mapreduce/wordcount/output
3.2.2 YARN上运行MapReduce 程序
1）分析：
（1）准备1台客户机
（2）安装jdk
（3）配置环境变量
（4）安装hadoop
（5）配置环境变量
（6）配置集群yarn上运行
（7）启动、测试集群增、删、查
（8）在yarn上执行wordcount案例
2）执行步骤
（1）配置集群
（a）配置yarn-env.sh
配置一下JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.7.0_79
（b）配置yarn-site.xml

	（c）配置：mapred-env.sh
配置一下JAVA_HOME

export JAVA_HOME=/opt/module/jdk1.7.0_79
（d）配置： (对mapred-site.xml.template重新命名为) mapred-site.xml

（2）启动集群
（a）启动resourcemanager
sbin/yarn-daemon.sh start resourcemanager
（b）启动nodemanager
sbin/yarn-daemon.sh start nodemanager
（3）集群操作
（a）yarn的浏览器页面查看
http://192.168.1.101:8088/cluster

（b）删除文件系统上的output文件
bin/hdfs dfs -rm -R /user/atguigu/mapreduce/wordcount/output
（c）执行mapreduce程序
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/atguigu/mapreduce/wordcount/input /user/atguigu/mapreduce/wordcount/output
（d）查看运行结果
bin/hdfs dfs -cat /user/atguigu/mapreduce/wordcount/output/*

3.2.3 修改本地临时文件存储目录
1）停止进程
[atguigu@hadoop101 hadoop-2.7.2]$ sbin/yarn-daemon.sh stop nodemanager
[atguigu@hadoop101 hadoop-2.7.2]$ sbin/yarn-daemon.sh stop resourcemanager
[atguigu@hadoop101 hadoop-2.7.2]$ sbin/hadoop-daemon.sh stop datanode
[atguigu@hadoop101 hadoop-2.7.2]$ sbin/hadoop-daemon.sh stop namenode
2）修改hadoop.tmp.dir
[core-site.xml]

hadoop.tmp.dir
/opt/module/hadoop-2.7.2/data/tmp

3）格式化NameNode
[atguigu@hadoop101 hadoop-2.7.2]$ hadoop namenode -format
4）启动所有进程
[atguigu@hadoop101 hadoop-2.7.2]$ sbin/hadoop-daemon.sh start namenode
[atguigu@hadoop101 hadoop-2.7.2]$ sbin/hadoop-daemon.sh start datanode
[atguigu@hadoop101 hadoop-2.7.2]$ sbin/yarn-daemon.sh start resourcemanager
[atguigu@hadoop101 hadoop-2.7.2]$ sbin/yarn-daemon.sh start nodemanager
5）查看/opt/module/hadoop-2.7.2/data/tmp这个目录下的内容。
3.2.4 Hadoop配置文件说明
Hadoop配置文件分两类：默认配置文件和自定义配置文件，只有用户想修改某一默认配置值时，才需要修改自定义配置文件，更改相应属性值。
（1）默认配置文件：存放在hadoop相应的jar包中
[core-default.xml]
hadoop-common-2.7.2.jar/ core-default.xml
[hdfs-default.xml]
hadoop-hdfs-2.7.2.jar/ hdfs-default.xml
[yarn-default.xml]
hadoop-yarn-common-2.7.2.jar/ yarn-default.xml
[core-default.xml]
hadoop-mapreduce-client-core-2.7.2.jar/ core-default.xml
（2）自定义配置文件：存放在$HADOOP_HOME/etc/hadoop
core-site.xml
hdfs-site.xml
yarn-site.xml
mapred-site.xml
3.2.5 历史服务配置启动查看
1）配置mapred-site.xml

mapreduce.jobhistory.address
hadoop101:10020

mapreduce.jobhistory.webapp.address
hadoop101:19888

2）查看启动历史服务器文件目录：
[root@hadoop101 hadoop-2.7.2]# ls sbin/ |grep mr
mr-jobhistory-daemon.sh
3）启动历史服务器
sbin/mr-jobhistory-daemon.sh start historyserver
4）查看历史服务器是否启动
jps
5）查看jobhistory
http://192.168.1.101:19888/jobhistory
3.2.6 日志的聚集
日志聚集概念：应用运行完成以后，将日志信息上传到HDFS系统上
开启日志聚集功能步骤：
（1）配置yarn-site.xml

yarn.log-aggregation-enable true yarn.log-aggregation.retain-seconds 604800 （2）关闭nodemanager 、resourcemanager和historymanager sbin/yarn-daemon.sh stop resourcemanager sbin/yarn-daemon.sh stop nodemanager sbin/mr-jobhistory-daemon.sh stop historyserver （3）启动nodemanager 、resourcemanager和historymanager sbin/yarn-daemon.sh start resourcemanager sbin/yarn-daemon.sh start nodemanager sbin/mr-jobhistory-daemon.sh start historyserver （4）删除hdfs上已经存在的hdfs文件 bin/hdfs dfs -rm -R /user/atguigu/mapreduce/wordcount/output （5）执行wordcount程序 hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /user/atguigu/mapreduce/wordcount/input /user/atguigu/mapreduce/wordcount/output （6）查看日志 http://192.168.1.101:19888/jobhistory ![在这里插入图片描述](https://img-blog.csdnimg.cn/20190422103022573.png) ![在这里插入图片描述](https://img-blog.csdnimg.cn/20190422103031528.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMxODE5NjY=,size_16,color_FFFFFF,t_70) ![在这里插入图片描述](https://img-blog.csdnimg.cn/2019042210304117.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMxODE5NjY=,size_16,color_FFFFFF,t_70) 3.3 完全分布式部署Hadoop 分析： 1）准备3台客户机（关闭防火墙、静态ip、主机名称） 2）安装jdk 3）配置环境变量 4）安装hadoop 5）配置环境变量 6）安装ssh 7）配置集群 8）启动测试集群 3.3.1 虚拟机准备详见2.2-2.3章。 3.3.2 主机名设置详见2.4章。 3.3.3 scp 1）scp可以实现服务器与服务器之间的数据拷贝。 2）案例实操（1）将hadoop101中/opt/module和/opt/software文件拷贝到hadoop102、hadoop103和hadoop104上。 [root@hadoop101 /]# scp -r /opt/module/ root@hadoop102:/opt [root@hadoop101 /]# scp -r /opt/software/ root@hadoop102:/opt [root@hadoop101 /]# scp -r /opt/module/ root@hadoop103:/opt [root@hadoop101 /]# scp -r /opt/software/ root@hadoop103:/opt [root@hadoop101 /]# scp -r /opt/module/ root@hadoop104:/opt [root@hadoop101 /]# scp -r /opt/software/ root@hadoop105:/opt （2）将192.168.1.102服务器上的文件拷贝到当前用户下。 [root@hadoop101 opt]# scp root@hadoop102:/etc/profile /opt/tmp/ （3）实现两台远程机器之间的文件传输（hadoop103主机文件拷贝到hadoop104主机上） [atguigu@hadoop102 test]$ scp atguigu@hadoop103:/opt/test/haha atguigu@hadoop104:/opt/test/ 3.3.4 SSH无密码登录 1）配置ssh （1）基本语法 ssh 另一台电脑的ip地址（2）ssh连接时出现Host key verification failed的解决方法 [root@hadoop2 opt]# ssh 192.168.1.103 The authenticity of host '192.168.1.103 (192.168.1.103)' can't be established. RSA key fingerprint is cf:1e:de:d7:d0:4c:2d:98:60:b4:fd:ae:b1:2d:ad:06. Are you sure you want to continue connecting (yes/no)? Host key verification failed. （3）解决方案如下：直接输入yes 2）无密钥配置（1）进入到我的home目录 cd ~/.ssh （2）生成公钥和私钥： ssh-keygen -t rsa 然后敲（三个回车），就会生成两个文件id_rsa（私钥）、id_rsa.pub（公钥）（3）将公钥拷贝到要免密登录的目标机器上 ssh-copy-id 192.168.1.102 ![在这里插入图片描述](https://img-blog.csdnimg.cn/20190422103126514.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMxODE5NjY=,size_16,color_FFFFFF,t_70) 3）.ssh文件夹下的文件功能解释（1）~/.ssh/known_hosts ：记录ssh访问过计算机的公钥(public key) （2）id_rsa ：生成的私钥（3）id_rsa.pub ：生成的公钥（4）authorized_keys ：存放授权过得无秘登录服务器公钥 3.3.5 rsync rsync远程同步工具，主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。（1）查看rsync使用说明 man rsync | more （2）基本语法 rsync -rvl $pdir/$fname $user@hadoop$host:$pdir 命令命令参数要拷贝的文件路径/名称目的用户@主机:目的路径选项 -r 递归 -v 显示复制过程 -l 拷贝符号连接（3）案例实操把本机/opt/tmp目录同步到hadoop103服务器的root用户下的/opt/tmp目录 rsync -rvl /opt/tmp/* root@hadoop103:/op t/tmp 3.3.6 编写集群分发脚本xsync 1）需求分析：循环复制文件到所有节点的相同目录下。（1）原始拷贝： rsync -rvl /opt/module root@hadoop103:/opt/ （2）期望脚本： xsync 要同步的文件名称（3）在/usr/local/bin这个目录下存放的脚本，可以在系统任何地方直接执行，需要制定路径。 2）案例实操：（1）在/usr/local/bin目录下创建xsync文件，文件内容如下： #!/bin/bash #1 获取输入参数个数，如果没有参数，直接退出 pcount=$# if((pcount==0)); then echo no args; exit; fi

#2 获取文件名称
p1=$1
fname=basename $p1
echo fname=$fname

#3 获取上级目录到绝对路径
pdir=cd -P $(dirname $p1); pwd
echo pdir=$pdir

#4 获取当前用户名称
user=whoami

#5 循环
for((host=103; host<105; host++)); do
#echo $p d i r /$ fname $u s e r @ h a d o o p$ host: $p d i r e c h o - - - - - - - - - - - - - - - h a d o o p$ host ----------------
rsync -rvl $p d i r /$ fname $u s e r @ h a d o o p$ host: $KaTeX parse error: Expected 'EOF', got '#' at position 55: \dots@hadoop102 bin]#̲ chmod a+x xsyn\dots$ #
if((pcount==0));then
echo no args;
exit;
fi

echo -------------localhost----------
$@ f o r ((h o s t = 101; h o s t < = 108; h o s t + +)); d o e c h o - - - - - - - - - - h a d o o p$ host---------
ssh hadoop$host $@
done
（2）修改脚本 xcall 具有执行权限
[root@hadoop102 bin]# chmod a+x xcall
（3）调用脚本形式： xcall 操作命令
[root@hadoop102 ~]# xcall rm -rf /opt/tmp/profile
3.3.8 配置集群
1）集群部署规划
Hadoop102 hadoop103 hadoop104
HDFS
NameNode
DataNode
DataNode SecondaryNameNode
DataNode
YARN
NodeManager ResourceManager
NodeManager
NodeManager
2）配置文件
（1）core-site.xml


	fs.defaultFS
    hdfs://hadoop102:9000



	hadoop.tmp.dir
	/opt/module/hadoop-2.7.2/data/tmp

（2）Hdfs
	hadoop-env.sh

export JAVA_HOME=/opt/module/jdk1.7.0_79
hdfs-site.xml

dfs.replication
3

dfs.namenode.secondary.http-address
hadoop104:50090

slaves
hadoop102
hadoop103
hadoop104
（3）yarn
yarn-env.sh
export JAVA_HOME=/opt/module/jdk1.7.0_79
yarn-site.xml


    yarn.nodemanager.aux-services
    mapreduce_shuffle


	yarn.resourcemanager.hostname
	hadoop103


（4）mapreduce
	mapred-env.sh

export JAVA_HOME=/opt/module/jdk1.7.0_79
mapred-site.xml


	mapreduce.framework.name
	yarn

3）在集群上分发以上所有文件
cd /opt/module/hadoop-2.7.2/etc/hadoop
xsync /opt/module/hadoop-2.7.2/etc/hadoop/core-site.xml
xsync /opt/module/hadoop-2.7.2/etc/hadoop/yarn-site.xml
xsync /opt/module/hadoop-2.7.2/etc/hadoop/slaves
4）查看文件分发情况
xcall cat /opt/module/hadoop-2.7.2/etc/hadoop/slaves
3.3.9 集群启动及测试
1）启动集群
（0）如果集群是第一次启动，需要格式化namenode
[root@hadoop102 hadoop-2.7.2]# bin/hdfs namenode -format
（1）启动HDFS：
[root@hadoop102 hadoop-2.7.2]# sbin/start-dfs.sh
[root@hadoop102 hadoop-2.7.2]# jps
4166 NameNode
4482 Jps
4263 DataNode

[root@hadoop103 桌面]# jps
3218 DataNode
3288 Jps

[root@hadoop104 桌面]# jps
3221 DataNode
3283 SecondaryNameNode
3364 Jps
（2）启动yarn
sbin/start-yarn.sh
注意：Namenode和ResourceManger如果不是同一台机器，不能在NameNode上启动 yarn，应该在ResouceManager所在的机器上启动yarn。
2）集群基本测试
（1）上传文件到集群
上传小文件
bin/hdfs dfs -mkdir -p /user/atguigu/tmp/conf
bin/hdfs dfs -put etc/hadoop/*-site.xml /user/atguigu/tmp/conf
上传大文件
[atguigu@hadoop102 hadoop-2.7.2]$ bin/hadoop fs -put /opt/software/hadoop-2.7.2.tar.gz /user/atguigu/input
（2）上传文件后查看文件存放在什么位置
文件存储路径
[atguigu@hadoop102 subdir0]$ pwd
/opt/module/hadoop-2.7.2/data/tmp/dfs/data/current/BP-938951106-192.168.10.107-1495462844069/current/finalized/subdir0/subdir0
查看文件内容
[atguigu@hadoop102 subdir0]$ cat blk_1073741825
hadoop
atguigu
atguigu
（3）拼接
-rw-rw-r–. 1 atguigu atguigu 134217728 5月 23 16:01 blk_1073741836
-rw-rw-r–. 1 atguigu atguigu 1048583 5月 23 16:01 blk_1073741836_1012.meta
-rw-rw-r–. 1 atguigu atguigu 63439959 5月 23 16:01 blk_1073741837
-rw-rw-r–. 1 atguigu atguigu 495635 5月 23 16:01 blk_1073741837_1013.meta
[atguigu@hadoop102 subdir0]$ cat blk_1073741836>>tmp.file
[atguigu@hadoop102 subdir0]$ cat blk_1073741837>>tmp.file
[atguigu@hadoop102 subdir0]$ tar -zxvf tmp.file
（4）下载
[atguigu@hadoop102 hadoop-2.7.2]$ bin/hadoop fs -get /user/atguigu/input/hadoop-2.7.2.tar.gz
3）性能测试集群
写海量数据
读海量数据
3.3.10 Hadoop启动停止方式
1）各个服务组件逐一启动
（1）分别启动hdfs组件
hadoop-daemon.sh start|stop namenode|datanode|secondarynamenode
（2）启动yarn
yarn-daemon.sh start|stop resourcemanager|nodemanager
2）各个模块分开启动（配置ssh是前提）常用
（1）整体启动/停止hdfs
start-dfs.sh
stop-dfs.sh
（2）整体启动/停止yarn
start-yarn.sh
stop-yarn.sh
3）全部启动（不建议使用）
start-all.sh
stop-all.sh
3.3.11 集群时间同步
时间同步的方式：找一个机器，作为时间服务器，所有的机器与这台集群时间进行定时的同步，比如，每日十分钟，同步一次时间。
配置时间同步：
1）时间服务器配置
（1）检查ntp是否安装
[root@hadoop102 桌面]# rpm -qa|grep ntp
ntp-4.2.6p5-10.el6.centos.x86_64
fontpackages-filesystem-1.41-1.1.el6.noarch
ntpdate-4.2.6p5-10.el6.centos.x86_64
（2）修改ntp配置文件
vi /etc/ntp.conf
修改内容如下
a）修改1
#restrict 192.168.1.0 mask 255.255.255.0 nomodify notrap为
restrict 192.168.1.0 mask 255.255.255.0 nomodify notrap
b）修改2
server 0.centos.pool.ntp.org iburst
server 1.centos.pool.ntp.org iburst
server 2.centos.pool.ntp.org iburst
server 3.centos.pool.ntp.org iburst为
#server 0.centos.pool.ntp.org iburst
#server 1.centos.pool.ntp.org iburst
#server 2.centos.pool.ntp.org iburst
#server 3.centos.pool.ntp.org iburst
c）添加3
server 127.127.1.0
fudge 127.127.1.0 stratum 10
3）修改/etc/sysconfig/ntpd 文件
vim /etc/sysconfig/ntpd
增加内容如下
SYNC_HWCLOCK=yes
4）重新启动ntpd
[root@hadoop102 桌面]# service ntpd status
ntpd 已停
[root@hadoop102 桌面]# service ntpd start
正在启动 ntpd： [确定]
5）执行：
chkconfig ntpd on
2）其他机器配置（必须root用户）
（1）在其他机器配置10分钟与时间服务器同步一次
[root@hadoop103 hadoop-2.7.2]# crontab -e
编写脚本
*/10 * * * * /usr/sbin/ntpdate hadoop102
（2）修改任意机器时间
date -s “2015-9-11”
（3）十分钟后查看机器是否与时间服务器同步
date
3.3.12 配置集群常见问题
1）防火墙没关闭、或者没有启动yarn
INFO client.RMProxy: Connecting to ResourceManager at hadoop108/192.168.10.108:8032
2）主机名称配置错误
3）ip地址配置错误
4）ssh没有配置好
5）root用户和atguigu两个用户启动集群不统一
6）配置文件修改不细心
7）未编译源码
Unable to load native-hadoop library for your platform… using builtin-java classes where applicable
17/05/22 15:38:58 INFO client.RMProxy: Connecting to ResourceManager at hadoop108/192.168.10.108:8032
8）datanode不被namenode识别问题
Namenode在format初始化的时候会形成两个标识，blockPoolId和clusterId。新的datanode加入时，会获取这两个标识作为自己工作目录中的标识。
一旦namenode重新format后，namenode的身份标识已变，而datanode如果依然持有原来的id，就不会被namenode识别。
解决办法，删除datanode节点中的数据后，再次重新格式化namenode。
9）不识别主机名称
java.net.UnknownHostException: hadoop102: hadoop102
at java.net.InetAddress.getLocalHost(InetAddress.java:1475)
at org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:146)
at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1290)
at org.apache.hadoop.mapreduce.Job $KaTeX parse error: Expected 'EOF', got '#' at position 677: \dotst@hadoop101 桌面]#̲ vi /etc/syscon\dots$ PATH: $KaTeX parse error: Expected 'EOF', got '#' at position 40: \dotsop101 software]#̲source /etc/pro\dots$ PATH: $KaTeX parse error: Expected 'EOF', got '#' at position 41: \dotsop101 software]#̲source /etc/pro\dots$ PATH:$ANT_HOME/bin
[root@hadoop101 software]#source /etc/profile
验证命令：ant -version
4）安装 glibc-headers 和 g++ 命令如下:
[root@hadoop101 apache-ant-1.9.9]# yum install glibc-headers
[root@hadoop101 apache-ant-1.9.9]# yum install gcc-c++
5）安装make和cmake
[root@hadoop101 apache-ant-1.9.9]# yum install make
[root@hadoop101 apache-ant-1.9.9]# yum install cmake
6）解压protobuf ，进入到解压后protobuf主目录，/opt/module/protobuf-2.5.0
然后相继执行命令：
[root@hadoop101 software]# tar -zxvf protobuf-2.5.0.tar.gz -C /opt/module/
[root@hadoop101 opt]# cd /opt/module/protobuf-2.5.0/

[root@hadoop101 protobuf-2.5.0]#./configure
[root@hadoop101 protobuf-2.5.0]# make
[root@hadoop101 protobuf-2.5.0]# make check
[root@hadoop101 protobuf-2.5.0]# make install
[root@hadoop101 protobuf-2.5.0]# ldconfig

[root@hadoop101 hadoop-dist]# vi /etc/profile
#LD_LIBRARY_PATH
export LD_LIBRARY_PATH=/opt/module/protobuf-2.5.0
export PATH= $P A T H :$ LD_LIBRARY_PATH
[root@hadoop101 software]#source /etc/profile
验证命令：protoc --version
7）安装openssl库
[root@hadoop101 software]#yum install openssl-devel
8）安装 ncurses-devel库：
[root@hadoop101 software]#yum install ncurses-devel
到此，编译工具安装基本完成。
4.3 编译源码
1）解压源码到/opt/tools目录
[root@hadoop101 software]# tar -zxvf hadoop-2.7.2-src.tar.gz -C /opt/
2）进入到hadoop源码主目录
[root@hadoop101 hadoop-2.7.2-src]# pwd
/opt/hadoop-2.7.2-src
3）通过maven执行编译命令
[root@hadoop101 hadoop-2.7.2-src]#mvn package -Pdist,native -DskipTests -Dtar
等待时间30分钟左右，最终成功是全部SUCCESS。

4）成功的64位hadoop包在/opt/hadoop-2.7.2-src/hadoop-dist/target下。
[root@hadoop101 target]# pwd
/opt/hadoop-2.7.2-src/hadoop-dist/target
4.4 常见的问题及解决方案
1）MAVEN install时候JVM内存溢出
处理方式：在环境配置文件和maven的执行文件均可调整MAVEN_OPT的heap大小。（详情查阅MAVEN 编译 JVM调优问题，如：http://outofmemory.cn/code-snippet/12652/maven-outofmemoryerror-method）
2）编译期间maven报错。可能网络阻塞问题导致依赖库下载不完整导致，多次执行命令（一次通过比较难）：
[root@hadoop101 hadoop-2.7.2-src]#mvn package -Pdist,native -DskipTests -Dtar
3）报ant、protobuf等错误，插件下载未完整或者插件版本问题，最开始链接有较多特殊情况，同时推荐

你可能感兴趣的:(大数据技术)

物联网导论复习材料物腐虫生物联网学习
简答题Q1：物联网的概述，特点，模型，应用，重点是应用层，云计算，数据集成。物联网的概述物联网（IoT，InternetofThings）是指通过各种传感器、设备和网络技术，将物理世界中的物体连接到互联网，实现数据的采集、传输、处理和应用的智能化系统。物联网的特点全面感知：通过传感器实时采集数据。可靠传输：通过互联网和无线网络传输数据。智能处理：利用云计算和大数据技术对数据进行分析和处理，实现智能
GBase 数据库在大数据环境下的应用与优势 big crab 数据库大数据
引言随着大数据技术的发展，传统数据库面临着越来越多的挑战。尤其是在处理海量数据时，如何在保证高性能的同时，确保系统的可扩展性、容错性和高可用性，成为许多企业关心的问题。GBase数据库系列，特别是GBase8a、GBase8s和GBase8c，提供了一种新型的解决方案，它们能够在大数据环境下提供卓越的性能和可靠性。本文将深入探讨GBase数据库在大数据环境中的应用及其优势。一、GBase数据库系列
Hadoop 与 Spark：大数据处理的比较王子良. 大数据经验分享 hadoop spark 大数据
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
南京大学苏州校区学生代表团到访合合信息，开启“沉浸式”人工智能企业行人工智能图像识别程序员
为进一步深化校企合作，探索产业科技拔尖创新人才培养新模式，近期，南京大学苏州校区师生代表到访上海合合信息科技股份有限公司（以下简称“合合信息”，股票代码：SH688615）。此次活动设置了展厅讲解、技术交流、模拟面试等多个体验环节，旨在增强学生对人工智能及商业大数据技术在实际应用中的理解和认识，引导学生系统性开展职业规划，提升职业胜任力。图说：南京大学苏州校区学生代表团到访合合信息合影留念合合信息
Spark GraphX原理与代码实例讲解 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
SparkGraphX原理与代码实例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着互联网和大数据技术的迅猛发展，社交网络、推荐系统、生物信息学、图分析等领域对图计算的需求日益增长。传统的图处理技术如GraphLab、Neo4j等，虽然功能强大，但往往存在扩展性差、易用性低、计算效率不足等问题。为了解决这些问题，A
分布式系统理论基础二-CAP 王知无(import_bigdata)
GitHub：https://github.com/wangzhiwubigdata/God-Of-BigData关注公众号,内推,面试,资源下载,关注更多大数据技术~大数据成神之路~预计更新500+篇文章，已经更新50+篇~引言CAP是分布式系统、特别是分布式存储领域中被讨论最多的理论，“什么是CAP定理？”在Quora分布式系统分类下排名FAQ的No.1。CAP在程序员中也有较广的普及，它不仅
Hadoop 和 Spark 的内存管理机制分析王子良. 经验分享 hadoop spark 大数据
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
数仓建模（五）选择数仓技术栈：Hive & ClickHouse & 其它昊昊该干饭了数仓建模大数据 hive clickhouse hadoop
在大数据技术的飞速发展下，数据仓库（DataWarehouse，简称数仓）成为企业处理和分析海量数据的核心工具。市场上主流数仓技术栈丰富，如Hive、ClickHouse、Druid、Greenplum等，对于初学者而言，选择合适的技术栈是一项挑战。本文将详细解析Hive、ClickHouse及其他数仓技术，帮助读者根据场景需求选择最佳工具。目录一、数据仓库的基础概念和技术选型原则1.1什么是数据
使用 Hadoop 实现大数据的高效存储与查询王子良. 经验分享大数据 hadoop 分布式
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
Python 爬虫：获取网页数据的 5 种方法王子良. 经验分享 python python 开发语言爬虫
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
星环科技×恒生电子，联合打造反洗钱解决方案人工智能
随着反洗钱行为更具隐蔽性、多样性和跨区域性，金融机构的反洗钱能力也相应面临新一轮升级。将大数据技术应用于反洗钱领域，可借助大数据平台高效整合、分析海量客户身份信息和交易数据，保障反洗钱系统有效开展客户风险等级评定、可疑交易筛查、黑名单监测等工作，为反洗钱工作赋能。近日，星环科技与恒生电子联合发布反洗钱解决方案，系统覆盖金融机构全业务全客户全流程，满足客户尽调、大额可疑交易检测、名单筛查、自评估等各
“大数据+技校”：VR虚拟仿真实训室的发展前景武汉唯众智创大数据 vr 大数据实训室大数据实验室大数据VR实训室
在技术教育的新时代，大数据与虚拟现实技术的融合正在重塑技校的教学模式。"大数据+技校"模式下的VR虚拟仿真实训室，为技校学生提供了一个创新的学习平台，预示着教育方式的深刻变革。一、大数据与技校教育的深度融合大数据技术的应用为技校教育带来了前所未有的机遇。通过收集和分析学生的学习数据、行为数据以及就业数据等，技校能够更准确地了解学生的学习情况、技能掌握程度和就业需求，从而为学生提供更加个性化的学习方
Spring Boot 和微服务：快速入门指南王子良. Java 经验分享 spring boot 微服务后端
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
内部知识库的未来展望：技术融合与用户体验的双重升级
在当今数字化飞速发展的时代，企业内部知识库作为知识管理的关键载体，正站在变革的十字路口，即将迎来技术融合与用户体验双重升级的崭新时代，这一系列变化将深度重塑企业知识管理的格局。一、技术融合：开启知识管理新篇（一）大数据+内部知识库：知识挖掘的深度拓展大数据技术的蓬勃发展为内部知识库注入了强大动力。企业积累的海量业务数据、员工行为数据等，犹如一座未经深度开采的金矿。未来，借助大数据分析工具，内部知识
初学者如何用 Python 写第一个爬虫？王子良. python 经验分享 python 开发语言爬虫
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
大数据技术实训：Zookeeper集群配置东风无力百花残_ 大数据技术大数据 zookeeper 分布式
一、本地模式安装部署1）安装前准备（1）安装jdk（2）拷贝Zookeeper安装包到Linux系统下（3）解压到指定目录tar-zxvfzookeeper-3.5.7.tar.gz-C/opt/module/2）配置修改（1）将/opt/module/zookeeper-3.5.7/conf这个路径下的zoo_sample.cfg修改为zoo.cfg；$mvzoo_sample.cfgzoo.c
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
使用python实现微信小程序自动签到光头哥不光头 python
学校：重庆财经职业学院学院：应用技术学院专业班级：大数据技术与应用05班名字：吴雨璇指导老师：张彤老师一：使用python实现微信小程序自动签到意义1.首先对于咱们的APP有很大的作用,那就是当用户点击签到以后,平台就有那么多用户在使用,签到的人越多,产品的活跃度就越高。2.还有一点就是大家应该能够想到,那就是用户点击签到是在首页,有些点开就需要进行签到,点击较多,对于产品销售是非常重要的。3.微
starrocks和clickhouse数据库比较 CodeMaster_37714848 clickhouse 数据库
Starrocks和ClickHouse都是用于数据分析的数据库，但它们的设计理念和用途有所不同。下面是这两者的一些主要比较点：1.基础架构与设计目标Starrocks:Starrocks是一个专注于实时数据分析的平台，常用于大数据处理和商业智能应用。它设计用于高效处理大规模数据集，并且支持复杂查询和数据处理。支持多种数据源的集成，并且可以与其他大数据技术（如Hadoop、Spark）协同工作。C
大数据技术之Hadoop（一） pauls
Hadoop概述1.1Hadoop是什么Hadoop是什么1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构。2）主要解决，海量数据的存储和海量数据的分析计算问题。3）广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈。Hadoop生态1.2Hadoop发展历史（了解）Hadoop发展历史1）Hadoop创始人DougCutting，为了实现与Google类似
Hive 的 SerDe 是什么？ Shockang 大数据技术体系大数据 hive
前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文hive的SerDe是什么SerDe是Serializer/Deserializer的简写。hive使用SerDe进行行对象的序列与反序列化。最后实现把文件内容映射到hive表中的字段数据类型。为了更好的阐
【大数据Big DATA】大数据解决方案，提供完整的大数据采集，大数据存储，大数据处理，具体业务应用解决方案 _晓夏_ JAVA大数据大数据解决方案大数据BIG DATA 大数据采集大数据存储大数据处理大数据分析
大数据解决方案是指利用大数据技术，结合企业实际业务需求，为企业提供数据采集、存储、处理、分析和报告等一站式服务，以帮助企业更好地利用大数据提高运营效率、优化决策制定。以下是一些常见的大数据解决方案：一、数据采集数据采集是大数据解决方案的起点，涉及从各种数据源中抓取和收集数据。常见的大数据采集工具包括Flume、Scribd等，这些工具可以帮助企业快速、高效地采集各类数据。二、数据存储大数据存储解决
Spark一些个人总结易逑实战数据大数据 spark big data scala
文章目录前言一、Spark是什么二、Spark用来做什么三、Spark的优势是什么四、为什么用Spark五、Spark解决了什么问题总结前言随着大数据技术的发展，一些更加优秀的组件被提了出来，比如现在最常用的Spark组件，基于RDD原理在大数据处理中占据了越来越重要的作用。在此我们探索了Spark的原理，以及其在大数据开发中的重要作用。一、Spark是什么Spark是一个用来实现快速，通用的集群
系统架构师考试学习笔记第三篇——架构设计高级知识（13）未来信息综合技术 SheldonK 软件架构师学习分享学习笔记
本课时考点：第13课时主要学习信息物理系统技术、人工智能技术、机器人技术、边缘计算、数字孪生体技术以及云计算和大数据技术等内容。根据考试大纲，本课时知识点会涉及单项选择题（约占3~5分）和下午案例题（25分），论文也会有覆盖。本课时知识架构如图13.1所示。一、信息物理系统技术概述1.信息物理系统的概念信息物理系统（Cyber-PhysicalSystem,CPS),最早由美国国家航空航天局于19
Mac 安装Hadoop教程（HomeBrew安装）追光天使 macos hadoop 大数据
1.引言本教程旨在介绍在Mac电脑上安装Hadoop，便于编程开发人员对大数据技术的熟悉和掌握。2.前提条件2.1安装JDK想要在你的Mac电脑上安装Hadoop，你必须首先安装JDK。具体安装步骤这里就不详细描述了。你可参考Mac安装JDK8。2.2配置ssh环境在Mac下配置ssh环境，防止后面启动hadoop时出现Connectionrefused连接被拒绝的错误。sshlocalhost执
2024年（第7届）“泰迪杯”数据分析技能赛通知泰迪智能科技01 泰迪杯大数据人工智能
由泰迪杯数据分析技能赛组织委员会、广东泰迪智能科技股份有限公司主办，广东省工业与应用数学学会、人民邮电出版社和北京泰迪云智信息技术研究院协办的“泰迪杯”数据分析技能赛（以下简称竞赛）即将开展。竞赛目的在于以赛促学、以赛促教、以赛促改、以赛促创，实现大数据技术技能人才培养的“岗课赛证”融通，深化教学标准与岗位标准、教学过程与生产过程的对接，培养更多升级版的高层次高素质技术技能人才。竞赛时间安排报名起
大数据技术之Flume 企业开发案例——自定义 Interceptor（8）大数据深度洞察 Flume flume 大数据
目录自定义Interceptor1）案例需求2）需求分析3）实现步骤创建一个Maven项目，并引入以下依赖。定义CustomInterceptor类并实现Interceptor接口。编辑flume配置文件分别在hadoop12，hadoop13，hadoop14上启动flume进程，注意先后顺序。在hadoop12使用netcat向localhost:44444发送字母和数字。观察hadoop13
大数据技术之HBase 与 Hive 集成(7) 大数据深度洞察 Hbase 大数据 hbase hive
目录使用场景HBase与Hive集成使用1）案例一2）案例二使用场景如果大量的数据已经存放在HBase上面，并且需要对已经存在的数据进行数据分析处理，那么Phoenix并不适合做特别复杂的SQL处理。此时，可以使用Hive映射HBase的表格，之后通过编写HQL进行分析处理。HBase与Hive集成使用Hive安装https://blog.csdn.net/qq_45115959/article/
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu