鸷鸟之不群

HADOOP集群大数据词频统计及设计比较（完整教程）

###如若发现错误，或代码敲错，望能评论指正！！！

通过百度网盘分享的文件：Hadoop相关需要的软件
链接:https://pan.baidu.com/s/1XzDvyhP4_LQzAM1auQCSrg?pwd=tph5
提取码:tph5

VMware下安装CentOS

一、先安装一个虚拟机

安装好后要右键，找到用管理员的方式打开

也可以设置成每次打开都是以管理员身份运行

二、安装一个CentOS，这里使用的是7版本的

三、打开VMware，创建新的虚拟机

来到这个界面可以等待60秒，也可以按下tab键下一步。

我这里选择英文，各位可以选择中文。

继续添加

设置密码

到这里就安装好啦

四、ping本地与百度的设置

1.重启服务

service network restart

2.修改配置文件

vi /etc/sysconfig/network-scripts/ifcfg-eth0

如果进入的是空表,用cd进入这里，然后用“ll”查看那个带ifcfg的文件，进入编辑

我这里是ifcfg-ens33

cd /etc/sysconfig/network-scripts

ll

如果你这里是$符号请用这个命令，使用超级用户，变成#

DEVICE是指设备名

HWADDR是指网卡地址

ONBOOT是设置系统启动时是否激活网卡

BOOTPROTO的值可以设置为dhcp、none、bootp、static

dhcp 设置网卡绑定的时候通过DHCP协议的方法来获得地址

none 设置网卡绑定的时候不使用任何协议

bootp 设置网卡绑定的时候使用BOOTP协议

static 设置网卡绑定的时候使用静态协议

将该文件的ONBOOT=no改为ONBOOT=yes,将BOOTPROTO=dhcp改为BOOTPROTO=static

添加IP地址IPADDR、子网掩码NETMASK、网关GATEWAY以及DNS1等信息

这是我未修改的样子（不会如何修改的跟保存的请百度）

点击编辑里面的虚拟网络编辑器

要用管理员身份使用软件才能更改设置

当使用管理员身份后这里会有三个，选NAT模式

这里最后一段要选不一样的，最好是3位数

这里两个要一样

修改完保存退出后重启一下服务

service network restart

查看IP

ifconfig

3.ping一下百度跟本地，看一下连接是否通畅

ping www.baidu.com

ping 192.168.235.233

ctel＋c退出ping

4.安装yum源

执行cd /etc/yum.repos.d 进入etc/yum.repos.d目录

cd /etc/yum.repos.d

查看yum.repos.d目录下的文件

CentOS-Base.repo 是网络的

CentOS-Media.repo是本地的

5.执行重命名命令

如果要用网络下载，就改名全部（改名是为了禁用，需要用的话就把名字改回去）

CentOS-Base.repo CentOS-Debuginfo.repo CentOS-fasttrack.repo CentOS-Vault.repo CentOS-Media.repo

mv CentOS-Media.repo CentOS-Media.repo.bak

vi CentOS-Media.repo.bak

将baseurl的值修改为：file:///media/ ,将gpgcheck的值改为0 ，将enabled的值修改为 1

修改前：

修改后

6.挂载

执行以下命令进行挂载

mount /dev/dvd /media   #6.8版本

mount /dev/cdrom /media #7版本

如果没有第一条的话，修改第二条

7.更新yum源。

yum clean all

8.用阿里云安装软件

打开阿里云登录

curl -o /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun.com/repo/Centos-7.repo

wget -O /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun.com/repo/Centos-7.repo

9.安装Java

使用xshell7

使用ctel+alt+f打开共享文件

放到opt目录下

在命令行安装Java

进入opt目录安装

rpm -ivh jdk-7u80-linux-x64.rpm

五.搭建Hadoop完全分布式集群

1.把Hadoop安装包hadoop-xxxxx / 上传到虚拟机master的/opt目录下

然后进入opt目录下输入下面语句，将hadoop安装包解压到虚拟机上

tar -zxf hadoop-xxxx -C /usr/local

Hadoop配置涉及的文件都在/usr/local/hadoop-2.6.4/etc/hadoop/目录下

2.修改core-site.xml文件

vi core-site.xml



fs.defaultFS
  hdfs://master:8020
  

  hadoop.tmp.dir
  /var/log/hadoop/tmp

然后在hadoop目录下创建一个tmp文件夹

mkdir tmp

3.修改hadoop-env.sh

vi hadoop-env.sh

4.修改yarn-env.sh文件

vi yarn-env.sh

5.复制mapred-site.xml.template 并命名为mapred-site.xml并修改

cp mapred-site.xml.template mapred-site.xml

修改mapred-site.xml文件

vi mapred-site.xml



   mapreduce.framework.name
   yarn



   mapreduce.jobhistory.address
   master:10020


   mapreduce.jobhistory.webapp.address
   master:19888

6.修改yarn-site.xml文件

vi yarn-site.xml




   yarn.resourcemanager.hostname
   master
 
 
   yarn.resourcemanager.address
   ${yarn.resourcemanager.hostname}:8032
 
 
   yarn.resourcemanager.scheduler.address
   ${yarn.resourcemanager.hostname}:8030
 
 
   yarn.resourcemanager.webapp.address
   ${yarn.resourcemanager.hostname}:8088
 
 
   yarn.resourcemanager.webapp.https.address
   ${yarn.resourcemanager.hostname}:8090
 
 
   yarn.resourcemanager.resource-tracker.address
   ${yarn.resourcemanager.hostname}:8031
 
 
   yarn.resourcemanager.admin.address
   ${yarn.resourcemanager.hostname}:8033
 
 
   yarn.nodemanager.local-dirs
   /data/hadoop/yarn/local
 
 
   yarn.log-aggregation-enable
   true
 
 
   yarn.nodemanager.remote-app-log-dir
   /data/tmp/logs
 

 yarn.log.server.url
 http://master:19888/jobhistory/logs/
 URL for job history server


   yarn.nodemanager.vmem-check-enabled
   false


  yarn.nodemanager.aux-services
  mapreduce_shuffle


  yarn.nodemanager.aux-services.mapreduce.shuffle.class
  org.apache.hadoop.mapred.ShuffleHandler


  yarn.nodemanager.resource.memory-mb
  2048


  yarn.scheduler.minimum-allocation-mb
  512


  yarn.scheduler.maximum-allocation-mb
  4096


  mapreduce.map.memory.mb
  2048


  mapreduce.reduce.memory.mb
  2048


  yarn.nodmanager.resource.cpu-vcores
  1

7.修改slaves文件

vi slaves

slave1
slave2
slave3

8.修改hdfs-site.xml文件

vi hdfs-site.xml



dfs.namenode.name.dir
file:///data/hadoop/hdfs/name


dfs.datanode.data.dir
file:///data/hadoop/hdfs/data


dfs.namenode.secondary.http-address
master:50090


dfs.replication
3

9.返回最初目录，进入/etc,修改hosts文件

在最后面添加以下代码，主要符合自己的ip跟主机名

192.168.235.233 master master.centos.com
192.168.235.234 slave1 slave1.centos.com
192.168.235.235 slave2 slave2.centos.com
192.168.235.236 slave3 slave3.centos.com

在自己的电脑上hosts也添加

10.修改完后关机，进行克隆。

右击master，管理，克隆

11.打开虚拟机slave1

（1）执行以下命令，删除70-persistent-net.rules

rm -rf /etc/udev/rules.d/70-persistent-net.rules

（2）执行命令：

ifconfig -a

查看HWADDR，记录HWADDR（每个机器的此值是不一样的）

找不到另一种方法（如果是可视化的）

（3）修改/etc/sysconfig/network-scripts/ifcfg-eth0文件，修改HWADDR、IPADDR以及注释掉UUID开头的一行代码，并修改HWADDR的内容为实际的地址

vi /etc/sysconfig/network-scripts/ifcfg-eth0

如果进入的是空表,用cd进入这里，然后用“ll”查看那个带ifcfg的文件，进入编辑

我这里是ifcfg-ens33

cd /etc/sysconfig/network-scripts

ll

如果你这里是$符号请用这个命令，使用超级用户，变成#

图形化界面也可以在这里修改

修改后重启服务：

service network restart

（4）修改主机名，执行命令

6版本的：

vi /etc/sysconfig/network

修改机器名为 slave1.centos.com

7版本的：

vi /etc/hostname

修改为 slave1.centos.com

修改用户名：

（5）使用reboot命令重启虚拟机。

（6）验证slave1是否配置成功。在master下执行ping slave1 如果ping得通，说明配置成功。

注意要master跟slave1两个虚拟机都打开才能互ping

12.重复（1）~（5）的相关步骤，克隆master到slave2、slave3，并修改slave2、slave3的相关配置。

13.配置SSH免密登录

(1)在master虚拟机上使用ssh-keygen产生公钥(id_rsa.pub)与私钥(id_rsa)两个文件

输入以下命令执行后，接着按三次‘Enter’

ssh-keygen -t rsa

ssh-keygen用来生成RSA类型的密钥以及管理该密钥，参数“ -t ”用于指定要创建的SSH密钥类型为RSA

三次回车

1.保存密钥

2.不对私钥设口令

3.确认不设口令

(2)用ssh-copy-id将公钥复制到远程机器中（4个都要）

ssh-copy-id -i /root/.ssh/id_rsa.pub master

(3)验证SSH是否能够无密钥登录

在master下分别输入ssh slave1、ssh slave2、ssh slave3，exit 退出

14.时间同步

（1）在每个节点输入以下代码安装NTP

yum install -y ntp

安装成功

（2）设置master节点为NTP服务主节点，那么配置如下

使用如下命令来打开/etc/ntp.conf文件，注释掉server开头的就行，并添以下内容。

vim /etc/ntp.conf

restrict 192.168.0.0 mask 255.255.255.0 nomodify notrap
server 127.127.1.0
fudge 127.127.1.0 stratum 10

(3)分别在slave1 slave2 slave3 中配置NTP，同样修改/etc/ntp.conf文件，注释掉server开头的，并添加以下内容

server master

(4)执行命令,永久性关闭防火墙，主从节点都要关闭

6版本：

service iptables stop & chkconfig iptables off

7版本：

查看防火墙状态

systemctl status firewalld.service

绿的running表示防火墙开启

执行开机禁用防火墙自启命令：

 systemctl disable firewalld.service

执行后当前状态下还是启动的，需要重启才永久关闭。

重启后查看

注意：主从节点都要关闭

slave1

关机后重启查看slave1：

重复上面步骤把slave2、slave3的防火墙也永久关闭

关于防火墙的其他命令：

执行关闭命令： systemctl stop firewalld.service (开机启动)

再次执行查看防火墙命令：systemctl status firewalld.service

执行开机禁用防火墙自启命令： systemctl disable firewalld.service （开机不启动）

启动：systemctl start firewalld.service

防火墙随系统开启启动： systemctl enable firewalld.service

（5）启动ntp服务

①.在master结点执行命令

service ntpd start & chkconfig ntpd on

查看是否启动成功

systemctl status ntpd

重启后查看

systemctl status ntpd

②.在slave1、slave2、slave3上分别执行下面代码，即可同步时间

ntpdate master

slave1:

slave2:

slave3:

③.在slave1、slave2、slave3上分别执行下面命令，即可永久启动NTP服务。

service ntpd start & chkconfig ntpd on

重启后查看

15.启动关闭集群

做完Hadoop的所有配置后，即可执行格式化NameNode操作，该操作会在NameNode所在机器初始化一些HDFS的相关配置，并且该操作在集群搭建过程中只需执行一次，执行格式化之前可以先配置环境变量。

（1）配置环境变量，在master、slave1、slave2、slave3上修改文件，添加以下内容，保存退出后执行source /etc/profile来使配置生效

export HADOOP_HOME=/usr/local/hadoop-2.6.4
export PATH=$HADOOP_HOME/bin:$PATH:/usr/java/jdk1.7.0_80/bin

master:

slave1:

slave2:

slave3:

格式化只需执行命令 hdfs namenode -format ,若出现 Storage directory /data/hadoop/hdfs/name has been successfully formatted 提示，则格式化成功。

hdfs namenode -format

格式化完成之后即可启动集群，启动集群只需要在master节点直接进入Hadoop安装目录，分别执行以下命令即可。

（2）启动命令集群

进入Hadoop安装目录

cd $HADOOP_HOME

启动HDFS相关服务

sbin/start-dfs.sh

启动YARN相关服务

sbin/start-yarn.sh

启动日志相关服务

sbin/mr-jobhistory-daemon.sh start historyserver

集群启动之后，在主节点master，子节点slave1、slave2、slave3分别执行 jps 命令，出现以下信息，表示集群启动成功。

slave1

slave2

slave3

（3）关闭集群命令

同理，关闭集群只需要在master节点直接进入Hadoop安装目录，分别执行下面命令即可。

进入Hadoop安装目录

cd $HADOOP_HOME

关闭YARN相关服务

sbin/stop-yarn.sh

关闭HDFS相关服务

sbin/stop-dfs.sh

关闭日志相关服务

sbin/mr-jobhistory-deamon.sh stop historyserver

（4）创建一键启动程序

（hadoop自带的一键启动关闭）

在/usr/local/hadoop-2.6.4/sbin 目录下创建一个脚本

vi myfb.sh

里面填写

#!/bin/bash
case $1 in
"start"){
echo "-----------start my hdfs---------------"
$HADOOP_HOME/sbin/start-dfs.sh
echo "-----------my hdfs started-------------"
echo "------------start my yarn--------------"
$HADOOP_HOME/sbin/start-yarn.sh
echo "------------my yarn started-------------"
echo "---------------start history server------------"
$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh start historyserver
echo "---------------my history server started------------"
};;
"stop"){
echo "--------------stop my dfs-----------------"
$HADOOP_HOME/sbin/stop-dfs.sh
echo "--------------my dfs stopped-----------------"
echo "-------------stop yarn---------------"
$HADOOP_HOME/sbin/stop-yarn.sh
echo "-------------my yarn stopped---------------"
echo "-------------------stop history server------------- "
$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh stop historyserver
echo "-------------------my history server stopped------------- "
};;
esac

给权限（给到权限后会变颜色）

一键启动集群

一键关闭集群

16.监控集群

服务                           	Web接口                                    默认端口
NameNode                          http://namenode_host:port/                50070
ResourceManager                   http://resourcemanager_host:port/         8088
MapReduce JobHistory Server       http://jobhistoryserver_host:port/        19888

为了能够顺利在浏览器打开Hadoop集群相关服务的监控界面，需要朽败本地hosts文件。hosts是一个没有扩展名的系统文件，其作用就是将一些常用的网址域名与其对应的IP地址建立一个关联“数据库”，当用户在浏览器中输入一个网址时，系统会首先自动从hosts文件中寻找对应的IP地址。一旦找到，系统会立即打开对应网页。添加下面内容。

192.168.235.233 master master.centos.com
192.168.235.234 slave1 slave1.centos.com
192.168.235.235 slave2 slave2.centos.com
192.168.235.236 slave3 slave3.centos.com

（1）HDFS监控

在浏览器的地址栏输入“http://master:50070”，按回车键即可看到HDFS的监控界面（需要先启动集群）

http://master:50070
#或者192.168.235.233：50070

①Overview记录了NameNode的启动时间、版本号、编译版本等一些信息。

②Summary是集群信息，提供了当前集群环境的一些有用信息，从图中可知所有DataNode节点的基本存储信息，例如硬盘大小以及有多少被HDFS使用等一些数据信息，同时还标注了当前集群环境中DataNode的信息，对活动状态的DataNode也专门做了记录。

③NameNode Storage提供了NameNode的信息，最后的State标示此节点为活动节点，可正常提供服务。

http://master:50070 HDFS监控1

如上图所示，选择Utilities >> Browse the file system 菜单命令可以查看HDFS上的文件信息

在浏览器中访问“http://master:50070/dfshealth.jsp”得到下图所示的页面，

http://master:50070/dfshealth.jsp

单击“Browse the filesystem”超链接可以打开文件存储目录,如下图所示。

“NameNode Logs”为用户提供NameNode节点的log信息，如下图所示。

（2）YARN监控

在浏览器的地址栏输入“http：//master:8088”,即可看到YARN的监控界面，如下图所示。

http://master:8088

（3）日志监控

在浏览器的地址栏输入“http：//master:19888”,即可看到日志的监控界面，如下图所示。

http://master:19888

17HDFS文件处理

可以通过Hadoop dfs –help命令来查看HDFS Shell命令的说明。大部分的HDFS Shell和Linux的shell相似。

一般的shell命令格式为：

bin/hadoop commandgenericOptions

command 是命令

genericOptions 是一般的参数

commandOptions 是命令参数

在hadoop dfs –ls /input 这条命令中，command是dfs，genericOptions对应-ls等参数，commandOptions对应于/input 这个路径参数。

更多相关命令如下：

1.-appendToFile

（1）将本地文件附加到集群本地文件一一定要存在集群上可以没有集群帮用户创建，在/usr/local/hadoop-2.6.4/etc/hadoop路径下编辑一个文件vi bbb.txt 并写下面内容“this is bbb.txt”，然后使用下面命令上传到集群(前提是已启动了集群)。

hdfs dfs -appendToFile /bbb.txt /bbb.txt

（2）将多个本地文件附加到集群文件

最后一个路径是集群文件的路径其他前面的都是本地文件

查看结果

2.-cat

查看刚刚上传到集群的文件

hdfs dfs -cat /bbb.txt

4.-Chmod

修改权限

4.-copyFromLocal

从本地复制一份到集群上

5.-copyFromLocal

从集群复制到本地

6.-get

从集群上获得到本地

7.-cp

复制

8.-count

查看文件数量

9.-df

查看使用空间

10.-du

查看文件长度(显示hdfs对应路径下每个文件夹和文件的大小)

11.-moveFromLocal

从本地移动到集群

12.-rm /-rmdir(删除空文件夹)

删除集群上的文件

13.- tail

显示文件最后1k内容

14.-test -d/-e

查看文件或者目录的反馈(这里能正常执行，说明命令是正确的)

15.-mkdir

创建文件夹

16.-mv

移动文件

17.touchz

创建文件

18.-text

将文本文件或某些格式的非文本文件通过文本格式输出

19.-stat

返回对应路径的状态信息

%b（文件大小），%o（Block大小），%n（文件名），%r（副本个数），%y（最后一次修改日期和时间）

20.-put

将本地文件放到hdfs某个目录

21.-getmerge

把两个文件的内容合并起来(注：合并后的文件位于当前目录，不在hdfs中，是本地文件)

22.-grep

从hdfs上过滤包含某个字符的行内容

六、Hadoop实现MapReduce执行wordcount与使用Eclipse创建MapReduce工程执行wordcount

1.Hadoop实现MapReduce执行wordcount

（1）VMware里面启动集群，在根目录下面创建一个文本，里面填写一些文本

（2）在集群里面创建一个input文件夹

（3）然后把本地的a.txt文本上传到集群上的input文件夹里面

hdfs dfs -put /a.txt /input/a.txt

（4）输入命令进行词频统计

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.4.jar wordcount /input /output

（5）然后就会在集群里面产生一个output文件，里面有两个文本

（6）执行命令查看词频统计结果

hdfs dfs -cat /output/part-r-00000

注意：误删了output里面的文本的话的不能恢复的，可以删掉原来的output文件，重新创建一个，重新进行词频统计即可。

（7）如果想要做另一个文本的词频统计，需要把后面的output改个名字，就是从新统计的意思

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.4.jar wordcount /input /output1

2.使用Eclipse创建MapReduce工程执行wordcount

（1）添加Hadoop插件

找到eclipse的安装路径，然后将插件移动到这个路径下

（2）增加Map/Reduce功能区

打开eclipse进行以下操作

（3）增加Hadoop集群的连接

单击下图所示界面右下方的蓝色小象图标（其右上方右+号），就会弹出连接Hadoop集群的配置窗口。

在VMware的Hadoop集群里输入以下代码，查看hdfs端口号（先启动集群）

hdfs getconf -confKey fs.default.name

配置namenode节点的ip(自己的虚拟机IP)地址及端口。

相关的Hadoop集群的连接信息有以下各项。

Location name:命名新建的Hadoop连接名称，如Hadoop Cluster。

Map/Reduce Master:填写Hadoop集群的ResourceManager的IP和端口。

DFS Master：填写Hadoop集群的NameNode的IP地址和连接端口。

填写完以上信息后，单击“Finish”按钮。

（4）浏览HDFS上的目录及文件

在配置完Hadoop集群连接后，确认Hadoop集群已经启动，就可以在Eclipse界面浏览HDFS上的目录及文件，如下图所示。还可以通过鼠标来执行文件操作，例如文件的上传和删除等。需要注意的事，每次执行操作后，需要刷新HDFS列表，从而获得文件目录的最新状态。

3.新建MapReduce工程

（1）导入MapReduce运行依赖的相关JAR包

在主菜单上单击“Window”并选择“Preferences”,例如下图所示Preference界面中，选择“Hadoop Map/Reduce”，单击“Browse...”按钮，再选中Hadoop的安装文件夹路径（相应版本的Hadoop安装包需要预先解压再本地电脑上）。最后单击“Apply”按钮并单击确定。

（2）创建MapReduce工程

从菜单栏开始，单击“File”菜单，选择“New”命令，在出现的选项中单击“Project”项，再选择“Map/Reduce Project”选项。

在"MapReduce Project"的创建界面中，填写工程名“MemberCount”，然后单击“Finish”按钮。

在主界面左侧的“Project Explorer”栏，可以看到已经创建好的工程MemberCount，Map Reduce编程所需要的JAR包已经全部自动导入。新工程已创建完成，接下来就可以正式进行MapReduce编程工作了。

创建完成MapReduce工程

4.编写wordcount的代码，描述他是怎么工作的。并且上传到集群完成一次完整的Wordcount

（1）创建一个class文件并命名为WordCount

（2）内容代码与解析如下

①应用程序Driver分析

这里的Driver程序主要指的是main函数，在main函数里面进行MapReduce程序的一些初始化设置，并提交任务，等待程序运行完成。总结为MapReduce任务初始化的通用代码。

  public static void main(String[] args) throws Exception {
    Configuration conf = new Configuration();
    String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
    if (otherArgs.length < 2) {
      System.err.println("Usage: wordcount  [...] ");
      System.exit(2);
    }
    Job job = new Job(conf, "word count");
    job.setJarByClass(WordCount.class);
    job.setMapperClass(TokenizerMapper.class);
    job.setCombinerClass(IntSumReducer.class);
    job.setReducerClass(IntSumReducer.class);
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(IntWritable.class);
    for (int i = 0; i < otherArgs.length - 1; ++i) {
      FileInputFormat.addInputPath(job, new Path(otherArgs[i]));
    }
    FileOutputFormat.setOutputPath(job,
      new Path(otherArgs[otherArgs.length - 1]));
    System.exit(job.waitForCompletion(true) ? 0 : 1);
  }

②Mapper模式分析

在MapReduce程序中，最重要的代码实现就是Mapper模块中的map函数以及Reducer模块中的reduce函数。这里先看Mapper，也就是源码中的TokenizerMapper

  public static class TokenizerMapper 
       extends Mapper{
    
    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();
      
    public void map(Object key, Text value, Context context
                    ) throws IOException, InterruptedException {
      StringTokenizer itr = new StringTokenizer(value.toString());
      while (itr.hasMoreTokens()) {
        word.set(itr.nextToken());
        context.write(word, one);
      }
    }
  }

③Reducer模式分析

继续分析Reduce,即源码中的IntSumReducer

public static class IntSumReducer 
       extends Reducer {
    private IntWritable result = new IntWritable();

    public void reduce(Text key, Iterable values, 
                       Context context
                       ) throws IOException, InterruptedException {
      int sum = 0;
      for (IntWritable val : values) {
        sum += val.get();
      }
      result.set(sum);
      context.write(key, result);
    }
  }

这是wordcount的完整代码

/**
 * Licensed to the Apache Software Foundation (ASF) under one
 * or more contributor license agreements.  See the NOTICE file
 * distributed with this work for additional information
 * regarding copyright ownership.  The ASF licenses this file
 * to you under the Apache License, Version 2.0 (the
 * "License"); you may not use this file except in compliance
 * with the License.  You may obtain a copy of the License at
 *
 *     http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */

import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class WordCount {

  public static class TokenizerMapper 
       extends Mapper{
    
    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();
      
    public void map(Object key, Text value, Context context
                    ) throws IOException, InterruptedException {
      StringTokenizer itr = new StringTokenizer(value.toString());
      while (itr.hasMoreTokens()) {
        word.set(itr.nextToken());
        context.write(word, one);
      }
    }
  }
  
  public static class IntSumReducer 
       extends Reducer {
    private IntWritable result = new IntWritable();

    public void reduce(Text key, Iterable values, 
                       Context context
                       ) throws IOException, InterruptedException {
      int sum = 0;
      for (IntWritable val : values) {
        sum += val.get();
      }
      result.set(sum);
      context.write(key, result);
    }
  }

  public static void main(String[] args) throws Exception {
    Configuration conf = new Configuration();
    String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
    if (otherArgs.length < 2) {
      System.err.println("Usage: wordcount  [...] ");
      System.exit(2);
    }
    Job job = new Job(conf, "word count");
    job.setJarByClass(WordCount.class);
    job.setMapperClass(TokenizerMapper.class);
    job.setCombinerClass(IntSumReducer.class);
    job.setReducerClass(IntSumReducer.class);
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(IntWritable.class);
    for (int i = 0; i < otherArgs.length - 1; ++i) {
      FileInputFormat.addInputPath(job, new Path(otherArgs[i]));
    }
    FileOutputFormat.setOutputPath(job,
      new Path(otherArgs[otherArgs.length - 1]));
    System.exit(job.waitForCompletion(true) ? 0 : 1);
  }
}

④以下为待会任务需要修改后的完整代码

注意class名称与包名是否一致

import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class dailyAccessCount {

  public static class MyMapper 
       extends Mapper{
	    
	private final static IntWritable one = new IntWritable(1);    
      
    public void map(Object key, Text value, Context context
                    ) throws IOException, InterruptedException {
    	 String line = value.toString();  
         String array[] = line.split(",");  //指定空格为分隔符，组成数组
         String keyOutput = array[1];       //提取数组中的访问日期做为Key
         context.write(new Text(keyOutput), one); //组成键值对
      }
    }
  
  public static class MyReducer 
       extends Reducer {
    private IntWritable result = new IntWritable();

    public void reduce(Text key, Iterable values, 
                       Context context
                       ) throws IOException, InterruptedException {
      int sum = 0; //定义累加器，初始值为0
      for (IntWritable val : values) {
        sum += val.get(); // 将相同键的所有值进行累加
      }
      result.set(sum);
      context.write(key,result); 
    }
  }
  
  public static void main(String[] args) throws Exception {
    Configuration conf = new Configuration();
    String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
    if (otherArgs.length < 2) {
      System.err.println("Usage: wordcount  [...] ");
      System.exit(2);
    }
    Job job = new Job(conf, "Daily Access Count");
    job.setJarByClass(dailyAccessCount.class);
    job.setMapperClass(MyMapper.class);
    job.setReducerClass(MyReducer.class);
    job.setMapOutputKeyClass(Text.class);
    job.setMapOutputValueClass(IntWritable.class);
    
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(IntWritable.class);
    for (int i = 0; i < otherArgs.length - 1; ++i) {
      FileInputFormat.addInputPath(job, new Path(otherArgs[i]));
    }
    FileOutputFormat.setOutputPath(job,
      new Path(otherArgs[otherArgs.length - 1]));
    System.exit(job.waitForCompletion(true) ? 0 : 1);
  }
}

⑤注意：确保自己电脑上的java版本跟Hadoop上的版本一致，我这里的是jdk-7u80-windows-x64（1.7）

写完代码后，把项目代码调整为1.7版本

⑥编译生成JAR包文件，并提交Hadoop集群执行

上传到Hadoop集群服务器节点

这里我放到这个路径 /usr/local/hadoop-2.6.4

需要做统计的文本也上传到Hadoop，并上传到集群（130万行数据的文本）

在Hadoop集群服务器的终端，以hadoop jar命令提交任务

注意输出的文件名每次不能相同

hadoop jar $HADOOP_HOME/wordcount1.jar /user/root/user_login.txt /user/root/AccessCount

可以看到数据量的达到130万行的量级

做10次

⑦Combiner

Combiner是一个运行在Map端的“迷你Reduce”过程，它只处理单台机器生成的数据。声明的Combiner继承的是Reduce，其方法实现原理和Reduce的实现原理基本相同，不同的是，Combiner操作发生在Map端，或者说Combiner运行在每一个运行Map任务的节点上。它会接收特定节点上的Map输出作为输入，对Map输出的数据先做一次合并，再把结果发送到Reducer。需要注意的是，Combiner的加入不影响原逻辑，即Combiner不影响最终运行结果，影响的只是效率。

值得一提的是，并非所有的MapReduce程序都可以加入Combiner，仅当Reduce输入的键值对类型与Reduce输出的键值对类型一样，并且计算逻辑不影响最终计算结果时，才可以在MapReduce程序中加入Combiner。

前面讲过Combiner继承的是Reducer，所以声明Combiner的时候必须继承Reducer，在Combiner类里面重写Reduce方法。

除了声明Combiner类外，还需要在驱动类里面配置Combiner类

job.setCombinerClass(LogCountCombiner.class);

有时候甚至不必特意声明一个Combiner类。当Combiner和Reduce的实现逻辑相同的时候，可以不用声明Combiner类，而在驱动类里面添加代码

job.setCombinerClass(IntSumReducer.class);

完整代码如下：(注意修改包名和类名是否相同)

package test;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class dailyAccessCount {

  public static class MyMapper 
       extends Mapper{
	    
	private final static IntWritable one = new IntWritable(1);    
      
    public void map(Object key, Text value, Context context
                    ) throws IOException, InterruptedException {
    	 String line = value.toString();  
         String array[] = line.split(",");  //指定空格为分隔符，组成数组
         String keyOutput = array[1];       //提取数组中的访问日期做为Key
         context.write(new Text(keyOutput), one); //组成键值对
      }
    }
  
  public static class MyReducer 
       extends Reducer {
    private IntWritable result = new IntWritable();

    public void reduce(Text key, Iterable values, 
                       Context context
                       ) throws IOException, InterruptedException {
      int sum = 0; //定义累加器，初始值为0
      for (IntWritable val : values) {
        sum += val.get(); // 将相同键的所有值进行累加
      }
      result.set(sum);
      context.write(key,result); 
    }
  }
  
  public static void main(String[] args) throws Exception {
    Configuration conf = new Configuration();
    String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
    if (otherArgs.length < 2) {
      System.err.println("Usage: wordcount  [...] ");
      System.exit(2);
    }
    Job job = new Job(conf, "Daily Access Count");
    job.setJarByClass(dailyAccessCount.class);
    job.setMapperClass(MyMapper.class);
    job.setReducerClass(MyReducer.class);
    job.setMapOutputKeyClass(Text.class);
    job.setMapOutputValueClass(IntWritable.class);
    job.setCombinerClass(MyReducer.class); //Combiner逻辑与Reducer相同时配置Combiner类
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(IntWritable.class);
    for (int i = 0; i < otherArgs.length - 1; ++i) {
      FileInputFormat.addInputPath(job, new Path(otherArgs[i]));
    }
    FileOutputFormat.setOutputPath(job,
      new Path(otherArgs[otherArgs.length - 1]));
    System.exit(job.waitForCompletion(true) ? 0 : 1);
  }
}

或者

/**
 * Licensed to the Apache Software Foundation (ASF) under one
 * or more contributor license agreements.  See the NOTICE file
 * distributed with this work for additional information
 * regarding copyright ownership.  The ASF licenses this file
 * to you under the Apache License, Version 2.0 (the
 * "License"); you may not use this file except in compliance
 * with the License.  You may obtain a copy of the License at
 *
 *     http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */
package org.apache.hadoop.examples;      //包

import java.io.IOException;               //数据的输入与输出
import java.util.StringTokenizer;           //对String字符处理

import org.apache.hadoop.conf.Configuration;     //基础conf
import org.apache.hadoop.fs.Path;              //文件系统
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;              //数据输入输出（IO）
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;     //MapReduce（对数据的拆分，对数据的归类）
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class WordCount {

  public static class TokenizerMapper 
       extends Mapper  /*泛型类*/
{
    
    private final static IntWritable one = new IntWritable(1); //写整型的时候，初值为1
    private Text word = new Text();  //文本对象word
      
    public void map(Object key, Text value, Context context
                    ) throws IOException, InterruptedException {
      StringTokenizer itr = new StringTokenizer(value.toString());

/*字符串分隔，把单词拆出来
Hello	Hadoop	Hello	world

hello 1 hadoop 1 hello 1 world 1
(用空格替换逗号跟句号)或者重写Tokenizer,把逗号句号替换添加进去
*/

      while (itr.hasMoreTokens()) {   //做一个循环判断，是否还有Token（分隔符）
        word.set(itr.nextToken());      //如果有，就再读一个，从当前分隔符读到下一个分//隔符，实际就是读了一个单词
        context.write(word, one);   //输出这个单词
      }
    }
  }
  
  public static class IntSumReducer 
       extends Reducer {
    private IntWritable result = new IntWritable();

    public void reduce(Text key, Iterable values, 
                       Context context
                       ) throws IOException, InterruptedException {
      int sum = 0;
      for (IntWritable val : values) {   
        sum += val.get();
      }
      result.set(sum);
      context.write(key, result);   //输出结果   hello 2 hadoop 1 world 1
    }
  }

  public static void main(String[] args) throws Exception {
    Configuration conf = new Configuration();      //实例化conf(读取命令行的命令，以数组的方式返回路径)
    String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
    if (otherArgs.length < 2) {
      System.err.println("Usage: wordcount  [...] ");
      System.exit(2);
    }      //判断IO的路径，如果只有一个路径，长度是小于2的，你的输出（1）包含两//个（输入和输出IO），防止出现读取的异常。
    Job job = new Job(conf, "word count");  //所有的工作都是用Job来完成的，实例化Job
job.setJarByClass(WordCount.class);    //打jar包 
    job.setMapperClass(TokenizerMapper.class);     //指定Map类型
    job.setCombinerClass(IntSumReducer.class);     //指定Combiner 
    job.setReducerClass(IntSumReducer.class);      //指定Reduce的类型
    job.setOutputKeyClass(Text.class);             //设置最终key的类型
    job.setOutputValueClass(IntWritable.class);     //设置最终value的类型

    for (int i = 0; i < otherArgs.length - 1; ++i) {
      FileInputFormat.addInputPath(job, new Path(otherArgs[i]));
    }
    FileOutputFormat.setOutputPath(job,
      new Path(otherArgs[otherArgs.length - 1]));
    System.exit(job.waitForCompletion(true) ? 0 : 1);
  }     //任务提交
}

同样需要进行打包

设置接口

上传到集群

继续做在Hadoop集群服务器的终端，以hadoop jar命令提交任务（本次添加了Combiner）

注意输出的文件名每次不能相同

做10次

hadoop jar $HADOOP_HOME/wordcount2.jar /user/root/user_login.txt /user/root/AccessCount

这里可以看到所使用的文本跟上面没加Combiner的文本是同一个，所以数据量是130万行

总结：wordcount加了combiner的代码后，运行效率提高了。

代码总结：

/**
 * Licensed to the Apache Software Foundation (ASF) under one
 * or more contributor license agreements.  See the NOTICE file
 * distributed with this work for additional information
 * regarding copyright ownership.  The ASF licenses this file
 * to you under the Apache License, Version 2.0 (the
 * "License"); you may not use this file except in compliance
 * with the License.  You may obtain a copy of the License at
 *
 *     http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */
package org.apache.hadoop.examples;      //包

import java.io.IOException;               //数据的输入与输出
import java.util.StringTokenizer;           //对String字符处理

import org.apache.hadoop.conf.Configuration;     //基础conf
import org.apache.hadoop.fs.Path;              //文件系统
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;              //数据输入输出（IO）
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;     //MapReduce（对数据的拆分，对数据的归类）
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class WordCount {
	
//在MapReduce程序中，最重要的代码实现就是Mapper模块中的map函数以及Reducer模块中的reduce函数。这里先看Mapper，也就是源码中的TokenizerMapper
  public static class TokenizerMapper 
       extends Mapper  /*泛型类*/
{
    
    private final static IntWritable one = new IntWritable(1); //写整型的时候，初值为1
    private Text word = new Text();  //文本对象word
      
    public void map(Object key, Text value, Context context
                    ) throws IOException, InterruptedException {
      StringTokenizer itr = new StringTokenizer(value.toString());

/*字符串分隔，把单词拆出来
Hello	Hadoop	Hello	world

hello 1 hadoop 1 hello 1 world 1
(用空格替换逗号跟句号)或者重写Tokenizer,把逗号句号替换添加进去
*/

      while (itr.hasMoreTokens()) {   //做一个循环判断，是否还有Token（分隔符）
        word.set(itr.nextToken());      //如果有，就再读一个，从当前分隔符读到下一个分//隔符，实际就是读了一个单词
        context.write(word, one);   //输出这个单词
      }
    }
  }
  
 //继续分析Reduce,即源码中的IntSumReducer
  public static class IntSumReducer 
       extends Reducer {
    private IntWritable result = new IntWritable();

    public void reduce(Text key, Iterable values, 
                       Context context
                       ) throws IOException, InterruptedException {
      int sum = 0;
      for (IntWritable val : values) {   
        sum += val.get();
      }
      result.set(sum);
      context.write(key, result);   //输出结果   hello 2 hadoop 1 world 1
    }
  }
  
//这里的Driver程序主要指的是main函数，在main函数里面进行MapReduce程序的一些初始化设置，并提交任务，等待程序运行完成。总结为MapReduce任务初始化的通用代码。
  public static void main(String[] args) throws Exception {
    Configuration conf = new Configuration();      //实例化conf(读取命令行的命令，以数组的方式返回路径)
    String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
    if (otherArgs.length < 2) {
      System.err.println("Usage: wordcount  [...] ");
      System.exit(2);
    }      //判断IO的路径，如果只有一个路径，长度是小于2的，你的输出（1）包含两//个（输入和输出IO），防止出现读取的异常。
    Job job = new Job(conf, "word count");  //所有的工作都是用Job来完成的，实例化Job
job.setJarByClass(WordCount.class);    //打jar包 
    job.setMapperClass(TokenizerMapper.class);     //指定Map类型
    
    //有时候甚至不必特意声明一个Combiner类。当Combiner和Reduce的实现逻辑相同的时候，可以不用声明Combiner类，而在驱动类里面添加代码
    job.setCombinerClass(IntSumReducer.class);     //指定Combiner 
   
    job.setReducerClass(IntSumReducer.class);      //指定Reduce的类型
    job.setOutputKeyClass(Text.class);             //设置最终key的类型
    job.setOutputValueClass(IntWritable.class);     //设置最终value的类型

    for (int i = 0; i < otherArgs.length - 1; ++i) {
      FileInputFormat.addInputPath(job, new Path(otherArgs[i]));
    }
    FileOutputFormat.setOutputPath(job,
      new Path(otherArgs[otherArgs.length - 1]));
    System.exit(job.waitForCompletion(true) ? 0 : 1);
  }     //任务提交
}

/***
 *             ,%%%%%%%%,
 *           ,%%/\%%%%/\%%
 *          ,%%%\c "" J/%%%
 * %.       %%%%/ o  o \%%%
 * `%%.     %%%%    _  |%%%
 *  `%%     `%%%%(__Y__)%%'
 *  //       ;%%%%`\-/%%%'
 * ((       /  `%%%%%%%'
 *  \\    .'          |
 *   \\  /       \  | |
 *    \\/         ) | |
 *     \         /_ | |__
 *     (___________))))))) 攻城湿
 */

你可能感兴趣的:(Hadoop相关,hadoop,网络,linux)

什么是证书吊销列表？CRL 解释 WoTrusSSL ssl https
数字证书是安全在线互动的支柱，用于验证身份和确保加密通信。但是，当这些证书被盗用或滥用时，必须立即撤销它们以维持信任。这就是证书撤销列表(CRL)的作用所在。CRL由证书颁发机构(CA)维护，对于识别和撤销已撤销的证书，防止其造成危害至关重要。在本指南中，我们将探讨什么是CRL、它们如何运作以及为什么它们对网络安全至关重要。什么是证书吊销列表(CRL)？证书吊销列表(CRL)是证书颁发机构(CA)
k8s:安装 Helm 私有仓库ChartMuseum、helm-push插件并上传、安装Zookeeper 云游 docker helm helm-push
ChartMuseum是Kubernetes生态中用于存储、管理和发布HelmCharts的开源系统，主要用于扩展Helm包管理器的功能核心功能‌集中存储‌：提供中央化仓库存储Charts，支持版本管理和权限控制。‌‌跨集群部署‌：支持多集群环境下共享Charts，简化部署流程。‌‌离线部署‌：适配无网络环境，可将Charts存储在本地或局域网内。‌‌HTTP接口‌：通过HTTP协议提供服务，用户
上位机知识篇---SD卡&U盘镜像
常用的镜像烧录软件balenaEtcherbalenaEtcher是一个开源的、跨平台的工具，用于将操作系统镜像文件（如ISO和IMG文件）烧录到SD卡和USB驱动器中。以下是其使用方法、使用场景和使用注意事项的介绍：使用方法下载安装：根据自己的操作系统，从官方网站下载对应的安装包。Windows系统下载.exe文件后双击安装；Linux系统若下载的是.deb文件，可在终端执行“sudodpkg-
Android 开源组件和第三方库汇总 gyyzzr Android Android 开源框架
转载1、github排名https://github.com/trending,github搜索：https://github.com/search2、https://github.com/wasabeef/awesome-android-ui目录UIUI卫星菜单节选器下拉刷新模糊效果HUD与Toast进度条UI其它动画网络相关响应式编程地图数据库图像浏览及处理视频音频处理测试及调试动态更新热更新
ARM嵌入式可编程控制器技术开发拉勾科研工作室 arm开发
PLC自动化设计|毕业设计指导|工业自动化解决方案✨专业领域：PLC程序设计与调试工业自动化控制系统HMI人机界面开发工业传感器应用电气控制系统设计工业网络通信擅长工具：西门子S7系列PLC编程三菱/欧姆龙PLC应用触摸屏界面设计电气CAD制图工业现场总线技术自动化设备调试主要内容：PLC控制系统设计工业自动化方案规划电气原理图绘制控制程序编写与调试毕业论文指导毕业设计题目与程序设计✅具体问题可以
理解TCP连接中的进程阻塞与CPU调度机制 109702008 编程 #C语言网络 tcp/ip 网络人工智能
引言在计算机网络通信中，TCP连接的建立是一个经典的三次握手过程。当用户调用connect()函数发起连接时，内核会发送SYN报文并等待对方的SYN-ACK响应。此时，调用进程通常会进入阻塞状态，暂停执行直至连接成功或超时。这一机制看似简单，但其背后的内核实现却涉及进程调度、等待队列管理和CPU资源分配等复杂操作。本文将深入探讨阻塞状态的实现原理，并解析CPU在进程阻塞期间的行为。一、进程阻塞的实
php SPOF 贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.什么是单点故障（SPOF）？单点故障指的是系统中某个组件一旦失效，整个系统或服务就会不可用。常见的单点有：数据库、缓存、Web服务器、负载均衡、网络设备等。2.常见单点故障场景只有一台数据库服务器，宕机后所有业务不可用只有一台Redis缓存，挂掉后缓存全部失效只有一台Web服务器，挂掉后网站无法访问只有一个负载均衡节点，挂掉后流量无法分发只有一条网络链路，断开后所有服务失联3.消除单点故障的主
Linux/Centos7离线安装并配置MySQL 5.7 有事开摆无事百杜同学 LInux/CentOS7 linux mysql 运维
Linux/Centos7离线安装并配置MySQL5.7超详细教程一、环境准备1.下载MySQL5.7离线包2.使用rpm工具卸载MariaDB（避免冲突）3.创建系统级别的MySQL专用用户二、安装与配置1.解压并重命名MySQL目录2.创建数据目录和配置文件3.设置目录权限4.初始化MySQL5.配置启动脚本6.配置环境变量三、启动与验证1.启动MySQL服务2.获取初始密码3.登录并修改密码
Linux操作系统磁盘管理 CZZDg linux 运维服务器
目录一.硬盘介绍1.硬盘的物理结构2.CHS编号3.磁盘存储划分4.开机流程5.要点6.磁盘存储数据的形式二.Linux文件系统1.根文件系统2.虚拟文件系统3.真文件系统4.伪文件系统三.磁盘分区与挂载1.磁盘分区方式2.分区命令3.查看与识别命令4.格式化命令5.挂载命令四.LVM逻辑卷1.概述2.管理命令五.磁盘配额1.概述usrquota:支持对用户的磁盘配额grpquota：支持对组的磁
计算机网络技术 CZZDg 计算机网络
目录一.网络概述1.网络的概念2.网络发展是3.网络的四要素4.网络功能5.网络类型6.网络协议与标准7.网络中常见的概念8.网络拓补结构二.网络模型1.分层思想2.OSI七层模型3.TCP/IP五层模型4.数据的封装与解封装过程三.IP地址1.进制转换2.IP地址定义3.IP地址组成成分4.IP地址分类5.地址划分6、相关概念一.网络概述1.网络的概念两个主机通过传输介质和通信协议实现通信和资源
tcpdump交叉编译 weixin_45673259 tcpdump 测试工具网络
1.下载路径官网：https://www.tcpdump.org/2.编译解压：tar-xflibpcap-1.10.4.tar.xztar-xftcpdump-4.99.4.tar.xz编译libpcap./configure--host=mips-v720s229-linux--target=mips-v720s229-linuxCC=/opt/A1/mips-gcc720-uclibc229
玩转Docker | 使用Docker部署gopeed下载工具心随_风动玩转Docker docker 容器运维
玩转Docker|使用Docker部署gopeed下载工具前言一、gopeed介绍Gopeed简介主要特点二、系统要求环境要求环境检查Docker版本检查检查操作系统版本三、部署gopeed服务下载镜像创建容器检查容器状态检查服务端口安全设置四、访问gopeed应用五、测试与下载六、总结前言在当今信息爆炸的时代，高效地获取和管理网络资源变得尤为重要。无论是下载大型文件还是进行日常的数据传输，一个稳
Docker指定网桥和指定网桥IP
$dockernetworklsNETWORKIDNAMEDRIVER7fca4eb8c647bridgebridge9f904ee27bf5nonenullcf03ee007fb4hosthostBridge默认bridge网络,我们可以使用dockernetworkinspect命令查看返回的网络信息，我们使用dockerrun命令是将网络自动应用到新的容器Host如果是hosts模式，启动容
UNIX域套接字
1、UNIX域套接字的定义UNIX域套接字是进程间通信（IPC）的一种方式，不涉及网络协议栈，因此在同一台主机上的通信中，它比基于TCP/IP协议的网络套接字更快速、更高效。2、UNIX域套接字的分类字节流套接字（SOCK_STREAM）：提供面向连接的、可靠的数据传输服务。数据报套接字（SOCK_DGRAM）：提供无连接的数据传输服务，数据以独立的数据报形式传输。3、UNIX套接字与TCP/IP
Kimi Chat 1.5 与 2.0 架构升级对比 charles666666 人工智能 transformer 深度学习产品经理 chatgpt
1.5版的MoE架构优化KimiChat1.5采用了优化后的MoE架构，其核心在于“专家网络动态路由”。这一机制类似于快递系统智能选择最优路径，能够根据输入数据的特性动态分配计算资源。这种优化显著提升了模型的计算效率，同时降低了硬件资源的浪费。在实际应用中，这意味着开发者可以在相同的硬件配置下处理更复杂的任务，或者在有限的资源下实现更高的性能。2.0的混合专家系统创新点与1.5版相比，KimiCh
【Linux内核模块】Linux内核模块程序结构 byte轻骑兵 #嵌入式Linux驱动开发实战 linux 运维服务器
如果你已经写过第一个"HelloWorld"内核模块，可能会好奇：为什么那个几行代码的程序能被内核识别？那些module_init、MODULE_LICENSE到底是什么意思？今天咱们就来扒一扒内核模块的程序结构，搞清楚一个合格的内核模块到底由哪些部分组成，每个部分又承担着什么角色。目录一、内核模块的"骨架"：最简化结构解析二、头文件：内核模块的"说明书"2.1最常用的三个头文件2.2按需添加的其
LVM逻辑卷扩容
目录1.逻辑卷的简介2.逻辑卷的概念3.相关命令4.建立逻辑卷1.逻辑卷的简介1.LVM是逻辑卷管理(LogicalVolumeManager)的简称,它是Linux环境下对磁盘分区进行管理的一种机制,LVM是建立在硬盘和分区之上的一个逻辑层,来提高磁盘分区管理的灵活性。2.LVM最大的特点就是可以对磁盘进行动态管理。使用了LVM管理分区,动态的调整分区的大小,标准分区是做不到的。2.逻辑卷的概念
Rocky Linux 8.5/CentOS 8 安装Wine chen_teacher linux 运维服务器
RockyLinux8.5/CentOS8安装Wine首先配置EPEL镜像配置方法安装Wine首先配置EPEL镜像EPEL(ExtraPackagesforEnterpriseLinux),是由FedoraSpecialInterestGroup维护的EnterpriseLinux（RHEL、CentOS）中经常用到的包。下载地址：https://mirrors.aliyun.com/epel/相
系统迁移从CentOS7.9到Rocky8.9
我有两台阿里云上的服务器是CentOS7.9，由于CentOS7已经停止支持，后续使用的话会有安全漏洞，所以需要尽快迁移，个人使用的话目前兼容性好的还是RockyLinux8，很多脚本改改就能用了。一、盘点系统和迁移应用查看当前系统发行版版本cat/etc/os-release盘点迁移清单服务器应用部署方式docker镜像来源v1wordpressdockerdockerhubv1zdirdock
【Linux内核模块】Linux内核模块简介 byte轻骑兵 #嵌入式Linux驱动开发实战 linux arm开发运维
你是否好奇过，为什么Linux系统可以在不重启的情况下支持新硬件？为什么修改一个驱动程序不需要重新编译整个内核？这一切都离不开Linux的"模块化魔法"——内核模块（KernelModule）。作为Linux内核最灵活的特性之一，内核模块让开发者可以动态扩展内核功能，今天就来揭开这个神秘组件的面纱。目录一、什么是内核模块？1.1先打个比方：给内核装"插件"1.2技术定义：动态加载的内核代码段1.3
Linux中LVM逻辑卷扩容
在Linux系统中对根目录所在的LVM逻辑卷进行扩容，需要依次完成物理卷扩容➔卷组扩容➔逻辑卷扩容➔文件系统扩容四个步骤。以下是详细操作流程：一、确认当前磁盘和LVM状态#1.查看磁盘空间使用情况df-h/#2.查看块设备及LVM层级关系lsblk#3.查看LVM详细信息（物理卷PV、卷组VG、逻辑卷LV）pvdisplayvgdisplaylvdisplay二、扩容物理卷（PV）场景1：已有未分
什么是OA系统？使用OA系统对企业有哪些好处？
OA系统（OfficeAutomationSystem），即办公自动化系统，是将现代化办公和计算机网络功能结合起来的一种新型的办公方式。是现代企业管理中一种重要的信息化工具，它通过计算机技术、网络技术和数据库技术等手段，实现企业内部办公流程的自动化和信息化管理。使企业的信息交流更加顺畅，办公流程更加高效，从而提高企业的运营效率和管理水平。一、主要功能1.文档管理文档存储与检索：OA系统可以集中存储
Docker容器底层原理详解：从零理解容器化技术 Debug Your Career 面试 docker 容器 docker java
一、容器本质：一个“隔离的进程”关键认知：Docker容器并不是一个完整的操作系统，而是一个被严格隔离的进程。这个进程拥有独立的文件系统、网络、进程视图等资源，但它直接运行在宿主机内核上（而虚拟机需要模拟硬件和操作系统）。类比理解：想象你在一个办公楼里租了一间独立办公室（容器）。你有自己的桌椅（文件系统）、电话分机（网络）、门牌号（主机名），但共享整栋楼的水电（宿主机内核）和电梯（硬件资源）。办公
在 Windows 上安装 Docker Desktop 不老刘人工智能 windows docker 容器
还是简单说一下，如何在Windows上安装DockerDesktop，具体步骤如下：系统要求Windows10/1164-bit（专业版、企业版或教育版，版本21H2或更高）启用WSL2（WindowsSubsystemforLinux2）或Hyper-V至少4GB内存BIOS中启用虚拟化（VT-x/AMD-V）安装步骤1.下载DockerDesktop访问Docker官网下载页面。下载Docke
.NET 一款基于BGInfo的红队内网渗透工具 dot.Net安全矩阵网络 .net 安全 .netcore web安全矩阵
01阅读须知此文所提供的信息只为网络安全人员对自己所负责的网站、服务器等（包括但不限于）进行检测或维护参考，未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用此文所提供的信息而造成的直接或间接后果和损失，均由使用者本人负责。本文所提供的工具仅用于学习，禁止用于其他方面02基本介绍在内网渗透过程中，白名单绕过是红队常见的技术需求。Sharp4Bginfo.exe是一款基于微软签名工具
【Linux】进程间通信-管道通信实验会的全对٩(ˊᗜˋ*)و Linux linux 经验分享
要求：利用有名管道编写简单的聊天程序，聊天双方在线才能说话，一方说话后需另一方应答才能继续说话，即一来一往的聊天模式，如果输入quit则退出聊天程序。代码实现：进程A#include#include#include#include#include#include#defineFIFO_A"/tmp/chat_fifo_a"//进程A写消息，进程B读消息#defineFIFO_B"/tmp/chat
如何发现 Redis 中的 BigKey？ sevevty-seven redis bootstrap 数据库
如何发现Redis中的BigKey？Redis因其出色的性能，常被用作缓存、消息队列和会话存储。然而，在Redis的使用过程中，BigKey是一个不容忽视的问题。BigKey指的是存储了大量数据或包含大量成员的键。它们不仅会占用大量内存，还可能导致网络延迟、主从同步延迟，甚至在极端情况下引发Redis服务崩溃。因此，有效地发现和处理BigKey对于维护Redis服务的稳定性和性能至关重要。本文将深
Python uWSGI 安装配置 AI老李 python python 开发语言
关键要点uWSGI安装和配置适合PythonWSGI应用，资源丰富，适合初学者和中级用户。推荐菜鸟教程和官方文档，涵盖Linux和Windows环境。配置需注意操作系统差异和框架（如Django、Flask）需求。安装步骤uWSGI安装通常通过pip或源码编译完成。以下是基本步骤：Linux：安装依赖（如build-essentialpython-dev），然后用pipinstalluwsgi或编
11. TCP 滑动窗口、拥塞控制是什么，有什么区别 yqcoder 前端面试-服务协议 tcp/ip 网络 php
总结滑动窗口：早期网络，通信双方不考虑网络拥挤情况，导致掉包。滑动窗口大小意味着有多少缓冲区接受数据。拥塞控制：防止过多数据注入网络中，拥塞控制是一个全局过程，控制网络流量。区别：滑动窗口解决掉包问题，拥塞控制解决网络拥塞问题。TCP滑动窗口与拥塞控制详解在TCP协议中，为了实现可靠传输和高效通信，引入了两个核心机制：滑动窗口（SlidingWindow）和拥塞控制（CongestionContr
上位机知识篇---Linux中的文件挂载 Atticus-Orion 上位机操作篇 linux 运维网络文件挂载
文章目录前言1.挂载的基本概念文件系统挂载点设备文件2.挂载的命令挂载文件系统示例卸载文件系统示例3.挂载的常用选项示例4.自动挂载（/etc/fstab文件）示例使用UUID挂载5.挂载网络文件系统（NFS）挂载NFS示例6.挂载ISO文件挂载ISO文件示例7.查看已挂载的文件系统8.挂载的注意事项9.挂载的常见问题挂载失败卸载失败10.总结前言在Linux系统中，文件挂载是指将一个文件系统（如
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置

HADOOP集群大数据词频统计及设计比较（完整教程）

###如若发现错误，或代码敲错，望能评论指正！！！

一、先安装一个虚拟机

二、安装一个CentOS，这里使用的是7版本的

三、打开VMware，创建新的虚拟机

四、ping本地与百度的设置

1.重启服务

2.修改配置文件

3.ping一下百度跟本地，看一下连接是否通畅

4.安装yum源

5.执行重命名命令

6.挂载

7.更新yum源。

8.用阿里云安装软件

9.安装Java

五.搭建Hadoop完全分布式集群

1.把Hadoop安装包hadoop-xxxxx / 上传到虚拟机master的/opt目录下

2.修改core-site.xml文件

3.修改hadoop-env.sh

4.修改yarn-env.sh文件

5.复制mapred-site.xml.template 并命名为mapred-site.xml并修改

6.修改yarn-site.xml文件

7.修改slaves文件

8.修改hdfs-site.xml文件

9.返回最初目录，进入/etc,修改hosts文件

10.修改完后关机，进行克隆。

11.打开虚拟机slave1

12.重复（1）~（5）的相关步骤，克隆master到slave2、slave3，并修改slave2、slave3的相关配置。

13.配置SSH免密登录

14.时间同步

15.启动关闭集群

16.监控集群

17HDFS文件处理

六、Hadoop实现MapReduce执行wordcount与使用Eclipse创建MapReduce工程执行wordcount

1.Hadoop实现MapReduce执行wordcount

2.使用Eclipse创建MapReduce工程执行wordcount

3.新建MapReduce工程

4.编写wordcount的代码 ，描述他是怎么工作的。并且上传到集群完成一次完整的Wordcount

你可能感兴趣的:(Hadoop相关,hadoop,网络,linux)

4.编写wordcount的代码，描述他是怎么工作的。并且上传到集群完成一次完整的Wordcount