月色很柔

大数据平台核心技术-实验记录

一、前言
二、实验内容
- 实验一：Hadoop集群搭建
- 实验二：使用MapReduce实现倒排索引
三、实验过程记录
- 2.1安装准备
- 2.2 Hadoop集群搭建
- - 1、安装文件上传工具
  - 2、JDK安装
  - 3、Hadoop安装:
  - 4、Hadoop集群配置
- 2.3Hadoop集群测试
- - 1、格式化文件系统
  - 2、启动和关闭Hadoop集群
  - 3、通过UI查看Hadoop运行状态
- 2.4Hadoop集群初体验
- - Hadoop经典案例——单词统计
- 3.3 使用Shell命令操作HDFS
- 3.4 HDFS的Java API操作
- 3.5 使用MapReduce实现倒排索引
四、遇到的问题
- 实验一：
- 实验二：

**有问题多尝试解决，可评论留言遇到的问题** **博客表述不清的地方请留言，看到后会更新博客** **本文仅供参考**

一、前言

学校：许昌学院
学院：信息工程学院
实验环境：
操作系统：Linux (CentOS 6.7) JDK版本：1.8 (8u161) Hadoop版本：2.7.4
虚拟机：VMware Workstation Pro 15.5
参考资料：
Hadoop大数据技术原理与应用
linux命令大全（手册）
大数据平台核心技术樊志伟

**有问题多尝试解决，可评论留言遇到的问题**

二、实验内容

实验一：Hadoop集群搭建

1. 实验目的

熟悉常用Linux操作，学会搭建Hadoop集群，为后续上机实验做准备。

2. 实验环境（推荐）

操作系统：Linux (CentOS 6.7) JDK版本：1.8 (8u161) Hadoop版本：2.7.4

3. 实验内容和要求

（一）熟悉常用Linux操作
实验内容	使用到的命令
(1) 切换到目录 /usr/local (2) 去到目前的上层目录 (3) 回到自己的主文件夹	cd: 切换目录
(4) 查看目录/usr下所有的文件	ls: 查看文件与目录
(5) 进入/tmp目录，创建名为a的目录 (6) 创建目录a1/a2/a3/a4	mkdir: 新建新目录
(7) 将主文件夹下的.bashrc复制到/tmp下，命名为bashrc1 (8) 在/tmp下新建目录test，再复制这个目录到/usr	cp: 复制文件或目录
(9) 将第7例文件bashrc1移动到目录/usr/test (10) 将第9例test目录重命名为test2	mv: 移动文件与目录，或更名
(11) 将以上例子中的bashrc1文件删除 (12) 将第10例的test2目录删除	rm: 移除文件或目录
(13) 查看主文件夹下的.bashrc文件内容	cat: 查看文件内容
(14) 在/目录下新建目录test，然后打包成test.tar.gz (15) 将第14例文件解压缩到/tmp目录	tar: 压缩、解压缩命令
（二）搭建Hadoop集群的前期准备
实验内容	使用到的命令
(16) 配置三台虚拟机的网络	vi. ifconfig, reboot, ping, service
(17) 配置SSH免密码登陆	rpm, grep, ssh-keygen, ssh-copy-id, ssh, exit
（三）搭建Hadoop集群
实验内容	使用到的命令
(18) 安装并配置指定版本的JDK	rz, cd, tar, mv, vi, source
(19) 安装并配置Hadoop集群主节点	rz, tar, vi
(20) 分发Hadoop至子节点并配置	scp, source
(21) 格式化HDFS，启动Hadoop集群	hdfs namenode -format, start-dfs.sh

实验二：使用MapReduce实现倒排索引

1. 实验目的

掌握HDFS操作常用的Shell命令；
熟悉HDFS操作常用的Java API；
掌握倒排索引及其MapReduce实现。

2. 实验环境（推荐）

Java开发环境：JDK 1.8 (8u161)
分布式开发环境：Hadoop 2.7.4
集成开发环境：Eclipse或IntelliJ IDEA
项目构建工具：Maven 3.5.4

3. 实验内容和要求

（一）使用Shell命令操作HDFS
实验要求	其他说明
(1) 在HDFS根目录下创建目录：“/学号后两位/test/” (2) 将本地系统中的文本文件复制到第(1)步创建的目录中 (3) 将第(2)步上传的文本文件复制到本地系统	需要使用到集群文本文件统一命名为：hdfs_sh.txt，内容随意
（二）使用Java API操作HDFS
实验要求	其他说明
(4) 搭建Hadoop HDFS开发环境 (5) 初始化HDFS客户端对象 (6) 在本地创建文本文件并上传到HDFS (7) 从HDFS将第(6)步上传的文件下载到本地	需要使用到集群使用Maven 文本文件统一命名为：hdfs_java.txt，内容随意
（三）使用MapReduce实现倒排索引
实验要求	其他说明
(8) 收集数据，根据来源将数据存储在多个文本文件中 (9) 编写Map阶段程序代码 (10) 编写Combine阶段程序代码（可选） (11) 编写Reduce阶段程序代码 (12) 实现Driver主驱动程序并测试运行	无需使用集群使用Maven 多个数据文件放在同一个文件夹中，文件夹命名为：mrdata

**有问题多尝试解决，可评论留言遇到的问题**

三、实验过程记录

2.1安装准备

1、安装虚拟机

注意：每台虚拟机的内存需要量力而行，因为一共三台虚拟机加一台主机呢！如：本机共8g内存，那么平均分给4台电脑，每台可设2g内存！

2、创建工作目录：

mkdir -p /export/data

mkdir -p /export/software

mkdir -p /export/servers

3、克隆虚拟机

4、Linux网络配置

a>配置VM ware
b>配置主机名 :vi /etc/sysconfig/network
c>配置IP地址映射: vi /etc/hosts

5、网络参数配置

a>配置MAC地址
b>配置静态IP
c>验证

6、SSH服务配置

a> 查看是否安装SSH： rpm -qa |grep ssh
b>安装SSH: yum install openssh-server
c>查看SSH服务是否启动： ps -e | grep sshd

7、虚拟机免密登录

为什么要免密登录

Hadoop节点众多,所以一般在主节点启动从节点这个时候就需要程序自动在主节点登录到从节点中,如果不能免密就每次都要输入密码,非常麻烦
免密SSH登录的原理

1.需要先在B节点配置A节点的公钥
2. A节点请求B节点要求登录
3. B节点使用A节点的公钥，加密- -段随机文本
4. A节点使用私钥解密，并发回给B节点
5. B节点验证文本是否正确
第一步:三台机器生成公钥与私钥

在三台机器执行以下命令，生成公钥与私钥
ssh -keygen -t rsa
执行该命令之后，按下三个回车即可
第二步:拷贝公钥到同一台机器

三台机器将拷贝公钥到第一台机器
三台机器执行命令: ssh-copy-id hadoop01
第三步:复制第一台机器的认证到其他机器

将第一台机器的公钥拷贝到其他机器上
在第一天机器上面指向以下命令
scp /root/.ssh/authorized_ keys hadoop02:/root/.ssh

scp /root/.ssh/authorized_ keys hadoop03:/root/.ssh

**有问题多尝试解决，可评论留言遇到的问题**

2.2 Hadoop集群搭建

1、安装文件上传工具

安装命令：yum install lrzsz -y

使用命令：rz

2、JDK安装

下载JDK

https://www.oracle.com/technetwork/java/javase/downloads/index.html

查看当前系统自带jdk并卸载：

注：参考:here

rpm -qa | grep java

然后通过 rpm -e --nodeps 后面跟系统自带的jdk名这个命令来删除系统自带的jdk，

例如：
	rpm -e --nodeps java-1.8.0-openjdk-1.8.0.102-4.b14.el7.x86_64
    rpm -e --nodeps java-1.8.0-openjdk-headless-1.8.0.102-4.b14.el7.x86_64
    rpm -e --nodeps java-1.7.0-openjdk-headless-1.7.0.111-2.6.7.8.el7.x86_64
    rpm -e --nodeps java-1.7.0-openjdk-1.7.0.111-2.6.7.8.el7.x86_64

删完之后可以再通过 rpm -qa | grep Java 命令来查询出是否删除掉

安装JDK

#上传jdk到/export/software路径下去，井解压

tar -zxvf jdk-8u161-linux-x64.tar.gz -C /export/servers/

mv jdk1.8.0_161 jdk

配置JDK环境变量

vi /etc/profile

添加以下内容：

export JAVA_HOME=/export/servers/jdk

export PATH=$PATH:$JAVA_HOME/bin

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

修改完成之后记得source /etc/profle生效

source /etc/profile

JDK环境验证

java -version

3、Hadoop安装:

下载Hadoop安装包

http://archive.apache.org/dist/hadoop/common/

解压安装Hadoop

#将hadoop-2.7.4. tar.gz包上传到/export/software日录

cd /export/softwares

tar -zxvf hadoop-2.7.4.tar.gz -C /export/servers/

配置

export HADOOP_HOME=/export/servers/hadoop-2.7.4

export PATH=:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

修改完成之后记得source /etc/profle生效

source /etc/profile

验证Hadoop环境

hadoop version

4、Hadoop集群配置

#进入目录

cd /export/servers/hadoop-2.7.4/etc/hadoop

4.1 配置Hadoop集群主节点

该部分可参考：官方文档

修改hadoop-env.sh

export JAVA_HOME=/export/servers/jdk

修改core-site.xml

<configuration>

    <property>

        <name>fs.defaultFS</name>

        <value>hdfs://hadoop01:9000</value>

    </property>

    <property>

        <name>hadoop.tmp.dir</name>  

        <value>/export/servers/hadoop-2.7.4/tmp</value>

    </property>

</configuration>

修改hdfs-site.xml

<configuration>

    <property>

        <name>dfs.replication</name>

         <value>3</value>

    </property>


    <property>

        <name>dfs.namenode.secondary.http-address</name>

        <value>hadoop02:50090</value>

    </property>

</configuration>

修改mapred-site.xml

cp mapred-site.xml.template mapred-site.xml

<!-- Put site-specific property overrides in this file. -->

<configuration>

    <!--指定MapReduce运行时框架， 这里指定在Yarn上，默认是local -->

    <property>

        <name>mapreduce.framework.name</name>

        <value>yarn</value>

    </property>

</configuration>

修改yarn-site.xml

<configuration>

    <!-- Site specific YARN configuration properties -->

    <property>

        <name>yarn.resourcemanager.hostname</name>

        <value>hadoop01</value>

    </property>

    <property>

        <name>yarn.nodemanager.aux-services</name>

        <value>mapreduce_shuffle</value>

    </property>

   	 <!-- 2020.5.2更新：设置内存 -->
      <property>
          
          <name>yarn.nodemanager.resource.memory-mb</name>
          
          <value>1600</value>
      
      </property>
      
      <!-- 设置cpu 核数 -->
      
      <property>
      
          <name>yarn.nodemanager.resource.cpu-vcores</name>
      
          <value>1</value>
      
      </property>

</configuration>

修改slaves文件。打开该配置文件，先删除里面的内容(默认localhost) ，然后配置如下内容。
```
hadoop01

hadoop02

hadoop03
```

4.2 将集群主节点的配置文件分发到其他子节点

scp /etc/profile hadoop02:/etc/profile

scp /etc/profile hadoop03:/etc/profile

scp -r /export/ hadoop02:/  

scp -r /export/ hadoop03:/  

在hadoop02和hadoop03上执行：source /etc/profile

**有问题多尝试解决，可评论留言遇到的问题**

2.3Hadoop集群测试

1、格式化文件系统

初次启动HDFS集群时，必须对主节点进行格式化处理。

格式化文件系统指令如下:
 $ hdfs namenode -format

 $ hadoop namenode -format

2、启动和关闭Hadoop集群

单节点逐个启动和关闭
- 在主节点上执行指令启动/关闭HDFS NameNode进程;
```
hadoop-daemon.sh start namenode
```
- 在每个从节点上执行指令启动/关闭HDFS DataNode进程;
```
  hadoop-daemon.sh start datanode

  #使用jps查看java进程验证

  jps
```
- 在主节点上执行指令启动/关闭YARN ResourceManiger进程;
```
 yarn-daemon.sh start resourcemanager
```
- 在每个从节点上执行指令启动/关闭YARN nodemanager进程;
```
 yarn-daemon.sh start nodemanager
 #使用jps查看java进程验证

 jps
```
- 在节点hadoop02执行指令启动/关闭SecondaryNameNode进程。
```
  hadoop-daemon.sh start secondarynamenode
```
- 关闭只需将start 换成stop
脚本一键启动和关闭

在主节点hadoop01上执行指令“start-dfs.sh”或“stop-dfs.sh”启动/关闭所有HDFS服务进程；

在主节点hadoop01上执行指令“start-yarn.sh”或“stop-yarn.sh”启动/关闭所有YARN服务进程；

在主节点hadoop01上执行“start-all.sh”或“stop-all.sh”指令，直接启动/关闭整个Hadoop集群服务。

3、通过UI查看Hadoop运行状态

Hadoop集群正常启动后，它默认开放了两个端口50070和8088，分别用于监控HDFS集群和YARN集群。通过UI界面可以方便地进行集群的管理和查看，只需要在本地操作系统的浏览器输入集群服务的IP和对应的端口号即可访问。

	1) 配置IP映射：
	
	  打开：C:\Windows\System32\drivers\etc\hosts
	
	  添加以下内容：
	
	  192.168.121.134 hadoop01
	
	  192.168.121.135 hadoop02
	
	  192.168.121.136 hadoop03
	
	2) 关闭防火墙：service iptables stop
	
	3) 关闭防火墙开机启动：chkconfig iptables off

在Windows系统下，访问http://hadoop01:8088，查看Yarn集群状态，且从图中可以看出Yarn集群状态显示正常。

注：点击左侧Nodes，看到以下页面，一般配置就正确了

**有问题多尝试解决，可评论留言遇到的问题**

2.4Hadoop集群初体验

Hadoop经典案例——单词统计

打开HDFS的UI界面，查看HDFS中是否有数据文件，默认是没有数据文件。
准备文本文件，在Linux系统上编辑一个文本文件，然后上传至HDFS上。

创建数据存储目录：mkdir -p /export/data

编辑文件：vi word.txt

写入一些单词：

hello itcast

hello itheima

hello Hadoop

在hdfs上创建目录：hadoop fs -mkdir -p /wordcount/input

将文件上传至hdfs 的目录：hadoop fs -put /export/data/word.txt /wordcount/input
运行hadoop-mapreduce-examples-2.7.4.jar包，实现词频统计。

进入：cd /export/servers/hadoop-2.7.4/share/hadoop/mapreduce

执行：hadoop jar hadoop-mapreduce-examples-2.7.4.jar wordcount /wordcount/input /wordcount/output
注：执行该步时出错，（一直为接受状态，没有运行；有大佬请解答！）如下图：（已解决！）

成功界面：
查看UI界面，Yarn集群UI界面出现程序运行成功的信息。HDFS集群UI界面出现了结果文件。

**分割线，请保证实验一正确完成词频统计部分** **有问题多尝试解决，可评论留言遇到的问题**

3.3 使用Shell命令操作HDFS

Shell在计算机科学中俗称“壳”，是提供给使用者使用界面的进行与系统交互的软件，通过接收用户输入的命令执行相应的操作，Shell分为图形界面Shell和命令行式Shell。

官方文档：here

hadoop fs <args>
hadoop dfs <args>
hdfs dfs <args>

上述命令中，“hadoop fs" 是使用面最广，可以操作任何文件系统，如本地系统、HDFS等，“hadoop dfs"则主要针对HDFS文件系统，已经被“Ihdfs dfs"代替。

文件系统(FS) Shell 包含了各种的类shell的命令，可以直接与Hadoop分布式文件系统以及其他文件系统进行交互，如与LocalFS、 HTTPFS、S3 FS 文件系统交互等。通过命令行的方式进行交互，具体操作常用命令，如表下表：

命令参数	功能描述
-ls	查看指定路径的目录结构
-du	统计目录下所有文件大小
-mv	移动文件
-cp	复制文件
-rm	删除文件/空白文件夹
-cat	查看文件内容
-text	源文件输出为文本格式
-mkdir	创建空白文件夹
-put	上传文件
-help	帮助
-get	下载文件

1、 ls命令

2、 mkdir命令

3、 put命令

4、 get命令

5、其他命令：here

**该部分大多数问题是因为实验一未正确完成导致** **有问题多尝试解决，可评论留言遇到的问题**

3.4 HDFS的Java API操作

由于Hadoop是使用Java语言编写的，因此可以使用Java API操作Hadoop文件系统。HDFS Shell本质上就是对Java API的应用，通过编程的形式操作HDFS，其核心是使用HDFS提供的Java API构造一个访问客户端对象，然后通过客户端对象对HDFS上的文件进行操作（增、删、改、查）。
参考：https://my.oschina.net/u/2371923/blog/2870791

(1) 搭建Hadoop HDFS开发环境

1、win10上搭建hadoop环境

1).官网下载hadoop-2.7.4.tar.gz版本，解压:D:\hadoop-2.7.4

2).配置环境变量

	HADOOP_HOME=D:\hadoop-2.7.4
	PATH=%HADOOP_HOME%\bin

3.将windows上编译的文件hadoop.dll、winutils.exe放至%HADOOP_HOME%\bin下

4.将hadoop.dll放到c:/windows/System32下

5.设置D:\hadoop-2.7.4\etc\hadoop\hadoop-env.cmd中的JAVA_HOME为真实java路径（路径中不能带空格，否者会报错）.

6.测试hadoop是否配置成功,命令行输入：hadoop version

2、在idea中新建maven工程hadoop-demo

idea配置maven
打开Settings —>搜索maven—>进入就能看到自带maven

更改maven数据源：
1、在安装目录找到该文件

2、打开修改以下部分并保存。

  
    <!-- mirror
     | Specifies a repository mirror site to use instead of a given repository. The repository that
     | this mirror serves has an ID that matches the mirrorOf element of this mirror. IDs are used
     | for inheritance and direct lookup purposes, and must be unique across the set of mirrors.
     |
    
      mirrorId</id>
      repositoryId</mirrorOf>
      Human Readable Name for this Mirror.</name>
      http://my.repository.com/repo/path</url>
    </mirror>
     -->
    
      aliyun-public</id>
      *</mirrorOf>
      aliyun public</name>
      https://maven.aliyun.com/repository/public</url>
    </mirror>

    
      aliyun-central</id>
      *</mirrorOf>
      aliyun central</name>
      https://maven.aliyun.com/repository/central</url>
    </mirror>

    
      aliyun-spring</id>
      *</mirrorOf>
      aliyun spring</name>
      https://maven.aliyun.com/repository/spring</url>
    </mirror>

    
      aliyun-spring-plugin</id>
      *</mirrorOf>
      aliyun spring-plugin</name>
      https://maven.aliyun.com/repository/spring-plugin</url>
    </mirror>

  </mirrors>

3、将上述文件copy至以下目录进行覆盖

4、重启idea

(2) 初始化HDFS客户端对象
1、创建maven工程并添加依赖，import依赖

 
        
            org.apache.hadoop</groupId>
            hadoop-common</artifactId>
            2.7.4</version>
        </dependency>
        
            org.apache.hadoop</groupId>
            hadoop-hdfs</artifactId>
            2.7.4</version>
        </dependency>
        
            org.apache.hadoop</groupId>
            hadoop-client</artifactId>
            2.7.4</version>
        </dependency>
        
            org.apache.hadoop</groupId>
            hadoop-mapreduce-client-core</artifactId>
            2.7.4</version>
        </dependency>
        
            junit</groupId>
            junit</artifactId>
            4.12</version>
        </dependency>
        
            org.apache.zookeeper</groupId>
            zookeeper</artifactId>
            3.4.10</version>
        </dependency>
    </dependencies>

2、创建java类,添加初始化HDFS客户端对象的方法

package com.itcast.hdfsdemo;

//import javax.security.auth.login.Configuration;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.junit.After;
import org.junit.Before;
import org.junit.Test;

import java.io.IOException;

/**
 * @project: hadoopDemo
 * @description:
 * @author: dell
 * @date: 2020/5/20 - 1:21
 * @version: 1.0
 * @website:
 */
public class HDFS_CRUD {
     
    FileSystem fs = null;
    @Before
    public void init() throws IOException {
     
        // 构造一个配置参数对象,设置一个参数：我们要访问的hdfs的URI
        Configuration conf = new Configuration();
        // 这里指定使用的是HDFS文件系统
        conf.set("fs.defaultFS", "hdfs://hadoop01:9000");
        // 通过如下的方式进行客户端身份的设置
        System.setProperty("HADOOP_USER_NAME", "root");
        // 通过FileSystem的静态方法获取文件系统客户端对象
        fs = FileSystem.get(conf);
    }

    @After
    public void close() throws IOException {
     
        // 关闭资源
        fs.close();
    }
}

(3) 在本地创建文本文件并上传到HDFS
1、在本地创建文件：

2、添加上传文件测试方法

 	@Test
    public void testAddFileToHdfs() throws IOException {
     
        // 要上传的文件所在本地路径
        Path src = new Path("D:\\Workspaces\\hadoopWorkspace\\data\\test/put/hdfs_java.txt");
        // 要上传到hdfs的目标路径
        Path dst = new Path("/49/test/");
        // 上传文件方法
        fs.copyFromLocalFile(src, dst);
    }

3、启动hadoop集群，运行测试方法进行测试

(4) 从HDFS将上传的文件下载到本地
1、添加下载文件的测试方法

  // 从hdfs中复制文件到本地文件系统
    @Test
    public void testDownloadFileToLocal() throws IllegalArgumentException, IOException {
     
        // 下载文件
        fs.copyToLocalFile(new Path("/49/test/hdfs_java.txt"), new Path("D:\\Workspaces\\hadoopWorkspace\\data\\test/get/"));
    }

2、启动集群，运行方法测试

**有问题多尝试解决，可评论留言遇到的问题**

3.5 使用MapReduce实现倒排索引

在3.4中的工程里面新建包：cn.itcast.mr.invertedIndex

(1) 收集数据，根据来源将数据存储在多个文本文件中

(2) 编写Map阶段程序代码

package cn.itcast.mr.invertedIndex;

import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;

import java.io.IOException;

/**
 * @project: hadoopDemo
 * @description:
 * @author: dell
 * @date: 2020/5/20 - 12:07
 * @version: 1.0
 * @website:
 */
public class InvertedIndexMapper extends Mapper<LongWritable, Text,Text,Text> {
     

    private static Text keyInfo = new Text();// 存储单词和 URL 组合
    private static final Text valueInfo = new Text("1");// 存储词频,初始化为1

    @Override
    protected void map(LongWritable key, Text value, Context context)
            throws IOException, InterruptedException {
     
        /**
         * @description: 在该方法中将K1和V1转为K2和V2
         * @param: [key:K1行偏移量, value：V1行文本数据, context：上下文对象]
         * @date: 2020/5/20 - 12:11
         * @return: void
         */
        String line = value.toString();
        String[] fields = StringUtils.split(line, " ");// 得到字段数组
        FileSplit fileSplit = (FileSplit) context.getInputSplit();// 得到这行数据所在的文件切片
        String fileName = fileSplit.getPath().getName();// 根据文件切片得到文件名
        for (String field : fields) {
     
            // key值由单词和URL组成，如“MapReduce:file1”
            keyInfo.set(field + ":" + fileName);
            context.write(keyInfo, valueInfo);
        }
    }
}

(3) 编写Combine阶段程序代码（可选）

package cn.itcast.mr.invertedIndex;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/**
 * @project: hadoopDemo
 * @description:
 * @author: dell
 * @date: 2020/5/20 - 12:16
 * @version: 1.0
 * @website:
 */
public class InvertedIndexCombiner extends Reducer<Text, Text, Text, Text> {
     

    private static Text info = new Text();

    // 输入： 
    // 输出：
    @Override
    protected void reduce(Text key, Iterable<Text> values, Context context)
            throws IOException, InterruptedException, IOException {
     
        int sum = 0;// 统计词频
        for (Text value : values) {
     
            sum += Integer.parseInt(value.toString());
        }
        int splitIndex = key.toString().indexOf(":");
        // 重新设置 value 值由 URL 和词频组成
        info.set(key.toString().substring(splitIndex + 1) + ":" + sum);
        // 重新设置 key 值为单词
        key.set(key.toString().substring(0, splitIndex));
        context.write(key, info);
    }
}

(4) 编写Reduce阶段程序代码

package cn.itcast.mr.invertedIndex;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;


/**
 * @project: hadoopDemo
 * @description:
 * @author: dell
 * @date: 2020/5/20 - 19:04
 * @version: 1.0
 * @website:
 */
public class InvertedIndexReducer extends Reducer<Text, Text, Text, Text> {
     

    private static Text result = new Text();

    // 输入：
    // 输出：
    @Override
    protected void reduce(Text key, Iterable<Text> values, Context context)
            throws IOException, InterruptedException {
     
        // 生成文档列表
        String fileList = new String();
        for (Text value : values) {
     
            fileList += value.toString() + ";";
        }

        result.set(fileList);
        context.write(key, result);
    }
}

(5) 实现Driver主驱动程序并测试运行

package cn.itcast.mr.invertedIndex;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

/**
 * @project: hadoopDemo
 * @description:
 * @author: dell
 * @date: 2020/5/20 - 19:17
 * @version: 1.0
 * @website:
 */
public class InvertedIndexDriver {
     
    public static void main(String[] args) throws IOException,
            ClassNotFoundException, InterruptedException {
     
        //保存Job任务对象
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);

        //设置Job任务对象
        job.setJarByClass(InvertedIndexDriver.class);
        job.setMapperClass(InvertedIndexMapper.class);
        job.setCombinerClass(InvertedIndexCombiner.class);
        job.setReducerClass(InvertedIndexReducer.class);

        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);

        FileInputFormat.setInputPaths(job, new Path("D:\\Workspaces\\hadoopWorkspace\\workspace\\hadoopDemo\\src\\main\\resources\\mrdata"));
        // 指定处理完成之后的结果所保存的位置
        FileOutputFormat.setOutputPath(job, new Path("D:\\Workspaces\\hadoopWorkspace\\workspace\\hadoopDemo\\src\\main\\resources\\output"));

        //启动Job任务 ：向 yarn 集群提交这个 job
        boolean res = job.waitForCompletion(true);

        System.exit(res ? 0 : 1);
    }
}

(6)运行结果

**有问题多尝试解决，可评论留言遇到的问题**

四、遇到的问题

实验一：

1、jdk安装成功，却使用的系统自带jdk

参考本文：jdk安装 —>查看当前系统自带jdk并卸载：
注：参考:here

2、无法启动 NodeManager

本机配置不满足，修改yarn-siet.xml文件.添加下面内容：

    <!-- 设置内存 -->
    <property>
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>1600</value>
    </property>
    <!-- 设置cpu 核数 -->
    <property>
        <name>yarn.nodemanager.resource.cpu-vcores</name>
        <value>1</value>
    </property>

注:参考：here

3、执行词频统计一直处于接受，未运行

属于服务未全部启动，请确保下图服务启动：

实验二：

1、运行报错：无法连接到hadoop01:9000

java.net.ConnectException: Call From DESKTOP-AUK8T9H/192.168.121.5 to hadoop01:9000 failed on connection exception: java.net.ConnectException: Connection refused: no further

解决：Hadoop集群未开启导致，将集群开启即可。

2、配置完成却运行报错:

解决：查询原因是因为：jdk路径出现空格导致。重新安装jdk至无空格和中文的路径下即可。

3、Driver主驱动程序进行测试运行报错：

file:/D:/Workspaces/hadoopWorkspace/workspace/hadoopDemo/src/main/resources/output already exists

解决：通过删除已存在的输出目录进行解决

更新日期：2020.5.20

你可能感兴趣的:(hadoop)

Hive简介
文章目录Hive简介Hive特点Hive和RDBMS的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在HDFS上6、Hive的本质是将SQL语句转换为MapReduce任务运行7、使不熟悉MapRedu
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
HIVE（二） 2301_78012738 hive 数据仓库
目录访问HIVE的三种方式DDLDML数据操作向表中装载数据数据导出常用函数Like和RLike分组Join排序分区表和分桶表访问HIVE的三种方式启动Hive命令，CtrlC退出客户端，执行测试语句，与sql一致[wyc@hadoop102hive]$bin/hive经验小结：在hive中执行语句报错：ExecutionError,returncode2fromorg.apache.hadoop
安全运维的 “五层防护”：构建全方位安全体系 KKKlucifer 安全运维
在数字化运维场景中，异构系统复杂、攻击手段隐蔽等挑战日益突出。保旺达基于“全域纳管-身份认证-行为监测-自动响应-审计溯源”的五层防护架构，融合AI、零信任等技术，构建全链路安全运维体系，以下从技术逻辑与实践落地展开解析：第一层：全域资产纳管——筑牢安全根基挑战云网基础设施包含分布式计算（Hadoop/Spark）、数据流处理（Storm/Flink）等异构组件，通信协议繁杂，传统方案难以全面纳管
Hive 事务表(ACID)问题梳理
文章目录问题描述分析原因什么是事务表概念事务表和普通内部表的区别相关配置事务表的适用场景注意事项设计原理与实现文件管理格式参考博客问题描述工作中需要使用pyspark读取Hive中的数据，但是发现可以获取metastore，外部表的数据可以读取，内部表数据有些表报错信息是：AnalysisException:org.apache.hadoop.hive.ql.metadata.HiveExcept
Docker快速构建Hive测试环境静谧星光 docker hive 容器编程
Docker是一种流行的容器化平台，可以帮助我们快速构建和管理应用程序的环境。在本文中，我们将学习如何使用Docker快速构建Hive测试环境。Hive是一个基于Hadoop的数据仓库基础设施，它提供了一种类似于SQL的查询语言，用于分析和处理大规模数据集。步骤1：安装Docker和DockerCompose首先，我们需要安装Docker和DockerCompose。您可以根据您的操作系统类型，从
HDFS 伪分布模式搭建与使用全攻略（适合初学者 & 开发测试环境） huihui450 hdfs hadoop 大数据
HDFS（HadoopDistributedFileSystem）作为Hadoop生态系统的核心组件，广泛应用于海量数据的分布式存储场景。对于开发者而言，伪分布模式提供了一种低成本、高还原度的学习与测试方式。本文将详细介绍如何在本地搭建并使用HDFS的伪分布模式，包括环境准备、配置过程、常用命令及常见问题排查，帮助你快速入门Hadoop分布式文件系统的实践操作。一、什么是伪分布模式？Hadoop有
YARN container cpu超核如何解决 fzip YARN 超核
在ApacheHadoopYARN中，ContainerCPU超核（即Container使用的CPU资源超过分配量）是一个常见问题，可能导致集群性能下降或不稳定。以下是解决该问题的详细步骤：1.问题诊断1.1确认超核现象查看YARNWebUI：访问http://:8088，检查Container的CPU使用率是否持续超过分配的vCore数。检查NodeManager日志：查看/var/log/ha
Hadoop-Mapreduce入门
Hadoop-Mapreduce入门MapReduce介绍mapreduce设计MapReduce编程规范入门案例WordCountMapReduce介绍MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。知识。Map负责“分”，把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。Redu
Hadoop MapReduce入门且行且安~ 数据分析进阶之路 Linux命令 hadoop MapReduce入门
入门简介计算过程分为两个阶段Map和ReduceMap阶段并行处理输入数据Reduce阶段对Map结果进行汇总针对python语言来说：map函数或者reduce函数来说，输出的数据格式为元组tuple一个简单的MapReduce程序只需要指定map()reduce()input()output()剩下的由框架完成。Linux常见命令：-读取文件（文本文件，在Windows下使用记事本打开的文件）
Hadoop MapReduce 入门
一、Hadoop3.0.4环境准备1.环境要求Java8（Hadoop3.0.4不支持Java11+）单节点或多节点Linux系统（推荐Ubuntu18.04+）至少4GB内存（建议8GB+）50GB以上磁盘空间2.安装Java#安装Java8sudoapt-getinstallopenjdk-8-jdk#验证安装java-version3.下载与安装Hadoop3.0.4#下载Hadoop3.0
管理大数据存储的十大技巧 weixin_34238633 大数据数据库运维
在1990年，每一台应用服务器都倾向拥有直连式系统(DAS)。SAN的构建则是为了更大的规模和更高的效率提供共享的池存储。Hadoop已经逆转了这一趋势回归DAS。每一个Hadoop集群都拥有自身的——虽然是横向扩展型——直连式存储，这有助于Hadoop管理数据本地化，但也放弃了共享存储的规模和效率。如果你拥有多个实例或Hadoop发行版，那么你就将得到多个横向扩展的存储集群。而我们所遇到的最大挑
MapReduce数据处理过程2万字保姆级教程大模型大数据攻城狮 mapreduce 大数据 yarn cdh hadoop 大数据面试 shuffle
目录1.MapReduce的核心思想：分而治之的艺术2.HadoopMapReduce的架构：从宏观到微观3.WordCount实例：从代码到执行的完整旅程4.源码剖析：Job.submit的魔法5.Map任务的执行：从分片到键值对6.Shuffle阶段：MapReduce的幕后英雄7.Reduce任务的执行：从数据聚合到最终输出8.Combiner的魔法：提前聚合的性能利器9.Partition
Hadoop核心组件最全介绍 Cachel wood 大数据开发 hadoop 大数据分布式 spark 数据库计算机网络
文章目录一、Hadoop核心组件1.HDFS(HadoopDistributedFileSystem)2.YARN(YetAnotherResourceNegotiator)3.MapReduce二、数据存储与管理1.HBase2.Hive3.HCatalog4.Phoenix三、数据处理与计算1.Spark2.Flink3.Tez4.Storm5.Presto6.Impala四、资源调度与集群管
数据仓库技术及应用（Hive 产生背景与架构设计，存储模型与数据类型）娟恋无暇数据仓库笔记 hive
1.Hive产生背景传统Hadoop架构存在的一些问题：MapReduce编程必须掌握Java，门槛较高传统数据库开发、DBA、运维人员学习门槛高HDFS上没有Schema的概念，仅仅是一个纯文本文件Hive的产生：为了让用户从一个现有数据基础架构转移到Hadoop上现有数据基础架构大多基于关系型数据库和SQL查询Facebook诞生了Hive2.Hive是什么官网：https://hive.ap
缺少关键的 MapReduce 框架文件
计算圆周率时提醒Hadoop集群缺少关键的MapReduce框架文件mr-framework.tar.gz在http://master:7180/cmf/services/4/status里直接安装再次运行代码：
大数据 ETL 工具 Sqoop 深度解析与实战指南
一、Sqoop核心理论与应用场景1.1设计思想与技术定位Sqoop是Apache旗下的开源数据传输工具，核心设计基于MapReduce分布式计算框架，通过并行化的Map任务实现高效的数据批量迁移。其特点包括：批处理特性：基于MapReduce作业实现导入/导出，适合大规模离线数据迁移，不支持实时数据同步。异构数据源连接：支持关系型数据库（如MySQL、Oracle）与Hadoop生态（HDFS、H
安装Hadoop集群&入门&源码编译只年大数据 Hadoop hadoop 大数据分布式
安装Hadoop集群完全分布式先决条件准备三台机器NameStaticIPDESCbigdata102192.168.1.102DataNode、NodeManager、NameNodebigdata103192.168.1.103DataNode、NodeManager、ResourceManagerbigdata104192.168.1.104DataNode、NodeManager、Seco
Hadoop之HDFS 只年大数据 Hadoop HDFS hadoop hdfs 大数据
Hadoop之HDFSHDFS的Shell操作启动Hadoop集群（方便后续测试）[atguigu@hadoop102~]$sbin/start-dfs.sh[atguigu@hadoop102~]$sbin/start-yarn.sh-help：输出这个命令参数[atguigu@hadoop102~]$hadoopfs-helprm-ls：显示目录信息[atguigu@hadoop102~]$h
安装Python3.12报错：HTTP 429 TOO MANY REQUESTS for url ＜https://mirrors.ustc.edu.cn/anaconda/pkgs/free/li
安装Python3.12报错(base)[xxx@hadoop104python_shell]$condacreate--namepythonThirteenpython=3.12报错如下：Retrievingnotices:…working…ERRORconda.notices.fetch:get_channel_notice_response(63):Requesterrorforchanne
大数据分析技术的学习路径，不是绝对的，仅供参考水云桐程序员学习大数据数据分析学习方法
阶段一：基础筑基（1-3个月）1.编程语言：Python：掌握基础语法、数据结构、流程控制、函数、面向对象编程、常用库（NumPy,Pandas）。SQL：精通SELECT语句（过滤、排序、分组、聚合、连接）、DDL/DML基础。理解关系型数据库概念（表、主键、外键、索引）。MySQL或PostgreSQL是很好的起点。Java/Scala：深入理解Hadoop/Spark等框架会更有优势。初学者
头歌作业-HBase 开发：使用Java操作HBase http_lizi hbase java python
第一关packagestep1;importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.apache.hadoop.hbase.HColumnDescriptor;importorg.apache.h
HDFS中fsimage和edits究竟是什么清平乐的技术博客大数据运维 hdfs hadoop 大数据
fsimage和edits是HadoopHDFS(Hadoop分布式文件系统)中的两个关键组件，用于存储文件系统的元数据，以确保文件系统的持久性和一致性。在理解它们的作用之前，我们先了解一下HDFS的基本工作原理。HDFS采用了一种分布式文件系统的架构，其中数据被划分成块并分布在不同的数据节点上，而元数据(文件和目录的信息)则由单独的组件进行管理。元数据的持久性和一致性非常重要，因为文件系统的正确
spark处理kafka的用户行为数据写入hive 月光一族吖 spark kafka hive
在CentOS上部署Hadoop（Hadoop3.4.1）和Hive（Hive3.1.2）的详细步骤说明。这份指南面向单机安装（伪集群模式），如果需要搭建真正的多节点集群，各节点间的网络互访、SSH免密登录以及配置同步需进一步调整。注意：本指南假设你已拥有root权限或者具有sudo权限，并且系统连接Internet（用于下载安装包）。步骤中的版本号可根据实际需要进行更改。一、环境准备更新系统软件
【Hadoop】Hadoop车辆数据存储 db_hjx_2066 java hadoop
Hadoop车辆数据存储本作业旨在实现将车辆数据按天存储到Hadoop分布式文件系统（HDFS）中，并根据数据文件大小分割成多个文件进行存储。数据格式为JSON。作业要求车辆数据按天存储，每天的数据存储在一个文件夹下。数据文件以JSON格式存储。如果数据文件大于100M，则另起一个文件存储。每天的数据总量不少于300M。实现方法1.代码说明以下是用Java编写的实现代码：1.导入类//导入必要的类
计算机毕业设计之基于Hadoop的公共自行车数据分布式存储与计算
如今，在科学技术飞速发展的情况下，信息化的时代也已因为计算机的出现而来临，信息化也已经影响到了社会上的各个方面。它可以为人们提供许多便利之处，可以大大提高人们的工作效率。随着计算机技术的发展的普及，各个领域也都体会到其强大的数据处理能力，这也成为各行各业不可或缺的工具。所以计算机技术被广泛应用于信息管理系统和数据处理等方面。通过它可以大大减少相关的工作处理步骤，也可以提高信息和数据的安全性。本文对
如何学习才能更好地理解人工智能工程技术专业和其他信息技术专业的关联性？人工智能教学实践 python编程实践人工智能学习人工智能
要深入理解人工智能工程技术专业与其他信息技术专业的关联性，需要跳出单一专业的学习框架，通过“理论筑基-实践串联-跨学科整合”的路径构建系统性认知。以下是分阶段、可落地的学习方法：一、建立“专业关联”的理论认知框架绘制知识关联图谱操作方法：用XMind或Notion绘制思维导图，以AI为中心，辐射关联专业的核心技术节点。例如：AI（机器学习）├─数据支撑：大数据技术（Hadoop/Spark）+数据
HDFS与HBase有什么关系？ lucky_syq hdfs hbase hadoop
1、HDFS文件存储系统和HBase分布式数据库HDFS是Hadoop分布式文件系统。HBase的数据通常存储在HDFS上。HDFS为HBase提供了高可靠性的底层存储支持。Hbase是Hadoopdatabase，即Hadoop数据库。它是一个适合于非结构化数据存储的数据库，HBase基于列的而不是基于行的模式。
大数据基础知识-Hadoop、HBase、Hive一篇搞定原来是猪猪呀 hadoop 大数据分布式
HadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构，其核心设计包括分布式文件系统（HDFS）和MapReduce编程模型；Hadoop是一个开源的分布式计算框架，旨在帮助用户在不了解分布式底层细节的情况下，开发分布式程序。它通过利用集群的力量，提供高速运算和存储能力，特别适合处理超大数据集的应用程序。Hadoop生态圈Hadoop生态圈是一个由多个基于Hadoop开发的相
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。

大数据平台核心技术-实验记录