howard2005

大数据讲课笔记5.1 初探MapReduce

文章目录

零、学习目标
一、导入新课
二、新课讲解
- （一）MapReduce核心思想
- （二）MapReduce编程模型
- （三）MapReduce编程实例——词频统计思路
- - 1、Map阶段（映射阶段）
  - 2、Reduce阶段（归并阶段）
- （四）MapReduce编程实例——词频统计实现
- - 1、准备数据文件
  - - （1）在虚拟机上创建文本文件
    - （2）上传文件到HDFS指定目录
  - 2、创建Maven项目
  - 3、添加相关依赖
  - 4、创建日志属性文件
  - 5、创建词频统计映射器类
  - - 知识点：Java数据类型与Hadoop数据类型对应关系
  - 6、创建词频统计驱动器类
  - 7、运行词频统计驱动器类，查看结果
  - 8、修改词频统计映射器类
  - 9、修改词频统计驱动器类
  - 10、启动词频统计驱动器类，查看结果
  - 11、创建词频统计归并器类
  - 12、修改词频统计驱动器类
  - 13、运行词频统计驱动器类，查看结果
  - 14、修改词频统计归并器类
  - 15、修改词频统计驱动器类
  - 16、启动词频统计驱动器类，查看结果
  - - 知识点学习
  - 17、采用多个Reduce做合并
  - - （1）MR默认采用哈希分区HashPartitioner
    - （2）修改词频统计驱动器类，设置分区数量
  - 18、打包上传到虚拟机上运行
  - - （1）利用Maven打包
    - （2）将jar包上传到虚拟机
    - （3）运行jar包，查看结果
    - （4）降低项目JDK版本，重新打包
    - （5）重新上传jar包到虚拟机
    - （6）运行jar包，查看结果
  - 19、创建新词频统计驱动器类
  - 20、重新打包上传虚拟机并执行
  - 21、将三个类合并成一个类完成词频统计
  - 22、合并分区导致的多个结果文件
  - 23、统计不同单词数
三、归纳总结
四、上机操作
五、解决问题
- 错误：Did not find winutils.exe

零、学习目标

理解MapReduce核心思想
掌握MapReduce编程模型
理解MapReduce编程实例——词频统计

一、导入新课

带领学生回顾项目四HDFS相关的知识，由于MapReduce是Hadoop系统的另一个核心组件，它是一种可用于大数据并行处理的计算模型、框架和平台，主要解决海量数据的计算，是目前分布式计算模型中应用较为广泛的一种。因此，本次课将针对MapReduce分布式计算框架进行详细讲解。

二、新课讲解

（一）MapReduce核心思想

MapReduce的核心思想是“分而治之”。所谓“分而治之”就是把一个复杂的问题，按照一定的“分解”方法分为等价的规模较小的若干部分，然后逐个解决，分别找出各部分的结果，把各部分的结果组成整个问题的结果，这种思想来源于日常生活与工作时的经验，同样也完全适合技术领域。
MapReduce作为一种分布式计算模型，它主要用于解决海量数据的计算问题。使用MapReduce操作海量数据时，每个MapReduce程序被初始化为一个工作任务，每个工作任务可以分为Map和Reduce两个阶段。

阶段	功能
Map阶段	负责将任务分解，即把复杂的任务分解成若干个“简单的任务”来并行处理，但前提是这些任务没有必然的依赖关系，可以单独执行任务。
Reduce阶段	负责将任务合并，即把Map阶段的结果进行全局汇总。

MapReduce就是“任务的分解与结果的汇总”。即使用户不懂分布式计算框架的内部运行机制，但是只要能用Map和Reduce思想描述清楚要处理的问题，就能轻松地在Hadoop集群上实现分布式计算功能。
MapReduce设计的一个理念就是“计算向数据靠拢”，而不是“数据向计算靠拢”，因为，移动数据需要大量的网络传输开销。

（二）MapReduce编程模型

MapReduce是一种编程模型，用于处理大规模数据集的并行运算。使用MapReduce执行计算任务的时候，每个任务的执行过程都会被分为两个阶段，分别是Map和Reduce，其中Map阶段用于对原始数据进行处理，Reduce阶段用于对Map阶段的结果进行汇总，得到最终结果。
Map和Reduce函数
问题1：100副牌，没有大小王，差一张牌，请确定缺少哪张牌？
问题2：100GB网站访问日志文件，找出访问次数最多的IP地址

（三）MapReduce编程实例——词频统计思路

1、Map阶段（映射阶段）

输入键值对 $\Longrightarrow$ 输出键值对

2、Reduce阶段（归并阶段）

（四）MapReduce编程实例——词频统计实现

启动hadoop服务

1、准备数据文件

（1）在虚拟机上创建文本文件

创建wordcount目录，在里面创建words.txt文件

（2）上传文件到HDFS指定目录

创建/wordcount/input目录，执行命令：hdfs dfs -mkdir -p /wordcount/input
将文本文件words.txt，上传到HDFS的/wordcount/input目录
在Hadoop WebUI界面上查看上传的文件

2、创建Maven项目

创建Maven项目 - MRWordCount
单击【Finish】按钮

3、添加相关依赖

在pom.xml文件里添加hadoop和junit依赖

<dependencies>                                   
                                 
    <dependency>                                 
        <groupId>org.apache.hadoopgroupId>     
        <artifactId>hadoop-clientartifactId>   
        <version>3.3.4version>                 
    dependency>                                
                                    
    <dependency>                                 
        <groupId>junitgroupId>                 
        <artifactId>junitartifactId>           
        <version>4.13.2version>                
    dependency>                                
dependencies>

4、创建日志属性文件

在resources目录里创建log4j.properties文件

log4j.rootLogger=INFO, stdout, logfile
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/wordcount.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

5、创建词频统计映射器类

创建net.hw.mr包，在包里创建WordCountMapper类
为了更好理解Mapper类的作用，在map()函数里暂时不进行每行文本分词处理，直接利用context输出key和value。

package net.hw.mr;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

/**
 * 功能：词频统计映射器类
 * 作者：华卫
 * 日期：2022年12月07日
 */
public class WordCountMapper extends Mapper<LongWritable, Text, LongWritable, Text> {
    @Override
    protected void map(LongWritable key, Text value, Context context)
            throws IOException, InterruptedException {
        // 直接将键值对数据传到下一个阶段
        context.write(key, value);
    }
}

Mapper<泛型参数1, 泛型参数2, 泛型参数3, 泛型参数4>参数说明

序号	泛型参数	说明
1	KEYIN	输入键类型（InputKeyClass）
2	VALUEIN	输入值类型（InputValueClass）
3	KEYOUT	输出键类型（OutputKeyClass）
4	VALUEOUT	输出值类型（OutputValueClass）

注意：MR应用，必须有映射器（Mapper），但是归并器（Reducer）可有可无

知识点：Java数据类型与Hadoop数据类型对应关系

Java数据类型	Hadoop数据类型
String	Text
null	NullWritable
int	IntWritable
long	LongWritable
float	FloatWritable
double	DoubleWritable

Hadoop类型数据调用get()方法就可以转换成Java类型数据
Java类型数据通过new XXXWritable(x)方式转换成对应的Hadoop类型数据

6、创建词频统计驱动器类

在net.hw.mr包里创建WordCountDriver类

package net.hw.mr;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.net.URI;

/**
 * 功能：词频统计驱动器类
 * 作者：华卫
 * 日期：2022年12月07日
 */
public class WordCountDriver {
    public static void main(String[] args) throws Exception {
        // 创建配置对象
        Configuration conf = new Configuration();
        // 设置数据节点主机名属性
        conf.set("dfs.client.use.datanode.hostname", "true");

        // 获取作业实例
        Job job = Job.getInstance(conf);
        // 设置作业启动类
        job.setJarByClass(WordCountDriver.class);

        // 设置Mapper类
        job.setMapperClass(WordCountMapper.class);
        // 设置map任务输出键类型
        job.setMapOutputKeyClass(LongWritable.class);
        // 设置map任务输出值类型
        job.setMapOutputValueClass(Text.class);

        // 定义uri字符串
        String uri = "hdfs://master:9000";
        // 创建输入目录
        Path inputPath = new Path(uri + "/wordcount/input");
        // 创建输出目录
        Path outputPath = new Path(uri + "/wordcount/output");

        // 获取文件系统
        FileSystem fs =  FileSystem.get(new URI(uri), conf);
        // 删除输出目录（第二个参数设置是否递归）
        fs.delete(outputPath, true);

        // 给作业添加输入目录（允许多个）
        FileInputFormat.addInputPath(job, inputPath);
        // 给作业设置输出目录（只能一个）
        FileOutputFormat.setOutputPath(job, outputPath);

        // 等待作业完成
        job.waitForCompletion(true);

        // 输出统计结果
        System.out.println("======统计结果======");
        FileStatus[] fileStatuses = fs.listStatus(outputPath);
        for (int i = 1; i < fileStatuses.length; i++) {
            // 输出结果文件路径
            System.out.println(fileStatuses[i].getPath());
            // 获取文件系统数据字节输入流
            FSDataInputStream in = fs.open(fileStatuses[i].getPath());
            // 将结果文件显示在控制台
            IOUtils.copyBytes(in, System.out, 4096, false);
        }
    }
}

注意导包问题
不要导成org.apache.hadoop.mapred包下的FileInputFormat与FileOutputFormat咯~

import org.apache.hadoop.mapred.FileInputFormat;
import org.apache.hadoop.mapred.FileOutputFormat;

7、运行词频统计驱动器类，查看结果

运行报错，提示：Did not find winutils.exe，解决办法，参看本博 - 五、解决问题
再次运行，统计结果之前会显示大量信息
如果不想看到统计结果之前的大堆信息，可以修改log4j.properties文件，将INFO改为ERROR
再运行程序，查看结果
行首数字，表示每行起始位置在整个文件的偏移量（offset）。
第一行：hello hadoop world\n 16个字母，2个空格，1个转义字符，总共19个字符，因此，第二行起始位置在整个文件的偏移量就是19。
第二行：hello hive world\n 14个字母，2个空格，1个转义字符，总共17个字符，因此，第三行起始位置在整个文件的偏移量就是19 + 16 = 36。
第三行：hello hbase world\n 15个字母，2个空格，1个转义字符，总共18个字符，因此，第三行起始位置在整个文件的偏移量就是19 + 16 + 18 = 54。
第四行：hadoop hive hbase\n 15个字母，2个空格，1个转义字符，总共18个字符，因此，第三行起始位置在整个文件的偏移量就是19 + 16 + 18 + 18 = 72。
利用Hadoop WebUI界面查看结果文件

8、修改词频统计映射器类

行首数字对于我们做单词统计没有任何用处，只需要拿到每一行内容，按空格拆分成单词，每个单词计数1，因此，WordCoutMapper的输出应该是单词和个数，于是，输出键类型为Text，输出值类型为IntWritable。
将每行按空格拆分成单词数组，输出<单词, 1>的键值对

public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
    @Override
    protected void map(LongWritable key, Text value, Context context)
            throws IOException, InterruptedException {
        // 获取行内容
        String line = value.toString();
        // 按空格拆分得到单词数组
        String[] words = line.split(" ");
        // 遍历单词数组，生成输出键值对
        for (int i = 0; i < words.length; i++) {
            context.write(new Text(words[i]), new IntWritable(1));
        }
    }
}

由于WordCountMapper的输出键值类型发生变化，所以必须告诉WordCountDriver。

9、修改词频统计驱动器类

修改map任务输出键值类型

10、启动词频统计驱动器类，查看结果

观察输出结果，map阶段会按键排序输出
对于这样一组键值对，传递到reduce阶段，按键排序，其值构成迭代器

I	<1>
and	<1>
hadoop	<1,1,1>
hbase	<1,1>
hello	<1,1,1>
hive	<1,1,1>
love	<1>
world	<1,1,1>

映射任务与归并任务示意图

11、创建词频统计归并器类

一个类继承Reducer，变成一个Reducer组件类
Reducer组件会接收Mapper组件的输出结果
第一个泛型对应的是Mapper输出key类型
第二个泛型对应的是Mapper输出value类型
第三个泛型和第四个泛型是Reducer的输出key类型和输出value类型
Reducer组件不能单独存在，但是Mapper组件可以单独存在
当引入Reducer组件后，输出结果文件内容就是Reducer的输出key和输出value
在net.hw.mr包里创建WordCountReducer

package net.hw.mr;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

/**
 * 功能：词频统计归并器
 * 作者：华卫
 * 日期：2022年12月13日
 */
public class WordCountReducer extends Reducer<Text, IntWritable, Text, Text> {
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context)
            throws IOException, InterruptedException {
        // 定义整数数组列表
        List<Integer> integers = new ArrayList<>();
        // 遍历输入值迭代器
        for (IntWritable value : values) {
            // 将每个值添加到数组列表
            integers.add(value.get()); // 利用get()方法将hadoop数据类型转换成java数据类型
        }
        // 输出新的键值对，注意要将java字符串转换成hadoop的text类型
        context.write(key, new Text(integers.toString()));
    }
}

创建了词频统计归并器之后，我们一定要告知词频统计驱动器类

12、修改词频统计驱动器类

设置词频统计的Reducer类及其输出键类型和输出值类型（Text，Text）

13、运行词频统计驱动器类，查看结果

运行WordCountDriver类，查看结果
现在我们需要修改词频统计归并器，将每个键（单词）的值迭代器进行累加，得到每个单词出现的总次数。

14、修改词频统计归并器类

输出键值类型改为IntWritable，遍历值迭代器，累加得到单词出现次数

package net.hw.mr;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/**
 * 功能：词频统计归并器
 * 作者：华卫
 * 日期：2022年12月14日
 */
public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context)
            throws IOException, InterruptedException {
        // 定义键出现次数
        int count = 0;
        // 遍历输入值迭代器
        for (IntWritable value : values) {
            count += value.get(); // 其实针对此案例，可用count++来处理
        }
        // 输出新的键值对，注意要将java的int类型转换成hadoop的IntWritable类型
        context.write(key, new IntWritable(count));
    }
}

由于修改了词频统计归并器的输出值类型（由Text类型改成了IntWritable类型），必须在词频统计驱动器类里进行设置

15、修改词频统计驱动器类

修改归并任务的输出值类型（IntWritable类型）

16、启动词频统计驱动器类，查看结果

此时，可以看到每个单词出现的次数

知识点学习

（1）MR框架有两个核心组件，分别是Mapper组件和Reducer组件
（2）写一个类，继承Mapper，则变成了一个Mapper组件类
（3）IntWritable, LongWritable，DoubleWritable, Text，NullWritable都是Hadoop序列化类型
（4）Mapper组件将每行的行首偏移量，作为输入key，通过map()传给程序员
（5）Mapper组件会将每行内容，作为输入value，通过map()传给程序员，重点是获取输入value
（6）Mapper的第一个泛型类型对应的是输入key的类型，第二个泛型类型对应的输入value
（7）MR框架所处理的文件可以是本地文件，也可以是HDFS文件
（8）map()被调用几次，取决于文件的行数
（9）通过context进行结果的输出，以输出key和输出value的形式来输出
（10）输出key是由第三个泛型类型决定，输出value是由第四个泛型类型决定
（11）输出结果文件的数据以及行数取决于context.write()方法
（12）Text => String:  value.toString()
（13）String => Text:  new Text(strVar)
（14）LongWritable => long:  key.get()
（15）long => LongWritable: new LongWritable(longVar)

17、采用多个Reduce做合并

相同key的键值对必须发送同一分区（一个Reduce任务对应一个分区，然后会生成对应的一个结果文件，有多少个Reduce任务，就会有多少个分区，最终就会产生多少个结果文件），否则同一个key最终会出现在不同的结果文件中，那显然不是我们希望看到的结果。

（1）MR默认采用哈希分区HashPartitioner

Mapper输出key.hashcode & Integer.MAX_ VALUE % Reduce任务数量

（2）修改词频统计驱动器类，设置分区数量

设置分区数量：3
此时，运行程序，查看结果
在Hadoop WebUI界面上可以看到，产生了三个结果文件

18、打包上传到虚拟机上运行

MR程序可以在IDEA里运行，也可以打成jar包，上传到虚拟机，利用hadoop jar命令来运行

（1）利用Maven打包

打开Maven管理窗口，找到项目的LifeCycle下的package命令
双击package命令，报错，maven插件版本不对
修改pom.xml文件，添加maven插件，记得要刷新maven
再次打包，即可生成MRWordCount-1.0-SNAPSHOT.jar

（2）将jar包上传到虚拟机

将MRWordCount-1.0-SNAPSHOT.jar上传到master虚拟机/home目录
查看上传的jar包

（3）运行jar包，查看结果

运行报错，Java编译版本不一致导致错误，本地打包用的是JDK11，虚拟机上安装的JDK8

（4）降低项目JDK版本，重新打包

修改项目JDK
修改语言级别
修改Java编译器版本
修改pom.xml文件
重新利用maven打包

（5）重新上传jar包到虚拟机

删除master虚拟机上的jar包
重新上传jar包

（6）运行jar包，查看结果

执行命令：hadoop jar MRWordCount-1.0-SNAPSHOT.jar net.hw.mr.WordCountDriver

19、创建新词频统计驱动器类

由用户指定输入路径和输出路径，如果用户不指定，那么由程序来设置
在net.hw.mr包里创建WordCountDriverNew类

package net.hw.mr;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.net.URI;

/**
 * 功能：新词频统计驱动器类
 * 作者：华卫
 * 日期：2022年12月14日
 */
public class WordCountDriverNew {
    public static void main(String[] args) throws Exception {
        // 创建配置对象
        Configuration conf = new Configuration();
        // 设置数据节点主机名属性
        conf.set("dfs.client.use.datanode.hostname", "true");

        // 获取作业实例
        Job job = Job.getInstance(conf);
        // 设置作业启动类
        job.setJarByClass(WordCountDriverNew.class);

        // 设置Mapper类
        job.setMapperClass(WordCountMapper.class);
        // 设置map任务输出键类型
        job.setMapOutputKeyClass(Text.class);
        // 设置map任务输出值类型
        job.setMapOutputValueClass(IntWritable.class);

        // 设置Reducer类
        job.setReducerClass(WordCountReducer.class);
        // 设置reduce任务输出键类型
        job.setOutputKeyClass(Text.class);
        // 设置reduce任务输出值类型
        job.setOutputValueClass(IntWritable.class);

        // 设置分区数量（reduce任务的数量，结果文件的数量）
        job.setNumReduceTasks(3);

        // 定义uri字符串
        String uri = "hdfs://master:9000";
        // 声明输入目录
        Path inputPath = null;
        // 声明输出目录
        Path outputPath = null;
        // 判断输入参数个数
        if (args.length == 0) {
            // 创建输入目录
            inputPath = new Path(uri + "/wordcount/input");
            // 创建输出目录
            outputPath = new Path(uri + "/wordcount/output");
        } else if (args.length == 2) {
            // 创建输入目录
            inputPath = new Path(uri + args[0]);
            // 创建输出目录
            outputPath = new Path(uri + args[1]);
        } else {
            // 提示用户参数个数不符合要求
            System.out.println("参数个数不符合要求，要么是0个，要么是2个！");
            // 结束应用程序
            return;
        }

        // 获取文件系统
        FileSystem fs = FileSystem.get(new URI(uri), conf);
        // 删除输出目录（第二个参数设置是否递归）
        fs.delete(outputPath, true);

        // 给作业添加输入目录（允许多个）
        FileInputFormat.addInputPath(job, inputPath);
        // 给作业设置输出目录（只能一个）
        FileOutputFormat.setOutputPath(job, outputPath);

        // 等待作业完成
        job.waitForCompletion(true);

        // 输出统计结果
        System.out.println("======统计结果======");
        FileStatus[] fileStatuses = fs.listStatus(outputPath);
        for (int i = 1; i < fileStatuses.length; i++) {
            // 输出结果文件路径
            System.out.println(fileStatuses[i].getPath());
            // 获取文件系统数据字节输入流
            FSDataInputStream in = fs.open(fileStatuses[i].getPath());
            // 将结果文件显示在控制台
            IOUtils.copyBytes(in, System.out, 4096, false);
        }
    }
}

20、重新打包上传虚拟机并执行

重新打包
删除先前的jar包
上传新的单词文件
上传新的jar包
执行命令：hadoop jar MRWordCount-1.0-SNAPSHOT.jar net.hw.mr.WordCountDriverNew，不指定输入路径和输出路径参数
执行命令：hadoop jar MRWordCount-1.0-SNAPSHOT.jar net.hw.mr.WordCountDriverNew /winter/input /winter/output，指定输入路径和输出路径参数
执行命令：hadoop jar MRWordCount-1.0-SNAPSHOT.jar net.hw.mr.WordCountDriverNew /winter/input，指定输入路径参数，不指定输出路径参数

21、将三个类合并成一个类完成词频统计

在net.hw.mr包里创建WordCount类

package net.hw.mr;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

import java.io.IOException;
import java.net.URI;

/**
 * 功能：词频统计
 * 作者：华卫
 * 日期：2022年12月14日
 */
public class WordCount extends Configured implements Tool {

    public static class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
        @Override
        protected void map(LongWritable key, Text value, Context context)
                throws IOException, InterruptedException {
            // 获取行内容
            String line = value.toString();
            // 清洗所有英文标点符号（\p——属性[property]，P——标点符号[Punctuation]）
            line = line.replaceAll("[\\pP]", "");
            // 按空格拆分得到单词数组
            String[] words = line.split(" ");
            // 遍历单词数组，生成输出键值对
            for (int i = 0; i < words.length; i++) {
                context.write(new Text(words[i]), new IntWritable(1));
            }
        }
    }

    public static class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
        @Override
        protected void reduce(Text key, Iterable<IntWritable> values, Context context)
                throws IOException, InterruptedException {
            // 定义输出键出现次数
            int count = 0;
            // 历输出值迭代对象，统计其出现次数
            for (IntWritable value : values) {
                count = count + value.get();
            }
            // 生成键值对输出
            context.write(key, new IntWritable(count));
        }
    }

    @Override
    public int run(String[] strings) throws Exception {
        // 创建配置对象
        Configuration conf = new Configuration();
        // 设置数据节点主机名属性
        conf.set("dfs.client.use.datanode.hostname", "true");

        // 获取作业实例
        Job job = Job.getInstance(conf);
        // 设置作业启动类
        job.setJarByClass(WordCountDriver.class);

        // 设置Mapper类
        job.setMapperClass(WordCountMapper.class);
        // 设置map任务输出键类型
        job.setMapOutputKeyClass(Text.class);
        // 设置map任务输出值类型
        job.setMapOutputValueClass(IntWritable.class);

        // 设置Reducer类
        job.setReducerClass(WordCountReducer.class);
        // 设置reduce任务输出键类型
        job.setOutputKeyClass(Text.class);
        // 设置reduce任务输出值类型
        job.setOutputValueClass(IntWritable.class);

        // 设置分区数量（reduce任务的数量，结果文件的数量）
        job.setNumReduceTasks(3);

        // 定义uri字符串
        String uri = "hdfs://master:9000";
        // 创建输入目录
        Path inputPath = new Path(uri + "/wordcount2/input");
        // 创建输出目录
        Path outputPath = new Path(uri + "/wordcount2/output");

        // 获取文件系统
        FileSystem fs = FileSystem.get(new URI(uri), conf);
        // 删除输出目录（第二个参数设置是否递归）
        fs.delete(outputPath, true);

        // 给作业添加输入目录（允许多个）
        FileInputFormat.addInputPath(job, inputPath);
        // 给作业设置输出目录（只能一个）
        FileOutputFormat.setOutputPath(job, outputPath);

        // 等待作业完成
        boolean res = job.waitForCompletion(true);

        // 输出统计结果
        System.out.println("======统计结果======");
        FileStatus[] fileStatuses = fs.listStatus(outputPath);
        for (int i = 1; i < fileStatuses.length; i++) {
            // 输出结果文件路径
            System.out.println(fileStatuses[i].getPath());
            // 获取文件系统数据字节输入流
            FSDataInputStream in = fs.open(fileStatuses[i].getPath());
            // 将结果文件显示在控制台
            IOUtils.copyBytes(in, System.out, 4096, false);
        }

        if (res) {
            return 0;
        } else {
            return -1;
        }
    }

    public static void main(String[] args) throws Exception {
        int res = ToolRunner.run(new WordCount(), args);
        System.exit(res);
    }
}

上传一个有标点符号的单词文件
运行程序，查看结果
先前为了打包上传能在虚拟机上运行jar包，将JDK版本降低到8，因此还得修改编译器配置文件
运行程序，查看结果

22、合并分区导致的多个结果文件

采用分区来处理，确实提高了效率，但是现在有多个结果文件，怎么合并它们成为一个最终的一个结果文件呢？
利用hadoop的-getmerge命令来完成：hdfs dfs -getmerge /wordcount/result part-r-final

23、统计不同单词数

利用MR对多个文件进行词频统计，得到的一个或多个结果文件，多个结果文件可以合并成一个最终结果文件，比如part-r-final，然后利用Linux命令统计行数即可。

利用cat -nu命令，带行号显示文件内容
利用wc -l命令，统计文件行数，即不同单词数
wc命令还有其它参数

三、归纳总结

回顾本节课所讲的内容，并通过提问的方式引导学生解答问题并给予指导。

四、上机操作

形式：单独完成
题目：使用MapReduce计算总成绩
要求：成绩表，包含四个字段（姓名、语文、数学、英语），只有三条记录

姓名	语文	数学	英语
张钦林	78	90	76
陈燕文	95	88	98
卢志刚	78	80	60

成绩表文件 - score.txt

张钦林 78 90 76
陈燕文 95 88 98
卢志刚 78 80 60

使用MR，计算结果

五、解决问题

错误：Did not find winutils.exe

运行WordCountDriver类，报错找不到winutils.exe文件
解决办法：下载对应版本的winutils.exe和hadoop.dll，放在hadoop安装目录的bin子目录里
https://github.com/cdarlint/winutils/blob/master/hadoop-3.2.2/bin/winutils.exe
https://github.com/cdarlint/winutils/blob/master/hadoop-3.2.2/bin/hadoop.dll
配置环境变量

环境变量	值
HADOOP_HOME	D:\hadoop-3.3.4
HADOOP_USER_NAME	root
Path	%HADOOP_HOME%\bin;

此时，重启IDEA，打开MRWordCount项目，运行WordCountDriver类，就没有问题了

你可能感兴趣的:(Hadoop分布式入门,大数据,笔记,mapreduce)

2018-10-24丨微日记027 Jonathanchoi
今天分享一些小碎片：有道云笔记里头有一个扫描文档的功能，可是它只能自动识别，却不能给用户编辑的机会，可谓是“拍得到就是你的，拍不到就拜拜”，而扫描全能王则提供了识别错误后可编辑的功能。开完组会路过包道的时候，发现它提供了顾客到店开柜取餐的功能，为想吃到美食却赶路程赶时间的人们提供了多种选择性。这种饮食界的丰巢快递柜，个人我觉得很实用。捷登都会的洗手间设置让人不太习惯，三层男厕二层是女厕，经常让人白
C#语法基础总结（超级全面）（二） inwith C#语法基础 c#开发语言
文章目录c#语法基本元素关键字操作符（operator）类型转换标识符（Identifier）语句try语句迭代语句（循环语句）索引器文本（字面值）五大数据类型引用类型：值类型：变量、对象与内存装箱和拆箱类类的实例化类的三大成员（属性、方法、事件）属性（property）方法（函数）方法参数值参数引用参数输出参数数组参数具名参数可选参数扩展方法（this参数）方法的重载构造器（constructo
Proto文件从入门到精通——现代分布式系统通信的基石（含实战案例）筏.k gRPC c++rpc 服务器
gRPC核心技术详解：Proto文件从入门到精通——现代分布式系统通信的基石（含实战案例）更新时间：2025年7月18日️标签：gRPC|ProtocolBuffers|Proto文件|微服务|分布式系统|RPC通信|接口定义文章目录前言一、基础概念：Proto文件究竟是什么？1.什么是Proto文件？2.传统通信vsProto通信二、语法详解：Proto文件的构成要素1.基本语法结构2.数据类型
c语言如何宏定义枚举型结构体,C语言学习笔记--枚举&结构体搁浅的鲎 c语言如何宏定义枚举型结构体
枚举枚举是一种用户定义的数据类型，它用关键字enum以如下语法格式来声明：enum枚举类型名字{名字0，名字1，。。。，名字n}；枚举类型名字通常并不真的使用，要用的是大括号里面的名字，因为它们就是常量符号，它们的类型是int，值则依次从0到n。如：enumcolor{red,yellow,green};就创建了3个常量，red的值是0，yellow的值是1，green的值是2。当需要一些可以排列
尚硅谷C语言笔记-结构体与共用体想名困难户尚硅谷C语言笔记 c语言笔记
1、结构体(struct)类型的基本使用1.1为什么需要结构体？C语言内置的数据类型，除了几种原始的基本数据类型，只有数组属于复合类型，可以同时包含多个值，但是只能包含相同类型的数据，实际使用场景受限。1.2结构体的理解C语言提供了struct关键字，允许自定义复合数据类型，将不同类型的值组合在一起，这种类型称为结构体（structure）类型。C语言没有其他语言的对象(object)和类(cla
【橘子分布式】Thrift RPC(编程篇) 当年明日分布式分布式 rpc 网络协议
一、简介之前我们研究了一下thrift的一些知识，我们知道他是一个rpc框架，他作为rpc自然是提供了客户端到服务端的访问以及两端数据传输的消息序列化，消息的协议解析和传输，所以我们今天就来了解一下他是如何实现这些功能，并且如何在实际代码中使用。我们需要搭建环境。1.安装Thrift作用：把IDL语言描述的接口内容，生成对应编程语言的代码，简化开发。我们已经介绍了在mac如何使用brew安装了。2
2018-05-10 黛丽丝
今天，儿子给我分享他的快乐：上课时，因为积极发言得了两张表扬信。又因为能积极背诵课文片段，又得了两张！祝贺！祝贺！晚上写作业挺积极，从不用我催促！这好习惯妈妈也该奖励！唯一缺乏自我细心检查的好习惯，什么时间儿子会自己认真检查作业，就更“完美”了！自从儿子买上笔记本，就见他有时记录一些东西，具体内容他一直保密！睡觉的时间到了，我忍不住地问：“儿子，你笔记本都记录些什么？”儿子说：“今晚你可以看了！不
学习笔记(39):结合生活案例，介绍 10 种常见模型宁儿数据安全 #机器学习学习笔记生活
学习笔记(39):结合生活案例，介绍10种常见模型线性回归只是机器学习的“冰山一角”！根据不同的任务场景（分类、回归、聚类等），还有许多强大的模型可以选择。下面我用最通俗易懂的语言，结合生活案例，介绍10种常见模型及其适用场景：一、回归模型（预测连续值，如房价）1.决策树（DecisionTree）原理：像玩“20个问题”游戏，通过一系列判断（如“面积是否>100㎡？”“房龄是否0.5就判为“会”
分布式弹性故障处理框架——Polly(1)
1前言之服务雪崩在我们实施微服务之后，服务间的调用变得异常频繁，多个服务之前可能存在互相依赖的关系，当某个服务出现故障或者是因为服务间的网络出现故障，导致服务调用的失败，进而影响到某个业务服务处理失败，服务依赖的故障可能导致级联崩溃，如一个微服务不可用拖垮整个系统。【服务雪崩】服务雪崩通常遵循“从局部故障到全局崩溃”的递进路径，可拆解为以下步骤：初始故障某个基础服务（如数据库、缓存、第三方API）
插板式系统的“生命线“：EtherCAT分布式供电该如何实现？ ZLG 致远电子 iot
在ZIO系列插板式模组系统中，EtherCAT分布式供电如同设备的血液循环网络，其供电稳定性直接决定系统可靠性。本文将从电流计算到电源扩展，为您讲解EtherCAT分布式供电该如何实现。ZIO系列插板式模组的电源介绍ZIO系列插板式I/O模块是ZLG开发的可灵活设计的远程I/O扩展模块。该系列产品由耦合器、数字I/O、电机驱动、模拟量、电源等功能模块组成。ZIO系列可以通过定制化的底板集成各类接口
USB Hub 和 USB Dock 技术解析 TESmart碲视 KVM切换器领域相关技术网络电脑计算机外设智能硬件物联网游戏
"笔记本只有两个USB口，外接键盘鼠标后就没法插U盘了…"这样的困扰正在数百万办公族日常上演。面对接口荒，市场给出了两种截然不同的解决方案——轻巧便携的USBHub与功能强大的USBDock扩展坞，但究竟哪种才是你的Mr.Right？本文将从工作原理、协议支持、应用场景三个维度展开深度解析：Hub如同USB接口的"分线器"，通过简单的信号复制实现多个USB端口基础扩展；Dock则是系统级的"外设中
嵌入式单片机开发实战指南：从RISC-V到TinyML全栈技术 CodeMicro 单片机单片机 risc-v 嵌入式硬件
前言：嵌入式单片机的2025年技术浪潮2025年，嵌入式系统正经历开源架构与边缘智能的双重革命。RISC-V指令集打破ARM垄断，国产芯片如兆易创新GD32VF103、先楫HPM6750实现工业级可靠性；TinyML技术让STM32L4系列在1MB内存下运行神经网络；低功耗设计使物联网节点电池寿命突破10年。本文将从架构选型→开发环境→核心技术→实战项目，全方位拆解嵌入式开发的热门技术，带你从入门
【vLLM 学习】Encoder Decoder Multimodal HyperAI超神经 vLLM vLLM KV缓存大语言模型推理加速内存管理开源项目在线教程
vLLM是一款专为大语言模型推理加速而设计的框架，实现了KV缓存内存几乎零浪费，解决了内存管理瓶颈问题。更多vLLM中文文档及教程可访问→https://vllm.hyper.ai/*在线运行vLLM入门教程：零基础分步指南源码examples/offline_inference/encoder_decoder_multimodal.py#SPDX-License-Identifier:Apach
《故事写作大师班》阅读笔记莫如斯
从今天起，开始在微信读书上阅读《故事写作大师班》。每天晨读一个小时，细细来读，约需10天。在阅读过程中，发现有感触、有收获的段落，以及他人分享的有价值的内容，先在这里记录下来，等整本读完，再作一个总结。《故事写作大师班》作者约翰。特鲁比，是好莱坞首屈一指的故事写作顾问，约翰。特鲁比作家工作室创始人。该书是他30年故事创作与教学经验的精华，包含故事写作的整套秘诀，帮且创作者找到对的方法，写出好的故事
Unity_通过鼠标点击屏幕移动屏幕里的一个对象沧海归城 unity 计算机外设游戏引擎
文章目录一、获取到点击物体的Tansform（摁下鼠标左键的瞬间）二、移动点击的物体（摁着鼠标左键不放）三、松开左键清理被移动对象属性总结注：本文章只是学习总结的笔记，视频链接一、获取到点击物体的Tansform（摁下鼠标左键的瞬间）实现思路：通过Camera的ScreenPointToRay方法和Input.mousePosition鼠标坐标生成创建Ray射线，再通过Physics的Raycas
《金字塔原理》读书笔记猫呢wyh
主要内容：此书教授我们使用金字塔原理，搭建表达的逻辑，想清楚，说明白，知道说什么，怎么说。本书呈现四大逻辑——表达的逻辑、思考的逻辑、解决问题的逻辑、演示的逻辑。什么是金字塔原理：金字塔原理是一种重点突出、逻辑清晰、层次分明、简单易懂的思考、沟通方式。金字塔原理的基本结构：结论先行，以上统下，归类分组，逻辑递进。（全书精华）先重要后次要，先总结后具体，先框架后细节，先结论后原因，先结构后过程，先论
20250718-2-Kubernetes 应用程序生命周期管理-Pod对象：基本概念(豌豆荚)_笔记 Andy杨 CKA-专栏 kubernetes 容器笔记
二、Kubernetes应用程序生命周期管理1.课程内容概述主要内容：Pod资源共享实现机制管理命令应用自修复（重启策略+健康检查）环境变量Initcontainer静态Pod2.Pod对象介绍1）Pod基本概念定义：Pod是Kubernetes创建和管理的最小单元，一个逻辑抽象概念组成：由一个或多个容器组成特点：可理解为一个应用实例容器始终部署在同一个节点上容器间共享网络和存储资源设计灵
笔记本电脑什么品牌质量最好？公认最好的笔记本品牌古楼
面对市面上层出不穷的笔记本电脑品牌，大家是不是比较困惑，不知道具体应该入手哪一款笔记本电脑。如果说大家确实存在这方面的情况，那么建议大家可以参考一下笔者如下所述。笔记本电脑什么品牌质量最好？下面，笔者给大家呈现实际情况！买笔记本上高省，领取隐藏优惠券，让你更省！大家好，我是高省APP最大团队，【高省】是一个可省钱佣金高，能赚钱有收益的平台，百度有几百万篇报道，也期待你的加入。高省邀请码520888
Java Script学习笔记（1） MERRYME2 笔记 java 学习 javascript
JavaScript学习笔记（1）(课程：黑马程序员)JavaScript是什么JavaScript是世界最流行的语言之一，是一种运行在客户端的脚本语言（Script是脚本的意思）脚本语言：不需要编译，运行过程中由js解释器（js引擎）逐行来进行解释并执行现在也可以基于Node.js技术进行服务器端编程JS的组成ECMAScript（JavaScript语法）和DOM（页面文档对象）和BOM（浏览
GPU网络运维一行代码通万物网络运维 GPU
一、GPU网络架构与核心技术GPU集群网络需适配分布式训练中“多节点数据同步”（如all-reduce、broadcast）的高频、大流量需求，主流技术方案及特点如下：网络技术核心优势适用场景运维重点InfiniBand低延迟（~1us）、高带宽（400Gb/s）、原生RDMA支持超大规模集群（≥1000节点）、千亿参数模型训练子网管理、固件兼容性、链路健康RoCE（RDMAoverConverg
谷歌云(GCP)入门指南：从零开始搭建你的第一个云应用 AI云原生与云计算技术学院 AI云原生与云计算 perl 服务器网络 ai
谷歌云(GCP)入门指南：从零开始搭建你的第一个云应用关键词：谷歌云、GCP、云应用搭建、入门指南、云计算摘要：本文旨在为初学者提供一份全面的谷歌云（GCP）入门指南，详细介绍如何从零开始搭建第一个云应用。通过逐步分析推理，我们将涵盖背景知识、核心概念、算法原理、数学模型、项目实战、实际应用场景、工具资源推荐等多个方面，帮助读者深入理解GCP的使用方法和搭建云应用的流程，为后续的云计算实践打下坚实
Java-Script学习笔记-1 许我写余生ღ JavaScript 学习 javascript 前端
文章目录前言JavaScript基本介绍一、js的嵌入方法内嵌式外链式行内式二、js简单语法语句注释变量JavaScript保留关键字三、JavaScript作用域Javascrpt局部变量JavaScript全局变量四、运算符算术运算符比较运算符赋值运算符逻辑运算符五、JavaScript数据类型JavaScript如何判断数据类型数字类型（Number）字符串型（string）布尔类型（boo
操作系统笔记：进程调度（Process Scheduling）笑衬人心。操作系统笔记笔记 os 进程调度
一、什么是进程调度进程调度（ProcessScheduling）是操作系统中负责选择下一个要运行的进程的一项核心功能。在多道程序设计系统中，多个进程竞争CPU资源，调度器根据特定策略选择一个进程运行。目标：提高CPU利用率提高系统吞吐量减少平均等待时间保证响应时间实现公平性与优先级二、调度类型调度类型说明长程调度（Long-term）决定哪些进程进入就绪队列中程调度（Mid-term）暂停/恢复进
java Script笔记
第一章,初始javascript1,javascript的基本概念JavaScript一种直译式脚本语言，一种基于对象和事件驱动并具有安全性的客户端脚本语言；也是一种广泛应用客户端web开发的脚本语言。简单地说，JavaScript是一种运行在浏览器中的解释型的编程语言。2,Javascript的特点解释性的脚本语言（代码不进行预编译）与其他脚本语言一样，JavaScript也是一种解释性语言，它
《自我放松训练》读书笔记 dear心理咨询师黄倩雯
重复背诵一些有自己编排的指令，比如我的双臂在发热或者我的身体在变得越来越轻松，直到自己感觉到由该指令说描述的效果正在身体上出现，这类似于臆想和幻觉的演习，属于潜意识领域的内容。首先设想一个舒适的身体姿势，不要自己支撑着身体。松开身上的衣物首饰其实置身于安静舒适的环境中当发出指令时，要积极的为体察自己的感觉做好准备。发指令是这平时的深呼吸动作。做完一段动作是做些恢复身体灵敏动作。最后，积极的建议结束
【JS笔记】Java Script学习笔记
JavaScript输出语句document.write()：将内容写入html文档console.log()：将内容写入控制台alert()：弹窗变量JS是弱类型语言，变量无类型var：全局变量，可重复声明let：局部变量，不可重复声明const：常量，不可重复声明数据类型number：数字。整数、浮点数、NaNstring：字符串。单引号：'Hello'双引号："Hello"模板字符串：使用反
达梦分布式集群DPC_DPC线程深度解析_yxy yxy___ 达梦分布式集群分布式线程 DPC
达梦分布式集群DPC_DPC线程深度解析1.DPC专用线程体系1.1DPC线程池分类1.1.1底层公共线程池1.1.2上层专用线程池1.2线程管理模式1.2.1生产者-消费者模式1.2.2领导者跟随者模式2.DPC线程相关视图2.1THREADS2.2DPC_STASK_THRD2.3关键列解释3.DPC线程管理监控3.1sql卡顿，找出关键线程分析3.2完整sql执行示例1.DPC专用线程体系文
2023-02-03 每天微笑愉婉柔
20230203《会痛的不是爱》69笔记每场权力斗争都提醒了我曾经受伤的地方笔记：1有斗争，有挣扎，想防卫，这很正常。会受伤，难受，痛苦，这也很正常。无需去否认，抵触，想要尽快摆脱逃离这些。只需要去承认，去接受，去经历体验这些，并从这些里探索，哪些是过往的自己，以及现在的自己又可以如何。2权力斗争意味着我们活在经验中、恐惧中、防卫中；成长和疗愈带领我们活在体验中、对恐惧的直面中、对当下和关系伙伴的
STC15单片机实战笔记一未来电子机械工程师单片机STC15实战单片机
新建工程一、新建工程前的准备1、添加型号与头文件到keil第一次新建STC工程时，需要将STC的型号与头文件添加到keil软件中。打开STC-ISP下载工具，切换至keil仿真设置栏，按提示添加即可。2、新建工程文件夹①、在新建工程目录下新建软件开发文件夹用于存放工程文件；②、在软件开发目录下新建user文件夹，用于存放main，public等文件；③、在软件开发目录下新建app文件夹，用于存放应
文献笔记八十一：植物长链非编码RNA数据库PLncDB 2.0 小明的数据分析笔记本
论文链接https://academic.oup.com/nar/article/49/D1/D1489/5932847本地文件gkaa910.pdf
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本