哎呦、不错哦

Hadoop权威指南---map和reduce函数使用解析

1、数据准备

2、 Java MapReduce

2.1、map函数的实现

2.2、reduce函数的实现

2.3、负责运行MapReduce的代码

2.4、运行测试

3、旧的和新的Java MapReduce API几个明显的区别

4、数据流和combiner函数

4.1 数据流

4.2 combiner函数

4.3 Hadoop Streaming

5、分布式存储数据需要解决的问题

6、关系型数据库和mapreduce的对比

总结：
1、在map输出结果的时候可以自定义结果的输出分区，然后再job中添加分区设置，启用分区，并且map输出分区的个数对应于reduce的个数。job.setPartitionerClass(ProvincePartitioner.class);//加入自定义分区，这个设置五个分区用于存储map的结果，需要注意的是map的结果存在本地磁盘而非HDFS；job.setNumReduceTasks(5);//设置reduce任务数目；

2、有几个reduce就会存在几个输出文件，reduce的输出是存在HDFS上的，保证结果的可靠性存储；
3、combiner函数的功能是为了减少数据在map的reduce之间的传输，把在reduce上进行的处理在不影响结果的情况下，提前移动到map端；在job中设置启用combiner功能：job.setCombinerClass(MaxTemperatureReducer.class);

1、数据准备

MapReduce任务过程分为两个处理阶段：map阶段和reduce阶段。每个阶段都以键值对作为输入和输出，其类型由程序员来选择。程序员还需要写两个函数：map函数和reduce 函数。这里map阶段的输入是NCDC原始数据。我们选择文本格式作为输入格式，将数据集的每一行作为文本输入。键是某一行起始位置相对于文件起始位置的偏移量，不过我们不需要这个信息，所以将其忽略。我们的map函数很简单。由于我们只对年份和气温属性感兴趣，所以只需要取出这两个字段数据。在本例中，map函数只是一个数据准备阶段，通过这种方式来准备数据，使reducer函数能够继续对它进行处理：即找出每年的最高气温。map函数还是一个比较适合去除已损记录的地方：此处，我们筛掉缺失的、可疑的或错误的气温数据。为了全面了解map 的工作方式，我们考虑以下输入数据的示例数据(考虑到篇幅，去除了一些未使用的列，并用省略号表示)：

0067011990999991950051507004...9999999N9+00001+99999999999...
0043011990999991950051512004...9999999N9+00221+99999999999...
0043011990999991950051518004...9999999N9-00111+99999999999...
0043012650999991949032412004...0500001N9+01111+99999999999...
0043012650999991949032418004...0500001N9+00781+99999999999...
这些行以键/值对的方式作为map函数的输入：
(0, 0067011990999991950051507004...9999999N9+00001+99999999999...)
(106, 0043011990999991950051512004...9999999N9+00221+99999999999...)
(212, 0043011990999991950051518004...9999999N9-00111+99999999999...)
(318, 0043012650999991949032412004...0500001N9+01111+99999999999...)
(424, 0043012650999991949032418004...0500001N9+00781+99999999999...)
键(key)是文件中的行偏移量，map函数并不需要这个信息，所以将其忽略。map函数的功能仅限于提取年份和气温信息(以粗体显示)，并将它们作为输出(气温值已用整数表示)：
(1950, 0)
(1950, 22)
(1950, −11)
(1949, 111)
(1949, 78)
map函数的输出经由MapReduce框架处理后，最后发送到reduce函数。这个处理过程基于键来对键值对进行排序和分组。因此，在这一示例中，reduce函数看到的是如下输入：
(1949, [111, 78])
(1950, [0, 22, −11])
每一年份后紧跟着一系列气温数据。reduce函数现在要做的是遍历整个列表并从中找出最大的读数：
(1949, 111)
(1950, 22)
这是最终输出结果：每一年的全球最高气温记录。
整个数据流如图2-1所示。在图的底部是Unix管线，用于模拟整个MapReduce的流程

图2-1. MapReduce的逻辑数据流

2、 Java MapReduce

明白MapReduce 程序的工作原理之后，下一步就是写代码实现它。我们需要三样东西：一个map 函数、一个reduce 函数和一些用来运行作业的代码。map函数由Mapper 类实现来表示，后者声明一个map()虚方法。map函数实现如下所示：

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable; 
import org.apache.hadoop.io.Text; 
import org.apache.hadoop.mapreduce.Mapper; 

public class MaxTemperatureMapper 
  extends MapReduceBase implements Mapper {

  private static final int MISSING = 9999;     

  @Override
  public void map(LongWritable key, Text value, Context context)
      throws IOException, InterruptedException {
   
    String line = value.toString();
    String year = line.substring(15, 19);
    int airTemperature;
    if (line.charAt(87) == '+') { // parseInt doesn't like leading plus signs
      airTemperature = Integer.parseInt(line.substring(88, 92));
    } else {
      airTemperature = Integer.parseInt(line.substring(87, 92));
    }
    String quality = line.substring(92, 93);
    if (airTemperature != MISSING && quality.matches("[01459]")) {
      context.write(new Text(year), new IntWritable(airTemperature));   输出
    }
  }
}

2.1、map函数的实现

这个Mapper类是一个泛型类型，它有四个形参类型，分别指定map函数的输入键、输入值、输出键和输出值的类型。就现在这个例子来说，输入键是一个长整数偏移量，输入值是一行文本，输出键是年份，输出值是气温(整数)。Hadoop本身提供了一套可优化网络序列化传输的基本类型，而不直接使用Java内嵌的类型。这些类型都在org.apache.hadoop.io包中。这里使用LongWritable类型(相当于Java的Long类型)、Text类型(相当于Java中的String类型)和IntWritable类型(相当于Java的Integer类型)。

map()方法的输入是一个键和一个值。我们首先将包含有一行输入的Text值转换成Java的String类型，之后使用substring()方法提取我们感兴趣的列。map()方法还提供了Context实例用于输出内容的写入。在这种情况下，我们将年份数据按Text对象进行读/写 (因为我们把年份当作键)，将气温值封装在IntWritable 类型中。只有气温数据不缺并且所对应质量代码显示为正确的气温读数时，这些数据才会被写入输出记录中。

2.2、reduce函数的实现

以类似方法用Reducer来定义reduce函数

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class MaxTemperatureReducer
  extends Reducer {
 
  @Override
  public void reduce(Text key, Iterable values,
      Context context)
      throws IOException, InterruptedException {
   
    int maxValue = Integer.MIN_VALUE;
    for (IntWritable value : values) {
      maxValue = Math.max(maxValue, value.get());
    }
    context.write(key, new IntWritable(maxValue));  输出
  }
}

同样，reduce函数也有四个形式参数类型用于指定输入和输出类型。reduce 函数的输入类型必须匹配map 函数的输出类型：即Text类型和IntWritable类型。
在这种情况下，reduce函数的输出类型也必须是Text和IntWritable类型，分别输出年份及其最高气温。这个最高气温是通过循环比较每个气温与当前所知最高气温所得到的。

2.3、负责运行MapReduce的代码

import java.io.IOException;
import org.apache.hadoop.fs.Path; 
import org.apache.hadoop.io.IntWritable; 
import org.apache.hadoop.io.Text; 
import org.apache.hadoop.mapreduce.Job; 
import org.apache.hadoop.mapreduce.input.FileOutputFormat; 
import org.apache.hadoop.mapredduce.input.FileOutputFormat

public class MaxTemperature {

  public static void main(String[] args) throws Exception {
    if (args.length != 2) {
      System.err.println("Usage: MaxTemperature  ");
      System.exit(-1);
    }
   
    Job job = new Job();
    job.setJarByClass(MaxTemperature.class);  指定运行的作业类
    job.setJobName("Max temperature");       

    FileInputFormat.addInputPath(job, new Path(args[0]));   指定数据的位置
    FileOutputFormat.setOutputPath(job, new Path(args[1]));  指定结果的输出位置（如果已经存在报错）
   
    job.setMapperClass(MaxTemperatureMapper.class);       指定该job的map处理类
    job.setReducerClass(MaxTemperatureReducer.class);        指定该job的reduce处理类

    job.setOutputKeyClass(Text.class);              指定最终的输出key
    job.setOutputValueClass(IntWritable.class);     指定最终的输出value
   
    System.exit(job.waitForCompletion(true) ? 0 : 1);  提交作业并等待执行完成
  }
}

Job对象指定作业执行规范。我们可以用它来控制整个作业的运行。我们在Hadoop 集群上运行这个作业时，要把代码打包成一个JAR文件(Hadoop在集群上发布这个文件)。不必明确指定JAR文件的名称，在Job对象的setJarByClass()方法中传递一个类即可，Hadoop利用这个类来查找包含它的JAR文件，进而找到相关的JAR文件。构造Job对象之后，需要指定输入和输出数据的路径。调用 FileInputFormat类的静态方法addInputPath()来定义输入数据的路径，这个路径可以是单个的文件、一个目录(此时，将目录下所有文件当作输入)或符合特定文件模式的一系列文件。由函数名可知，可以多次调用addInputPath()来实现多路径的输入。调用FileOutputFormat 类中的静态方法 setOutputPath()来指定输出路径(只能有一个输出路径)。这个方法指定的是reduce 函数输出文件的写入目录。在运行作业前该目录是不应该存在的，否则Hadoop 会报错并拒绝运行作业。这种预防措施的目的是防止数据丢失(长时间运行的作业如果结果被意外覆盖，肯定是非常恼人的)。接着，通过setMapperClass()和setReducerClass()指定map类型和reduce类型。setOutputKeyClass()和setOutputValueClass()控制map和reduce函数的输出类型，正如本例所示，这两个输出类型一般都是相同的。如果不同，则通过setMapOutputKeyClass()和setMapOutputValueClass()来设置map函数的输出类型。输入的类型通过InputFormat类来控制，我们的例子中没有设置，因为使用的是默认的TextInputFormat(文本输入格式)。

在设置定义map 和reduce 函数的类之后，可以开始运行作业。Job中的waitForCompletion()方法提交作业并等待执行完成。该方法中的布尔参数是个详细标识，所以作业会把进度写到控制台。waitForCompletion()方法返回一个布尔值，表示执行的成 (true)败(false)，这个布尔值被转换成程序的退出代码0或者1。

2.4、运行测试

首先，以独立(本机)模式安装Hadoop，详细说明请参见附录A。在这种模式下，Hadoop在本地文件系统上运行作业程序

以前面讨过的5行采样数据为例来测试MapReduce作业(考虑到篇幅，这里对输出稍有修改)：

% export HADOOP_CLASSPATH=hadoop-examples.jar
% hadoop MaxTemperature input/ncdc/sample.txt output

12/02/04 11:50:41 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
12/02/04 11:50:41 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same.
12/02/04 11:50:41 INFO input.FileInputFormat: Total input paths to process : 1
12/02/04 11:50:41 INFO mapred.JobClient: Running job: job_local_0001
12/02/04 11:50:41 INFO mapred.Task:  Using ResourceCalculatorPlugin : null
12/02/04 11:50:41 INFO mapred.MapTask: io.sort.mb = 100
12/02/04 11:50:42 INFO mapred.MapTask: data buffer = 79691776/99614720
12/02/04 11:50:42 INFO mapred.MapTask: record buffer = 262144/327680
12/02/04 11:50:42 INFO mapred.MapTask: Starting flush of map output
12/02/04 11:50:42 INFO mapred.MapTask: Finished spill 0
12/02/04 11:50:42 INFO mapred.Task: Task:attempt_local_0001_m_000000_0 is done. And is in the process of commiting
12/02/04 11:50:42 INFO mapred.JobClient:  map 0% reduce 0%
12/02/04 11:50:44 INFO mapred.LocalJobRunner:
12/02/04 11:50:44 INFO mapred.Task: Task 'attempt_local_0001_m_000000_0' done.
12/02/04 11:50:44 INFO mapred.Task:  Using ResourceCalculatorPlugin : null
12/02/04 11:50:44 INFO mapred.LocalJobRunner:
12/02/04 11:50:44 INFO mapred.Merger: Merging 1 sorted segments
12/02/04 11:50:44 INFO mapred.Merger: Down to the last merge-pass, with 1 segments left of total size: 57 bytes
12/02/04 11:50:44 INFO mapred.LocalJobRunner:
12/02/04 11:50:45 INFO mapred.Task: Task:attempt_local_0001_r_000000_0 is done. And is in the process of commiting
12/02/04 11:50:45 INFO mapred.LocalJobRunner:
12/02/04 11:50:45 INFO mapred.Task: Task attempt_local_0001_r_000000_0 is allowed to commit now
12/02/04 11:50:45 INFO output.FileOutputCommitter: Saved output of task 'attempt_local_0001_r_000000_0' to output
12/02/04 11:50:45 INFO mapred.JobClient:  map 100% reduce 0%
12/02/04 11:50:47 INFO mapred.LocalJobRunner: reduce > reduce
12/02/04 11:50:47 INFO mapred.Task: Task 'attempt_local_0001_r_000000_0' done.
12/02/04 11:50:48 INFO mapred.JobClient:    map 100% reduce 100%
12/02/04 11:50:48 INFO mapred.JobClient:    Job complete: job_local_0001
12/02/04 11:50:48 INFO mapred.JobClient:     Counters: 17
12/02/04 11:50:48 INFO mapred.JobClient:     File Output Format Counters
12/02/04 11:50:48 INFO mapred.JobClient:      Bytes Written=29
12/02/04 11:50:48 INFO mapred.JobClient:       FileSystemCounters
12/02/04 11:50:48 INFO mapred.JobClient:      FILE_BYTES_READ=357503
12/02/04 11:50:48 INFO mapred.JobClient:      FILE_BYTES_WRITTEN=425817
12/02/04 11:50:48 INFO mapred.JobClient:       File Input Format Counters
12/02/04 11:50:48 INFO mapred.JobClient:     Bytes Read=529
12/02/04 11:50:48 INFO mapred.JobClient:       Map-Reduce Framework
12/02/04 11:50:48 INFO mapred.JobClient:     Map output materialized bytes=61
12/02/04 11:50:48 INFO mapred.JobClient:      Map input records=5
12/02/04 11:50:48 INFO mapred.JobClient:      Reduce shuffle bytes=0
12/02/04 11:50:48 INFO mapred.JobClient:      Spilled Records=10
12/02/04 11:50:48 INFO mapred.JobClient:     Map output bytes=45
12/02/04 11:50:48 INFO mapred.JobClient:     Total committed heap usage (bytes)=369238016
12/02/04 11:50:48 INFO mapred.JobClient:      SPLIT_RAW_BYTES=129
12/02/04 11:50:48 INFO mapred.JobClient:      Combine input records=0
12/02/04 11:50:48 INFO mapred.JobClient:      Reduce input records=5
12/02/04 11:50:48 INFO mapred.JobClient:      Reduce input groups=2
12/02/04 11:50:48 INFO mapred.JobClient:      Combine output records=0
12/02/04 11:50:48 INFO mapred.JobClient:      Reduce output records=2
12/02/04 11:50:48 INFO mapred.JobClient:      Map output records=5

如果调用hadoop命令的第一个参数是类名，Hadoop就会启动一个JVM（Java虚拟机）来运行这个类。使用hadoop命令运行作业比直接使用Java命令来运行更方便，因为前者将Hadoop库文件(及其依赖关系)路径加入到类路径参数中，同时也能获得Hadoop的配置文件。需要定义一个 HADOOP_CLASSPATH 环境变量用于添加应用程序类的路径，然后由Hadoop 脚本来执行相关操作。以本地(独立)模式运行时，本书中所有程序均假设按照这种方式来设置HADOOP_CLASSPATH。命令的运行需要在范例代码所在的文件夹下进行。

运行作业所得到的输出提供了一些有用的信息。例如，我们可以看到，这个作业有指定的标识，即job_local_0001，并且执行了一个map 任务和一个reduce 任务(使用attempt_local_0001_m_000000_0和attempt_ local_0001_r_000000_0两个ID)。在调试MapReduce作业时，知道作业ID和任务ID 是非常有用的。输出的最后一部分，以Counters为标题，显示Hadoop 上运行的每个作业的一些统计信息。这些信息对检查数据是否按照预期进行处理非常有用。
例如，我们查看系统输出的记录信息可知：5个map输入产生了5个map输出，然后5个reduce 输入产生2个reduce 输出。
输出数据写入output目录，其中每个reducer都有一个输出文件。我们的例子中只有一个 reducer，所以只能找到一个名为part-00000的文件：
% cat output/part-r-00000
1949 111
1950 22
这个结果和我们之前手动寻找的结果一样。我们把这个结果解释为1949年的最高气温记录为11.1℃，而1950 年为2.2℃。

3、旧的和新的Java MapReduce API几个明显的区别

1）、新API 倾向于使用虚类，而不是接口，因为更有利于扩展。这意味着用不着修改类的实现，即可在虚类中添加一个方法(即默认的实现)。在旧API中使用Mapper和Reducer接口，而在新API 中使用虚类。
2）、新API放在org.apache.hadoop.mapreduce包(和子包)中。之前版本的API依旧放在org.apache.hadoop.mapred中。
3）、新API充分使用上下文对象，使用户代码能与MapReduce系统通信。例如，新的Context基本统一了旧API中的JobConf、OutputCollector和Reporter的功能。
4）、键/值对记录在这两类API中都被推给mapper和reducer，但除此之外，新的API 通过重写run()方法允许mapper和reducer控制执行流程。
例如，既可以批处理记录，也可以在处理完所有的记录之前停止。在旧API中可以通过写MapRunnable类在mapper中实现上述功能，但是在reducer中没有对等的实现。
5）、新的API中作业控制由Job类实现，而非旧API中的JobClient类，新的API中删除了JobClient类。
6）、新增的API实现了配置的统一。旧API 通过一个特殊的JobConf 对象配置作业，该对象是Hadoop配置对象的一个扩展。在新API 中，作业的配置由Configuration(或许通过Job类中的一些辅助方法)来完成。
7）、输出文件的命名方式稍有不同。在旧的API中map和reduce的输出被统一命名为part-nnmm，但是在新API中map的输出文件名为part-m-nnnnn，
而reduce的输出文件名为part-r-nnnnn(其中nnnnn是从0开始的表示分块序号的整数)。
8)、新API中的用户重载函数被声明为抛出异常java.lang.InterruptedException。这意味着可以用代码来实现中断响应，从而使该框架在必要时可以优雅地取消需长时间运行的作业。
9）、在新的API中，reduce()传递的值是java.lang.Iterable类型的，而非java.lang.Iterator类型(旧API中传递该类型的值)。这一改变使我们更容易通过Java的for-each循环结构来来迭代这些值。

4、数据流和combiner函数

4.1 数据流

首先定义一些术语。MapReduce作业(job) 是客户端需要执行的一个工作单元：它包括输入数据、MapReduce程序和配置信息。Hadoop将作业分成若干个小任务 (task)来执行，其中包括两类任务：map任务和reduce任务。

4.2 combiner函数

集群上的可用带宽限制了MapReduce作业的数量，因此尽量避免map和reduce任务之间的数据传输是有利的。Hadoop允许用户针对map任务的输出指定一个combiner（就像mapper和reducer一样)——combiner函数的输出作为reduce函数的输入。由于combiner属于优化方案，所以Hadoop无法确定要对map任务输出记录调用多少次combiner (如果需要)。换而言之，不管调用combiner多少次，0次、1次或多次，reducer的输出结果都是一样的。

combiner的规则制约着可用的函数类型。这里最好用一个例子来说明。还是假设以前计算最高气温的例子，1950年的读数由两个map任务处理(因为它们在不同的分片中)。假设第一个map 的输出如下：

(1950, 0)
(1950, 20)
(1950, 10)
第二个map的输出如下：
(1950, 25)
(1950, 15)

图2-5. 无reduce任务的MapReduce数据流
reduce函数被调用时，输入如下：
(1950, [0, 20, 10, 25, 15])
因为25为该列数据中最大的，所以它的输出如下：
(1950, 25)
我们可以像使用reduce函数那样，使用combiner找出每个map任务输出结果中的最高气温。如此一来，reduce函数调用时将被传入以下数据：
(1950, [20, 25])
reduce输出的结果和以前一样。更简单地说，我们可以通过下面的表达式来说明气温数值的函数调用：
max(0, 20, 10, 25, 15) = max(max(0, 20, 10), max(25, 15)) = max(20, 25) = 25
并非所有函数都具有该属性。[ 有此属性的函数叫commutative和associative。有时也将它们称为distributive，比如在Gray等人1995年发表的论文“Data Cube: A Relational Aggregation Operatior Generalizing Groupby, Cross-Tab, and Sub-Totals”中。]例如，如果我们计算平均气温，就不能用平均数作为combiner，因为
mean(0, 20, 10, 25, 15) = 14
但是combiner不能取代reduce函数：
mean(mean(0, 20, 10), mean(25, 15)) = mean(10, 20) = 15
为什么呢？我们仍然需要reduce函数来处理不同map输出中具有相同键的记录。但它能有效减少mapper和reducer之间的数据传输量，在MapReduce作业中使用combiner函数需要慎重考虑。
指定一个combiner
让我们回到Java MapReduce 程序，combiner是通过Reducer类来定义的，并且在这个例子中，它的实现与MaxTemperatureReducer中的reduce函数相同。唯一的改动是在Job中设置combiner类(参见范例2-7)。

使用combiner快速找出最高气温

public class MaxTemperatureWithCombiner {
  public static void main(String[] args) throws Exception {
    if (args.length != 2) {
      System.err.println("Usage: MaxTemperatureWithCombiner  " +
          "");
      System.exit(-1);
    }
   
    Job job = new Job();
    job.setJarByClass(MaxTemperatureWithCombiner.class);
    job.setJobName("Max temperature");

    FileInputFormat.addInputPath(job, new Path(args[0]));
    FileOutputFormat.setOutputPath(job, new Path(args[1]));
   
    job.setMapperClass(MaxTemperatureMapper.class);
    job.setCombinerClass(MaxTemperatureReducer.class);
    job.setReducerClass(MaxTemperatureReducer.class);
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(IntWritable.class);
   
    System.exit(job.waitForCompletion(true) ? 0 : 1);
  }
}

4.3 Hadoop Streaming

Hadoop提供了MapReduce的API，允许你使用非Java的其他语言来写自己的map和reduce函数。HadoopStreaming使用Unix标准流作为Hadoop和应用程序之间的接口，所以我们可以使用任何编程语言通过标准输入/输出来写MapReduce程序。

Streaming天生适合用于文本处理。map的输入数据通过标准输入流传递给map函数，并且是一行一行地传输，最后将结果行写到标准输出。map输出的键/值对是以一个制表符分隔的行，并且写入标准输出reduce 函数的输入格式与之相同(通过制表符来分隔的键/值对)并通过标准输入流进行传输。reduce函数从标准输入流中读取输入行，该输入已由Hadoop框架根据键排过序，最后将结果写入标准输出。

下面使用Streaming来重写按年份查找最高气温的MapReduce程序。

Python版本
Streaming支持任何可以从标准输入读取和写入到标准输出中的编程语言，因此对于更熟悉Python的读者，下面提供了同一个例子的Python 版本。map脚本参见范例2-10，reduce脚本参见范例2-11。

范例2-10. 用于查找最高气温的map函数(python版)

#!/usr/bin/env python

import re 
import sys

for line in sys.stdin:   
  val = line.strip()   
  (year, temp, q) = (val[15:19], val[87:92], val[92:93])   
  if (temp != "+9999" and re.match("[01459]", q)):     
    print "%s\t%s" % (year, temp)

范例2-11. 用于查找最高气温的reduce函数(python版)

#!/usr/bin/env python

import sys

(last_key, max_val) = (None, -sys.maxint)
for line in sys.stdin:   
  (key, val) = line.strip().split("\t")   
  if last_key and last_key != key:     
    print "%s\t%s" % (last_key, max_val)     
    (last_key, max_val) = (key, int(val))   
  else:     
    (last_key, max_val) = (key, max(max_val, int(val)))
if last_key:   
  print "%s\t%s" % (last_key, max_val)

我们可以像测试Ruby程序那样测试程序并运行作业。例如，可以像下面这样运行测试：
% cat input/ncdc/sample.txt | ch02/src/main/python/max_temperature_map.py | \
sort | ch02/src/main/python/max_temperature_reduce.py
1949 111
1950 22

5、分布式存储数据需要解决的问题

6、关系型数据库和mapreduce的对比

注意：区分写时模式和读时模式

参考：

《Hadoop权威指南.大数据的存储与分析.第4版》--第1章初识Hadoop 和第2章关于MapReduce

https://www.csdn.net/article/2014-11-05/2822487#2.1

10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
读书笔记|《遇见孩子，遇见更好的自己》5 抹茶社长
为人父母意味着放弃自己的过去，不要对以往没有实现的心愿耿耿于怀，只有这样，孩子们才能做回自己。985909803.jpg孩子在与父母保持亲密的同时更需要独立，唯有这样，孩子才会成为孩子，父母才会成其为父母。有耐心的人生往往更幸福，给孩子留点余地。认识到养儿育女是对耐心的考验。为失败做好心理准备，教会孩子控制情绪。了解自己的底线，说到底线，有一点很重要，父母之所以发脾气，真正的原因往往在于他们自己，
阅读《认知觉醒》读书笔记就看看书
本周阅读了周岭的《认知觉醒开启自我改变的原动力》，启发较多，故做读书笔记一则，留待学习。全书共八章，讲述了大脑、潜意识、元认知、专注力、学习力、行动力、情绪力及成本最低的成长之道。具体描述了大脑、焦虑、耐心、模糊、感性、元认知、自控力、专注力、情绪专注、学习专注、匹配、深度、关联、体系、打卡、反馈、休息、清晰、傻瓜、行动、心智宽带、单一视角、游戏心态、早起、冥想、阅读、写作、运动等相关知识点。大脑
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
《对生命说是》读书笔记2021-5-27 Diana_58d9
静心技巧——换个视角看待问题。尝试一下这个实验，1坐在椅子上，允许自己全身心的沉浸在你最爱的问题当中，你知道头脑热爱咀嚼他们，记录当你被卷入问题时的感受。2站起来有意识地离开那张椅子，想象你现在离开了你的问题。缓缓的围绕椅子走一圈，从不同的角度看看你的问题。在房间中找一个远离问题的空间，开始仔细深入的看看这个问题，他是真实的还是你制造出来的，同样的状况对于其他人来说会是问题吗？3反复体会作战问题里
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
精力是碎片化时代的核心竞争力——精力管理介绍爱写作的harry
《掌控：开启不疲惫、不焦虑的人生》读书笔记精力是碎片化时代的核心竞争力精力包括身、心两个层面，包括体力、专注力和意志力等多个维度。在信息爆炸、全球化竞争的时代，谁的体力充沛，专注力和意志力更强，谁获胜的机会就更大。而要做到这些，不做精力管理，一切都是空谈。另外，人的精力是有限的，表现会有高低起伏，所以需要管理，需要规划使用。怎样才算做到了精力管理精力管理是指主动掌握自己的体力、专注力和意志力，让自
《经营者养成记》读书笔记分享 37度杉杉
何为经营者：变革的能力、赚钱的能力、建设团队的能力和追求理想的能力。读书笔记：（一）经营的含义1、所谓经营者，就是取得成果的人2、所谓经营者，是抱持使命感，将使命与成果相结合的人3、经营者必须是领导者，具备“建设团队的能力”4、经营者必须为使命而生的人，具备“追求理想的能力”（二）为什么必须培养经营者？一、变革的能力1、抱持高远的目标2、质疑常识，不受常识束缚3、树立高标准、不放松不放弃4、不畏风
财富自由之路读书笔记2 Elaine_a963
继续财富自由读书笔记，今天就第十-二十三章进行归纳总结思考。这本书可以说是边学边练的武功秘籍。秘籍一：注意力。先从认知上刷新，先前谈到价值的重要性及单位价值提升的必要性。这里就引出了：“注意力”是在任何地方“挖掘”价值的最基本工具。那么，要自如运用注意力，就得练习。这里李老师给的无他，就是基本功训练扎实-坐享。秘籍二：活在未来。再一次颠覆认知，大众的思维是活在当下，而这里指引我们要活在未来。用正确
【机器人建模和控制】读书笔记 Piccab0o 机器人
机器人建模和控制——马克·斯庞A.x10=x1∙x0x^0_1=x_1\bulletx_0x10=x1∙x0，其实就是：1）x1x_1x1轴向量在O0O_0O0系下的坐标2）在x0x_0x0轴上的投影3）坐标变换矩阵的R10R_1^0R10的第一个元素B.点p在o1x1y1z1o_1x_1y_1z_1o1x1y1z1系下的坐标p1p^1p1可以表示为：p=ux1+vy1+wz1p=ux_1+vy_
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
读书笔记语馨_f389
王聪丽坚持分享第1008天《亲密关系》期望就是通往地狱之路，因为期望会把接受和让人自由等充满爱意的感觉挡在门外。如果我不能接受别人现在的样子或不让他们自由地走自己的路，那么我就不是真的爱他们，我只是想从他们身上得到满足，与他们建立亲密关系的目的并不是为了爱，而是为了满足我小小的自私需求。我们可以觉察一下，在潜意识里，我对他有什么要求。让人惊讶的是，不开心的原因往往是沉睡多年的需求。不论是用暗示还是
《掌控习惯》第二遍读书笔记尼古拉斯咚
这本书反反复复看了两遍，每一遍对书中的内容都有不同的认识；以下是我的读书笔记和行动感悟读书的笔记和感悟好习惯+复利的力量是巨大的，这个可能是老生常谈的话题，但当我真正意识到，并重新开始审视自己日常生活中的习惯时才发现，坏习惯让我自己每天有不少时间浪费在了平庸上，随着时间的消逝我损失的也越来越多；生活中经常说“做时间的朋友”，“延迟满足”之类的话，但这些都有一个前提条件是只有当你真正是养成了好的习惯
【0220读书笔记】面对压力怎么办正本
人生每一天都是现场直播，所谓的人前显赫，不过是以往的极致积累付出所换来的。今天看到江南春谈到他过往的创业史，也并不是一帆风顺，顺风顺雨的。恰恰相反，在他创业的道路上，每一步都是如履薄冰，都是受宠若惊，竞争对手也会层出不穷，虎视眈眈向其发起挑战。001.量力而行与全力以赴在创业初期，我们的态度就应当是敢想敢做，全力以赴，因为不拼就不会有机会。当我们进入经营时期时，就要综合评判，尽自己所能去行事，万不
2022-08-3读书笔记静待花开20
❤️据报道，有些人在面对及其重要甚至关系到自身前途和命运的大事要做出决定时，往往不是挖空心思、深思熟虑，而是根据自己的内心感觉做出抉择。❤️据研究，人从看到一个物体到对它做出反应，全过程仅有0.07秒的时间。在这个过程中，仅是神经和主观意识参与了吗？不是。潜意识也是参与其中的。故曰：“所以任物者心。”❤️研究发现，人们在学习一种知识、机能后，如能美美睡上一觉，则会对所学知识、机能的消化、掌握很有裨
重读《新生-七年就是一辈子》- 26 不能容错的系统肯定是脆弱的 greenorchid
读后感想：我觉得自己的容错能力在学生，同事、朋友方面都还好，毕竟我很少和他们交流。但是，我对家人有时做的不好，容错能力反而较差，因此，有时会影响心情、注意力等。看了这篇文章，我能做到平心静气，不乱发脾气吗？我觉得有时能做到，很多时候可能还是做不到。读书笔记：今天的计算机科学里（包括它的“邻居”工程学里），都有一个重要的概念：容错（Faulttolerance）如果一个系统不能容错，那么它就是脆弱的
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
《野草》复仇（其一）读书笔记女人知书香
“复仇”是鲁迅从早年到晚年，念兹在兹，一以贯之的恶一个思绪。几十年间在他心头萦绕不去，回环往复，多次谈及，成为作品和思想的重要主题之一。人的皮肤之厚，大概不到半分，鲜红的热血，就循着那后面，在比密密层层地爬在墙壁上的槐蚕更其密的血管里奔流，散出温热。于是各以这温热互相蛊惑，煽动，牵引，拼命希求偎倚，接吻，拥抱，以得生命的沉酣的大欢喜。【议论】如有人以丽人刺穿其皮肤，则有鲜血喷灌于杀戮者，这是动态的
平平淡淡才是真——《菜根谭》读书笔记云卷韵舒
图片图片士君子之涉世，于人不可轻为喜怒，喜怒轻，则心腹肝胆皆为人所窥。于物不可重为爱憎。爱憎重，则意气精神悉为物所制。士大夫君子在世上，对人不能轻易流露自己的喜怒哀乐，否则，所有的心思都会被人看破；对世上万物，也不要过分喜欢或厌恶，否则，就会玩物丧志。心体澄澈，常在明镜止水之中，则天下自无可厌之事；意气和平，常在丽日光风之内，则天下自无可恶之人。如果心如明镜，世上就没有心烦之事；心态平和，世上就没
读《野草》有感雨后晴天的女孩
这段时间有点懒，看过的书都没有做读书笔记，也就没有写读后感。但今晚看鲁迅的散文诗集《野草》时，却做了很多的笔记（主要是抄好词好句），突然就有了一种想写的冲动，虽然不知道要写点什么，但是随便写写也好。鲁迅的题辞中说到:野草，根本不深，花叶不美，却有一股顽强的生命力，任何人都阻挡不了它的生长。是啊，《野草》这本书虽不厚，却可以让人联想到一大堆的东西。阅读完之后，我想找几个词来形容一下，却怎么也想不到，
2023-04-20 祝澜
祝澜1940天2023-4-20读书笔记：当家庭作业的责任明确地由孩子来承担时，才会有真正的学习。期待孩子们承担责任，而不是期待他们的父母比着他们承担责任，会造就有能力的年轻人。这并不是说父母们和老师不能帮助孩子们在家庭作业上取的成功。当着眼于帮助那些自我帮助的孩子时，每个人就都会赢。
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
读书笔记语馨_f389
王聪丽坚持分享第688天《非暴力沟通》真正高情商的人，会认为，发脾气是一种很好的沟通方式。我以前说过，所谓情商高，就是心中有他人；所谓情商高，不是虚伪，而是温暖。但这不是说，我们心中要没有自己，真正的情商高，是把自己当朋友，与自己和解，对自己也要温暖啊。为了幸福，必须把“别人怎么看我”这个问题放在一边。不带评论的观察是人类智慧的最高境界。学会说出自己的感受，而不是让别人猜。社会的节奏很快，人们都在
《Android进阶之光》读书笔记 soleil雪寂读书笔记 #Android进阶之光
文章目录第1章Android新特性1.1.Android5.0新特性1.2.RecyclerView1.1.4.3种Notification1.1.5.Toolbar与Palette1.1.6.Palette1.2.Android6.0新特性1.2.2.运行时权限机制1.3.Android7.0新特性第2章MaterialDesign2.2.DesignSupportLibrary常用控件详解第3
《人生海海》读书笔记墨染馨香
天地英雄客，人间寸草心。“人生海海，潮落之后是潮起，你说那是消磨、笑柄、罪过，但那就是我的英雄主义。”各位读书的时候，有没有那么一句话，突然击中了你，让你的内心秩序瞬间变得兵荒马乱、溃不成军？书确是一部好书，只是读到最后全是眼泪。人间的美与丑、人性善与恶、人生痛与泪不停地交织纠缠，心绪随着情节跌宕起伏，却又夹杂着抑制不住的伤感，久久无法平静。“上校”传奇的一生，“爷爷”无奈的一生，“父亲”沉默的一
决胜b端 | 读书笔记01-03章一白学习录
C端与B端产品的区别：B端产品经理应具备的能力：1、逻辑思维与抽象能力：基于对业务的透彻理解，把现实世界的复杂场景抽象成结构性的系统和模块，将现实世界的抽象运转机制提炼成规律。2、技术知识储备3、复杂项目管理能力4、业务与经营管理知识B端产品经理的职业发展方向：1、产品设计：B端产品经理可以从某一个细分的产品方向做起，逐步延伸到一条或多条业务线的设计。在一个方向打牢根基，同时关注新的动态，抓住机遇
《买书记历》读书笔记歪嘴文说
《买书记历》本书以作者及他身边爱书人，准确说是“爱淘书”的人，来记叙他们当年的“淘书”经历。淘旧书，缺本，古书，罕书，有价值的。类似淘古董，转手可出高价或自我珍藏。因书过厚，后部多为跳看。对其中一段记事细看了，知道还有这么一种事。一个人打作者电话说有一批书来看一下，具体数量不好说有60吨吧，作者去看后爬书堆上，看有没有珍品，结果都是杂志。问价，要5千一顿，作者当即要走，说这书卖废品也不值1千1一吨
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，

Hadoop权威指南---map和reduce函数使用解析

1、数据准备

2、 Java MapReduce

2.1、map函数的实现

2.2、reduce函数的实现

2.3、负责运行MapReduce的代码

2.4、运行测试

3、旧的和新的Java MapReduce API几个明显的区别

4、数据流和combiner函数

4.1 数据流

4.2 combiner函数

4.3 Hadoop Streaming

5、分布式存储数据需要解决的问题

6、关系型数据库和mapreduce的对比

你可能感兴趣的:(读书笔记,Hadoop,MapReduce)