IT路上的军哥

（超详细）MapReduce工作原理及基础编程

MapReduce工作原理及基础编程（代码见文章后半部分）

JunLeon——go big or go home

MapReduce工作原理及基础编程（代码见文章后半部分）

一、MapReduce概述

1、什么是MapReduce？

2、WordCount案例解析MapReduce计算过程

（1）运行hadoop自带的样例程序

（2）MapReduce工作过程

3、Shuffle过程详解

二、MapReduce编程基础

1、Hadoop数据类型

2、数据输入格式InputFormat

3、输入数据分块InputSplit和数据记录读入RecordReader

4、数据输出格式OutputFormat

5、数据记录输出类RecordWriter

6、Mapper类

7、Reduce类

三、MapReduce项目案例

1、经典案例——WordCount

2、计算考试平均成绩

3、网站日志分析

前言：

Google于2003年在SOSP上发表了《The Google File System》，于2004年在OSDI上发表了《MapReduce: Simplified Data Processing on Large Clusters》，于2006年在OSDI上发表了《Bigtable: A Distributed Storage System for Structured Data》。这三篇论文为大数据及云计算的发展奠定了基础。

一、MapReduce概述

1、什么是MapReduce？

MapReduce是一个分布式、并行处理的计算框架。

MapReduce 把任务分为 Map 阶段和 Reduce 阶段。开发人员使用存储在HDFS 中数据（可实现快速存储），编写 Hadoop 的 MapReduce 任务。由于 MapReduce工作原理的特性， Hadoop 能以并行的方式访问数据，从而实现快速访问数据。

表1 map函数和rudece函数

函数

输入

输出

说明

map

<0,helle world>

<12,hello hadoop>

List

将获取到的数据集进一步解析成,通过Map函数计算生成中间结果，进过shuffle处理后作为reduce的输入

reduce

reduce得到map输出的中间结果，合并计算将最终结果输出HDFS，其中List(v2)，指同一k2的value

MapReduce体系结构主要由四个部分组成，分别是：Client、JobTracker、TaskTracker以及Task

　　1）Client

　　用户编写的MapReduce程序通过Client提交到JobTracker端用户可通过Client提供的一些接口查看作业运行状态。

　　2）JobTracker

　　JobTracker负责资源监控和作业调度 JobTracker 监控所有TaskTracker与Job的健康状况，一旦发现失败，就将相应的任务转移到其他节点 JobTracker 会跟踪任务的执行进度、资源使用量等信息，并将这些信息告诉任务调度器（TaskScheduler），而调度器会在资源出现空闲时，选择合适的任务去使用这些资源。

　　3）TaskTracker

　　TaskTracker 会周期性地通过“心跳”将本节点上资源的使用情况和任务的运行进度汇报给JobTracker，同时接收JobTracker 发送过来的命令并执行相应的操作（如启动新任务、杀死任务等） TaskTracker 使用“slot”等量划分本节点上的资源量（CPU、内存等）。一个Task 获取到一个slot 后才有机会运行，而Hadoop调度器的作用就是将各个TaskTracker上的空闲slot分配给Task使用。slot 分为Map slot 和Reduce slot 两种，分别供MapTask 和Reduce Task 使用。

　　4）Task

　　Task 分为Map Task 和Reduce Task 两种，均由TaskTracker 启动。

MapReduce各个执行阶段：

MapReduce应用程序执行过程：

可以参考大佬黎先生的博客：MapReduce基本原理及应用 - 黎先生 - 博客园

2、WordCount案例解析MapReduce计算过程

（1）运行hadoop自带的样例程序

WordCount案例是一个经典案例，是Hadoop自带的样例程序。

作用：统计单词数量（出现的次数）

应用：求和、求平均值、求最值，

jar包存储在$HADOOP_HOME/share/hadoop/mapreduce/：

$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar

例如：

步骤：

1.在本地创建一个文件

输入以下内容：

2.上传到HDFS指定目录

在HDFS中创建指定文件：

上传文件：

3.使用hadoop jar命令运行jar程序，统计单词数量

4.输出结果

执行部分过程：

查看生成的文件：

查看计算结果：

（2）MapReduce工作过程

工作流程是Input从HDFS里面并行读取文本中的内容，经过MapReduce模型，最终把分析出来的结果用Output封装，持久化到HDFS中。

1.Mapper工作过程：

附上Mapper阶段代码：

public static class WorldCount_Mapper extends Mapper{

		@Override
		protected void map(LongWritable key, Text value, Mapper.Context context)
				throws IOException, InterruptedException {
			System.out.println("split:<" + key + ","+ value + ">" );
			String[] strs = value.toString().split(" ");
			for (String string : strs) {
				System.out.println("map:<" + key + ","+ value + ">" );
				context.write(new Text(string),new IntWritable(1));
			}
	    }
    }

KEYIN--LongWritable:输入key类型，记录数据分片的偏移位置

VALUEIN—Text:输入的value类型，对应分片中的文本数据

KEYOUT--Text:输出的key类型，对应map方法中计算结果的key值

VALUEOUT—IntWritable:输出的value类型，对应map方法中计算结果的value值

Mapper类从分片后传出的上下文中接收数据，数据以类型的键值对接收过来，通过重写map方法默认一行一行的读取数据并且以形式进行遍历赋值。

2.Reducer工作过程：

附上Reducer阶段代码:

public static class WorldCount_Reducer extends Reducer{

		@Override
		protected void reduce(Text key, Iterable values,
				Reducer.Context context) throws IOException, InterruptedException {
			int index  = 0;
			for (IntWritable intWritable : values) {
				System.out.println("reduce:<" + key + ","+ intWritable + ">" );
				index  += intWritable.get();
			}
			context.write(key,new IntWritable(index));
		}
	}

Reducer任务继承Reducer类，主要接收的数据来自Map任务的输出，中间经过Shuffle分区、排序、分组，最终以形式输出给用户。

Job提交代码：

public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
		Job job = Job.getInstance();
		job.setJarByClass(WorldCount.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);
		job.setMapperClass(WorldCount_Mapper.class);
		job.setReducerClass(WorldCount_Reducer.class);
		FileInputFormat.addInputPath(job,new Path("hdfs://192.168.100.123:8020/input"));
		FileOutputFormat.setOutputPath(job, new Path("hdfs://192.168.100.123:8020/output"));
		job.waitForCompletion(true);
	}

JobClients是用户提交的作业与ResourceManager交互的主要接口，JobClients提供提交作业、追踪进程、访问子任务的日志记录、获取的MapReduce集群状态信息等功能。

3、Shuffle过程详解

Hadoop运行机制中，将map输出进行分区、分组、排序、和合并等处理后作为输入传给Reducer的过程，称为shuffle过程。

shuffle阶段又可以分为Map端的shuffle和Reduce端的shuffle。

　　一、Map端的shuffle

　　写磁盘：Map端会处理输入数据并产生中间结果，这个中间结果会写到本地磁盘，而不是HDFS。每个Map的输出会先写到内存缓冲区中，当写入的数据达到设定的阈值时，系统将会启动一个线程将缓冲区的数据写到磁盘，这个过程叫做spill。

　　分区、分组、排序：在spill写入之前，会先进行二次排序，首先根据数据所属的partition进行排序，然后每个分区（partition）中的数据再按key来排序。partition的目是将记录划分到不同的Reducer上去，以期望能够达到负载均衡，以后的Reducer就会根据partition来读取自己对应的数据。接着运行combiner(如果设置了的话)，combiner的本质也是一个Reducer，其目的是对将要写入到磁盘上的文件先进行一次处理，这样，写入到磁盘的数据量就会减少。最后将数据写到本地磁盘产生spill文件(spill文件保存在{mapred.local.dir}指定的目录中，Map任务结束后就会被删除)。

文件合并：最后，每个Map任务可能产生多个溢写文件（spill file），在每个Map任务完成前，会通过多路归并算法将这些spill文件归并成一个已经分区和排序的输出文件。至此，Map的shuffle过程就结束了。

压缩：在shuffle过程中如果压缩被启用，在map传出数据传入Reduce之前可执行压缩，默认情况下压缩是关闭的，可以将mapred.compress.map.output设置为true可实现压缩。

　　二、Reduce端的shuffle

　　Reduce端的shuffle主要包括三个阶段，copy、sort(merge)和reduce。

　　首先要将Map端产生的输出文件拷贝到Reduce端，但每个Reducer如何知道自己应该处理哪些数据呢？因为Map端进行partition的时候，实际上就相当于指定了每个Reducer要处理的数据(partition就对应了Reducer)，所以Reducer在拷贝数据的时候只需拷贝与自己对应的partition中的数据即可。每个Reducer会处理一个或者多个partition，但需要先将自己对应的partition中的数据从每个Map的输出结果中拷贝过来。

接下来就是排序（sort）阶段，也成为合并（merge）阶段，因为这个阶段的主要工作是执行了归并排序。从Map端拷贝到Reduce端的数据都是有序的，所以很适合归并排序。最终在Reduce端生成一个较大的文件作为Reduce的输入。MapReduce编程接口

二、MapReduce编程基础

1、Hadoop数据类型

Hadoop数据包括：BooleanWritable、ByteWritable、DoubleWritable、FloatWritale、IntWritable、LongWritable、Text、NullWritable等，它们实现了WritableComparable接口。其中Text表示使用UTF8格式存储的文本、NullWritable类型是当（key,value）中的key或value为空时使用。

表2 Hadoop Writable与Java数据类型参照表

Java基本类型	Writable封装类	类型	序列化后的长度为
boolean	BooleanWritable	布尔型	1
byte	ByteWritable	字节型	1
double	DoubleWritable	双精度浮点型	8
float	FloatWritable	单精度浮点型	8
int	IntWritable VIntWritable	整型	4 1-5
long	LongWritable	长整型	8
short	ShortWritable	短整型	2
null	NullWritable	空值	0
	Text	文本类型

除了上述Hadoop类型外，用户还可以自定义新的数据类型。用户自定义数据类型需要实现Writable接口，但如果需要作为主键key使用或需要比较大小时，则需要实现WritableComparable接口。

2、数据输入格式InputFormat

抽象类InputFormat有三个直接子类：

FileInputFormat、DBInputFormat、DelegatingInputFormat

其中，文件输入格式类FileInputFormat类有几个子类：

TextInputFormat、KeyValueInputFormat、SequenceFileInputFormat、NlineInputFormat、CombineFileInputFormat

序列化文件输入类SequenceFileInputFormat有几个子类：

SequenceFileAsBinaryInputFormat、SequenceFileAsTextInputFormat、SequenceFileInputFilter

数据库输入格式类DBInputFormat的直接子类是：DataDriverDBInputFormat，而这个子类又派生子类：OracleDataDriverDBInputFormat

表3 常用数据输入格式类

InputFormat类	描述	键（Key）	值（Value）
TextInputFormat	默认输入格式，读取文本文件的行	当前行的偏移量	当前行内容
KeyValueTextInputFormat	将行解析成键值对	行内首个制表符的内容	行内其余内容
SequenceFileInputFormat	专用于高性能的二进制格式	用户定义	用户定义

3、输入数据分块InputSplit和数据记录读入RecordReader

编程时由用户选择的数据输入格式InputFormat类型来自动决定数据分块InputSplit和数据记录RecordReader类型。一个InputSplit将单独作为一个Mapper的输入，即作业的Mapper数量是由InputSplit个数决定的。

表4 数据输出格式类对应的Reader类型

InputFormat类	RecordReader类	描述
TextInputFormat	LineRecordReader	读取文本文件的行
KeyValueTextInputFormat	KeyValueLineRecordReader	读取行并将行解析为键值对
SequenceFileInputFormat	SequenceFileRecordReader	用户定义的格式产生键与值
DBInputFormat	DBRecordReader	仅适合读取少量数据记录，不适合数据仓库联机数据分析大量数据的读取处理

4、数据输出格式OutputFormat

抽象类OutputFormat有四个直接子类：

FileOutputFormat、DBOutputFormat、NullOutputFormat、FilterOutputFormat

FileOutputFormat有两个直接子类：

TextOutputFormat、SequenceFileOutputFormat

SequenceFileOutputFormat有直接子类：SequenceFileAsBinaryOutputFormat

FilterOutputFormat有直接子类：LazyOutputFormat

5、数据记录输出类RecordWriter

数据记录输出类RecordWriter是一个抽象类。

表5 数据输出格式类对应的数据记录Writer类型

OutputFormat类	RecordWriter类	描述
TextOutputFormat	LineRecordWriter	将结果数据以“key + \t + value”形式输出到文本文件中
SequenceFileOutputFormat	SequenceFileRecordWriter	用户定义的格式产生键与值
DBOutputFormat	DBRecordWriter	将结果写入到一个数据库表中
FilterOutputFormat	FilterRecordWriter	对应于过滤器输出模式的数据记录模式，只将过滤器的结果输出到文件中

6、Mapper类

Mapper类是一个抽象类，位于hadoop-mapreduce-client-core-2.x.x.jar中，其完整类名是：org.apache.hadoop.mapreduce.Mapper，需派生子类使用，在子类中重写map方法：map(KEYIN key,VALUEIN value,Mapper.Context context)对出入的数据分块每个键值对调用一次。

7、Reduce类

Reduce类是一个抽象类，位于hadoop-mapreduce-client-core-2.x.x.jar中，其完整类名是：org.apache.hadoop.mapreduce.Reduce，需派生子类使用，在子类中重写reduce方法：reduce(KEYIN key,Inerable value,Reducer.Context context)对出入的数据分块每个键值对调用一次。

三、MapReduce项目案例

1、经典案例——WordCount

代码演示：

package hadoop.mapreduce;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class MyWordCount {
	/*
	 * 	KEYIN：是map阶段输入的key（偏移量）
	 * 	VALUEIN：是map阶段输入的value（文本文件的内容--行）
	 *  KEYOUT：是map阶段输出的key(单词)
	 *  VALUEOUT：是map阶段输出的value（单词的计数--1）
	 *  
	 *  Java基本数据类型：
	 *  	int、short、long、double、float、char、boolean、byte
	 *  hadoop数据类型
	 *  	IntWritable、ShortWritable、LongWritable、DoubleWritable、FloatWritable
	 *  	ByteWritable、BooleanWritable、NullWritable、Text
	 *  	Text：使用utf8编码的文本类型
	 */
	public static class WordCount_Mapper extends Mapper{
		@Override	//方法的重写
		protected void map(LongWritable key, Text value, Mapper.Context context)
				throws IOException, InterruptedException {
			String[] line = value.toString().split(" ");	//将获取到的数据以空格进行切分成一个个单词
			for (String word : line) { 	//遍历单词的数组
				context.write(new Text(word), new IntWritable(1));  //单词进行计数，将中间结果写入context
			}
		}												
	}
	
	/*
	 * KEYIN：reduce阶段输入的key(单词)
	 * VALUEIN：reduce阶段输入的value(单词的计数)
	 * KEYOUT：reduce阶段输出的key(单词)
	 * VALUEOUT：reduce阶段输出的value(单词计数的总和)
	 * 
	 * reduce方法中做以下修改：
	 * 	将Text arg0改为Text key
	 *  将Iterable arg1改为Iterable value
	 *  将Context arg2修改为Context context
	 */
	public static class WordCount_Reducer extends Reducer{
		@Override
		protected void reduce(Text key, Iterable values,
				Reducer.Context context)
						throws IOException, InterruptedException {
			int sum = 0;	//创建一个变量,和
			for (IntWritable intWritable : values) {		//遍历相同key单词的计数
				sum += intWritable.get();	//将相同key单词的计数进行累加
			}
			context.write(key, new IntWritable(sum));	//将计算的结果写入context
		}
	}

	//提交工作
	public static void main(String[] args) throws Exception {
		
		String inPath= "hdfs://192.168.182.10:8020/input.txt";
		String outPath = "hdfs://192.168.182.10:8020/output/";
		Configuration conf = new Configuration();
		Job job = Job.getInstance();	//创建Job对象job
		FileSystem fs = FileSystem.get(conf);
		if (fs.exists(new Path(outPath))) {
			fs.delete(new Path(outPath), true);
		}
		job.setJarByClass(MyWordCount.class); 	//设置运行的主类MyWordCount
		job.setMapperClass(WordCount_Mapper.class); 	//设置Mapper的主类
		job.setReducerClass(WordCount_Reducer.class); 	//设置Reduce的主类
		job.setOutputKeyClass(Text.class); 	//设置输出key的类型
		job.setOutputValueClass(IntWritable.class); 	//设置输出value的类型
		//设置文件的输入路径(根据自己的IP和HDFS地址设置)
		FileInputFormat.addInputPath(job, new Path(inPath));	
		//设置计算结果的输出路径(根据自己的IP和HDFS地址设置)
		FileOutputFormat.setOutputPath(job, new Path(outPath));
		System.exit((job.waitForCompletion(true)?0:1)); 	//提交任务并等待任务完成
	}
}

打包上传虚拟机：

步骤：

右键单击项目名 --> 选择 Export --> Java --> JAR file --> Browse...选择存放路径 --> 文件名

命名为wordcount.jar，将打包好的jar包上传到虚拟机中

运行代码：

在本地创建一个文件input.txt

vi input.txt

添加内容：

hello world
hello hadoop
bye world
bye hadoop

上传到DHFS中：

hadoop fs -put input.txt /

使用jar命令执行项目：

hadoop jar wordcount.jar hadoop.mapreduce.MyWordCount

如下图：

查看结果：

2、计算考试平均成绩

代码演示：

Mapper类

package hadoop.mapreduce;

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Counter;
import org.apache.hadoop.mapreduce.Mapper;

/*
 * 编写CourseScoreAverageMapper继承Mapper类
 */
public class CourseScoreAverageMapper extends Mapper{
	@Override	//方法的重写
	protected void map(LongWritable key, Text value, Mapper.Context context)
			throws IOException, InterruptedException {
		String line = new String(value.getBytes(),0,value.getLength(),"UTF8");	//转换中文编码
		Counter countPrint =  context.getCounter("CourseScoreAverageMapper.Map 输出传递Value:", line);	//通过计数器输出变量值
		countPrint.increment(1L);	//将计数器加一
		StringTokenizer tokenArticle = new StringTokenizer(line,"\n");	//将输入的数据按行“\n”进行分割
		while(tokenArticle.hasMoreElements()) {
			StringTokenizer tokenLine = new StringTokenizer(tokenArticle.nextToken());	//每行按空格划分
			String strName = tokenLine.nextToken();		//按空格划分出学生姓名
			String strScore = tokenLine.nextToken();	//按空格划分出学生成绩
			Text name = new Text(strName);	//转换为Text类型
			int scoreInt = Integer.parseInt(strScore);	//转换为int类型
			context.write(name, new IntWritable(scoreInt));		//将中间结果写入context
			countPrint = context.getCounter("CourseScoreAverageMapper.Map中循环输出信息：", ":<"+strName+","+strScore+">");	//输出信息
			countPrint.increment(1L);	//将计数器加一
		}
	}												
}

Reducer类

package hadoop.mapreduce;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Counter;
import org.apache.hadoop.mapreduce.Reducer;

/*
 * 编写CourseScoreAverageReducer继承Reduce类
 */
public class CourseScoreAverageReducer extends Reducer{
	@Override  //重写reduce方法
	protected void reduce(Text key, Iterable values,
			Reducer.Context context)
					throws IOException, InterruptedException {
		int sum = 0;	//总分
		int count = 0;	//科目数
		for (IntWritable val : values) {		//遍历相同key的分数
			sum += val.get();	//将相同key的分数进行累加
			count++;	//计算科目数
		}
		int average = (int)sum/count;	//计算平均分
		context.write(key, new IntWritable(average));	//将计算的结果写入context
		Counter countPrint = context.getCounter("CourseScoreAverageReducer.Reducer中输出信息：", ":<"+key.toString()+","+average+">");	//输出信息
		countPrint.increment(1L);	//计数器加1
	}
}

Driver类

package hadoop.mapreduce;


import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class CourseScoreDriver {

	public static void main(String[] args) throws Exception {
		Configuration conf = new Configuration();	//获取配置文件
		Job job = Job.getInstance(conf,"CourseScoreAverage");	//创建Job对象job
		String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();	//获取命令行参数
		if(otherArgs.length<2) {	
			System.err.print("Usage:hadoop jar MyAverage.jar   ");
			System.err.print("hadoop jar MyAverage.jar hadoop.mapreduce.CourseScoreDriver  ");
			System.exit(2);
		}else {
			for (int i = 0; i < otherArgs.length-1; i++) {	//设置文件输入路径
				if(!("hadoop.mapreduce.CourseScoreDriver".equalsIgnoreCase(otherArgs[i]))) {  //排除hadoop.mapreduce.CourseScoreDriver这个参数
					FileInputFormat.addInputPath(job, new Path(otherArgs[i]));
					System.out.println("参数IN:"+otherArgs[i]);
				}
			}
			//设置文件输出路径
			FileOutputFormat.setOutputPath(job, new Path(otherArgs[otherArgs.length-1]));  //设置输出路径
			System.out.println("参数OUT："+otherArgs[otherArgs.length-1]);
		}
		FileSystem hdfs = FileSystem.get(conf);	//创建文件系统
		if(hdfs.exists(new Path(otherArgs[otherArgs.length-1]))) {	//如果已经存在该路径，则删除该路径
			hdfs.delete(new Path(otherArgs[otherArgs.length-1]), true);
		}
		job.setJarByClass(CourseScoreDriver.class); 	//设置运行的主类CourseScoreDriver
		job.setMapperClass(CourseScoreAverageMapper.class); 	//设置Mapper的主类
		job.setCombinerClass(CourseScoreAverageReducer.class); 	//设置Combiner的主类
		job.setReducerClass(CourseScoreAverageReducer.class); 	//设置Reduce的主类
		job.setOutputKeyClass(Text.class); 	//设置输出key的类型
		job.setOutputValueClass(IntWritable.class); 	//设置输出value的类型
		job.setInputFormatClass(TextInputFormat.class);		//设置输入格式
		job.setOutputFormatClass(TextOutputFormat.class);	//设置输出格式
		System.exit((job.waitForCompletion(true)?0:1)); 	//提交任务并等待任务完成
		System.out.println("Job Finished!");
	}
}

打包上传虚拟机：

步骤：

右键单击项目名 --> 选择 Export --> Java --> JAR file --> Browse...选择存放路径 --> 文件名

命名为average.jar ，将打包好的average.jar上传到虚拟机中

运行代码：

首先准备三个文件 Chinese.txt、Math.txt、English.txt，添加如下内容：

将文件上传到HDFS的data目录下：

hadoop fs -mkdir /data
hadoop fs -put Chinese.txt /data/
hadoop fs -put Math.txt /data/
hadoop fs -put English.txt /data/

执行代码：

hadoop jar average.jar hadoop.mapreduce.CourseScoreDriver /data /data/output

查看结果，如下图：

3、网站日志分析

代码演示：

打包上传虚拟机：

运行代码：

你可能感兴趣的:(大数据学习之路,hadoop,mapreduce,hdfs)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
月度总结 | 2022年03月 | 考研与就业的抉择 | 确定未来走大数据开发路线「已注销」个人总结 hadoop
一、时间线梳理3月3日，寻找到同专业的就业伙伴3月5日，着手准备Java八股文，决定先走Java后端路线3月8月，申请到了校图书馆的考研专座，决定暂时放弃就业，先准备考研，买了数学和408的资料书3月9日-3月13日，因疫情原因，宿舍区暂封，这段时间在准备考研，发现内容特别多3月13日-3月19日，大部分时间在刷Hadoop、Zookeeper、Kafka的视频，同时在准备实习的项目3月20日，退
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
Hadoop windows intelij 跑 MR WordCount piziyang12138
一、软件环境我使用的软件版本如下:IntellijIdea2017.1Maven3.3.9Hadoop分布式环境二、创建maven工程打开Idea,file->new->Project,左侧面板选择maven工程。(如果只跑MapReduce创建java工程即可，不用勾选Creatfromarchetype，如果想创建web工程或者使用骨架可以勾选)image.png设置GroupId和Artif
【HDFS】【HDFS架构】【HDFS Architecture】【架构】资源存储库 hdfs 架构 hadoop
目录1Introduction介绍2AssumptionsandGoals假设和目标HardwareFailure硬件故障StreamingDataAccess流式数据访问LargeDataSets大型数据集SimpleCoherencyModel简单凝聚力模型“MovingComputationisCheaperthanMovingData”“移动计算比移动数据更便宜”PortabilityAc
Hadoop学习第三课（HDFS架构--读、写流程）小小程序员呀~ 数据库 hadoop 架构 big data
1.块概念举例1：一桶水1000ml，瓶子的规格100ml=>需要10个瓶子装完一桶水1010ml，瓶子的规格100ml=>需要11个瓶子装完一桶水1010ml，瓶子的规格200ml=>需要6个瓶子装完块的大小规格，只要是需要存储，哪怕一点点，也是要占用一个块的块大小的参数：dfs.blocksize官方默认的大小为128M官网：https://hadoop.apache.org/docs/r3.
hdfs启动流程 weixin_44352020 hadoop hdfs hadoop
Namenode1.init()namenode初始化，执行加载配置文件等操作2.loadFsImage()开始加载元数据将FsImage护额徐为目录树，保存在内存中FsImage中主要包含了问价你和数据块的对应关系3.loadEditlog()加载Editlog，将Editlog中记录的元数据修改应用到内存中；4.saveCheckpoint()将内存中最新的目录树持久化为新的FsImage到磁
hdfs开机启动流程鸭梨山大哎 hadoop hdfs
第一步：加载name目录下最新的那个fsimage_xxx019文件，将里面存储的元数据（目录树结构）维护到内存中，但是还不是关机前的状态第二步：将关机前的最后使用的edits_inprogress_xxxx0160进行重命名edits_0000000000000000160-0000000000000000169操作，然后生成一个最新的edits_inprogress_xxx170文件，并修改s
hadoop启动HDFS命令 m0_67401228 java 搜索引擎 linux 后端
启动命令：/hadoop/sbin/start-dfs.sh停止命令：/hadoop/sbin/stop-dfs.sh
【HDFS主从集群】存在两个独立的问题和解决方案流辉fglow 大数据 #HDFS hdfs java hadoop 大数据分布式学习
主从集群存在两个独立的问题和解决方案单点“主”的两个独立的问题以下是解决方案HA高可用方案：解决单点故障导致集群整体不可用问题Federation联邦机制：解决NN压力过大问题总结一般很多技术都是主从结构（最简单的结构）优点：结构相对简单，主与从协作“主”是单点，好处有，缺点也有好处：单点NameNode，数据一致性好掌握因为一个人管，说一不二的单点“主”的两个独立的问题关键词：独立：两套独立
【HDFS】角色的架构设计流辉fglow #HDFS 大数据 hdfs hadoop 大数据学习分布式
HDFS角色的架构设计前置知识：Windows与Linux文件系统的差异HDFS中的角色及功能HDFS的架构NameNodeDataNodeNameNode元数据的持久化说明：/表示两个词是同一语义，方便你理解的前置知识：Windows与Linux文件系统的差异Windows&LInux虽然都有硬盘/分区、目录，但感受很不同的是：Windows：有很强的分区概念，要先通过不同的“盘符”去找文件在命
HDFS的启动过程 ffbc2020 HDFS HDFS
HDFS的启动过程HDFS的启动过程分为四个阶段：第一阶段：NameNode读取包含元数据信息的fsimage文件，并加载到内存；第二阶段：NameNode读取体现HDFS最新状态的edits日志文件，并加载到内存中第三阶段：生成检查点，SecondaryNameNode将edits日志中的信息合并到fsimage文件中第四阶段：进入安全模式，检查数据块的完整性HDFS的安全模式什么是安全模式安全
集群hdfs启动 sxu~源 hdfs hadoop big data
1）各个模块分开启动/停止（配置ssh是前提）常用（1）整体启动/停止HDFSstart-dfs.sh/stop-dfs.sh（2）整体启动/停止YARNstart-yarn.sh/stop-yarn.sh2）各个服务组件逐一启动/停止（1）分别启动/停止HDFS组件hdfs--daemonstart/stopnamenode/datanode/secondarynamenode（2）启动/停止Y
ArcGIS地图切片原理与算法数智侠 GIS
ArcGIS地图切图系列之（一）切片原理解析点击打开链接ArcGIS地图切图系列之（二）JAVA实现点击打开链接ArcGIS地图切图系列之（三）MapReduce实现点击打开链接
【计算机毕设-大数据方向】基于Hadoop的电商交易数据分析可视化系统的设计与实现程序员-石头山大数据实战案例大数据 hadoop 毕业设计毕设
博主介绍：✌全平台粉丝5W+,高级大厂开发程序员，博客之星、掘金/知乎/华为云/阿里云等平台优质作者。【源码获取】关注并且私信我【联系方式】最下边感兴趣的可以先收藏起来，同学门有不懂的毕设选题，项目以及论文编写等相关问题都可以和学长沟通，希望帮助更多同学解决问题前言随着电子商务行业的迅猛发展，电商平台积累了海量的数据资源，这些数据不仅包括用户的基本信息、购物记录，还包括用户的浏览行为、评价反馈等多
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
spark常用命令我是浣熊的微笑 spark
查看报错日志：yarnlogsapplicationIDspark2-submit--masteryarn--classcom.hik.ReadHdfstest-1.0-SNAPSHOT.jar进入$SPARK_HOME目录，输入bin/spark-submit--help可以得到该命令的使用帮助。hadoop@wyy:/app/hadoop/spark100$bin/spark-submit--
spark启动命令学不会又听不懂 spark 大数据分布式
hadoop启动：cd/root/toolssstart-dfs.sh，只需在hadoop01上启动stop-dfs.sh日志查看：cat/root/toolss/hadoop/logs/hadoop-root-datanode-hadoop03.outzookeeper启动：cd/root/toolss/zookeeperbin/zkServer.shstart，三台都要启动bin/zkServ
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
Hadoop常见面试题整理及解答叶青舟 Linux hdfs 大数据 hadoop linux
Hadoop常见面试题整理及解答一、基础知识篇：1.把数据仓库从传统关系型数据库转到hadoop有什么优势？答：（1）关系型数据库成本高，且存储空间有限。而Hadoop使用较为廉价的机器存储数据，且Hadoop可以将大量机器构建成一个集群，并在集群中使用HDFS文件系统统一管理数据，极大的提高了数据的存储及处理能力。（2）关系型数据库仅支持标准结构化数据格式，Hadoop不仅支持标准结构化数据格式
2025毕业设计指南：如何用Hadoop构建超市进货推荐系统？大数据分析助力精准采购计算机编程指导师 Java实战集 Python实战集大数据实战集课程设计 hadoop 数据分析 spring boot java 进货 python
✍✍计算机编程指导师⭐⭐个人介绍：自己非常喜欢研究技术问题！专业做Java、Python、小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。⛽⛽实战项目：有源码或者技术上的问题欢迎在评论区一起讨论交流！⚡⚡Java实战|SpringBoot/SSMPython实战项目|Django微信小程序/安卓实战项目大数据实战项目⚡⚡文末获取源码文章目录⚡⚡文末获取源码基于hadoop的超市进货推荐系
hive表格统计信息不准确 weixin_41956627 hive hive hadoop 数据仓库
问题描述有个hive分区表，orc存储格式，有个分区，查询selectcount(1)fromtablewheredt='yyyyMMdd'结果是0，但查询select*fromtablewheredt='yyyyMMdd'又能查到数据，去hdfs对应目录下查看，也能看到有数据文件解决执行如下sqlANALYZETABLEdb.table1PARTITION(dt='20240908')COMPU
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后