铁猴

在CentOS 运行你的第一个MapReduce程序

在进行本文的操作之前要先搭建一个Hadoop的环境，为了便于实验，可采用单节点部署的方式，具体方法可参见： Centos 6.5 下Hadoop 1.2.1单节点环境的创建

编写源码

主要为创建一个解析气象数据的程序，可以从数据文件中选择气温最高的一年，采用Maven进行编译。下面只包含Maper,Reduce,以及Main函数的代码。完整项目代码请参见
https://github.com/Eric-aihua/practise/tree/master/hadoop

Mapper

package com.eric.hadoop.map;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.MapReduceBase;
import org.apache.hadoop.mapred.Mapper;
import org.apache.hadoop.mapred.OutputCollector;
import org.apache.hadoop.mapred.Reporter;

public class MaxTemperatureMapper extends MapReduceBase implements
    Mapper {

  private static final int MISSING = 9999;

  public void map(LongWritable fileOffset, Text lineRecord,
      OutputCollector output, Reporter reporter) throws IOException {
    System.out.println("##Processing Record:" + lineRecord.toString());
    String line = lineRecord.toString();
    String year = line.substring(15, 19);
    int temperature;
    if (line.charAt(87) == '+') {
      temperature = Integer.parseInt(line.substring(88, 92));
    } else {
      temperature = Integer.parseInt(line.substring(87, 92));
    }
    String quality = line.substring(92, 93);
    if (temperature != MISSING && quality.matches("[01459]")) {
      output.collect(new Text(year), new IntWritable(temperature));
    }
  }

}

Reduce

package com.eric.hadoop.reduce;

import java.io.IOException;
import java.util.Iterator;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.MapReduceBase;
import org.apache.hadoop.mapred.OutputCollector;
import org.apache.hadoop.mapred.Reducer;
import org.apache.hadoop.mapred.Reporter;

public class MaxTemperatureReduce extends MapReduceBase implements
    Reducer {

  public void reduce(Text year, Iterator temperatures,
      OutputCollector output, Reporter arg3) throws IOException {
    int maxTemperature = Integer.MIN_VALUE;
    System.out.println("##Processing temperatures:" + temperatures);
    while (temperatures.hasNext()) {
      maxTemperature = Math.max(maxTemperature, temperatures.next().get());
    }
    output.collect(year, new IntWritable(maxTemperature));
  }

}

Main

package com.eric.hadoop.jobconfig;

import java.io.IOException;

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.FileInputFormat;
import org.apache.hadoop.mapred.FileOutputFormat;
import org.apache.hadoop.mapred.JobClient;
import org.apache.hadoop.mapred.JobConf;

import com.eric.hadoop.map.MaxTemperatureMapper;
import com.eric.hadoop.reduce.MaxTemperatureReduce;


public class MaxTemperature {
  public static void main(String[] args) throws IOException {
    JobConf conf = new JobConf(MaxTemperature.class);
    conf.setJobName("Get Max Temperature!");
    if (args.length != 2) {
      System.err.print("Must contain 2 params:inputPath OutputPath");
      System.exit(0);
    }

    FileInputFormat.addInputPaths(conf, args[0]);
    FileOutputFormat.setOutputPath(conf, new Path(args[1]));

    conf.setMapperClass(MaxTemperatureMapper.class);
    conf.setReducerClass(MaxTemperatureReduce.class);

    conf.setOutputKeyClass(Text.class);
    conf.setOutputValueClass(IntWritable.class);
    JobClient.runJob(conf);
  }
}

生成Jar文件

进入项目目录，执行
mvn install
成功执行后生成名称为hadoop-0.0.1-SNAPSHOT.jar的Jar文件
获取测试数据

可以使用上文中github中的数据，也可从互联网上下载，URL为：https://github.com/tomwhite/hadoop-book/tree/master/input/ncdc/all
假设下载的数据文件名称为1902,且放到HDFS文件系统的testdata目录
hadoop dfs -mkdir testdata
hadoop dfs -mkdir output
hadoop dfs -put 1902 testdata

执行Job

hadoop jar hadoop-0.0.1-SNAPSHOT.jar testdata/1902 output
观察结果

通过WEB控制台来监控：

通过命令行输出来监控：
[hadoop@localhost ~]$ hadoop jar hadoop-0.0.1-SNAPSHOT.jar testdata/1902 output
Warning: $HADOOP_HOME is deprecated.

14/11/26 13:33:39 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same.
14/11/26 13:33:39 INFO util.NativeCodeLoader: Loaded the native-hadoop library
14/11/26 13:33:39 WARN snappy.LoadSnappy: Snappy native library not loaded
14/11/26 13:33:39 INFO mapred.FileInputFormat: Total input paths to process : 1
14/11/26 13:33:40 INFO mapred.JobClient: Running job: job_201411261331_0002 #job的标识
14/11/26 13:33:41 INFO mapred.JobClient: map 0% reduce 0%
14/11/26 13:33:47 INFO mapred.JobClient: map 100% reduce 0% #Mapper的进度
14/11/26 13:33:54 INFO mapred.JobClient: map 100% reduce 33%
14/11/26 13:33:56 INFO mapred.JobClient: map 100% reduce 100%#Reduce的进度
14/11/26 13:33:57 INFO mapred.JobClient: Job complete: job_201411261331_0002
14/11/26 13:33:57 INFO mapred.JobClient: Counters: 30
14/11/26 13:33:57 INFO mapred.JobClient: Job Counters
14/11/26 13:33:57 INFO mapred.JobClient: Launched reduce tasks=1
14/11/26 13:33:57 INFO mapred.JobClient: SLOTS_MILLIS_MAPS=7744
14/11/26 13:33:57 INFO mapred.JobClient: Total time spent by all reduces waiting after reserving slots (ms)=0
14/11/26 13:33:57 INFO mapred.JobClient: Total time spent by all maps waiting after reserving slots (ms)=0
14/11/26 13:33:57 INFO mapred.JobClient: Launched map tasks=2
14/11/26 13:33:57 INFO mapred.JobClient: Data-local map tasks=2
14/11/26 13:33:57 INFO mapred.JobClient: SLOTS_MILLIS_REDUCES=9008
14/11/26 13:33:57 INFO mapred.JobClient: File Input Format Counters
14/11/26 13:33:57 INFO mapred.JobClient: Bytes Read=890953
14/11/26 13:33:57 INFO mapred.JobClient: File Output Format Counters
14/11/26 13:33:57 INFO mapred.JobClient: Bytes Written=9
14/11/26 13:33:57 INFO mapred.JobClient: FileSystemCounters
14/11/26 13:33:57 INFO mapred.JobClient: FILE_BYTES_READ=72221
14/11/26 13:33:57 INFO mapred.JobClient: HDFS_BYTES_READ=891143
14/11/26 13:33:57 INFO mapred.JobClient: FILE_BYTES_WRITTEN=309368
14/11/26 13:33:57 INFO mapred.JobClient: HDFS_BYTES_WRITTEN=9
14/11/26 13:33:57 INFO mapred.JobClient: Map-Reduce Framework
14/11/26 13:33:57 INFO mapred.JobClient: Map output materialized bytes=72227
14/11/26 13:33:57 INFO mapred.JobClient: Map input records=6565 #Mapper的输入记录数
14/11/26 13:33:57 INFO mapred.JobClient: Reduce shuffle bytes=72227
14/11/26 13:33:57 INFO mapred.JobClient: Spilled Records=13130
14/11/26 13:33:57 INFO mapred.JobClient: Map output bytes=59085
14/11/26 13:33:57 INFO mapred.JobClient: Total committed heap usage (bytes)=478543872
14/11/26 13:33:57 INFO mapred.JobClient: CPU time spent (ms)=4400 #CPU耗时
14/11/26 13:33:57 INFO mapred.JobClient: Map input bytes=888978
14/11/26 13:33:57 INFO mapred.JobClient: SPLIT_RAW_BYTES=190
14/11/26 13:33:57 INFO mapred.JobClient: Combine input records=0
14/11/26 13:33:57 INFO mapred.JobClient: Reduce input records=6565 #Reduce的输出记录数
14/11/26 13:33:57 INFO mapred.JobClient: Reduce input groups=1
14/11/26 13:33:57 INFO mapred.JobClient: Combine output records=0
14/11/26 13:33:57 INFO mapred.JobClient: Physical memory (bytes) snapshot=501690368
14/11/26 13:33:57 INFO mapred.JobClient: Reduce output records=1 #Reduce的输出记录数
14/11/26 13:33:57 INFO mapred.JobClient: Virtual memory (bytes) snapshot=2167922688
14/11/26 13:33:57 INFO mapred.JobClient: Map output records=6565#Mapper的输出记录数
检查运行结果
故障以及解析
问题描述：hadoop 的map阶段正常，但是reduce却卡在00%那里，等了好久进度仍然不变

日志报错：2011-10-03 09:46:13,349 INFO org.apache.hadoop.mapred.JobInProgress: Failed fetch notification #1 for task attempt_201110022127_0003_m_000000_0

1. 将/etc/hosts中的主机名与/etc/sysconfig/network中的HOSTNAME一致，修改对应的文件后重启系统

Doris入门了解花开终为谢大数据 doris 大数据
微信公众号：大数据高性能计算大数据存储与分析入门学习文档：深入了解Doris大数据技术已成为现代数据处理的核心组成部分，为企业提供了更多洞察和决策支持。Doris（以前称为Palo）是一种用于大规模数据存储和分析的开源分布式数据仓库，它允许您高效地存储和查询大量数据，是大数据处理生态系统的一部分。本文档将为您提供关于Doris的入门学习指南，包括其基本概念、核心功能和如何开始使用它。目录什么是Do
在云原生时代，构建高效的大数据存储与分析平台程序员小侯大数据系列云原生大数据数据分析
文章目录1.**选择适当的数据存储技术：**2.**采用分布式架构：**3.**数据分区和索引：**4.**采用列式存储：**5.**数据压缩和编码：**6.**使用缓存技术：**7.**数据分片和复制：**8.**自动化运维和监控：**9.**数据安全和权限控制：**10.**实时处理和流式分析：**11.**数据质量和清洗：**12.**持续优化和改进：**个人主页：程序员小侯CSDN新晋作者
面向智能电网的电力大数据存储与分析应用唐名威
面向智能电网的电力大数据存储与分析应用崔立真1,史玉良1,刘磊1,赵卓峰2,毕艳冰31.山东大学计算机科学与技术学院，山东济南2501012.北方工业大学云计算研究中心，北京1000413.国网信息通信产业集团有限公司，北京102211摘要：阐述了智能电网面临的挑战以及大数据关键技术对电力行业的可持续发展和坚强智能电网建立的重要意义。分别从智能电网主数据管理、用电信息统一存储管理、电能质量分析、配
Hadoop学习-基础篇 I_李岩
Hadoop大数据平台与架构功能与优势Hadoop是大数据存储与分析的架构，是分布式存储和分布式计算平台两个核心组成HDFS：分布式文件系统，用于存储海量的数据MapReduce：并行处理框架，实现任务的分解和调度应用可用于搭建数据仓库，分析统计数据生态HIVE：SQL语句形式，转换为Hadoop任务去执行HBASE：存储结构化数据的分布式数据库zookeeper：服务注册、治理HDFS概念块（B
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin

在CentOS 运行你的第一个MapReduce程序

编写源码

Mapper

Reduce

Main

生成Jar文件

获取测试数据

执行Job

观察结果

检查运行结果

故障以及解析

你可能感兴趣的:(大数据存储与分析)