E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
hadoop编程
Hadoop--两个简单的MapReduce程序
blog.csdn.net/huhui_cs/article/details/9907951 源代码下载:http://download.csdn.net/detail/huhui_bj/5909575 这周在学习
Hadoop
·
2015-10-30 14:47
mapreduce
win7下
hadoop编程
eclipse的配置
本人hadoop初学,折腾第一个hadoop1.1.2花了好几天,让各位见笑了, WARN NativeCodeLoader:52 - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 这是当时报的一个错误,SB的我想也没想就去google了
·
2015-10-27 13:35
eclipse
Hadoop编程
笔记(二):Hadoop新旧编程API的区别
Hadoop Release 0.20.0的API包括了一个全新的API:Context,有时候也称为上下文对象,此对象的设计使得在未来进行扩展更加容易。 后续的hadoop版本--如1.x--已经完成了大部分的API 更新。新的API类型上不兼容以前的API,所以以前的应用程序需要重写才能使新的API发挥其作用 。 新的API和旧的API之间有下面几个明显的区别: 1. 新的API倾向于使用
·
2015-10-23 08:45
hadoop
Hadoop编程
笔记(一):Mapper及Reducer类详解
本《
hadoop编程
笔记》系列主要针对
Hadoop编程
方面的学习,包括主要类及接口的用法和作用以及编程方法,最佳实践等,如果你想更多的学习Hadoop本身所具有的特性和功能及其附属的生态圈(如Pig
·
2015-10-23 08:45
hadoop
hadoop wordcount程序缺陷
自己在刚刚学习
hadoop编程
时,就是模仿wordcount程序编写。在数据量很小,作为demo程序跑,不会有什么问题,但当数据量激增,变成以亿计算时,各种问题都会出现。
·
2015-10-21 12:32
wordcount
hadoop编程
----寻找社交网络图中的三角关系
实验背景图的三角形计数问题是一个基本的图计算问题,是很多复杂网络分析(比如社交网络分析)的基础。目前图的三角形计数问题已经成为了Spark系统中GraphX图计算库所提供的一个算法级API。本次实验任务就是要在Hadoop系统上实现Twitter社交网络图的三角形计数任务。有向图转化为无向图如下图所示,社交网络中的关注关系一般为有向图,这里需要转化为无向图。转化思路为:如果IF(A->B)or(B
jianjian1992
·
2015-09-20 20:00
hadoop
hadoop编程
入门学习笔记-3 开发MapReduce程序
一、HadoopStreaming和Python与前面介绍的Hadoop提供的基于Java的MapReduce编程框架相比,HadoopStreaming是另一种形式的MapReduce编程框架。这种编程框架允许Map任务和Reduce任务通过标准输入输出来读数据、写数据,每次一行。任何程序只要能通过标准输入输出来读写数据,就可以使用HadoopStreaming,即你可以用Python、Ruby
hjh00
·
2015-07-29 17:04
hadoop
云计算
hadoop
mapreduce
hadoop编程
初步介绍
鉴于前边已有一些博文介绍名词概念、基本理论等,本篇作为开篇博文,重点从开发流程中去梳理
hadoop编程
做大数据分析挖掘的标准或常用流程。 1、hadoop研发核心流程 (1)数据源 *来源:
erliang20088
·
2015-05-17 17:00
java
hadoop
大数据
分布式文件系统
hadoop编程
实例
原文链接:http://www.cnblogs.com/xia520pi/archive/2012/06/04/2534533.html从网上搜到的一篇hadoop的编程实例,对于初学者真是帮助太大了,看过以后对MapReduce编程基本有了大概的了解。看了以后受益匪浅啊,赶紧保存起来。 1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数
iwantknowwhat
·
2015-04-13 18:00
hadoop
大数据
mapreduce编程模型
万法归宗之
Hadoop编程
无界限
记录下,散仙今天的工作以及遇到的问题和解决方案,俗话说,好记性不如烂笔头,写出来文章,供大家参考,学习和点评,进步,才是王道,废话不多说,下面切入主题: 先介绍下需求: 散仙要处理多个类似表的txt数据,当然只有值,列名什么的全部在xml里配置了,然后加工这些每个表的每一行数据,生成特定的格式基于ASCII码1和ASCII码2作为分隔符的一行数据,ASCII2作为字段名和字段值的分隔符,ASCII
九劫散仙
·
2015-04-09 10:00
xml
hadoop
JSoup
万法归宗之
Hadoop编程
无界限
记录下,散仙今天的工作以及遇到的问题和解决方案,俗话说,好记性不如烂笔头,写出来文章,供大家参考,学习和点评,进步,才是王道,废话不多说,下面切入主题: 先介绍下需求: 散仙要处理多个类似表的txt数据,当然只有值,列名什么的全部在xml里配置了,然后加工这些每个表的每一行数据,生成特定的格式基于ASCII码1和ASCII码2作为分隔符的一行数据,ASCII2作为字段名和字段值的分隔符,ASCII
u010454030
·
2015-04-09 10:00
xml
hadoop
JSoup
万法归宗之
Hadoop编程
无界限
记录下,散仙今天的工作以及遇到的问题和解决方案,俗话说,好记性不如烂笔头,写出来文章,供大家参考,学习和点评,进步,才是王道,废话不多说,下面切入主题:先介绍下需求:散仙要处理多个类似表的txt数据,当然只有值,列名什么的全部在xml里配置了,然后加工这些每个表的每一行数据,生成特定的格式基于ASCII码1和ASCII码2作为分隔符的一行数据,ASCII2作为字段名和字段值的分隔符,ASCII1作
qindongliang1922
·
2015-04-08 22:00
xml
hadoop
JSoup
万法归宗之
Hadoop编程
无界限
记录下,散仙今天的工作以及遇到的问题和解决方案,俗话说,好记性不如烂笔头,写出来文章,供大家参考,学习和点评,进步,才是王道,废话不多说,下面切入主题:先介绍下需求:散仙要处理多个类似表的txt数据,当然只有值,列名什么的全部在xml里配置了,然后加工这些每个表的每一行数据,生成特定的格式基于ASCII码1和ASCII码2作为分隔符的一行数据,ASCII2作为字段名和字段值的分隔符,ASCII1作
qindongliang1922
·
2015-04-08 22:00
hadoop
xml
JSoup
万法归宗之
Hadoop编程
无界限
记录下,散仙今天的工作以及遇到的问题和解决方案,俗话说,好记性不如烂笔头,写出来文章,供大家参考,学习和点评,进步,才是王道,废话不多说,下面切入主题:先介绍下需求:散仙要处理多个类似表的txt数据,当然只有值,列名什么的全部在xml里配置了,然后加工这些每个表的每一行数据,生成特定的格式基于ASCII码1和ASCII码2作为分隔符的一行数据,ASCII2作为字段名和字段值的分隔符,ASCII1作
qindongliang1922
·
2015-04-08 22:00
hadoop
xml
JSoup
万法归宗之
Hadoop编程
无界限
记录下,散仙今天的工作以及遇到的问题和解决方案,俗话说,好记性不如烂笔头,写出来文章,供大家参考,学习和点评,进步,才是王道,废话不多说,下面切入主题:先介绍下需求:散仙要处理多个类似表的txt数据,当然只有值,列名什么的全部在xml里配置了,然后加工这些每个表的每一行数据,生成特定的格式基于ASCII码1和ASCII码2作为分隔符的一行数据,ASCII2作为字段名和字段值的分隔符,ASCII1作
qindongliang1922
·
2015-04-08 22:00
hadoop
xml
JSoup
万法归宗之
Hadoop编程
无界限
记录下,散仙今天的工作以及遇到的问题和解决方案,俗话说,好记性不如烂笔头,写出来文章,供大家参考,学习和点评,进步,才是王道,废话不多说,下面切入主题:先介绍下需求:散仙要处理多个类似表的txt数据,当然只有值,列名什么的全部在xml里配置了,然后加工这些每个表的每一行数据,生成特定的格式基于ASCII码1和ASCII码2作为分隔符的一行数据,ASCII2作为字段名和字段值的分隔符,ASCII1作
qindongliang1922
·
2015-04-08 22:00
hadoop
xml
JSoup
万法归宗之
Hadoop编程
无界限
记录下,散仙今天的工作以及遇到的问题和解决方案,俗话说,好记性不如烂笔头,写出来文章,供大家参考,学习和点评,进步,才是王道,废话不多说,下面切入主题:先介绍下需求:散仙要处理多个类似表的txt数据,当然只有值,列名什么的全部在xml里配置了,然后加工这些每个表的每一行数据,生成特定的格式基于ASCII码1和ASCII码2作为分隔符的一行数据,ASCII2作为字段名和字段值的分隔符,ASCII1作
qindongliang1922
·
2015-04-08 22:00
hadoop
xml
JSoup
如何学好一门编程语言或技术?
相信大家都知道,在看一本书的时候,通过该书的目录和索引能够很快的了解本书内容和找到我们需要的页数,因为一本专业的书本往往记录的知识都非常全面,举个例子假如我们初学Hadoop,所以呢就购买了一本《
Hadoop
lixuguang
·
2015-04-03 17:00
编程语言
如何学好一门编程语言或技术?
相信大家都知道,在看一本书的时候,通过该书的目录和索引能够很快的了解本书内容和找到我们需要的页数,因为一本专业的书本往往记录的知识都非常全面,举个例子假如我们初学Hadoop,所以呢就购买了一本《
Hadoop
葬月仙帝
·
2015-03-03 10:11
感悟
人生
学习
个人
如何学好一门编程语言或技术?
相信大家都知道,在看一本书的时候,通过该书的目录和索引能够很快的了解本书内容和找到我们需要的页数,因为一本专业的书本往往记录的知识都非常全面,举个例子假如我们初学Hadoop,所以呢就购买了一本《
Hadoop
葬月仙帝
·
2015-03-03 10:11
感悟
人生
学习
个人
如何学好一门编程语言或技术?
相信大家都知道,在看一本书的时候,通过该书的目录和索引能够很快的了解本书内容和找到我们需要的页数,因为一本专业的书本往往记录的知识都非常全面,举个例子假如我们初学Hadoop,所以呢就购买了一本《
Hadoop
九劫散仙
·
2015-03-03 10:00
感悟
人生
如何学好一门编程语言或技术?
相信大家都知道,在看一本书的时候,通过该书的目录和索引能够很快的了解本书内容和找到我们需要的页数,因为一本专业的书本往往记录的知识都非常全面,举个例子假如我们初学Hadoop,所以呢就购买了一本《
Hadoop
u010454030
·
2015-03-03 09:00
工作
感悟
学习
如何学好一门编程语言或技术?
相信大家都知道,在看一本书的时候,通过该书的目录和索引能够很快的了解本书内容和找到我们需要的页数,因为一本专业的书本往往记录的知识都非常全面,举个例子假如我们初学Hadoop,所以呢就购买了一本《
Hadoop
qindongliang1922
·
2015-03-02 21:00
编程
linux
个人感悟
如何学习编程语言
如何学好一门编程语言或技术?
相信大家都知道,在看一本书的时候,通过该书的目录和索引能够很快的了解本书内容和找到我们需要的页数,因为一本专业的书本往往记录的知识都非常全面,举个例子假如我们初学Hadoop,所以呢就购买了一本《
Hadoop
qindongliang1922
·
2015-03-02 21:00
编程
linux
个人感悟
如何学习编程语言
如何学好一门编程语言或技术?
相信大家都知道,在看一本书的时候,通过该书的目录和索引能够很快的了解本书内容和找到我们需要的页数,因为一本专业的书本往往记录的知识都非常全面,举个例子假如我们初学Hadoop,所以呢就购买了一本《
Hadoop
qindongliang1922
·
2015-03-02 21:00
编程
linux
个人感悟
如何学习编程语言
如何学好一门编程语言或技术?
相信大家都知道,在看一本书的时候,通过该书的目录和索引能够很快的了解本书内容和找到我们需要的页数,因为一本专业的书本往往记录的知识都非常全面,举个例子假如我们初学Hadoop,所以呢就购买了一本《
Hadoop
qindongliang1922
·
2015-03-02 21:00
编程
linux
个人感悟
如何学习编程语言
如何学好一门编程语言或技术?
相信大家都知道,在看一本书的时候,通过该书的目录和索引能够很快的了解本书内容和找到我们需要的页数,因为一本专业的书本往往记录的知识都非常全面,举个例子假如我们初学Hadoop,所以呢就购买了一本《
Hadoop
qindongliang1922
·
2015-03-02 21:00
编程
linux
个人感悟
如何学习编程语言
如何学好一门编程语言或技术?
阅读更多相信大家都知道,在看一本书的时候,通过该书的目录和索引能够很快的了解本书内容和找到我们需要的页数,因为一本专业的书本往往记录的知识都非常全面,举个例子假如我们初学Hadoop,所以呢就购买了一本《
Hadoop
qindongliang1922
·
2015-03-02 21:00
编程
个人感悟
如何学习编程语言
linux
如何学好一门编程语言或技术?
相信大家都知道,在看一本书的时候,通过该书的目录和索引能够很快的了解本书内容和找到我们需要的页数,因为一本专业的书本往往记录的知识都非常全面,举个例子假如我们初学Hadoop,所以呢就购买了一本《
Hadoop
qindongliang1922
·
2015-03-02 21:00
编程
linux
个人感悟
如何学习编程语言
Hadoop4 利用VMware搭建自己的hadoop集群
如果大家想了解伪分布式的大家以及eclipse中的
hadoop编程
,可以参考我之前的三篇文章。1.在Linux环境中伪分布式部署hadoop(SSH免登陆),运行WordCount
Sky_YiBai
·
2015-02-01 13:00
hadoop编程
笔记
FileInputFormat.setMinInputSplitSize(job, 2L * 1024 * 1024 * 1024); 将使得小于 2G 的输入文件不会被分割处理。如果你的输入文件中有很多都是小于2G的,并且你的Hadoop集群配置了一个split的大小是默认的64M,那么就会导致 一个1点几G的文件就会被很多个map处理,从而导致输出文件数量很多。使用上面的方法设置了min i
qq346359669
·
2015-01-07 10:00
hadoop
storm 文档(2)----基本原理
没有办法使
Hadoop编程
实时系统;实时数据处理与批
beitiandijun
·
2014-11-24 19:00
storm
零基础学习hadoop到上手工作线路指导(编程篇)
问题导读:1.
hadoop编程
需要哪些基础?2.
hadoop编程
需要注意哪些问题?3.如何创建mapreduce程序及其包含几部分?4.如何远程连接eclipse,可能会遇到什么问题?
Big-Data
·
2014-08-07 18:00
hadoop编程
小技巧(9)---二次排序(值排序)
代码测试环境:Hadoop2.4应用场景:在Reducer端一般是key排序,而没有value排序,如果想对value进行排序,则可以使用此技巧。应用实例描述:比如针对下面的数据:a,5b,7c,2c,9a,3a,1b,10b,3c,1如果使用一般的MR的话,其输出可能是这样的:a1a3a5b3b10b7c1c9c2从数据中可以看到其键是排序的,但是其值不是。通过此篇介绍的技巧可以做到下面的输出:
fansy1990
·
2014-07-30 16:59
hadoop
编程
hadoop编程
小技巧(9)---二次排序(值排序)
代码测试环境:Hadoop2.4应用场景:在Reducer端一般是key排序,而没有value排序,如果想对value进行排序,则可以使用此技巧。应用实例描述:比如针对下面的数据:a,5 b,7 c,2 c,9 a,3 a,1 b,10 b,3 c,1如果使用一般的MR的话,其输出可能是这样的:a1 a3 a5 b3 b10 b7 c1 c9 c2从数据中可以看到其键是排序的,但是其值不是。通过此
fansy1990
·
2014-07-30 16:00
mapreduce
编程
hadoop
hadoop
二次排序
hadoop编程
小技巧(8)---Unit Testing (单元测试)
所需环境:Hadoop相关jar包(下载官网发行版即可);下载junit包(最新为好);下载mockito包;下载mrunit包;下载powermock-mockito包;相关包截图如下(相关下载参考:http://download.csdn.net/detail/fansy1990/7690977):应用场景:在进行Hadoop的一般MR编程时,需要验证我们的业务逻辑,或者说是验证数据流的时候可
fansy1990
·
2014-07-29 13:16
hadoop
mapreduce
MR单元测试
hadoop
编程
hadoop
编程
hadoop编程
小技巧(7)---自定义输出文件格式以及输出到不同目录
代码测试环境:Hadoop2.4应用场景:当需要定制输出数据格式时可以采用此技巧,包括定制输出数据的展现形式,输出路径,输出文件名称等。Hadoop内置的输出文件格式有:1)FileOutputFormat常用的父类;2)TextOutputFormat默认输出字符串输出格式;3)SequenceFileOutputFormat序列化文件输出;4)MultipleOutputs可以把输出数据输送到
fansy1990
·
2014-07-24 13:15
hadoop
编程
hadoop编程
小技巧(7)---自定义输出文件格式以及输出到不同目录
代码测试环境:Hadoop2.4应用场景:当需要定制输出数据格式时可以采用此技巧,包括定制输出数据的展现形式,输出路径,输出文件名称等。Hadoop内置的输出文件格式有:1)FileOutputFormat 常用的父类;2)TextOutputFormat默认输出字符串输出格式;3)SequenceFileOutputFormat序列化文件输出;4)MultipleOutputs可以把输出数据输送
fansy1990
·
2014-07-24 13:00
hadoop编程
小技巧(6)---处理大量小数据文件CombineFileInputFormat应用
代码测试环境:Hadoop2.4应用场景:当需要处理很多小数据文件的时候,可以应用此技巧来达到高效处理数据的目的。原理:应用CombineFileInputFormat,可以把多个小数据文件在进行分片的时候合并。由于每个分片会产生一个Mapper,当一个Mapper处理的数据比较小的时候,其效率较低。而一般使用Hadoop处理数据时,即默认方式,会把一个输入数据文件当做一个分片,这样当输入文件较小
fansy1990
·
2014-07-23 11:02
hadoop
编程
hadoop编程
小技巧(6)---处理大量小数据文件CombineFileInputFormat应用
代码测试环境:Hadoop2.4应用场景:当需要处理很多小数据文件的时候,可以应用此技巧来达到高效处理数据的目的。原理:应用CombineFileInputFormat,可以把多个小数据文件在进行分片的时候合并。由于每个分片会产生一个Mapper,当一个Mapper处理的数据比较小的时候,其效率较低。而一般使用Hadoop处理数据时,即默认方式,会把一个输入数据文件当做一个分片,这样当输入文件较小
fansy1990
·
2014-07-23 11:00
hadoop编程
小技巧(5)---自定义输入文件格式类InputFormat
Hadoop代码测试环境:Hadoop2.4应用:在对数据需要进行一定条件的过滤和简单处理的时候可以使用自定义输入文件格式类。Hadoop内置的输入文件格式类有:1)FileInputFormat这个是基本的父类,我们自定义就直接使用它作为父类;2)TextInputFormat这个是默认的数据格式类,我们一般编程,如果没有特别指定的话,一般都使用的是这个;key代表当前行数据距离文件开始的距离,
fansy1990
·
2014-07-22 13:00
hadoop编程
小技巧(4)---全局key排序类TotalOrderPartitioner
Hadoop代码测试版本:Hadoop2.4原理:在进行MR程序之前对输入数据进行随机提取样本,把样本排序,然后在MR的中间过程Partition的时候使用这个样本排序的值进行分组数据,这样就可以达到全局排序的目的了。难点:如果使用Hadoop提供的方法来实现全局排序,那么要求Mapper的输入、输出的key不变才可以,因为在源码InputSampler中提供的随机抽取的数据是输入数据最原始的ke
fansy1990
·
2014-07-18 14:59
hadoop
编程
hadoop编程
小技巧(4)---全局key排序类TotalOrderPartitioner
Hadoop代码测试版本:Hadoop2.4原理:在进行MR程序之前对输入数据进行随机提取样本,把样本排序,然后在MR的中间过程Partition的时候使用这个样本排序的值进行分组数据,这样就可以达到全局排序的目的了。难点:如果使用Hadoop提供的方法来实现全局排序,那么要求Mapper的输入、输出的key不变才可以,因为在源码InputSampler中提供的随机抽取的数据是输入数据最原始的ke
fansy1990
·
2014-07-18 14:00
hadoop编程
小技巧(3)---自定义分区类Partitioner
Hadoop代码测试环境:Hadoop2.4原理:在Hadoop的MapReduce过程中,Mapper读取处理完成数据后,会把数据发送到Partitioner,由Partitioner来决定每条记录应该送往哪个reducer节点,默认使用的是HashPartitioner,其核心代码如下:/**Use{@linkObject#hashCode()}topartition.*/publicintg
fansy1990
·
2014-07-17 13:17
hadoop
编程
hadoop编程
小技巧(3)---自定义分区类Partitioner
Hadoop代码测试环境:Hadoop2.4原理:在Hadoop的MapReduce过程中,Mapper读取处理完成数据后,会把数据发送到Partitioner,由Partitioner来决定每条记录应该送往哪个reducer节点,默认使用的是HashPartitioner,其核心代码如下:/**Use{@linkObject#hashCode()}topartition.*/ publicint
fansy1990
·
2014-07-17 13:00
hadoop编程
小技巧(2)---计数器Counter
Hadoop代码测试版本:2.4应用场景:在
Hadoop编程
的时候,有时我们在进行我们算法逻辑的时候想附带了解下数据的一些特性,比如全部数据的记录数有多少,map的输出有多少等等信息(这些是在算法运行完毕后
fansy1990
·
2014-07-16 17:50
hadoop
编程
hadoop编程
小技巧(2)---计数器Counter
Hadoop代码测试版本:2.4应用场景:在
Hadoop编程
的时候,有时我们在进行我们算法逻辑的时候想附带了解下数据的一些特性,比如全部数据的记录数有多少,map的输出有多少等等信息(这些是在算法运行完毕后
fansy1990
·
2014-07-16 17:00
hadoop编程
小技巧(1)---map端聚合
测试hadoop版本:2.4Map端聚合的应用场景:当我们只关心所有数据中的部分数据时,并且数据可以放入内存中。使用的好处:可以大大减小网络数据的传输量,提高效率;一般编程思路:在Mapper的map函数中读入所有数据,然后添加到一个List(队列)中,然后在cleanup函数中对list进行处理,输出我们关系的少量数据。实例:在map函数中使用空格分隔每行数据,然后把每个单词添加到一个堆栈中,在
fansy1990
·
2014-07-16 17:21
hadoop
编程
hadoop编程
小技巧(1)---map端聚合
测试hadoop版本:2.4 Map端聚合的应用场景:当我们只关心所有数据中的部分数据时,并且数据可以放入内存中。使用的好处:可以大大减小网络数据的传输量,提高效率;一般编程思路:在Mapper的map函数中读入所有数据,然后添加到一个List(队列)中,然后在cleanup函数中对list进行处理,输出我们关系的少量数据。实例:在map函数中使用空格分隔每行数据,然后把每个单词添加到一个堆栈中,
fansy1990
·
2014-07-16 17:00
hadoop编程
:分析CSDN注册邮箱分布情况
hadoop编程
:分析CSDN注册邮箱分布情况本文博客链接:http://blog.csdn.net/jdh99,作者:jdh,转载请注明.环境:主机:Ubuntu10.04hadoop版本:1.2.1
jdh99
·
2014-07-08 15:00
上一页
1
2
3
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他