E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
hadoop学习
Hadoop学习
笔记(4)-Eclipse下搭建Hadoop2.6.4开发环境并写wordcount
0.前言本文参考博客:http://www.51itong.net/eclipse-hadoop2-7-0-12448.html搭建开发环境前保障已经搭建好hadoop的伪分布式。可参考上个博客:http://blog.csdn.net/xummgg/article/details/511730721.下载安装eclipse下载网址:http://www.eclipse.org/downloads
XianMing的博客
·
2020-08-24 18:50
Hadoop
Hadoop学习
笔记(10)-简述分布式数据仓库Hive原理
0.什么是数据仓库数据仓库,英文名称为DataWarehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。简单的说就是:数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库
XianMing的博客
·
2020-08-24 18:50
Hadoop
hadoop学习
笔记之hadoop伪集群安装
hadoop安装实际也是很简单的,关键是有些坑不要踩了就好了,hadoop实际就是一个java的程序,跑起来很简单的,前期配置和准备工作做好就能一步安装成功准备工作1安装linux虚拟机,注意安装的时候不要忘记网络设置,不然不能通过局域网连接到虚拟机准备工作2linux要先建立一个跑hadoop的用户并赋给权限[root@~]#useradd-mhadoop-s/bin/bash[root@~]#
xuehanxin
·
2020-08-24 18:45
hadoop安装
Hadoop学习
笔记(四):HBase
HBase是在一个HDFS上开发的面向列的分布式数据库。HBase不是关系型数据库,不支持SQL。HTable一些基本概念Rowkey行主键,HBase不支持条件查询和Orderby等查询,读取记录只能按Rowkey(及其range)或全表扫描,因此Rowkey需要根据业务来设计以利用其存储排序特性(Table按Rowkey字典序排序如1,10,100,11,2)提高性能。ColumnFamily
weixin_34306593
·
2020-08-24 17:19
Hadoop学习
笔记—9.Partitioner与自定义Partitioner
Hadoop学习
笔记—9.Partitioner与自定义Partitioner一、初步探索Partitioner1.1再次回顾Map阶段五大步骤在第四篇博文《初识MapReduce》中,我们认识了MapReduce
weixin_34194359
·
2020-08-24 17:02
Hadoop学习
笔记(1)----项目简述
1.Common:一系列组件和接口,用于分布式文件系统和通用I/O(序列化、JavaRPC和持久化数据结构)2.Avro:一种序列化系统,用于支持高效,跨语言的RPC和持久化数据存储3.MapReduce:分布式数据处理模型和执行环境,运行于大型商用机集群4.HDFS:分布式文件系统,运行于大型商用机集群5.Pig:数据流行语言和运行环境,用以探究非常庞大的数据集。Pig运行在MapReduce和
Eickrow
·
2020-08-24 15:54
Hadoop
Hadoop学习
之HDFS/MapReduce/YARN进程介绍
一、Hadoop之三大组件HDFS———->数据存储MapReduce—>作业计算框架Yarn———–>资源调度二、HDFS1、启动HDFS查看进程[hadoop@hadoop001hadoop]$sbin/start-dfs.shStartingnamenodeson[hadoop001]hadoop001:startingnamenode,loggingto/opt/sourcecode/ha
anbashi7271
·
2020-08-24 13:54
大数据
Hadoop学习
笔记(8)-简述分布式数据库Hbase原理
1.Hbase简介Hbase是一个分布式可扩展的NoSQL数据库,提供对结构化,半结构化,非结构化大数据的实时读写和随机访问能力,而且操作速度与数据量基本无关,所以可以用于海量数据处理。Hbase之于HDFS就类似于数据库之于文件系统。自然Hbase是建立在HDFS之上的,可以存储海量的数据。常见的NoSQL数据库还有:ApacheCassandra,MongoDB等。下图1展示了Hbase在Ha
XianMing的博客
·
2020-08-24 12:54
Hadoop
hadoop
hbase
分布式数据库
大数据
Hadoop学习
笔记
一.Datanode与NameNode区别HDFS体系结构大数据中,HDFS集群以Master-Slave模式运行,主要有两类节点:一个Namenode(即Master)和多个Datanode(即Slave)。Namenode管理文件系统的Namespace。它维护着文件系统树(filesystemtree)以及文件树中所有的文件和文件夹的元数据(metadata)。Namenode管理者文件系统
zang_coding
·
2020-08-24 11:09
Hadoop学习
-错误记录:namenode、datanode、secondarynamenode未启动
1、在ubuntu16.04系统中,采用伪分布配置,在账户A上启动hadoop2.7.3失败,namenode、datanode、secondarynamenode未启动,查看hadoop-hadoop-namenode-ubuntu.log,错误信息如下:2017-09-0202:33:30,597INFOorg.apache.hadoop.http.HttpServer2:HttpServer
摘果子的人
·
2020-08-23 05:09
大数据
Hadoop学习
:window环境下idea连接linux上的hdfs集群
1、安装idea2、新建Maven项目其中GroupId一般是公司域名倒写,例:www.baidu.com,一般包名为com.baidu,这是一种规范,ArtifactId一般是指项目的具体作用,比如testHdfs。3、项目完成后打开项目目录下的pom.xml文件,并添加如下依赖junitjunitRELEASEorg.apache.logging.log4jlog4j-core2.8.2org
clover猪猪
·
2020-08-22 23:43
hadoop
hadoop学习
——Hbase
Hbase简介Hbase是ApcheHadoop中的一个子项目,Hbase依托于Hadoop的hdfs作为最基本的存储单元,Hbase是运行在Hadoop上的NoSQL数据库,它是一个分布式可扩展的大数据仓库,也就是说Hbase能够利用hdfs的分布式处理模式,并从hadoop的mapreduce程序模型中获益,这意味着一组商业硬件存储许多具有十亿行和上百万列的大表,除去hadoop的优势,hba
zhouxiaowu_bigdata
·
2020-08-22 20:36
hadoop
Hadoop学习
笔记(一)
Hadoop2ubuntu安装和配置1.安装hadoop前的准备工作安装jdk安装openssl-server免密码登陆2.安装hadoop>https://hadoop.apache.org/releases.html选择自己要安装的版本。注意每个版本对应两个下载选项source和binary,我们暂时下载binary,下载后我们会得到一个名为hadoop-x.x.x.tar.gz的压缩文件。将
赵大龙
·
2020-08-22 18:07
hadoop
hadoop学习
(一)---Hbase入门
HBase的发展史2006年底由PowerSet的ChadWalters和JimKellerman发起,2008年成为ApacheHadoop的一个子项目。现已作为产品在多家企业被使用,如:WorldLingoStreamy.comOpenPlacesYahoo!Adobe淘宝FacebookTwitterTrendMicroHbase是什么HBase是一种构建在HDFS之上的分布式、面向列的存储
心诚则灵--艾
·
2020-08-22 18:52
大数据
hadoop
Hadoop学习
资源集合
Hadoop是一个由Apache基金会所开发的开源分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构,将大数据处理引擎尽可能的靠近存储。为了帮助大家进一步了解Hadoop,云栖社区组织翻译了GitHubAwe
weixin_34092455
·
2020-08-22 14:08
Hadoop学习
笔记 --- 计算机中存储单位介绍
计算机存储单位一般用字节(Byte)、千字节(KB)、兆字节(MB)、吉字节(GB)、太字节(TB)、拍字节(PB)、艾字节(EB)、泽它字节(ZB,又称皆字节)、尧它字节(YB)表示。它们之间的换算关系是:1KB=1024B1MB=1024KB1GB=1024MB1TB=1024GB1PB=1024TB1EB=1024PB1ZB=1024EB1YB=1024ZB
杨鑫newlfe
·
2020-08-22 14:00
大数据挖掘与大数据应用案例
数据库
hadoop学习
笔记3 hadoop2.5.2单机模式环境配置和eclipse运行
core-site.xmlhadoop.tmp.dir/home/mouap/hadoop/tmpfs.defaultFShdfs://localhost:9000io.file.buffer.size4096hdfs-site.xmldfs.nameserviceshadoop-cluster1集群别名,可以有多个,逗号分割dfs.namenode.name.dirfile:///home/mo
若水_若水
·
2020-08-21 20:49
大数据
hadoop学习
记录之hadoop版本升级问题解决
hadoop学习
记录之hadoop版本升级问题解决我之前用的是hadoop2.4.1是32位的,在运行程序时发现不行了,必须得升级,hadoop2.5.1开始支持64位的了。
JustInToday
·
2020-08-21 16:54
hadoop学习笔记
Hadoop学习
笔记:Apache Hadoop生态系统
Hadoop学习
笔记:ApacheHadoop生态系统作者:雨水,时间:2013-12-9博客地址:http://blog.csdn.net/gobitanHadoop从诞生至今已经发展成为一个大数据相关的庞大的软件生态系统
gobitan
·
2020-08-21 12:51
5.
大数据
hadoop学习
之hadoop优缺点
hdfs是一个文件系统,通过目录树来定位资源,也是分布式的,通过很多个服务器来实现功能。与window的ntfs文件系统同是文件系统,但是原理不同。hdfs的设计适合一次写入,多次读出的场景,但是不支持文件的修改。不适合网盘的应用(网盘需要下载和删除),适合用来数据的分析。hdfs优点:高容错性:通过增加副本的形式,来提高容错性,而且数据自动保存多个副本。副本丢失以后,可以自动恢复。适合大数据处理
kerl-fashion
·
2020-08-21 07:21
Hadoop学习
笔记一 :HDFS总结
Hadoop的核心优势高可靠性:Hadoop支持同一数据多个副本保存机制,能有效避免数据丢失情况高扩展性:Hadoop能够很方便地扩展大量节点,用于分布式存储与计算高效率性:Hadoop结合MapReduce的思想,支持分布式并行工作,处理工作高容错性:在Hadoop集群中,能够自动将失败节点的任务重新分配Yarn的架构ResourceManager:负责集群任务调度与资源分配的核心,启动监控NM
Chord_Gll
·
2020-08-21 03:30
hadoop2.0
hadoop学习
之JavaAPI
1.首先需要引入hadoop的maven依赖org.apache.hadoophadoop-common2.7.4org.apache.hadoophadoop-hdfs2.7.4org.apache.hadoophadoop-client2.7.42.连接到hdfs文件系统//创建一个配置类Configurationconf=newConfiguration();//创建一个访问hdfs的客户端
kerl-fashion
·
2020-08-20 20:33
Hadoop学习
二(java api调用操作HDFS)
上一篇文章记录了在Ubuntu虚拟机上启动了hadoop这篇文章在windows机器上通过javaapi方式调用操作hdfs,在使用过程中也遇到了一些问题,这里简单介绍一下。工具:.IntellJIDEA首先创建了一个maven项目,pom.xml文件中引入了hadoop-common包org.apache.hadoophadoop-common2.7.1org.apache.hadoophado
随风闲云
·
2020-08-20 20:45
hadoop
Hadoop学习
笔记3:org.apache.hadoop.conf
2019独角兽企业重金招聘Python工程师标准>>>主要讲解org.apache.hadoop.conf包里的3个类的作用。看完这个,你绝对可以对配置项这一块非常清楚了。类的个数:3个1包:【org.apache.hadoop.conf】描述:本包与【配置参数配置】相关,包含3个类(接口),Configurable,Configuration,Configured.1.1)Configurabl
weixin_34408717
·
2020-08-20 19:42
Hadoop学习
笔记(4)—— java API 操作 hdfs(1)
前提是已经编译好了hadoop在win7上的源码,并且配置了正确的环境变量。参考笔记(3)参考地址1上传文件packagecom.tzb.hdfs;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;importorg.jun
一角残叶
·
2020-08-20 18:37
#
Hadoop学习笔记
Hadoop学习
笔记三:MapReduce的Shuffle图解
学习的时候没有太过留意Shuffle这个概念,以至于还以为是不是漏掉了什么知识点,后面看了一些帖子才发现Shuffle原来是map()方法执行结束到reduce()方法执行这么一大段过程....小声BB:实质上该过程包含许多环节,不知道为啥就统称Shuffle了......1.Mapper的写出图见意现--直接上图:需要明确的点:在环形缓冲区触发溢写时,进行的排序是先根据每个键值对的分区进行排序,
Chord_Gll
·
2020-08-20 17:15
hadoop2.0
mapreduce
Hadoop学习
笔记三:MapReduce的Shuffle图解
学习的时候没有太过留意Shuffle这个概念,以至于还以为是不是漏掉了什么知识点,后面看了一些帖子才发现Shuffle原来是map()方法执行结束到reduce()方法执行这么一大段过程....小声BB:实质上该过程包含许多环节,不知道为啥就统称Shuffle了......1.Mapper的写出图见意现--直接上图:需要明确的点:在环形缓冲区触发溢写时,进行的排序是先根据每个键值对的分区进行排序,
Chord_Gll
·
2020-08-20 17:14
hadoop2.0
mapreduce
Hadoop学习
笔记二:MapReduce的IO类型 && 文件切片
1.对MapReduce的理解是什么:Hadoop默认自带的分布式计算框架做什么:提供一系列接口(核心类:InputFormat、OutputFormat、Mapper、Reducer、Driver),让用户能够实现自定义业务功能的分布式计算任务【优点】:高扩展性:计算资源不够,直接增加节点数量即可。质量可能不够,数量一定管够高容错性:一个节点任务失败,能自动转移到其他空闲节点适合大数据处理:得益
Chord_Gll
·
2020-08-20 17:37
mapreduce
hadoop
Hadoop学习
笔记二:MapReduce的IO类型 && 文件切片
1.对MapReduce的理解是什么:Hadoop默认自带的分布式计算框架做什么:提供一系列接口(核心类:InputFormat、OutputFormat、Mapper、Reducer、Driver),让用户能够实现自定义业务功能的分布式计算任务【优点】:高扩展性:计算资源不够,直接增加节点数量即可。质量可能不够,数量一定管够高容错性:一个节点任务失败,能自动转移到其他空闲节点适合大数据处理:得益
Chord_Gll
·
2020-08-20 17:37
mapreduce
hadoop
HDFS的常用API介绍
Hadoop学习
HDFS常用API1.常用API1.创建目录2.文件上传测试参数优先级3.文件下载4.文件夹删除5.文件更名6.文件详情查看6.判断文件和文件夹2.完整代码HDFS常用API创建一个Maven
klionl
·
2020-08-20 16:59
hadoop
Hadoop学习
笔记 Java接口
从hadoopURL读取数据1.自定义编写URLCat方法:importjava.io.IOException;importjava.io.InputStream;importjava.net.MalformedURLException;importjava.net.URL;importorg.apache.hadoop.fs.FsUrlStreamHandlerFactory;importorg
Nobi
·
2020-08-20 16:21
Hadoop入门
Hadoop学习
笔记(3)-java操作hdfs的API接口
Java操作hdfs的API接口packagecom.zhouxy;importjava.io.FileNotFoundException;importjava.io.IOException;importjava.net.URI;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileStatus;impo
米兔by
·
2020-08-20 14:47
Hadoop
hadoop学习
笔记之--完全分布模式安装
Hadoop完全分布式模式安装步骤Hadoop模式介绍单机模式:安装简单,几乎不用作任何配置,但仅限于调试用途伪分布模式:在单节点上同时启动namenode、datanode、jobtracker、tasktracker、secondarynamenode等5个进程,模拟分布式运行的各个节点完全分布式模式:正常的Hadoop集群,由多个各司其职的节点构成安装环境操作平台:vmware2操作系统:o
iteye_4537
·
2020-08-19 10:19
Hadoop学习
第一篇---hadoop背景介绍及基本组件简介
Hadoop产生的背景HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。2003年开始谷歌陆续发表的三篇论文为该问题提供了可行的解决方案。——分布式文件系统(GFS),可用于处理海量网页的存储——分布式计算框架MAPREDUCE,可用于处理海量
linus.lin
·
2020-08-19 08:09
Hadoop学习
(1)——分布式存储系统HDFS
Hadoop生态一、分布式存储系统HDFS介绍(1)存储模型:字节文件线性切割成块(Block):偏移量offset;Block分散存储在集群节点中,单一文件Block大小一致,文件与文件可以不一致;Block可以设置副本数,副本无序分散在不同节点中(副本数不要超过节点数量);文件上传可以设置Block大小和副本数,已上传的文件Block副本数可以调整,大小不变;–只支持一次写入多次读取,同一时刻
V瑞
·
2020-08-19 08:58
大数据Hadoop
Hadoop学习
(一):分布式文件系统HDFS
HDFS(HadoopDistributedFileSystem)是Hadoop下的分布式文件系统,具有高容错、高吞吐量等特性,可以部署在低成本的硬件上。HDFS特性超大文件适合存放MB-PB级别的数据一次写入,多次读取一次写入,多次读取是HDFS最高效的访问模式低成本硬件HDFS可以运行在低成本的硬件中吞吐量优先于低延时对于低延时数据访问的应用,不适合在HDFS上运行。HDFS是为高数据吞吐量应
有理想的番茄
·
2020-08-19 07:46
大数据相关
秋招复习
Hadoop学习
之路(十 一):深入理解Hadoop三大核心组件之YARN
内容简介一、YARN的基本概述二、YARN的核心进程1.ResourceManager2.NodeManager3.ApplicationMaster4.Container三、YARN与MapReduce1的区别1.集群的可扩展性2.资源的利用率三、YARN应用运行机制四、YARN的调度机制1.FIFO调度器2.容量调度器3.公平调度器五、总结一、YARN的基本概述ApacheHadoopYARN
萧邦主
·
2020-08-19 07:13
Hadoop生态
Hadoop学习
笔记01
官方文档:https://hadoop.apache.org/docs/r2.10.0/hadoop-project-dist/hadoop-common/ClusterSetup.html1编译一些软件的官网提供了source和binary两个版本source是源码,需要手动编译成可执行文件binary是可执行版,是已经编译好的以hadoop2.7来说,官网的可执行版不支持snappy和bzip
♂燃烧吧ˇ小宇宙、
·
2020-08-18 21:31
Hadoop
Hadoop学习
笔记(1)-Hadoop生态系统
0.前言先介绍下现在的整体大数据架构的内容。见下图。右边的黑框部分是hadoop的核心架构。包括HDFS,MapReduce,yarn,hive,hbase。中间红框部分是saprk的生态圈,有RDD,sparkCore,sparkSQL,sparkGraphX,sparkML,sparkR,sparkStreaming。Spark可以完全代替Hadoop中的MapReduce部分。现在的hado
XianMing的博客
·
2020-08-18 12:55
Hadoop
Hadoop学习
笔记:(1)Hadoop体系介绍
Hadoop是一个能对大量数据进行分布式处理的软件框架。使得开发人员在不了解底层分布式细节的情况下,开发分布式程序。利用集群的特长进行高速运算和存储。分布式系统是一组通过网络进行通信,为了完成共同的任务为协调工作的计算机节点组成的系统。目的是利用更多的机器,更多更快的处理和存储数据。分布式和集群的差别在于集群中每个节点是相似的,提供相似的功能,而分布式是把任务分为多个子任务,并把子任务分布在不同机
cristan_lsy
·
2020-08-18 12:44
大数据
JAVA
Hadoop学习
总结
本文为
Hadoop学习
总结,分为HDFS,MapReduce,YARN三部分一、HDFS1个Master(NameNode/NN),N个Slave(DataNode/DN)1个文件会被拆分为多个BlockBlockSize
烈光
·
2020-08-18 11:04
Hadoop学习
(十)——数据倾斜及案例汇总
笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值,找寻数据的秘密,笔者认为,数据的价值不仅仅只体现在企业中,个人也可以体会到数据的魅力,用技术力量探索行为密码,让大数据助跑每一个人,欢迎直筒们关注我的公众号,大家一起讨论数据中的那些有趣的事情。我的公众号为:livandata本文主要是对数据倾斜的一些问题以及前面的一些常见案例做一些汇总:1、解决数据倾斜思路MapR
livan1234
·
2020-08-18 11:47
hadoop
正式进入
Hadoop学习
不会再有比我还全面的大数据学习(三) Hadoop生态圈
废寝忘食整理出来的知识梳理,希望能对大家有所帮助一、概述1.1大数据概念大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产1.2大数据面临的问题数据的存储:单机存储有限,如何解决海量存储?(分布式、集群等)数据的分析:单机的算力有限,如何在合理时间内对数据完成成本运算?1.3大数据的特点4VVolume数据量Velocity时效Variety
热忱 ㅤ ㅤ
·
2020-08-18 10:37
大数据笔记
Hadoop学习
笔记_3:运行模式之本地模式
Hadoop运行模式本地模式Bydefault,Hadoopisconfiguredtoruninanon-distributedmode,asasingleJavaprocess.Thisisusefulfordebugging.默认情况下,Hadoop被配置为以非分布式模式作为单个Java进程运行。这对于调试很有用。官方Grep案例Thefollowingexamplecopiestheunp
编程小透明
·
2020-08-18 10:14
#
Hadoop学习笔记
每天学点大数据
Hadoop学习
笔记_4:运行模式之伪分布式模式
伪分布式模式Hadoopcanalsoberunonasingle-nodeinapseudo-distributedmodewhereeachHadoopdaemonrunsinaseparateJavaprocess.Hadoop也可以以伪分布式模式在单节点上运行,其中每个Hadoop守护程序都在单独的Java进程中运行。启动HDFS并运行MapReduce程序配置集群配置etc/hadoop
编程小透明
·
2020-08-18 10:14
每天学点大数据
#
Hadoop学习笔记
Hadoop学习
笔记_1:Hadoop相关生态圈了解学习
写在开头Hadoop生态圈主要解决:海量数据的存储和分析计算问题。大数据特点(4V):大量(Volume)、高速(Velocity)、多样(Variety)、低价值密度(Value)Hadoop优点(4高):高可靠性、高拓展性、高效性、高容错性Hadoop1.x和2.x的区别:2.x组成Common:辅助工具HDFS:数据存储MapReduce:计算(1.x版本没有Yarn,MapReduce负责
编程小透明
·
2020-08-18 10:02
#
Hadoop学习笔记
每天学点大数据
Hadoop学习
笔记(1)
使用docker搭建分布式环境今天开始,准备学习大数据分析,参考的教材是O‘REILLY的《Hadoop数据分析》,算是一本比较新的书吧!我自己也属于刚入门,写笔记除了分享,更重要的是可以提高学习的效果!!这里我使用的是docker而不是书上推荐的在vmware上安装虚拟机,至于为什么抛弃vm而选择docker,当然是docker更加轻量级更加好用,docker可以说是当今虚拟化技术的潮流,当然想
One2Four
·
2020-08-18 05:40
互联网
Hadoop
docker
hadoop单点运行方式
前言由于目前是
hadoop学习
阶段,不建议配置集群方式学习,只需要配置hadoop的单点运行,或者伪分布式模式,以降低学习成本,当对hadoop掌握一定基础知识以及hadoop的思想,可以考虑在多台机器部署安装集群方式
zh_ITRoad
·
2020-08-17 04:13
hadoop
大数据-
Hadoop学习
笔记09
30.MapReducemapreduce任务过程分为两个处理阶段:map阶段和reduce阶段。每个阶段都以k-v对作为输入和输出,其类型由开发者选择。map阶段的输入时NCDC原始数据。我们选择文本格式作为输入格式,将数据集的每一行作为文本输入。1.编写MR程序【创建mapper】publicclassMyMaxTempMapperextendsMapper{privatestaticfina
就问你吃不吃药
·
2020-08-16 22:12
大数据学习
hadoop学习
笔记4:java实现hdfs -ls/-lsr
作业1:java代码实现hadoopfs-lsr的功能,调用FileSystem.listStatus(...)方法,显示结果,要求结果显示样式如hadoopfs-lsxxx的结果类似。作业2:java代码实现hadoopfs-lsr的功能------上面两题的代码如下:packagehdfs;importjava.io.IOException;importjava.net.URI;importj
yraspen
·
2020-08-16 22:17
hadoop学习笔记
hadoop集群
java
源代码
rpc
上一页
3
4
5
6
7
8
9
10
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他