Hadoop学习笔记第7页

HADOOP学习笔记总结三： HBASE

一、HADOOP生态系统HBase是HADOOP的生态系统，是建立在Hadoop文件系统（HDFS）之上的分布式、面向列的数据库，通过利用Hadoop的文件系统提供容错能力。二、HBase是什么三、HBase处理数据虽然Hadoop是一个高容错、高延时的分布式文件系统和高并发的批处理系统，但是它不适用于提供实时计算;HBase是可以提供实时计算的分布式数据库，数据被保存在HDFS分布式文件系统上，

DanyYan·2018-10-29 11:39

HADOOP学习笔记总结三： HBASE

一、HADOOP生态系统HBase是HADOOP的生态系统，是建立在Hadoop文件系统（HDFS）之上的分布式、面向列的数据库，通过利用Hadoop的文件系统提供容错能力。二、HBase是什么三、HBase处理数据虽然Hadoop是一个高容错、高延时的分布式文件系统和高并发的批处理系统，但是它不适用于提供实时计算;HBase是可以提供实时计算的分布式数据库，数据被保存在HDFS分布式文件系统上，

DanyYan·2018-10-29 11:39

HADOOP学习笔记总结二：分布式计算框架mapreduce

一、mapreduce设计理念移动计算不移动数据1、split数据切片2、MAP过程3、shuffle过程4、reduce过程二、shuffler过程partition过程默认hash模计算，根据reduce的数量来决定，分好区后，reduce自已fetch自己的那个部分后，再merge操作，可以解决所谓的数据倾斜问题。sort排序，为后面的reducegroup等操作事先排序，减轻reduce的

DanyYan·2018-10-26 09:02

HADOOP学习笔记总结二：分布式计算框架mapreduce

一、mapreduce设计理念移动计算不移动数据1、split数据切片2、MAP过程3、shuffle过程4、reduce过程二、shuffler过程partition过程默认hash模计算，根据reduce的数量来决定，分好区后，reduce自已fetch自己的那个部分后，再merge操作，可以解决所谓的数据倾斜问题。sort排序，为后面的reducegroup等操作事先排序，减轻reduce的

DanyYan·2018-10-26 09:02

HADOOP学习笔记总结一：HDFS

一、Hadoop的来源二、hadoop的子项目三、Hadoop的安装与版本Hadoop的有三条线并行演化，各个版本的功能是不一样的。所以2.7并不一定比0.23的要新。比如说，0.23这个版本增加了用户认证的功能，但其他的版本确没有此功能。官方地址：https://hadoop.apache.org，官方文档完整，较清晰，不过是英语，其实也是容易读懂的四、HDFS基本知识可以做到故障检测：通过心跳

DanyYan·2018-10-25 17:28

【hadoop学习笔记】---MapReduce

MapReduce介绍一个以高可靠，高容错方式编写程序并行的处理在大的集群上存储的大量的数据的软件框架，这些集群可以由通用的硬件组成。其对外提供了5个标准的可编程接口，InputFormat、Mappper、Partitioner、Reducer、OutputFormat。MapReduce架构采用master/slave架构，主要组成组件有：Client、JobTracker、TaskTrack

liff_lee·2018-09-28 22:44

Hadoop学习笔记(二) 安装Hadoop单节点集群

安装Hadoop单节点集群1.下载并解压Hadoop1.1下载Hadoop1.2解压Hadoop包1.3将解压的文件夹重命名为Hadoop,然后拷贝到/usr/local下2.设置Hadoop环境变量2.1打开.bashrc文件2.2在文件里后面添加如下配置2.3让配置立即生效3.修改Hadoop配置文件3.1修改hadoop-env.sh3.2修改core-site.xml3.3修改yarn-s

盐城三爷·2018-09-14 14:08

Hadoop学习笔记（二）（HDFS）

hdfs基本架构：1Master(NameNode/NN)带N个Slaves(DataNode/DN)1个文件会被拆分成多个Blockblocksize：128M130M==>2个Block：128M和2MNN（NameNode）：1）负责客户端请求的响应2）负责元数据（文件的名称、副本系数、Block存放的DN）的管理DN（DataNode）：1）存储用户的文件对应的数据块(Block)2）要定

无影风Victorz·2018-08-29 17:50

Hadoop学习笔记（更新中）

大数据分为：分布式存储、分布式运算。存储的是数据（文件），运算消耗的是CPU、内存、磁盘等硬件资源。Hadoop提供了分布式存储和分布式运算的功能。但是Hadoop的核心组件，极为底层，如果直接基于这个底层框架来开发我们的数据分析逻辑，比较繁琐，开发效率很低。所以，在Hadoop这个底层框架之上，又衍生了大量的快捷开发工具：1、HIVE：可以让用户只要写SQL来表达数据处理逻辑即可2、HDFS集群

煮茶的陆羽·2018-08-27 21:09

Hadoop学习笔记

Hadoop构造模块NameNode名字节点位于HDFS主端，指导从端的DataNode执行底层的I/O任务负面影响：Hadoop集群的单点失效。DataNode数据节点每个从节点驻留一个DataNode守护进程DataNode不断向NameNode报告SecondaryNameNode次名字节点用于监测HDFS集群状态的辅助守护进程，每个集群有一个SNN不同在于不接收或记录HDFS的任何实时变化

苦练再苦练经过女生看不见·2018-08-06 10:01

Hadoop学习笔记一：HDFS

一、HDFS是什么？HDFS是HadoopDistributedFileSystem的简称；源自于Google的GFS论文，是其开源实现。基于流数据模式访问和处理超大文件的需求而开发的；适合应用于大规模数据集上；二、HDFS优缺点优点：处理超大文件，能用来存储管理Pb级数据。流式数据访问数据。运行于廉价的集群上缺点不适合处理低延迟数据访问无法高效存储大量的小文件不支持多用户写入和任意文件修改三、H

坏蛋呆呆·2018-08-05 17:58

Hadoop学习笔记——————1、Hadoop概述

Hadoop介绍Hadoop是一个由Apache基金会开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（HadoopDistributedFileSystem），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（highthrou

FLy_鹏程万里·2018-07-16 19:50

【hadoop学习笔记】修改linux主机名，以便在windows下面能通过主机名进行访问,解决localhost:50070无法访问

why?为什么要修改linux的主机名呢？因为linux的主机名默认是localhost，如果你在windows下以linux主机名进行访问的话，会直接访问windows环境下对应的端口，所以需要修改linux的主机名how？1、首先得想好你要改个什么名字吧，假如我们要修改为：hadoop012、然后以root账号登录linux，执行：vi/etc/hostname按i进入修改模式，输入hadoo

hlp4207·2018-07-08 19:01

Hadoop学习笔记 (一)

一、初识Hadoop2.X1.Hadoop发展和三大组件功能谷歌的三篇论文：GFS--->HDFSMapReduce--->MapReduceBigTable--->HBase四大组成部分：*Common工具，基础，为其他框架服务*MapReduce对海量数据的处理分布式分而治之大数据集分为小的数据集每个数据集，进行逻辑业务处理（map）合并统计数据结果（reduce）input–>map–>sh

无籽西瓜吃吗·2018-07-08 17:09

Hadoop学习笔记9之Maven的使用

【用途】管理依赖，自动关联源码【下载与安装】1.下载：https://mirrors.tuna.tsinghua.edu.cn/apache/maven/maven-3/3.5.3/binaries/Linux版：apache-maven-3.3.9-bin.tar.gzWindows版：apache-maven-3.3.9-bin.zip2.安装解压即可，放在根路径下。3.配置环境变量M2_HO

cskywit·2018-06-05 21:39

Hadoop学习笔记7之使用Hadoop客户端API访问HDFS

这里参考《Hadoop权威指南》第三章相关内容，直接贴代码，比较简单，就不注释了。packagecom.hadoop.hdfs;importjava.io.ByteArrayOutputStream;importjava.io.IOException;importjava.io.InputStream;importjava.net.MalformedURLException;importjava.

cskywit·2018-06-02 15:53

Hadoop学习笔记6之配置Hadoop临时目录

【问题描述】重启主机后SecondaryNameNode能启动，NameNode启动不了【查看日志】查找日志（日志：/hadoop/hadoop-0.20.2/logs）：Directory/tmp/hadoop-root/dfs/nameisinaninconsistentstate:storagedirectory现在问题比较明确了，是临时目录不存在导致。/tmp/hadoop-hadoop/

cskywit·2018-05-30 17:34

Hadoop学习笔记5之HDFS Block

HDFS的块比磁盘块大，目的是为了最小化寻址开销。如果块设置的足够大，从磁盘传输数据的时间可以明显大于定位这个块开始位置所需要的时间。这样，传输一个由多个块组成的文件的时间取决于磁盘传输速率。寻址时间10ms左右，HDFS使让块寻址时间占用读取时间的1%，以传输速率100MB/s为例，设置块大小为128MB。但是该参数也不会设置得过大。MapReduce中的map任务通常一次处理一个块中的数据，因

cskywit·2018-05-30 17:14

Hadoop（三）HDFS的存储原理

原文地址：http://www.cnblogs.com/zhangyinhua/p/7681059.html注：本系列为Hadoop学习笔记，非原创一、HDFS读取过程HDFS读取操作.png（1）客户端通过调用

currynie·2018-05-24 11:20

Hadoop（一）初识大数据和Hadoop

原文地址：http://www.cnblogs.com/zhangyinhua/p/7647334.html注：本系列为Hadoop学习笔记，非原创大数据基础一、什么是大数据？

currynie·2018-05-24 11:14

Hadoop学习笔记

实验环境：1、Linux操作系统2、Hadoop的介质3、Spark的介质学习路线和课程简介：1、基础：Java语言：Java基础（JavaSE）：变量类型循环if面向对象：类、封装、集成、多态I/O：输入流、输出流反射、泛型JDBC:操作关系型数据库Linux基础大数据：数据的处理（1）离线计算（2）实时计算2、Hadoop（1）数据储存：HDFS（2）数据计算：MapReduce（Java程序

ncujcm·2018-05-04 12:47

Hadoop学习笔记

jin8000608172·2018-05-04 12:00

Hadoop学习笔记

jin8000608172·2018-05-04 12:00

Hadoop学习笔记

jin8000608172·2018-05-04 12:00

hadoop学习笔记（十）：MapReduce工作原理（重点）

一、MapReduce完整运行流程解析：1在客户端启动一个作业。2向JobTracker请求一个JobID。3将运行作业所需要的资源文件复制到HDFS上，包括MapReduce程序打包的jar文件、配置文件和客户端计算所得的计算划分信息。这些文件都存放在JobTracker专门为该作业创建的文件夹中。文件夹名为该作业的JobID。jar文件默认会有10个副本（mapred.submit.repli

老王和小杨·2018-04-27 15:00

hadoop学习笔记（六）：HDFS文件的读写流程

一、HDFS读取文件流程：详解读取流程：Client调用FileSystem.open()方法：1FileSystem通过RPC与NN通信，NN返回该文件的部分或全部block列表（含有block拷贝的DN地址）。2选取举栗客户端最近的DN建立连接，读取block，返回FSDataInputStream。Client调用输入流的read()方法：1当读到block结尾时，FSDataInputSt

老王和小杨·2018-04-26 10:00

hadoop学习笔记——NO.3_轻量级RPC原理学习

轻量级RPC框架学习RPC原理RPC(RemoteProcedureCallProtocol)——远程过程调用协议，它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。RPC采用客户机/

蔡茂昌·2018-04-08 19:45

Hadoop学习笔记之avro文件格式

一、什么是avro英文简介https://en.wikipedia.org/wiki/Apache_Avro官网简介http://avro.apache.org/docs/current/avro是一个数据序列化系统，它提供丰富的数据结构快速可压缩的二进制数据形式存储持久数据的文件容器远程过程调用RPC简单的动态语言结合功能以上来源于avro百度百科，也是翻译于官网简介，至于为什么以avro命名，

xun-ming·2018-03-27 19:51

Hadoop学习笔记之YARN

Hadoop1.x时：MapReduce：Master/Slave架构，1个JobTracker带多个TaskTrackerJobTracker：负责资源管理和作业调度TaskTracker：定期向JT汇报本节点的健康状况、资源使用情况、作业执行情况；接收来自JT的命令：启动任务/杀死任务YARN：不同计算框架可以共享同一个HDFS集群上的数据，享受整体的资源调度XXXonYARN的好处：与其他计

Archer9511·2018-03-21 00:36

Hadoop学习笔记之HDFS架构

1Master(NameNode/NN)带N个Slaves(DataNode/DN)HDFS/YARN/HBase1个文件会被拆分成多个Blockblocksize：128M130M==>2个Block：128M和2MNN：1）负责客户端请求的响应2）负责元数据（文件的名称、副本系数、Block存放的DN）的管理DN：1）存储用户的文件对应的数据块(Block)2）要定期向NN发送心跳信息，汇报本

Archer9511·2018-03-20 21:45

hadoop学习笔记（六）WordCount

我们编写MapReduce程序，wordCount。首先在maven中添加依赖org.apache.hadoophadoop-mapreduce-client-jobclient2.7.5org.apache.hadoophadoop-mapreduce-client-common2.7.5然后是我们的代码MapReduceDemo类publicclassMapReduceDemo{publics

桐间纱路·2018-03-13 17:23

Hadoop学习笔记之Partitioner分区

partitioner意为分区，在hadoop中，这个阶段在map之后，reduce之前具体实现共两步：1、设置分区类job.setPartitionerClass(MyPartitioner.class);自定义partitioner类，MyPartitioner，分区的依据，默认为HashPartitioner，如果不加这设置，仅有下面的setNumReduceTasks，那么也会有多个red

xun-ming·2018-02-27 17:55

hadoop学习笔记之hadoop集群搭建详细步骤

本次集群的搭建是在之前的伪分布集群的基础上实现的，如果没有搭建好伪分布集群，可参看之前的详细教程：hadoop学习笔记之hadoop伪分布集群搭建（一）hadoop学习笔记之hadoop伪分布集群搭建（

YF_Li123·2018-01-25 15:19

【Hadoop学习笔记】HDFS编程实践——FilterAndMerge

emm..之前没学过java，hadoop的JAVAAPI接口用着很难受，边看代码边看hadoop接口说明（http://hadoop.apache.org/docs/stable/api/index.html）这个代码任务是完成筛选后缀为不为.abc的文件，并将他们的内容合并到另一个文件中资源说明：file1.txt,file2.txt,file3.abc,file4.abc,file5.txt

qq_35031375·2018-01-06 20:41

(Hadoop学习笔记-3) HDFS工作原理

一、HDFS最基本运行流程1.组成：NameNode：存放文件的元数据信息(数据分成了多少个block，多少副本，不同的block分到了哪些DataNode上)，也即hdfs文件系统中的文件与真实的block之间的映射关系。其格式为：filename,replicas,block_id,id2host(文件名，副本数，block_id，block到主机NameNode的映射)，结合上图好好体会。D

coder_mckee·2017-12-15 22:16

(Hadoop学习笔记-1) Hadoop伪分布式安装

一、配置ssh服务参考我这篇博客二、安装JAVA环境1.下载JDK-8在/usr/下建个文件夹，取名为JDK-8(这个大家随意)，将下载的jdk解压到此文件夹中2.配置环境变量sudogedit/etc/profile在文件末尾添加如下几行：(路径以你自己的为准)exportJAVA_HOME=/usr/jdk-8/jdk1.8.0_151exportJRE_HOME=$JAVA_HOME/jre

coder_mckee·2017-12-11 22:35

Hadoop学习笔记（二）设置单节点集群

本文描述如何设置一个单一节点的Hadoop安装，以便您可以快速执行简单的操作，使用HadoopMapReduce和Hadoop分布式文件系统(HDFS)。参考官方文档：HadoopMapReduceNextGeneration-SettingupaSingleNodeCluster.Hadoop版本：ApacheHadoop2.5.1系统版本：CentOS6.5，内核（uname-r）：2.6.3

锐湃·2017-12-02 01:14

十四、Hadoop学习笔记————Zookeeper概述与基本概念

顺序一致性：严格按照顺序在zookeeper上执行原子性：所有事物请求的结果，在整个集群的应用情况一致单一视图：无论从哪个服务器进入集群，看到的东西都是一致的可靠性：服务端成功响应后，状态会一直保留3台的zookeeper集群达到12-13万QPS客户端在zookeeper注册监听器，zookeeper会给客户端通知转载于:https://www.cnblogs.com/liuxiaopang/p

weixin_30663391·2017-11-09 11:00

Hadoop学习笔记之CapacityScheduler队列管理

关于在本地hadoop伪分布式环境下配置队列管理运算资源的问题记录首先：照下面这个文章配置Hadoop设置队列计算能力调度器应用和配置于是更改mapred.xml，配置capacity-scheduler.xml，配置完成后发现，在代码或者终端里加入队列名称，均显示找不到，后来看到该配置文件同级目录下有一个mapred-queues.xml文件，于是再抱有一丝希望的改了文件中的队列名测试下，发现还

xun-ming·2017-11-07 11:18

Hadoop学习笔记之常用命令

Hdfs命令Hadoop命令Hbase命令实际应用其他命令其他Hdfs命令hdfsdfs-cat/urlba/url/url.txt|tail-5后5行hdfsdfs-cat/urlba/url/url.txt|head-5前5行hdfsdfs-cat/urlba/url/url.txt|shuf-n5随机5行。hdfsdfs-cat/urlba/url/url.txt|wc-l查看hdfs上文件

xun-ming·2017-10-27 09:23

一、Hadoop学习笔记————概述

hadoop使用java编写，版本较为混乱，初学者可从1.2.1开始学习转载于:https://www.cnblogs.com/liuxiaopang/p/7727872.html

weixin_30348519·2017-10-25 11:00

Hadoop学习笔记（五）MapReduce

MapReduce概述源自于Google的MapReduce论文，发表于2004年12月HadoopMapReduce是GoogleMapReduce的克隆版MapReduce优点：海量数据的离线处理、易开发、易运行。所谓海量数据，说明MapReduce可以处理的数据量非常大，离线处理说明MapReduce跟实时响应不同，用户将作业提交，系统按批次进行处理，由于数据量大，自然非常耗时。所谓易开发，

陌上疏影凉·2017-10-20 07:54

Hadoop学习笔记（二）HDFS

HDFS的设计目标通过上一篇文章的介绍我们已经了解到HDFS到底是怎样的东西，以及它是怎样通过多副本机制来提供高可靠性的，我们可以发现HDFS设计目标可以总结为以下几点：非常巨大的分布式文件系统运行在普通廉价的硬件上易扩展、为用户提供性能不错的文件存储服务HDFS的架构我们通过官网的文档来了解HDFS的基础架构（http://hadoop.apache.org/docs/current/hadoo

陌上疏影凉·2017-10-15 19:19

Hadoop学习笔记（一）初识Hadoop

前言研究生阶段将要接触大数据和深度学习的知识，在网上找的教程大多一上来就是一堆名词又解释不清楚，对新手相当不友好，在慕课网看到一个教程，利用博客记录下自己学习的过程。hadoop介绍关于hadoop最好的介绍莫过于官网的文档，hadoop的官网如下，http://hadoop.apache.org我们一句一句来看看hadoop官网是怎么介绍的。TheApache™Hadoop®projectdev

陌上疏影凉·2017-10-11 16:30

Hadoop学习笔记_A~集群安装和简单测试

1.环境centos6.532bithadoop-0.20.22.三中运行模式1>单机模式：安装简单，几乎不用任何配置，仅限于调试；2>伪分布模式：在单节点（单机）上同时启动namenode、datanode、jobtracker、tasktracker、secondarynamenode等5个进程，模拟分布式运行的各个节点；3>完全分布模式：正常的hadoop集群，由多个各司其职的节点构成。3.

封神启示·2017-10-10 11:45

Hadoop学习2--搭建的教训总结

Hadoop学习笔记2-安装集群的一些问题汇总首先想吐槽一下公司的电脑，讲真，作为一个技术公司，能把电脑配的这么烂，也是可以的了。i3处理器的hp笔记本。。。

Timber__Wolf·2017-09-02 01:20

hadoop学习笔记--1２.hive DＭL操作

一、hiveDML的基本操作建议直接参考官方文档：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL1.加载与插入数据LOADDATA[LOCAL]INPATH'filepath'[OVERWRITE]INTOTABLEtablename[PARTITION(partcol1=val1,partcol2=val2.

liuzebin9·2017-07-31 21:14

hadoop学习笔记--8.MapReduce案例一：简单好友推介实现

liuzebin9·2017-07-13 21:23

Hadoop学习笔记之--Hadoop的安装

由于没有集群环境，只能在一台电脑上进行Hadoop的搭建，因此只能以伪分布式的方式进行搭建。准备工作操作系统：CentOS7JDK版本：1.8.0_131Hadoop版本：2.8.0操作系统安装系统最好为Linux，推荐CentOS，关于系统安装，这里不赘述。JAVA环境配置1.下载jdk$wgethttp://download.oracle.com/otn-pub/java/jdk/8u131-

追_梦_者·2017-07-12 20:19

【Hadoop学习笔记】——HDFS

HDFS(HadoopDistributedFileSystem)：Hadoop分布式文件存储系统。分布式文件存储系统分布式文件存储系统是指文件系统管理的物理存储资源不一定直接连接在本地节点上，而是通过计算机网络与节点相连。常见的分布式文件系统有，GFS、HDFS、Lustre、Ceph、GridFS、mogileFS、TFS、FastDFS等，各用于不同的领域。HDFS是一个主从结构，一个HDF

dannyhoo6688·2017-06-30 23:05

推荐频道

Hadoop学习笔记

HADOOP学习笔记总结三： HBASE

HADOOP学习笔记总结三： HBASE

HADOOP学习笔记总结二：分布式计算框架mapreduce

HADOOP学习笔记总结二：分布式计算框架mapreduce

HADOOP学习笔记总结一：HDFS

【hadoop学习笔记】---MapReduce

Hadoop学习笔记(二) 安装Hadoop单节点集群

Hadoop学习笔记（二）（HDFS）

Hadoop学习笔记（更新中）

Hadoop学习笔记

Hadoop学习笔记一：HDFS

Hadoop学习笔记——————1、Hadoop概述

【hadoop学习笔记】修改linux主机名，以便在windows下面能通过主机名进行访问,解决localhost:50070无法访问

Hadoop学习笔记 (一)

Hadoop学习笔记9之Maven的使用

Hadoop学习笔记7之使用Hadoop客户端API访问HDFS

Hadoop学习笔记6之配置Hadoop临时目录

Hadoop学习笔记5之HDFS Block

Hadoop（三）HDFS的存储原理

Hadoop（一）初识大数据和Hadoop

Hadoop学习笔记

Hadoop学习笔记

Hadoop学习笔记

Hadoop学习笔记

hadoop学习笔记（十）：MapReduce工作原理（重点）

hadoop学习笔记（六）：HDFS文件的读写流程

hadoop学习笔记——NO.3_轻量级RPC原理学习

Hadoop学习笔记之avro文件格式

Hadoop学习笔记之YARN

Hadoop学习笔记之HDFS架构

hadoop学习笔记（六）WordCount

Hadoop学习笔记之Partitioner分区

hadoop学习笔记之hadoop集群搭建详细步骤

【Hadoop学习笔记】HDFS编程实践——FilterAndMerge

(Hadoop学习笔记-3) HDFS工作原理

(Hadoop学习笔记-1) Hadoop伪分布式安装

Hadoop学习笔记（二）设置单节点集群

十四、Hadoop学习笔记————Zookeeper概述与基本概念

Hadoop学习笔记之CapacityScheduler队列管理

Hadoop学习笔记之常用命令

一、Hadoop学习笔记————概述

Hadoop学习笔记（五）MapReduce

Hadoop学习笔记（二）HDFS

Hadoop学习笔记（一）初识Hadoop

Hadoop学习笔记_A~集群安装和简单测试

Hadoop学习2--搭建的教训总结

hadoop学习笔记--1２.hive DＭL操作

hadoop学习笔记--8.MapReduce案例一：简单好友推介实现

Hadoop学习笔记之--Hadoop的安装

【Hadoop学习笔记】——HDFS