Hadoop系列第3页

Hadoop系列 mapreduce 原理分析

以wordcount为例https://blog.csdn.net/weixin_43291055/article/details/106488839步骤一：split步骤二：map阶段步骤三：combine阶段(可选)---将同一台机器上的相同的数据进行合并，减少网络传输combiner其实也是一种reduce操作，因此我们看见WordCount类里是用reduce进行加载的。Combiner是

诸葛子房_·2020-08-11 19:32

Hadoop系列-开发中常见问题处理（十一）

问题三.Exceptioninthread"main"java.lang.UnsatisfiedLinkError:org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z在运行WordCount.java代码时，出现这样的问题[html]viewplaincopylog4j:WARNNoappende

贺敏Minbo·2020-08-10 16:51

Hadoop系列之-Hadoop2.7.2的Eclipse插件编译

提供下编译好的jar包：http://download.csdn.net/detail/suzhi921/9594598配置Eclipse：将jar包拷贝到Eclipse目录下的plugins里windows--preferences--HadoopMap/Reduce指向Hadoop安装路径windows-showview-MapreduceTools-Map/ReduceLocations--

suzhi921·2020-08-10 10:22

校招准备-大数据工具

学习计划1:spark,spark数据处理,预处理,机器学习,分布式机器学习算法等相关学习计划2:hadoop系列hbase,pig,yarn,HDFS流计算学习学习计划3:ETL相关知识学习未完待续-

weixin_30888413·2020-08-10 07:18

高可用 Elasticsearch 集群 21 讲

相比Hadoop系列的大数据平台，Elasticsearch使用起来要简单得多，你只要修改很少的几个配置

蔚1·2020-08-09 13:13

ubuntu 18.04LTS hadoop 3.0.3安装

ubuntu18.04LTS安装后，更新hadoop系列安装。这次针对hadoop，系统和安装环境如下:ubuntu18.04LTS和hadoop3.0.3、jdk1.8.0_172。

Mr_哲·2020-08-06 12:00

Hadoop系列——SpringBoot集成Hadoop、实现hdfs上传下载文件（1）

pom.xmlorg.apache.hadoophadoop-client2.7.6org.apache.hadoophadoop-hdfs2.7.6HadoopConfig.javapackagecom.hahashujia.hadoop.config;importlombok.extern.slf4j.Slf4j;importorg.apache.hadoop.fs.FileSystem;im

哈哈书架·2020-08-03 04:21

Hadoop系列——SpringBoot集成Hadoop、实现hdfs上传下载文件（2）

在Hadoop系列——SpringBoot集成Hadoop、实现hdfs上传下载文件（1）基础上做变动yml文件配置hadoop.name-node:hdfs://localhost:9000HadoopConfig.java

哈哈书架·2020-08-03 04:20

SpringBoot集成Hadoop系列二 ---- MapReduce数据的分组统计,排序

代码:packagecom.hadoop.reduce.model;importorg.apache.hadoop.io.WritableComparable;importjava.io.DataInput;importjava.io.DataOutput;importjava.io.IOException;/***分组排序model类*@authorlinhaiy*@date2019.05.18

潇潇雨歇_·2020-08-03 01:56

SpringBoot集成Hadoop系列二 ---- MapReduce对表的join操作

代码:packagecom.hadoop.reduce.model;importorg.apache.hadoop.io.Writable;importjava.io.DataInput;importjava.io.DataOutput;importjava.io.IOException;/***订单商品对象*@authorlinhaiy*@date2019.05.18*/publicclassO

潇潇雨歇_·2020-08-03 01:56

SpringBoot集成Hadoop系列二 ---- MapReduce明星微博统计

代码:packagecom.hadoop.reduce.model;importorg.apache.hadoop.io.WritableComparable;importjava.io.DataInput;importjava.io.DataOutput;importjava.io.IOException;/***统计明星微博数据实体*@authorlinhaiy*@date2019.05.18

潇潇雨歇_·2020-08-03 01:55

SpringBoot集成Hadoop系列二 ---- MapReduce词频统计

继上篇SpringBoot集成Hadoop系列一----对HDFS的文件操作建的工程,接下来使用MapReduce进行一些数据文件的统计开发.这里做一个很经典的统计功能,词频统计.代码:packagecom.hadoop.reduce.mapper

潇潇雨歇_·2020-08-03 01:55

SpringBoot集成Hadoop系列二 ---- MapReduce统计数据文件的共同好友

代码:packagecom.hadoop.reduce.mapper;importjava.io.IOException;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.mapreduce.Mapper;/***查找共同的好友*@authorlinhaiy

潇潇雨歇_·2020-08-03 01:55

Hadoop系列文章SpringBoot编程实现HDFS读写文件、MapReduce程序

Hadoop系列文章SpringBoot编程实现HDFS读写文件、MapReduce程序实现HDFS操作引入依赖winutils码代码读取HDFS中的文件写内容到文件中MapReduce操作MapReduce

wangxudongx·2020-08-02 21:59

SpringBoot集成Hadoop系列二 ---- MapReduce一年最高气温统计

代码:packagecom.hadoop.reduce.mapper;importjava.io.IOException;importjava.util.StringTokenizer;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.T

潇潇雨歇_·2020-08-02 20:44

SpringBoot集成Hadoop系列一 ---- 对HDFS的文件操作

一.对HDFS操作设计以下几个主要的类：Configuration：封装了客户端或者服务器的配置信息FileSystem：此类的对象是一个文件系统对象，可以用该对象的一些方法来对文件进行操作通过FileSystem的静态方法get获得该对象，例：FileSystemhdfs=FileSystem.get(conf);FSDataInputStream：这是HDFS中的输入流，通过由FileSyst

潇潇雨歇_·2020-08-02 20:43

Hadoop系列（六）Hadoop三大核心之MapReduce 基础

文章目录MapReduce背景MapReduce是什么MapReduce的架构简单介绍MapReduce背景在程序由单机版扩成分布式版时，会引入大量的复杂工作。为了提高开发效率，可以将分布式程序中的公共功能封装成框架，让开发人员可以将精力集中于业务逻辑。Hadoop当中的MapReduce就是这样的一个分布式程序运算框架。MapReduce是什么MapReduce是一个分布式运算程序的编程框架，是

南山饱虎·2020-08-01 12:09

深入浅出介绍Hadoop

深入浅出介绍Hadoop一、Hadoop的由来二、Hadoop介绍三、Hadoop的优势我的Hadoop系列框架一、Hadoop的由来1998年9月4日，一个影响世界的搜索引擎诞生于美国硅谷，就是家喻户晓的

渌玦Leo_J·2020-08-01 10:30

一、Hadoop框架介绍

OK~从今天开始，我们就开始我们的fromzerotohero大数据系列的博客编写，今天是第一篇，开篇为《Hadoop框架介绍》，Hadoop系列将会收录在《fromzerotohero（Hadoop篇

象在舞·2020-08-01 09:21

Hadoop系列(5):MapReduce实现PageRank

1、PageRank原理(1)算法定义：PageRank算法输入：所有节点的初始权重值；节点邻接矩阵；迭代次数n输出：节点权重值whileix),C(t)表示t节点的出度。（2）算法示例（注：为简单起见，示例中省去了常量a和系数1-a）PR(n2）=PR(n5)/C(n5)+PR(n1)/C(n1)=0.2/3+0.2/0.1=0.166在计算节点n3时，仍使用PR(n2)=0.2。在图中所有节点

顾大静·2020-08-01 01:07

大数据与Hadoop系列之序列化（一）

传统的计算机系统通过I/O操作与外界进行交流，Hadoop的I/O由传统的I/O系统发展而来，但又有些不同，Hadoop需要处理P、T级别的数据，所以在org.apache.hadoop.io包中包含了一些面向海量数据处理的基本输人输出工具．本文会对其中的序列化进行研究。序列化对象的序列化(Serialization)用于将对象编码成一个字节流，以及从字节流中重新构建对象。"将一个对象编码成一个字

有梦想的人不睡觉121·2020-07-30 16:00

Hadoop系列-MapReduce自定义数据类型（序列化、反序列化机制）（十二）

Github代码下载地址：1，JAVA工程代码大家都知道，Hadoop中为Key的数据类型必须实现WritableComparable接口，而Value的数据类型只需要实现Writable接口即可；能做Key的一定可以做Value，能做Value的未必能做Key。但是具体应该怎么应用呢？本篇文章将结合手机上网流量业务进行分析。先介绍一下业务场景：统计每个用户的上行流量和，下行流量和，以及总流量和。

贺敏Minbo·2020-07-30 15:49

Hadoop系列之mysql集群版安装（十）

图文链接详细操作链接http://note.youdao.com/noteshare?id=ae0237fdeb6e7f16471d095f6edce4c0集群整体架构搭建链接：https://blog.csdn.net/qq_40402685/article/details/84173830实验目的要求☛完成mysql的集群版的安装☛MySQL集群的相关服务进程能够正常启动☛MySQL集群的SQ

初心cc·2020-07-29 05:08

hadoop系列之使用jar命令提交任务

文章目录环境启动haoop,并配置远程调试代码解析runJar自定义mapreduce程序环境hadoop:1.0.0java:1.8.0_171启动haoop,并配置远程调试指定远程调试监听端口8888exportHADOOP_CLIENT_OPTS="-agentlib:jdwp=transport=dt_socket,address=8888,server=y,suspend=y"利用had

齐梦星空·2020-07-28 20:00

大数据Hadoop系列之Hadoop分布式集群部署

一、部署规划1、部署环境各部署单元的软件部署情况如下：二、环境准备1、修改主机名[root@VM1~]#vim/etc/sysconfig/networkNETWORKING=yesHOSTNAME=master60[root@VM2~]#vim/etc/sysconfig/networkNETWORKING=yesHOSTNAME=slave61[root@VM3~]#vim/etc/sysco

王者的路注定孤独·2020-07-15 02:47

hadoop系列文档5-对官方MapReduce 过程的翻译（一）

MapReduce教程MapReduce教程目的环境条件总览输入输出Example:WordCountv1.0源码用法Walk-throughMapReduce-UserInterfacesPayloadMapperReducerPartitionerCounterJobConfigurationTaskExecution&EnvironmentMemoryManagementMapParamet

u010237107·2020-07-15 00:16

Hadoop系列之Zookeeper完全分布模式安装（三）

详细配置截图笔记链接：http://note.youdao.com/noteshare?id=b071910d980ec4819dd8a67596bdf35a实验目的要求：Zookeeper的完全分布模式的安装Zookeeper服务能够正常启动和连接Zookeeper控制台能够正常进入Zookeeper控制台命令能够正常使用实验环境：★五台独立虚拟机★主机之间有效的网络连接★每台主机内存2G以上，

初心cc·2020-07-14 19:28

测试眼里的Hadoop系列之Terasort

TeraSort是Hadoop的测试中很有用的一个工具，但以前只是粗略的知道它的功能和用法，简单的用它做了几个测试用例。实际上，对于这种比较通用的工具，如果能够了解它更多一些的话，对于理解Hadoop是很有帮助的，同时也可以更好的利用它来帮助测试。最近有点时间，就了解了一些它的背景，代码实现原理等等，就先记录下来吧。1.Hadoop与SortBenchmarksSortBenchmark(http

leafy1980·2020-07-14 13:16

Hadoop系列-MapReduce源码案例分析和编码规范（十）

Github代码下载地址：1，JAVA工程代码2，Maven工程代码转载内容如下：首先让我们来重温一下hadoop的四大组件：HDFS：分布式存储系统MapReduce：分布式计算系统YARN：hadoop的资源调度系统Common：以上三大组件的底层支撑组件，主要提供基础工具包和RPC框架等Mapreduce是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架M

贺敏Minbo·2020-07-14 11:47

hadoop系列：zookeeper（1）——zookeeper单点和集群安装

1、概述8月份的第一周，忙得晕头转向，为了解决OSGI-Felix下hibernateJPA的ClassLoader问题，就耽误了至少两天时间，还好在周五系统成功在servicemix上运行了。已经几天时间没有碰博客了，刚好下周有安排给实验室的几个大神讨论zookeeper相关技术。我这么一想，咦~~刚好这周末准备PPT的时候，还不如就预先做几篇关于zookeeper的文章，这样既可以两件工作合成

seableble·2020-07-14 02:58

常用的几种大数据架构剖析

随着大数据技术的发展，数据挖掘、数据探索等专有名词曝光度越来越高，但是在类似于Hadoop系列的大数据分析系统大行其道之前，数据分析工作已经经历了长足的发展，尤其是以BI系统为主的数据分析，已经有了非常成熟和稳定的技术方案和生态系统

小红牛·2020-07-13 19:33

大数据Hadoop系列之Hadoop Web控制台添加身份验证

1.背景介绍本文档介绍如何配置HadoopHTTPWeb控制台以要求用户身份验证。默认情况下，HadoopHTTPWeb控制台（ResourceManager，NameNode，NodeManagers和DataNodes）允许访问而无需任何形式的身份验证。可以将HadoopHTTPWeb控制台配置为使用HTTPSPNEGO协议（Firefox和InternetExplorer等浏览器支持）进行K

王者的路注定孤独·2020-07-13 16:16

Hadoop系列之hbase数据库基础操作练习（七）

笔记链接详细图文链接：http://note.youdao.com/noteshare?id=c43e8a4d9e0bd68534357261e58df4a4Hbase整套部署教程：https://blog.csdn.net/qq_40402685/article/details/84173830准备工作主机名IP地址服务名称cgt-01192.168.10.111Hbase主控节点cgt-021

初心cc·2020-07-11 19:41

hadoop系列四:mapreduce的使用(二)

当前使用的hadoop版本为2.6.4此为mapreducer的第二章节这一章节中有着计算共同好友，推荐可能认识的人上一篇:hadoop系列三:mapreduce的使用(一)一：说明二：在开发工具在运行

weixin_30828379·2020-07-08 14:50

Hadoop系列文章 Hadoop架构、原理、特性简述

Hadoop系列文章Hadoop架构、原理、特性简述HadoopHDFSHDFS介绍HDFS架构图HDFS写入数据流程图HDFS读取数据流程图数据块的副本集HadoopYARNYARN工作流程图YARN

wangxudongx·2020-07-08 12:51

hadoop系列：zookeeper（2）——zookeeper核心原理（选举）

1、前述上篇文章《hadoop系列：zookeeper（1）——zookeeper单点和集群安装》（http://blog.csdn.net/yinwenjie/article/details/47361419

seableble·2020-07-08 04:48

Hadoop系列之原理与架构

一、Hadoop项目架构Hadoop框架是用来解决数据离线批处理问题的框架，其中最核心的是HDFS和MapReduce，HDFS是架构在Hadoop之上的分布式文件系统，MapReduce是架构在Hadoop之上用来做计算的框架。hadoop两个核心：HDFS和MapReduce用途：解决分布式存储和分布式存储。特点：高可靠性、高效性、可扩展性、成本低（普通PC机都能构建集群）应用：Google、

black_hnu·2020-07-07 23:45

Hadoop系列(5)之容量调度器Capacity Scheduler配置

1.应用场景本文只关注配置，关于调度器的算法以及核心内容将在下一篇介绍。CapacityScheduler是YARN中默认的资源调度器，但是在默认情况下只有root.default一个queue。而当不同用户提交任务时，任务都会在这个队里里面按优先级先进先出，大大影响了多用户的资源使用率。现在公司的任务主要分为三种：每天晚上进行的日常任务dailyTask，这些任务需要在尽可能短的时间内完成，且由

蓝天的IT生涯·2020-07-07 13:12

hadoop学习笔记

前言hadoop系列下的HDFSArchitecture,本文主要介绍了hadoop的整体架构，包括但不限于节点概念、命名空间、数据容错机制、数据管理方式、简单的脚本命令和垃圾回收概念。

遇见百分百·2020-07-05 05:15

Hadoop系列二：启动HDFS和YARN过程日志

以下记录为启动HDFS和YARN环境时的过程中的中间过程输出，节点注册和HDFS文件系统的数据变化日志等。(1)执行HDFS文件系统格式化[bruce@iRobothadoop]$$HADOOP_PREFIX/bin/hdfsnamenode-format15/11/1913:55:39INFOnamenode.NameNode:STARTUP_MSG:/*********************

魔方泥瓦匠·2020-07-04 20:06

Hadoop系列三：运行job过程日志

[bruce@iRobothadoop]$$HADOOP_PREFIX/bin/hdfsdfs-mkdir/user[bruce@iRobothadoop]$$HADOOP_PREFIX/bin/hdfsdfs-mkdir/user/bruce[bruce@iRobothadoop]$tail-flogs/*-namenode*.log2015-11-1915:01:20,442INFOorg.a

魔方泥瓦匠·2020-07-04 20:06

常用的几种大数据架构剖析

随着大数据技术的发展，数据挖掘、数据探索等专有名词曝光度越来越高，但是在类似于Hadoop系列的大数据分析系统大行其道之前，数据分析工作已经经历了长足的发展，尤其是以BI系统为主的数据分析，已经有了非常成熟和稳定的技术方案和生态系统

铁拳虎·2020-07-02 06:30

Htrace on Hadoop, Hbase and HbaseClient

Hadoop2.6的新特性包含了Trace功能，一个类似于GoogleDapper的分布式跟踪工具，为Hadoop系列应用提供请求跟踪和性能分析。

hustsselbj·2020-07-02 03:17

Hadoop系列（二 ) HDFS原理分析史上最详细，能和面试官吹半个小时

@[TOC]HDFS架构：NameNode（NN）：管理文件系统的namespace/元数据一个HDFS集群只有一个Active的NN说白了就是管理文件的目录它保存了两个核心的数据结构:Fslmage和EditLogFsImage负责维护文件系统树和树中所有文件和文件夹的元数据。———维护文件结构和文件元信息的镜像EditLog操作日志文件中记录了所有针对文件的创建，删除，重命名操作。———记录对

NICEDAYSS·2020-07-01 03:44

基于hdp3.0.1安装kylin2.6.5

文章目录环境与说明下载安装包添加kylin的环境变量检查env环境启动kylin页面访问环境与说明本次测试的环境已提前装好ambari2.7.3和hdp3.0.1操作系统为Centos7.4-1708提前安装好的依赖组件有hadoop

再看我把你吃掉·2020-06-30 20:22

hadoop（一）入门、hadoop架构、集群环境搭建

hadoop系列笔记hadoop（一）入门、hadoop架构、集群环境搭建.hadoop（二）HDFS概述、shell操作、客户端操作（各种API操作）以及hdfs读写流程.hadoop（三）hdfs的

复姓独孤·2020-06-29 23:38

【Hadoop系列】linux下 root用户免密码登录远程主机 ssh

SSH原理：【Hadoop系列】linuxSSH原理解析操作环境：CentOS6.5操作对象：用户A主机和远程主机B正文部分：斜体加粗代表linux指令。

weixin_34255793·2020-06-28 15:28

常用的几种大数据架构剖析

随着大数据技术的发展，数据挖掘、数据探索等专有名词曝光度越来越高，但是在类似于Hadoop系列的大数据分析系统大行其道之前，数据分析工作已经经历了长足的发展，尤其是以BI系统为主的数据分析，已经有了非常成熟和稳定的技术方案和生态系统

ThoughtWorks·2020-06-28 10:39

Hadoop 生态系列之 1.0 和 2.0 架构

趁着还没有入职，给大家争取先把Hadoop系列的文章总结完毕，可以当做科普文，也可以当做笔记收藏。经过查阅各种资料，保证我的理解没有偏差。但是也难免会有疏漏，欢迎朋友们留言给我进行交流。

weixin_33772645·2020-06-28 05:09

大数据系列全套学习路线图

ClouderaManagerClouderaManager平台部署说明书Hadoop大数据Hadoop系列之Hadoop分布式集群部署大数据Hadoop系列之Hadoop机架感知配置大数据Hadoop

王者的路注定孤独·2020-06-27 11:04

推荐频道

Hadoop系列

Hadoop系列 mapreduce 原理分析

Hadoop系列-开发中常见问题处理（十一）

Hadoop系列之-Hadoop2.7.2的Eclipse插件编译

校招准备-大数据工具

高可用 Elasticsearch 集群 21 讲

ubuntu 18.04LTS hadoop 3.0.3安装

Hadoop系列——SpringBoot集成Hadoop、实现hdfs上传下载文件（1）

Hadoop系列——SpringBoot集成Hadoop、实现hdfs上传下载文件（2）

SpringBoot集成Hadoop系列二 ---- MapReduce数据的分组统计,排序

SpringBoot集成Hadoop系列二 ---- MapReduce对表的join操作

SpringBoot集成Hadoop系列二 ---- MapReduce明星微博统计

SpringBoot集成Hadoop系列二 ---- MapReduce词频统计

SpringBoot集成Hadoop系列二 ---- MapReduce统计数据文件的共同好友

Hadoop系列文章SpringBoot编程实现HDFS读写文件、MapReduce程序

SpringBoot集成Hadoop系列二 ---- MapReduce一年最高气温统计

SpringBoot集成Hadoop系列一 ---- 对HDFS的文件操作

Hadoop系列（六）Hadoop三大核心之MapReduce 基础

深入浅出介绍Hadoop

一、Hadoop框架介绍

Hadoop系列(5):MapReduce实现PageRank

大数据与Hadoop系列之序列化（一）

Hadoop系列-MapReduce自定义数据类型（序列化、反序列化机制）（十二）

Hadoop系列之mysql集群版安装（十）

hadoop系列之使用jar命令提交任务

大数据Hadoop系列之Hadoop分布式集群部署

hadoop系列文档5-对官方MapReduce 过程的翻译（一）

Hadoop系列之Zookeeper完全分布模式安装（三）

测试眼里的Hadoop系列 之Terasort

Hadoop系列-MapReduce源码案例分析和编码规范（十）

hadoop系列：zookeeper（1）——zookeeper单点和集群安装

常用的几种大数据架构剖析

大数据Hadoop系列之Hadoop Web控制台添加身份验证

Hadoop系列之hbase数据库基础操作练习（七）

hadoop系列四:mapreduce的使用(二)

Hadoop系列文章 Hadoop架构、原理、特性简述

hadoop系列：zookeeper（2）——zookeeper核心原理（选举）

Hadoop系列之原理与架构

Hadoop系列(5)之容量调度器Capacity Scheduler配置

hadoop学习笔记

Hadoop系列二：启动HDFS和YARN过程日志

Hadoop系列三：运行job过程日志

常用的几种大数据架构剖析

Htrace on Hadoop, Hbase and HbaseClient

Hadoop系列（二 ) HDFS原理分析史上最详细，能和面试官吹半个小时

基于hdp3.0.1安装kylin2.6.5

hadoop（一）入门、hadoop架构、集群环境搭建

【Hadoop系列】linux下 root用户免密码登录远程主机 ssh

常用的几种大数据架构剖析

Hadoop 生态系列之 1.0 和 2.0 架构

大数据系列全套学习路线图

测试眼里的Hadoop系列之Terasort