E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Hadoop系列
Hadoop系列
mapreduce 原理分析
以wordcount为例https://blog.csdn.net/weixin_43291055/article/details/106488839步骤一:split步骤二:map阶段步骤三:combine阶段(可选)---将同一台机器上的相同的数据进行合并,减少网络传输combiner其实也是一种reduce操作,因此我们看见WordCount类里是用reduce进行加载的。Combiner是
诸葛子房_
·
2020-08-11 19:32
hadoop
Hadoop系列
-开发中常见问题处理(十一)
问题三.Exceptioninthread"main"java.lang.UnsatisfiedLinkError:org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z在运行WordCount.java代码时,出现这样的问题[html]viewplaincopylog4j:WARNNoappende
贺敏Minbo
·
2020-08-10 16:51
Hadoop
云计算/大数据
Hadoop系列
之-Hadoop2.7.2的Eclipse插件编译
提供下编译好的jar包:http://download.csdn.net/detail/suzhi921/9594598配置Eclipse:将jar包拷贝到Eclipse目录下的plugins里windows--preferences--HadoopMap/Reduce指向Hadoop安装路径windows-showview-MapreduceTools-Map/ReduceLocations--
suzhi921
·
2020-08-10 10:22
Hadoop
校招准备-大数据工具
学习计划1:spark,spark数据处理,预处理,机器学习,分布式机器学习算法等相关学习计划2:
hadoop系列
hbase,pig,yarn,HDFS流计算学习学习计划3:ETL相关知识学习未完待续-
weixin_30888413
·
2020-08-10 07:18
高可用 Elasticsearch 集群 21 讲
相比
Hadoop系列
的大数据平台,Elasticsearch使用起来要简单得多,你只要修改很少的几个配置
蔚1
·
2020-08-09 13:13
ubuntu 18.04LTS hadoop 3.0.3安装
ubuntu18.04LTS安装后,更新
hadoop系列
安装。这次针对hadoop,系统和安装环境如下:ubuntu18.04LTS和hadoop3.0.3、jdk1.8.0_172。
Mr_哲
·
2020-08-06 12:00
hadoop
Hadoop系列
——SpringBoot集成Hadoop、实现hdfs上传下载文件(1)
pom.xmlorg.apache.hadoophadoop-client2.7.6org.apache.hadoophadoop-hdfs2.7.6HadoopConfig.javapackagecom.hahashujia.hadoop.config;importlombok.extern.slf4j.Slf4j;importorg.apache.hadoop.fs.FileSystem;im
哈哈书架
·
2020-08-03 04:21
Hadoop
java
SpringBoot
Hadoop系列
——SpringBoot集成Hadoop、实现hdfs上传下载文件(2)
在
Hadoop系列
——SpringBoot集成Hadoop、实现hdfs上传下载文件(1)基础上做变动yml文件配置hadoop.name-node:hdfs://localhost:9000HadoopConfig.java
哈哈书架
·
2020-08-03 04:20
Hadoop
SpringBoot
java
SpringBoot集成
Hadoop系列
二 ---- MapReduce数据的分组统计,排序
代码:packagecom.hadoop.reduce.model;importorg.apache.hadoop.io.WritableComparable;importjava.io.DataInput;importjava.io.DataOutput;importjava.io.IOException;/***分组排序model类*@authorlinhaiy*@date2019.05.18
潇潇雨歇_
·
2020-08-03 01:56
大数据开发
大数据开发
SpringBoot集成
Hadoop系列
二 ---- MapReduce对表的join操作
代码:packagecom.hadoop.reduce.model;importorg.apache.hadoop.io.Writable;importjava.io.DataInput;importjava.io.DataOutput;importjava.io.IOException;/***订单商品对象*@authorlinhaiy*@date2019.05.18*/publicclassO
潇潇雨歇_
·
2020-08-03 01:56
大数据开发
大数据开发
SpringBoot集成
Hadoop系列
二 ---- MapReduce明星微博统计
代码:packagecom.hadoop.reduce.model;importorg.apache.hadoop.io.WritableComparable;importjava.io.DataInput;importjava.io.DataOutput;importjava.io.IOException;/***统计明星微博数据实体*@authorlinhaiy*@date2019.05.18
潇潇雨歇_
·
2020-08-03 01:55
大数据开发
大数据开发
SpringBoot集成
Hadoop系列
二 ---- MapReduce词频统计
继上篇SpringBoot集成
Hadoop系列
一----对HDFS的文件操作建的工程,接下来使用MapReduce进行一些数据文件的统计开发.这里做一个很经典的统计功能,词频统计.代码:packagecom.hadoop.reduce.mapper
潇潇雨歇_
·
2020-08-03 01:55
大数据开发
大数据开发
SpringBoot集成
Hadoop系列
二 ---- MapReduce统计数据文件的共同好友
代码:packagecom.hadoop.reduce.mapper;importjava.io.IOException;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.mapreduce.Mapper;/***查找共同的好友*@authorlinhaiy
潇潇雨歇_
·
2020-08-03 01:55
大数据开发
大数据开发
Hadoop系列
文章SpringBoot编程实现HDFS读写文件、MapReduce程序
Hadoop系列
文章SpringBoot编程实现HDFS读写文件、MapReduce程序实现HDFS操作引入依赖winutils码代码读取HDFS中的文件写内容到文件中MapReduce操作MapReduce
wangxudongx
·
2020-08-02 21:59
SpringBoot集成
Hadoop系列
二 ---- MapReduce一年最高气温统计
代码:packagecom.hadoop.reduce.mapper;importjava.io.IOException;importjava.util.StringTokenizer;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.T
潇潇雨歇_
·
2020-08-02 20:44
大数据开发
大数据开发
SpringBoot集成
Hadoop系列
一 ---- 对HDFS的文件操作
一.对HDFS操作设计以下几个主要的类:Configuration:封装了客户端或者服务器的配置信息FileSystem:此类的对象是一个文件系统对象,可以用该对象的一些方法来对文件进行操作通过FileSystem的静态方法get获得该对象,例:FileSystemhdfs=FileSystem.get(conf);FSDataInputStream:这是HDFS中的输入流,通过由FileSyst
潇潇雨歇_
·
2020-08-02 20:43
大数据开发
大数据开发
Hadoop系列
(六)Hadoop三大核心之MapReduce 基础
文章目录MapReduce背景MapReduce是什么MapReduce的架构简单介绍MapReduce背景在程序由单机版扩成分布式版时,会引入大量的复杂工作。为了提高开发效率,可以将分布式程序中的公共功能封装成框架,让开发人员可以将精力集中于业务逻辑。Hadoop当中的MapReduce就是这样的一个分布式程序运算框架。MapReduce是什么MapReduce是一个分布式运算程序的编程框架,是
南山饱虎
·
2020-08-01 12:09
hadoop
深入浅出介绍Hadoop
深入浅出介绍Hadoop一、Hadoop的由来二、Hadoop介绍三、Hadoop的优势我的
Hadoop系列
框架一、Hadoop的由来1998年9月4日,一个影响世界的搜索引擎诞生于美国硅谷,就是家喻户晓的
渌玦Leo_J
·
2020-08-01 10:30
Hadoop
Hadoop介绍
电脑基础
一、Hadoop框架介绍
OK~从今天开始,我们就开始我们的fromzerotohero大数据系列的博客编写,今天是第一篇,开篇为《Hadoop框架介绍》,
Hadoop系列
将会收录在《fromzerotohero(Hadoop篇
象在舞
·
2020-08-01 09:21
from
zero
to
hero(Hadoop篇)
Hadoop
hadoop
大数据
Hadoop系列
(5):MapReduce实现PageRank
1、PageRank原理(1)算法定义:PageRank算法输入:所有节点的初始权重值;节点邻接矩阵;迭代次数n输出:节点权重值whileix),C(t)表示t节点的出度。(2)算法示例(注:为简单起见,示例中省去了常量a和系数1-a)PR(n2)=PR(n5)/C(n5)+PR(n1)/C(n1)=0.2/3+0.2/0.1=0.166在计算节点n3时,仍使用PR(n2)=0.2。在图中所有节点
顾大静
·
2020-08-01 01:07
分布式系统
大数据与
Hadoop系列
之序列化(一)
传统的计算机系统通过I/O操作与外界进行交流,Hadoop的I/O由传统的I/O系统发展而来,但又有些不同,Hadoop需要处理P、T级别的数据,所以在org.apache.hadoop.io包中包含了一些面向海量数据处理的基本输人输出工具.本文会对其中的序列化进行研究。序列化对象的序列化(Serialization)用于将对象编码成一个字节流,以及从字节流中重新构建对象。"将一个对象编码成一个字
有梦想的人不睡觉121
·
2020-07-30 16:00
Hadoop
Hadoop系列
-MapReduce自定义数据类型(序列化、反序列化机制)(十二)
Github代码下载地址:1,JAVA工程代码大家都知道,Hadoop中为Key的数据类型必须实现WritableComparable接口,而Value的数据类型只需要实现Writable接口即可;能做Key的一定可以做Value,能做Value的未必能做Key。但是具体应该怎么应用呢?本篇文章将结合手机上网流量业务进行分析。先介绍一下业务场景:统计每个用户的上行流量和,下行流量和,以及总流量和。
贺敏Minbo
·
2020-07-30 15:49
Hadoop
云计算/大数据
Hadoop系列
之mysql集群版安装(十)
图文链接详细操作链接http://note.youdao.com/noteshare?id=ae0237fdeb6e7f16471d095f6edce4c0集群整体架构搭建链接:https://blog.csdn.net/qq_40402685/article/details/84173830实验目的要求☛完成mysql的集群版的安装☛MySQL集群的相关服务进程能够正常启动☛MySQL集群的SQ
初心cc
·
2020-07-29 05:08
云存储
hadoop系列
之使用jar命令提交任务
文章目录环境启动haoop,并配置远程调试代码解析runJar自定义mapreduce程序环境hadoop:1.0.0java:1.8.0_171启动haoop,并配置远程调试指定远程调试监听端口8888exportHADOOP_CLIENT_OPTS="-agentlib:jdwp=transport=dt_socket,address=8888,server=y,suspend=y"利用had
齐梦星空
·
2020-07-28 20:00
hadoop
大数据
Hadoop系列
之Hadoop分布式集群部署
一、部署规划1、部署环境各部署单元的软件部署情况如下:二、环境准备1、修改主机名[root@VM1~]#vim/etc/sysconfig/networkNETWORKING=yesHOSTNAME=master60[root@VM2~]#vim/etc/sysconfig/networkNETWORKING=yesHOSTNAME=slave61[root@VM3~]#vim/etc/sysco
王者的路注定孤独
·
2020-07-15 02:47
hadoop
hadoop系列
文档5-对官方MapReduce 过程的翻译(一)
MapReduce教程MapReduce教程目的环境条件总览输入输出Example:WordCountv1.0源码用法Walk-throughMapReduce-UserInterfacesPayloadMapperReducerPartitionerCounterJobConfigurationTaskExecution&EnvironmentMemoryManagementMapParamet
u010237107
·
2020-07-15 00:16
hadoop
Hadoop系列
之Zookeeper完全分布模式安装(三)
详细配置截图笔记链接:http://note.youdao.com/noteshare?id=b071910d980ec4819dd8a67596bdf35a实验目的要求:Zookeeper的完全分布模式的安装Zookeeper服务能够正常启动和连接Zookeeper控制台能够正常进入Zookeeper控制台命令能够正常使用实验环境:★五台独立虚拟机★主机之间有效的网络连接★每台主机内存2G以上,
初心cc
·
2020-07-14 19:28
云存储
测试眼里的
Hadoop系列
之Terasort
TeraSort是Hadoop的测试中很有用的一个工具,但以前只是粗略的知道它的功能和用法,简单的用它做了几个测试用例。实际上,对于这种比较通用的工具,如果能够了解它更多一些的话,对于理解Hadoop是很有帮助的,同时也可以更好的利用它来帮助测试。最近有点时间,就了解了一些它的背景,代码实现原理等等,就先记录下来吧。1.Hadoop与SortBenchmarksSortBenchmark(http
leafy1980
·
2020-07-14 13:16
Hadoop测试
Hadoop系列
-MapReduce源码案例分析和编码规范(十)
Github代码下载地址:1,JAVA工程代码2,Maven工程代码转载内容如下:首先让我们来重温一下hadoop的四大组件:HDFS:分布式存储系统MapReduce:分布式计算系统YARN:hadoop的资源调度系统Common:以上三大组件的底层支撑组件,主要提供基础工具包和RPC框架等Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架M
贺敏Minbo
·
2020-07-14 11:47
Hadoop
云计算/大数据
hadoop系列
:zookeeper(1)——zookeeper单点和集群安装
1、概述8月份的第一周,忙得晕头转向,为了解决OSGI-Felix下hibernateJPA的ClassLoader问题,就耽误了至少两天时间,还好在周五系统成功在servicemix上运行了。已经几天时间没有碰博客了,刚好下周有安排给实验室的几个大神讨论zookeeper相关技术。我这么一想,咦~~刚好这周末准备PPT的时候,还不如就预先做几篇关于zookeeper的文章,这样既可以两件工作合成
seableble
·
2020-07-14 02:58
常用的几种大数据架构剖析
随着大数据技术的发展,数据挖掘、数据探索等专有名词曝光度越来越高,但是在类似于
Hadoop系列
的大数据分析系统大行其道之前,数据分析工作已经经历了长足的发展,尤其是以BI系统为主的数据分析,已经有了非常成熟和稳定的技术方案和生态系统
小红牛
·
2020-07-13 19:33
大数据
Hadoop系列
之Hadoop Web控制台添加身份验证
1.背景介绍本文档介绍如何配置HadoopHTTPWeb控制台以要求用户身份验证。默认情况下,HadoopHTTPWeb控制台(ResourceManager,NameNode,NodeManagers和DataNodes)允许访问而无需任何形式的身份验证。可以将HadoopHTTPWeb控制台配置为使用HTTPSPNEGO协议(Firefox和InternetExplorer等浏览器支持)进行K
王者的路注定孤独
·
2020-07-13 16:16
hadoop
Hadoop系列
之hbase数据库基础操作练习(七)
笔记链接详细图文链接:http://note.youdao.com/noteshare?id=c43e8a4d9e0bd68534357261e58df4a4Hbase整套部署教程:https://blog.csdn.net/qq_40402685/article/details/84173830准备工作主机名IP地址服务名称cgt-01192.168.10.111Hbase主控节点cgt-021
初心cc
·
2020-07-11 19:41
云存储
hadoop系列
四:mapreduce的使用(二)
当前使用的hadoop版本为2.6.4此为mapreducer的第二章节这一章节中有着计算共同好友,推荐可能认识的人上一篇:
hadoop系列
三:mapreduce的使用(一)一:说明二:在开发工具在运行
weixin_30828379
·
2020-07-08 14:50
Hadoop系列
文章 Hadoop架构、原理、特性简述
Hadoop系列
文章Hadoop架构、原理、特性简述HadoopHDFSHDFS介绍HDFS架构图HDFS写入数据流程图HDFS读取数据流程图数据块的副本集HadoopYARNYARN工作流程图YARN
wangxudongx
·
2020-07-08 12:51
hadoop系列
:zookeeper(2)——zookeeper核心原理(选举)
1、前述上篇文章《
hadoop系列
:zookeeper(1)——zookeeper单点和集群安装》(http://blog.csdn.net/yinwenjie/article/details/47361419
seableble
·
2020-07-08 04:48
Hadoop系列
之原理与架构
一、Hadoop项目架构Hadoop框架是用来解决数据离线批处理问题的框架,其中最核心的是HDFS和MapReduce,HDFS是架构在Hadoop之上的分布式文件系统,MapReduce是架构在Hadoop之上用来做计算的框架。hadoop两个核心:HDFS和MapReduce用途:解决分布式存储和分布式存储。特点:高可靠性、高效性、可扩展性、成本低(普通PC机都能构建集群)应用:Google、
black_hnu
·
2020-07-07 23:45
大数据
Hadoop
Hadoop系列
(5)之容量调度器Capacity Scheduler配置
1.应用场景本文只关注配置,关于调度器的算法以及核心内容将在下一篇介绍。CapacityScheduler是YARN中默认的资源调度器,但是在默认情况下只有root.default一个queue。而当不同用户提交任务时,任务都会在这个队里里面按优先级先进先出,大大影响了多用户的资源使用率。现在公司的任务主要分为三种:每天晚上进行的日常任务dailyTask,这些任务需要在尽可能短的时间内完成,且由
蓝天的IT生涯
·
2020-07-07 13:12
hadoop
yarn
scheduler
hadoop学习笔记
前言
hadoop系列
下的HDFSArchitecture,本文主要介绍了hadoop的整体架构,包括但不限于节点概念、命名空间、数据容错机制、数据管理方式、简单的脚本命令和垃圾回收概念。
遇见百分百
·
2020-07-05 05:15
Hadoop系列
二:启动HDFS和YARN过程日志
以下记录为启动HDFS和YARN环境时的过程中的中间过程输出,节点注册和HDFS文件系统的数据变化日志等。(1)执行HDFS文件系统格式化[bruce@iRobothadoop]$$HADOOP_PREFIX/bin/hdfsnamenode-format15/11/1913:55:39INFOnamenode.NameNode:STARTUP_MSG:/*********************
魔方泥瓦匠
·
2020-07-04 20:06
Hadoop系列
三:运行job过程日志
[bruce@iRobothadoop]$$HADOOP_PREFIX/bin/hdfsdfs-mkdir/user[bruce@iRobothadoop]$$HADOOP_PREFIX/bin/hdfsdfs-mkdir/user/bruce[bruce@iRobothadoop]$tail-flogs/*-namenode*.log2015-11-1915:01:20,442INFOorg.a
魔方泥瓦匠
·
2020-07-04 20:06
常用的几种大数据架构剖析
随着大数据技术的发展,数据挖掘、数据探索等专有名词曝光度越来越高,但是在类似于
Hadoop系列
的大数据分析系统大行其道之前,数据分析工作已经经历了长足的发展,尤其是以BI系统为主的数据分析,已经有了非常成熟和稳定的技术方案和生态系统
铁拳虎
·
2020-07-02 06:30
大数据学习
大数据开发
大数据入门
数据分析
Hadoop
大数据
大数据技术
人工智能
spark
Linux
Htrace on Hadoop, Hbase and HbaseClient
Hadoop2.6的新特性包含了Trace功能,一个类似于GoogleDapper的分布式跟踪工具,为
Hadoop系列
应用提供请求跟踪和性能分析。
hustsselbj
·
2020-07-02 03:17
分布式系统
监控
性能测试
Hadoop系列
(二 ) HDFS原理分析史上最详细,能和面试官吹半个小时
@[TOC]HDFS架构:NameNode(NN):管理文件系统的namespace/元数据一个HDFS集群只有一个Active的NN说白了就是管理文件的目录它保存了两个核心的数据结构:Fslmage和EditLogFsImage负责维护文件系统树和树中所有文件和文件夹的元数据。———维护文件结构和文件元信息的镜像EditLog操作日志文件中记录了所有针对文件的创建,删除,重命名操作。———记录对
NICEDAYSS
·
2020-07-01 03:44
Hadoop
基于hdp3.0.1安装kylin2.6.5
文章目录环境与说明下载安装包添加kylin的环境变量检查env环境启动kylin页面访问环境与说明本次测试的环境已提前装好ambari2.7.3和hdp3.0.1操作系统为Centos7.4-1708提前安装好的依赖组件有
hadoop
再看我把你吃掉
·
2020-06-30 20:22
Ambari
hadoop(一)入门、hadoop架构、集群环境搭建
hadoop系列
笔记hadoop(一)入门、hadoop架构、集群环境搭建.hadoop(二)HDFS概述、shell操作、客户端操作(各种API操作)以及hdfs读写流程.hadoop(三)hdfs的
复姓独孤
·
2020-06-29 23:38
Bigdata
#
Hadoop
hadoop
【
Hadoop系列
】linux下 root用户免密码登录远程主机 ssh
SSH原理:【
Hadoop系列
】linuxSSH原理解析操作环境:CentOS6.5操作对象:用户A主机和远程主机B正文部分:斜体加粗代表linux指令。
weixin_34255793
·
2020-06-28 15:28
常用的几种大数据架构剖析
随着大数据技术的发展,数据挖掘、数据探索等专有名词曝光度越来越高,但是在类似于
Hadoop系列
的大数据分析系统大行其道之前,数据分析工作已经经历了长足的发展,尤其是以BI系统为主的数据分析,已经有了非常成熟和稳定的技术方案和生态系统
ThoughtWorks
·
2020-06-28 10:39
Hadoop 生态系列之 1.0 和 2.0 架构
趁着还没有入职,给大家争取先把
Hadoop系列
的文章总结完毕,可以当做科普文,也可以当做笔记收藏。经过查阅各种资料,保证我的理解没有偏差。但是也难免会有疏漏,欢迎朋友们留言给我进行交流。
weixin_33772645
·
2020-06-28 05:09
大数据系列全套学习路线图
ClouderaManagerClouderaManager平台部署说明书Hadoop大数据
Hadoop系列
之Hadoop分布式集群部署大数据
Hadoop系列
之Hadoop机架感知配置大数据
Hadoop
王者的路注定孤独
·
2020-06-27 11:04
hadoop
hive
hbase
spark
kafka
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他