大数据Hadoop 第5页

MapReduce详解

它最早是由Google公司提出的，基于文件的分布式存储(GFS/HDFS)来实现对大规模数据的并行处理，并且Hadoop的作者就是从Google发的论文中受到了启发而写出目前最主流的大数据Hadoop框架

MoForest·2020-09-11 13:48

大数据Hadoop原理01_生态圈技术栈

离线数据处理的主要工具Hive是必须极其熟练地掌握和精通的，但Hive背后是Hadoop的HDFS和M叩Reduce，需要会MapReduce编程么？从笔者的工作实践以及了解来看，这不是必须掌握的，但是数据开发人员必须掌握其概念、架构和工作原理，也就是说，不但要知其然，而且要知其所以然。1.起源Hadoop的源头是Apache的Nutch项目，该项目由DougCutting于2002年8月创建，随

清平の乐·2020-09-11 00:04

大数据hadoop系列：Hive的安装与配置

下载地址https://mirrors.tuna.tsinghua.edu.cn/apache/hive/这边已我安装的1.2.2版本为例，可自行选择稳定版本或最新版本解压hive包tar-zxvfapache-hive-1.2.2-bin.tar.gz-C/usr/local/srccd/usr/local/src#创建软连接ln-sapache-hive-2.1.1-bin/hive修改配置文

兰波万·2020-08-26 13:10

大数据Hadoop入门需要填的坑

1、Hadoop生态概况Hadoop是一个由Apache基金会所开发的分布式系统集成架构，用户可以在不了解分布式底层细节情况下，开发分布式程序，充分利用集群的威力来进行高速运算与存储，具有可靠、高效、可伸缩的特点：高可靠性：提供按位处理的存储和计算能力值得用户信赖。高扩展性：可以轻松地从小量集群扩展到数以千计的节点中。高效性：提供并发的分布式计算框架，处理速度非常快。高容错性：即使在少量节点宕机的

weixin_33898876·2020-08-25 08:24

【备忘】最新极客学院大数据工程师视频教程下载

一、走进大数据Hadoop框架的世界01、Hadoop概述02、Hadoop架构介绍03、Yarn的发展背景及基本原理04、安装HadoopYARN二、用户行为分析项目01、Hadoop用户行为分析项目之应用概述

qq_38472425·2020-08-25 07:34

大型分布式系统现场，阿里大牛带你实战分布式系统

分布式系统分布式系统从当初的CORBA到EJB，Web和SOA，从集群到现在的NoSQL云计算和大数据Hadoop等分布式系统，横向水平扩展Scalaout/in是分布式系统设计的一个特点，可靠性容错性是两个质量指标

weixin_33894992·2020-08-24 17:02

大数据框架认知Hadoop的五大误区

独立分析机构ForresterResearch公司发布的《Forrester浪潮大数据Hadoop解决方案》(2014年一季度版)报告显示，Hadoop的开源架构逐渐深入适应企业环境，其疯狂的发展势头已无法阻挡

大数据架构师·2020-08-24 14:28

大数据Hadoop环境配置：Win10 VMware虚拟机安装Ubuntu18.04 JDK Hadoop 伪分布式配置 wordcount实例运行

一、Win10VMware虚拟机安装Ubuntu18.04详细步骤：https://blog.csdn.net/lzbmc/article/details/90757592Tips:安装了VMwareTools：可以在宿主机和虚拟机之间直接拷贝文件。会弹出VMWareTools所在的文件夹，然后右键VMWareTools.tar.gz，copyto到Home目录下。输入解压命令：sudotar-x

小毛驴爱吃肉·2020-08-24 05:32

大数据Hadoop基础

Hadoop简述一个由Apache开发的基础分布式框架，主要目的是解决海量数据的存储、分析、计算问题。通常从广义上来说，Hadoop是一个更广泛的概念，发展至今已经是一个成熟的生态体系。Hadoop自2005年发行以来的迅速发展，标志着云计算时代的来临。组成Hadoop主要由以下三部分组成：HDFS：存储数据。一个分布式文件系统。MapReduce：计算。一个分布式离线并行计算框架。YARN：资源

destiny ~·2020-08-23 15:31

大数据Hadoop3.1.3——HDFS文件系统的客户端操作（基础）

1、HDFS客户端环境准备1、将Windows依赖hadoop-3.1.0放到指定位置，设置环境变量将bin目录下的hadoop.dll放到下列目录下：2．配置HADOOP_HOME环境变量3.配置Path环境变量，然后重启电脑4．创建一个Maven工程5．导入相应的依赖坐标+日志添加junitjunit4.12org.apache.logging.log4jlog4j-slf4j-impl2.1

Caron_xcb·2020-08-21 16:19

零基础大数据入门3--大数据生态系统及其各组件简介

本篇引入了大数据hadoop生态系统的概念，并对其中各组件的功能优势和出现的背景做了一个简单介绍。关于部分组件的详细介绍将会在后期博客中给出，不正确之处欢迎各位看官指正。

alexlee666·2020-08-19 17:34

大数据Hadoop入门，Hadoop安装与配置,HDFS伪分布式部署(一)

一、概述（部署请跳到第二节）1.大数据的由来随着计算机技术的发展，互联网的普及，信息的积累已经到了一个非常庞大的地步，信息的增长也在不断的加快，随着互联网，物联网建设的加快，信息更是爆炸式增长，收集检索，统计这些信息越发困难，传统的数据库结构难以应对这种变化，必须使用新的技术来解决这些问题2.什么是大数据－大数据指无法在一定时间范围内用常规工具进行捕捉，管理和处理的数据集合－大数据需要新处理模式才

JJH的创世纪·2020-08-19 06:38

Hive从入门到放弃——Hive 用户内置函数简介（十一）

背景 Hive作为大数据Hadoop集群的数据仓库，实际使用自然是要用来数据处理和数据分析的，必然经常用到Hive函数，Hive函数分为内置函数和自定义函数（userdefinedfunction，简称

╭⌒若隐_RowYet·2020-08-18 13:41

大数据hadoop3.1.3——WordCount案例操作--Windows本地提交集群以及打jar包到集群上执行

WordCount案例实操1．需求在给定的文本文件中统计输出每一个单词出现的总次数（1）输入数据到*.txt文件，预计出现次数如下：banzhang1cls2hadoop1jiao1ss2xue12．需求分析按照MapReduce编程规范，分别编写Mapper，Reducer，DriverWordCount需求分析3．环境准备（1）创建maven工程（2）在pom.xml文件中添加如下依赖juni

Caron_xcb·2020-08-18 11:10

大数据Hadoop最新版实战Linux Ubuntu 16.04安装与运行测试例子 ...

大数据Hadoop运行环境，依赖于JavaJDK，核心的大数据框架基于Java开发的，目前互联网公司、电商、医疗、银行、医院等都有大数据应用，开源Hadoop生态统治了大数据领域，基本没有对手。

weixin_34349320·2020-08-17 16:42

分布式系统理论

分布式系统从当初的CORBA到EJB，Web和SOA，从集群到现在的NoSQL云计算和大数据Hadoop等分布式系统，横向水平扩展Scalaout/in是分布式系统设计的一个特点，可靠性容错性是两个质量指标

xiaomin_____·2020-08-16 23:27

搭建大数据hadoop完全分布式环境遇到的坑

搭建大数据hadoop完全分布式环境，遇到很多问题，这里记录一部分，以备以后查看。

weixin_34292402·2020-08-16 21:52

大数据Hadoop篇：源码编译

一、环境配置CentOS联网配置CentOS能连接外网。Linux虚拟机pingwww.baidu.com是畅通的注意：采用root角色编译，减少文件夹权限出现问题jar包准备(hadoop源码、JDK8、maven、ant、protobuf)（1）hadoop-2.7.2-src.tar.gz（2）jdk-8u144-linux-x64.tar.gz（3）apache-ant-1.9.9-bin

犇犇_D·2020-08-12 12:29

大数据Hadoop生态圈：Pig和Hive

前言Pig最早是雅虎公司的一个基于Hadoop的并行处理架构，后来Yahoo将Pig捐献给Apache的一个项目，由Apache来负责维护，Pig是一个基于Hadoop的大规模数据分析平台。Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口，这一点和FaceBook开源的Hive一样简洁，清晰，易上手！一、Pig概述Pig包括两部分1：用于描述数据流的语言，称为PigLatin（拉丁猪，

weixin_30675247·2020-08-10 23:55

HDFS架构设计

HDFS架构设计标签：大数据Hadoop[toc]原文：http://hadoop.apache.org/docs/r2.6.4/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html

weixin_34185364·2020-08-09 14:02

【11】大数据Hadoop框架下的TF-IDF技术原理和代码实现

文章目录一、TF-IDF技术简介本次代码计算环境是：1、词频(termfrequency,TF)2、逆向文件频率(inversedocumentfrequency,IDF)3、TF-IDF4、基于大数据

坚果大叔·2020-08-09 01:52

大数据实训-Hadoop生态

大数据Hadoop大数据生态2020年6月15日8:470.Linux1.HDFS分布式文件系统2.MapReduce并行计算框架3.Hive数据仓库4.sqoop数据集成工具HDFSRDBMS5.用户行为分析项目大数据产生的三个助推力

OneSeek·2020-08-08 10:17

笔试分享：2020-07-03

：智能科学研发岗笔试题型：近150道选择题题目第一部分100道选择题涉及知识点：（1）语言JAVA，C++，Python，SOL（2）算法排序，二叉树，hash冲突（3）数据库字节存储大小，锁定（4）大数据

liz_lee·2020-08-07 15:54

500 G JAVA视频网盘分享(JEECG开源社区)

500GJAVA视频网盘分享(JEECG开源社区)[涵盖从java入门到深入架构，Linux、云计算、分布式、大数据Hadoop、ios、Android、互联网技术应有尽有]【转载：http://blog.csdn.net

qiaqia609·2020-08-06 12:00

大数据hadoop3.1.3——MapReduce学习（基础概念）

1、MapReduce概述1、MapReduce定义2、MapReduce优缺点1优点2缺点3、MapReduce核心思想1）分布式的运算程序往往需要分成至少2个阶段。2）第一个阶段的MapTask并发实例，完全并行运行，互不相干。3）第二个阶段的ReduceTask并发实例互不相干，但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。4）MapReduce编程模型只能包含一个Map

Caron_xcb·2020-08-03 23:24

大数据基础教程Hadoop入门学习

大数据hadoop入门分布式笔记文章目录大数据hadoop入门分布式笔记1.基础1.1Hadoop核心1.2HDFS存储思路：1.3Linux2.环境搭建2.1CentOs安装2.1.1关闭图形界面init32.2

luck_whai·2020-08-03 16:49

大数据Hadoop3.1.3——Zookeeper集群本地搭建

1本地模式安装部署1）安装前准备（1）安装Jdk（2）拷贝Zookeeper安装包到Linux系统下（3）解压到指定目录tar-zxvfzookeeper-3.5.7.tar.gz-C/opt/module/2）配置修改（1）将/opt/module/zookeeper-3.5.7/conf这个路径下的zoo_sample.cfg修改为zoo.cfg；mvzoo_sample.cfgzoo.cfg

Caron_xcb·2020-08-03 11:06

大数据hadoop学习【5】-----通过JAVA编程，实现对HDFS文件的过滤与合并

大数据hadoop学习【5】-----通过JAVA编程，实现对HDFS文件的过滤与合并目录一、创建文件数据1、切换到hadoop账户，并运行hadoop2、在路径为[/user/hadoop]下创建file

陈一月的编程岁月·2020-08-03 03:54

大数据Hadoop原理学习（HDFS,MAPREDUCE,YARN）

hadoophadoop中有3个核心组件：分布式文件系统：HDFS——实现将文件分布式存储在很多的服务器上分布式运算编程框架：MAPREDUCE——实现在很多机器上分布式并行运算分布式资源调度平台：YARN——帮用户调度大量的mapreduce程序，并合理分配运算资源hdfs整体运行机制hdfs：分布式文件系统hdfs有着文件系统共同的特征：有目录结构，顶层目录是：/系统中存放的就是文件系统可以提

满天星._·2020-08-01 14:19

大数据hadoop工具

导入文件：yuminstall-ylrzsz导出文件：sz文件杀掉所有的进程jps-q|xargskillrpm-qa|grepntpsudoservicentpdstatuschkconfigyuminstallntpntpdatehadoop-dfs-appendToFIle-/test/a1234标准追加hdfs配置文件先以1：java代码配置为主2：寻找resource下面的hdfs.xm

历精图治·2020-08-01 09:33

【10】基于大数据hadoop框架实现PageRank算法

文章目录一、PageRank算法的简介二、算法原理1、基本原理2、互联网角度3、修正PageRank计算公式：增加阻尼系数4、基于大数据原生hodoop来思考这个算法实例三、Java代码实现一、PageRank算法的简介PageRank算法也叫佩奇排序算法，是Google在搜索引擎称霸互联网宝藏中的的算法之一，用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。是Google创始人拉里·

坚果大叔·2020-08-01 05:59

程序员需要关注的十个大数据技术

大数据hadoop——高效、可靠、可伸缩，能够为你的数据存储项目提供所需的YARN、HDFS和基础架构，并且运行主要的大数据服务和应用程序。

weixin_33830216·2020-07-30 20:19

大数据Hadoop之MR GroupingComparator辅助排序案例实操

1．需求有如下订单数据现在需要求出每一个订单中最贵的商品。（1）输入数据0000001Pdt_01222.80000002Pdt_05722.40000001Pdt_0233.80000003Pdt_06232.80000003Pdt_0233.80000002Pdt_03522.80000002Pdt_04122.4（2）期望输出数据1222.82722.43232.82．需求分析（1）利用“订

@我是菜鸟。·2020-07-30 20:32

大数据Hadoop之KeyValueTextInputFormat使用案例

1．需求统计输入文件中每一行的第一个单词相同的行数。（1）输入数据banzhangnihaoxihuanhadoopbanzhangbanzhangnihaoxihuanhadoopbanzhang（2）期望结果数据banzhang2xihuan22．需求分析3.代码实现Mapper：packagecom.mapreduce.kvsplit;importorg.apache.hadoop.io.I

@我是菜鸟。·2020-07-30 16:08

大数据hadoop3.1.3——Hadoop序列化以及案例操作

1、序列化概述2、自定义bean对象实现序列化接口（Writable）在企业开发中往往常用的基本序列化类型不能满足所有需求，比如在Hadoop框架内部传递一个bean对象，那么该对象就需要实现序列化接口。具体实现bean对象序列化步骤如下7步。（1）必须实现Writable接口（2）反序列化时，需要反射调用空参构造函数，所以必须有空参构造publicFlowBean(){super();}（3）重

Caron_xcb·2020-07-30 16:58

大数据hadoop 集群搭建（三个节点）

hadoop集群的搭建分为两部分前提要有---》1.准备编译好的hadoop-2.6.0-cdh5.14.0和jdk-8u144-linux-642.在linux的根目录下创建export目录，目录下分别创建两个同等级目录softwares,servers,softwares存放文件的压缩包，servers存放解压后的文件3.准备好三个节点hadoop搭建好后会有这几个服务出现第一部分（准备工作，

牛犊6·2020-07-28 23:16

正则表达式1

1.爬虫request，scrapy2.数据pandas，etc3.大数据hadooporjavasriptor4.数据挖掘算法5.自然语言处理？

weixin_40429825·2020-07-28 20:13

10分钟大数据Hadoop基础入门

前言目前人工智能和大数据火热，使用的场景也越来越广，日常开发中前端同学也逐渐接触了更多与大数据相关的开发需求。因此对大数据知识也有必要进行一些学习理解。基础概念大数据的本质一、数据的存储：分布式文件系统（分布式存储）二、数据的计算：分部署计算基础知识学习大数据需要具备Java知识基础及Linux知识基础学习路线（1）Java基础和Linux基础（2）Hadoop的学习：体系结构、原理、编程第一阶段

大数据基础入门教程·2020-07-28 03:04

大数据hadoop分布式文件系统HDFS简述

HDFS是hadoop系统中的重要核心,它是一个分布式的文件系统。1、那么什么是分布式文件系统呢？我们打个比方来说，当我们有一个数据，有300G，但是我们每个电脑的硬盘存储最大只有256G，这个时候，单独的一台电脑是无法存储这个300G的文件的，那么我们要怎么存储这个文件呢？hadoop之父根据2013年谷歌发布的论文就开发出了这样一个文件系统。HDFS的核心思想就是我们可以将300G的文件，将它

会唱歌的苏影·2020-07-27 19:10

大型分布式系统现场，阿里大牛带你贯彻理解分布式系统

分布式系统分布式系统从当初的CORBA到EJB，Web和SOA，从集群到现在的NoSQL云计算和大数据Hadoop等分布式系统，横向水平扩展Scalaout/in是分布式系统设计的一个特点，可靠性容错性是两个质量指标

wx5d6cccb1cb158·2020-07-23 21:09

大型分布式系统现场，阿里大牛带你贯彻理解分布式系统

分布式系统分布式系统从当初的CORBA到EJB，Web和SOA，从集群到现在的NoSQL云计算和大数据Hadoop等分布式系统，横向水平扩展Scalaout/in是分布式系统设计的一个特点，可靠性容错性是两个质量指标

wx5d6cccb1cb158·2020-07-23 21:05

大数据Hadoop（一）UbuntuServer18.04虚拟机安装及环境配置

目录一一、安装前准备复制链接直接到浏览器地址栏即可下载二、安装开始三、系统安装1、第一种情况2、第二种情况四、系统相关配置1、用户登录2、设置root用户密码3、登录root用户并更新系统4、时间同步（当master时间与系统时间不对应时）a）查看当前时间b）安装ntpdatec）调整时区d）复制文件到/etc目录下e）更新时间f）将系统时间写入硬件时间g）重启系统h）查看时间点击跳转下一章，[大

同乂林C·2020-07-15 17:53

大数据Hadoop分布式文件系统HDFS

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的

zhuguanghalo·2020-07-15 12:16

Thinking in BigData（八）大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解

纯干货：Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解。通过这一阶段的调研总结，从内部机理的角度详细分析，HDFS、MapReduce、Hbase、Hive是如何运行，以及基于Hadoop数据仓库的构建和分布式数据库内部具体实现。如有不足，后续及时修改。HDFS的体系架构整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持，并通过MR来实现对

dufman·2020-07-15 11:13

Thinking in BigData（九）大数据hadoop集群下离线数据存储和挖掘架构

在这一次交流中，主要是针对初级想了解hadoop的人员的，主要讲的内容，在我的上一篇ThinkinginBigDate（八）大数据Hadoop核心架构HDF

dufman·2020-07-15 11:13

大数据(完全分布式)配置详解

linux大数据hadoop完全分布式完全分布式hadoop最大的优势就是分布式集群计算，所以在生产环境下都是搭建的最后一种模式：完全分布模式技术准备系统规划搭建测试上线使用完全分布式系统规则主机角色软件

乐于技术分享·2020-07-15 06:06

零基础学习hadoop开发需要具备的条件

大数据hadoop无疑是当前互联网领域受关注热度最高的词之一，大数据技术的应用正在潜移默化中对我们的生活和工作产生巨大的改变。

weixin_34352005·2020-07-15 05:16

大数据Hadoop系列之Hadoop分布式集群部署

一、部署规划1、部署环境各部署单元的软件部署情况如下：二、环境准备1、修改主机名[root@VM1~]#vim/etc/sysconfig/networkNETWORKING=yesHOSTNAME=master60[root@VM2~]#vim/etc/sysconfig/networkNETWORKING=yesHOSTNAME=slave61[root@VM3~]#vim/etc/sysco

王者的路注定孤独·2020-07-15 02:47

大数据Hadoop分布式（MapReduce编程）& python可视化分析

Hadoop分布式大数据&python可视化分析一、MapReduceMapReduce作为Hadoop专门用作计算的一个组件，虽然相比spark略有不足，但是他的与原生Hadoop的紧密配合还是可观的。分布式存储指的是HDFS组件，现在的MapReduce计算组件也被看做分布式并发计算，因为YARN资源控制组件，将资源调度和分配处理的清清楚楚。本次note主要记载了MapReduce的第一个小实

繁星和孤岛的故事·2020-07-14 21:18

大数据Hadoop第四周——免密钥登录设置、配置java和hadoop环境

大数据第4周0.检查联网每次打开虚拟机都无法联网，都忘了打开服务这一步1.用户名相同要求三个虚拟机的用户名相同，否者相互访问时需要使用用户名，这样集群会有问题。如要新增用户，先转换为root用户suroot，然后执行以下操作：添加新用户：useradd用户名设置用户密码：passwd用户名添加新用户到wheel用户组（获得sudo权限）：usermod-a–Gwheel用户名如果要删除用户：use

蔡军帅·2020-07-14 20:48

推荐频道

大数据Hadoop

MapReduce详解

大数据Hadoop原理01_生态圈技术栈

大数据hadoop系列：Hive的安装与配置

大数据Hadoop入门需要填的坑

【备忘】最新极客学院大数据工程师视频教程下载

大型分布式系统现场，阿里大牛带你实战分布式系统

大数据框架认知Hadoop的五大误区

大数据Hadoop环境配置：Win10 VMware虚拟机 安装Ubuntu18.04 JDK Hadoop 伪分布式配置 wordcount实例运行

大数据Hadoop基础

大数据Hadoop3.1.3——HDFS文件系统的客户端操作（基础）

零基础大数据入门3--大数据生态系统及其各组件简介

大数据Hadoop入门，Hadoop安装与配置,HDFS伪分布式部署(一)

Hive从入门到放弃——Hive 用户内置函数简介（十一）

大数据hadoop3.1.3——WordCount案例操作--Windows本地提交集群以及打jar包到集群上执行

大数据Hadoop最新版实战Linux Ubuntu 16.04安装与运行测试例子 ...

分布式系统 理论

搭建大数据hadoop完全分布式环境遇到的坑

大数据Hadoop篇：源码编译

大数据Hadoop生态圈：Pig和Hive

HDFS架构设计

【11】大数据Hadoop框架下的TF-IDF技术原理和代码实现

大数据实训-Hadoop生态

笔试分享：2020-07-03

500 G JAVA视频网盘分享(JEECG开源社区)

大数据hadoop3.1.3——MapReduce学习（基础概念）

大数据基础教程Hadoop入门学习

大数据Hadoop3.1.3——Zookeeper集群本地搭建

大数据hadoop学习【5】-----通过JAVA编程，实现对HDFS文件的过滤与合并

大数据Hadoop原理学习（HDFS,MAPREDUCE,YARN）

大数据hadoop工具

【10】基于大数据hadoop框架实现PageRank算法

程序员需要关注的十个大数据技术

大数据Hadoop之MR GroupingComparator辅助排序案例实操

大数据Hadoop之KeyValueTextInputFormat使用案例

大数据hadoop3.1.3——Hadoop序列化以及案例操作

大数据hadoop 集群搭建（三个节点）

正则表达式1

10分钟大数据Hadoop基础入门

大数据hadoop分布式文件系统HDFS简述

大型分布式系统现场，阿里大牛带你贯彻理解分布式系统

大型分布式系统现场，阿里大牛带你贯彻理解分布式系统

大数据Hadoop（一）UbuntuServer18.04虚拟机安装及环境配置

大数据Hadoop分布式文件系统HDFS

Thinking in BigData（八）大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解

Thinking in BigData（九）大数据hadoop集群下离线数据存储和挖掘架构

大数据(完全分布式)配置详解

零基础学习hadoop开发需要具备的条件

大数据Hadoop系列之Hadoop分布式集群部署

大数据Hadoop分布式（MapReduce编程）& python可视化分析

大数据Hadoop第四周——免密钥登录设置、配置java和hadoop环境

大数据Hadoop环境配置：Win10 VMware虚拟机安装Ubuntu18.04 JDK Hadoop 伪分布式配置 wordcount实例运行

分布式系统理论