Hadoop2 第38页

阿里云三台节点，搭建完全分布式hadoop集群,超简单

106HDFSNamenodeDatanodeSecondaryNamenodeDatanodeDatanodeYARNNodemanagerNodemanagerRecourceManagerNodemanagerHistroryHistroryServer2、阿里云环境CentOS7.4hadoop2.8.3jdk1

zhangshk_·2020-07-30 06:31

用jupyter notebook 打开pyspark

在~/.bash_profile中添加PYTHONPATH环境变量exportPYTHONPATH="/Users/yikunqin/Spark/spark-2.2.0-bin-hadoop2.7/python

woshiqinyikun·2020-07-30 05:20

spark 安装和单机测试

》》安装hadoop2.6.0（同理2.7.7）解压hadoop2.6.0到任意目录：$cd/home/tom$wgethttp://apache.claz.org/hadoop/common/hadoop

毕业笙_16c9·2020-07-30 05:38

CentOS+Hadoop+Spark+HBase+ElasticSearch环境

：雨林木风，电脑店，大白菜等http://www.osyunwei.com/archives/2307.htmljdk1.8hbase-1.2.2-bin.tar.gzspark-1.6.2-bin-hadoop2.6

青峰祭坛·2020-07-30 01:43

eclipse配置hadoop-eclipse-plugin(版本hadoop2.7.3)

1：首先下载hadoop2.7.32：下载hadoop-eclipse-plugin-2.7.3.jar（注：自己百度，可以下载csdn上有下载）3：下载eclipse-mars-24：eclipse中安装

mkl34367803·2020-07-30 01:39

Spark2.3.1安装

环境：hadoop2.6.4jdk1.8centos4.8步骤如下：1.在Apache官网下载Spark2.3.1的安装包2.上传到Linux并解压tar-zxvfspark-2.3.1-bin-hadoop2.6

Miss Ring·2020-07-30 00:52

同步图计算：GraphLite的安装和使用

http://blog.csdn.net/pipisorry/article/details/51350908linux中直接运行graphliteRequirements1.JDK1.7.x+Hadoop2.6

-柚子皮-·2020-07-29 21:46

hadoop2.0的datanode多目录数据副本存放策略

在hadoop2.0中，datanode数据副本存放磁盘选择策略有两种方式：第一种是沿用hadoop1.0的磁盘目录轮询方式，实现类：RoundRobinVolumeChoosingPolicy.java

快乐程序员·2020-07-29 19:28

搭建Hadoop2.6+Hbase0.98.20+Nutch2.3.1+solr6.0.1环境

一、单机环境Hadoop2.6.0Hbase0.98.20Nutch2.3.1solr6.0.1vm10centos6.5jdk1.8comcat81、hadoop环境(修改本机hosts为zwhz)a

happyzwh·2020-07-29 19:24

hbase1.1.2安装

环境：hadoop2.6.1,zk3.4.61.配置环境变量sudovi/etc/profile.d/hbase-env.shexportHBASE_HOME=/usr/local/hbase-1.1.2exportPATH

ggzone·2020-07-29 18:50

spark2.3.1+jdk1.8向下兼容1.7（生产机器为jdk1.7）

spark.version}providedorg.apache.sparkspark-sql_2.11${spark.version}provided2、上传到生产集群/opt/core/spark-2.3.1-bin-hadoop2.6

cjlion·2020-07-29 17:25

hadoop2.2.0 搭建

第一部分Hadoop2.2下载Hadoop我们从Apache官方网站直接下载最新版本Hadoop2.2。

bingdongguke1·2020-07-29 17:33

阿里云ECS7安装搭建：hadoop2.7.6分布式集群

简介hadoop是一个分布式系统基础架构，是大数据生态的一个总称；核心设计包括：HDFS和MapReduce，HDFS为海量数据提供了存储，而MapReduce则为海量数据提供了计算；本篇博客则主要描述在阿里云服务器下部署hadoop集群环境准备两台阿里云服务器（实验环境，正式环境建议使用三台或以上部署集群）centos_7，一台为主，另一台为从；两台服务器分别安装jdk1.8环境；下载hadoo

尘光掠影·2020-07-29 17:32

Hadoop2.7.3配置记录

SingleCluster.html·单机模式已验证，没问题·伪分布式：1.sbin/start-dfs.sh敲完这条命令后提示如下内容：localhost:mkdir:无法创建目录"/usr/local/hadoop2

ali就是JiaQ啊·2020-07-29 16:17

elasticsearch+spark+hbase 整合

1.用到的maven依赖org.apache.sparkspark-hive_2.111.6.1org.elasticsearchelasticsearch-hadoop2.4.0注意：上面两个依赖的顺序不能换

a11133333·2020-07-29 16:26

大数据-Hadoop概念

高扩展可以很方便的扩展节点3.3高效率在MapReduce的思想下,hadoop是并行工作的,加快任务处理速度3.4高容错性失败的任务重新分配执行hadoop的组成hadoop1.xMapReduce+HDFS+Commonhadoop2

zZsS松·2020-07-29 15:06

hadoop3.X比hadoop2.x的改进

Common主要改进：Shellscriptrewrite过时API删除HDFS改进：支持erasure编码支持超过两个namenode数据均衡多个服务端口发生变化Yarn改进：YARNTimelineServicev.2SupportforOpportunisticContainersandDistributedSchedulingMapRduece改进：MapReducetask-leveln

慧有未来·2020-07-29 11:02

Ubuntu14.04下安装Hadoop2.7.4

本文将讲解在Ubuntu下安装Hadoop2.7.4。

yz930618·2020-07-29 07:25

如何配置IntelliJ IDEA环境向远端HADOOP测试集群递交Job作业。

本测试配置环境如下：Hadoop2.7.4(伪分布)onRedHatEnterpri

KylnMonkey·2020-07-29 05:36

元数据与数据治理｜搭建hadoop环境图文解析详细攻略，有这一篇就够了(第14篇)

以及注意事项详细步骤1.在linux下创建hadoop用户组和用户用户组名和用户名都设为：hadoop创建用户组sudoaddgrouphadoop创建hadoop用户sudoadduser–ingrouphadoophadoop2

十年呵护·2020-07-29 04:19

Hive伪分布模式安装

1.1运行HiveServer2和Beeline1.2要求java1.7+，官网推荐1.8Hadoop2.x1.3安装Hive的稳定版下载当前稳定版http://mirrors.cnnic.cn/apache

Marho11·2020-07-29 03:37

CDH环境下安装Tez(Hive on Tez )

cdh5.8.04、JDK版本：JDK1.85、Maven版本：apache-maven-3.5.4（必须安装Maven）二、安装前准备1、Tez版本选择：对于Tez版本0.8.3及更高版本需要ApacheHadoop2.6.0

血色彼岸花_703d·2020-07-29 03:58

Hadoop2.8第一个案例运行wordcount

运行wordcount1.查看hadoop中MapReduce路径2.创建word.txt，生成数据文件3.查看文件4.创建HDFS目录5.将数据文件word.txt上传到HDFS/work/data/input目录下6.以文本形式读出文件7.运行wordcount例子8.查看结果1.查看hadoop中MapReduce路径[root@mastermapreduce]#pwd/opt/hadoop

KerwinChou_CN·2020-07-29 02:11

Hadoop2.6.5/Spark1.6.3 HA集群构建

在基于Spark的大数据开发中，我们确定使用Centos6.5,在intellijIDEA中使用Scala语言进行开发。Spark集群包含9台机器，其中，六台作为Worker执行任务，2台作为Master管理集群资源，一台作为Client提交任务，Worker集群的配置和Master、Worker的配置可以不同，具体内容如下：Worker硬件环境：内存：1G硬盘：1T网络：1GbitCP

易悠·2020-07-29 01:19

hadoop学习（九）Hadoop2.2.0+HA+zookeeper3.4.5详细配置过程+错误处理(2)

Hadoop2.2.0+HA+zookeeper3.4.5详细配置过程+体系结构+错误处理(2)这篇文章，主要是针对zookeeper和hadoop集群的整体测试，以及自己在实际过程遇到的问题和解决思路

dufman·2020-07-29 01:28

hadoop学习（八）Hadoop2.2.0+HA+zookeeper3.4.5详细配置过程+错误处理(1)

Hadoop2.2.0+HA+zookeeper3.4.5+体系结构+错误处理心血之作，在熟悉hadoop2架构的过程耽误了太长时间，在搭建环境过程遇到一些问题，这些问题一直卡在那儿，不得以解决，耽误了时间

dufman·2020-07-29 01:28

hadoop学习（五）Hadoop2.2.0完全分布式安装详解（1）

和同伴一起搭建hadoop集群中遇到的各种问题，整理如下：前言在寒假前的一段时间，开始调研Hadoop2.2.0搭建过程,当时苦于没有机器，只是在3台笔记本上，简单跑通一些数据。

dufman·2020-07-29 01:27

Hadoop中自带的examples之wordcount应用案例

大家都知道hadoop中自带了很多例子，那么怎么用呢，今天主要测试下hadoop中的wordcount程序jar包：1、首先启动hadoop2、准备数据：vimwords，写入hellotomhellojerryhellokittyhellotomhellobbb3

GeoWin_CAU·2020-07-29 01:34

Spark性能调优2-总结分享

环境：服务器600+，spark2.0.2，hadoop2.6.02、调优结果调优随机选取线上9条SQL，表横轴是调优测试项目，测试在集群空闲情况下进行，后一个的测试都是叠

xwc35047·2020-07-29 01:33

spark实现不同班级不同学科的总成绩统计-scala

针对上面的数据进行分析4.程序的运行结果如下1.Thefirst,创建一个scalaprojectinideaformac当前IDEA中使用的SPARK包是：spark-assembly-1.5.1-hadoop2.4.0

xuanwenchao·2020-07-29 01:50

HDFS、YARN和MapReduce简介

Hadoop1由HDFS和MapReduce构成；Hadoop2框架核心设计有HDFS、MapReduce、YARN。

xraw999·2020-07-29 00:39

hadoop2.2.0 自带jar 包和 MR程序所使用的第三方包冲突解决

经过两天的摸索终于找到处理hadoop2.2.2中已经存在的jar包和MR里面调用的jar包冲突的问题；比如hadoop2.2.2里面用的guava是11.2的，我的工程的MR程序里面用的是16.0.1

xc635960736·2020-07-29 00:52

Spark--分组TopN

测试数据hadoop23spark45java90spark57spark90hadoop99hadoop76spark45spark88spark89hadoop45hadoop90java78java701.1

chbxw·2020-07-29 00:04

Delta Lake 安装

DeltaLake安装下载并安装spark2.4.5版本https://mirror.bit.edu.cn/apache/spark/spark-2.4.5/spark-2.4.5-bin-hadoop2.7

大数据AIRDE·2020-07-28 21:23

应用程序在YARN中的整体运行流程和状态机（ResourceManager端）

作业提交到ResourceManager以后会有状态机的变迁过程，如下为详细状态机分析，使用的是Hadoop2.6.0的版本进行源码分析的状态机，本篇文章主要是RM端核心的状态机变迁，之后会另外写一篇AM

凡哲_Lucas·2020-07-28 19:35

hadoop2 作业执行过程之作业提交

hadoop2.2.0、centos6.5hadoop任务的提交常用的两种，一种是测试常用的IDE远程提交，另一种就是生产上用的客户端命令行提交通用的任务程序提交步骤为：1.将程序打成jar包；2.将jar

weixin_34413103·2020-07-28 19:52

hadoop2.X如何将namenode与SecondaryNameNode分开配置

我们这里假设你已经安装配置了hadoop2.2，至于如何配置可以参考，hadoop2.2完全分布式最新高可靠安装文档。在这个基础上，我们对配置文件做一些修改：1.增加

weixin_34168700·2020-07-28 18:08

基于Spark和Hive进行的豆瓣电影数据分析

写在前边的话：算是自己做的一个小课题吧，自己搭建平台，自己爬取数据，自己进行数据清洗和分析，自己进行可视化展示，写这篇博客不为别的，只是记录下自己做这个课题的整个过程，大神们勿喷环境说明：hadoop2.7

weixin_34077371·2020-07-28 18:40

开发人员学Linux(14)：CentOS7安装配置大数据平台Hadoop2.9.0

1.前言“大云物移”是当年很火热的一个话题，分别指大数据、云计算、物联网和移动互联网，其中大数据领域谈论得多就是Hadoop。当然Hadoop不代表大数据，而是大数据处理领域的一个比较有名的开源框架而已，通常说的大数据包含了大数据的存放、大数据的分析处理及大数据的查询展示，本篇提到的Hadoop只不过是在其中的大数据的分析处理环节起作用，Apache提供了一个开源全家桶，包括了Hadoop、HBa

weixin_33953249·2020-07-28 18:14

使用ganglia 实现监控 hadoop 和 hbase（详细过程总结）

一，环境准备hadoop2.8.2分布式环境（三个节点安装请参考hadoop分布式环境安装）hbase1.2.6分布式环境（三个节点，安装参考hbase分布式环境安装）主节点采用ubuntu16.04桌面版

weixin_30646505·2020-07-28 16:57

Spark集群框架搭建01【VM15+CentOS7+Hadoop+Scala+Spark+Zookeeper+HBase+Hive】

二、准备工作VMware15ProCentos7JDK1.8Hadoop2.7.2SecureCRTversion8.5Scala2.12.7Spark2.3.1Zookeeper3.4.10HBase2.0.2Hive2.3.4

流浪中的UncleLivin·2020-07-28 16:18

TIDB 4.0、Hadoop2.7.2、Spark 2.4.0 集群安装部署方案

1.概述为什么这份文档里面我们要安装这么多集群呢？我这里大至说一下原因，TIDB4.0我们主要是用于存储大量数据用的，也就是永久化存储，而Spark是面向内存的。这使得Spark能够为多个不同数据源的数据提供近乎实时的处理计算性能，适用于需要多次操作特定数据集的应用场景。进行我们想要的离线计算，然后生成报表再回写到TIDB之中。2.安装TIDB生成环境硬件要求组件CPU内存硬盘类型网络数量(最低要

叶海无崖·2020-07-28 16:00

hadoop-2.3.0-cdh5.1.0伪分布安装（基于centos）

一、环境操作系统：CentOS6.564位操作系统注：Hadoop2.0以上采用的是jdk环境是1.7,Linux自带的jdk卸载掉，重新安装下载地址：http://www.oracle.com/technetwork

weixin_30629977·2020-07-28 16:17

sqoop简单import使用

三、使用sqoop列出mysql下的所有数据库(my_python_env)[root@hadoop26~]#sqooplist-databa

weixin_30609287·2020-07-28 16:36

Spark 学习入门教程

版本：2.5.0-cdh5.2.0spark版本：1.1.0二、HelloSpark将/usr/lib/spark/examples/lib/spark-examples-1.1.0-cdh5.2.0-hadoop2.5.0

wankunde·2020-07-28 15:58

【presto on yarn】解决方案

一.前言项目架构升级，从hadoop2.7升到3.X，需要从批处理转变到实时流。大半年一直在做数据导入，没有很好的方案。

秦拿希·2020-07-28 15:56

关于hadoop2.5.2运行MapReduce计算框架依赖最少jar包问题

问题描述：在hadoop2.5.2中的MapReduce计算框架上，利用Java代码执行分析任务时，需要导入必要的jar包。

码上行动GO·2020-07-28 14:49

hadoop2.7-windows环境搭建

Hadoop分布式环境搭建环境配置JDK:java1.8。这里要保证java环境变量不包含空格，并且java之前环境变量也不包含空格。这里可以用ProgramFiles可以有PROGRA~1代替。例如我的java路径是C:/ProgramFiles/Java/jdk1.8.0_144那么可以用C:/PROGRA~1/Java/jdk1.8.0_144代替。安装java教程看这里。Hadoop:2.

AbrahamCS·2020-07-28 14:27

Hadoop-深入实践（一）

Hadoop2.0三部分组成：分布式

wychen_sunshine·2020-07-28 14:23

spark yarn模式还用开启master，worker进程吗？

下载spark-1.6.1-bin-hadoop2.6.tar.gz。解压：tar-xvfspark-1.6.1-bin-hadoop2.6.tar.gz配置Sparkcdspark-

千里风雪·2020-07-28 14:58

推荐频道

Hadoop2