Hadoop2 第14页

windows下安装spark + hadoop + pyspark

选择版本spark依赖的是hadoop和Javaspark、hadoop和python的适配hadoop2.x都是基于java7开发的hadoop3.x是基于java8开发的https://spark.apache.org

青碧凝霜·2022-12-15 11:08

spark的Windows本地安装

配置环境变量1）设置SPARK_HOME变量变量名：SPARK_HOME变量值：E:\spark\spark-2.4.3-bin-hadoop2.7，也就是Spark的安装目录，根据个人情况有所不同，应和解压后的路径一致

小跳蚤的绿茵传奇·2022-12-15 11:55

CDH6.3.2集成spark-sql完整版本

下载spark-2.4.0-bin-hadoop2.7.tgz并上传至gateway节点地址:https://archive.apache.org/dist/spark/spark-2.4.0/spark

奇科.zhang·2022-12-15 11:50

关于spark作业提交：spark运行example为例

executor-memory2G--executor-cores2--queueroot.helowin--classorg.apache.spark.examples.SparkPispark-examples-1.6.3-hadoop2.6.0

赣江·2022-12-15 11:17

spark下载安装，运行examples(spark一)

1.官方网址http://spark.apache.org/image.png2.点击下载下载最新版本目前是（2.4.3）此spark预设为hadoop2.7或者更高版本，我前面安装的是hadoop3.1.2

dingxiaohuang4790·2022-12-15 11:39

spark-submit 文件名、目录名或卷标语法不正确。好像是 py 不能有空格，加了下划线可以了

(py374)D:\proj\python\my_util_py_pub>D:\env\spark-2.1.1-bin-hadoop2.4\bin\spark-submit--packagesorg.apache.spark

Jonathan Star·2022-12-14 14:11

大数据技术之Hadoop

Volume(大量)2、Velocity（高速）3、Variety（多样）4、Value（低价值密度）1.3大数据部门组织结构第二章Hadoop框架2.1Hadoop是什么2.2Hadoop的优势2.3Hadoop2.0

Chen Mon·2022-12-13 18:55

CentOS-7中Hive的安装教程

安装环境：CentOS-7、JDK1.8、Hadoop2.6Hive版本：hive-1.1.0-cdh5.14.2资源路径：百度网盘请输入提取码提取码：zzzz1、将软件安装包移动至/opt目录下，这里我用的是

笑面天下·2022-12-13 13:35

Hadoop 分布式计算系统（map-reduce）介绍

Hadoop分布式计算系统（map-reduce）介绍hadoop组成什么是分布式计算hadoop1.x分布式计算总体架构hadoop2.x分布式计算总体架构分布式计算原理JAVA代码实现hadoop组成

ithinking110·2022-12-12 11:37

分布式计算

分布式计算一、分布式计算二、分布式系统特性三、通用分布式计算系统1ApacheHadoop2ApacheSpark3ApacheStorm一、分布式计算定义分布式计算就是将计算任务分摊到大量的计算节点上

lxwthinker·2022-12-12 11:07

Spark：spark2.4.0安装

软件准备：Indexof/dist/spark，选择跟hadoop集成的版本1，解压：tar-zxvfspark-2.4.0-bin-hadoop2.6.tgzmvspark-2.4.0-bin-hadoop2.6sparkvim

Joseph25·2022-12-11 13:27

Canal1.1.4获取数据后直接发送到kafka的Topic

已经启动运行成功的情况下，停掉服务，找到这个配置文件中对应项进行修改：第一个配置文件vim/opt/canal/conf/canal.properties#配置zkcanal.zkServers=hadoop1:2181,hadoop2

star-hash·2022-12-07 17:23

spark的安装详细步骤

downloads.html2.把下载好的压缩包拖拽到虚拟机的software（自己建的）目录下3.进入到software目录里面把压缩包解压到/opt目录下cd/softwaretar-zxvfspark-2.4.5-bin-hadoop2.6

喵Ja·2022-12-06 23:59

hadoop+hive+spark安装

hive3.1.2环境安装5.spark2.4.5编译安装大数据环境安装和配置版本详情：hadoop3.2.3+hive3.1.2+spark2.4.5+mysql5.7.29机器配置：节点hadoop1hadoop2hadoop3hdfsNameNo

代码&诗·2022-12-06 23:51

hadoop2.6.0（单节点）下Sqoop-1.4.6安装与配置（数据读取涉及hadoop、hbase和hive）

下载Sqoophttp://sqoop.apache.org/或http://archive-primary.cloudera.com/cdh5/cdh/5/（这个就是版本已经对应好了，不需去弄版本兼容问题了）或通过CM、Ambari很多同行，也许都知道，对于我们大数据搭建而言，目前主流，分为Apache和Cloudera和Ambari。后两者我不多说，是公司必备和大多数高校科研环境所必须的！分别

weixin_33921089·2022-12-05 17:03

hadoop-2.5.0,hbase,hive,pig,sqoop,zookeeper 集群安装

2.5.0.tar.gz2)Jdk:jdk-7u71-linux-x64.tar.gz3)Hive:apache-hive-0.13.1-bin.tar.gz4)Hbase:hbase-0.98.8-hadoop2

帅气小马哥·2022-12-05 17:45

Hadoop2.3.0+Hbase0.96.1.1+Hive0.14.0+Zookeeper3.4.6+Sqoop1.99.3安装配置流程

Hadoop2.3.0+Hbase0.96.1.1+Hive0.14.0+Zookeeper3.4.6+Sqoop1.99.3安装配置流程linux环境：OracleLinuxServerrelease6.3

daytimemoon·2022-12-05 17:05

使用Spark操作Hudi

开发环境:hadoop2.7.6hive2.3.7spark2.4.51、pom文件maven-alihttp://maven.aliyun.com/nexus/content/groups/public

雾岛与鲸·2022-12-04 18:42

本机使用python操作hdfs搭建及常见问题

伪分布式搭建全流程完整教程三.本机使用python操作hdfs搭建及常见问题四.mapreduce搭建五.mapper-reducer编程搭建本机使用python操作hdfs搭建及常见问题一、环境搭建1.打开虚拟机系统，打开hadoop2

灞気水笵er·2022-12-04 16:58

Hadoop学习笔记——入门教程（虚拟机安装Linux&Hadoop环境搭建配置）

文章目录一、Hadoop安装配置文档及注意事项二、Hadoop概述2.1、Hadoop是什么2.2、Hadoop的发展历史2.3、Hadoop三大发行版本2.3.1ApacheHadoop2.3.2ClouderaHadoop2.3.3HortonworksHadoop2.4

姓余的·2022-12-03 12:47

Flink1.11.0读取kafka数据动态写入hive中(更新-解决hive查询不到数据问题)

一、主要流程flink1.11.0hive2.3.4kafka2.11hadoop2.7.2scala2.1.11流批混合，读取kafka数据量写入到hive中主要参考官网：https://ci.apache.org

天涯到处跑·2022-11-30 09:14

【精】HDFS的HA系列（一）--- 背景、架构

在Hadoop2.0.0之前，NameNode是HDFS集群中的单点故障(SPO

叹了口丶气·2022-11-29 17:04

ubuntu-hadoop伪分布

ubuntu-hadoop伪分布-环境配置1.1创建新用户（确保环境最干净）1.2jdk1.3hadoop配置ssh无密码（分布式的结点以ssh控制，有密码不行）hadoop环境变量伪分布模式检查停止/启用hadoop2

NoB⁢ug·2022-11-29 15:26

day_01小笔记----本地运行Hadoop 案例、伪分布式运行Hadoop 案例

0、hadoop1.x和hadoop2.x区别Hadoop1.x的核心组件与Hadoop2.x核心组件不一样Hadoop1.x：hdfs、common、mapreduce（mapreduce同时处理业务逻辑运算和资源调度

普通网友·2022-11-29 15:48

阿里云（轻量级Ubuntu 16.04 ）服务器搭建Hadoop伪分布式集群及实现pi值的计算

环境：在ubuntu16.04jdk1.8.0_171hadoop2.8.4一.租用服务器https://www.aliyun.com/?

MuuuuYi·2022-11-29 15:40

【云计算学习教程】什么是中间件？常见中间件有哪些？

文章目录中间件是什么为什么使用中间件主要中间件的分类1.Hadoop2.LVS3.Linux-HA4.静态网站服务器5.动态应用服务器DNS、DHCP、Kerberos和Radius：云计算基础服务组件

小熊coder·2022-11-27 09:07

大数据学习——Hive实战（常用操作命令）

/start-all.sh使用终端连接Hive进入到/export/server/spark-2.3.0-bin-hadoop2.7/bin目录中执行以下命令：./beeline输入：!

princezf·2022-11-26 09:00

膜拜！华为内部都在强推的783页大数据处理系统：Hadoop源代码pdf

前言大数据处理系统:Hadoop源代码情景分析，采用的是Hadoop2.6。

普通网友·2022-11-25 19:22

大数据_YARN的工作原理

目录一、YARN产生的背景二、YARN的设计思想三、YARN的基本架构四、YARN的工作流程一、YARN产生的背景YARN是从MRv1（hadoop1.0时代）进化到MRv2（hadoop2.0时代）过程中

Happy编程·2022-11-24 23:47

Spark大数据分布式处理实战笔记（五）：Spark MLlib

：1.大数据处理框架Hadoop、Spark介绍2.linux下Hadoop安装与环境配置3.linux下Spark安装与环境配置本文的参考配置为：Deepin15.11、Java1.8.0_241、Hadoop2.10

大数据之眸·2022-11-24 06:18

大数据学习目录

硅谷工具人·2022-11-20 19:27

大数据、云计算系统高级架构师课程学习路线图

大数据、云计算系统高级架构师课程学习路线图大数据之Linux+大数据开发篇JavaLinux基础Shell编程Hadoop2.xHDFSYARNMapReduceETL数据清洗HiveSqoopFlume

tao_wei162·2022-11-20 13:55

PySpark 单机版(含spark-submit)

://spark.apache.org/downloads.htmlhttps://archive.apache.org/dist/spark/spark-2.4.8/spark-2.4.8-bin-hadoop2.7

yoshubom·2022-11-20 10:17

HDFS中block的大小

block的大小与修改Hadoop2.x/3.x版本中Block的默认大小为128M，早前版本中默认为64M，开发人员可以在hdfs-site.xml中添加如下标标签进行修改。

普通网友·2022-11-10 08:29

hadoop2.8配置_Hadoop 2.8集群安装及配置记录

第一部分：环境配置(含操作系统、防火墙、SSH、JAVA安装等)Hadoop2.8集群安装模拟环境为：主机：Hostname:Hadoop-host,IP:10.10.11.225节点1：Hostname

超人越山峰·2022-10-31 15:31

Hadoop2.7.2分布式部署1(网络配置篇)

本人最近在centos7下部署了Hadoop2.7.2的分布式环境，以下是节点的信息：主节点IP地址：192.168.0.100master节点1IP地址：192.168.0.101node1节点2IP

fxsdbt520·2022-10-31 15:59

基于Docker快速搭建Hadoop集群和Flink运行环境

前言搭建集群环境升级配置Hadoop配置Flink打包镜像启动集群前言本文主要讲，基于Docker在本地快速搭建一个Hadoop2.7.2集群和Flink1.11.2运行环境，用于日常Flink任务运行测试

白夜鸦羽·2022-10-24 18:20

Hadoop3 - HDFS 文件存储策略

Hadoop2.5及以上版本都支持存储策略，在该策略下，不仅可以在默认的传统磁盘上存储HDFS数据，还可以在SSD(固态硬盘)上存储数据。异构存储异构存储是Hadoop2.6.0版本出现的新特性,可

小毕超·2022-10-17 11:23

大数据笔记

2、数据类型繁多（velocity）3、处理速度快（variety）4、价值密度低（value）三、大数据的影响四、大数据关键技术1.分布式存储2.分布式处理五、大数据计算模式六、代表性大数据技术1.Hadoop2

上课不要睡觉了·2022-10-13 12:23

Hadoop 3.x 新特性概述

这是因为Hadoop2.0是基于JDK1.7开发的，而JDK1.7在2015年4月已停止更新，这直接迫使Hadoop社区基于JDK1.8重新发布一个新的Hadoop版本，而这正是Hadoop3.x。

悠然予夏·2022-10-12 11:40

nutch二次开发之hadoop和hbase开发环境搭建

网上有许多通过Cygwin来搭建hadoop开发环境其实没有必要，在hadoop官方文档中已经说hadoop2.x版本的hadoop没有必要也不支持Cygwin。

风吹千里·2022-10-12 10:41

Hadoop完全分布式集群环境搭建

OracleVMVirtualBox客户机操作系统：CentOS-6.8（64位）JDK：1.8（Linux版）SSH连接客户端，如：Xme5Hadoop：2.6.5二、实验步骤(1)在主节点解压hadoop安装包去官网获取Hadoop2.6.5

独木灬不成林·2022-09-27 16:04

Sqoop1.4.7实现将Mysql数据与Hadoop3.0数据互相抽取

之前写过一篇Sqoop1.4.6如何实现Mysql与Hadoop2.x之间数据互相抽取的，可参考：《Sqoop概述及shell操作》一、SqoopShell操作参数描述--connect

create17·2022-09-25 10:28

【深入浅出 Yarn 架构与实现】1-1 设计理念与基本架构

一、Yarn产生的背景Hadoop2之前是由HDFS和MR组成的，HDFS负责存储，MR负责计算。一）MRv1的问题耦合度高：MR中的jobTracker同时负责资源管理和作业控制两个功能，互相制约。

·2022-09-22 16:38

大数据技术Spark详解

首先从时间节点上来看：Hadoop2006年1月，DougCutting加入Yahoo，领导Hadoop的开发2008年1月，Hadoop成为Ap

wespten·2022-09-21 14:20

Hadoop2——Hadoop程序实现

Hadoop程序实现1安装hadoop程序1.1linux上安装环境，就是软件包，跟mysql本质上1样1.2windows上安装环境(这样才能在windows中跑hadoop程序,测试java写的hadoop程序是否可用)2项目构建（和普通项目基本一样）2.1创建1个普通的项目2.2导入Hadoop的JAR包2.2.1手动导入2.2.2maven导入2.3重写map方法和reduce方法2.3.

晓码bigdata·2022-09-21 13:10

1.Hadoop集群的配置

1.2.网络配置1.2.1.虚拟机网卡设置1.2.2.虚拟机IP配置1.3.安装ifconfig1.4.尝试ssh登录2.hadoop的安装2.1.SSH免密登录2.2.下载安装JDK2.3.下载安装Hadoop2.3.1

Brisa56·2022-09-21 13:05

Oozie编译

Oozie编译参考oozie编译所需要的软件包及已安装软件jdk1.8hadoop2.7.5mysql5.7apache-maven-3.6.3-bin.tar.gzext-2.2.zipoozie-4.1.0

小娴菜·2022-09-16 18:22

oozie编译失败：Apache Oozie Core .................................. FAILURE

使用版本：oozie4.3，hadoop2.7.4可能是因为hadoop版本太新，老是报：类型为LoggingEvent的变量firstLogEntry[ERROR]/oozie-4.3.0/core/

valage·2022-09-16 18:22

大数据计算框架及引擎介绍

一、大数据处理框架主流的大数据处理框架包括以下三类五种：1、仅批处理框架：ApacheHadoop2、仅流处理框架：ApacheStorm、ApacheSamza3、混合框架：ApacheSpark、ApacheFlink

归去来？·2022-09-16 13:32

推荐频道

Hadoop2