E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
【MapReduce】
Spark大数据平台
Spark是UCBerkeleyAMPlab(加州大学伯克利分校的AMP实验室)所开源的类Hadoop
MapReduce
的通用并行框架,Spark,拥有Hadoop
MapReduce
所具有的优点;但不同于
Hi~晴天大圣
·
2023-10-13 05:16
技术杂烩
spark
大数据
scala
<官网学大数据>
MapReduce
MapReduce
官网介绍地址http://hadoop.apache.org/docs/stable/hadoop-
mapreduce
-client/hadoop-
mapreduce
-client-core
kangapp
·
2023-10-12 22:43
spark 之 driver
driver端之输出文件如果我们碰到有spark任务所有task结束了但是任务还没结束,很可能就是Driver还在不断的拷文件;涉及参数:
mapreduce
.fileoutputcommitter.algorithm.version
zhixingheyi_tian
·
2023-10-12 20:07
spark
spark
大数据
分布式
数据仓库Hive(林子雨课程慕课)
文章目录9.数据仓库Hive9.1数据仓库的概念9.2Hive简介9.3SQL语句转换为
MapReduce
作业的基本原理9.4Impla9.4.1Impala简介9.4.2Impala系统架构9.4.3Impala
几窗花鸢
·
2023-10-12 12:51
大数据应用
hadoop
数据仓库
hive
hadoop
spark 与
mapreduce
对比
Spark为什么比
MapReduce
快总结首先澄清几个误区:1)两者都是基于内存计算的,任何计算框架都肯定是基于内存的,所以说网上所说的Spark是基于内存计算所以快,显然是错误的。
超爱慢
·
2023-10-12 11:07
spark
mapreduce
大数据
【HADOOP面试指南】
HadoopHadoop中常问的就三块第一:分布式存储(HDFS);第二:分布式计算框架(
MapReduce
);第三:资源调度框架(YARN)。
耗子尾汁(⩺_⩹)
·
2023-10-12 06:03
学习笔记
hadoop
面试
hdfs
大数据笔记--Hive(第一篇)
、概述Hive原本时有Facebook公司开发后来贡献给了Apache的一套用于进行数据仓库管理的机制Hive提供了类SQL(HQL,HiveQL)语句来管理HDFS上的大量数据,底层会将SQL转化为
MapReduce
是小先生
·
2023-10-12 05:02
大数据05-Hive
hive
big
data
hadoop
hadoop缺少hadoop.dll和winutils.exe文件报错
今天在本地跑
mapreduce
的遇到的问题:Couldnotlocateexecutablenull\bin\winutils.exeinthehadoopbinariesUnabletoloadnative-hadooplibraryforyourplatform
Keven He
·
2023-10-11 16:48
解决的bug
hadoop
mapreduce
hdfs
大数据原理与技术(八):数据仓库Hive
Hive将SQL语句转化成
MapReduce
任务进行处理,适用于大型分布式数据集的查询管理。
昊In
·
2023-10-11 12:29
笔记
hive
大数据
Hive内部表、外部表、分区表、桶表概述
Hive是基于Hadoop的一个数据仓库,可以将结构化的数据文件映射为一张表,并提供类sql查询功能,Hive底层将sql语句转化为
mapreduce
任务运行。
千释炎
·
2023-10-11 10:56
Hadoop+Zookeeper+HA错题总结(一)
题目5:
MapReduce
的MapTask工作机制中最后要执行的步骤是?[单选题]A、溢写B、分区C、排序D、合并【参考答案】:D【您的答
十七✧ᐦ̤
·
2023-10-11 06:08
hadoop
zookeeper
大数据
分布式计算引擎理解
例如外界现在很流行的newSql-Tidb,存储采用了KV模式,计算则采用Spark.MR计算模型
MapReduce
最早是由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法。
懒猫gg
·
2023-10-11 04:18
架构&实战理解
框架组件
spark
大数据
分布式计算
高阶函数:filter map reduce
高阶函数:filter
mapreduce
这三个高阶函数都是数组中有几项就执行几次编程范式:面向对象编程(第一公民:对象)/函数式编程(第一公民:函数)constnums=[10,20,111,222,444,40,50
关耳木南
·
2023-10-11 00:41
大数据学习(1)-Hadoop
Hadoop的核心组件包括:HDFS(HadoopDistributedFileSystem)
MapReduce
和Yarn。Hadoop的运行机制基于分布式计算的概念,即将大规模的计算任务分解为多个
viperrrrrrr
·
2023-10-11 00:29
大数据
Hadoop大数据综合案例1-Hadoop2.7.3伪分布式环境搭建
大数据招聘网数据分析综合案例Hadoop大数据综合案例1-Hadoop2.7.3伪分布式环境搭建Hadoop大数据综合案例2-HttpClient与Python招聘网数据采集Hadoop大数据综合案例3-
MapReduce
CDHong.it
·
2023-10-11 00:26
Hadoop大数据
大数据
hadoop
linux
数据库
配置Hive使用Spark执行引擎
Hive执行引擎包括:默认MR、tez、spark
MapReduce
引擎:早期版本Hive使用
MapReduce
作为执行引擎。
MapReduce
是Hadoop的一种计算模型,它通过将数据
CodeDevMaster
·
2023-10-11 00:49
大数据
hive
spark
hadoop
MapReduce
(林子雨慕课课程)
文章目录7.
MapReduce
7.1
MapReduce
简介7.1.1分布式并行编程7.1.2
MapReduce
模型简介7.2
MapReduce
体系结构7.3
MapReduce
工作流程概述7.4Shuffle
几窗花鸢
·
2023-10-10 23:16
大数据应用
hadoop
mapreduce
大数据
Hadoop2.0探讨
Hadoop再探讨8.1Hadoop的优化与发展8.2HDFS的FA和Federation(Hadoop2.0新特性)8.2.1HDFSHA8.2.2HDFSFederation8.3YARN8.3.1
MapReduce
1.0
几窗花鸢
·
2023-10-10 23:16
大数据应用
hadoop
hadoop
大数据
mysql
mapreduce
_Hadoop
MapReduce
中把分析数据写入mysql中
展开全部可以只用一行代码来运行
MapReduce
作业:JobClient.runJon(conf),Job作业运行时参与的四个实62616964757a686964616fe78988e69d8331333433626464
讲着童话的恶魔
·
2023-10-10 21:43
mysql
mapreduce
分布式之
MapReduce
——解读《
MapReduce
》
title:分布式之
MapReduce
——解读《
MapReduce
》date:2021-12-2217:36:29论文:DeanJ,GhemawatS.
MapReduce
:Simplifieddataprocessingonlargeclusters
dounine
·
2023-10-10 20:26
hive和hadoop关系
1.hive使用的默认执行引擎是
mapreduce
作业,相当于执行的hive的sql都会转化成
mapreduce
的作业的形式2.hive的表使用的默认存储是hdfs的文件系统,相当于表的数据是存储在hdfs
lixia0417mul2
·
2023-10-10 09:03
大数据
Hbase Shell
一些常用的hbaseshell命令示例:hbase中出现16进制字符串的处理:将其用双引号引起来统计hbase全表的总数:hbaseorg.apache.hadoop.hbase.
mapreduce
.RowCounter'table
天之見證
·
2023-10-10 07:00
Hive Hooks介绍
但是由于基于
MapReduce
,查询执行速度太慢而逐步引入其他的近实时查询引擎如Presto等。
叁金
·
2023-10-10 07:43
spark sql 数据类型转换_Spark SQL重点知识总结
一、SparkSQL的概念理解SparkSQL是spark套件中一个模板,它将数据的计算任务通过SQL的形式转换成了RDD的计算,类似于Hive通过SQL的形式将数据的计算任务转换成了
MapReduce
weixin_39736547
·
2023-10-10 06:39
spark
sql
数据类型转换
大数据Hadoop生态圈-组件介绍
Hadoop的核心组件是HDFS、
MapReduce
。
青社
·
2023-10-10 02:45
大数据
hadoop
大数据
hadoop
spark
hbase
hive
「大数据集群的搭建和使用」背景知识:大数据Hadoop生态圈介绍
目录一、Hadoop简介二、Hadoop的运行模式1.单机模式2.伪分布式模式3.完全分布式模式三、Hadoop生态圈组件1.HDFS2.
MapReduce
3.YARN4.Hive5.Pig6.HBase7
优秀的Athena在休息
·
2023-10-10 02:14
大数据集群的搭建和使用
大数据
hadoop
分布式
Apache Hadoop生态部署-hadoop单机安装
安装包下载2:配置环境变量3:服务配置(1)core-site.xml(2)配置hadoop-env.sh(3)HDFS配置文件hdfs-site.xml(4)YARN配置文件yarn-site.xml(5)
MapReduce
iwester
·
2023-10-10 02:12
Hadoop生态
hadoop
apache
大数据
《黑马程序员》大数据集群(Hadoop生态)安装部署——图文讲解
HadoopHDFS提供分布式海量数据存储能力HadoopYARN提供分布式集群资源管理能力Hadoop
MapReduce
提供分布式海量数据计算能力前置要求请确保完成了集群化环境前置准备章节的内容即:JDK
懒羊羊夸夸~
·
2023-10-10 02:41
hadoop
分布式
【大数据】Hadoop 生态系统及其组件
Hadoop生态系统及其组件1.Hadoop生态系统的组成2.Hadoop生态系统简介2.1HDFS2.2
MapReduce
2.3YARN2.4Hive2.5Pig2.6HBase2.7HCatalog2.8Avro2.9Thrift2.10Drill2.11Mahout2.12Sqoop2.13Flume2.14Ambari2.15Zookeeper2.16Oozie1
G皮T
·
2023-10-10 02:36
#
Hadoop
hadoop
big
data
大数据
hdfs
hive
mapreduce
yarn
使用
mapreduce
用贝叶斯分类器训练
继上一篇配置好hadoop和eclipse环境之后。我开始做我的实验。实验内容:通过贝叶斯公式对文件分类到某个文件夹中。实验项目链接:https://download.csdn.net/download/weixin_42615157/10883188实验原理:贝叶斯分类器,通过其名字我们就可以知道,是以贝叶斯公式为基础。公式如下:这里P(B|A)我们称作后验概率,P(B)我们称作先验概率。在本实
秃顶高富帅
·
2023-10-09 22:19
hadoop安装
hadoop
mapreduce
bayes
大数据—— Spark Core 知识点整理
官方提供的数据表明,如果数据由磁盘读取,速度是Hadoop
MapReduce
的10倍以上,如果数据从内存中读取,速度可以高达100多倍。
Vicky_Tang
·
2023-10-09 21:34
Spark
技术栈
spark
big
data
大数据
MapReduce
中map并行度优化及源码分析
MapReduce
中map并行度优化及源码分析mapTask并行度的决定机制一个job的map阶段并行度由客户端在提交job时决定,而客户端对map阶段并行度的规划的基本逻辑为:将待处理数据执行逻辑切片
Wantonn
·
2023-10-09 15:18
分布式数据库(林子雨慕课课程)
安装和编程实战4.分布式数据库HBase4.1HBase简介HBase是BigTable的开源实现对于网页搜索主要分为两个阶段1.建立整个网页索引:设计网页爬虫,爬取的网页存入BigTable中,在上面运行
MapReduce
2
几窗花鸢
·
2023-10-09 00:18
大数据应用
HBase
大数据
Hadoop(林子雨慕课课程)
集群的部署和使用2.Hadoop2.1Hadoop简介Hadoop可以支持多种编程语言:c,c++,java,pythonHadoop用java语言开发,具有跨平台特性Hadoop两大核心:HDFS+
MapReduce
几窗花鸢
·
2023-10-09 00:05
大数据应用
hadoop
hadoop
大数据
分布式
大数据面试题:Spark和
MapReduce
之间的区别?各自优缺点?
面试题来源:《大数据面试题V4.0》大数据面试题V3.0,523道题,679页,46w字可回答:1)spark和maprecude的对比;2)
mapreduce
与spark优劣好处问过的一些公司:阿里云
蓦然_
·
2023-10-08 20:23
大数据面试题
大数据
面试
Hadoop2.x安全:hadoop集群之kerberos认证(一、原理+安装配置)
欢迎转发朋友圈从微信公众号拷贝过来,格式有些错乱,建议直接去公众号阅读一、为什么启用Kerberos安全认证大家都知道,Hadoop1.0.0或者CDH3版本以前,并没有安全认证的概念,用户与HDFS文件系统或者提交分布式任务(
Mapreduce
大数据开发运维架构
·
2023-10-08 15:16
Hadoop核心组件
Hadoop
MapReduce
:分布式计算框架一.HDFS1.HDFS概述HDFS是google三大论文之一的GFS的开源实现,是一个高度容错性的系统,适合部
HZHZHZ
·
2023-10-08 10:16
弹性分布式数据集rdd_弹性分布式数据集(RDD)
其他集群计算框架(如
MapReduce
和Dryad)缺乏利用分布式内存的抽象概念。因此,这使得
danpu0978
·
2023-10-08 07:15
分布式
数据挖掘
java
spark
大数据
Hadoop ----HDFS
MapReduce
HDFSNameNode负责管理DataNode保存所有的元数据(目录的位置结构存储的磁盘位置)是HDFS的核心是单点故障一旦出现问题整个HDFS不在对外提供服务·edits操作日志文件fsimage元数据文件SecondaryNameNode获取NameNode的数据延后将新的NameNode数据进行合并然后再次写入NameNode中DataNode负责数据的存储数据是按块存储的hadoop2.
烟解愁、酒上头
·
2023-10-08 07:55
hadoop
分布式
离线数仓
hadoop
mapreduce
hdfs
分布式
Hadoop之HDFS及
MapReduce
详解,以及HA集群搭建
一、概述大数据大数据(bigdata)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产大数据的5V特点(IBM提出):Volume(大量)Velocity(高速)Variety(多样)Value(低价值密度)Veracity(真实性)Hadoop是什么?http://hadoop.
Mayz梅子子子
·
2023-10-08 07:55
Hadoop
hadoop
mapreduce
hdfs
Hadoop之hdfs简介
Hadoop的hdfs简介hadoop2x三大核心:hdfs、yarn、
mapreduce
.hadoop四大模块:HadoopCommon:为其他Hadoop模块提供基础设施。
墙角的枫叶
·
2023-10-08 07:53
hadoop学习笔记
hdfs简介
hive 优化
使用ApacheHive,用户可以根据个人需求和偏好使用HiveQL或传统的
Mapreduce
系统。Hive特别适用于分析大型数据集(PB),还包括各种存储选项。Hive充满了独特的工具,允许用户
熊_看不见
·
2023-10-08 05:56
基于Flume+Kafka+HBase+
Mapreduce
的电信客服项目(上)
文章目录1、项目背景2、项目架构3、数据描述4、代码实现1、项目背景通信运营商每时每刻会产生大量的通信数据,例如通话记录,短信记录,彩信记录,第三方服务资费等等繁多信息。数据量如此巨大,除了要满足用户的实时查询和展示之外,还需要定时定期的对已有数据进行离线的分析处理。例如,当日话单,月度话单,季度话单,年度话单,通话详情,通话记录等等。需求:按时间统计每人在每分钟,每小时,每年的通话次数和通话时长
追风筝的少年-
·
2023-10-08 05:22
我的项目
大数据
大数据 | Pyspark基本操作
它的优势有三个方面:通用计算引擎能够运行
MapReduce
、数据挖掘、图运算、流式计算、SQL等多种框架;基于内存数据可缓存在内存中,特别适用于需要迭代多次运算的场景;与Hadoop集成能够直接读写HDFS
RichardsZ_
·
2023-10-07 21:10
机器学习
大数据
Spark基础
一、spark基础1、为什么使用SparkⅠ、
MapReduce
编程模型的局限性(1)繁杂只有Map和Reduce两个操作,复杂的逻辑需要大量的样板代码(2)处理效率低Map中间结果写磁盘,Reduce
罗刹海是市式市世视士
·
2023-10-07 17:51
spark
大数据
分布式
大数据软件系统开发框架
1.ApacheHadoop:Hadoop是一个开源的分布式数据存储和处理框架,它包括Hadoop分布式文件系统(HDFS)和
MapReduce
编程模型。Hadoop可以处理大规模数据集的
defdsdddev
·
2023-10-07 15:54
大数据
大数据笔/面试题
hadoop的namenode宕机,怎么解决6.namenode对元数据的管理7.元数据的checkpoint8.yarn资源调度流程9.hadoop中combiner和partition的作用10.用
mapreduce
四月天03
·
2023-10-07 11:09
大数据(其他)
hadoop
hdfs
big
data
MapReduce
剖析笔记之五:Map与Reduce任务分配过程
转载:https://www.cnblogs.com/esingchan/p/3940565.html在上一节分析了TaskTracker和JobTracker之间通过周期的心跳消息获取任务分配结果的过程。中间留了一个问题,就是任务到底是怎么分配的。任务的分配自然是由JobTracker做出来的,具体来说,存在一个抽象类:TaskScheduler,主要负责分配任务,继承该类的有几个类:Capac
可爱马莲花
·
2023-10-07 11:39
大数据
hadoop
mapreduce
Hadoop权威指南读书笔记
B树适合传统数据库,
mapreduce
适合分布式数据
qqhai
·
2023-10-07 03:32
大数据 - (六-3)- ⼯作流调度系统Azkaban
⼯作流调度系统⼀个完整的数据分析系统通常都是由⼤量任务单元组成:shell脚本程序java程序
mapreduce
程序hive脚本等各任务单元之间存在时间先后及前后依赖关系为了很好地组织起这样的复杂执⾏计划
啦啦啦喽啰
·
2023-10-07 00:43
上一页
22
23
24
25
26
27
28
29
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他