E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
大数据计算-MapReduce
京东面试总结
出现的问题:大数据开发没有理论支撑,应该可以涉及多一点的应用方面;其次引导面试官提问
MapReduce
;在
小小少年Boy
·
2024-02-09 21:45
MapReduce
笔记
基本的数据流:•输入(格式化k,v)数据集->map映射成一个中间数据集(k,v)->reduce为什么叫
MapReduce
:MapTask&ReduceTask图1map阶段:一个block对应1或多个
南宫萧言
·
2024-02-09 14:13
与
MapReduce
的对比
Sparkvs
MapReduce
Job的划分方式不同,
MapReduce
中一个map和
Tim在路上
·
2024-02-09 10:27
大数据Hadoop生态圈技术之浅析PageRank计算原理
二、计算环境——Hadoop-2.5.2——四台主机——两台NN的HA——两台RM的HA——离线计算框架
MapReduce
三、计算原理(1)思考
A尚学堂Nancy老师
·
2024-02-09 10:23
大数据 - Spark系列《五》- Spark常用算子
Spark系列文章:大数据-Spark系列《一》-从Hadoop到Spark:
大数据计算
引擎的演进-CSDN博客大数据-Spark系列《二》-关于Spark在Idea中的一些常用配置-CSDN博客大数据
王哪跑nn
·
2024-02-09 05:25
spark
大数据
spark
分布式
探究
MapReduce
基本原理
MapReduce
作业运行流程image.pngMap-Reduce的处理过程主要涉及下面四个部分:客户端Client:用于提交Map-reduce任务jobJobTracker:协调整个job的运行,
tracy_668
·
2024-02-09 02:57
并发编程中一种经典的分而治之的思想!!
有点像Hadoop中的
MapReduce
。ForkJoin是由JDK1.7之后提供的多线程并发处理框架。ForkJoin框架的基本思想是分而治之。什么是分而治之?
冰河团队
·
2024-02-08 19:06
国内唯一连续入选Gartner,Quick BI是如何做到的?
阿里云QuickBI凭借灵活的公共云部署,私有化独立部署能力、无缝对接各类云上数据库和自建数据库、可视化搭建分析、高效数据处理能力与强
大数据计算
能力,使得在2022年持续入选GartnerABI魔力象限报告
阿里云技术
·
2024-02-08 19:23
大数据
云计算
阿里云
7.0
MapReduce
编程实例教程
在学习了
MapReduce
的使用之后,我们已经可以处理字数统计之类的统计和搜索任务,但是调查上
MapReduce
还有很多可以做的事情。
二当家的素材网
·
2024-02-08 18:11
Hadoop
教程
mapreduce
eclipse
大数据
深入理解Spark的前世今生
Spark,是一种通用的
大数据计算
框架,正如传统大数据技术Hadoop的
MapReduce
、Hive引擎,以及Storm流式实时计算引擎等。
闲云野鹤~~~
·
2024-02-08 14:01
Spark
No.2大数据入门 | 环境搭建:jdk1.8安装及环境配置
Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS,Hadoop的框架最核心的设计就是:HDFS和
MapReduce
:HDFS为海量的数据提供了存储
滚滚红尘_8133
·
2024-02-08 11:43
涤生大数据实战:基于Flink+ODPS历史累计计算项目分析与优化(上)
涤生大数据实战:基于Flink+ODPS历史累计计算项目分析与优化(一)1.前置知识ODPS(OpenDataPlatformandService)是阿里云自研的一体化
大数据计算
平台和数据仓库产品,在集团内部离线作为离线数据处理和存储的产品
涤生大数据
·
2024-02-08 08:55
数仓建模/数据架构/数据治理
大数据
flink
odps
Flink on Yarn的两种模式
首先,在集群运行时,可能会有很多的集群实例包括
MapReduce
、Spark、Flink等等,那么如果它们全基于onYarn就可以完成资源分配,减少单个实例集群的维护,提高集群的利用率。
GOD_WAR
·
2024-02-08 07:22
Flink
flink
yarn
flink
on
yarn
sqoop导入数据到hdfs
:将MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统导出数据:从Hadoop的文件系统中导出数据到关系数据库2.Sqoop的工作机制将导入和导出的命令翻译成
mapreduce
鲲鹏猿
·
2024-02-08 06:40
hdfs
sqoop
hadoop
6.824-Lab 1:
MapReduce
lab1链接:6.824Lab1:
MapReduce
(mit.edu)介绍在这个实验中,你将构建一个
MapReduce
系统。
向来痴_
·
2024-02-08 06:20
mapreduce
大数据
MapReduce
的类型与格式
MapReduce
数据处理模型:map和reduce函数的输入和输出时键值对。
Vechace
·
2024-02-08 05:31
Spark Standalone 集群配置
ApacheMesos-一个通用的集群管理器,也可以运行Hadoop
MapReduce
和服务应用程序。(已弃用)HadoopYARN-Hado
董可伦
·
2024-02-07 23:01
Spark
spark
大数据
分布式
Hadoop分布式计算实验踩坑实录及小结
目录Hadoop分布式计算实验踩坑实录及小结踩坑实录Hadoop学习Hadoop简介HDFSSomeconcepts
MapReduce
主要配置文件集群搭建来源与引用Hadoop分布式计算实验踩坑实录及小结踩坑实录单机
小童同学_
·
2024-02-07 10:08
HIT
hadoop
分布式
ubuntu
java
Hive Sql优化记录
该SQL是一个主表leftjoin多个子表(joinkey是一样的),分别查看了采用Hive执行和Spark执行的日志,具体如下:Hive:只有一个
MapReduce
过程,应该是在Map阶段同时读取了4
风筝flying
·
2024-02-07 07:40
ACK One Argo工作流:实现动态 Fan-out/Fan-in 任务编排
动态DAGFan-outFan-in也可以理解为
MapReduce
。每个子任
阿里云云原生
·
2024-02-07 06:51
阿里云
云原生
容器服务
数据仓库-Hive基础(二)Hive 的基本概念
其本质是将SQL转换为
MapReduce
的任务进行运算,底层由HDFS来提供数据的存储,说白了hive可以理解为一个将SQL转换为
MapReduce
的任务的工具,甚至更进一步可以说hive就是一个
MapReduce
做个合格的大厂程序员
·
2024-02-07 03:42
Spark Chapter 8 Spark SQL
【参考以慕课网日志分析为例进入大数据Sparksql】0导读SQL:MySQL,Oracle,DB2,SQLServer在大数据平台上实现
大数据计算
:Hive/SparkSQL/SparkCore直接使用
深海suke
·
2024-02-07 01:34
Spark大数据分析与实战笔记(第三章 Spark RDD弹性分布式数据集-01)
第3章SparkRDD弹性分布式数据集章节概要传统的
MapReduce
虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是采用非循环式的数据流模型,使得在迭代计算式要进行大量的磁盘
想你依然心痛
·
2024-02-07 01:53
分布式
spark
数据分析
2024-02-06(Sqoop)
Sqoop工作机制是将导入或者导出命令翻译成
MapReduce
程序来实现。在翻译出的
MapReduce
中主要是对inputformat和outputformat进行定制。
陈xr
·
2024-02-06 23:29
随记日志
sqoop
大数据
2024-02-05(Hive)
对这种表一个简单的SELECT*都会非常的慢,哪怕LIMIT10想要看10条数据,也会走
MapReduce
流程,这个时间等待是非常不合适的。
陈xr
·
2024-02-06 14:57
随记日志
hive
Hbase 数据迁移
Hbase数据迁移可选方案对比l已验证方案操作说明:nExport&importu导出命令及示例hbaseorg.apache.hadoop.hbase.
mapreduce
.Export“表名”文件路径导出至本地文件系统
运维那些事儿
·
2024-02-06 14:44
hbase
hbase
hadoop
大数据
【Flink入门修炼】1-1 为什么要学习 Flink?
一、批处理和流处理早些年,大数据处理还主要为批处理,一般按天或小时定时处理数据,代表性的框架为
MapReduce
、Hive、Spark等。
大数据王小皮
·
2024-02-06 07:29
Flink
入门修炼
flink
学习
大数据
Apache Hadoop
ApacheHadoop_狭义上说,Hadoop指Apache一款java语言开发的开源框架,它的核心组件有:HDFS(分布式文件系统):解决海量数据存储YARN(作业调度和集群资源管理的框架):解决资源任务调度
MAPREDUCE
VincentLeon
·
2024-02-06 05:28
PySpark(三)RDD持久化、共享变量、Spark内核制度,Spark Shuffle
Spark为什么比
MapReduce
快?Spark并行度SparkShuffleHashShuffleSortShuffleRDD持久化RDD的数据是过程数据RDD之间进行
独憩
·
2024-02-06 03:43
PySpark
大数据
python
分布式
spark
所有HDFS磁盘数据存储不均情况的终极处理方案
该值不能设置很大,否则会造成
MapReduce
程序执行缓
二百四十九先森
·
2024-02-05 16:08
Hadoop核心技术
磁盘
存储
不均
wordcount
单词计数
大数据平台_大数据应用场景有哪些
大数据时代的出现,简单的讲是海量数据同完美计算能力结合的结果,确切的说是移动互联网、物联网产生了海量的数据,
大数据计算
技术完美地解决了海量数据的收集、存储、计算、分析的问题。
思迈特Smartbi
·
2024-02-05 16:06
数据挖掘
大数据
人工智能
数据分析
计算机毕业设计hadoop+spark+hive小说数据分析可视化大屏 小说推荐系统 小说爬虫 小说大数据 机器学习 知识图谱 小说网站 大数据毕业设计
流程1.爬取17k的小说数据约5-10万,存入mysql数据库;2.使用
mapreduce
对mysql中的小说数据集进行数据清洗,转为.csv文件上传至hdfs文件系统;3.根据.csv文件结构,使用hive
计算机毕业设计大神
·
2024-02-05 14:48
工作流调度器azkaban(一) 简介与安装部署
为什么需要工作流调度系统一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序,java程序,
mapreduce
程序、hive脚本等各任务单元之间存在时间先后及前后依赖关系为了很好地组织起这样的复杂执行计划
做个合格的大厂程序员
·
2024-02-05 13:11
6.0
MapReduce
服务使用教程
在学习了之前的
MapReduce
概念之后,我们应该已经知道什么是Map和Reduce,并了解了他们的工作方式。本章将学习如何使用
MapReduce
。
二当家的素材网
·
2024-02-05 13:29
Hadoop
教程
mapreduce
大数据
在 CDH 中调优 Apache Hive on Spark
Spark上的Hive在提供相同功能的同时提供比
MapReduce
上的Hive更好的性能。在Spark上运行Hive不需要更改用户查询。
海阔天空&沫语
·
2024-02-05 09:27
大数据/架构
hive
hadoop
spark
大数据 - Spark系列《三》- 加载各种数据源创建RDD
Spark系列文章:大数据-Spark系列《一》-从Hadoop到Spark:
大数据计算
引擎的演进-CSDN博客大数据-Spark系列《二》-关于Spark在Idea中的一些常用配置-CSDN博客目录3.1
王哪跑nn
·
2024-02-05 09:28
spark
大数据
spark
分布式
大数据 - Spark系列《四》- Spark分布式运行原理
Spark系列文章:大数据-Spark系列《一》-从Hadoop到Spark:
大数据计算
引擎的演进-CSDN博客大数据-Spark系列《二》-关于Spark在Idea中的一些常用配置-CSDN博客大数据
王哪跑nn
·
2024-02-05 08:54
spark
大数据
分布式
spark
3.0 Hadoop 概念
Hadoop主要包含HDFS和
MapReduce
两大组件,HDFS负责分布储存数据,MapRed
二当家的素材网
·
2024-02-05 06:38
Hadoop
教程
hadoop
大数据
分布式
CDH5.X中使用Sqoop导数据报Cannot run program “mysqldump“: error=2, No such file or director
一、背景CHD5.16环境中,使用sqoop从MySQL中进行ETL导数据到hdfs过程中,报了如下错误:20/12/2213:58:48INFO
mapreduce
.Job:TaskId:attempt
江畔独步
·
2024-02-05 01:49
hadoop
HIVE
--------hive数据仓库hive底层执行引擎有
MapReduce
TezSpark压缩GZIPLZOSnappyBZIP2等存储TextFileSequenceFileRCFileORCParquetUDF
Yagami_
·
2024-02-05 00:23
【读红宝书(一)】背景知识
过去十年引起广泛关注的数据模型是
MapReduce
,但
MapReduce
不是一种具有普适性的架构。相反,
MapReduce
市场已经转变为HDFS市场,并且似乎准备成为关系型SQL市场。
三半俊秀
·
2024-02-04 23:41
Flink1.18.0集成Yarn-session模式部署
上次部署了Hadoop集群Hadoop3.3.6(HDFS、YARN、
MapReduce
)完全分布式集群安装搭建这次集成下flinkYARN上部署的过程是:客户端把Flink应用提交给Yarn的ResourceManager
china-zhz
·
2024-02-04 21:34
flink
yarn
hadoop
大数据
Hadoop3.3.6(HDFS、YARN、
MapReduce
)完全分布式集群安装搭建
目录一、节点部署角色目录二、下载软件三、基础设施1、安装必要插件2、设置IP及主机名3、时间同步4、jdk安装5、ssh免密登录四、Hadoop部署1、目录及环境变量准备2、安装3、修改配置文件4、分发文件5、启动hadoop集群6、集群部署验证一、节点部署角色目录节点ipNNSNNDNRMNMHSnode1192.168.88.11√√node2192.168.88.12√√√√node3192
china-zhz
·
2024-02-04 21:33
hdfs
mapreduce
hadoop
yarn
HDFS常用命令
将测试文件内容上传到文件系统上bin/hdfsdfs-putwc.input/user/anna/input查看上传的文件是否正确bin/hdfsdfs-cat/user/anna/input/wc.input运行
mapreduce
须臾之北
·
2024-02-04 18:41
MapReduce
执行过程
一:执行流程
MapReduce
存在以下4个独立的实体。
HenlyX
·
2024-02-04 15:12
大数据技术未来发展前景及趋势分析
Spark:Spark是一个兼容Hadoop数据源的内存数据处理平台,运行速度相比于Hadoop
MapReduce
更快。
丨程序之道丨
·
2024-02-04 12:54
子雨大数据之Spark入门教程---Spark入门:RDD的设计与运行原理1.3
Spark的核心是建立在统一的抽象RDD之上,使得Spark的各个组件可以无缝进行集成,在同一个应用程序中完成
大数据计算
任务。
千寻~
·
2024-02-04 06:38
spark
rdd
Hadoop大数据实战系列文章之Hive
Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,Hive定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户查询数据可以将sql语句转换为
MapReduce
测试帮日记
·
2024-02-04 05:45
大数据环境搭建(一)-Hive
1hive介绍由Facebook开源的,用于解决海量结构化日志的数据统计的项目本质上是将HQL转化为
MapReduce
、Tez、Spark等程序Hive表的数据是HDFS上的目录和文件Hive元数据metastore
xfchn多多学习学习
·
2024-02-03 20:42
大数据
大数据
hive
hadoop
Hadoop框架下
MapReduce
中的map个数如何控制
一个job的map阶段并行度由客户端在提交job时决定客户端对map阶段并行度的规划基本逻辑为:一、将待处理的文件进行逻辑切片(根据处理数据文件的大小,划分多个split),然后每一个split分配一个maptask并行处理实例二、具体切片规划是由FileInputFormat实现类的getSplits()方法完成切分规则如下:1.简单地按照文件的内容长度进行切片2.切片大小默认是datanode
piziyang12138
·
2024-02-03 20:13
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他