E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
大数据计算-MapReduce
一个例子带你了解
MapReduce
写在前面:博主是一只经过实战开发历练后投身培训事业的“小山猪”,昵称取自动画片《狮子王》中的“彭彭”,总是以乐观、积极的心态对待周边的事物。本人的技术路线从Java全栈工程师一路奔向大数据开发、数据挖掘领域,如今终有小成,愿将昔日所获与大家交流一二,希望对学习路上的你有所助益。同时,博主也想通过此次尝试打造一个完善的技术图书馆,任何与文章技术点有关的异常、错误、注意事项均会在末尾列出,欢迎大家通过
一头小山猪
·
2023-06-23 00:46
学习路上
#
大数据组件
mapreduce
hadoop
hdfs
Storm--简介(一)
随着越来越多的场景对Hadoop的
MapReduce
高延迟无法容忍,比如网站统计、推荐系统、预警系统、金融系统(高频交易、股票)等等,大数据实时处理解决方案(流计算)的应用日趋广泛,目前已是分布式技术领域最新爆发点
无剑_君
·
2023-06-22 22:42
Scala系列从入门到精通(一)
1、概述1.1、为什么学习ScalaSpark—新一代内存级
大数据计算
框架,是大数据的重要内容。Spark就是使用Scala编写的。因此为了更好的学习Spark,需要掌握Scala这门语言。
后端技术那点事
·
2023-06-22 19:52
Scala
大数据系列
Spark系列
scala
spark
java
大数据
大数据中台技术组件
一、平台搭建1.1.Amabari+HDP1.2.CM+CDH二、相关的技术栈数据存储:HDFS,HBase,Kudu等数据计算:
MapReduce
,Spark,Flink交互式查询:Impala,Presto
TURING.DT
·
2023-06-22 16:31
大数据
java
开发语言
再见以前说再见
大数据计算
框架复习
web方式查看hdfs目录结构的地址是:http://主机名:50070.linux下存放公钥信息的是id_rsa.pub文件,放在.ssh目录下.下列可以实现定时任务调度的包括:Crontab、Oozie、Azkaban。Hive不可以实现定时任务调度。.hadoop配置文件(如:core-site.xml、hdfs-site.xml)在${HADOOP_HOME}/etc/hadoop目录下.
亖嘁
·
2023-06-22 12:02
#
大数据计算框架
大数据
python高阶函数map,reduce总结
MapReduce
MapReduce
主要应用与分布式中分布式思想:讲一个连续的字符串转为列表,元素类型为字符串类型,将其都变成数字类型,使用分布式思想【类似于一件事一个人干起来慢,但是如果人多呢?
joJOkoin
·
2023-06-22 09:18
Apache Spark 的基本概念重点和在大数据分析中的应用
Spark最初是由加州大学伯克利分校的AMPLab开发的,目的是为了解决Hadoop
MapReduce
在迭代计算、交互式数据挖掘以及实时数据流处理等方面的性能瓶颈。
Distantfbc
·
2023-06-22 08:48
spark
大数据
hadoop
spark
分区——合理设置Map及Reduce数、复杂文件增加Map数
1、分区(1)合理设置Map及Reduce数如果
MapReduce
数据量过少,则单个的处理数据量过大;如果
MapReduce
数据量过多,则抢资源。
Distantfbc
·
2023-06-22 08:18
大数据
mapreduce
hive
hadoop
Java Fork/Join 框架
这种思想和
MapReduce
很像(input-->split-->map-->reduce-->output)主要有两步:第一、任务切分;第二、结果合并它的模型大致是这样的:线程池中的每个线程都有自己的工作队列
肥常忧伤
·
2023-06-22 08:44
java
开发语言
java 客户端操作HDFS
1、windows上部署hadoop包部署包win版本源码包zip包lib整合:共121个jar包$HADOOP_PREFIX/share/hadoop/{common,hdfs,
mapreduce
,yarn
30岁老阿姨
·
2023-06-22 07:07
Hadoop
hdfs
java
hadoop
Hive官方文档学习
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为
MapReduce
任务进行运行。
一只当归
·
2023-06-22 07:07
MapReduce
程序基本架构
MapReduce
程序是以(键/值)对的形式来处理数据的,即可以通过以下的形式来表示:map:(K1,V1)➞list(K2,V2)reduce:(K2,list(V2))➞list(K3,V3)不令人惊奇的是
小小哭包
·
2023-06-22 07:23
大数据
计算机
Java
hadoop
mapreduce
大数据
Flink流批一体计算(3):FLink作业调度
架构所有的分布式计算引擎都需要有集群的资源管理器,例如:可以把
MapReduce
、Spark程序运行在YARN集群中、或者是Mesos中。
victory0508
·
2023-06-22 06:11
Flink
flink
大数据
java
Hive中数据库和表的操作(HSQL)
数仓管理工具Hive可以将HDFS文件中的结构化数据映射成表,利用HSQL对表进行分析,HSQL的底层运行机制,默认是
MapReduce
计算,也可以替换成Spark、Tez、Flink计算结果存储在HDFS
时下握今
·
2023-06-22 05:19
大数据
hive
数据库
hadoop
企业级ChatGPT开发的三大核心内幕及案例实战(四)
MapReduce
方式把一个很大的
段智华
·
2023-06-22 04:17
ChatGPT学习
ChatGPT国内
OpenAI
ChatGPT使用
Spark 介绍(基于内存计算的大数据并行计算框架)
原因是Hadoop框架基于一个简单的编程模型(
MapReduce
),它支持可扩展,灵活,容错和成本有效的计算解决方案。
weixin_30821731
·
2023-06-22 01:02
火山引擎 EMR StarRocks 场景案例分享
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群日前,火山引擎数智平台(VeDI)旗下产品E-
MapReduce
(简称“EMR”)正式上线StarRocks集群,为企业客户带来业界领先的引擎性能和产品使用体验
·
2023-06-21 14:18
开源云服务数据库大数据
大数据大作业(课程设计)
题目:信息爬取字数统计及可视化内容及要求:配置Hadoop平台;利用爬虫技术爬取任一门户网站新闻栏目一定时间段内的新闻信息,保存为一个或多个文件并上传到Hadoop平台以本人学号命名的文件夹下;利用
MapReduce
onlywishes
·
2023-06-21 12:25
课程设计
课程设计
大数据
hadoop
hdfs
python
大数据hadoop生态体系之YARN配置和使用(13)
为上一层的
mapreduce
,spark等任务服务提供统一的资源管理和调度。
welun
·
2023-06-21 10:41
Exception: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z
学习Hadoop
MapReduce
使用的过程中报错,检查环境变量配置无误,看到很多解决方案说:C:\Windows\System32下缺少hadoop.dll,把这个文件拷贝到C:\Windows\System32
香蕉弦定李
·
2023-06-21 07:22
Flink 学习十 FlinkSQL
Flink学习十FlinkSQL1.FlinkSQL基础概念flinksql基于flinkcore,使用sql语义方便快捷的进行结构化数据处理的上层库;类似理解sparksql和sparkcore,hive和
mapreduce
1.1
C0oOder
·
2023-06-21 00:51
大数据之路
flink
学习
数据库
3.Hadoop之
MapReduce
1.
MapReduce
概述1.1
MapReduce
定义
MapReduce
是一个分布式运算程序的编程框架,用于用户开发“基于Hadoop的数据分析应用”的核心框架。
hutc_Alan
·
2023-06-20 17:55
hadoop
linux
java
flink Spark 和 Flink对比
它提出的内存计算概念让大家得以从Hadoop繁重的
MapReduce
程序中解脱出来。
但行益事莫问前程
·
2023-06-20 04:49
flink
flink
Haoop | 【05】
MapReduce
分布式计算模型简介
文章目录一、简介1、核心思想2、处理的主要事务2.1Map2.2Reduce3、工作原理3.1主要流程3.2分片、格式化数据3.3执行MapTask3.4执行Shuffle3.5执行ReduceTask3.6写入文件4、编程组件4.1InputFormat4.2OutputFormat4.3Combiner4.4Mapper4.5Reducer4.6Partitioner5、运行模式5.1本地运行
Jxiepc
·
2023-06-20 01:27
hadoop
Hadoop
MaoReduce
Hadoop学习之
MapReduce
分布式计算框架
目录一、本地模式1.新建一个本地maven项目2.修改prom依赖(maven)3.新建一个包
mapreduce
,在该包中新建三个包4.写mapper组件5.写Reducer组件6.写Driver组件7
平平无奇秃头小天才
·
2023-06-20 01:27
Hadoop学习
mapreduce
hadoop
big
data
分布式计算模式:
MapReduce
分布式计算模式:
MapReduce
前言什么是分而治之?分治法的原理抽象模型
MapReduce
工作原理
MapReduce
实践应用知识扩展:Fork-Join计算模式是什么意思呢?
海陆云
·
2023-06-20 01:56
分布式技术原理与算法解析
mapreduce
big
data
大数据
MapReduce
分布式计算框架
1、
MapReduce
分布式计算框架本章介绍了Hadoop的
MapReduce
分布式计算框架的基本概念、编程规范和词频统计实战等内容。
Distantfbc
·
2023-06-20 01:26
hadoop
mapreduce
hadoop
big
data
MapReduce
分布式计算
一、
MapReduce
分布式计算1、
MapReduce
计算模型介绍1.1理解
MapReduce
思想
MapReduce
思想在生活中处处可见。或多或少都成接触过这种思想。
章鱼哥TuNan&Z
·
2023-06-20 01:55
#
hadoop
mapreduce
hadoop
大数据
MapReduce
分布式离线计算框架
介绍:Google发布的三个产品:GoogleFileSystem/MapReduc/BigTable的详细设计论文,奠定了风靡全球的大数据算法的基础.
MapReduce
分布式离线计算框架用于大规模数据
瓶中怪
·
2023-06-20 01:25
大数据
大数据
MapReduce
分布式离线计算框架
大数据
Linux
hadoop
分布式计算框架——
MapReduce
一、
MapReduce
概述Hadoop
MapReduce
是一个分布式计算框架,用于编写批处理应用程序。编写好的程序可以提交到Hadoop集群上用于并行处理大规模的数据集。
Cynicism_Kevin
·
2023-06-20 01:24
mapreduce
hadoop
大数据
MapReduce
(分布式计算框架)
什么是
MapReduce
MapReduce
是分布式计算框架,它将大型数据操作作业分解为可以跨服务器集群并行执行的单个任务,适用于大规模数据处理场景,每个job包含Map和Reduce两部分
MapReduce
简单不过l
·
2023-06-20 01:23
Hadoop
hadoop
mapreduce
大数据
MapReduce
分布式计算(二)
MapReduce
工作流程原始数据File1T数据被切分成块存放在HDFS上,每一个块有128M大小数据块Blockhdfs上数据存储的一个单元,同一个文件中块的大小都是相同的因为数据存储到HDFS上不可变
子非我104
·
2023-06-20 01:53
mapreduce
hadoop
大数据
来聊一聊Zookeeper吧
根据
MapReduce
,于是我们有了Hadoop;根据GFS,于是我们有HDFS;根据BigTable,于是我们有了HBase。
程序源monster
·
2023-06-20 01:39
任务调度框架之oozie
一个基于工作流引擎的开源框架,由Cloudera公司贡献给Apache,提供对Hadoop
Mapreduce
、PigJobs的任务调度与协调。Oozie需要部署到JavaServlet容器中运行
陈朝辉_39f7
·
2023-06-19 20:17
Apache Flink Meetup 7.10 北京站,Flink x TiDB 专场等你来!
Flink,近年来广受欢迎,是最受认可的
大数据计算
引擎之一;TiDB作为开源的NewSQL数据库也以其优秀的横向扩展能力和高可用特点,颇受业界的好评。
·
2023-06-19 19:18
flinktidb
项目难点攻破
HBase数据倾斜及查询效率问题,Phoenix应用三、数据入库效率问题,hdfs及HBase分析,批量写入优化四、CheckPoint优化及配置,内存模型,Flink运行参数调优五、爬虫,hive表关联六、
mapreduce
SparkSql
·
2023-06-19 18:45
hadoop
hbase
大数据
数仓架构“瘦身”,Hologres 5000CU时免费试用
基于创新的HSAP架构,可以将您原先数仓架构中的OLAP系统(Greenplum、Presto、Impala、ClickHouse)、KV数据库/Serving系统(HBase、Redis)统一在一个
大数据计算
引擎中
·
2023-06-19 17:38
云计算阿里云数据仓库架构
MapReduce
分布式计算(一)
MapReduce
是Hadoop系统核心组件之一,它是一种可用于大数据并行处理的计算模型、框架和平台,主要解决海量数据的计算,是目前分布式计算模型中应用较为广泛的一种。
子非我104
·
2023-06-19 15:43
mapreduce
java
大数据
分布式入门
分布式入门前言分布式概述分布式节点通信技术分布式存储
MapReduce
Spark前言小白一枚,首先感谢本校大三时期李老师开的分布式计算课程。
长门yuki
·
2023-06-19 15:59
分布式
个人笔记
分布式
分布式计算
分布式存储
Spark01-Spark快速上手、运行模式、运行框架、核心概念
1概述Spark和HadoopHadoopHDFS(GFS:TheGoogleFileSystem)
MapReduce
总结:性能横向扩展变得容易,横向拓展:增加更多的计算节点来扩展系统的处理能力Hbase
:Concerto
·
2023-06-19 14:49
spark
大数据
hadoop
【分布式系统遨游】分布式计算
在分布式中,针对这种情况我们大概有两种计算模式:
MapReduce
和Stream,接下来
·
2023-06-19 10:09
后端分布式
大数据治理.数据储存技术
hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成
MapReduce
任务来执行。
908486905
·
2023-06-19 09:06
大数据治理
大数据
数据库
数据仓库
spark-streaming笔记
SparkStreaming笔记框架的类型:1.离线批处理:
mapreduce
、hive、SparkCore、Sparksql=》
mapreduce
spark2.SQL的交互式查询:hive、SparkSQL3
最美不过你回眸
·
2023-06-18 23:34
老师笔记
大数据处理学习笔记2.4
一、词频统计准备工作单词计数是学习分布式计算的入门程序,有很多种实现方式,例如
MapReduce
;使用Spark提供的RDD算子可以更加轻松地实现单词计数。
MISS0-0
·
2023-06-18 23:31
学习
笔记
大数据
MapReduce
学习笔记(1)
MapReduce
学习笔记1.
MapReduce
编程模型-Hadoop架构1.1Map阶段1.2Reduce阶段1.3
MapReduce
模型图2.
MapReduce
编程示例2.1
MapReduce
原理图
Hansionz
·
2023-06-18 23:00
大数据
大数据
hadoop
java
mapreduce
Hbase的bulkload流程与实践
Bulkload流程与实践1.案例一:(1)说明与注意事项(2)自我实践2.案例二:(1)MR生成HFile文件(2)HFile入库到HBase3.案例三:用Scala程序通过Spark完成一、前言 通常
MapReduce
小强签名设计
·
2023-06-18 21:56
hbase
spark
hbase
hadoop
大数据
bigdata.com《
大数据计算
框架》样题
容量单位从小到大的顺序依次为:TB、PB、EB、ZB。.用于设置环境变量的文件是.bash_profile.将HDFS文件下载到本地的命令是hadoopfs-get。.不需要Java环境的支持是MySQL.通配符是用于模糊匹配的特殊字符,可以在关键字查询中使用。在MySQL中,通配符主要有两种:%和_。其中,%代表匹配任意多个字符(包括0个字符),_则代表匹配单个字符。.HBase、Redis和M
亖嘁
·
2023-06-18 17:13
专业课
大数据计算框架
数据中心网络的电路交换域
数据中心与Internet不同,流量类型相对固定,典型的如
mapreduce
,rpc,rdma,及各类存储。进一步归纳,可分为两类:短突发消息:分组交换。持续块数据:电路交换。
dog250
·
2023-06-18 17:05
网络
Doris之资源管理
资源管理为了节省Doris集群内的计算、存储资源,Doris需要引入一些其他外部资源来完成相关的工作,如Spark/GPU用于查询,HDFS/S3用于外部存储,Spark/
MapReduce
用于ETL,
墨卿风竹
·
2023-06-18 15:51
spark
hadoop
big
data
hadoop基础(二)
mysqlmysql-connector-java5.1.47org.apache.hadoophadoop-common3.1.1org.apache.hadoophadoop-hdfs3.1.1org.apache.hadoophadoop-
mapreduce
-client-core3.1.1org.apache.hadoopha
子非我104
·
2023-06-18 08:20
hadoop
java
大数据
上一页
37
38
39
40
41
42
43
44
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他