E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
大数据计算-MapReduce
30 条架构原则
Srinath撰写了两本关于
MapReduce
和许多技术文章的书。他获得了博士学位。来自美国印第安纳大学。Srinath通过不懈的努力最终总结出了3
佩哥说Java
·
2023-06-14 23:54
架构
Apache 的架构师们遵循的 30 条设计原则
Srinath撰写了两本关于
MapReduce
和许多技术文章的书。他获得了博士学位。来自美国印第安纳大学。Srinath通过不懈的努力最终总结出了3
北海宇微
·
2023-06-14 23:23
Hadoo 之 Hive
etc/hadoop/core-site.xmletc/hadoop/hdfs-site.xmletc/hadoop/mapred-site.xmletc/hadoop/yarn-site.xmlFQA
mapreduce
examples
zhixingheyi_tian
·
2023-06-14 22:44
hive
hadoop
mapreduce
Hbase的使用技巧
进入hbaseshell查询一个表的数据量时比较耗时且容易刷屏,使用hbase自带的工具可以直接查询hbaseorg.apache.hadoop.hbase.
mapreduce
.RowCounter'namespace
MIDSUMMER_yy
·
2023-06-14 16:39
大数据
大数据
hbase
Hadoop面试题十道
它基于Google的
MapReduce
和Google文件系统(GFS)的思想,旨在解决大数据量的处理和分析问题。问题2:Hadoop的核心组件有哪些?
MIDSUMMER_yy
·
2023-06-14 15:34
hadoop
mapreduce
大数据
在MaxCompute中利用bitmap进行数据处理
本文给出了一个使用MaxCompute
MapReduce
开发一个对不同日期活跃用户ID进行bitmap编码和计算的样例。供感兴趣的用户进一步了解、分析,并应用在自己的场景下。
·
2023-06-14 15:28
java大数据数据处理
笔记:分布式大数据技术原理(二)构建在 Hadoop 框架之上的 Hive 与 Impala
”“”有了
MapReduce
,Tez和Spark之后,程序员发现,
MapReduce
的程序写起来真麻烦。他们希望简化这个过程。这就好比你有了汇编语言,虽然你几乎什么都能干了,但是你还是觉得繁琐。
WeeeicheN
·
2023-06-14 10:51
Big
Data
big
data
hive
impala
大数据开发之Hive案例篇13:Hive SQL 常见参数调整
二.解决方案以下是常见的调参:#指定队列set
mapreduce
.job.queuename=root.default;#在只有map的作业结束时合并小文件,默认开启true;sethive.merge.mapfile
只是甲
·
2023-06-14 10:50
大数据和数据仓库
#
Hive
hive
大数据
sql
hive参数调整
MIT 6.824 lab distributed system 分布式系统(1)----lab1
MapReduce
https://youtu.be/cQP8WApzIQQ概念为什么需要分布式系统?highperformanceparallelism:分布式系统可以实现CPU、内存、硬盘的并行运行faulttolerancephysical:security/isolated分布式系统的困难concurrency:各个并行的部分之间的complexinteractions以及各种时间依赖的事务partialfa
back2childhood
·
2023-06-14 05:38
java
开发语言
用python辅助理解
mapreduce
的sort排序
概念简介map含义是映射,即把一个值A变成另一个值B,这里的是B往往是被压缩后的信息。比如要从一组字符串中找出最长字符串,那么我需要先计算每个字符串的长度,那么这里的长度,就是把字符串(值A)变成整数表示的长度(值B)。reduce含义是归约,即把多个值合并在一起。比如第一步map得到了很多个单词的出现次数:apple3,sugar5,apple4,fox1,那么reduce就是进一步聚合为:ap
Paycation
·
2023-06-13 15:50
MapReduce
【数据倾斜的优化】
比如,我们有1000w条数据(0~10开头)需要进行WordCount,也就是统计每个数字出现的次数,但是由于数据分布很不均匀(5这个数字就占了910w左右的样子),这个时候我们如果来写一个
MApReduce
让线程再跑一会
·
2023-06-13 13:12
Hadoop
mapreduce
大数据
MapReduce
【小文件的优化-Sequence文件】
在实际开发中,我们肯定希望提高
MapReduce
的工作效率,其实提高
MapReduce
的效率,无非就是提高Map阶段和Reduce阶段的效率。
让线程再跑一会
·
2023-06-13 13:42
Hadoop
mapreduce
大数据
ZooKeeper
前言Hadoop的三大件(HDFS、
MapReduce
和Yarn)基本上是学完了,剩下时间就是把《Hadoop权威指南》多啃几遍就行了。今天开干ZooKeeper!
让线程再跑一会
·
2023-06-13 13:41
Zookeeper
java-zookeeper
zookeeper
hadoop
spark的shuffle 和原理分析
1.概述shuffle就是对数据进行重组,由于分布式计算的特性和要求,在实现细节上更加繁琐和复杂.在
MapReduce
框架,Shuffle是连接Map和Reduce之间的桥梁,Map阶段通过shuffle
c062197eecd2
·
2023-06-13 12:37
猿辅导基于 EMR StarRocks 的 OLAP 演进之路
虽然是用Hive、
MapReduce
做离线的批量的ETL,但是为了保证用户交互足够快、延迟足够短,还是会把
·
2023-06-13 11:49
猿辅导基于 EMR StarRocks 的 OLAP 演进之路
虽然是用Hive、
MapReduce
做离线的批量的ETL,但是为了保证用户交互足够快、延迟足够短,还是会把
·
2023-06-13 10:09
MaxCompute 发布“物化视图智能推荐”,CU算力节省14%
阿里云MaxCompute在飞天发布时刻推出了“物化视图智能推荐”功能,这一功能的发布将节省CU算力14%,进一步提升了MaxCompute在
大数据计算
能力方面的领先地位。
·
2023-06-13 10:08
Apache Hadoop概述
Hadoop的核心是HDFS(HadoopDistributedFileSystem)和
MapReduce
编程模型。HDFS是一个高度容错性的系统,可以在数百台服务器上存储PB级别的数据。
严同学正在努力
·
2023-06-13 09:14
大学课程
hadoop
apache
mapreduce
高级网络计算模式复习大纲
内容路由实现机制DNS重定向机制的描述P2P网络P2P的概念DHT的概念Pastry算法和Chord算法的比较网格计算什么是网格网格的五层沙漏模型OSGA云计算与网格计算的差别Hadoop基本原理描述
MapReduce
Caramel_biscuit
·
2023-06-13 08:43
高级网络计算模式
网络
p2p
网络协议
MapReduce
r之Combiner(归约处理)
Commbiner相当于本地的Reducer计算模式,但是并不是所有场合都适合,总结一下都是什么场合适合用。作用因为Map产生了太多的输出,为了减少RPC传输,在本地进行一次类似于Reduce操作,进行累加,再将累加的值传给Reduce。注意:因为Combiner是可插拔的,所以添加Combiner不能影响最终的计算机过,Combiner应该适用于那些,Reduce输入和输出key/value类型
末央酒
·
2023-06-13 04:30
大数据组件笔记 -- Hadoop
3.2HDFSShell3.3HDFS客户端3.4HDFS数据流3.4.1写数据流程3.4.2读数据流程3.5NN和2NN3.5.1工作机制3.5.2集群安全模式3.6DN3.6.1工作机制3.6.2扩容3.6.3退役四、
MapReduce
4.1
L小Ray想有腮
·
2023-06-13 04:02
BigData
hive最近的学习汇总-20221110
Hadoop构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据:可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能;可以将SQL语句转换为
MapReduce
孔胖
·
2023-06-13 03:05
数据库
hive
Mac上的Hive安装和配置
懒人安装Hive大法,踩了n多坑...1、安装Hadoop因为Hadoop对伪程序猿(Java学的不够好)不友好,所以通过Hive来启动
MapReduce
任务,简单好上手。
amberwest
·
2023-06-13 03:26
Hive
hive
hadoop
big
data
每周一书《Spark与Hadoop大数据分析》分享!
的基础知识,又深入探讨所有Spark组件——SparkCore、SparkSQL、DataFrame、DataSet、普通流、结构化流、MLlib、Graphx,以及Hadoop的核心组件(HDFS、
MapReduce
BAO7988
·
2023-06-12 23:37
大数据
大数据
大数据分析
大数据开发
大数据学习
spark
安装和使用分布式HDFS系统在CentOS 8上进行文件上传操作
3:创建一个普通用户来运行HadoopHadoop概念Hadoop整体设计HDFSHDFS的节点命名节点(NameNode)数据节点(DataNode)副命名节点(SecondaryNameNode)
MapReduce
Waldocsdn
·
2023-06-12 22:16
【Linux】
#
———Linux相关环境搭建
hdfs
hadoop
分布式
mapreduce
优化方法
1)数据输入:1)合并小文件:在执行mr任务前将小文件进行合并,大量的小文件会产生大量的map任务,增大map任务装载次数,而任务的装载比较耗时,从而导致mr运行较慢。2)采用ConbinFileInputFormat来作为输入,解决输入端大量小文件场景。2)map阶段1)减少spill次数:通过调整io.sort.mb及sort.spill.percent参数值,增大触发spill的内存上限,减
小布先生~噫嘘唏
·
2023-06-12 20:05
hadoop知识点
mapreduce
大数据
hadoop
hdfs
java
hadoop-深入理解
MapReduce
(一)-Job提交流程
1.Job提交先图解大致流程,心里有大概框架。首先第一步进入waitForCompletion函数中的submit函数进入sumit函数,重点关注connect函数初始化总结来说,上面过程就是建立连接,创建提交job的代理,判断是local还是yarn客户端然后我们回到submit函数,继续看connect下面的部分进入submitJobInternal函数分析checkSpecs函数,检查输出路
AiryView
·
2023-06-12 16:05
大数据
hadoop
mapreduce
大数据
源码
Hadoop之
MapReduce
概述
MapReduce
概述
MapReduce
定义
MapReduce
优缺点
MapReduce
核心思想
MapReduce
进程
MapReduce
编程规范MapTask并行度决定机制ReduceTask并行度决定机制
yanghaoplus
·
2023-06-12 16:33
大数据
hadoop
mapreduce
大数据
Apache Pig教程_编程入门自学教程_菜鸟教程-免费教程分享
教程简介ApachePig是apache平台下的一个免费开源项目,Pig为大型数据集的处理提供了更高层次的抽象,很多时候数据的处理需要多个
MapReduce
过程才能实现,使得数据处理过程与该模式匹配可能很困难
菜鸟一记
·
2023-06-12 15:35
笔记
MapReduce
求各年销售笔数、销售总额实验(流程+代码)
实验:求出各年销售笔数、各年销售总额原始数据:各字段说明如下:字段名类型是否能为空备注PROD_IDint否产品IDCUST_IDint否客户IDTIMEDate否日期HANNEL_IDint否渠道IDPROMO_IDint否促销IDQUANTITY_SOLDint否销售的数量(件)AMOUNT_SOLDfloat(10,2)否销售的总额(元)部分数据Map阶段:读取数据,k1为偏移量、v1为一行
浩然然然
·
2023-06-12 13:03
大数据
大数据
mapreduce
Flink 的应用场景和架构模型
一石激起千层浪,Flink开源的消息立刻刷爆朋友圈,整个
大数据计算
领域一直以来由Spark独领风骚,瞬间成为两强争霸的时代。
鸭梨山大哎
·
2023-06-12 12:58
flink
flink
16、
MapReduce
的基本用法示例-自定义序列化、排序、分区、分组和topN
Hadoop系列文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用(读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件、删除文件及目录、获取文件及文件夹属性等)-java4、HDFS-java操作类HDFSUtil及junit测试(HDFS的常见操作以及HA环境的配置)5、HDFSAPI的RESTful风格–We
一瓢一瓢的饮 alanchan
·
2023-06-12 12:36
#
hadoop专栏
mapreduce
hadoop
大数据
big
data
分布式
23、hadoop集群中yarn运行
mapreduce
的内存、CPU分配调度计算与优化
Hadoop系列文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用(读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件、删除文件及目录、获取文件及文件夹属性等)-java4、HDFS-java操作类HDFSUtil及junit测试(HDFS的常见操作以及HA环境的配置)5、HDFSAPI的RESTful风格–We
一瓢一瓢的饮 alanchan
·
2023-06-12 12:36
#
hadoop专栏
hadoop
mapreduce
大数据
性能优化
bigdata
曙光大数据课程设计----基于Spark和
MapReduce
实现TopN
题目:基于分布式计算框架实现TopN主要内容:1、获取蜀国武将中武力值最高的5位,即通过分布式计算框架实现从原始数据查询出武力最高的Top5。2、原始数据如下:序号姓名武力值国家1刘备68蜀国2马超90蜀国3黄忠91蜀国4魏延76蜀国5姜维92蜀国6关羽96蜀国7严颜78蜀国8孟达64蜀国9张飞88蜀国10马谡76蜀国11赵云95蜀国12法正88蜀国3、预期结果如下:6关羽96蜀国11赵云95蜀国
chaRon522
·
2023-06-12 11:13
大数据平台架构
Hive基础
本质是:将HQL转化成
MapReduce
程序流程图架构原理架构图用户接口(Client):CLI(hiveshell)、JDBC/ODBC(java访问hive)、WebUI(浏览器访问hive)元数据
CJ21
·
2023-06-12 10:10
分布式系统面试连环炮
他们有共同的一个问题,就是都没怎么搞过分布式系统,现在互联网公司,一般都是做分布式的系统,大家都不是做底层的分布式系统、分布式存储系统hadoophdfs、分布式计算系统hadoop
mapreduce
/
kevin0016
·
2023-06-12 08:14
区块链世界的大数据入门之zk
MapReduce
简介
ZK大数据堆栈可扩展到任何分布式计算框架,从
MapReduce
到RDD再到分布式SQL。使
mutourend
·
2023-06-12 01:18
隐私应用
零知识证明
2.4 IDEA开发词频统计项目
一、词频统计准备工作单词计数是学习分布式计算的入门程序,有很多种实现方式,例如
MapReduce
;使用Spark提供的RDD算子可以更加轻松地实现单词计数。
zl202111
·
2023-06-12 00:33
intellij-idea
spark
scala
腾讯云轻量应用服务器和云服务器区别详细说明
轻量应用服务器适合中小企业或个人开发者搭建企业官网、博客论坛、微信小程序或开发测试环境,云服务器CVM适合更复杂如高并发网站、
大数据计算
、机器学习等复杂应用场景。
gla2018
·
2023-06-11 18:33
腾讯云
腾讯云
服务器
阿里云
kylin架构
构建技术主要为
MapReduce
(Spark目前在beta版本)。构建后的Cube保存在右侧存储引擎中,目前Kylin默认的存储为ApacheHBas
西二旗老司机
·
2023-06-11 11:31
Hadoop技术
狭义上说,Hadoop指Apache这款开源框架,它的核心组件有:HDFS(分布式文件系统):解决海量数据存储
MAPREDUCE
(分布式运算编程框架):解决海量数据计算YARN(作业调
章鱼哥TuNan&Z
·
2023-06-11 09:01
#
hadoop
mapreduce
hadoop
hdfs
MapReduce
共享单车练习
MapReduce
本机运行文章目录
MapReduce
本机运行✅前置工作1.配置JDK2.创建Java项目3.导入所需JAR包编程实现以下题目1.统计各个月份共享单车使用的总数2.统计不同天气情况下共享单车使用的总数
vulnerable marker
·
2023-06-11 09:00
大数据开发技术
mapreduce
eclipse
java
大数据
centos
MapReduce
框架
TextInputFormat1)FileInputFormat实现类思考:在运行
MapReduce
程序时,输入的文件格式包括:基于行的日志文件、二进制格式文件、数据库表等。
molecule_jp
·
2023-06-11 03:49
mapreduce
大数据
后端
Hadoop集群简介
Hadoop集群包括两个集群:HDFS集群、YARN集群两个集群逻辑上分离(两个集群互相之间没有依赖、互不影响)、通常物理上在一起(某些角色进程往往部署在同一台物理服务器上)两个集群都是标准的主从架构集群
MapReduce
尤所不同
·
2023-06-11 03:43
hadoop
hadoop
大数据
hdfs
开源大数据平台 E-
MapReduce
Serverless StarRocks 产品介绍
摘要:本文将分享阿里云与StarRocks社区合作打造的云上StarRocks极速湖仓的云原生产品实践。主要包括四个部分,第一部分介绍StarRocks全托管形态,以及免运维服务的OLAP云产品;第二部分介绍StarRocksManager的实例管理、诊断分析、元数据管理、安全中心等功能;第三部分介绍在社交、在线教育、电商等场景的使用案例;最后是对产品的长短期规划:1.StarRocks产品介绍2
阿里云云栖号
·
2023-06-10 23:18
云栖号技术分享
阿里云
云计算
大数据
Hadoop 集群 常见问题
显示INFO
mapreduce
.Job:Runningjob以后卡住不动请检查/etc/hosts里面的IP地址对应的机器名是否和真正的机器名对应修改linux机器名可以修改/etc/hostname然后
盲狙小堡垒
·
2023-06-10 11:13
Hadoop学习---9、Yarn
1、Yarn资源调度器Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而
MapReduce
等运算程序则相当于运行在于操作系统之上的应用程序。
星光下的赶路人star
·
2023-06-10 10:32
Hadoop学习
hadoop
学习
大数据
如何关闭RunJar进程
一、提出问题:Hadoop集群运行
mapreduce
程序后JPS出现很多个RunJar,如下图二、解决方法:[root@node1]#ps-ef|grepRunJar查看后台进程(可能有很多条):第二个数据就是进程代码
Pseudo-love453
·
2023-06-10 09:56
hadoop
linux
大数据
分布式
Permission denied: user=dr.who, access=READ_EXECUTE, inode=“/tmp“:root:supergroup:drwxrwx---
该问题其实是一个权限问题,可能会导致运行“hadoopjar”命令时报错;
MapReduce
工件,中间数据将保存在该目录下。
MapReduce
作业执行完成后
Pseudo-love453
·
2023-06-10 09:56
linux
运维
hadoop
分布式
大数据
Hive架构原理以及部署教程
了解Hive和RDBMS的对比Hive架构原理Hive架构原理-知乎Hive是基于Hadoop的数据仓库工具,它提供了类SQL查询语言HQL(HiveQueryLanguage),可以将SQL语句转化为
MapReduce
哈都婆
·
2023-06-10 09:30
hadoop搭建管理教程
hadoop
hive
大数据
上一页
39
40
41
42
43
44
45
46
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他