E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
mapreduce运行日志
Spark
简介高效性基于内存Spark比
MapReduce
快100倍易用性函数式编程代码体积小通用性用于批处理、交互式查询(SparkSQL)、实时流处理(SparkStreaming)、机器学习(SparkMLlib
mengml_smile
·
2023-06-16 12:46
bigdata
spark
大数据
hadoop
大数据学习记录(hadoop hive flume azkaban sqoop)
大数据学习记录(hadoophiveflumeazkabansqoop)1.hadoop对海量数据进行分布式处理2.核心组件:HDFS(分布式文件系统)、YARN(运算资源调度系统)、
MAPREDUCE
左上晨
·
2023-06-16 10:58
大数据
hadoop
hive
flume
azkaban
【大数据面试】【项目开发经验】Hadoop、Flume、Kafka、Hive、MySQL、Sqoop、Azkaban、Spark...
主要内容:框架层面的调优、业务经验一、Hadoop1、Hadoop基准测试(HDFS的读写性能、
MapReduce
的计算能力测试)(1)测试内容:文件上传下载的时间(2)服务器有几个硬盘插槽2/4块问题
哥们要飞
·
2023-06-16 10:57
hadoop
大数据
hive
面试
flume
Spark——(Spark简介,Spark 与 Hadoop,Spark系统架构)
Spark实现了高效的DAG执行引擎,可以通过基于内存来高效处理数据流;与
MapReduce
相比,Spark基于内存的运算要快100倍以上,基于硬盘的运算也要快10倍以上。
想做CTO的任同学...
·
2023-06-16 06:44
Spark
java
开发语言
大数据
spark
系统架构
Spark基础入门
---针对大规模数据处理的统一分析引擎补充:spark是基于hadoop基础之上的改进,不同于
mapreduce
的是Jo
我家浪猫初长成
·
2023-06-16 03:00
Hive调优
1、Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用
MapReduce
计算。
码戈
·
2023-06-16 01:13
docker命令(一) —— docker logs 日志输出
docker的运行的时候我们喜欢采用-d的命令来启动docker容器,这就导致了一个问题,无法直接看到docker
运行日志
,只能去后台进去找到日志文件查看,好在docker给了日志查看的命令,可以让我们很容易的看到日志的输出
Lou_Lan
·
2023-06-15 22:38
docker
docker命令
大数据技术之Hadoop(
MapReduce
)
大数据技术之Hadoop(
MapReduce
)第1章
MapReduce
概述1.1
MapReduce
定义
MapReduce
是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架
猫腻余腥
·
2023-06-15 21:12
BigData_Study
hadoop
mapreduce
大数据
hadoop(
mapreduce
) shuffle
但是在说spark之前还是很有必要把
mapreduce
的shuffle过程理一遍,以做对比。
loukey_j
·
2023-06-15 20:11
Hive_MBY_GJF
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为
MapReduce
任务进行运行。
炳烛之明科技
·
2023-06-15 20:51
Java大数据
docker查看日志的方式
docker容器启动后,可以进入以下位置查看日志(/var/lib/docker/containers/容器ID/容器ID-json.log)(进入容器内部查看日志)(3)#查看compose所有容器的
运行日志
sunyanchun
·
2023-06-15 15:22
linux
linux
mapreduce
异常分析:mr.MapredLocalTask: I/O error in redirector thread
分析执行日志,发现更新数据时,出现了
mapreduce
异常:2023-05-2702:06:13Startingtolaunchlocaltaskto
邢为栋
·
2023-06-15 13:34
Bigdata
mapreduce
mr
hadoop
Hive面试题十道
Hive将结构化数据映射到Hadoop的分布式文件系统(HDFS)上,并通过
MapReduce
任务执行查询操作。问题2:Hive的主要特性是什么?
MIDSUMMER_yy
·
2023-06-15 13:31
hive
大数据
一百二十五、Hive——hive性能优化
性能优化的参数设置一、hive性能优化sethive.vectorized.execution.enabled=false;sethive.auto.convert.join=false;--map阶段内存不足set
mapreduce
.map.memory.mb
天地风雷水火山泽
·
2023-06-15 13:00
Hive
hive
性能优化
大数据
基于
MapReduce
实现的Kmeans算法(非调库)
简单基于
MapReduce
实现了下KMeans。算法思路KMeans算法作为一种划分式的聚类算法,利用
MapReduce
进行实现的主要难点在于满足KMeans每次迭代划分过程的中间结果保存。
回炉重造P
·
2023-06-15 13:18
java
hadoop
java
大数据
hadoop
kmeans算法
Apache Zeppelin系列教程第九篇——Zeppelin NoteBook数据缓存
数据进行查询过程中,如果遇到非常复杂的sql,查询效率是非常慢比如:selectdt,count(*)fromtablegroupbydt做过数据开发的同学都知道,在hivesql查询过程中,hive会被转换为
MapReduce
诸葛子房_
·
2023-06-15 12:59
Apache
Zeppelin
apache
缓存
hive
Hadoop(CentOS)安装及
MapReduce
实现数据去重
Hadoop(CentOS)安装及
MapReduce
实现数据去重1.JDK安装1.1资源下载:下载地址:https://pan.quark.cn/s/17d7266205f9hadoop的安装包javajdk
拼搏的小浣熊
·
2023-06-15 12:28
java
Hadoop
MapReduce
hadoop
centos
mapreduce
Hive概念
本质是:将HQL转化成
MapReduce
程序1)Hive处理的数据存储在HDFS中,数据库将数据保存在块设备或者本地文件系统中。
小迷糊>_<
·
2023-06-15 11:18
大数据
hive
hadoop
mapreduce
Hive 概念与安装
本质是:将HQL转化成
MapReduce
程序Hive处理的数据存储在HDFSHive分析数据底层的实现是
MapReduce
执行程序运行在Yarn上2.hive的优缺点优点操作接口采用类SQL语法,提供快速开发的能力
wtzhm
·
2023-06-15 11:18
hive
HIVE
HIVE概述
hive安装
大数据技术之Hive:Hive基本概念
本质是:将HQL转化成
MapReduce
程序;1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是
MapReduce
3)执行程序运行在Yarn上二、Hive的优缺点优点1)操作接口采用类
浊酒南街
·
2023-06-15 11:48
大数据系列二
数据仓库工具Hive概念
文章目录Hive的产生背景及概念Hive将SQL转换为MR任务的过程数据仓库的概念Hive与RDBMS区别Hive的优缺点Hive架构Hive的产生背景及概念Hive的产生背景在Hadoop中直接使用
MapReduce
想做CTO的任同学...
·
2023-06-15 11:17
Hive
hive
数据仓库
hadoop
MapReduce
编程
Hadoop的
MapReduce
计算框架概述
MapReduce
计算框架是一种计算框架,用于计算处理大规模的数据集,他将数据分成小块,然后在集群中的多个节点上并行处理这些块
MapReduce
框架是由两个组件组成
陆卿之
·
2023-06-15 11:17
大数据
mapreduce
hadoop
大数据
HIVE概念&组件&交互方式&架构
Hive概念基于Hadoop的数据仓库工具主要是将结构化的数据文件映射为数据库表,提供类sql功能本质是将SQL转换为
mapreduce
程序1、将结构化文件和数据库表建立映射关系2、将文件列和数据库表列建立映射关系
Neighbor_L
·
2023-06-15 11:46
hadoop相关
hive
hadoop
Hive的概念
Hive概述Hive是一个基于Hadoop的数据仓库系统,它提供了类似与SQL的查询语言HiveQL,可以将结构化数据存储在Hadoop分布式文件系统中,并通过
MapReduce
进行过处理。
陆卿之
·
2023-06-15 11:15
大数据
hive
hadoop
大数据
Hadoop中
MapReduce
的执行顺序
Hadoop中
MapReduce
的执行顺序如下:InputSplit(输入拆分)
MapReduce
将文件拆分成多个块,并将其分配给不同的Mapper任务进行处理。
老人笔记
·
2023-06-15 07:26
大数据
hadoop
mapreduce
大数据
MapReduce
基础
函数式编程概念
MapReduce
程序是设计用来并行计算大规模海量数据的,这需要把工作流分划到大量的机器上去,如果组件(component)之间可以任意的共享数据,那这个模型就没法扩展到大规模集群上去了(
小小哭包
·
2023-06-15 01:14
大数据
Java
计算机
hadoop
大数据
mapreduce
HBase集群部署
HBase的运行依赖于Hadoop和ZooKeeper,HBase利用HDFS作为其文件存储系统;利用
MapReduce
处理HBase中的数据;利用ZooKeeper作为分布式应用程序协调服务,同时存储
想你依然心痛
·
2023-06-14 23:17
Linux
大数据
hbase
大数据
hadoop
30 条架构原则
Srinath撰写了两本关于
MapReduce
和许多技术文章的书。他获得了博士学位。来自美国印第安纳大学。Srinath通过不懈的努力最终总结出了3
佩哥说Java
·
2023-06-14 23:54
架构
Apache 的架构师们遵循的 30 条设计原则
Srinath撰写了两本关于
MapReduce
和许多技术文章的书。他获得了博士学位。来自美国印第安纳大学。Srinath通过不懈的努力最终总结出了3
北海宇微
·
2023-06-14 23:23
Hadoo 之 Hive
etc/hadoop/core-site.xmletc/hadoop/hdfs-site.xmletc/hadoop/mapred-site.xmletc/hadoop/yarn-site.xmlFQA
mapreduce
examples
zhixingheyi_tian
·
2023-06-14 22:44
hive
hadoop
mapreduce
Hbase的使用技巧
进入hbaseshell查询一个表的数据量时比较耗时且容易刷屏,使用hbase自带的工具可以直接查询hbaseorg.apache.hadoop.hbase.
mapreduce
.RowCounter'namespace
MIDSUMMER_yy
·
2023-06-14 16:39
大数据
大数据
hbase
Hadoop面试题十道
它基于Google的
MapReduce
和Google文件系统(GFS)的思想,旨在解决大数据量的处理和分析问题。问题2:Hadoop的核心组件有哪些?
MIDSUMMER_yy
·
2023-06-14 15:34
hadoop
mapreduce
大数据
在MaxCompute中利用bitmap进行数据处理
本文给出了一个使用MaxCompute
MapReduce
开发一个对不同日期活跃用户ID进行bitmap编码和计算的样例。供感兴趣的用户进一步了解、分析,并应用在自己的场景下。
·
2023-06-14 15:28
java大数据数据处理
笔记:分布式大数据技术原理(二)构建在 Hadoop 框架之上的 Hive 与 Impala
”“”有了
MapReduce
,Tez和Spark之后,程序员发现,
MapReduce
的程序写起来真麻烦。他们希望简化这个过程。这就好比你有了汇编语言,虽然你几乎什么都能干了,但是你还是觉得繁琐。
WeeeicheN
·
2023-06-14 10:51
Big
Data
big
data
hive
impala
大数据开发之Hive案例篇13:Hive SQL 常见参数调整
二.解决方案以下是常见的调参:#指定队列set
mapreduce
.job.queuename=root.default;#在只有map的作业结束时合并小文件,默认开启true;sethive.merge.mapfile
只是甲
·
2023-06-14 10:50
大数据和数据仓库
#
Hive
hive
大数据
sql
hive参数调整
SQL Server 创建链接服务器 链接mysql 进行数据同步
文章目录背景思路解决方案方案实施前提安装mysql链接程序创建ODBC源创建链接服务器(SqlServer)测试DBLink是否好用创建SqlServer作业运行作业查看作业
运行日志
资料与引用对我有帮助作用的资料背景一个项目的产品迭代
iml6yu
·
2023-06-14 09:40
分布式
工具
服务配置
服务器
mysql
数据库
MIT 6.824 lab distributed system 分布式系统(1)----lab1
MapReduce
https://youtu.be/cQP8WApzIQQ概念为什么需要分布式系统?highperformanceparallelism:分布式系统可以实现CPU、内存、硬盘的并行运行faulttolerancephysical:security/isolated分布式系统的困难concurrency:各个并行的部分之间的complexinteractions以及各种时间依赖的事务partialfa
back2childhood
·
2023-06-14 05:38
java
开发语言
用python辅助理解
mapreduce
的sort排序
概念简介map含义是映射,即把一个值A变成另一个值B,这里的是B往往是被压缩后的信息。比如要从一组字符串中找出最长字符串,那么我需要先计算每个字符串的长度,那么这里的长度,就是把字符串(值A)变成整数表示的长度(值B)。reduce含义是归约,即把多个值合并在一起。比如第一步map得到了很多个单词的出现次数:apple3,sugar5,apple4,fox1,那么reduce就是进一步聚合为:ap
Paycation
·
2023-06-13 15:50
MapReduce
【数据倾斜的优化】
比如,我们有1000w条数据(0~10开头)需要进行WordCount,也就是统计每个数字出现的次数,但是由于数据分布很不均匀(5这个数字就占了910w左右的样子),这个时候我们如果来写一个
MApReduce
让线程再跑一会
·
2023-06-13 13:12
Hadoop
mapreduce
大数据
MapReduce
【小文件的优化-Sequence文件】
在实际开发中,我们肯定希望提高
MapReduce
的工作效率,其实提高
MapReduce
的效率,无非就是提高Map阶段和Reduce阶段的效率。
让线程再跑一会
·
2023-06-13 13:42
Hadoop
mapreduce
大数据
ZooKeeper
前言Hadoop的三大件(HDFS、
MapReduce
和Yarn)基本上是学完了,剩下时间就是把《Hadoop权威指南》多啃几遍就行了。今天开干ZooKeeper!
让线程再跑一会
·
2023-06-13 13:41
Zookeeper
java-zookeeper
zookeeper
hadoop
spark的shuffle 和原理分析
1.概述shuffle就是对数据进行重组,由于分布式计算的特性和要求,在实现细节上更加繁琐和复杂.在
MapReduce
框架,Shuffle是连接Map和Reduce之间的桥梁,Map阶段通过shuffle
c062197eecd2
·
2023-06-13 12:37
猿辅导基于 EMR StarRocks 的 OLAP 演进之路
虽然是用Hive、
MapReduce
做离线的批量的ETL,但是为了保证用户交互足够快、延迟足够短,还是会把
·
2023-06-13 11:49
猿辅导基于 EMR StarRocks 的 OLAP 演进之路
虽然是用Hive、
MapReduce
做离线的批量的ETL,但是为了保证用户交互足够快、延迟足够短,还是会把
·
2023-06-13 10:09
Apache Hadoop概述
Hadoop的核心是HDFS(HadoopDistributedFileSystem)和
MapReduce
编程模型。HDFS是一个高度容错性的系统,可以在数百台服务器上存储PB级别的数据。
严同学正在努力
·
2023-06-13 09:14
大学课程
hadoop
apache
mapreduce
高级网络计算模式复习大纲
内容路由实现机制DNS重定向机制的描述P2P网络P2P的概念DHT的概念Pastry算法和Chord算法的比较网格计算什么是网格网格的五层沙漏模型OSGA云计算与网格计算的差别Hadoop基本原理描述
MapReduce
Caramel_biscuit
·
2023-06-13 08:43
高级网络计算模式
网络
p2p
网络协议
MapReduce
r之Combiner(归约处理)
Commbiner相当于本地的Reducer计算模式,但是并不是所有场合都适合,总结一下都是什么场合适合用。作用因为Map产生了太多的输出,为了减少RPC传输,在本地进行一次类似于Reduce操作,进行累加,再将累加的值传给Reduce。注意:因为Combiner是可插拔的,所以添加Combiner不能影响最终的计算机过,Combiner应该适用于那些,Reduce输入和输出key/value类型
末央酒
·
2023-06-13 04:30
大数据组件笔记 -- Hadoop
3.2HDFSShell3.3HDFS客户端3.4HDFS数据流3.4.1写数据流程3.4.2读数据流程3.5NN和2NN3.5.1工作机制3.5.2集群安全模式3.6DN3.6.1工作机制3.6.2扩容3.6.3退役四、
MapReduce
4.1
L小Ray想有腮
·
2023-06-13 04:02
BigData
hive最近的学习汇总-20221110
Hadoop构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据:可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能;可以将SQL语句转换为
MapReduce
孔胖
·
2023-06-13 03:05
数据库
hive
Mac上的Hive安装和配置
懒人安装Hive大法,踩了n多坑...1、安装Hadoop因为Hadoop对伪程序猿(Java学的不够好)不友好,所以通过Hive来启动
MapReduce
任务,简单好上手。
amberwest
·
2023-06-13 03:26
Hive
hive
hadoop
big
data
上一页
40
41
42
43
44
45
46
47
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他