E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
【MapReduce】
hive最近的学习汇总-20221110
Hadoop构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据:可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能;可以将SQL语句转换为
MapReduce
孔胖
·
2023-06-13 03:05
数据库
hive
Mac上的Hive安装和配置
懒人安装Hive大法,踩了n多坑...1、安装Hadoop因为Hadoop对伪程序猿(Java学的不够好)不友好,所以通过Hive来启动
MapReduce
任务,简单好上手。
amberwest
·
2023-06-13 03:26
Hive
hive
hadoop
big
data
每周一书《Spark与Hadoop大数据分析》分享!
的基础知识,又深入探讨所有Spark组件——SparkCore、SparkSQL、DataFrame、DataSet、普通流、结构化流、MLlib、Graphx,以及Hadoop的核心组件(HDFS、
MapReduce
BAO7988
·
2023-06-12 23:37
大数据
大数据
大数据分析
大数据开发
大数据学习
spark
安装和使用分布式HDFS系统在CentOS 8上进行文件上传操作
3:创建一个普通用户来运行HadoopHadoop概念Hadoop整体设计HDFSHDFS的节点命名节点(NameNode)数据节点(DataNode)副命名节点(SecondaryNameNode)
MapReduce
Waldocsdn
·
2023-06-12 22:16
【Linux】
#
———Linux相关环境搭建
hdfs
hadoop
分布式
mapreduce
优化方法
1)数据输入:1)合并小文件:在执行mr任务前将小文件进行合并,大量的小文件会产生大量的map任务,增大map任务装载次数,而任务的装载比较耗时,从而导致mr运行较慢。2)采用ConbinFileInputFormat来作为输入,解决输入端大量小文件场景。2)map阶段1)减少spill次数:通过调整io.sort.mb及sort.spill.percent参数值,增大触发spill的内存上限,减
小布先生~噫嘘唏
·
2023-06-12 20:05
hadoop知识点
mapreduce
大数据
hadoop
hdfs
java
hadoop-深入理解
MapReduce
(一)-Job提交流程
1.Job提交先图解大致流程,心里有大概框架。首先第一步进入waitForCompletion函数中的submit函数进入sumit函数,重点关注connect函数初始化总结来说,上面过程就是建立连接,创建提交job的代理,判断是local还是yarn客户端然后我们回到submit函数,继续看connect下面的部分进入submitJobInternal函数分析checkSpecs函数,检查输出路
AiryView
·
2023-06-12 16:05
大数据
hadoop
mapreduce
大数据
源码
Hadoop之
MapReduce
概述
MapReduce
概述
MapReduce
定义
MapReduce
优缺点
MapReduce
核心思想
MapReduce
进程
MapReduce
编程规范MapTask并行度决定机制ReduceTask并行度决定机制
yanghaoplus
·
2023-06-12 16:33
大数据
hadoop
mapreduce
大数据
Apache Pig教程_编程入门自学教程_菜鸟教程-免费教程分享
教程简介ApachePig是apache平台下的一个免费开源项目,Pig为大型数据集的处理提供了更高层次的抽象,很多时候数据的处理需要多个
MapReduce
过程才能实现,使得数据处理过程与该模式匹配可能很困难
菜鸟一记
·
2023-06-12 15:35
笔记
MapReduce
求各年销售笔数、销售总额实验(流程+代码)
实验:求出各年销售笔数、各年销售总额原始数据:各字段说明如下:字段名类型是否能为空备注PROD_IDint否产品IDCUST_IDint否客户IDTIMEDate否日期HANNEL_IDint否渠道IDPROMO_IDint否促销IDQUANTITY_SOLDint否销售的数量(件)AMOUNT_SOLDfloat(10,2)否销售的总额(元)部分数据Map阶段:读取数据,k1为偏移量、v1为一行
浩然然然
·
2023-06-12 13:03
大数据
大数据
mapreduce
16、
MapReduce
的基本用法示例-自定义序列化、排序、分区、分组和topN
Hadoop系列文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用(读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件、删除文件及目录、获取文件及文件夹属性等)-java4、HDFS-java操作类HDFSUtil及junit测试(HDFS的常见操作以及HA环境的配置)5、HDFSAPI的RESTful风格–We
一瓢一瓢的饮 alanchan
·
2023-06-12 12:36
#
hadoop专栏
mapreduce
hadoop
大数据
big
data
分布式
23、hadoop集群中yarn运行
mapreduce
的内存、CPU分配调度计算与优化
Hadoop系列文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用(读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件、删除文件及目录、获取文件及文件夹属性等)-java4、HDFS-java操作类HDFSUtil及junit测试(HDFS的常见操作以及HA环境的配置)5、HDFSAPI的RESTful风格–We
一瓢一瓢的饮 alanchan
·
2023-06-12 12:36
#
hadoop专栏
hadoop
mapreduce
大数据
性能优化
bigdata
曙光大数据课程设计----基于Spark和
MapReduce
实现TopN
题目:基于分布式计算框架实现TopN主要内容:1、获取蜀国武将中武力值最高的5位,即通过分布式计算框架实现从原始数据查询出武力最高的Top5。2、原始数据如下:序号姓名武力值国家1刘备68蜀国2马超90蜀国3黄忠91蜀国4魏延76蜀国5姜维92蜀国6关羽96蜀国7严颜78蜀国8孟达64蜀国9张飞88蜀国10马谡76蜀国11赵云95蜀国12法正88蜀国3、预期结果如下:6关羽96蜀国11赵云95蜀国
chaRon522
·
2023-06-12 11:13
大数据平台架构
Hive基础
本质是:将HQL转化成
MapReduce
程序流程图架构原理架构图用户接口(Client):CLI(hiveshell)、JDBC/ODBC(java访问hive)、WebUI(浏览器访问hive)元数据
CJ21
·
2023-06-12 10:10
分布式系统面试连环炮
他们有共同的一个问题,就是都没怎么搞过分布式系统,现在互联网公司,一般都是做分布式的系统,大家都不是做底层的分布式系统、分布式存储系统hadoophdfs、分布式计算系统hadoop
mapreduce
/
kevin0016
·
2023-06-12 08:14
区块链世界的大数据入门之zk
MapReduce
简介
ZK大数据堆栈可扩展到任何分布式计算框架,从
MapReduce
到RDD再到分布式SQL。使
mutourend
·
2023-06-12 01:18
隐私应用
零知识证明
2.4 IDEA开发词频统计项目
一、词频统计准备工作单词计数是学习分布式计算的入门程序,有很多种实现方式,例如
MapReduce
;使用Spark提供的RDD算子可以更加轻松地实现单词计数。
zl202111
·
2023-06-12 00:33
intellij-idea
spark
scala
kylin架构
构建技术主要为
MapReduce
(Spark目前在beta版本)。构建后的Cube保存在右侧存储引擎中,目前Kylin默认的存储为ApacheHBas
西二旗老司机
·
2023-06-11 11:31
Hadoop技术
狭义上说,Hadoop指Apache这款开源框架,它的核心组件有:HDFS(分布式文件系统):解决海量数据存储
MAPREDUCE
(分布式运算编程框架):解决海量数据计算YARN(作业调
章鱼哥TuNan&Z
·
2023-06-11 09:01
#
hadoop
mapreduce
hadoop
hdfs
MapReduce
共享单车练习
MapReduce
本机运行文章目录
MapReduce
本机运行✅前置工作1.配置JDK2.创建Java项目3.导入所需JAR包编程实现以下题目1.统计各个月份共享单车使用的总数2.统计不同天气情况下共享单车使用的总数
vulnerable marker
·
2023-06-11 09:00
大数据开发技术
mapreduce
eclipse
java
大数据
centos
MapReduce
框架
TextInputFormat1)FileInputFormat实现类思考:在运行
MapReduce
程序时,输入的文件格式包括:基于行的日志文件、二进制格式文件、数据库表等。
molecule_jp
·
2023-06-11 03:49
mapreduce
大数据
后端
Hadoop集群简介
Hadoop集群包括两个集群:HDFS集群、YARN集群两个集群逻辑上分离(两个集群互相之间没有依赖、互不影响)、通常物理上在一起(某些角色进程往往部署在同一台物理服务器上)两个集群都是标准的主从架构集群
MapReduce
尤所不同
·
2023-06-11 03:43
hadoop
hadoop
大数据
hdfs
开源大数据平台 E-
MapReduce
Serverless StarRocks 产品介绍
摘要:本文将分享阿里云与StarRocks社区合作打造的云上StarRocks极速湖仓的云原生产品实践。主要包括四个部分,第一部分介绍StarRocks全托管形态,以及免运维服务的OLAP云产品;第二部分介绍StarRocksManager的实例管理、诊断分析、元数据管理、安全中心等功能;第三部分介绍在社交、在线教育、电商等场景的使用案例;最后是对产品的长短期规划:1.StarRocks产品介绍2
阿里云云栖号
·
2023-06-10 23:18
云栖号技术分享
阿里云
云计算
大数据
Hadoop 集群 常见问题
显示INFO
mapreduce
.Job:Runningjob以后卡住不动请检查/etc/hosts里面的IP地址对应的机器名是否和真正的机器名对应修改linux机器名可以修改/etc/hostname然后
盲狙小堡垒
·
2023-06-10 11:13
Hadoop学习---9、Yarn
1、Yarn资源调度器Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而
MapReduce
等运算程序则相当于运行在于操作系统之上的应用程序。
星光下的赶路人star
·
2023-06-10 10:32
Hadoop学习
hadoop
学习
大数据
如何关闭RunJar进程
一、提出问题:Hadoop集群运行
mapreduce
程序后JPS出现很多个RunJar,如下图二、解决方法:[root@node1]#ps-ef|grepRunJar查看后台进程(可能有很多条):第二个数据就是进程代码
Pseudo-love453
·
2023-06-10 09:56
hadoop
linux
大数据
分布式
Permission denied: user=dr.who, access=READ_EXECUTE, inode=“/tmp“:root:supergroup:drwxrwx---
该问题其实是一个权限问题,可能会导致运行“hadoopjar”命令时报错;
MapReduce
工件,中间数据将保存在该目录下。
MapReduce
作业执行完成后
Pseudo-love453
·
2023-06-10 09:56
linux
运维
hadoop
分布式
大数据
Hive架构原理以及部署教程
了解Hive和RDBMS的对比Hive架构原理Hive架构原理-知乎Hive是基于Hadoop的数据仓库工具,它提供了类SQL查询语言HQL(HiveQueryLanguage),可以将SQL语句转化为
MapReduce
哈都婆
·
2023-06-10 09:30
hadoop搭建管理教程
hadoop
hive
大数据
学习大数据的第五天
Pig可以通过
MapReduce
或者Tez来执行操作,并且具有良好的拓展性和灵活性。ApacheFlumeApacheFlume是一个分布式、可靠、高可用的海量日志聚合系统,它可以将来自不
GP0000968523
·
2023-06-10 08:23
大数据
学习
hadoop
03_HADOOP_05_MR高可用搭建
.X版本优缺点环境规划环境规划node03和node04实现相互之间免秘钥在node01修改mapred-site.xml和yarn-site.xml,然后分发到其他机器mapred-site.xml
mapreduce
.framework.nameyarnyarn-site.xmlyarn.nodema
超级小小张
·
2023-06-10 05:31
Hadoop-HDFS
分布式文件系统很多,HDFS是
mapreduce
计算的基础。2.1文件切分思想源文件直接存放在一个磁盘上效率肯定很低(读取效率低,如果文件太大会超出单机存储的范围)字节数组:文件在磁盘上真实存储文件的
爱过java
·
2023-06-10 05:51
hadoop
hive基本概念
可以处理的数据是关系型数据库(结构性)、本地数据、hdfs数据(非结构化的数据);2.hive是对处理数据的
mapreduce
的封装平台3.hive会提供一些简单的类sql语句来代替
mapreduce
执行
栾还是恋
·
2023-06-10 04:36
hadoop
hive
大数据
大数据必备的技术栈有哪些?
Spark,Hadoop,数据仓库,Python,SQL,
Mapreduce
,Hbase等等大数据的方向的切入是全方位的,基础语言的学习只是很小的一个方面,编程落实到最后到编程思想,有了指导思想学习起来就能方便很多
我想去吃ya
·
2023-06-09 23:45
大数据
java
开发语言
数据分析
python
Hadoop部署本地模式
使用本地模式主要是用于对
MapReduce
的程序的逻辑进行调试,确保程序的正确性。由于在本地模式下测试和调试
MapReduce
程序较为方便,因此,这种模式适合用在开发阶段。
千锋IT教育
·
2023-06-09 22:04
大数据从0到1的完美落地
hadoop
linux
大数据
黑猴子的家:
MapReduce
Reduce端-表合并(数据倾斜)案例一
数据https://www.jianshu.com/p/cb1914c1aaf5通过将关联条件作为map输出的key,将两表满足join条件的数据并携带数据所来源的文件信息,发往同一个reducetask,在reduce中进行数据的串联。1、创建商品和订合并后的bean类importjava.io.DataInput;importjava.io.DataOutput;importjava.io.I
黑猴子的家
·
2023-06-09 20:00
mysql到hive调度工具_Hive详解及实战_Zeus任务资源调度工具
课程目录:第1章:Hive基本架构及环境部署1.
MapReduce
分析与SQL分析对比2.Hive的介绍及其发展3.Hiv
长野君
·
2023-06-09 19:03
mysql到hive调度工具
大数据技术之Hive
(1)在Hadoop课程中我们用
MapReduce
程序实现的,当时需要写Mapper、R
骚戴
·
2023-06-09 19:59
大数据
大数据
hive
python hadoop的应用_hadoop python api
[雪峰磁针石博客]大数据Hadoop工具python教程4-mrjobmrjob是由Yelp创建的Python
MapReduce
库,它封装了Hadoop流,允许
MapReduce
应用程序以更加Pythonic
weixin_39914938
·
2023-06-09 16:15
python
hadoop的应用
关于Hadoop前景、毕业薪酬,你所关心的问题答案在这
Hadoop能学到什么主要学习hadoop中的四大框架:hdfs、
mapreduce
、hive、hbase。这四大框架是hadoop最最核心的,学习难度最大的,也是应用最广泛的。
丨程序之道丨
·
2023-06-09 11:35
基于CDH环境下的Hive数仓配置及优化
文章目录YARN的基础配置NodeManagerCPU配置NodeManager内存配置NodeManager本地目录
MapReduce
内存配置HDFS副本数配置Hive配置及优化HiveServer2
蜜桃上的小叮当
·
2023-06-09 10:15
Hadoop
hive
linux
hadoop
spark的rdd的含义_Spark核心技术原理透视一(Spark运行原理)
Spark提供的基于RDD的一体化解决方案,将
MapReduce
、Streaming、SQL、Mac
Mr pretty
·
2023-06-09 10:23
spark的rdd的含义
Spark运行原理剖析
它提供
MapReduce
的灵活性和可扩展性,但速度明显更高。Spark的核心是根据RDD来实现的,SparkScheduler则为Spark核心实现的重要一环,其作用就是任务调度。
月亮与六便士丶
·
2023-06-09 10:51
spark
spark
Scheduler
spark运行原理
spark
DAG
MapReduce
开发流程及示例
文章目录
MapReduce
开发流程(1)输入数据接口:InputFormat(2)逻辑处理接口:Mapper(3)Partitioner分区(4)Comparable排序(5)Combiner合并(6)
菜鸡努力学习中
·
2023-06-09 08:03
hadoop
mapreduce
big
data
hadoop
大数据
分布式
Hive的3种执行引擎区别与适用场景
1.Hive的3种执行引擎适用场景●Hive底层的计算由分布式计算框架实现,目前支持三种计算引擎,分别是
MapReduce
、Tez、Spark。
菜鸡努力学习中
·
2023-06-09 08:02
Hive
hive
spark
hadoop
hadoop
mapreduce
执行流程
Hadoop的
mapreduce
r的执行过程如下:这100台机器上面的map都是并发、独立
小小哭包
·
2023-06-09 03:08
大数据
计算机
Java
java
开发语言
hadoop
大数据:分布式资源调度框架YARN,核心架构,主从结构,辅助结构,yarn和
MapReduce
部署与配置,蒙特卡罗法求圆周率PI
大数据:分布式资源调度框架YARN,核心架构,主从结构,辅助结构,yarn和
MapReduce
部署与配置,蒙特卡罗法求圆周率PI2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发
冰露可乐
·
2023-06-09 00:16
数据挖掘
大数据
hadoop
yarn
蒙特卡罗法求pi
mapreduce
MapReduce
MapReduce
概述分布式并行编程
MapReduce
模型简介Map和Reduce函数序列化大规模数据的难点
MapReduce
体系结构
MapReduce
1.0体系结构JobTrackerTaskTracker
so.far_away
·
2023-06-09 00:12
大数据技术原理与应用
mapreduce
大数据
java
数据仓库分析工具Hive
数据仓库分析工具Hive概述Hive简介Hive与Hadoop生态系统中其他组件的关系Hive与传统数据库的对比Hive系统架构概述Hive组成模块Hive工作原理SQL语句转换成
MapReduce
的基本原理
so.far_away
·
2023-06-08 23:29
大数据技术原理与应用
hive
数据仓库
hadoop
用
MapReduce
实现WordCount(简单尝试
MapReduce
)
前言
MapReduce
不需要“分割”,框架已经做好这一步了。
Woovong
·
2023-06-08 22:17
mapreduce
intellij-idea
hadoop
大数据
Hadoop之Yarn概述
Hadoop之Yarn概述Yarn是什么Yarn基础架构Yarn工作机制回顾HDFS、YARN、
MapReduce
三者关系Yarn调度器和调度算法先进先出调度器(FIFO)容量调度器(CapacityScheduler
yanghaoplus
·
2023-06-08 20:56
大数据
hadoop
大数据
hdfs
CentOS-7下搭建Hadoop环境
时间同步4.设置主机名5.hosts设置6.ssh配置JAVA安装Hadoop配置文件1.解压Hadoop2.配置env文件3.配置核心组件文件4.配置文件系统5.配置yarn-site.xml6.配置
MapReduce
音尾漾
·
2023-06-08 19:24
大数据运维
hadoop
大数据
上一页
36
37
38
39
40
41
42
43
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他