***大数据框架*** 第3页

Kafka Streams与其他流处理平台的差异在哪里？

光是在Apache基金会孵化的项目，关于流处理的大数据框架就有十几个之多，比如早期的ApacheSamza、ApacheStorm，以及这两年火爆的Spark以及Flink等。

来壹杯卡布奇诺·2023-04-12 03:04

要想月薪达到5万，要必备以下9项技能,阿里前大数据工程师说的

目前很火，数据源头，各种炫酷新技术，搭建hadoop、Hive、Spark、Kylin、Druid、Beam~，前提是你要懂Java，很多平台都是用Java开发的.这里面要解决的是实时、近实时和离线的大数据框架如何搭建

你的社交帐号昵·2023-04-11 19:53

100款大数据框架和工具汇总---应用集合

本文列举出全球100款大数据工具，包括数据存储、数据计算、资源调度以及可视化等软件，这里面肯定有你需要的。如果你有更好的大数据软件推荐，欢迎留言啊。1、TalendOpenStudio是第一家针对的数据集成工具市场的ETL(数据的提取Extract、传输Transform、载入Load)开源软件供应商。Talend的下载量已超过200万人次，其开源软件提供了数据整合功能。其用户包括美国国际集团（A

nokez·2023-04-11 08:25

大数据框架优化

优化hadoop优化1）Map阶段（1）增大环形缓冲区大小。由100m扩大到200m（2）增大环形缓冲区溢写的比例。由80%扩大到90%（3）减少对溢写文件的merge次数。（10个文件，一次20个merge）（4）不影响实际业务的前提下，采用Combiner提前合并，减少I/O。2）Reduce阶段（1）合理设置Map和Reduce数：（2）设置Map、Reduce共存（3）规避使用Reduce

阿萨德沐阳·2023-04-11 08:45

大数据框架保姆级安装教程——Zookeeper（3.5.7）

文章目录大数据框架保姆级安装教程——Zookeeper（3.5.7）1.1分布式安装部署1.2ZK集群启动停止脚本1.3客户端命令行操作大数据框架保姆级安装教程——Zookeeper（3.5.7）1.1

yiluohan0307·2023-04-11 08:31

温习大数据框架Spark面试题

一、Spark1、你觉得spark可以完全替代hadoop么?Spark会替代MR，Spark存储依赖HDFS，资源调度依赖YARN，集群管理依赖Zookeeper。2、Spark消费Kafka，分布式的情况下，如何保证消息的顺序?Kafka分布式的单位是Partition。如何保证消息有序，需要分几个情况讨论。同一个Partition用一个writeaheadlog组织，所以可以保证FIFO的顺

Coding路人王·2023-04-09 01:09

大数据框架升级

五、部分框架升级5.1Hadoop3.1.35.1.1安装安装方式同旧版本5.1.2配置文件core-site.xmlfs.defaultFShdfs://bigdata1:9820hadoop.tmp.dir/opt/module/hadoop-3.1.3/datahadoop.http.staticuser.userhxrhadoop.proxyuser.hxr.hosts*hadoop.pr

CJ21·2023-04-08 09:48

Hadoop大数据框架研究（6）——Hadoop环境部署问题汇总

近期对hadoop生态的大数据框架进行了实际的部署测试，并结合ArcGIS平台的矢量大数据分析产品进行空间数据挖掘分析。本系列博客将进行详细的梳理、归纳和总结，以便相互交流学习。

gisxy·2023-04-08 03:22

大数据框架之Hadoop：MapReduce（五）Yarn资源调度器

ApacheYARN(YetAnotherResourceNegotiator)是hadoop2.0引入的集群资源管理系统。用户可以将各种服务框架部署在YARN上，由YARN进行统一地管理和资源分配。简言之，Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。5.1Yarn基本架构YARN

yiluohan0307·2023-04-05 09:53

Go语言与Java语言对比

用途二：大数据框架的

Add小兵·2023-04-05 00:14

车联网大数据框架_车联网的大数据应用（1）：初识车联网

车联网(InternetofVehicles)是指由车辆位置、速度和路线等信息构成的巨大交互网络。车联网主要依托移动通信与信息科学技术，通过无线通信技术(例如GSM、GPRS等通信方式)、地理位置定位技术(例如GPS、LBS定位)、汽车传感器技术(汽车总线CAN-bus)以及行车记录仪技术等完成车辆行驶状态与周边环境的采集、数据的传输与处理工作[1]。咳咳，说中文，翻译成人话就是：首先你得有辆车(

weixin_39839726·2023-04-04 09:02

大数据框架：Spark生态实时流计算

在Spark框架当中，提起流计算，那么主要就是SparkStreaming组件来负责。在大数据的发展历程当中，流计算正在成为越来越受到重视的趋势，而SparkStreaming流计算也在基于实际需求不断调整。今天的大数据学习分享，我们就主要来讲讲Spark实时流计算。Spark流计算简介Spark的SparkStreaming是早期的流计算框代表，同时还有Storm，也是针对于流计算，但是随着技术

成都加米谷大数据·2023-04-03 21:24

Java程序员转行大数据开发怎么样？难吗？

大数据框架的编写支持很多开发语言，目前流行的大数据Hadoop框架，很多部分都是用开源的Java语言编写。

juan188·2023-04-03 02:34

Spark[3]：handoop生态与Spark架构启动等相关概念

一、handoop开源的大数据框架。

little_miya·2023-04-02 14:08

大数据框架发展史

大数据老哥·2023-03-31 08:38

架构-大数据架构-阿里

大数据架构大数据框架从0到1整个过程的实现，根据本博客内容，可以实现整个大数据基本搭建，只是大概步骤，供学习参考。

Bruce.Tang·2023-03-31 07:26

大数据框架使用文档

文章目录关于mysql开启/关闭/重启数据库登录数据库关于hadoop启动进程第一种：全部启动集群所有进程第二种：单独启动hdfs【web端口50070】和yarn【web端口8088】的相关进程第三种：单独启动某一个进程访问hdfs的web界面http://master:50070访问yarn的web界面http://master:8088hdfs–HAyarn–HA关于Redis启动/停止/重

被迫内卷的学习记录·2023-03-30 21:41

centos7搭建hadoop

前言hadoop是其他大数据框架的基础运行环境，尤其是hdfs，是其他大数据框架的基础存储载体，因此学习和掌握hadoop对学习大数据很有必要haddop常用的3种运行模式包括：本地模式，单机运行，只是用来演示一下官方案例

小码农叔叔·2023-03-28 20:32

学习大数据Hadoop——心得体会

c、HBase：理解为Hadoopbase--3.大数据框架：a、数据的存储：hdfs/hive/hbaseb、数据的传输：flume/sqoopc、数据的计算：te

肉肉肉肉肉肉~丸子·2023-03-26 18:43

大数据框架之Hive：第6章查询

第6章查询6.1基础语法1）官网地址https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select2）查询语句语法：SELECT[ALL|DISTINCT]select_expr,select_expr,...FROMtable_reference--从什么表查[WHEREwhere_condition]--过滤[GRO

yiluohan0307·2023-03-22 11:04

大数据框架保姆级安装教程——Kafka（3.0.0）

大数据框架保姆级安装教程——Kafka（3.0.0）1.1安装部署1.1.1集群规划hadoop102hadoop103hadoop104zkzkzkkafkakafkakafka1.1.2集群部署**

yiluohan0307·2023-03-22 11:04

大数据框架之Hive：第3章 DDL（Data Definition Language）数据定义

第3章DDL（DataDefinitionLanguage）数据定义3.1数据库（database）3.1.1创建数据库1）语法CREATEDATABASE[IFNOTEXISTS]database_name[COMMENTdatabase_comment][LOCATIONhdfs_path][WITHDBPROPERTIES(property_name=property_value,...)]

yiluohan0307·2023-03-22 11:03

大数据框架之Hive详解

目录1.Hive的基本概念1.1Hive是什么？1.2Hive的优缺点1.2.1优点1.2.2缺点1.3Hive架构原理1.4Hive和数据库比较1.5常见命令2Hive的常见表结构2.1内部表和外部表2.1.1概念2.1.2外部表执行命令2.1.3区别2.2分区表2.2.1概念2.2.2指令2.3分桶表2.3.1概述2.3.2指令3Hive的体系结构1.Hive的基本概念1.1Hive是什么？H

xingchensuiyue·2023-03-22 11:33

大数据框架之Hadoop：入门（二）从Hadoop框架讨论大数据生态

第2章从Hadoop框架讨论大数据生态2.1Hadoop是什么Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决，海量数据的存储和海量数据的分析计算问题。广义上来说，Hadoop通常是指一个更广泛的概念-Hadoop生态圈。2.2Hadoop发展历史1）Lucene框架是DougCuting开创的开源软件，用Java书写代码，实现与Google类似的全文搜索功能，提供了全文

yiluohan0307·2023-03-22 11:33

大数据框架(分区，分桶，分片)

0.前言在大数据分布式中，分区，分桶，分片是设计框架的重点一、Hive分区与分桶1.1Hive分区是按照数据表的某列或者某些列分为多区，在hive存储上是hdfs文件，也就是文件夹形式。现在最常用的跑T+1数据，按当天时间分区的较多。把每天通过sqoop或者datax拉取的一天的数据存储一个区，也就是所谓的文件夹与文件。在查询时只要指定分区字段的值就可以直接从该分区查找即可。创建分区表的时候，要通

Impl_Sunny·2023-03-22 11:26

大数据框架复习-hive

大数据框架复习-hivehive的架构metastore：元数据库客户端client：CLI，JDBC到4个器：SQLparser解析器；编译器；优化器；执行器；到MR到hdfsHive和数据库比较Hive

hiihygge·2023-03-22 11:43

六千字长文:大数据框架(分区，分桶，分片),建议收藏

前言在大数据分布式中，分区，分桶，分片是设计框架的重点。此篇就来总结各个框架。建议收藏目录Hive分区与分桶ES分片Kafka分区HBase分区Kudu分区HiveHive分区是按照数据表的某列或者某些列分为多区，在hive存储上是hdfs文件，也就是文件夹形式。现在最常用的跑T+1数据，按当天时间分区的较多。把每天通过sqoop或者datax拉取的一天的数据存储一个区，也就是所谓的文件夹与文件。

大数据左右手·2023-03-22 11:42

大数据框架之Hive：第10章分区表和分桶表

第10章分区表和分桶表10.1分区表Hive中的分区就是把一张大表的数据按照业务需要分散的存储到多个目录，每个目录就称为该表的一个分区。在查询时通过where子句中的表达式选择查询所需要的分区，这样的查询效率会提高很多。10.1.1分区表基本语法1.创建分区表createtabledept_partition(deptnoint,--部门编号dnamestring,--部门名称locstring-

yiluohan0307·2023-03-22 11:39

「大数据」04大数据框架：Lambda Architecture(LA)

1.LA框架的提出最早由Twitter工程师NathanMarz提出来，它是一种大数据软件设计架构，其目的是指导用户充分利用批处理和流式计算技术各自的优点，在延迟、吞吐量和容错之间找到平衡点，实现一个复杂的大数据处理系统。2.主要思想LA的主要思想是将数据处理流程分解成三层：批处理层、流式处理层和服务层。LA框架的主要思想（1）批处理层。它的主要思想是利用分布式批处理计算，以批为单位处理数据，并产

林拂晓·2023-03-18 21:10

docker学习

Docker在分布式和大数据框架中的应用：www.ibm.com/developerworks/cn/opensource/os-cn-docker-distributed-bigdata/index.html10

刘嘻哈哈·2023-03-15 20:47

PySpark 安装、配置之使用初体验

ApacheSpark是基于内存计算，这是他与其他几种大数据框架相比的一大优势。ApacheSpark是开源的，也是最著名的大数据框架之一。当它使用内存计算时，它比

Congqing He·2023-03-15 12:06

bananafish·2023-03-14 07:20

大数据框架之Hadoop：HDFS（四）HDFS的数据流（面试重点）

4.1HDFS写数据流程4.1.1剖析文件写入HDFS写数据流程，如下图所示。1）客户端通过DistributedFileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。2）NameNode返回是否可以上传。3）客户端请求第一个Block上传到哪几个DataNode服务器上。4）NameNode返回3个DataNode节点，分别为dn1、dn

yiluohan0307·2023-03-09 07:13

大数据框架之Hadoop：MapReduce（三）MapReduce框架原理——InputFormat数据输入

3.1.1切片与MapTask并行度决定机制1、问题引出MapTask的并行度决定Map阶段的任务处理并发度，进而影响到整个Job的处理速度。思考：1G的数据，启动8个MapTask，可以提高集群的并发处理能力。那么1K的数据，也启动8个MapTask，会提高集群性能吗？MapTask并行任务是否越多越好呢？哪些因素影响了MapTask并行度？2、MapTask并行度决定机制**数据块：**Blo

yiluohan0307·2023-02-28 08:29

大数据框架之Hadoop：MapReduce（三）MapReduce框架原理——Join多种应用

3.7.1ReduceJoin1、工作原理Map端的主要工作：为来自不同表或文件的key/value对，打标签以区别不同来源的记录。然后用连接字段作为key，其余部分和新加的标志作为value，最后进行输出。Reduce端的主要工作：在Reduce端以连接字段作为key的分组已经完成，我们只需要在每一个分组当中将那些来源于不同文件的记录（在Map阶段已经达标）分开，最后进行合并就ok了。3.7.2

yiluohan0307·2023-02-28 08:29

大数据框架之Hadoop：MapReduce（三）MapReduce框架原理——计数器应用

Hadoop为每个作业维护若干内置计数器，以描述多项指标。例如，某些计数器记录已处理的字节数和记录数，使用户可监控已处理的输入数据量和已产生的输出数据量。1、计数器API（1）采用枚举的方式统计计数enum.MyCounter(MALFORORMED,NORMAL)//对枚举定义的自定义计数器加1context.getCounter(MyCounter.MALFORORMED).increment

yiluohan0307·2023-02-28 08:29

大数据框架之Hadoop：MapReduce（三）MapReduce框架原理——数据清洗（ETL）

在运行核心业务MapReduce程序之前，往往要先对数据进行清洗，清理掉不符合用户要求的数据。清理的过程往往只需要运行Mapper程序，不需要运行Reduce程序。3.9.1数据清洗案例实操-简单解析版1、需求去除日志中字段长度小于等于11的日志。（1）输入数据web.log（2）期望输出数据每行字段长度都大于11。2、需求分析需要在Map阶段对输入的数据根据规则进行过滤清洗。3、实现代码（1）编

yiluohan0307·2023-02-28 08:29

大数据框架Hadoop：第二章计算框架MapReduce（一）

系列文章目录大数据框架Hadoop：第一章HDFS分布式文件系统(一)大数据框架Hadoop：第一章HDFS分布式文件系统(二)大数据框架Hadoop：第二章计算框架MapReduce（一）文章目录系列文章目录前言一

BB侠的大数据之旅·2023-02-28 08:49

大数据框架之Hadoop：MapReduce（三）MapReduce框架原理——OutputFormat数据输出

3.6.1OutputFormat接口实现类OutputFormat是MapReduce输出的基类，所有实现MapReduce输出都实现了OutputFormat接口。下面我们介绍几种常见的OutputFormat实现类。1、文本输出TextOutputFormat默认的输出格式是TextOutputFormat，它把每条记录写为文本行。它的键和值可以是任意类型，疑问TextOutputForma

yiluohan0307·2023-02-28 07:33

大数据框架之Spark详解

目录1Spark概述1.1Spark是什么？1.2Spark内置模块1.3Spark特点2RDD概述2.1什么是RDD？2.2RDD的属性2.3RDD特点2.4弹性体现在哪？2.5分区2.6分区2.7依赖2.8缓存2.9CheckPoint1Spark概述1.1Spark是什么？Spark是一种基于内存的快速、通用、可扩展的大数据分析引擎。1.2Spark内置模块SparkCore：实现了Spar

xingchensuiyue·2023-02-26 07:50

Spark框架概述、 Spark 框架模块详解、Spark 是什么、Spark 四大特点——速度快、易于使用、通用性强、运行方式多样

1.Spark框架概述Spark是加州大学伯克利分校AMP实验室（AlgorithmsMachinesandPeopleLab）开发的通用大数据框架。

yida&yueda·2023-02-26 07:48

Spark ---------- 大数据框架，spark简介及架构图示

Spark是什么Spark，是一种通用的大数据计算框架，正如传统大数据技术Hadoop的MapReduce、Hive引擎，以及Storm流式实时计算引擎等。Spark包含了大数据领域常见的各种计算框架：比如SparkCore用于离线计算，SparkSQL用于交互式查询，SparkStreaming用于实时流式计算，SparkMLlib用于机器学习，SparkGraphX用于图计算。Spark主要用

isOllie·2023-02-26 07:47

Spark实战第二版(涵盖Spark3.0)-第16章. 缓存和检查点:增强Spark的性能

关注公众号:登峰大数据，阅读Spark实战第二版(完整中文版)，系统学习Spark3.0大数据框架！如果您觉得作者翻译的内容有帮助，请分享给更多人。您的分享，是作者翻译的动力！

登峰大数据·2023-02-17 14:32

中国移动云能力中心（苏小研）--秋招面经

有使用大数据框架做项目的经历，所以问了这部分相关内容1.Hbase的存储结构回答情况：基本正确，没有追问；主要回答了逻辑结构、逻辑视图，row

博o_Oer~·2023-02-06 19:59

HDFS架构

HDFS整体架构首先上一张简单的架构图：hdfs.png其中：大多数分布式大数据框架都是主从架构。

HideOnStream·2023-02-04 20:23

Hadoop学习笔记

Hadoop——大数据框架，有多种语言版本，包括python，JAVA等为什么需要Hadoop？

柴柴总·2023-02-01 06:03

hadoop整体

大数据框架目录大数据框架一、Hodoop四大组件：HDFS/MapReduce/YARN/Common二、Zookeeper三、Hive四、Spark五、ETL六、ngnix七、Redis八、Oracle

原来是阿付·2023-01-30 15:51

Kafka产线集群部署

说起操作系统，你可能会问Kafka不是JVM系的大数据框架吗？Java又是跨平台的语言，把Kafka安装到不同的操作系统上会有什么区别吗？其实区

故里学Java·2023-01-29 07:48

数分-理论-大数据7-Spark

数分-理论-大数据7-Spark（大数据框架）(数据分析系列)文章目录数分-理论-大数据7-Spark（大数据框架）1知识点2具体内容2.1概述2.1.1起源2.1.2诞生2.1.3Spark与Hadoop

yxyibb·2023-01-24 20:59

【大数据hadoop】基于centos7搭建haoop与hive

一、前言hadoop是大数据生态中的基础服务，也是其他大数据框架的基础运行环境，尤其是hdfs，是其他大数据框架的基础存储载体，因此系统学习和掌握hadoop对学习大数据很有必要；而Hive则是Hadop

逆风飞翔的小叔·2023-01-12 21:03

推荐频道

***大数据框架***

Kafka Streams与其他流处理平台的差异在哪里？

要想月薪达到5万，要必备以下9项技能,阿里前大数据工程师说的

100款大数据框架和工具汇总---应用集合

大数据框架优化

大数据框架保姆级安装教程——Zookeeper（3.5.7）

温习大数据框架Spark面试题

大数据框架升级

Hadoop大数据框架研究（6）——Hadoop环境部署问题汇总

大数据框架之Hadoop：MapReduce（五）Yarn资源调度器

Go语言与Java语言对比

车联网大数据框架_车联网的大数据应用（1）：初识车联网

大数据框架：Spark生态实时流计算

Java程序员转行大数据开发怎么样？难吗？

Spark[3]：handoop生态与Spark架构启动等相关概念

大数据框架发展史

架构-大数据架构-阿里

大数据框架使用文档

centos7搭建hadoop

学习大数据Hadoop——心得体会

大数据框架之Hive：第6章 查询

大数据框架保姆级安装教程——Kafka（3.0.0）

大数据框架之Hive：第3章 DDL（Data Definition Language）数据定义

大数据框架之Hive详解

大数据框架之Hadoop：入门（二）从Hadoop框架讨论大数据生态

大数据框架(分区，分桶，分片)

大数据框架复习-hive

六千字长文:大数据框架(分区，分桶，分片),建议收藏

大数据框架之Hive：第10章 分区表和分桶表

「大数据」04大数据框架：Lambda Architecture(LA)

docker学习

PySpark 安装、配置之使用初体验

搜索推荐后台开发-基本学习路线

大数据框架之Hadoop：HDFS（四）HDFS的数据流（面试重点）

大数据框架之Hadoop：MapReduce（三）MapReduce框架原理——InputFormat数据输入

大数据框架之Hadoop：MapReduce（三）MapReduce框架原理——Join多种应用

大数据框架之Hadoop：MapReduce（三）MapReduce框架原理——计数器应用

大数据框架之Hadoop：MapReduce（三）MapReduce框架原理——数据清洗（ETL）

大数据框架Hadoop：第二章 计算框架MapReduce（一）

大数据框架之Hadoop：MapReduce（三）MapReduce框架原理——OutputFormat数据输出

大数据框架之Spark详解

Spark框架概述、 Spark 框架模块详解、Spark 是什么、Spark 四大特点——速度快、易于使用、通用性强、运行方式多样

Spark ---------- 大数据框架，spark简介及架构图示

Spark实战第二版(涵盖Spark3.0)-第16章. 缓存和检查点:增强Spark的性能

中国移动云能力中心（苏小研）--秋招面经

HDFS架构

Hadoop学习笔记

hadoop整体

Kafka产线集群部署

数分-理论-大数据7-Spark

【大数据hadoop】基于centos7搭建haoop与hive

大数据框架

大数据框架之Hive：第6章查询

大数据框架之Hive：第10章分区表和分桶表

大数据框架Hadoop：第二章计算框架MapReduce（一）