大数据生态第3页

大数据测试基本知识

大数据生态圈1.基于hadoop的大数

小赖同学啊·2023-06-20 18:10

Databend 开源周报第 83 期

SupportforWebHDFSHDFS是大数据生态中流行的分布式文件系统，也是Databend支持的存储后端之一。但要在此前的实现中，如果要访问HD

Databend·2023-06-20 03:45

大数据开发：流处理组件Flume、Kafka对比

在这个数据爆发的移动互联网时代，数据流成为一种重要的数据产生形式，而针对于不断新增的流数据处理，大数据生态当中，也有相应的流处理组件，比如说Flume和kafka。

加米谷大数据张老师·2023-06-20 00:50

使用Apache SeaTunnel进行数据库同步（MySQL to MySQL）

目前，大数据体系里有各种各样的数据引擎，有大数据生态的Hadoop、Hive、Kudu、Kafka、HDFS，也有泛大数据库体系的MongoDB、Redis、ClickHouse、Doris，更有云上的

猿敲月下码·2023-06-17 10:50

基于开放共享的自主研发—MaxCompute 持续增强生态与开放性建设

简介：MaxCompute是阿里巴巴自研的云原生数据仓库，同时也兼容大部分大数据生态系统。一个平台无法实现所有功能和解决所有问题，MaxCompute需持续增强生态与开放性建设，方能走得更远。

·2023-06-16 15:50

【博云+智领云】携手云原生大数据领域，开展深度合作

以Hadoop为中心的大数据生态系统从2006年开源以来，一直是大部分企业构建大数据平台的选择，不过这种传统选择随着人们的深入使用，出现的问题也越来越多，包括难以实现

LinkTime_Cloud·2023-06-16 12:12

【大数据之路1】Hadoop 入门

1.Hadoop入门1.大数据概述1.大数据相关说明2.Hadoop及大数据生态圈3.Hadoop核心组件4.Hadoop生态圈5.集群安装模式6.Hadoop运行模式7.Hadoop工作流程8.Hadoop

程序员胖五·2023-06-13 18:13

大数据组件笔记 -- Hadoop

文章目录一、Hadoop入门1.1基础架构1.2大数据生态圈二、Hadoop集群部署2.1准备2.2配置2.3启动2.4监控页面三、HDFS3.1组成架构3.2HDFSShell3.3HDFS客户端3.4HDFS

L小Ray想有腮·2023-06-13 04:02

什么是机器学习？有哪些算法和分类？又有哪些应用？看完你就懂了

作者：马海平于俊吕昕向海来源：大数据（ID：hzdashuju）导读：本文从大数据的概念讲起，主要介绍机器学习的基础概念，以及机器学习的发展过程，用一个形象的例子讲解大数据生态中的机器学习，并按照传统机器学习

hzbooks·2023-06-12 00:06

直播｜SeaTunnel 与 StarRocks 生态融合--让大数据处理回归「简单」

大数据生态呼唤“简单”的回归。在大数据生态系统中，上下游集成非常重要，是让一切回归简单的重要途径。近期，数据集成平台ApacheSeaTunnel已完成M

StarRocks_labs·2023-06-09 13:41

大数据大纲&大数据生态圈所涉及的技术

大数据特征：1）大量化（Volume）：存储量大，增量大TB->PB2）多样化（Variety）：来源多:搜索引擎，社交网络，通话记录，传感器格式多:(非）结构化数据，文本、日志、视频、图片、地理位置等3）快速化（Velocity）：海量数据的处理需求不再局限在离线计算当中4）价值密度低（Value）：但是这种价值需要在海量数据之上，通过数据分析与机器学习更快速的挖掘出来大数据带来的革命性变革：1

摩羯青春我掌握·2023-04-21 05:17

大数据初识

BlackChen·2023-04-20 14:44

12年经验的大数据架构师，想和你谈谈…

菜鸟窝大数据讲师先后从事通信协议栈(C语言)、J2EE、Android等开发，曾在Nokia主导大型网关集群研发、近几年主要从事大数据及相关系统架构设计、擅长Hadoop大数据生态，尤其擅长图数据库及相关处

菜鸟窝·2023-04-20 10:42

Spark+Flink+Iceberg打造湖仓一体架构实践探索

数据湖-大数据生态杀青数据湖-大数据生态杀青数据仓库的痛点只能存储结构化数据，无法采集存储非结构化数据无法存储原始数据，所有的数据须经过ETL清洗过程离线数仓的数据表牵一发而动全身，数据调整工程量大实时数仓存储空间有限

架构师老狼·2023-04-15 23:13

快速理解zookeeper功能&应用&选举机制

-大数据生态系统里的很多组件的命名都是某种动物或者

Yangsc_o·2023-04-14 13:06

Hadoop HDFS 分布式文件系统

SecondaryNameNodeNameNode职责DataNode职责HDFS写数据流程HDFSHDFS(HadoopDistributedFileSystem)，Hadoop分布式文件系统是ApacheHadoop的核心组件之一，作为大数据生态圈最底层的分布式存储

VenYy·2023-04-09 05:46

Apache 首次亚洲技术峰会: 大数据场大咖详细介绍

开源社·2023-04-08 07:49

盘点Hadoop生态中 6 个核心的大数据组件

大数据生态圈中有很多优秀的组件，可谓琳琅满目，按组件类别可分为存储引擎、计算引擎，消息引擎，搜索引擎等；按应用场景可分为在线分析处理OLAP型，在线事务处理OLTP型，以及混合事务与分析处理HTAP型等

大数据技术架构·2023-04-07 00:32

大数据组件Hive性能测试和性能优化

部门主要是给一些国产芯片做服务器的软件性能测试，包括大数据生态软件Hadoop、Hbase、Hive等。本人负责的是Hive软件的性能测试和性能优化，最终对比Hive在x86和arm服务器上的性能。

Wilbur.Dreamer·2023-04-06 19:29

《Scala开发快速入门》书籍出版

ApacheSpark、ApacheKafka等基于Scala语言实现的框架在大数据生态圈内占有举足轻重的地位，它们一定程度上引领着大数据最前沿技术方向，另外Akka、ApacheGearpump等基于

zhouzhihubeyond·2023-04-05 19:49

大数据概论

目录一、大数据概论1、大数据概念2、大数据特点3、大数据应用场景4、大数据发展前景5、企业数据部的业务流程分析6、大数据部门组织结构二、从Hadoop框架讨论大数据生态1、Hadoop是什么2、Hadoop

蓦然_·2023-04-05 13:51

flume安装配置与应用

若需要相应的其他工具的配置，详细请看《hadoop大数据生态圈工具配置与应用》文章目录1、flume安装配置2、初步自定义采集方案测试flume负载均衡测试案例日志采集1、flume安装配置解压出来，mv

侬本多情。·2023-04-05 03:24

Databend 开源周报第 83 期

SupportforWebHDFSHDFS是大数据生态中流行的分布式文件系统，也是Databend支持的存储后端之一。但要在此前的实现中，如果要访问HD

Databend·2023-04-04 21:10

云上大数据存储：探究 JuiceFS 与 HDFS 的异同

HDFS作为Hadoop提供存储组件，已经成为大数据生态里面数据存储最常用的选择，通常在机房环境部署。JuiceFS是一个基于对象存储的分布式文件系统，用户可以在云上快速地搭建按需扩容的弹性文件系统。

Juicedata·2023-04-04 13:19

大数据开发之Hadoop学习1---从Hadoop框架讨论大数据生态

从Hadoop框架讨论大数据生态目录从Hadoop框架讨论大数据生态2.1Hadoop是什么2.2Hadoop发展历史（了解）2.3Hadoop三大发行版本（了解）2.4Hadoop的优势（4高）2.5Hadoop

Lcreator·2023-04-03 20:56

Flink-Yarn安装及使用

而在目前大数据生态中，国内应用最为广泛的资源管理平台就是YARN了。所以接下来我们就将

  ·2023-04-03 17:14

zookeeper的出现背景、名称由来、用途以及数据模型和状态stat属性

zookeeper名字的由来大数据生态系统里的很多组件的标志都是某种动物或者昆虫，比如hadoop就是，hive就是。

alexlee666·2023-04-02 20:42

SeaTunnel 与 StarRocks 生态融合，让大数据处理回归“简单”！

大数据生态呼唤“简单”的回归。在大数据生态系统中，上下游集成非常重要，是让一切回归简单的重要途径。近期，数据集成平台ApacheSeaTunnel已完

SeaTunnel·2023-04-02 05:28

大数据Hadoop入门03——HDFS分布式文件系统基础

是ApacheHadoop核心组件之一，作为大数据生态圈最底层的分布式存储服务而存在。也可以说大数据首先要解决的问题就是海量数据的存储问题。HDFS主要是解决大数据如何存储问题的。

程序猿七度·2023-04-01 02:55

大数据计算生态之数据计算（二）

导读：大数据计算发展至今，已经形成了一个百花齐放的大数据生态，通用计算、定制开发，批量处理、实时计算，关系查询、图遍历以及机器学习等等，我们都可以找到各种对应的计算引擎来协助我们处理这些任务。

程小舰·2023-03-30 17:07

大数据计算生态之数据存储

导读：大数据计算发展至今，已经形成了一个百花齐放的大数据生态，通用计算、定制开发，批量处理、实时计算，关系查询、图遍历以及机器学习等等，我们都可以找到各种对应的计算引擎来协助我们处理这些任务。

程小舰·2023-03-30 16:37

大数据计算生态之数据计算（一）

导读：大数据计算发展至今，已经形成了一个百花齐放的大数据生态，通用计算、定制开发，批量处理、实时计算，关系查询、图遍历以及机器学习等等，我们都可以找到各种对应的计算引擎来协助我们处理这些任务。

程小舰·2023-03-30 16:37

Alluxio-基于内存的虚拟分布式存储系统

Alluxio是内存为中心的架构，以内存速度统一了数据访问速度，使得数据的访问速度能比现有方案快几个数量级,为大数据软件栈带来了显著的性能提升在大数据生态系统中，Alluxio位于数据驱动框架或应用（如

机器爱上学习·2023-03-30 13:53

大数据生态体系产品(3) - HBase的架构与高性能存储

文章目录1.HBase的诞生1.1设计模型1.2非关系数据库NoSQL2.HBase的可伸缩架构2.1HRegion2.2HRegionServer2.3HMaster2.4数据写入过程3.HBase的可扩展数据模型4.HBase的高性能存储4.1数据存储4.2数据读取1.HBase的诞生 Google发表GFS、MapReduce、BigTable三篇论文，号称“三驾马车”，开启了大数据的时代

小爱玄策·2023-03-29 20:38

大数据生态体系产品(2) - Spark的架构与原理

文章目录1.Spark的诞生2.弹性数据集RDD3.Spark的生态体系4.Spark高效计算的原理剖析4.1计算阶段4.2shuffle5.Spark的执行过程1.Spark的诞生 Spark在2012年左右开始流行，那时内存的容量提升和成本降低已经比MapReduce出现的十年前强了一个数量级，Spark优先使用内存的条件已经成熟；其次，使用大数据进行机器学习的需求越来越强烈，不再是早先年那

小爱玄策·2023-03-29 20:37

大数据框架之Hadoop：入门（二）从Hadoop框架讨论大数据生态

第2章从Hadoop框架讨论大数据生态2.1Hadoop是什么Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决，海量数据的存储和海量数据的分析计算问题。

yiluohan0307·2023-03-22 11:33

zookeeper源码分析系列一开篇基础知识剖析

zookeeper进行剖析.一、ZooKeeper总体介绍1.1、什么是zookeeperZooKeeper是一个分布式的，开放源码的分布式应用程序协同服务+存储系统,同时是一款世界级的优秀开源产品，在大数据生态系统中

meng_philip123·2023-03-20 04:40

Flink on Yarn模式部署

而在目前大数据生态中，国内应用最为广泛的资源管理平台就是YARN了。所以接下来介绍的是YARN平台上Flink是如何集成

陈小哥cw·2023-03-19 11:20

Hologres揭秘:深度解析高效率分布式查询引擎

Hologres（中文名交互式分析）是阿里云自研的一站式实时数仓，这个云原生系统融合了实时服务和分析大数据的场景，全面兼容PostgreSQL协议并与大数据生态无缝打通，能用同一套数据架构同时支持实时写入实时查询以及实时离线联邦分析

阿里云Hologres·2023-03-17 11:26

欢迎来到大数据时代-----赶快来了解一些大数据的基础知识

Hadoop离线是大数据生态圈的核心与基石，是整个大数据的入门。linux、hadoop、hive三者形成一体，掌握这些知识就可以独立基于数据仓库是实现离线数据分析的可视化报表开发。

Aggressive-Cute·2023-03-09 21:15

Hadoop 及Spark 分布式HA运行环境搭建

作者：京东物流秦彪工欲善其事必先利其器，在深入学习大数据相关技术之前，先手动从0到1搭建一个属于自己的本地Hadoop和Spark运行环境，对于继续研究大数据生态圈各类技术具有重要意义。

·2023-02-21 11:56

Hadoop项目/生态

大数据生态Theprojectincludesthesemodules:HadoopCommonHadoopDistributedFileSystem(HDFS™)HadoopYARNHadoopMapReduceOtherHadoop-relatedprojectsatApacheinclude

心無旁騖丶·2023-02-19 01:09

Apache Spark + 海豚调度：PB 级数据调度挑战，教你如何构建高效离线工作流

在大数据开源技术领域，以Hadoop为核心的大数据生态系统面对海量数据也不断发展与迭代，大数据处理流程中的各个开源组件，也一起开启了狂飙突进的大数据时代，推动整个行业开启了数字化变革之路。

·2023-02-18 17:17

从0开始学大数据总结笔记：2、大数据生态体系主要产品原理与架构

我们常常意识不到问题的存在，直到有人解决了这些问题。上面所有这些技术在实际部署的时候，通常会部署在同一个集群中，某台服务器可能运行着HDFS的DataNode进程，负责HDFS的数据存储；同时也运行着Yarn的NodeManager，负责计算资源的调度管理；而MapReduce、Spark、Storm、Flink这些批处理或者流处理大数据计算引擎则通过Yarn的调度，运行在NodeManager的

qililong88·2023-02-04 17:49

HADOOP大数据技术栈简介

一、大数据技术图谱大数据.jpgHadoopHadoop狭义指Apacha的一款软件，广义指的是Hadoop大数据生态圈。Hadoop三大组件：HDFS、YARN、MapReduce。

奋斗的韭菜汪·2023-02-02 15:54

数据科学之路（8）不得不说的Tez

是跟MapReduce和Spark一样都是大数据生态中的计算框架吗？其运作原理又是什么呢？

LiuShaodong·2023-02-02 14:39

大数据技术之Hadoop（入门）

大数据技术之Hadoop（入门）一从Hadoop框架讨论大数据生态1.1Hadoop是什么1.2Hadoop发展历史1.3Hadoop三大发行版本1.4Hadoop的优势1.5Hadoop组成1.5.1HDFS

我是超级小白·2023-02-02 14:25

TiDB x 阿里云丨最长 30 天，最高节省 ¥33,000，免费试用云数据库 TiDB 的机会来啦！

云数据库TiDB是PingCAP和阿里云深度技术融合的产品，基于阿里云环境部署优化，具备云原生、一键扩缩容、金融级高可用、兼容MySQL协议和大数据生态等重要特性，提供OLTP规模化和实

·2023-02-02 14:01

Maven下载jar包

不过对于刚接触大数据生态的python玩家而言就比较痛苦了，使用时经常缺少各种jar包，或者版本不符。好在有与pip类似的工具maven,本文就来介绍如何使用maven。

我傻笑你跑掉·2023-02-01 04:50

Hologres揭秘：高性能原生加速MaxCompute核心原理

Hologres（中文名交互式分析）是阿里云自研的一站式实时数仓，这个云原生系统融合了实时服务和分析大数据的场景，全面兼容PostgreSQL协议并与大数据生态无缝打通，能用同一套数据架构同时支持实时写入实时查询以及实时离线联邦分析

阿里云Hologres·2023-01-30 15:05

推荐频道

大数据生态

大数据测试基本知识

Databend 开源周报 第 83 期

大数据开发：流处理组件Flume、Kafka对比

使用Apache SeaTunnel进行数据库同步（MySQL to MySQL）

基于开放共享的自主研发—MaxCompute 持续增强生态与开放性建设

【博云+智领云】携手云原生大数据领域，开展深度合作

【大数据之路1】Hadoop 入门

大数据组件笔记 -- Hadoop

什么是机器学习？有哪些算法和分类？又有哪些应用？看完你就懂了

直播｜SeaTunnel 与 StarRocks 生态融合--让大数据处理回归「简单」

大数据大纲&大数据生态圈所涉及的技术

大数据初识

12年经验的大数据架构师，想和你谈谈…

Spark+Flink+Iceberg打造湖仓一体架构实践探索

快速理解zookeeper功能&应用&选举机制

Hadoop HDFS 分布式文件系统

Apache 首次亚洲技术峰会: 大数据场大咖详细介绍

盘点Hadoop生态中 6 个核心的大数据组件

大数据组件Hive性能测试和性能优化

《Scala开发快速入门》书籍出版

大数据概论

flume安装配置与应用

Databend 开源周报 第 83 期

云上大数据存储：探究 JuiceFS 与 HDFS 的异同

大数据开发之Hadoop学习1---从Hadoop框架讨论大数据生态

Flink-Yarn安装及使用

zookeeper的出现背景、名称由来、用途以及数据模型和状态stat属性

SeaTunnel 与 StarRocks 生态融合，让大数据处理回归“简单”！

大数据Hadoop入门03——HDFS分布式文件系统基础

大数据计算生态之数据计算（二）

大数据计算生态之数据存储

大数据计算生态之数据计算（一）

Alluxio-基于内存的虚拟分布式存储系统

大数据生态体系产品(3) - HBase的架构与高性能存储

大数据生态体系产品(2) - Spark的架构与原理

大数据框架之Hadoop：入门（二）从Hadoop框架讨论大数据生态

zookeeper源码分析系列一开篇基础知识剖析

Flink on Yarn模式部署

Hologres揭秘:深度解析高效率分布式查询引擎

欢迎来到大数据时代-----赶快来了解一些大数据的基础知识

Hadoop 及Spark 分布式HA运行环境搭建

Hadoop项目/生态

Apache Spark + 海豚调度：PB 级数据调度挑战，教你如何构建高效离线工作流

从0开始学大数据总结笔记：2、大数据生态体系主要产品原理与架构

HADOOP大数据技术栈简介

数据科学之路（8）不得不说的Tez

大数据技术之Hadoop（入门）

TiDB x 阿里云丨最长 30 天，最高节省 ¥33,000，免费试用云数据库 TiDB 的机会来啦！

Maven下载jar包

Hologres揭秘：高性能原生加速MaxCompute核心原理

Databend 开源周报第 83 期

Databend 开源周报第 83 期