E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
大数据生态
大数据测试基本知识
大数据生态
圈1.基于hadoop的大数
小赖同学啊
·
2023-06-20 18:10
大数据
spark
分布式
Databend 开源周报 第 83 期
SupportforWebHDFSHDFS是
大数据生态
中流行的分布式文件系统,也是Databend支持的存储后端之一。但要在此前的实现中,如果要访问HD
Databend
·
2023-06-20 03:45
数据库
大数据开发:流处理组件Flume、Kafka对比
在这个数据爆发的移动互联网时代,数据流成为一种重要的数据产生形式,而针对于不断新增的流数据处理,
大数据生态
当中,也有相应的流处理组件,比如说Flume和kafka。
加米谷大数据张老师
·
2023-06-20 00:50
大数据
大数据
hadoop
kafka
flume
使用Apache SeaTunnel进行数据库同步(MySQL to MySQL)
目前,大数据体系里有各种各样的数据引擎,有
大数据生态
的Hadoop、Hive、Kudu、Kafka、HDFS,也有泛大数据库体系的MongoDB、Redis、ClickHouse、Doris,更有云上的
猿敲月下码
·
2023-06-17 10:50
数据库
mysql
seaTunnel
基于开放共享的自主研发—MaxCompute 持续增强生态与开放性建设
简介:MaxCompute是阿里巴巴自研的云原生数据仓库,同时也兼容大部分
大数据生态
系统。一个平台无法实现所有功能和解决所有问题,MaxCompute需持续增强生态与开放性建设,方能走得更远。
·
2023-06-16 15:50
后端
【博云+智领云】携手云原生大数据领域,开展深度合作
以Hadoop为中心的
大数据生态
系统从2006年开源以来,一直是大部分企业构建大数据平台的选择,不过这种传统选择随着人们的深入使用,出现的问题也越来越多,包括难以实现
LinkTime_Cloud
·
2023-06-16 12:12
大数据
云原生
智领云
博云
容器化
【大数据之路1】Hadoop 入门
1.Hadoop入门1.大数据概述1.大数据相关说明2.Hadoop及
大数据生态
圈3.Hadoop核心组件4.Hadoop生态圈5.集群安装模式6.Hadoop运行模式7.Hadoop工作流程8.Hadoop
程序员胖五
·
2023-06-13 18:13
大数据
hadoop
分布式
大数据组件笔记 -- Hadoop
文章目录一、Hadoop入门1.1基础架构1.2
大数据生态
圈二、Hadoop集群部署2.1准备2.2配置2.3启动2.4监控页面三、HDFS3.1组成架构3.2HDFSShell3.3HDFS客户端3.4HDFS
L小Ray想有腮
·
2023-06-13 04:02
BigData
什么是机器学习?有哪些算法和分类?又有哪些应用?看完你就懂了
作者:马海平于俊吕昕向海来源:大数据(ID:hzdashuju)导读:本文从大数据的概念讲起,主要介绍机器学习的基础概念,以及机器学习的发展过程,用一个形象的例子讲解
大数据生态
中的机器学习,并按照传统机器学习
hzbooks
·
2023-06-12 00:06
直播|SeaTunnel 与 StarRocks 生态融合--让大数据处理回归「简单」
大数据生态
呼唤“简单”的回归。在
大数据生态
系统中,上下游集成非常重要,是让一切回归简单的重要途径。近期,数据集成平台ApacheSeaTunnel已完成M
StarRocks_labs
·
2023-06-09 13:41
数据库
大数据大纲&
大数据生态
圈所涉及的技术
大数据特征:1)大量化(Volume):存储量大,增量大TB->PB2)多样化(Variety):来源多:搜索引擎,社交网络,通话记录,传感器格式多:(非)结构化数据,文本、日志、视频、图片、地理位置等3)快速化(Velocity):海量数据的处理需求不再局限在离线计算当中4)价值密度低(Value):但是这种价值需要在海量数据之上,通过数据分析与机器学习更快速的挖掘出来大数据带来的革命性变革:1
摩羯青春我掌握
·
2023-04-21 05:17
大数据初识
大数据应用领域互联网领域搜索引擎,推荐系统,广告系统电商领域用户画像,推荐系统,用户行为分析医疗领域流行病预测,病情分析视屏领域用户标签系统,视频分析,广告分析金融领域风控系统,欺诈分析学习方法自主学习能力,动手能力系统了解
大数据生态
系统技术框架找到学习切入点
BlackChen
·
2023-04-20 14:44
12年经验的大数据架构师,想和你谈谈…
菜鸟窝大数据讲师先后从事通信协议栈(C语言)、J2EE、Android等开发,曾在Nokia主导大型网关集群研发、近几年主要从事大数据及相关系统架构设计、擅长Hadoop
大数据生态
,尤其擅长图数据库及相关处
菜鸟窝
·
2023-04-20 10:42
Spark+Flink+Iceberg打造湖仓一体架构实践探索
数据湖-
大数据生态
杀青数据湖-
大数据生态
杀青数据仓库的痛点只能存储结构化数据,无法采集存储非结构化数据无法存储原始数据,所有的数据须经过ETL清洗过程离线数仓的数据表牵一发而动全身,数据调整工程量大实时数仓存储空间有限
架构师老狼
·
2023-04-15 23:13
快速理解zookeeper功能&应用&选举机制
-
大数据生态
系统里的很多组件的命名都是某种动物或者
Yangsc_o
·
2023-04-14 13:06
Hadoop HDFS 分布式文件系统
SecondaryNameNodeNameNode职责DataNode职责HDFS写数据流程HDFSHDFS(HadoopDistributedFileSystem),Hadoop分布式文件系统是ApacheHadoop的核心组件之一,作为
大数据生态
圈最底层的分布式存储
VenYy
·
2023-04-09 05:46
大数据平台
hadoop
hdfs
大数据
Apache 首次亚洲技术峰会: 大数据场大咖详细介绍
点击上方“开源社”关注我们|作者:巧贞,一只大猫|转载自:ALCBeijing|编辑:钱睿|设计:杨敏|责编:沈于蓝引言随着越来越多的企业开启数字化转型,大数据行业得到了前所未有的快速发展,大数据的繁荣给
大数据生态
的各技术也带来了前所未有的机遇与挑战
开源社
·
2023-04-08 07:49
分布式
大数据
编程语言
hadoop
java
盘点Hadoop生态中 6 个核心的大数据组件
大数据生态
圈中有很多优秀的组件,可谓琳琅满目,按组件类别可分为存储引擎、计算引擎,消息引擎,搜索引擎等;按应用场景可分为在线分析处理OLAP型,在线事务处理OLTP型,以及混合事务与分析处理HTAP型等
大数据技术架构
·
2023-04-07 00:32
分布式
大数据
hadoop
spark
java
大数据组件Hive性能测试和性能优化
部门主要是给一些国产芯片做服务器的软件性能测试,包括
大数据生态
软件Hadoop、Hbase、Hive等。本人负责的是Hive软件的性能测试和性能优化,最终对比Hive在x86和arm服务器上的性能。
Wilbur.Dreamer
·
2023-04-06 19:29
大数据
性能优化
性能测试
hive
hadoop
sql
《Scala开发快速入门》书籍出版
ApacheSpark、ApacheKafka等基于Scala语言实现的框架在
大数据生态
圈内占有举足轻重的地位,它们一定程度上引领着大数据最前沿技术方向,另外Akka、ApacheGearpump等基于
zhouzhihubeyond
·
2023-04-05 19:49
Scala编程
Scala入门到精通
Scala
scala
编程语言
大数据概论
目录一、大数据概论1、大数据概念2、大数据特点3、大数据应用场景4、大数据发展前景5、企业数据部的业务流程分析6、大数据部门组织结构二、从Hadoop框架讨论
大数据生态
1、Hadoop是什么2、Hadoop
蓦然_
·
2023-04-05 13:51
Hadoop
大数据
Hadoop
大数据概论
大数据介绍
flume安装配置与应用
若需要相应的其他工具的配置,详细请看《hadoop
大数据生态
圈工具配置与应用》文章目录1、flume安装配置2、初步自定义采集方案测试flume负载均衡测试案例日志采集1、flume安装配置解压出来,mv
侬本多情。
·
2023-04-05 03:24
#
flume
big
data
hadoop
Databend 开源周报 第 83 期
SupportforWebHDFSHDFS是
大数据生态
中流行的分布式文件系统,也是Databend支持的存储后端之一。但要在此前的实现中,如果要访问HD
Databend
·
2023-04-04 21:10
数据库
云上大数据存储:探究 JuiceFS 与 HDFS 的异同
HDFS作为Hadoop提供存储组件,已经成为
大数据生态
里面数据存储最常用的选择,通常在机房环境部署。JuiceFS是一个基于对象存储的分布式文件系统,用户可以在云上快速地搭建按需扩容的弹性文件系统。
Juicedata
·
2023-04-04 13:19
大数据
hdfs
hadoop
大数据开发之Hadoop学习1---从Hadoop框架讨论
大数据生态
从Hadoop框架讨论
大数据生态
目录从Hadoop框架讨论
大数据生态
2.1Hadoop是什么2.2Hadoop发展历史(了解)2.3Hadoop三大发行版本(了解)2.4Hadoop的优势(4高)2.5Hadoop
Lcreator
·
2023-04-03 20:56
大数据开发
大数据
hadoop
Flink-Yarn安装及使用
而在目前
大数据生态
中,国内应用最为广泛的资源管理平台就是YARN了。所以接下来我们就将
·
2023-04-03 17:14
flink
hadoop
大数据
yarn
zookeeper的出现背景、名称由来、用途以及数据模型和状态stat属性
zookeeper名字的由来
大数据生态
系统里的很多组件的标志都是某种动物或者昆虫,比如hadoop就是,hive就是。
alexlee666
·
2023-04-02 20:42
SeaTunnel 与 StarRocks 生态融合,让大数据处理回归“简单”!
大数据生态
呼唤“简单”的回归。在
大数据生态
系统中,上下游集成非常重要,是让一切回归简单的重要途径。近期,数据集成平台ApacheSeaTunnel已完
SeaTunnel
·
2023-04-02 05:28
大数据
etl
数据库
大数据Hadoop入门03——HDFS分布式文件系统基础
是ApacheHadoop核心组件之一,作为
大数据生态
圈最底层的分布式存储服务而存在。也可以说大数据首先要解决的问题就是海量数据的存储问题。HDFS主要是解决大数据如何存储问题的。
程序猿七度
·
2023-04-01 02:55
大数据技术
hadoop
大数据
hdfs
大数据计算生态之数据计算(二)
导读:大数据计算发展至今,已经形成了一个百花齐放的
大数据生态
,通用计算、定制开发,批量处理、实时计算,关系查询、图遍历以及机器学习等等,我们都可以找到各种对应的计算引擎来协助我们处理这些任务。
程小舰
·
2023-03-30 17:07
大数据原理与应用
spark
hadoop
mapreduce
大数据计算生态之数据存储
导读:大数据计算发展至今,已经形成了一个百花齐放的
大数据生态
,通用计算、定制开发,批量处理、实时计算,关系查询、图遍历以及机器学习等等,我们都可以找到各种对应的计算引擎来协助我们处理这些任务。
程小舰
·
2023-03-30 16:37
大数据
数据库
分布式
大数据计算生态之数据计算(一)
导读:大数据计算发展至今,已经形成了一个百花齐放的
大数据生态
,通用计算、定制开发,批量处理、实时计算,关系查询、图遍历以及机器学习等等,我们都可以找到各种对应的计算引擎来协助我们处理这些任务。
程小舰
·
2023-03-30 16:37
大数据原理与应用
大数据
hadoop
spark
Alluxio-基于内存的虚拟分布式存储系统
Alluxio是内存为中心的架构,以内存速度统一了数据访问速度,使得数据的访问速度能比现有方案快几个数量级,为大数据软件栈带来了显著的性能提升在
大数据生态
系统中,Alluxio位于数据驱动框架或应用(如
机器爱上学习
·
2023-03-30 13:53
数据库
hadoop
服务器
alluxio
分布式内存文件系统
hadoop
hdfs
hive
大数据生态
体系产品(3) - HBase的架构与高性能存储
文章目录1.HBase的诞生1.1设计模型1.2非关系数据库NoSQL2.HBase的可伸缩架构2.1HRegion2.2HRegionServer2.3HMaster2.4数据写入过程3.HBase的可扩展数据模型4.HBase的高性能存储4.1数据存储4.2数据读取1.HBase的诞生 Google发表GFS、MapReduce、BigTable三篇论文,号称“三驾马车”,开启了大数据的时代
小爱玄策
·
2023-03-29 20:38
大数据技术
hbase
big
data
架构
大数据生态
体系产品(2) - Spark的架构与原理
文章目录1.Spark的诞生2.弹性数据集RDD3.Spark的生态体系4.Spark高效计算的原理剖析4.1计算阶段4.2shuffle5.Spark的执行过程1.Spark的诞生 Spark在2012年左右开始流行,那时内存的容量提升和成本降低已经比MapReduce出现的十年前强了一个数量级,Spark优先使用内存的条件已经成熟;其次,使用大数据进行机器学习的需求越来越强烈,不再是早先年那
小爱玄策
·
2023-03-29 20:37
大数据技术
spark
big
data
架构
大数据框架之Hadoop:入门(二)从Hadoop框架讨论
大数据生态
第2章从Hadoop框架讨论
大数据生态
2.1Hadoop是什么Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决,海量数据的存储和海量数据的分析计算问题。
yiluohan0307
·
2023-03-22 11:33
大数据框架之Hadoop
hadoop
大数据
分布式
zookeeper源码分析系列一开篇基础知识剖析
zookeeper进行剖析.一、ZooKeeper总体介绍1.1、什么是zookeeperZooKeeper是一个分布式的,开放源码的分布式应用程序协同服务+存储系统,同时是一款世界级的优秀开源产品,在
大数据生态
系统中
meng_philip123
·
2023-03-20 04:40
Flink on Yarn模式部署
而在目前
大数据生态
中,国内应用最为广泛的资源管理平台就是YARN了。所以接下来介绍的是YARN平台上Flink是如何集成
陈小哥cw
·
2023-03-19 11:20
flink
大数据
big
data
hadoop
flink
Hologres揭秘:深度解析高效率分布式查询引擎
Hologres(中文名交互式分析)是阿里云自研的一站式实时数仓,这个云原生系统融合了实时服务和分析大数据的场景,全面兼容PostgreSQL协议并与
大数据生态
无缝打通,能用同一套数据架构同时支持实时写入实时查询以及实时离线联邦分析
阿里云Hologres
·
2023-03-17 11:26
欢迎来到大数据时代-----赶快来了解一些大数据的基础知识
Hadoop离线是
大数据生态
圈的核心与基石,是整个大数据的入门。linux、hadoop、hive三者形成一体,掌握这些知识就可以独立基于数据仓库是实现离线数据分析的可视化报表开发。
Aggressive-Cute
·
2023-03-09 21:15
大数据知识的学习与总结
big
data
大数据
linux
Hadoop 及Spark 分布式HA运行环境搭建
作者:京东物流秦彪工欲善其事必先利其器,在深入学习大数据相关技术之前,先手动从0到1搭建一个属于自己的本地Hadoop和Spark运行环境,对于继续研究
大数据生态
圈各类技术具有重要意义。
·
2023-02-21 11:56
Hadoop项目/生态
大数据生态
Theprojectincludesthesemodules:HadoopCommonHadoopDistributedFileSystem(HDFS™)HadoopYARNHadoopMapReduceOtherHadoop-relatedprojectsatApacheinclude
心無旁騖丶
·
2023-02-19 01:09
Apache Spark + 海豚调度:PB 级数据调度挑战,教你如何构建高效离线工作流
在大数据开源技术领域,以Hadoop为核心的
大数据生态
系统面对海量数据也不断发展与迭代,大数据处理流程中的各个开源组件,也一起开启了狂飙突进的大数据时代,推动整个行业开启了数字化变革之路。
·
2023-02-18 17:17
从0开始学大数据总结笔记:2、
大数据生态
体系主要产品原理与架构
我们常常意识不到问题的存在,直到有人解决了这些问题。上面所有这些技术在实际部署的时候,通常会部署在同一个集群中,某台服务器可能运行着HDFS的DataNode进程,负责HDFS的数据存储;同时也运行着Yarn的NodeManager,负责计算资源的调度管理;而MapReduce、Spark、Storm、Flink这些批处理或者流处理大数据计算引擎则通过Yarn的调度,运行在NodeManager的
qililong88
·
2023-02-04 17:49
大数据
HADOOP大数据技术栈简介
一、大数据技术图谱大数据.jpgHadoopHadoop狭义指Apacha的一款软件,广义指的是Hadoop
大数据生态
圈。Hadoop三大组件:HDFS、YARN、MapReduce。
奋斗的韭菜汪
·
2023-02-02 15:54
数据科学之路(8)不得不说的Tez
是跟MapReduce和Spark一样都是
大数据生态
中的计算框架吗?其运作原理又是什么呢?
LiuShaodong
·
2023-02-02 14:39
大数据技术之Hadoop(入门)
大数据技术之Hadoop(入门)一从Hadoop框架讨论
大数据生态
1.1Hadoop是什么1.2Hadoop发展历史1.3Hadoop三大发行版本1.4Hadoop的优势1.5Hadoop组成1.5.1HDFS
我是超级小白
·
2023-02-02 14:25
TiDB x 阿里云丨最长 30 天,最高节省 ¥33,000,免费试用云数据库 TiDB 的机会来啦!
云数据库TiDB是PingCAP和阿里云深度技术融合的产品,基于阿里云环境部署优化,具备云原生、一键扩缩容、金融级高可用、兼容MySQL协议和
大数据生态
等重要特性,提供OLTP规模化和实
·
2023-02-02 14:01
tidb
Maven下载jar包
不过对于刚接触
大数据生态
的python玩家而言就比较痛苦了,使用时经常缺少各种jar包,或者版本不符。好在有与pip类似的工具maven,本文就来介绍如何使用maven。
我傻笑你跑掉
·
2023-02-01 04:50
Hologres揭秘:高性能原生加速MaxCompute核心原理
Hologres(中文名交互式分析)是阿里云自研的一站式实时数仓,这个云原生系统融合了实时服务和分析大数据的场景,全面兼容PostgreSQL协议并与
大数据生态
无缝打通,能用同一套数据架构同时支持实时写入实时查询以及实时离线联邦分析
阿里云Hologres
·
2023-01-30 15:05
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他