E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓数据湖
ClickHouse建表优化
1.数据类型1.1时间字段的类型建表时能用数值型或日期时间型表示的字段就不要用字符串,全String类型在以Hive为中心的
数仓
建设中常见,但ClickHouse环境不应受此影响。
shangjg3
·
2023-11-19 05:42
ClickHouse
clickhouse
大数据
数据仓库
sql
PieCloudDB Database 再次升级!社区版全新版本发布
拓数派正式发布大模型数据计算系统「πDataCS」,基于云原生技术重构数据存储和计算,重塑
数仓
、向量和机器学习等数据计算引擎,实现“一份数据存储,多引擎数据计算”。
OpenPie|拓数派
·
2023-11-18 21:27
数据库
云原生
大数据
领先一步,效率翻倍:PieCloudDB Database 预聚集特性让查询速度飞起来!
为此,拓数派推出了首款数据计算引擎PieCloudDBDatabase,作为一款全新的云原生虚拟
数仓
,旨在提供更高效、更灵活的数据处理解决方案。
OpenPie|拓数派
·
2023-11-18 21:56
数据库
云原生
「校园 Pie」 系列活动正式启航,首站走进南方科技大学!
在「校园Pie」系列活动中,PieCloudDB社区将携拓数派技术专家,社区大咖走进国内各大高校,分享行业动态与前沿技术,产业界的案例与应用分享,云原生数据库技术的应用与实践、云原生虚拟
数仓
PieCloudDB
OpenPie|拓数派
·
2023-11-18 21:52
科技
云原生
数据库
阿里云云原生一体化
数仓
- 数据安全能力解读
MaxCompute产品简介MaxCompute是一款多功能、低成本、高性能、高可靠、易于使用的数据仓库和支持全部
数据湖
能力的大数据平台,支持超大规模、serverless和完善的多租户能力,内建企业级安全能力和管理功能
阿里云云栖号
·
2023-11-18 21:28
大数据
云计算
阿里云
SaprkStreaming广告日志分析实时
数仓
一、系统简介参考尚硅谷的spark教程中的需求,参考相关思路,详细化各种代码,以及中间很多逻辑的实现方案采用更加符合项目开发的方案,而不是练习,包括整体的流程也有很大的差别,主要是参考需求描述和部分代码功能实现。需求一:广告黑名单实现实时的动态黑名单机制:将每天对某个广告点击超过100次的用户拉黑。注:黑名单保存到MySQL中。1)读取Kafka数据之后,并对MySQL中存储的黑名单数据做校验;2
是阿威啊
·
2023-11-18 21:50
scala
spark
mysql
kafka
zookeeper
实时
数仓
入门训练营:Hologres性能调优实践
简介:《实时
数仓
入门训练营》由阿里云研究员王峰、阿里云资深技术专家金晓军、阿里云高级产品专家刘一鸣等实时计算Flink版和Hologres的多名技术/产品一线专家齐上阵,合力搭建此次训练营的课程体系,精心打磨课程内容
阿里云云栖号
·
2023-11-17 14:11
云栖号技术分享
Hologres
存储
Hologres揭秘:深度解析高效率分布式查询引擎
Hologres(中文名交互式分析)是阿里云自研的一站式实时
数仓
,这个云原生系统融合了实时服务
阿里云云栖号
·
2023-11-17 14:11
云栖号技术分享
实时数仓
Hologres
云原生
Hologres揭秘:高性能原生加速MaxCompute核心原理
Hologres(中文名交互式分析)是阿里云自研的一站式实时
数仓
,这个云原生系统融合了实时服务和分析大数据的场景,全面兼容PostgreSQL协议并与大数据生态无缝打通,能用同一套数据架构同时支持实时写入实时查询以及实时离线联邦分析
阿里云云栖号
·
2023-11-17 14:11
云栖号技术分享
Hologres
MaxCompute
首次揭秘云原生Hologres存储引擎
概要:刚刚结束的2020天猫双11中,MaxCompute交互式分析(Hologres)+实时计算Flink搭建的云原生实时
数仓
首次在核心数据场景落地,为大数据平台创下一项新纪录。
阿里云技术
·
2023-11-17 14:09
数据库
大数据
Hologres 揭秘:深度解析高效率分布式查询引擎
Hologres(中文名交互式分析)是阿里云自研的一站式实时
数仓
,这个云原生系统融合了实时服务和分析大数据的场景,全面兼容PostgreSQL协议并与大数据生态无缝打通,能用同一套数据架构同时支持实时写入实时查询以及实时离线联邦分析
阿里云技术
·
2023-11-17 14:09
大数据
云服务
阿里云
正确设计Hologres实时
数仓
,性能提升10倍+
本文将会讲述阿里巴巴零售通数据平台如何优化Hologres实时
数仓
,达到性能提升10倍+的效果,完美支撑双11营销活动、实时数据大屏等核心场景。
aliyunhologres
·
2023-11-17 14:29
经典用户案例
flink
大数据
数据仓库
阿里云
Hologres揭秘:深度解析高效率分布式查询引擎
Hologres(中文名交互式分析)是阿里云自研的一站式实时
数仓
,这个云原生系统融合了实时服务
阿里开发者
·
2023-11-17 14:28
存储
SQL
缓存
分布式计算
Cloud
Native
NoSQL
大数据
关系型数据库
PostgreSQL
索引
hologres基础知识一文全
hologres基础知识一文全1功能特性1.1多场景查询分析1.2原生实时
数仓
1.3企业级运维能力1.4生态与可扩展性2hologres架构2.1传统分布式系统2.2hologres基础架构2.2.1计算层
Direction_Wind
·
2023-11-17 14:57
hologres
大数据
什么是
数据湖
,
数据湖
和数据仓库的区别在哪
数据仓库是什么数据仓库
数据湖
数据来自事务系统、运营数据库和业务线应用程序的清洗过结构化数据来自IoT设备、网站、移动应用程序、社交媒体和企业应用程序的原始数据架构设计在数据仓库实施之前(写入型Schema
我去探险了
·
2023-11-17 13:45
数据湖技术
数据仓库
hive
big
data
云上11.11|腾讯云大数据产品双11盛惠 爆品首单1折起大回馈
11.11云上盛惠多款大数据产品特惠专场腾讯云BI、ElasticsearchService、流计算Oceanus、腾讯云数据仓库TCHouse-D、移动推送、
数据湖
计算DLC首月秒杀1元起、新客首购1.2
腾讯云大数据
·
2023-11-17 11:24
腾讯云
大数据
云计算
CloudCanal和Canal的区别
研发团队CloudCanal核心团队成员来自阿里巴巴中间件和数据库团队,长期从事分布式数据库、数据库中间件、应用中间件工作,包括阿里云分布式数据库中间件产品DRDS、内部核心系统数据同步工具精卫、阿里云
数据湖
产品
ClouGence
·
2023-11-17 10:31
数据库
java
大数据
Python大数据之linux学习总结——day08_hive04
hive04hive查询语法结构:类sql基本查询知识点:数据准备:
数仓
分层思想:课堂练习:类sql多表查询知识点:数据准备:练习:hive其他join操作知识点:示例:hive其他排序操作[练习]知识点
笨小孩124
·
2023-11-17 09:37
hive
学习总结
python
大数据
linux
二百零三、Flume——Flume实时采集数据频率为1s的高频率Kafka数据直接写入ODS层表的HDFS文件路径下
一、目的在离线
数仓
中,需要用Flume去采集Kafka中的数据,然后写入HDFS中。由于每种数据类型的频率、数据大小、数据规模不同,因此每种数据的采集需要不同的Flume配置文件。
天地风雷水火山泽
·
2023-11-17 07:22
Flume
flume
大数据
《网易-数据中台》学习笔记
《网易-数据中台》学习笔记1.大数据发展历程1.1数据仓库1.2Hadoop-
数据湖
1.3大数据平台1.4数据中台1.5Next:大数据+人工智能2.数据仓库2.1数据仓库建模2.1.1E-R模型2.1.2
杰克jk船长
·
2023-11-17 07:15
数据治理
学习
笔记
数据仓库
大数据
华为云大数据智能
数据湖
FusionInsight
华为预计,到2025年全球每年新增数据存储量为180ZB,企业的数据利用率将会达到86%。到2030年数据应用(包括大数据和AI)将会给全球带来13万亿美元的收益,为全球经济贡献16%的GDP增长。其中,传统行业将会成为未来10年数据应用增速最快、受益最大的主体。未来是一个高速发展的时代,掌握最新最有用的信息就能赶上时代的风口,这时候就需要大数据分析,华为云大数据满足你企业对数据分析的一切需求。通
硬核技术控
·
2023-11-17 04:03
人工智能
hive
数仓
-数据的质量管理
版本20231116要理解数据的质量管理,应具备hive数据仓库的相关知识文章目录1.理解什么是数据的质量管理:2.数据质量管理的规划数据质量标准的分类3.数据质量管理解决方案1.ods层的数据质量校验1)首先在hive上建立一个仓库,添加数据质量监控表2)然后建立检查检查表3)创建数据检验曾量表通用的脚本4)创建数据检测全量表的脚本5)脚本的运行2.dwd层的数据质量校验1)建立dwd层校验表2
江南正晓时
·
2023-11-17 01:33
hive
hadoop
数据仓库
Hudi
数据湖
相关资料
目录ApacheHudi社区ApacheHudi入门系列ApacheHudi实战
数据湖
扩展ApacheHudi生态ApacheHudi源码解读hudi各类资料:字节电商场景基于ApacheHudi的落湖实践阿里云
后季暖
·
2023-11-16 23:46
1024程序员节
【云栖2023】姜伟华:Hologres Serverless之路——揭秘弹性计算组
本文根据2023云栖大会演讲实录整理而成,演讲信息如下:演讲人:姜伟华|阿里云计算平台事业部资深技术专家、阿里云实时
数仓
Hologres研发负责人演讲主题:HologresServerless之路——揭秘弹性计算组实时化成为了大数据平台的核心演进趋势
阿里云大数据AI技术
·
2023-11-16 12:29
serverless
云原生
Flink 整合 hudi
它广泛应用于大数据领域,为
数据湖
环境下的数据操作提供了强大的支持。不仅可以存储数据,也可以将元数据存在在其中。
新手小农
·
2023-11-16 08:21
Flink
1.15.2
flink
大数据
Databend 开源周报第 119 期
Databend是一款现代云
数仓
。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn。
Databend
·
2023-11-16 07:20
开源
数据库
AIGC
数据湖
实操讲解【 AI 训练加速】第十八讲:Fluid + JindoFS 对海量小文件的训练加速...
数据湖
技术圈本期导读:【AI训练加速】第十八讲主题:Fluid+JindoFS对海量小文件的训练加速讲师:辰山,阿里巴巴计算平台事业部EMR技术专家内容框架:海量小文件难题FluidJindoRuntime
Apache Spark中国社区
·
2023-11-15 22:41
html
大数据
python
tensorflow
github
数据湖
实操讲解【 AI 训练加速】第十七讲:Fluid + JindoFS 对 HDFS 上的数据进行训练加速...
数据湖
技术圈本期导读:【AI训练加速】第十七讲主题:Fluid+JindoFS对HDFS上的数据进行训练加速讲师:辰山,阿里巴巴计算平台事业部EMR技术专家内容框架:什么是Fluid+JindoFS(JindoRuntime
Apache Spark中国社区
·
2023-11-15 22:41
编程语言
kubernetes
github
html
大数据
Flink 1.12的CDC
基于Flink构建流批一体的实时
数仓
是目前数据仓库领域比较火的实践方案。随着Flink的不断迭代,其提供的一系列技术特性使得用户构建流批一体的应用变得越来越方便。
'煎饼侠
·
2023-11-15 19:56
Flink
数据仓库入门简介
一,数组仓库介绍数据仓库(英语:DataWarehouse,简称
数仓
、DW)是一个为数据分析而设计的企业级数据管理系统。它旨在支持企业决策过程中的数据分析和业务智能。
浮生夢
·
2023-11-15 17:12
数据仓库
StarRocks × Apache Flink:如何构建简单强大的实时
数仓
架构
当前在构建实时
数仓
时,由于数据源的多样性,需要使用不同的采集工具,如Flume、Canal、Logstash。对于不同的业务,我们通常会采用不同的分析引擎。
大数据技术架构
·
2023-11-15 16:27
大数据
数据库
人工智能
数据分析
java
【用户实践】openGauss5.0在某省医保局实时
数仓
应用
一、项目背景采用数据同步软件将各系统的数据库下的数据实时同步到openGauss数据库中;建立实时
数仓
;可以在实时
数仓
自行查询、分析、统计数据及报表;同时横向集成公共服务区和核心业务区生产库数据、集成其他委办局数据
renxyz
·
2023-11-15 12:11
数据库
Hive
数仓
数据质量治理
1.数据质量概述数据质量是数据创建价值的保障基石,高质量的数据为数据统计、分析和应用提供了可信任的必要条件。数据质量管理是指在数据创建、加工、使用和迁移等过程中,通过开展数据质量定义、过程控制、监控、问题分析和整改、评估和考核等一系列管理活动,提高数据质量以满足业务要求。可按照"谁创建,谁负责;谁加工,谁负责;谁提供,谁负责"的原则界定数据质量管理责任,由数据流转环节的各责任方对管辖范围内的数据质
笑看风云路
·
2023-11-15 10:58
hive
hive
大数据
数据仓库
数据质量
数据治理
数据湖
架构
数据湖
架构介绍
数据湖
(DataLake)是一个存储大量结构化和非结构化数据的集中式数据存储库。与传统的数据仓库不同,
数据湖
采用扁平化结构,将数据存储在原始形式下,不需要进行预处理或转化。
溟有常青木
·
2023-11-15 07:47
python
python
探索
数据湖
和大数据在亚马逊云服务云存储服务上的威力
数据湖
和亚马逊云服务云存储服务上的大数据是一个强大的组合,使组织能够充分发挥其数据的潜力。亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。
亚马逊云开发者
·
2023-11-15 05:02
大数据
Hadoop完全分布式安装
Hadoop完全分布式安装前言之前有搭建过一次Hadoop完全分布式集群但是没有记录,最近开始着手自己搭个模拟
数仓
需要搭建集群,趁此机会记录一下搭建的过程。
薇安娜
·
2023-11-15 05:43
Hadoop
hadoop
大数据
AWS 大数据实战 - 环境准备(一)
实验介绍本次实战内容将教大家如何使用AWS的大数据和
数据湖
的相关服务和组件,顺利完成大数据的收集,存储,处理,分析和可视化的完整的流程,主要会介绍以下几个AWS大数据服务:Lab1:实时流数据处理,基于
wzlinux
·
2023-11-15 03:34
数据库
可视化
大数据
java
数据分析
hive sql生成
数仓
分钟维表
目录一、建表ddl二、加工格式说明三、加工sql四、示例结果数据一、建表ddlcreatetabledim_pub_minute(date_timestampbigintcomment'时间戳',date_strstringcomment'时间-日期时分秒',day_strstringcomment'日期',time_strstringcomment'时分秒',hour_strstringcomm
chimchim66
·
2023-11-15 03:39
数据仓库
hive
sql
hadoop
大数据调度系统对比
0.前言有了数据平台,有了数据仓库,那就需要一个系统来调度和管理
数仓
的任务,因此调度系统的地位可见之重要。
Impl_Sunny
·
2023-11-14 21:01
调度管理
#
对比&选型
调度系统
Azkaban
实时
数仓
-Flink使用总结
阿里云实时计算Flink版是阿里云基于ApacheFlink构建的企业级、高性能实时大数据处理系统。具备一站式开发运维管理平台,支持作业开发、数据调试、运行与监控、自动调优、智能诊断等全生命周期能力。本期将对Flink的使用进行总结。1.Flink产品回顾阿里云实时计算Flink版是阿里云基于ApacheFlink构建的企业级、高性能实时大数据处理系统。具备一站式开发运维管理平台,支持作业开发、数
高阳很捷迅
·
2023-11-14 18:42
IT管理
数据分析
flink
大数据
实时数仓
数据仓库基础信息
数据仓库数据仓库概述什么是数据库什么是数据集市什么是数据仓库数据仓库和数据库的对比什么是
数据湖
数据存储架构数据处理工具聚焦如何把数据搬到湖里关注如何对湖中的数据进行分析、挖掘、利用
数据湖
和数据仓库的对比数据仓库的特点数据仓库是集成的数据仓库的数据是稳定的
daladalabao
·
2023-11-14 11:50
数据仓库
Hive工具的介绍(一)
一、Hive是什么要了解Hive是什么得先了解一下
数仓
(数据仓库)的概念,什么又是数据仓库呢?
xiaoxie_advent
·
2023-11-14 09:15
大数居
hadoop
数据仓库
大数据
Hive
数据仓库、
数仓
分层 01
1.数据仓库的基本概念数据仓库,英文名称为DataWarehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(DecisionSupport)。它出于分析性报告和决策支持目的而创建。数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。2.数据仓库的主要
啊策策
·
2023-11-14 06:17
Hive
数据仓库
数仓主要特征
数仓分层
数仓
分层的好处
分层好处:1,复杂问题简单化:将复杂的任务分解成多层来完成,每一层只处理简单的任务,方便定位问题2,减少重复开发:规范数据分层,通过中间层数据,能够减少极大的重复计算,增加计算一次的结果的重复性3,隔离原始数据:不论是数据的异常还是数据的敏感性,使真实数据与统计数据解耦开数据集市和数据仓库的区别:数据集市是微型数据仓库,通常有更少的数据,更少的主题,更少的历史数据,是部门级别的,一般只能为某个局部
Alienware^
·
2023-11-14 06:17
数据仓库
数据仓库
数仓
分层总结
数据仓库分为四层ods、dwd、dws、adsods层上是一些原始的数据,存放原始数据,直接加载原始日志、数据(事件表),保持数据原貌不作处理,也就是做一个备份的作用,不要解析数据创建支持LZO压缩的表:减少存储空间100g_10g\5g单双json创建分区表:防止全表扫描(导数据:全量、新增、新增和变化)dwd层是根据ods层表进行解析,然后清除脏数据,敏感信息的处理例如身份证脱敏,掩码、加密、
月升11
·
2023-11-14 06:41
数据仓库
hive
大数据
数据仓库
数据仓库之
数仓
分层及hive分层
目录一、数据仓库之
数仓
分层(一)为什么要分层?
javastart
·
2023-11-14 06:09
数据仓库
数据仓库
数据库
大数据
简单搞定
数仓
搭建:
数仓
分层
我们建议将数据仓库分为三层,自下而上为:数据引入层(ODS,OperationDataStore)、数据公共层(CDM,CommonDataModel)和数据应用层(ADS,ApplicationDataService)。数据仓库的分层和各层级用途如下图所示。数据引入层ODS(OperationDataStore):存放未经过处理的原始数据至数据仓库系统,结构上与源系统保持一致,是数据仓库的数据准
白枭
·
2023-11-14 06:08
数仓
bigdata
大数据开发
数据建模
数据仓库
数仓
分层介绍
文章目录
数仓
分层的意义是什么?
程少亭
·
2023-11-14 06:36
数据仓库
big
data
etl
数仓
(一)数据分层
文章目录数据分层好处数据运营层数据仓库层数据应用层事实表`(FactTable)`维表层(`Dimension`)表命名规则聚合粒度以及加工频率字段说明抽取方式字段命名规范数据表名命名规范表分区字段说明任务命名规范大厂分层架构爱奇艺SaaS收银运营
数仓
分层架构美团
数仓
分层架构网易云音乐
数仓
分层架构数据分层数据分层在建设数据仓库中是一个十分重要的环节
666呀
·
2023-11-14 06:05
数仓
数据仓库
数据挖掘
big
data
【数据仓库】
数仓
分层方法
文章目录一.
数仓
分层的意义1.清晰数据结构。2.减少重复开发3.方便数据血缘追踪4.把复杂问题简单化5.屏蔽原始数据的异常6.数据仓库的可维护性二.如何进行
数仓
分层?
roman_日积跬步-终至千里
·
2023-11-14 06:01
数据仓库
数据仓库
spark
大数据
上一页
9
10
11
12
13
14
15
16
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他