E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
实时计算(数仓)
Flink CDC 在阿里云
实时计算
Flink版的云上实践
摘要:本文整理自阿里云高级开发工程师,ApacheFlinkCommitter阮航老师在FlinkForwardAsia2024生产实践(三)专场中的分享,主要分为以下四个方面:一、FlinkCDC&
实时计算
·
2025-03-26 03:19
flink大数据实时计算
2024年河南省职业院校 技能大赛高职组 “大数据分析与应用” 赛项任务书(四)
2024年河南省职业院校技能大赛高职组“大数据分析与应用”赛项任务书(四))背景描述:任务一:Hadoop完全分布式安装配置(25分)任务二:离线数据处理(25分)子任务一:数据抽取任务三:数据采集与
实时计算
落寞的魚丶
·
2025-03-25 19:32
大数据应用开发赛项
数据分析
数据挖掘
高职组
2024年河南职业技能大赛
大数据分析与应用
尚硅谷大数据项目【电商
数仓
6.0】-Kafka安装-3
解压tar-zxvf/opt/software/kafka_2.12-3.3.1.tgz-C/opt/module/mvkafka_2.12-3.3.1/kafkacd/opt/module/kafka/configviserver.properties#LicensedtotheApacheSoftwareFoundation(ASF)underoneormore#contributorlice
Xiaoweidumpb
·
2025-03-25 15:32
大数据
kafka
分布式
大数据项目之电商
数仓
(用户行为采集平台)
大数据项目之电商
数仓
(用户行为采集平台)版本:V5.0第1章数据仓库概念数据仓库(DataWarehouse),是为企业制定决策,提供数据支持的。可以帮助企业,改进业务流程、提高产品质量等。
qq_42042882
·
2025-03-25 15:01
大数据
尚硅谷大数据项目【电商
数仓
6.0】-Datax-6
安装tar-zxvfdatax.tar.gz-C/opt/module/测试python/opt/module/datax/bin/datax.py/opt/module/datax/job/job.jsonMySQLToHDFS根据官方文档写配置json{"job":{"content":[{"reader":{"name":"mysqlreader","parameter":{"column"
Xiaoweidumpb
·
2025-03-25 14:26
大数据技术
大数据
大数据学习-hive(四:
数仓
搭建,数据监控,数据支持)
一:
数仓
搭建1:完备性。要保证所需要的数据全部到达
数仓
。2:准备性。etl,和数据的计算校验,确保输出的数据准确。3:一致性。确保输出端口一致,防止输出数据不准。4:时效性。每天的定时调度。
宇智波云
·
2025-03-25 14:23
大数据项目
hive
hive
【数据仓库】
数仓
维度建模中的事实表核心概念与实践案例
数仓
维度建模中的事实表核心概念与实践案例在数据仓库的维度建模中,事实表(FactTable)是分析系统的核心,用于存储业务过程的量化度量(如销售额、订单数量),并通过外键关联维度表(如时间、产品、客户)
小技工丨
·
2025-03-25 03:34
大数据随笔
数据仓库
大数据
spark
大数据学习(82)-
数仓
详解
如果觉得博主的文章还不错的话,请点赞+收藏⭐️+留言支持一下博主哦一、什么是数据仓库数据仓库(下文以“
数仓
”称),顾名思义,存放数据的仓库,它集合了各个业务系统的数据,以金融业为例,
数仓
包含了贷款业务、
viperrrrrrr
·
2025-03-24 20:41
大数据
学习
数仓
读书笔记五 ---大数据之路--
数仓
分层
数据分层在流式数据模型中,数据模型整体上分为五层。ODS层跟离线系统的定义一样,ODS层属于操作数据层,是直接从业务系统采集过来的最原始数据(进行了数据清洗),包含了所有业务的变更过程,数据粒度也是最细的。在这一层,实时和离线在源头上是统一的,这样的好处是用同一份数据加工出来的指标,口径基本是统一的,可以更方便进行实时和离线问数据比对。例如:原始的订单变更记录数据、服务器引擎的访同日志。(原始数据
qq_38215991
·
2025-03-23 08:11
big
data
大数据
LakeHouse湖仓一体成为下一站灯塔,
数仓
、数据湖架构即将退出群聊
摘要:当前的大数据技术应用趋势表明,客户对单一的数据湖和
数仓
架构并不满意。
科杰科技
·
2025-03-21 17:26
大数据
数据仓库
尚硅谷电商
数仓
6.0,hive on spark,spark启动不了
在datagrip执行分区插入语句时报错[42000][40000]Errorwhilecompilingstatement:FAILED:SemanticExceptionFailedtogetasparksession:org.apache.hadoop.hive.ql.metadata.HiveException:FailedtocreateSparkclientforSparksessio
新时代赚钱战士
·
2025-03-20 20:57
hive
spark
hadoop
数仓
建模—Data Warebase AI 时代数据平台应当的样子
DataWarebaseAI时代数据平台应当的样子引言:在这个AI技术飞速发展的时代,我们有能力更深入地发掘数据潜在的价值,而数据处理不应当成为阻碍。云原生分布式DataWarebase将开启处理数据的新范式,它让数据的使用返璞归真,不论是存储还是查询,一个系统满足业务全方位数据需求。打破复杂数据架构的束缚,大大降低数据的使用门槛,释放数据潜能,让数据涌现智能。背景近二十年大数据发展史2002年我
不二人生
·
2025-03-20 18:43
数仓建模
人工智能
数据仓库
数仓建模
快速上手系列丨如何管理 PieCloudDB Database 虚拟
数仓
PieCloudDB社区版提供免费下载,可用于体验产品新特性、个人学习、PoC验证等场景,方便社区用户快速体验领先的
数仓
虚拟化技术。PieCloudD
·
2025-03-20 14:53
云原生数据库教程管理
SelectDB 实时分析性能突出,宝舵成本锐减与性能显著提升的双赢之旅
BOCDOP宝舵早期基于TiDB构建实时
数仓
,随着数据量增长,在数据处理效率、OLAP能力扩展、功能支持、成本与资源方面存在一定优化空间。
SelectDB技术团队
·
2025-03-20 00:11
大数据
物联网
doris
selectdb
人工智能
电商场景
数据分析
【Apache Storm】
一、Storm简介1、概述官网地址:https://storm.apache.org/index.htmlApacheStorm是一个开源的、分布式的
实时计算
系统,专为处理流式数据而设计。
茉菇
·
2025-03-19 23:10
apache
storm
大数据
Apache Storm实时流处理的核心技术
1.引言ApacheStorm是一个开源的、分布式的
实时计算
系统,专为处理流式数据而设计。它能够处理大量数据流并在极低的延迟下提供实时的结果。
Hello.Reader
·
2025-03-19 19:09
大数据
apache
storm
大数据
Apache Storm:实时数据处理的闪电战
ApacheStorm原理拓扑结构数据流处理容错机制官网链接基础使用安装与配置编写拓扑提交与运行高级使用状态管理窗口操作多语言支持优点高吞吐量低延迟可扩展性容错性总结ApacheStorm是一个开源的分布式
实时计算
系统
Aaron_945
·
2025-03-19 18:01
Java
apache
storm
大数据
Prompt工程全解析:从入门到精通的终极指南
ccc一、Prompt设计核心法则1.1角色定位法则[角色设定]你是一位资深全栈工程师,拥有10年React和Node.js开发经验[任务要求]为电商系统设计购物车模块,要求:1.支持商品增删改查2.
实时计算
总价
二川bro
·
2025-03-16 19:04
智能AI
人工智能
prompt
机器视觉|手势识别:基于YOLOv5的手部检测与MediaPipe的关键点估计
手势识别:基于YOLOv5的手部检测与MediaPipe的关键点估计在
实时计算
机视觉应用中,手部检测与关键点估计是实现手势识别的重要基础。
RockLiu@805
·
2025-03-16 12:39
机器视觉
YOLO
为什么要进行数据仓库分层?
有以下好处:减少重复开发,提升研发效率从
数仓
模型角度能够提升数据一致性。减少了冗余计算,高频查询或者高频开发无需使用原始数据,直接使用公共的数据模型查询或者开发即可,减少了对计算资源
BenBen尔
·
2025-03-15 11:04
#
建模方法
spark
大数据
分布式
Dinky × Jiron:打造高效智能的数据处理平台
JironGitHub地址https://github.com/642933588/jiron-cloudhttps://gitee.com/642933588/jiron-cloud将基于ApacheFlink的
实时计算
平台
jiron开源
·
2025-03-15 09:26
平台开发
flink
大数据
hive
数据仓库
kafka
etl工程师
clickhouse
数据分析大数据面试题大杂烩01
互联网:通过埋点
实时计算
用户浏览频次用优惠券等措施吸引用户,通过历史信息用非智能学习的title方式构造用户画像(抖音,京东)电信,银行统计营收和针对用户的个人画像:处理大量非实时数据政府:健康码,扫码之后确诊
爱学习的菜鸟罢了
·
2025-03-15 09:19
大数据
flink
大数据
面试
hive
hadoop
kafka
数仓
建模—手把手教你用 DeepSeek 打造高效数据治理体系
数仓
建模—手把手教你用DeepSeek打造高效数据治理体系在这个数字化转型的时代,数据治理已经成为企业提升竞争力的核心能力之一。然而,对于很多企业来说,数据治理仍然是一项复杂而艰巨的任务。
不二人生
·
2025-03-14 06:31
大模型
数仓建模
大模型
deepseek
Akamai 与 AWS 风控分析与绕过技术探讨
风控核心要素Akamai的主要风控机制包含以下几个关键点:Canvas指纹识别每个浏览器环境都有其独特的Canvas指纹这是风控系统的核心识别方式之一用户行为分析鼠标移动轨迹检测操作行为模式识别相关参数的
实时计算
与验证
qq_33253945
·
2025-03-14 05:52
aws
云计算
爬虫
网络爬虫
算法
安全
ClickHouse优化技巧实战指南:从原理到案例解析
优化核心思想表结构设计优化查询性能优化技巧数据写入优化方案系统配置调优实战高可用与集群优化真实案例解析总结与建议1.ClickHouse优化核心思想ClickHouse作为OLAP领域的明星引擎,其优化需遵循列式存储特性,把握以下原则:批量操作优于单行处理预计算替代
实时计算
数据有序存储提升检索效率利用硬件资源最大化吞吐量
AAEllisonPang
·
2025-03-13 19:48
Clickhouse
clickhouse
初识开源云原生
数仓
Databend
Databend是一款开源的数据仓库产品,主要定位于OLAP场景,采用云原生架构理念(可对比snowflake),有非常好的扩展性、同时具备低成本、高性能的优势,兼容MySQL协议。Stars数8,245Forks数765主要特点针对对象存储平台进行优化的云原生架构。符合SQL:2011标准,支持复杂查询和数据版本回溯(时间旅行)功能。与流行的商业智能(BI)、提取、转换和加载(ETL)以及数据科
开源项目精选
·
2025-03-12 14:22
云原生
数据湖架构与实时
数仓
实践:Hudi、Iceberg、Kafka + Flink + Spark
1.引言:数据湖与数据仓库的融合趋势在大数据时代,传统的数据仓库(DataWarehouse,DW)因其强一致性和高效查询能力,一直是企业数据分析的核心。然而,随着数据量和数据类型的爆炸式增长,传统数据仓库的存储成本和数据管理难度逐渐增加。为了解决这些问题,数据湖(DataLake)概念应运而生。数据湖能够存储原始数据,支持半结构化和非结构化数据,提供更灵活的计算框架,但其缺乏事务管理和数据一致性
晴天彩虹雨
·
2025-03-10 03:22
架构
kafka
flink
数据仓库
大数据运维实战指南:零基础入门与核心技术解析(第一篇)
零基础入门与核心技术解析(第一篇)系列文章目录第一篇:大数据运维概述与核心技能体系第二篇:Hadoop生态体系与集群部署实战第三篇:分布式存储系统运维与优化第四篇:资源调度框架YARN/K8s深度解析第五篇:
实时计算
框架
emmm形成中
·
2025-03-09 01:19
大数据
运维
用数据唤醒深度好眠,时序数据库 TDengine 助力安提思脑科学研究
面对海量生理数据的存储与
实时计算
需求,安提思选择TDengine云服务作为核心时序数据库,借助其高效的数据压缩能力和毫秒级查询性能,确保精准分析与稳定运行。
涛思数据(TDengine)
·
2025-03-08 15:28
时序数据库
tdengine
数据库
阿里云MaxCompute面试题汇总及参考答案
目录简述MaxCompute的核心功能及适用场景,与传统数据仓库的区别解释MaxCompute分层架构设计原则,与传统
数仓
分层有何异同MaxCompute的存储架构如何实现高可用与扩展性解析伏羲(Fuxi
大模型大数据攻城狮
·
2025-03-06 10:05
阿里云
odps
云计算
机器学习
大数据面试
大数据面经
增量数据
国产化替代 | 星环科技TDH替代IBM
数仓
,助力城商行构建湖仓一体平台
城商行构建湖仓一体平台|TDH替代IBM
数仓
IBM的
数仓
NetezzaEOL是2023年,
数仓
Netezza生命周期结束了。
数仓
产品停止提供支持和更新,不再为该产品提供修复漏洞或功能改进的服务。
·
2025-03-05 11:08
ibm
小白进阶高手:使用Flink开发实时
数仓
的经验与技巧(理论结合超多实例)
Flink作为一种流处理框架,在实时
数仓
的开发中发挥着关键作用。它能够处理大量实时数据流,支持复杂的事件处理、
实时计算
和监控,具有高吞吐、低延迟的优势。
大模型大数据攻城狮
·
2025-03-05 11:43
flink
大数据
flink开发
CEP
flink反压
flink多流
flink容错
数栈基于Flink CEP与规则热更新扩展的深度解析
本文通过实际案例深入探讨了FlinkCEP在复杂事件处理中的核心作用,详细分析了其优缺点,并探讨了在
实时计算
平台中规则热更新的重要性和创新实现方式,旨在帮助读者更好地理解和应用FlinkCEP。
·
2025-03-04 18:11
大数据
大数据技术学习框架(更新中......)
Hadoop相关HDFS分布式文件系统MR(MapReduce)离线数据处理MR-图解YARN集群资源管理ZooKeeperZooKeeper分布式协调框架Hive相关Hive-01之
数仓
、架构、数据类型
小技工丨
·
2025-03-03 04:05
大数据技术学习
大数据
学习
Doris、ClickHouse 和 Flink 这三个技术典型的应用场景
Doris、ClickHouse和Flink这三个技术在不同业务场景下有各自的成功落地方案,主要用于数据分析、
实时计算
和高性能查询。
每天瞎忙的农民工
·
2025-03-02 04:19
大数据
clickhouse
flink
大数据
doris
重磅活动!3.14,与数智领袖共探 NoETL 指标平台最佳实践
AloudataCAN以强大的指标定义和查询加速能力,直连
数仓
公共层明细数据,自动化代持宽表与汇总表开发,实现了NoSQL指标定义、NoETL指标开发、统一指标管理,一举解决了指标“开发周期长、口径不统一
·
2025-02-28 20:34
kafka stream对比flink
KafkaStreams和ApacheFlink虽然都支持
实时计算
,但它们的定位、架构和适用场景存在显著差异。选择哪一个取决于具体的需求、场景和技术栈。
后季暖
·
2025-02-28 14:23
kafka
flink
分布式
【数据仓库】
数仓
分层设计
一、为何分层?随着信息技术的快速发展,传统数据库已经无法存储和处理海量的数据,数据仓库应运而生。官方说明:数据仓库是用于支持企业决策制定和分析,它通过将不同来源的数据整合在一起,为用户提供一致、全面且易于访问的数据视图。可以简单理解为数据仓库就是专门用来存储和分析海量的历史数据,让数据真正地产生价值,为企业赋能。之前看到过一句话说的很不错,数据仓库的第一性原理是什么?就是以通过整合、优化和管理数据
·
2025-02-28 02:35
数据仓库数据分析
最全
数仓
实践:总线矩阵设计_
数仓
总线矩阵(2)
所以,总线矩阵和一致性维度、一致性事实共同组成了Kimball的多维体系结构基础。在这种多维体系结构(MD)的数据仓库架构中,主导的思想便是分步建立数据仓库,并由数据集市组合成企业的数据仓库。但是,在建立第一个数据集市前,架构师首先要做的就是设计出在整个企业内具有统一解释的标准化的维度和事实,即一致性维度和一致性事实,而开发团队必须严格的按照这个体系结构来进行数据集市的迭代开发。如果我们在建立数据
2401_84170391
·
2025-02-26 15:09
程序员
矩阵
大数据
spark
华为云FusionInsight MRS FlinkSQL 复杂嵌套Json解析最佳实践
如何提高开发者的效率,降低流计算的门槛,对推广
实时计算
非常重要。SQL是数据处理中使用最广泛的语言,它允许用户简明扼要地展示其业务逻辑。
华为云技术精粹
·
2025-02-26 14:59
云计算
华为云
数据仓库面试题集锦(附答案和
数仓
知识体系),面试必过
数据仓库模型的选择是灵活的,不局限与某种模型方法;数据仓库数据是灵活的,以实际需求场景为导向;
数仓
设计要兼顾灵活性、可扩展性、要考虑技术可靠性和实现成本1)调研:业务调研、需求调研、数据调研2)划分主题域
m0_60635001
·
2025-02-26 13:20
2024年程序员学习
数据仓库
面试
spark
preview_220624,Day08_DM层建设实战,
一些公司早期的数据集市后期可能会演变成为
数仓
系统。本项目中在数据集市层面主要进行粗粒度汇总,也可以将这些功能下放至DWS层完成。
啊六六六
·
2025-02-26 04:51
Python
大数据
数据挖掘
数据仓库
数仓
建模—数据管理能力成熟度评估模型(DCMM)
文章目录
数仓
建模—数据管理能力成熟度评估模型(DCMM)数据管理能力成熟度研究现状国外研究现状国内研究现状DCMM与其他数据管理体系有什么区别什么是DCMMDCMM包含哪些内容DCMM等级评估等级划分什么样的企业可以申请
不二人生
·
2025-02-26 02:07
数仓建模
数据仓库
数仓建模
简单搞定
数仓
搭建:
数仓
规范
1.数据模型架构规范1.1数据层次的划分ODS:OperationalDataStore,操作数据层,在结构上其与源系统的增量或者全量数据基本保持一致。它相当于DW数据的一个数据准备区,同时又承担着基础数据的记录以及历史变化。其主要作用是把基础数据引入到DMP。CDM:CommonDataModel,公共维度模型层,又细分为DWD和DWS。它的主要作用是完成数据加工与整合,建立一致性的维度,构建可
白枭
·
2025-02-26 01:59
大数据开发
数仓
hive
数仓
搭建实操(传统
数仓
orale):DM数据集市层
需求:根据映射表建表个贷客户违约信息表建表CREATETABLEDM.PERSON_LOAN_WY_INFO(DATE_DTDATE,CUST_CUNTNUMBER,CUST_FINNUMBER,CUST_BADNUMBER,CUST_FIN_PERVARCHAR2(30),CUST_BAD_PERVARCHAR2(30),CUST_EXC_RATVARCHAR2(30));COMMENTONCO
想做富婆
·
2025-02-25 20:54
数仓
大数据
数仓
大数据MaxCompute教程(阿里云离线
数仓
项目)学习笔记20231127
1数据仓库概念数据仓库定义(DataWarehouse),是为企业所有决策制定过程,提供所有系统数据支持的战略集合。AI:数据仓库是一个大型、集中、主题导向的数据库系统,用于支持企业决策制定、分析和报告的需要。它统一了来自不同数据源的数据,并将其在一个可查询的数据模型中进行了整合和转换,以便于分析和报告。数据仓库还包括数据清洗、抽取、转换和加载(ETL)的过程,以保证数据的准确性、一致性和完整性。
多刷亿点题⑧
·
2025-02-22 22:54
云原生
数据仓库
大数据-257 离线
数仓
- 数据质量监控 监控方法 Griffin架构
点一下关注吧!!!非常感谢!!持续更新!!!Java篇开始了!目前开始更新MyBatis,一起深入浅出!目前已经更新到了:Hadoop(已更完)HDFS(已更完)MapReduce(已更完)Hive(已更完)Flume(已更完)Sqoop(已更完)Zookeeper(已更完)HBase(已更完)Redis(已更完)Kafka(已更完)Spark(已更完)Flink(已更完)ClickHouse(已
m0_74823705
·
2025-02-22 21:50
面试
学习路线
阿里巴巴
大数据
架构
数仓
实战05:
数仓
搭建-DWS层
1.业务术语1)用户用户以设备为判断标准,在移动统计中,每个独立设备认为是一个独立用户。Android系统根据IMEI号,IOS系统根据OpenUDID来标识一个独立用户,每部手机一个用户。2)新增用户首次联网使用应用的用户。如果一个用户首次打开某APP,那这个用户定义为新增用户;卸载再安装的设备,不会被算作一次新增。新增用户包括日新增用户、周新增用户、月新增用户。3)活跃用户打开应用的用户即为活
曾牛
·
2025-02-21 23:41
数仓
ClickHouse
数仓
ClickHouse是OLAP并且面向列的数据管理系统.具有高性能分析任何应用,从是嵌入式服务到成百台服务器.开源并且面向列的SQL存储ClickHouse首先是一个开源的SQL
数仓
,并且带有高性能,成熟
大怀特
·
2025-02-20 04:56
bigdata
database
software
architecture
java
数据库
阿里云 MaxCompute MaxQA 开启公测,解锁近实时高效查询体验
MCQA2.0)查询加速功能,在独享的查询加速资源池的基础上,对管控链路、查询优化器、执行引擎、存储引擎以及缓存机制等多个环节进行全面优化,显著减少了查询响应时间,适用于BI场景、交互式分析以及近实时
数仓
等对
阿里云大数据AI技术
·
2025-02-20 00:23
阿里云
云原生
MaxCompute
大数据
实时数仓
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他