E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓数据湖
数仓
工作中的常见问题及解决方案
数据仓库系列文章
数仓
架构发展史
数仓
建模方法论
数仓
建模分层理论
数仓
建模—宽表的设计
数仓
建模—指标体系数据仓库之拉链表
数仓
—数据集成
数仓
—数据集市
数仓
—商业智能系统
数仓
—埋点设计与管理
数仓
—IDMapping
大数据技术派
·
2024-01-04 16:34
spark
大数据
分布式
【
数据湖
架构】
数据湖
101:概述
数据湖
是非结构化和结构化数据池,按原样存储,没有特定的目的,可以建立在多种技术上,如Hadoop,NoSQL,AmazonSimpleStorageService,关系数据库或各种组合根据一份名为“什么是
数据湖
架构师研究会
·
2024-01-04 10:08
数据管理
数据架构
数据应用架构
架构
数据湖
实时
数仓
投放主备链路Diff测试工具落地实践
一、背景目前实时
数仓
提供的投放实时指标优先级别越来越重要,特别下游为规则引擎提供的
数仓
数据,直接对投放运营的广告投放产生直接影响,数据延迟或者异常均可能产生直接或者间接的资产损失;从投放管理平台的链路全景图投放全景图来看
得物技术
·
2024-01-04 08:02
得物技术
数据库
尚硅谷大数据技术-
数据湖
Hudi视频教程-笔记01
大数据新风口:Hudi
数据湖
(尚硅谷&ApacheHudi联合出品)尚硅谷
数据湖
Hudi视频教程B站直达:https://www.bilibili.com/video/BV1ue4y1i7na百度网盘:
upward337
·
2024-01-04 08:52
#
数据湖
大数据
数据湖
hudi
Linux
maven
spark
flink
docker搭建Dinky —— 筑梦之路
简介Dinky是一个开箱即用、易扩展,以ApacheFlink为基础,连接OLAP和
数据湖
等众多框架的一站式实时计算平台,致力于流批一体和湖仓一体的探索与实践。
筑梦之路
·
2024-01-04 03:40
Java技术
大数据
docker
容器
运维
某人寿保险公司基础架构云化与小机
数仓
下移实践
随着数据中心IT基础架构的不断演进,云计算、大数据、移动互联的需求日益高涨,快速敏捷、易于维护以及扩展性,逐渐成为金融机构在升级数据中心时重点考虑的方面。某人寿保险公司(以下简称“客户”)过往采用传统三层架构,即IBMPower/x86+FCSAN+集中式存储的组合,在使用多年后面临设备老旧、灵活性与性能无法及时满足业务变化等问题。另外,传统架构也存在使用专用硬件及网络、存储控制器集中、架构及运维
志凌海纳SmartX
·
2024-01-04 03:09
超融合
云计算
数据库架构
Doris
数仓
使用规范(经验版)
第一部分:字符集规范【强制】数据库字符集指定utf-8,并且只支持utf-8。命令规范【建议】库名统一使用小写方式,中间用下划线(_)分割,长度62字节内【建议】表名称大小写敏感,统一使用小写方式,中间用下划线(_)分割,长度64字节内第二部分:建表规范【强制】确保每个tablet大小为1-3G之间。举例:假设表内单分区数据量在100G,按天分区,bucket数量100个。【强烈建议】不要使用Au
hf200012
·
2024-01-03 19:30
数据库
java
前端
Doris
大数据
电商
数仓
可视化1--数据导入
1、数据来源介绍以及数据文件下载1、业务数据业务数据往往产生于事务型过程处理,所以一般存储在关系型数据库中,如mysql、oracle业务数据源:用户基本信息、商品分类信息、商品信息、店铺信息、订单数据、订单支付信息、活动信息、物流信息等2、埋点数据埋点日志相对业务数据是用于数据分析、挖掘需求,一般以日志形式存储于日志文件中,随后通过采集落地分布式存储介质中如hdfs、hbase用户行为日志:用户
bigdata从入门到放弃
·
2024-01-03 18:53
数据仓库
linux
hadoop
大数据
java
数据仓库
我的大数据之路:2023年度总结
2023年度最值得骄傲的事从0到1搭建了离线
数仓
体系,针对Hadoop生态组件的原理和特性有了深入的理解。
话数Science
·
2024-01-03 18:07
大数据
面试
大数据
面试
spark
【大数据】Doris
数仓
使用规范原则
第一部分:字符集规范【强制】数据库字符集指定utf-8,并且只支持utf-8。命令规范【建议】库名统一使用小写方式,中间用下划线(_)分割,长度62字节内【建议】表名称大小写敏感,统一使用小写方式,中间用下划线(_)分割,长度64字节内第二部分:建表规范【强制】确保每个tablet大小为1-3G之间。举例:假设表内单分区数据量在100G,按天分区,bucket数量100个。【强烈建议】不要使用Au
奔向理想的星辰大海
·
2024-01-03 16:48
大数据
云原生
技术研发
大数据
数据库
数睿通2.0:高效的数据处理,主数据与数据表功能全面升级
引言八天很短,七天很长,数睿通2.0数据中台也随之迎来了新一轮的版本迭代,本次更新主要包括:主数据模型(可视化建模)主数据派发(支持派发主数据到下游数据表,rabbitMq,kafka,接口)数据表(
数仓
分层表信息展示
小螺旋丸
·
2024-01-03 10:51
大数据
数据库
大数据
数据中台
Flink实时电商
数仓
(十)
common模块回顾appBaseApp:作为其他子模块中使用Flink-StreamAPI的父类,实现了StreamAPI中的通用逻辑,在其他子模块中只需编写关于数据处理的核心逻辑。BaseSQLApp:作为其他子模块中使用Flink-SQLAPI的父类。在里面设置了使用SQLAPI的环境、并行度、检查点等固定逻辑。bean:存放其他子模块中使用到的javaBean对象,因为如果一直使用json
十七✧ᐦ̤
·
2024-01-03 09:50
flink
大数据
Hive自定义函数支持国密SM4解密
当前项目背景需要使用到国密SM4对加密后的数据进行解密,Hive是不支持的,尝试了华为DWS
数仓
,华为只支持在DWS中的SM4加密解密,不支持外部加密数据DWS解密新建Maven工程只需要将引用的第三方依赖打到
4935同学
·
2024-01-03 08:03
Hive
Java
hive
hadoop
数据仓库
Alluxio:2022年大数据五大趋势,多云下
数据湖
兴起,AI成为主流
Alluxio创始人兼CEO预测2022年大数据发展五大趋势:混合云和多云、人工智能和深度学习、服务、数据共享和新的
数据湖
存储格式成为关注重点。
CSDN云计算
·
2024-01-03 08:46
大数据
云计算
人工智能
big
data
数据挖掘
Alluxio
混合云
计算机毕业设计吊打导师hadoop+spark+hive知识图谱医生推荐系统 医生数据分析可视化大屏 医生爬虫 医疗可视化 医生大数据 机器学习 大数据毕业设计
mapreduce对mysql中的医生数据进行数据分析,使用高德地图解析地理位置,并将结果转入.csv文件同时上传到hdfs文件系统;3.使用hive建库建表,导入.csv数据集;4.一半指标使用离线
数仓
计算机毕业设计大神
·
2024-01-03 07:53
数据仓库命名规范详解
一、
数仓
中为什么要在数据开发过程中强调遵守
数仓
开发命名规范呢?
孤城暮雨@
·
2024-01-03 04:17
数据仓库
hive
hadoop
数据库
sql
database
数据库架构
Azkaban+Spark资源调度
本文以利用Azkaban+Spark构建
数仓
的DWS层和ADS层为例!!!
孤城暮雨@
·
2024-01-03 04:46
spark
大数据
分布式
全面解读数据中台、数据仓库和
数据湖
随着大数据技术的不断更新和迭代,数据管理工具得到了飞速的发展,相关概念如雨后春笋一般应运而生,如从最初决策支持系统(DSS)到商业智能(BI)、数据仓库、
数据湖
、数据中台等,这些概念特别容易混淆,本文对这些名词术语及内涵
公众号:肉眼品世界
·
2024-01-03 00:44
数据仓库
lamp
scipy
zk
makefile
Spark内容分享(二十):网易基于 Kyuubi + Spark 内核优化以及实践
AQE–History2.AQE–Shuffle3.AQE-SmallReducePartition4.AQE–SkewedReducePartition5.AQE–OptimizePlanKyuubi+Spark
数仓
类任务优化实践
之乎者也·
·
2024-01-02 10:21
Spark
内容分享
大数据(Hadoop)内容分享
spark
大数据
分布式
MongoDB学习红宝书 - MongoDB官网使用指南
进入网站首页后,会看到顶端简洁明了的导航栏:产品:包含云服务Atlas、MongoDBStich、Server、Compass,Charts以及最新推出的Atlas
数据湖
等MongoDB所有产品解决方案
MongoDB中文社区
·
2024-01-02 09:17
指南
MongoDB
官网
使用指南
MongoDB认证
资源
最容易出错的 Hive Sql 详解
前言在进行
数仓
搭建和数据分析时最常用的就是sql,其语法简洁明了,易于理解,目前大数据领域的几大主流框架全部都支持sql语法,包括hive,spark,flink等,所以sql在大数据领域有着不可替代的作用
奔跑者-辉
·
2024-01-02 07:30
hive
hive
sql
大数据
Databricks中国启示录:一场蓄谋已久的技术与商业战 | 企服国际观察
图片来源:视觉中国ITValue6月底,刚刚结束的Data+AISummit上,Databricks宣布将
数据湖
表格式DeltaLake的API完全开源。
ITValue
·
2024-01-01 14:53
数据仓库
大数据
编程语言
hadoop
数据库
Flink的优势
主要应用场景包括实时
数仓
、实时大屏、实时推荐、实时报表、实时风控和实时监控,当然还有其他一些应用场景。总之,实时计算的业务需求,一般都会用Flink进行开发。
有味青年
·
2024-01-01 13:01
笔记
Impala导出csv文件
场景:当
数仓
环境为大数据集群(impala),临时从
数仓
取数导出为csv文件使用impala-shell命令把文件导出为本地csv文件--正常导出impala-shell-q"SELECT*FROMyour_table
n_avo7_i
·
2023-12-31 18:34
大数据
linux
sql
详解Lambda和Kappa架构的区别
二、架构详解1、随着大数据的发展,人们逐渐对系统的实时性提出了要求,为了计算一些实时指标,就在原来离线
数仓
的基础上增加了一个实时计
小枫@码
·
2023-12-31 18:55
架构师
架构
数据湖
三剑客,大数据时代的新范式?
随着互联网高速发展,大数据技术快速发展和迅速迭代,降低了用户处理海量数据的门槛,越来越多的应运场景出现在我们的身边存储和处理需求越来越多样化,逐渐呈现出数据仓库往
数据湖
方向发展、批处理往流式处理发展、本地部署往云模式发展的趋势
疯码牛
·
2023-12-31 15:33
Flink 内容分享(十八):基于Flink+Iceberg构建企业
数据湖
实战
的准备工作创建和使用CatalogIcebergDDL命令IcebergSQL查询IcebergSQL写入使用DataStream读取使用DataStream写入前言随着大数据存储和处理需求的多样化,如何构建一个统一的
数据湖
存储
之乎者也·
·
2023-12-31 11:21
Flink
内容分享
大数据(Hadoop)内容分享
flink
大数据
【为数据之道学习笔记】5-7五类数据主题联接的应用场景
目前,
数据湖
汇聚了大量的原始数据,用户不再需要到各个源系统调用数据,而是统一从
数据湖
调用。由于
数据湖
中的数据
码农丁丁
·
2023-12-31 09:36
#
数据中台
华为数据之道
数据中台
读书笔记
实时
数仓
应用价值(下)
博客浅析研发支出费用化和资本化的区别-CSDN博客商业银行数据资产估值白皮书,推荐系统源码下载-CSDN博客用友BIP数据资产入表解决方案白皮书,推荐系统源码下载-CSDN博客六、具体五种方案的解析业界常见的实时
数仓
方案有这几种
Michael_Shentu
·
2023-12-31 00:46
大数据
数据库
人工智能
深度学习
Flink实时电商
数仓
(九)
用户注册汇总表需求分析统计各窗口的注册用户数,写入Doris思路分析读取kafka用户注册主题数据转换数据结构string->JSONObject->javaBean使用user_info表中的数据代表用户注册设置水位线开窗聚合写入Doris具体实现创建用户注册统计类继承BaseApp,设置端口,并行度,kafka消费者组,kafka主题(Topic_user_register)启动zookeep
十七✧ᐦ̤
·
2023-12-30 11:16
flink
大数据
Flink实时电商
数仓
(八)
用户域登录各窗口汇总表主要任务:从kafka页面日志主题读取数据,统计七日回流用户:之前活跃的用户,有一段时间不活跃了,之后又开始活跃,称为回流用户当日独立用户数:同一个用户当天重复登录,只算作一个独立用户。思路分析读取kafka页面主题数据转换数据结构:String->JSONObject过滤数据,uid不为null登录的两种情况用户打开应用后自动登录用户打印应用后没有登录,浏览后跳转到登录页面
十七✧ᐦ̤
·
2023-12-30 09:55
flink
linq
数据库
读书笔记--构建
数据湖
仓阅读有感
为什么在数据治理过程中提出
数据湖
仓构建?
数据湖
如果没有分析基础设施的建设,就会形成数据沼泽或臭水沟,因为没有人用,也不知道数据之间的关系。
一马平川的大草原
·
2023-12-30 07:38
读书笔记
数据应用
数据治理
数据湖仓
数据仓库
数据湖
AI大模型时代下运维开发探索第二篇:基于大模型(LLM)的数据仓库
在SREWorks社区聚集了很多进行运维
数仓
建设的同学,大家都会遇到类似的挑战和问题:
数仓
中存储大量数据消耗成本,但很多存储的数据却并没有消费。
阿里云大数据AI技术
·
2023-12-30 07:39
原型模式
数据中台-架构、构建与体系建设
构建与体系建设数据中台架构数据中台构建方法论技术体系数据体系服务体系运营体系数据中台功能架构数据中台技术架构企业构建数据中台评估统计分析阶段决策支持阶段数据驱动阶段运营优化阶段数据汇集-打破企业数据孤岛数据开发-提取数据价值数据体系建设贴源数据层ODS(OperationalDataStore)统一
数仓
层
Ybb_studyRecord
·
2023-12-30 03:53
数据中台
架构
大数据
运维
Flink实时电商
数仓
之DWS层
需求分析关键词统计关键词出现的频率IK分词进行分词需要引入IK分词器,使用它时需要引入相关的依赖。它能够将搜索的关键字按照日常的使用习惯进行拆分。比如将苹果iphone手机,拆分为苹果,iphone,手机。org.apache.dorisflink-doris-connector-1.17com.janeluoikanalyzer测试代码如下:publicclassIkUtil{publicsta
十七✧ᐦ̤
·
2023-12-29 17:19
flink
大数据
长文解读 "数据仓库" 面试必备知识
数仓
分层
数仓
简介1.数据仓库和数据库的区别数据仓库:数据量特别的大,TB~PB级别会保留历史数据一般使用OLAP分析(On-LineAnalyticalProcessing),联机分析处理(聚合操作),
you的日常
·
2023-12-29 15:28
数据仓库-
数仓
优化小厂实践
根据自己的实践整理一些
数仓
相关的优化。二、优化1、简易架构图2、ODS层优化2.1分段式解析随着业务增长,数据量也不断增加,凌晨任务经常基线预警、破线,导致数据不能正常产出,影响运营人员分析数据。
大数据点滴
·
2023-12-29 09:25
#
数据仓库
数据仓库
大数据技术16:
数据湖
和湖仓一体
前言:近几年大数据概念很多,数据库和数据仓库还没搞清楚,就又出了
数据湖
,现在又开始流行湖仓一体。互联网公司拼命造高大上概念来忽略小白买单的能力还是可以的。
Java架构何哥
·
2023-12-29 04:05
大数据治理
大数据
数据湖和湖仓一体
湖仓一体
数据湖
数据仓库
巧妙实现四大实时功能 | Linkis与Hudi结合的
数据湖
构建实践
近段时间,我们也调研和实现了hudi作为我们
数据湖
落地的方案,他帮助我们解决了在hdfs上进行实时upsert的问题,让我们能够完成诸如实时ETL,实时对账等项目。hudi作为一个
数据湖
的实
康月牙
·
2023-12-28 20:02
分享7个Python实战项目代码,让你分分钟晋级大老!快收藏_python编程作品
听两个聊天机器人互相聊天:3、分析唐诗的作者是李白还是杜甫:4、彩票随机生成35选7:5、自动写检讨书:6、屏幕录相机,抓屏软件:7、制作Gif动图:一、Python入门二、Python爬虫三、数据分析四、数据库与ETL
数仓
五
老-程序员
·
2023-12-28 19:38
编程
Python爬虫
代码
python
开发语言
代码作品
银行
数仓
建模方法论
随着金融行业的不断发展,银行业务越来越复杂,数据量也越来越大。为了更好地管理和利用这些数据,银行数据仓库体系应运而生。在前面的文章中,我们介绍了银行数据仓库体系的基础知识,本篇文章将重点介绍银行数据仓库体系实践(7)—数据模型设计及流程。一、数据模型设计数据模型设计是银行数据仓库体系的核心,它是对银行业务进行抽象和概括的过程。在设计数据模型时,需要考虑以下几个方面:业务需求:数据模型的设计必须符合
添柴少年yyds
·
2023-12-28 18:56
数据挖掘
数据仓库
人工智能
Hudi中MOR与COW区别,MOR表新建后ro/rt区别
近期在频繁与
数据湖
hudi打交道,将一些心得进行简要总结,供大家参考。
p1i2n3g4
·
2023-12-28 17:41
大数据
数据库
大数据
数据湖
ODS DW APP DIM
数仓
ODS:通过ETL工具从源端系统抽取数据,存入ODS层;DW:从ODS层数据进行抽取并按主题进行分类存储;DWD(数据明细层):会对ODS的数据做一定的清洗和汇总,然后生成DWM中间表;DWM(数据中间层):对DWD中的数据按照一定维度进行汇总后,放到DWS中的一张表;DWS(数据服务层):从DWM中间表中按主题进行高度汇总业务宽表,满足各项业务需要;APP:依据DWS中的宽表数据,进行应用(可视
p1i2n3g4
·
2023-12-28 17:41
大数据
数据仓库
数据库
数据挖掘
数据仓库 基本信息
数据仓库基本理论数据仓库(英语:DataWarehouse,简称
数仓
、DW),是一个用于存储、分析、报告的数据系统。
许一世流年 绝不嵩手 cium
·
2023-12-28 11:46
数据仓库
spark
大数据
ETL项目实战--学习笔记
Extract,数据抽取=>抽取的是其他数据源中的数据T:Transform,数据转换=>将数据转换为统一的格式,消除异常值,缺失值,对于错误的逻辑进行修改L:Load,数据加载=>将不同数据源的数据处理后加载到
数仓
或者输出到指定位置
祈愿lucky
·
2023-12-28 11:46
大数据
etl
学习
笔记
Hive 部署
HiveMetastore(HMS)提供了一个中央元数据存储库,可以轻松地进行分析,以做出明智的数据驱动决策,因此它是许多
数据湖
架构的关键组件。
有人看我吗
·
2023-12-27 23:54
hive
hadoop
数据仓库
知乎实时
数仓
架构演进
从智能商业的角度来讲,数据的结果代表了用户的反馈,获取结果的及时性就显得尤为重要,快速的获取数据反馈能够帮助公司更快的做出决策,更好的进行产品迭代,实时
数仓
在这一过程中起到了不可替代的作用。
yoku酱
·
2023-12-27 19:34
Flink实时电商
数仓
之Doris框架(七)
主要实现的功能有:实时看板面向企业内部分析师和管理者的报表面向用户或者客户的高并发报表分析即席查询统一
数仓
构建:替换了原来由Spark,Hive,Kudu,Hbase等旧框架
数据湖
联邦查询:通过外表的方式联邦分析位于
十七✧ᐦ̤
·
2023-12-27 16:47
flink
大数据
doris
DataFunSummit:2023年
数据湖
架构峰会-核心PPT资料下载
面对如此大规模的数据,无论是分析型场景、流批一体、增量
数仓
都得益于湖仓一体等
数据湖
技术的发展而变得越来越容易解决。从核心架构、性能优化、湖仓一体、最佳实践等方面带来
数据湖
的最新技术和内容实践经验总结。
百家峰会
·
2023-12-27 16:03
大数据
数据湖
数据治理
架构
数据湖
大数据
数据治理
从报表需求到报表开发的流程
报表开发背后涉及到需求调研和
数仓
开发的支持。二、目标梳理从报表需求提出到报表需求实现整个生
qq_36120059
·
2023-12-27 12:55
数据仓库
报表
数据仓库
finebi
上一页
3
4
5
6
7
8
9
10
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他