E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓数据质量
大数据软件项目开发流程
这包括理解业务需求、数据需求、数据源、
数据质量
defdsdddev
·
2023-10-07 15:24
大数据
数仓
的DW、ODS、DM概念及其区别
ODS层ODS(OperationalDataStore)操作性数据,是作为数据库到数据仓库的一种过渡,ODS的数据结构一般与数据来源保持一致,便于减少ETL的工作复杂性,而且ODS的数据周期一般比较短。ODS的数据最终流入DW(就是接收到的最原始的数据)DWD层+DW(DataWarehouse)数据仓库,是数据的归宿,这里保持这所有的从ODS到来的数据,并长期报错,而且这些数据不会被修改。(将
焱行软件科技计算机毕设
·
2023-10-07 13:14
数据仓库
大数据
数据库
基于Impala的高性能
数仓
实践之执行引擎模块
导读:本系列文章将结合实际开发和使用经验,聊聊可以从哪些方面对
数仓
查询引擎进行优化。Impala是Cloudera开发和开源的
数仓
查询引擎,以性能优秀著称。
浪尖聊大数据-浪尖
·
2023-10-07 11:10
大数据
分布式
数据库
mysql
java
什么是DCMM认证?什么是数据管理能力成熟度评估?
该标准将组织对象的数据管理划分为八大能力域(数据战略、数据治理、数据架构、数据标准、
数据质量
、数据安全、数据应用、数据生存周期),并对每项能力域进行了二级能力项(28个能力项)和成熟度等级的划分(
hb13370587609
·
2023-10-07 10:40
经验分享
DCMM认证是什么
DatamanagementCapabilityMaturityModel,简称:DCMM)借鉴国内外成熟度相关理论思想,结合数据生命周期管理各个阶段的特征,对数据管理能力进行了分析、总结,提炼出组织数据管理的八大能力域(数据战略、数据治理、数据架构、数据标准、
数据质量
kdrz_
·
2023-10-07 10:40
DCMM认证
经验分享
DCMM认证评审要求
自身业务交易产生的结构化数据总量:100G及以上(证据:提供信息系统清单、各信息系统主要的数据范围以及存储量);2.具有专职的数据管理人员:2人及以上(证据:提供正式发布的岗位说明书以及人员资质证明);3.具有数据治理、
数据质量
dong17605413502
·
2023-10-07 10:39
物联网
大数据
人工智能
Python数据攻略-Mongodb
数仓
无法写入方法汇总
Mongodb作为一个非结构化的NoSQL数据库,能存储各种复杂和多变的数据格式,如JSON。这使得Mongodb在实时数据分析和高性能查询中具有优势。在使用Mongodb的过程中,可能会遇到写入失败的问题。常见的几种情况包括无法建立连接、认证失败和存储限制。文章目录诊断问题日志分析错误码解析常见写入失败原因及解决方案连接问题认证问题存储限制预防措施合理设计Schema数据备份实践案例:《三国志》
Mr数据杨
·
2023-10-07 05:36
Python
数据攻略
python
mongodb
开发语言
数据中台实战(05)-如何统一管理纷繁杂乱的数据指标?
元数据在指标管理、模型设计、
数据质量
和成本治理四个领域都发挥作用,这些领域构成数据中台OneData数据体系。
JavaEdge.
·
2023-10-07 04:31
数据中台
大数据
人工智能
数据库
大数据毕业设计 校园学生一卡通数据分析与可视化 - python
文章目录0项目简介任务1数据导入与预处理任务1.1探查
数据质量
并进行缺失值和异常值处理1.1.2检查重复值1.1.3数据内容总览1.1.4数据分布总览1.1.5消费金额和消费次数观察消费金额和消费次数的散点图
caxiou
·
2023-10-06 22:47
大数据
毕业设计
大数据
python
校园一卡通数据分析
可视化
【毕业设计】大数据高校学生校园一卡通数据分析系统 - python
文章目录0简介1数据导入与预处理1.1探查
数据质量
并进行缺失值和异常值处理1.1.2检查重复值1.1.3数据内容总览1.1.4数据分布总览1.1.5消费金额和消费次数观察消费金额和消费次数的散点图1.1.6
caxiou
·
2023-10-06 22:16
大数据
毕业设计
大数据
python
数据分析
毕业设计 基于大数据的高校校园学生一卡通数据分析
文章目录0项目简介任务1数据导入与预处理任务1.1探查
数据质量
并进行缺失值和异常值处理1.1.2检查重复值1.1.3数据内容总览1.1.4数据分布总览1.1.5消费金额和消费次数观察消费金额和消费次数的散点图
DanCheng-studio
·
2023-10-06 22:46
大数据
毕业设计系列
计算机专业
大数据
数据分析
数据挖掘
毕业设计
一卡通数据分析
数据中台实战(06)-数据模型无法复用,归根结底还是设计问题
由于他们非技术出身,SQL较差,多层嵌套,不择手段,资源消耗大,造成队列阻塞,影响其他
数仓
任务,引起数据开发不满。数据开发要求收回分析师的原始数据读取权限
JavaEdge.
·
2023-10-06 20:19
数据中台
数据库
ydata-quality
数据质量
评估简单介绍
摘要ydata-quality是一个用于
数据质量
的库,类似sklearn之于机器学习。通过数据多阶段流程开发评估
数据质量
。
superY25
·
2023-10-06 17:14
人工智能
机器学习
ydata-quality
数据处理
基于 Kafka 的实时
数仓
在搜索的实践应用
一、概述ApacheKafka发展至今,已经是一个很成熟的消息队列组件了,也是大数据生态圈中不可或缺的一员。ApacheKafka社区非常的活跃,通过社区成员不断的贡献代码和迭代项目,使得ApacheKafka功能越发丰富、性能越发稳定,成为企业大数据技术架构解决方案中重要的一环。ApacheKafka作为一个热门消息队列中间件,具备高效可靠的消息处理能力,且拥有非常广泛的应用领域。那么,今天就来
谁叫我土豆了
·
2023-10-06 14:30
大数据项目之电商
数仓
(3电商数据仓库系统)V6.1.3
第1章
数仓
分层1.1为什么要分层1.2数据集市与数据仓库概念1.3
数仓
命名规范1.3.1表命名ODS层命名为ods_表名DWD层命名为dwd_dim/fact_表名DWS层命名为dws_表名DWT
okbin1991
·
2023-10-06 00:19
大数据
数据仓库
数据库
【ETL】系列八:
数据质量
的保障——数据校验
今天这个篇幅,我们来介绍
数据质量
管理利器——校验。找不到合适的图了就将就看吧.jpg希望
不爱吃药的小白鼠
·
2023-10-05 22:30
Python数据攻略-Pandas常用数据操作与数据清洗
无论在分析三国志游戏的玩家行为,还是在研究历史战役,
数据质量
都是关键。本文使用Pandas库进行数据操作和清洗,确保数据准确、完整和易于分析。
Mr数据杨
·
2023-10-05 13:27
Python
数据攻略
python
pandas
开发语言
数据湖|Flink + Iceberg 全场景实时
数仓
的建设实践
整理|路培杰(Flink社区志愿者)摘要:ApacheFlink是目前大数据领域非常流行的流批统一的计算引擎,数据湖是顺应云时代发展潮流的新型技术架构,以Iceberg、Hudi、Delta为代表的解决方案应运而生,Iceberg目前支持Flink通过DataStreamAPI/TableAPI将数据写入Iceberg的表,并提供对ApacheFlink1.11.x的集成支持。本文由腾讯数据平台部
大数据技术架构
·
2023-10-05 13:31
运维
大数据
分布式
编程语言
hadoop
数据仓库规范全解
3、
数仓
规范有哪些?4、设计规范5、流程规范6、质量管控规范推荐读一读。正文开始这是数据仓库系列的第三个话题,排序在架构之后、建模之前。为什么会提的这么靠前呢?
程序员的隐秘角落
·
2023-10-05 09:13
数据仓库建模理论——总结
四种模型:ER模型维度模型DataVault模型Anthor模型以上四种模型,当前最流行建模方法为:ER模型、维度模型ER模型ER模型常用于OLTP数据库建模,应用到构建
数仓
时更偏重数据整合,站在企业整体考虑
尼小摩
·
2023-10-05 08:50
Arcgis小技巧【14】——拓扑(Topology)的方方面面
拓扑的主要功能就是用于保证
数据质量
,当然它还有其它很多功能,水平有限就不展开了。一、新建并验证拓扑拓扑是建立在【要素数据集】以及保存在这个要素数据集里的一个或多个【要素类】的基础之上。
规划GIS会
·
2023-10-04 13:11
ArcGIS
ArcGIS小技巧
arcgis
拓扑
arcgis小技巧
大数据-玩转数据-Flink+Hologres构建实时
数仓
企业最常见的做法就是通过构建实时
数仓
来满足对数据的快速探索。
人猿宇宙
·
2023-10-03 21:18
大数据-玩转数据-阿里系
大数据
flink
运维
用无代码搭建数据中台,竟做到如此丝滑
文章目录需求背景系统介绍配置说明1菜单导航2系统自带组件导入页面(1)数据集成相关组件(2)数据服务相关组件3由系统组件路径添加页面(1)数据资产管理(2)数据标准管理(3)
数据质量
管理(4)数据安全管理
陈橘又青
·
2023-10-03 04:46
其他领域
低代码
无代码开发
人工智能
【
数仓
建设系列之六】
数仓
管理利器-数据中台
【
数仓
建设系列之六】
数仓
管理利器-数据中台介绍相信看过前面几篇
数仓
建设系列文章的同学已经对什么是
数仓
以及如何建设
数仓
有了充分的认知和了解了,那么问题很多的小明就要问了,既然
数仓
已经建设起来了,那企业如何管理运营
数仓
呢
码猿小站
·
2023-10-02 23:43
数据仓库
数仓建设
数据中台
大数据
数据仓库
深入解析数据仓库中的缓慢变化维
前言最近公司在招聘
数仓
开发,笔者负责技术方面的一些问题,缓慢变化维自然是是不可缺少的环节。
秋夜雨凉
·
2023-10-02 23:01
PyTorch深度学习实战——模型训练实用技巧
在本节中,我们介绍在实际构建模型时影响模型性能的因素,包括
数据质量
(处理不平衡数据)、数据预处理(对象大小)、模型选择、超参数优化和正则化等,了
盼小辉丶
·
2023-10-02 18:31
PyTorch深度学习
深度学习
pytorch
人工智能
浅谈
数据质量
管理
基本概念
数据质量
管理是指为了满足信息利用的需要,对信息系统的各个信息采集点进行规范,包括建立模式化的操作规程、原始信息的校验、错误信息的反馈、矫正等一系列的过程。
000X000
·
2023-10-02 10:30
数据仓库
数据建模
数据分析
数据质量管理
数据质量
清醒认识数据第一步,把关
数据质量
笔者在之前曾经历过
数据质量
管理的具体功能设计,算是较为完整地感受过
数据质量
管理过程。所以在此简单复盘下经验,借此抛砖引玉。
宋懵懵的数据生活
·
2023-10-02 10:27
数据分析
数据分析
大数据
大数据Flink(九十四):DML:TopN 子句
文章目录DML:TopN子句DML:TopN子句TopN定义(支持Batch\Streaming):TopN其实就是对应到离线
数仓
中的row_number(),可以使用row_number()对某一个分组的数据进行排序应用场景
Lansonli
·
2023-10-02 07:19
大数据入门核心技术
#
Flink
大数据
flink
数仓
精品理论-做大数据还有没有前途?
数仓
精品理论-做大数据还有没有前途?做大数据还有没有前途?大数据三要三不要我来讲讲大数据前景做大数据还有没有前途?先说,答案是肯定的,但一定要记住三要三不要。
辉常努腻
·
2023-10-02 02:42
大数据
数据仓库基本概念
转载自:https://www.cnblogs.com/traditional/p/9205300.html
数仓
分层都分哪些层?
Jimmy2019
·
2023-10-01 21:33
数据仓库(DW)的分层架构
目录1说明2数据仓库“分层”的优势3离线
数仓
的数据分层4实时
数仓
的数据分层1说明离线过程与实时过程的
数仓
的分层一般有所不同2数据仓库“分层”的优势(1)把复杂的问题简单化;通过把复杂的问题分解成多层,每次只处理简单任务
芋辕-
·
2023-10-01 12:22
大数据开发
大数据
数据仓库
数据仓库-DW/BI架构对比-读书笔记二
ETL系统高度关注
数据质量
、完整性、一致性。输入数据在进入时要检查其质量。一致的获取增值度量和属性的业务规则由ETL系统中的有技能的专业人员开发,这样会给客户发布更好的、保持一致性的产品。
数据僧
·
2023-10-01 12:21
数据仓库
数据仓库
kimball
数仓
(DW)的架构
文章目录事实表分:事务型事实表,周期性快照事实表,累计快照事实表维度表维度表设计方法星型模型和OLAP多维数据库Kimball的
数仓
架构独立数据集市架构辐射状企业信息工厂Inmon架构混合架构事实表每行数据对应的是一个粒度的事件
maxlove1111
·
2023-10-01 12:51
数仓
数据仓库
数据中台实战(00)-大数据的尽头是数据中台吗?
与
数仓
、数据湖、大数据平台啥区别?来深入大数据发展史,先从
数仓
出现讲起,途径数
JavaEdge.
·
2023-10-01 03:18
数据中台
大数据
数据仓库
Backblaze发布2023中期SSD故障
数据质量
报告
作为一家在2021年在美国纳斯达克上市的云端备份公司,Backblaze一直保持着对外定期发布HDD和SSD的故障率稳定性质量报告,给大家提供了一份真实应用场景下的稳定性分析参考数据。本文我们主要看下Backblaze最新发布的2023中期SSD相关故障稳定性数据报告。本次发布的质量数据,主要是针对2023Q1和Q2两个季度,也就是上半年的质量表现。从这两个表格中,看到有一些AFR年化故障率都到8
古猫先生
·
2023-09-30 23:39
SSD
云计算
阿里云
服务器
运维
大模型深挖数据要素价值:算法、算力之后,存储载体价值凸显
而在这个过程中,业界对“数据”的关注,往往集中在“量”+“质”上,更庞大的数据量与更高的
数据质量
能推动大模型
智能相对论
·
2023-09-30 20:12
华为
数据仓库实践杂谈-(四)-元数据
整体数据分层第三章:整体实现框架第四章:元数据第五章:ETL第六章:数据校验第七章:数据标准化第八章:去重第九章:增量/全量第十章:拉链处理第十一章:分布式处理增量第十二章:列式存储第十三章:逻辑数据模型(
数仓
模型
老程序员一叶知秋
·
2023-09-30 19:13
数据仓库实践
元数据
数据仓库
大数据
数据模型
ETL
别和我说您懂数据治理,这些方面你做到了吗?
包括建立有关战略、数据存储、内容和记录管理、
数据质量
控制、数据访问、数据安全和风险管理、数据共享和分发的决策权限、政策、程序和标准,以及持续对上述所有活动的合规性监控。
数据治理侠
·
2023-09-30 10:42
離線數倉:用戶拉鏈錶推導過程
1.維度表維度表有兩類:1.全量快照表离线
数仓
的计算周期通常为每天一次,可以每天保存一份全量的维度数据优点是:简单有效,开发和维护成本都比较低,方便理解和使用缺点是:浪费存储空间,尤其是当数据量比较大,
m0_37759590
·
2023-09-30 08:12
HQL
离线数仓
拉链表
打工人!政务、人力、制造业等行业超实用的40套报表模板来啦
而
数据质量
似乎也正在失去其相关性,这是由于有意放弃数据建模和一个事实点。但是,对项目日常生活的特定看法揭示了不同的形象。
宋懵懵的数据生活
·
2023-09-29 21:13
怎么使用 Go 语言操作 Apache Doris
基于此,ApacheDoris能够较好的满足报表分析、即席查询、统一
数仓
构建、数据湖联邦查询加速等使用场景,用户可以在此之上构建用户行为分析、AB实验平台、日志检索分析、用户画像分析、订单
hf200012
·
2023-09-29 12:29
golang
apache
开发语言
【数据仓库设计基础(四)】数据仓库实施步骤
文章目录1.定义范围2.确定需求3.逻辑设计1)建立需要的数据列表2)识别数据源3)制作实体关系图4.物理设计1)性能优化2)
数仓
的拓展性5.装载数据6.访问数据7.管理维护实施一个数据仓库项目的主要步骤是
roman_日积跬步-终至千里
·
2023-09-29 09:56
数据仓库
数据仓库
spark
大数据
DAMA-DMBOK2重点知识整理CDGA/CDGP——第13章
数据质量
目录一、分值分布二、重点知识梳理1、引言1.1业务驱动因素1.2目标和原则1.3基本概念2、活动2.1定义高质量数据2.2定义
数据质量
战略2.3识别关键数据和业务规则2.4执行初始
数据质量
评估2.5识别改进方向并确定优先排序
醉酒的戈多
·
2023-09-29 08:21
数据治理
数据仓库
大数据
云计算
大数据学习笔记2:现代数据湖之Iceberg
数据湖的定义就不说了,不了解的小伙伴可以看我之前做的笔记大数据学习笔记1:
数仓
、数据湖、数据中台。1.数据湖发展现状从广义上来说数据湖系统主要包括数据湖村处和数据湖分析现有数据湖技术主要
泊浮目
·
2023-09-29 02:17
如何用中台思路治理指标——数据指标中心
作者介绍@小风数据中台产品负责人;UBDC全域大数据峰会“灯塔人物”;擅长埋点模型、指标治理,
数仓
架构等;《大数据实践之路:数据中台+数据分析+产品应用》作者;“数据人创作者联盟”成员。
一个数据人的自留地
·
2023-09-28 23:33
马哈鱼——数据治理中Oracle SQL和存储过程的数据血缘分析
有了完整的数据血缘关系,我们可以用它进行数据溯源、表和字段变更的影响分析、数据合规性的证明、
数据质量
的检查等。
chensuper
·
2023-09-28 16:20
sqlflow
数据治理
马哈鱼
sql
oracle
数据库
数仓
概念 | 逻辑 | 物理模型
ConceptualDataModelADatawarehouseconceptualdatamodelisnothingbutahighest-levelrelationshipsbetweenthedifferententities(inotherworddifferenttable)inthedatamodel.thefeaturesofconceptualdatamodelFollowin
胖胖胖胖胖虎
·
2023-09-28 13:15
数据仓库
数据库
sql
Flink Batch SQL Improvements on Lakehouse
内容主要分为三个部分:FlinkBatchonPaimon挑战FlinkBatch核心优化后续规划点击查看原文视频&演讲PPT一、FlinkBatchonPaimon挑战众所周知,Paimon在创立之初就是为了解决流式
数仓
场景的问题
Apache Flink
·
2023-09-28 12:55
Flink
大数据
实时计算
flink
batch
sql
大数据
开发语言
2022年开篇
我对2021的总结2021是我从工程质量转向
数据质量
第一年,乍见的欢喜,odps/pyodps/flink/lindorm/hadoop各式各样的技能栈触手可得,到久处的平淡,最后我收获了什么?
程南swimming
·
2023-09-28 10:57
上一页
17
18
19
20
21
22
23
24
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他