E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓数据质量
为什么传统数据中台搞不下去了
现在大厂又开始拆中台了,传统行业中很多企业花大价钱构建的数据中台要么是成为一个摆设一个玩具,要么就处于“IT疲于应付、业务极度不满、
数据质量
混乱、开发成本周期失控”的窘境。
Trident敏捷数据开发平台
·
2024-02-06 07:57
大数据
sql
数据仓库
数据库开发
k8s的Deployment部署策略线上踩坑
线上问题我们有个服务,专门做t-1日的增量数据入仓的.入仓流程:每日0点系统新建个csv文件,通过kafka监听增量数据,实时数据写入该csv文件,供下游
数仓
次日取数.每日产生数据50G(1.8亿条)左右
吴free
·
2024-02-06 07:41
kubernetes
容器
云原生
R语言量化投资(1)
而是关注如何收集数据,提高
数据质量
,来解决实际的业务问题。
Liam_ml
·
2024-02-05 20:41
DolphinScheduler
数仓
任务管理规范
目录一、DolphinScheduler调度
数仓
任务现状分析2.1一个任务流构建
数仓
所有的逻辑节点2.2每个逻辑节点构建一个任务流二、
数仓
任务管理调度需求分析三、DolphinScheduler
数仓
开发任务管理规范四
i7杨
·
2024-02-05 16:09
大数据
设计规范
数仓
建设规范
数仓
建设规范一、数据模型架构原则1.
数仓
分层原则2.主题域划分原则3.数据模型设计原则二、
数仓
公共开发规范1.层次调用规范2.数据类型规范3.数据冗余规范4.NULL字段处理规范5.指标口径规范6.数据表处理规范四
长不大的大灰狼
·
2024-02-05 04:03
大数据
数据仓库
大数据
今日arXiv最热NLP大模型论文:IBM研究院提出Genie方法,自动生成高质量数据集
但传统的数据集创建方法通常依赖人工,耗时耗力成本高,另外数据集的来源复杂,噪声大,比如新闻媒体稿或者社交媒体,
数据质量
难以保证。
夕小瑶
·
2024-02-04 16:35
自然语言处理
人工智能
从传统到现代:易点易动固定资产管理系统利用RFID技术高效管理固定资产
传统管理模式的不足传统的手工登记式管理模式在企业固定资产管理中存在很多问题:信息录入缺乏规范,
数据质量
难把控。无法实现全面覆盖和实时跟踪各项资产。盘点效率低下,存在漏工舞弊的风险。
doris6100
·
2024-02-04 16:54
人工智能
基于Flink的实时
数仓
建设
目录:一.实时计算初期二.实时
数仓
建设三.Lambda架构的实时
数仓
四.Kappa架构的实时
数仓
五.流批结合的实时
数仓
一、实时计算初期虽然实时计算在最近几年才火起来,但是在早期也有部分公司有实时计算的需求
园陌
·
2024-02-04 12:48
“互联网+水务”——智慧水务2.0推动水务行业产业结构变革
通过数据清洗工作,识别并改善数据重复、数据缺失、数据异常等问题,提升
数据质量
。
郭靖守襄阳【软芯民用】
·
2024-02-04 09:14
智慧水务
数据大屏可视化
物联网
大数据
信息可视化
第七章 主管信息系统和数据仓库
[TOC]第七章主管信息系统和数据仓库7.0前言EIS是
数仓
之前的概念EIS没有注重基础结构(数据源、
数据质量
、数据流通等)DSS是现代的EIS,与
数仓
紧密相连7.1EIS概述EIS典型用途趋势分析关键指标度量和跟踪向下钻取问题监控竞争分析关键性能指标监控
晨磊的微博
·
2024-02-04 04:53
数仓
建模&维度建模理论知识
0.思维导图第1章数据仓库概述1.1数据仓库概述 数据仓库是一个为数据分析而设计的企业级数据管理系统。数据仓库可集中、整合多个信息源的大量数据,借助数据仓库的分析能力,企业可从数据中获得宝贵的信息进而改进决策。同时,随着时间的推移,数据仓库中积累的大量历史数据对于数据科学家和业务分析师也是十分宝贵的。1.2数据仓库核心架构第2章数据仓库建模概述2.1数据仓库建模的意义 数据模型就是数据组织和存
韩顺平的小迷弟
·
2024-02-03 16:02
#
大数据开发
spark
大数据
数据仓库
hadoop
hive
hadoop使用公平调度器
Stage1(默认调度器)大概在几年前,搭建的
数仓
集群中。数据量不大,做离线一个晚上就能轻松调度完,那时候使用的hadoop自带的调度器,容量调度器。但默认配置没有改,就会发生什么!
向他一样rap
·
2024-02-03 13:22
kylin
hadoop
hadoop
大数据
分布式
离线
数仓
-数据治理
目录一、前言1.1数据治理概念1.2数据治理目标1.3数据治理要解决的问题1.3.1合规性元数据合规性
数据质量
合规性数据安全合规性1.3.2成本存储资源成本计算资源成本二、数据仓库发展阶段2.1初始期2.2
爱吃辣条byte
·
2024-02-03 13:51
数据治理
大数据
数据仓库
数仓
治理-存储资源治理
存储资源治理的流程及思路三、治理前如何评估3.1无用数据表/临时数据表下线评估3.2表及分区的生命周期评估3.3存储及压缩格式评估3.4根据业务场景实现节省存储评估四、治理后的成效如何评估一、存储资源治理的背景由于早期
数仓
的存储资源比较充裕
爱吃辣条byte
·
2024-02-03 13:51
数据治理
数据仓库
大数据
Flink实时
数仓
同步:拉链表实战详解
一、背景在大数据领域,初始阶段业务数据通常被存储于关系型数据库,如MySQL。然而,为满足日常分析和报表等需求,大数据平台采用多种同步方式,以适应这些业务数据的不同存储需求。这些同步存储方式包括离线仓库和实时仓库等,选择取决于业务需求和数据特性。一项常见需求是,业务使用人员需要大数据分析平台中查看历史某一天的表数据,示例如下:[Mysql]业务数据-用户表全量数据:idnamephonegende
Light Gao
·
2024-02-03 10:15
大数据
实时数仓
flink
大数据
数据仓库
拉链表
doris
Flink实时
数仓
同步:流水表实战详解
一、背景在大数据领域,初始阶段业务数据通常被存储于关系型数据库,如MySQL。然而,为满足日常分析和报表等需求,大数据平台采用多种同步方式,以适应这些业务数据的不同存储需求。这些同步存储方式包括离线仓库和实时仓库等,选择取决于业务需求和数据特性。一项常见需求是,大数据分析平台需要能够检索某张业务表的变更记录,并以每天为单位统计每条数据的变更频率。以下是示例:[Mysql]业务数据-用户表全量数据:
Light Gao
·
2024-02-03 10:15
实时数仓
数据仓库
flink
大数据
flinkcdc
数据同步
数据仓库
深入
数仓
离线数据同步:问题分析与优化措施
一、前言在数据仓库领域,离线
数仓
和实时
数仓
是常见的两种架构类型。离线
数仓
一般通过定时任务在特定时间点(通常是凌晨)将业务数据同步到数据仓库中。
Light Gao
·
2024-02-03 10:14
数据仓库
实时数仓
数据库
数据仓库
大数据
数据分析
数仓
日常维护:剖析每日增量同步的内部机制
数仓
日常维护:剖析每日增量同步的内部机制一、前言在现代企业中,离线仓库扮演着不可或缺的角色。它充当着一个数据的中心枢纽,存储和管理着海量的信息。
Light Gao
·
2024-02-03 10:14
数据仓库
大数据
数据库
大数据
数据仓库
数据同步
sql
Flink实时
数仓
同步:快照表实战详解
一、背景在大数据领域,初始阶段业务数据通常被存储于关系型数据库,如MySQL。然而,为满足日常分析和报表等需求,大数据平台采用多种同步方式,以适应这些业务数据的不同存储需求。这些同步存储方式包括离线仓库和实时仓库等,选择取决于业务需求和数据特性。一项常见需求是,业务使用人员需要大数据分析平台中查看历史某一天的表数据,示例如下:[Mysql]业务数据-用户表全量数据:idnamephonegende
Light Gao
·
2024-02-03 10:38
实时数仓
数据仓库
flink
大数据
数据仓库
flinkcdc
数据同步
实时
数仓
到底是什么呢?与传统
数仓
有什么区别?如何建设实时
数仓
呢?
在本地生活服务领域的两大巨头,滴滴在自己的业务如顺风车、美团在自己的业务如团购外卖中进行实时
数仓
的建设,为消费者提供更好的服务,如我们在滴滴上可以更快的打到更便宜的车、在美团上可以更快的取到最想要吃的餐
盐城qn
·
2024-02-02 18:50
银行数据仓库体系实践(16)--数据应用之财务分析
而且
数据质量
校
南极找南
·
2024-02-02 13:40
银行数据仓库
数据仓库
Flink CDC 详述实时数据湖
在构建实时
数仓
的过程中,如何快速、正确的同步业务数据是最先面临的问题,本文主要讨论一下如何使用实时处理引擎Flink和数据湖ApacheIceberg两种技术,来解决业务数据实时入湖相关的问题。
000X000
·
2024-02-02 12:01
实战
实时数仓
Apache
Flink
Flink
CDC
Flink
CDC
实时数据湖
flink
数据管控:提升
数据质量
与安全性的关键
在当今数字化时代,数据已成为企业和组织最宝贵的资产之一。然而,随着数据量的快速增长和数据使用场景的日益复杂,数据管控也面临着越来越多的挑战。有效的数据管控对于确保数据的质量、完整性、安全性以及合规性至关重要。一、数据管控的重要性数据管控是指通过一系列策略、技术和流程来管理和保护数据的完整性、保密性和可用性。它包括对数据的访问控制、使用限制、存储保护、传输加密等方面的管理。1.数据安全:数据管控是保
正儿八经的数字经
·
2024-02-02 11:31
数字经济
大数据
网络
一文讲透神经网络的激活函数
拟合效果的好坏取决于
数据质量
及模型的结构,像逻辑回归、感知机等线性模型的拟合能力是有限的,连xor函数都拟合不了,那神经网络模型结构中提升拟合能力的关键是什么呢?
算法进阶
·
2024-02-02 11:43
智慧城市环境监测需求分析
面对当前生态文明建设的新形势和新要求,我国生态环境监测事业发展还存在网络范围和要素覆盖不全,建设规划与信息发布不统一,信息化水平和共享程度不高,监测与监管结合不紧密,监测
数据质量
有待提
扣jio黑萝莉
·
2024-02-02 10:08
数据治理体系建设
数据治理体系是银行构建
数据质量
和数据标准的组织体系,包含组织、制度、流程等,为银行提供统一的数据标准和规范。
悦数图数据库
·
2024-02-02 07:54
大数据
java
开发语言
如何推动埋点管理项目的落地
一埋点管理常见痛点分析埋点数据作为三大数据来源之一,具有应用场景多、数据量级大等特点,上能影响数据分析、推荐、AB实验的准确性,下能影响
数仓
结构设计和维护成本,其重要性不言而喻。
一个数据人的自留地
·
2024-02-02 06:01
数据仓库表级血缘应用
数仓
血缘应用(一):表血缘热度文章目录
数仓
血缘应用(一):表血缘热度前言一、价值衡量指标——应用层二、血缘节点应用——热度1、指标透传(应用层——>
数仓
)2、指标应用(热度)2.1、
数仓
血缘节点关系2.2
零壹Ture
·
2024-02-02 02:24
数据仓库
大数据
spark
数据库
数据分析
oracle
数仓
rac两个节点查询耗时不一致问题处理
问题描述数据库节点1查询比节点2查询慢。现场操作应用发现发现同一sql语句在节点2上只要2分钟左右,在节点1,该条sql执行要超过30分钟。处理过程根据问题,初步判断是由于错误的执行计划,导致性能问题,但实际上对两个节点做trace跟踪发现执行计划都一致,后续通过awr报告和10046事件跟踪发现由于“gccrmultiblock”耗时造成节点一慢,这是oracleRAC大事务处理特性,两边都查有
烟雨归来
·
2024-02-01 09:23
oracle
数据库
大数据开发之离线
数仓
项目(用户行为采集平台)(可面试使用)
第1章:数据仓库概念数据仓库,是为企业指定决策,提供数据支持的,可以帮助企业,改进业务流程、提高产品质量等。数据仓库的输入数据通常包括:业务数据、用户行为数据和爬虫数据等。业务数据:就是各行业在处理事务过程中产生的数据。比如用户在电商网站中登录、下单、支付等过程中,需要和网站后台数据库进行增删改查交互,产生的数据就是业务数据。业务数据通常存储在mysql、oracle等数据库中。用户行为数据:用户
Key-Key
·
2024-02-01 08:46
大数据
面试
职场和发展
hadoop
分布式
弹性分布式数据集
spark
多表拆解 | 数据PM的工作内容
之前一篇文章介绍了我司数据体系搭建过程,见:埋点、
数仓
到中台:数据体系的从0到1为了区分数据产品和数据产品经理,下文会用数据产品和数据PM来区分。
PMCAFF产品社区
·
2024-01-31 21:47
可视化
大数据
编程语言
人工智能
数据分析
数据建模分析与
数仓
维度建模规范
数据建模在
数仓
管理、数据库设计、算法模型训练等领域都有着重要的作用。
i7杨
·
2024-01-31 20:57
大数据
Python入门教程,30分钟玩转Python编程!
一、Python入门二、Python爬虫三、数据分析四、数据库与ETL
数仓
五、机器学
老-程序员
·
2024-01-31 18:50
程序员
python
开发语言
人工智能
python入门教程
编程
大厂 5 年实时数据开发经验总结,Flink SQL 看这篇就够了!
本文摘编于《FlinkSQL与DataStream入门、进阶与实战》(500页、70万字)作者羊艺超,目前就职于快手,国内最早一批FlinkSQL使用者拥有从0到1使用FlinkSQL建设、保障及治理实时
数仓
的丰富经验京东机械工业出版社旗舰店限时
zhisheng_blog
·
2024-01-31 15:29
flink
sql
数据库
oracle
大数据
dolphinscheduler-data-quality-3.1.0 部署
dophinscheduler-3.1.0安装standalone-server模式,参考https://blog.csdn.net/windydreams/article/details/127678233编译
数据质量
源码为了保障后期正常运行
风的心愿
·
2024-01-31 15:27
数据质量
数据资产管理在腾讯游戏的实践
在游戏大数据管控中,面临着众多问题与痛点:数据多样化,缺少统一标准计算逻辑理解一不致,导致统计结果有偏差数据全链路质量问题,层次复杂、不能快速定位问题游戏数据管控的问题与难点
数据质量
偏低给数据应用带来的各种
王知无
·
2024-01-31 15:57
模型的收敛
模型的收敛取决于多个因素,包括学习率、
数据质量
、模型架构等。当模型收敛时,损失函数不再显著减小,模型的性能在训练数据和验证数据上达到一个相对稳定的状态。过
幸运小新
·
2024-01-31 11:56
人工智能基础概念
人工智能
【深度学习: Encord Active平台】Encord 中的数据、标签和模型质量指标
定义质量指标
数据质量
指标标签质量指标模型质量指标自定义质量指标结论在使用数据集或开发机器学习模型时,经常会发现自己在查找或假设具有某些属性的数据子集、标签或模型预测。
jcfszxc
·
2024-01-31 10:00
深度学习知识专栏
深度学习
人工智能
HBase表结构
一般我们从
数仓
中离线统计分析海量数据,将得到的结果插入HBase中用于实时查询。表结构hbase在表中组织数据。表名是字符串和字符的组合,可以在文件系统路径中使用这里以一个公
内向仓鼠
·
2024-01-31 07:55
hbase
数据库
大数据
数据质量
和数据治理的关系 | 京东云技术团队
在京东科技集团数据治理工作组第一次全体会议上,我就讲过数据治理和数据清洗之间的关系:数据清洗只是指通过识别和纠正数据中的错误、缺失、重复或不一致等问题,确保
数据质量
的过程。
京东云技术团队
·
2024-01-31 04:53
京东云
java
人工智能
数字孪生项目开发的注意事项
2.
数据质量
和采集:数字孪生的质量高度依赖于输入数
super_Dev_OP
·
2024-01-31 04:39
数学建模
信息可视化
人工智能
webgl
Databend 开源周报第 130 期
Databend是一款现代云
数仓
。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn。
Databend
·
2024-01-31 04:28
开源
数据库
问卷发放实战指南:提高问卷回收率与
数据质量
的技巧
进行问卷调查分为四步:制作问卷、发放问卷、收集问卷、分析问卷。其中,发放问卷起到了关键性的作用。他关乎到我们后续收集问卷是否顺利,收集到的问卷数据是否具备真实性和有效性。那么,怎么有效地进行问卷发放呢?1、清晰的问卷说明制作问卷的过程中有一个非常重要的一步——问卷说明。问卷说明是问卷的开场,会影响到问卷的回收率和完成率。我们要在问卷说明中写明本次调查的主题、目的、意义,以及希望填写者帮助我们做哪些
ZOHO卓豪
·
2024-01-31 01:16
人工智能
数据仓库
服务器
网络
【项目调研】村头王大爷家女儿王大红用GPT学习了基于datavines的
数据质量
实践教程
基于datavines的
数据质量
实践教程1,
数据质量
检测的维度2,datavines的作用和安装2.1作用2.2安装2.2.1从源码编译安装--环境依赖2.2.2下载代码2.2.3数据库准备2.2.4项目构建
一杯派蒙
·
2024-01-30 21:01
数据治理
gpt
学习
数据质量
和治理论
数据质量
和数据治理,这个概念很大不是一两个人可以处理的问题,但是又不得不做,往往需要整个团队或者跨团队协作尽量去处理好这个事情以下是一些方法论
数据质量
数据质量
会带来什么问题:报表数据出错,无人发现数据出现问题
orange大数据技术探索者
·
2024-01-30 20:41
#
data-other
数据治理
数据质量
数据仓库实践杂谈(十八)——关于报表
整体数据分层第三章:整体实现框架第四章:元数据第五章:ETL第六章:数据校验第七章:数据标准化第八章:去重第九章:增量/全量第十章:拉链处理第十一章:分布式处理增量第十二章:列式存储第十三章:逻辑数据模型(
数仓
模型
老程序员一叶知秋
·
2024-01-30 18:45
数据仓库实践
数据库
大数据
java
链表
数据分析
字节跳动二面经典题目
欢迎关注公众号:语数本期投稿本期语数精选来源于球友应对字节跳动二面时候的场景问题
数仓
工程师的职业规划做
数仓
工程师要具备哪些点,按照重要性排序gpt在数据分析中的应用实习项目的收益价值在哪里?
语兴数据
·
2024-01-30 15:31
字节
面试
大数据
学习
一文掌握0基础如何体系化学习
数仓
欢迎关注公众号:语数2本期精选问题如何校验开发好的
数仓
指标?如果你是公司的分析师,应该如何分析数据?0基础如何体系化学习
数仓
?
语兴数据
·
2024-01-30 15:01
学习
数据仓库
大数据
数据分析
当你要做
数仓
汇报时,应该怎么讲故事?
语数精选简介语数精选来源于语数社区星球球友提问,主要沉淀一些大家工作和学习过程中存在的一些共性问题,希望能够更好的帮助到球友和粉丝。欢迎关注公众号:语数本期精选问题提问背景:了解高效的学习方向和针对性的学习路线,利用业余时间修炼自己,希望2年后收入和职级能有所提高。当下应制定怎样的学习路线?有哪些模块应深入学习或者考证?什么是指标体系,如何推动?如何方便领导讲故事,证明我司是有数据能力一、高效制定
语兴数据
·
2024-01-30 15:01
大数据
面试
职场和发展
揭秘:
数仓
开发面试真正需要注意的点
怎样保障
数仓
数据的一致性?
语兴数据
·
2024-01-30 15:30
面试
人工智能
职场和发展
大数据
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他