E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
---数据质量
一文速学数模-K-means聚类算法实战:信用卡用户画像聚类分析
目录前言一、用户画像概述1.用户画像2.为何用聚类算法作用户画像二、
数据质量
校验1.数据背景2.数据说明三、数据预处理1.数据空缺值检验2.数据归一化四、K-means聚类step1:选取K值手肘法step2
fanstuck
·
2023-04-06 12:21
算法
kmeans
聚类
数据挖掘
数据分析
(三) 数据预处理
数据质量
:准确性,完整性,时效性,一致性,可信性,可解释性数据清理:填写缺失值,光滑噪声数据,识别或删除离群点1,缺失值image.png2,光滑2.1,分箱image.png2.2,回归2.3,离群点分析
奇点_wu123
·
2023-04-06 10:24
excel几十年来最重大升级,结果补丁包不是微软出的
然而对于团队使用来说Excel常常就不太方便了,比如说我想跟别人共享数据的时候就很麻烦,需要把文件传来传去,也很难保证
数据质量
,权限控制能力也比较弱,流程管理也是苦手……PC时代的Excel,现在是不是已经不能适应在团队中工作的需要了呢
北京IT胖子
·
2023-04-06 05:12
14万字数字政府大数据治理平台及大数据中心资源平台建设方案
部分资料内容:1.1 数据治理子平台建设在本次项目中,我们将通过大数据治理子平台的建设,提供数据标准管理、元数据管理、
数据质量
管理能力,实现对数据的规范治理与管理;并提供数据工厂能力,实现对归集的数据进行清洗
数字化动态
·
2023-04-05 15:51
大数据
金融业
数据质量
评价体系
一、应用背景与目标首先是外部监管对
数据质量
要求日益严格,其次内部有效的数据分析与经验决策需要高质量的数据,最终无论对外部还是内部均需要优质的
数据质量
,才能满足内外部用数的需求,因此要做到“为有源头清水来
bigdataCoding
·
2023-04-05 08:36
数据治理
大数据
数据治理之
数据质量
一、前言之前我们介绍了数据资产治理类工具——数据资产管理产品架构规划设计思路,本期,我们来聊聊
数据质量
检测和监控的核心工具——DQC和SLA。
000X000
·
2023-04-05 00:21
数据分析
数据仓库
大数据工具
数据治理
数据治理之数据质量
数据质量
破局数据困境,迭代一年的终版解决方案竟是纯规则方法!
中,重点讲述了关系抽取任务所面临的
数据质量
困境。但在当时,我也不得不承认,即便我将问题点出,大家也都同意这个痛点,我们也仍旧没有好的方法去批量构造高质量的数据,这也给我的下一步工作带来了很大的困难。
夕小瑶
·
2023-04-04 18:47
编程语言
机器学习
人工智能
大数据
java
阿里云Big Data - dataworks和MaxCompute之间的关系与区别
dataworks和MaxCompute之间的关系与区别MaxCompute做数据存储和数据分析处理,Dataworks是集成了数据集成、数据开发调试、作业编排及运维、元数据管理、
数据质量
管理、数据API
天地不仁以万物为刍狗
·
2023-04-04 18:03
阿里云大数据
大数据
阿里云Big Data - dataworks和dataphin两款产品的区别
DataWorks(数据工场)具备全栈数据研发能力(数据集成与开发、生产运维调度、离线与实时分析、
数据质量
治理与资产管理、安全防护、数据共享与服务、机器学习、数据应用搭建)的大数据平台;2、Dataphin
天地不仁以万物为刍狗
·
2023-04-04 18:02
阿里云大数据
大数据
大数据-玩转数据-阿里DataWorks开发治理平台
Dataphin的区别比对1、Dataworks概述Dataworks,在阿里集团内部为大家所熟知的部分是D2,DataWorks(数据工场)具备全栈数据研发能力(数据集成与开发、生产运维调度、离线与实时分析、
数据质量
治理与资产管理
人猿宇宙
·
2023-04-04 18:00
大数据-玩转数据-阿里系
big
data
数据仓库
数据挖掘
dataworks和dataphin两款产品的区别
DataWorks(数据工场)具备全栈数据研发能力(数据集成与开发、生产运维调度、离线与实时分析、
数据质量
治理与资产管理、安全防护、数据共享与服务、机器学习、数据应用搭建)的大数据平台;2
帕吉ʕ ᵔᴥᵔ ʔ
·
2023-04-04 18:37
大数据
浅谈数仓建模
大数据的数仓建模是通过建模的方法更好的组织、存储数据,以便在性能、成本、效率和
数据质量
之间找到最佳平衡点。
奔跑者-辉
·
2023-04-04 12:46
数仓建模
servlet
数据质量
(DQ)
知识目标1)了解
数据质量
的概念、重要性、质量评价方式2)熟悉
数据质量
的分析方法,掌握业务、技术、管理等几个维度3)掌握
数据质量
管理的方法论体系4)掌握
数据质量
事前、事中、事后控制策略及控制流程
数据质量
的基本概念数据是对现实世界的反应
hsabrina
·
2023-04-04 06:37
数据中台
工程架构
云平台
big
data
大数据
《DAMA-DMBOK2》读书笔记-第17章 数据管理和组织变革管理
将对信息质量的思考从“数据清洗与
数据质量
记分卡”提升转变为组织的基本能力。对不良数据管理引发的代价和规范化数据管
liumw1203
·
2023-04-04 06:29
DataX同步数据到StarRocks问题记录
整个数据治理的流程是先从数据归集到数据清洗,再到数据转换,最后是
数据质量
。调度平台使用DS海豚,数仓没有选择Hadoop,而是选择了StarRocks。技术选型及整体架构,今天不讲,后面再专门写专栏。
凉茶冰
·
2023-04-04 03:48
大数据
数据库
datax
StarRocks
2023美赛春季赛
3.收集和整理相关数据、信息和知识,并进行预处理和清洗,确保
数据质量
和可靠性。4.建立和优化模型,包括选择合适的变量和参数、确定模型结构和算法、调
i love matlab11
·
2023-04-03 19:11
统一建模语言
大数据
TCGA甲基化
数据质量
控制和差异分析(使用ChAMP包)
参考文章:1.甲基化芯片入门学习-ChAMP包(二)2.TCGA数据库的癌症甲基化芯片数据重分析3.TCGA甲基化芯片数据质控和过滤4.甲基化芯片数据的差异分析5.甲基化芯片注释中的CpGshores,opensea是什么上一篇文章,写了如何下载以及整理我们需要的临床样品。得到了一个ChAMP对象,里面包含了甲基化信号beta值,以及样品的信息(肿瘤/正常)。上一篇里的过滤只是过滤了甲基化信号里的
生信start_site
·
2023-04-03 18:47
《数据仓库工具箱》读书笔记(三):维度建模宏观知识
利用或建立命名规则6、日历和设施的协调二、维度模型设计1、统一高层气泡图理解2、开发详细的唯独模型3、模型评审与验证4、形成设计文档第十九章ETL子系统与技术一、需求综合需要考虑的点:业务需求、合规性、
数据质量
kaiker
·
2023-04-03 07:30
187页10万字智慧城市业务和数据中台建设方案2022版
;录1.建设背景1.1.编制依据1.1.1.政策文件依据1.1.2.技术标准规范2.项目建设方案2.1.总体框架2.2.主要建设内容2.3.数据平台2.3.1.数据汇聚2.3.2.数据治理2.3.3.
数据质量
管理
数字化动态
·
2023-04-03 07:59
大数据
184页10万字智慧城市公共服务中台:业务和数据中台建设方案
11.1.编制依据11.1.1.政策文件依据11.1.2.技术标准规范22.项目建设方案52.1.总体框架52.2.主要建设内容52.3.数据平台52.3.1.数据汇聚52.3.2.数据治理102.3.3.
数据质量
管理
数字化动态
·
2023-04-03 07:58
大数据
基于Python实现的
数据质量
检查
目录1:应用场景2:外部数据
数据质量
评估解决方案构思一:2.1:评估维度——“三率”2.2:评估维度——“三性”2.3:评估维度——“三度”2.4:外部
数据质量
检查案例3:内部数据数据清洗及转换3.1:
奥卡姆的剃刀
·
2023-04-03 00:35
Python
python
大数据系统架构——Hadoop体系
在大数据时代,传统的系统已无法处理具有6V特征(数据量大、数据结构多变、数据更新快、数据黏性大、数据波动大、
数据质量
差)的大数据,但是高性能硬件价格昂贵。在这种情况下,Hadoop架构应运
小成小成小成
·
2023-04-02 23:00
hadoop
大数据
系统架构
数据质量
与
数据质量
八个维度指标
数据质量
与
数据质量
八个维度指标数据的质量直接影响着数据的价值,并且直接影响着数据分析的结果以及我们以此做出的决策的质量。
数据化管理
·
2023-04-02 19:12
TOGAF标准读书会数据专场:国际标准作者坐镇,助力打破信息孤岛(限时免费)
此外,如果没有总体数据模型,往往会出现大量数据冗余问题,从而导致
数据质量
不佳。
The Open Group
·
2023-04-02 06:06
企业新闻
大数据
人工智能
apache griffin 本地部署及源码分析
Griffin功能作用:是一个开源的大数据
数据质量
解决方案,它支持批处理和流模式两种
数据质量
检测方式,可以从不同维度(比如离线任务执行完毕后检查源端和目标端的数据数量是否一致、源表的数据空值数量等)度量数据资产
红雨泛相思
·
2023-04-01 20:46
大数据
hadoop
spark
elasticsearch
大数据技术架构_建设大数据中台架构思考与总结
数据中台定义:集成离线数仓与实时数仓,并以多数据源统一整合采集到kafka,再通过kafka进行离线数据仓库及实时数据仓库,并集用户标签,统一数据资产管理(对数据资产目录、元数据、
数据质量
、数据血缘、数据生命周期等进行管理和展示
weixin_39599705
·
2023-04-01 07:33
大数据技术架构
面向服务架构的主数据管理解决方案
但是往往背后的
数据质量
问题阻碍了新的业务流程的实现目标。
徐悦
·
2023-03-31 22:34
BizTalk
Server
SQL
Server
BizTalk
Server
系列文章
soa
service
数据库
商业智能
数据仓库
终端
基于阿里云官网文档-大数据开发治理平台 DataWorks研读+
数据质量
扩展+相应的大数据组件知识扩展
网址:阿里DataWorkers网址:数据集成概述-大数据开发治理平台DataWorks-阿里云目录网址:阿里DataWorkers网址:数据集成概述-大数据开发治理平台DataWorks-阿里云一、DataWorks工作流程1、数据集成(1)数据同步过程中几个必要的东西2、数据开发(1)写sql,但又不止写sql(2)调度配置3、运维工作(1)大体如下(2)周期任务实例DAG图(有向无环图)(3
ListenerDMT
·
2023-03-31 16:08
大数据扩展知识
阿里云
hive
基于Apache doris怎么构建数据中台(六)-数据服务管理
上次讲
数据质量
的控制,那么针对据仓的数据及各种数据指标怎么快捷的对外提供数据服务,怎么快速的完成数据服务接口的开发,这次我们重点围绕这个进行展开。
张家锋
·
2023-03-31 07:11
可以二次开发的 数据治理系统
这是一款为数据治理而生的企业一站式数据中台,采用微服务云原生技术,富含各类开箱即用的组件,提供了统一的元数据采集和维护入口,支持常见的数据库元数据采集,用来帮助构建企业数据资产目录和数据安全体系;
数据质量
模块可以定时对
数据质量
进行管控
微learn1205
·
2023-03-30 08:14
大型分布式系统
java
开发语言
高效提升
数据质量
是关键!
主要是存在很多低质量及无意义的数据,
数据质量
问题的存在无法满足数据分析需求,将会对最终的统计产生影响,导致分析结果不准确。大量重复数据、缺失数据、无效数据、异常数据、未经计算的原始数据充斥其中,
美林数据Tempodata
·
2023-03-30 06:43
数据分析
大数据
数据挖掘
数据架构重构
通过这次重构,大幅提升了整体性能和
数据质量
。
歌湾汐云
·
2023-03-30 02:24
第二章 1-数据探索
通过检验数据集的
数据质量
、绘制图表、计算某些特征量等手段,对样本数据集的结构和规律进行分析的过程就是数据探索。
moke冲冲
·
2023-03-29 23:47
DataOps:现代数据管道的精髓
是在数据分析过程中,提升
数据质量
,减少数据分析的周期时间,提高效率的一系列实践,现在逐渐发展成了一门方法论。DataOps适用于从数据准备到报告的整个数据生命周期。
LinkTime_Cloud
·
2023-03-29 18:22
数据仓库
大数据
编程语言
hadoop
人工智能
数据架构__"
数据质量
"相关知识体系梳理及亮点分享
2020年4月,中央文件将“数据”纳入生产要素,数据成为了与土地、劳动力、资本、技术等传统要素相并列的第5类生产要素,“数字化转型”、“数据治理”“数据资产”等也变得越来越热。虽然各个企业的数据平台/数据应用系统等开始雨后春笋般得构建起来,但相关数据平台是否实现良性运转、是否真正驱动或助力业务发展、是否真正给企业带来了良好的投资回报,相信很多企业无法给出满意的答卷。阻碍“数据”真实变现的因素很多,
ThomasW_006
·
2023-03-29 17:03
大咖分享|姚秀清:数据资产管理平台如何建设?
曾服务客户主要集中在制造业、交通、地产、公安、政务、财政等领域,主导建业数字大脑项目、广州好莱客数据治理项目,建设数据治理体系,提升全流程
数据质量
,支撑企业数字化运营。
数澜科技Dtwave
·
2023-03-29 16:12
数智观察
big
data
云计算
物联网
数据中台
大数据
茗创:脑电数据处理业务
01数据预处理好的
数据质量
是获得可靠结果的前提,而预处理的质量往往对后处理的结果存在一定的影响。
茗创科技
·
2023-03-29 13:27
脑电
数据处理
脑电
其他数据分析和挖掘的忠告
此部分内容来自对《Python数据分析与数据化运营》4.8节其他数据分析和挖掘的忠告1不要忘记
数据质量
的验证
数据质量
是所有数据工作中最基础但也是最容易被忽视的一个环节,在实际问题中,要有效的应对
数据质量
的问题
晓迦
·
2023-03-29 11:58
基于时序数据处理的分布式光伏功率预测系统
【方法】由于光伏时序
数据质量
参差不齐,本文提出了面向光伏时序数据的缺失值与异常值处理算法,并基于此搭建了分布式光伏功率预测系统。
米朵儿技术屋
·
2023-03-29 02:12
物联网及AI前沿技术专栏
分布式
算法
人工智能
“数实融合” 新时代,解读数据治理的新风向
数据质量
的高低、数据价值的挖掘,是影响企业发展的关键要素之一。
腾讯云开发者
·
2023-03-29 01:35
腾讯云TVP大咖专访
大数据
数仓的概念及架构
目录一、数仓的概念(数据仓库)1、对比记忆:①数据库的概念:②数仓的概念(全方面的数据完整保存):③银行主题④集成:⑤时间变化:⑥效率足够高:⑦
数据质量
⑧扩展性:2、数仓的用途3、数仓的相关技术二、数据库和数仓区别二
贫僧会写代码
·
2023-03-28 21:11
数仓
数据仓库
数据库
数据挖掘
为什么车企做大数据应用面临更大的挑战
由于小编只接触过银行和车企两个行业,暂且拿他们的
数据质量
和运营方式做下比较
数据质量
对比:VS银行的数据取得了碾压式的胜利✌️。为什么会这样呢?
zwn_f394
·
2023-03-28 01:21
大数据分析与挖掘-Part2-数据预处理
初始数据集的准备与变化是数据挖掘的过程中重要步骤包含大量不完整,含噪声和不完整的数据是大数据应用中的典型特点数据的预处理能够有效提高
数据质量
,节约大量的时间和空间大部分数据挖掘算法对输入数据的格式,质量以及规模有一定的要求现实世界的数据是
IncWu
·
2023-03-27 09:19
数据挖掘
spark
数据挖掘
数据治理-v1
参考DAMA教材,
数据质量
提升的步骤包括了数据剖析(数据探查)、原因梳理及实施的3步不断迭代循环。
一个神经质的工程师
·
2023-03-26 17:25
建设方法论onedate:极客数据中台课程总结
time.geekbang.org/column/article/220290一、前言数据开发职业规划:熟练的使用数据中台支撑技术体系内的工具,熟悉数据中台模式下数据研发的流程,对指标定义、维度建模、
数据质量
稽核监控
夜希辰
·
2023-03-26 00:57
ChatBI- ChatGPT的垂直领域思考
BI之痛从事大数据工作十余年,近两年负责制造业BI工作,总结了一些痛点问题:技术挑战难度不大,繁杂重复事情较多,费时费力:组织架构调整,营收历史数据重算数据异常繁琐,排查定位耗时指标口径不统一,上游
数据质量
堪忧
DawsonSally
·
2023-03-25 10:36
chatgpt
结构方程模型不达标调整
1、不达标原因在实际研究中,结构方程模型容易出现不达标现象,比如卡方自由度,RMSEA,CFI值等不达标,至于出现不达标的原因,可能包括几点,分别是‘不正确使用’、‘测量关系不好’、‘模型不好’和‘
数据质量
差
spssau
·
2023-03-24 20:56
数据治理框架
笔者认为:所有为提高
数据质量
而展开的业务、技术和管理活动都属于数据治理范畴。数据治理的目的就是通过有效的数据资源控制手段,进行数据的控制,以提升
数据质量
进而提升数据变现的能力。二、为什么需要数据
catydidd
·
2023-03-23 21:39
安全架构
big
data
云计算
阿里巴巴大数据实践(数据管理篇)
第12章元数据第13章计算管理第14章存储和成本管理第15章
数据质量
第16章数据应用第12章元数据12.1元数据概述12.1.1元数据定义按照传统的定义,元数据(Metadata)是关于数据的数据。
天线嘟嘟茄
·
2023-03-22 07:33
论文讲解-Tripartite: Tackle Noisy Labels by a More Precise Partition
TackleNoisyLabelsbyaMorePrecisePartition地址:https://arxiv.org/pdf/2202.09579.pdf领域:知识蒸馏1.abstract&motivation
数据质量
对于模型精度至关重要
littletomatodonkey
·
2023-03-22 07:33
知识蒸馏
深度学习
计算机视觉
深度学习
人工智能
上一页
10
11
12
13
14
15
16
17
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他