E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓数据质量
影子模式,是不是被“神化”了?
在谈自动驾驶的数据时,除数据规模外,我们说得最多的就是“
数据质量
”,而所谓“高质量的数据”往往特指极端工况数据。
九章智驾
·
2023-09-06 02:17
算法
编程语言
人工智能
机器学习
java
数仓
数据建模中的概念总结(数据域、主题域、总线矩阵、指标...)
概念归纳业务分类:业务板块是某一大类业务的指标和维度的集合,如电商,文娱。数据域:面向业务分析,将业务过程或者维度进行抽象的集合,如交易域,日志域。将零散的需求分类,后续一一展开,这个过程叫数据域划分。数据域需要抽象提炼、并且长期维护和更新的,但不轻易变动。在划分数据域时,既能涵盖当前所有的业务需求,又能在新业务进入时无影响地被包含进已有的数据域或者扩展新的数据域。事实表为了更好地进行分析,往往会
锵锵锵锵~蒋
·
2023-09-06 01:57
数据研发
数据仓库
数仓
中的维度、度量、指标、事实、属性几个概念如何区分?有何异同?
文章目录维度VS属性维度横比纵比定性维度、定量维度维度VS度量度量VS指标维度VS指标维度VS属性维度是说明数据,是业务中对象的描述性属性或特征,用于对业务过程进行分析归类。属性是刻画某个实体对象维度的数据形态。通过事物发展的数量、质量两大方面,从横比、纵比角度进行全方位的比较,我们才能够全面的了解事物发展的好坏。维度横比纵比如用户数环比上月增长10%、同比去年同期增长20%,这就是时间上的对比,
锵锵锵锵~蒋
·
2023-09-06 01:57
数据研发
数据仓库
维度
指标
【数学建模竞赛】数据预处理知识总结1——数据清洗
数据预处理的目的是消除数据中的噪声、错误和不完整性,以提高
数据质量
和分析
CaojunjiaOnly
·
2023-09-06 00:38
数学建模
数学建模
数据分析
大数据
数据仓库
线上问诊:
数仓
开发(二)
系列文章目录线上问诊:业务数据采集线上问诊:
数仓
数据同步线上问诊:
数仓
开发(一)线上问诊:
数仓
开发(二)文章目录系列文章目录前言一、DWS1.最近1日汇总表1.交易域医院患者性别年龄段粒度问诊最近1日汇总表
超哥--
·
2023-09-05 21:06
线上问诊
数据仓库
线上问诊:
数仓
开发(三)
系列文章目录线上问诊:业务数据采集线上问诊:
数仓
数据同步线上问诊:
数仓
开发(一)线上问诊:
数仓
开发(二)线上问诊:
数仓
开发(三)文章目录系列文章目录前言一、ADS1.交易主题1.交易综合统计2.各医院交易统计
超哥--
·
2023-09-05 21:04
线上问诊
数据仓库
离线
数仓
同步数据_用户行为表数据同步
离线
数仓
同步数据_用户行为表数据同步2.1.4日志消费Flume测试[gpb@hadoop104~]$cd/opt/module/flume/[gpb@hadoop104flume]$cdjob/[gpb
program chef
·
2023-09-05 21:16
#
数据仓库
大数据
数据仓库
腾讯音乐基于 Apache Doris + 大模型构建全新智能数据服务平台
在内容
数仓
搭建的过程中,我们的工作始终围绕降本增效为主要目的进行优化与迭代,希望在数据服务方面不断提升产品工具的开发与分析效率,同时在
数仓
架构方面能够有效减少架构成本与资源开销。
·
2023-09-05 17:37
数据仓库的流程
需求量非常大,如果每个需求都采用独立c代码开发方式,重复计算会很多.提高性能的方法:1.减少数据量2.减少重复计算例如RDDcache可以减少重复计算,但是不安全,都在缓存中,persist都放内存中,但是慢而
数仓
是通过表来保存数据
叫我莫言鸭
·
2023-09-05 14:48
hive
大数据
mysql
数据仓库
数据库
CCKS2023:基于企业
数仓
和大语言模型构建面向场景的智能应用
8月24日-27日,第十七届全国知识图谱与语义计算大会(CCKS2023)在沈阳召开。大会以“知识图谱赋能通用AI”为主题,探讨知识图谱对通用AI技术的支撑能力,探索知识图谱在跨平台、跨领域等AI任务中的作用和应用途径。作为国内知识图谱、语义技术、自然语言理解与知识获取等领域的核心学术会议,每年的CCKS都会邀请相关技术领域顶尖专家学者参会,探讨AI前沿技术。今年以来,大语言模型掀起的新一轮AI浪
·
2023-09-05 11:30
数据库llm人工智能
CCKS2023:基于企业
数仓
和大语言模型构建面向场景的智能应用
8月24日-27日,第十七届全国知识图谱与语义计算大会(CCKS2023)在沈阳召开。大会以“知识图谱赋能通用AI”为主题,探讨知识图谱对通用AI技术的支撑能力,探索知识图谱在跨平台、跨领域等AI任务中的作用和应用途径。作为国内知识图谱、语义技术、自然语言理解与知识获取等领域的核心学术会议,每年的CCKS都会邀请相关技术领域顶尖专家学者参会,探讨AI前沿技术。今年以来,大语言模型掀起的新一轮AI浪
HashData酷克数据
·
2023-09-05 10:14
语言模型
人工智能
大数据
阿里云大数据实战记录7:如何处理生产环境表单的重复数据
目录一、前言二、删除重复数据2.1调度任务中新增去重逻辑2.2查询窗口中一次性去重2.3手动处理局部重复数据2.4数据备份问题三、总结一、前言今天发现
数仓
有一个表单,表里的数据出现了重复,每一列的数据都一模一样
Xin学数据
·
2023-09-05 09:33
阿里云大数据
阿里云
大数据
中国
数据质量
管理现状及发展趋势
本文根据谭海华先生在【DQMIS2020第四届
数据质量
管理国际峰会】现场演讲内容整理而成。
19e1a2398326
·
2023-09-05 02:10
数仓
开发:更新变动数据
数仓
一、数据更新检查二、更新目标表三、更新中间表在
数仓
建设过程中,经常会遇到上游数据变动,进而更新下游目标表的情况,这个时候只需要根据主键update/insert即可,但也会遇到某些特殊情况,比如说下游
我爱夜来香A
·
2023-09-04 23:00
数据库开发
sql
oracle
数据库
基于 Kafka、Flink 构建实时数据湖的最佳实践
数仓
技术应对关系型结构化数据游刃有余,但对于多元异构数据,却爱莫能助。最近行业大佬都在聊怎么部署数据湖,这波操作未来走向如何?数据湖技术能够实现全量数据的单一存储,通常存储原始格式的对象块或者文件。
浪尖聊大数据-浪尖
·
2023-09-04 22:15
大数据
人工智能
编程语言
java
数据分析
20用于深度学习训练和研究的数据集
它们用于训练和评估机器学习模型,研究和开发新算法,改进
数据质量
,解决实际问题,推动科学研究,支持数据可视化,以及决策制定。
deephub
·
2023-09-04 15:54
深度学习
人工智能
机器学习
开源数据集
数仓
分层理论和应用
2.
数仓
:ODS经过按照主题建立各种数据模型,细分如下:1)数据明细层:DWD(DataWarehouseDetail),按照业务处理方式将各个专业数据进行集中,保证数据完整性和质量。
意林飞笑
·
2023-09-04 02:22
大数据
【
数仓
基础(一)】基础概念:数据仓库【用于决策的数据集合】的概念、建立数据仓库的原因与好处
文章目录一.数据仓库的概念1.面向主题2.集成3.随时间变化4.非易失粒度二.建立数据仓库的原因三.使用数据仓库的好处一.数据仓库的概念数据仓库的主要作用:数据仓库概念主要是解决多重数据复制带来的高成本问题。在没有数据仓库的时代,需要大量的冗余数据来支撑多个决策支持环境。尽管每个环境服务于不同的用户,但这些环境经常需要大量相同的数据。数据仓库的概念:数据仓库描述为一个面向主题的、集成的、随时间变化
roman_日积跬步-终至千里
·
2023-09-04 00:11
数据仓库
数据仓库
行业测试数据
例如在
数仓
开发中,会遇到需要在已构建的
数仓
模型(各种表)中,导入一些测试数据,方便逻辑开发完之前进行开发和测试。亦或是自己有一些SQL逻辑需要测试,需要批量造一
袋鼠云金融交付团队
·
2023-09-03 19:33
superset部署安装及使用介绍
Superset应用场景由于Superset能够对接常用的大数据分析工具,如Hive、Kylin、Druid等,且支持自定义仪表盘,故可作为
数仓
的可视化工具。Superset安装及使
王亭_666
·
2023-09-03 11:13
运维
大数据
superset
superset
bi
数据展示
数据可视化
python
酷克数据与华为合作更进一步 携手推出云
数仓
联合解决方案
酷克数据作为国内云原生数据仓库的代表企业,也是华为重要的生态合作伙伴,受邀参与本次论坛,并展示了云
数仓
领域最新前沿技术以及联合华为打造的云
数仓
联合解决方案。
HashData酷克数据
·
2023-09-03 08:45
华为
数据库
大数据
《数据挖掘导论》归纳笔记
目录第一章绪论第二章数据2.0引言2.0.1数据类型2.0.2数据的质量2.0.3使数据适合挖掘的预处理步骤2.0.4根据数据联系分析数据2.1数据类型2.1.1属性与度量2.1.2数据集的类型2.2
数据质量
oh panda
·
2023-09-03 05:39
数据挖掘
笔记
人工智能
使用 Hue 玩转 Amazon EMR(SparkSQL, Phoenix) 和 Amazon Redshift
现状ApacheHue是一个基于Web的交互式SQL助手,通过它可以帮助大数据从业人员(
数仓
工程师,数据分析师等)与数据仓库进行SQL交互。在AmazonEMR集群启动时,通过勾选Hue进行安装。
·
2023-09-02 23:50
amazon-emr
使用 Hue 玩转 Amazon EMR(SparkSQL, Phoenix) 和 Amazon Redshift
现状ApacheHue是一个基于Web的交互式SQL助手,通过它可以帮助大数据从业人员(
数仓
工程师,数据分析师等)与数据仓库进行SQL交互。在AmazonEMR集群启动时,通过勾选Hue进行安装。
亚马逊云开发者
·
2023-09-02 23:52
Amazon
EMR
酷克数据与华为合作更进一步 携手推出云
数仓
联合解决方案
酷克数据作为国内云原生数据仓库的代表企业,也是华为重要的生态合作伙伴,受邀参与本次论坛,并展示了云
数仓
领域最新前沿技术以及联合华为打造的云
数仓
联合解决方案。
·
2023-09-02 18:43
数据库postgresql
数据采集及采集工具八爪鱼的使用
数据采集及采集工具八爪鱼的使用一个数据的走势是由多个维度影响的,因此我们需要通过多源的数据采集,尽可能收集到更多的数据维度,公司保证
数据质量
,才能得到高质量的数据挖掘结果。
Sweeney Chen
·
2023-09-02 14:32
数据挖掘
数据采集
20用于深度学习训练和研究的数据集
它们用于训练和评估机器学习模型,研究和开发新算法,改进
数据质量
,解决实际问题,推动科学研究,支持数据可视化,以及决策制定。
·
2023-09-02 10:59
人工智能深度学习机器学习数据集
漫谈大数据 - 数据湖认知篇
目录数据湖定义WikipediaAWS微软定义概括数据湖基本特征数据方面保真灵活可管理可追溯计算方面计算引擎存储引擎数据湖基本架构数据湖架构图数据湖建设的基本过程
数仓
建设过程数据摸底模型抽象数据
昊昊该干饭了
·
2023-09-01 22:20
大数据
大数据
数据仓库
尚硅谷线上问诊离线
数仓
项目
项目共分四大部分:
数仓
建模原理介绍、
数仓
模型搭建、DolphinScheduler全流程调度、SuperSet可视化大屏展示,以线上问诊采集项目为前置基础,使用线上问诊采集项目的基础架构,将数据导入
数仓
中
尚硅谷铁粉
·
2023-09-01 18:46
大数据
数据仓库
big
data
大数据线上问诊实时
数仓
项目
尚硅谷线上问诊实时
数仓
项目延续了离线
数仓
的业务逻辑,以线上问诊开处方为基础业务逻辑,真实表现了线上问诊数据的实时分析统计。
尚硅谷铁粉
·
2023-09-01 18:46
big
data
大数据
数据仓库
线上问诊:
数仓
开发(一)
系列文章目录线上问诊:业务数据采集线上问诊:
数仓
数据同步线上问诊:
数仓
开发(一)文章目录系列文章目录前言一、Hiveonyarn二、
数仓
开发1.ODS开发2.DIM开发3.DWD开发总结前言上次我们已经将
超哥--
·
2023-09-01 18:12
线上问诊
数据仓库
说说Omega架构
分析&回答Omega架构我们暂且称之为混合
数仓
。什么是ECS设计模式在谈我们的解法的时候,必须要先提ECS的设计模式。简单的说,Entity、Component、System分别代表了三类模型。
学一次
·
2023-09-01 17:43
大数据
架构
数据仓库
数据库
新一代云原生实时
数仓
SelectDB 登顶 ClickBench 榜单!
近期,在ClickHouse发起的分析型数据库性能测试排行榜ClickBench中,新一代云原生
数仓
SelectDB强势登顶,性能表现超越一众国内外产品,多项指标排行前列,并在业界最为通用的c6a.4xlarge
张家锋
·
2023-09-01 17:35
【大数据】数据湖:下一代大数据的发展趋势
下一代大数据的发展趋势1.数据湖技术产生的背景1.1离线大数据平台(第一代)1.2Lambda架构1.3Lambda架构的痛点1.4Kappa架构1.5Kappa架构的痛点1.6大数据架构痛点总结1.7实时
数仓
建设需求
G皮T
·
2023-09-01 16:24
大数据
大数据
数据湖
Iceberg
Lambda架构
Kappa架构
数据治理-参考数据与主数据
启动主数据管理常见的驱动因素满足组织数据需求管理
数据质量
管理数据集成的成本参考数据与主数据管理规划的目标包括确保组织在各个流程中都拥有完整、一致、最新且权威的参考数据与主数据;促使企业在各业务单元和各应用系统之间共享参考数据和主数据
世润
·
2023-09-01 12:26
数据治理
我们从爬取1000亿个网页中学到了什么?
其中包括应对不断变化的网站格式、构建可伸缩的爬虫基础框架并保持吞吐量,与此同时还要挫败网站反机器人的手段以及维护
数据质量
。在这篇文章中,流行Pyt
weixin_33953249
·
2023-09-01 07:00
爬虫
javascript
python
ViewUI
说说Kappa架构
分析&回答对于实时
数仓
而言,Lmabda架构有很明显的不足,首先同时维护两套系统,资源占用率高,其次这两套系统的数据处理逻辑相同,代码重复开发。
学一次
·
2023-09-01 06:56
大数据
架构
大数据
java
使用MaxCompute进行
数据质量
核查(实验篇)
实验背景和目标,参考课时6第一章:实验准备开通DataWorks服务本次实验主要使用MaxCompute(DataWorks)客户端进行开发,如已开通相关服务,则直接跳过本章节,进入实验即可。如没有开通过相关服务,则按照如下步骤开通服务。开通DataWorks服务打开浏览器,输入阿里云官网地址www.aliyun.com使用自己的阿里云官网账号登陆控制台登陆后进入管理控制台,选择产品与服务菜单,点
SunnyRivers
·
2023-09-01 05:55
怎么制作问卷?
帮助您优化在线调查问卷,提高
数据质量
和准确性。一、明确研究目的和问题在设计在线调查问卷之前,必须明确研究目的和问题。清晰的研究目的可以指导问卷设计和问题编写,确保数据能够准确反映研究需求。
courage576
·
2023-09-01 02:18
调查问卷工具
问卷
调查问卷
问卷工具
调查问卷平台
实时
数仓
构建新思路,NineData数据复制技术详解
8月30日,由NineData和SelectDB共同举办的主题为“实时数据驱动,引领企业智能化数据管理”的线上联合发布会,圆满成功举办!双方聚焦于实时数据仓库技术和数据开发能力,展示如何通过强大的生态开发兼容性,对接丰富的大数据生态产品,助力企业快速开展数据分析业务,共同探索实时数据驱动的未来企业智能化数据管理解决方案。本文根据玖章算术技术副总裁陈长城(天羽)在NineDataXSelectDB联
·
2023-08-31 16:55
『Newsletter 丨第二期』PieCloudDB Database 新增控制台、LDAP 支持、虚拟
数仓
日志等多项功能
PieCloudDBDatabase最新动态云上云版「控制台」功能上线PieCloudDB云上云版「控制台」功能全新上线,控制台集成了组织、
数仓
、用户、费用、权限等多方位管理功能,支持在一个组织下创建和管理多个
数仓
·
2023-08-31 14:51
云原生数据库
Apache Doris (一) :Doris 介绍及使用场景
目录1.ApacheDoris介绍2.ApacheDoris使用场景2.1报表分析2.2即席查询(Ad-hocQuery)2.3统一
数仓
构建2.4数据湖联邦查询进入正文之前,欢迎订阅专题、对博文点赞、评论
IT贫道
·
2023-08-31 13:24
Apache
Doris
apache
大数据
java
华为数据之道|04 面向“业务交易”的信息架构建设|②信息架构原则:建立企业层面的共同行为准则
数据Owner要负责所辖领域的信息架构建设和维护,负责保障所辖领域的
数据质量
,承接公司各个部门对本领域数据的需求,并有责任建立数据问题回溯和奖惩机制,对所辖领域的数据问题及争议进行裁决,公司
是杰夫呀
·
2023-08-31 13:18
火山引擎 Dataleap
数据质量
解决方案和最佳实践(一):
数据质量
挑战
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群什么是
数据质量
广义上来说,
数据质量
的定义是数据满足一组固有特性(质量维度)要求的程度。
·
2023-08-31 10:23
数据库大数据大数据处理
数据仓库(13)大数据
数仓
经典最值得阅读书籍推荐
从事
数仓
工作,在工作学习过程也看了很多数据仓库方面的数据,此处整理了
数仓
中经典的,或者值得阅读的书籍,推荐给大家一下,希望能帮助到大家。建议收藏起来,后续有新的书籍清单会更新到这里。
·
2023-08-31 10:23
大数据大数据处理etl书籍
数据仓库(12)数据治理之
数仓
数据管理实践心得
这边文章聊聊自己对数据治理开发实践的一些思路,就是聊聊怎么开始去做数据治理这件事情。说起数据治理,有时候虽然看了很多文章,看了很多的介绍,了解数据治理的理论,但是实际上需要我们去搞的时候,就会踩很多的坑。这里记一下自己做数据治理的一些思路,做做笔记,也分享给需要的同学。当然,想要做数据治理,想要学习了解,一下数据治理的范围,理论等,最好可以看看别人怎么做的,了解数据治理可以参考:数据仓库(11)什
·
2023-08-31 10:23
大数据etl大数据处理数据
说说构建流批一体准实时
数仓
分析&回答基于Hive的离线
数仓
往往是企业大数据生产系统中不可缺少的一环。Hive
数仓
有很高的成熟度和稳定性,但由于它是离线的,延时很大。
学一次
·
2023-08-31 07:50
大数据
hive
数据库
电商
数仓
项目需求及架构设计
一、项目需求1.用户行为数据采集平台搭建2.业务数据采集平台搭建3.
数仓
维度建模4.统计指标5.即席查询工具,随时进行指标分析6.对集群性能进行监控,发生异常时报警(第三方信息)7.元数据管理8.质量监控
BigData_001_Lz
·
2023-08-31 05:28
数据仓库
融入数据浪潮,KaiwuDB 期待与您共赴 DTCC 2023
大会以“数智赋能共筑未来”为主题,设置2大主会场,20+技术专场,邀请超百位行业专家,重点围绕HTAP与多模数据库应用、图数据技术、云原生数据库、实时
数仓
等内容展开分享和探讨。
KaiwuDB
·
2023-08-30 23:10
KaiwuDB
DTCC
2023
数据艺术:精通数据可视化的关键步骤
同时数据可视化也是数字孪生的基础,本文小编带大家用最简单的话语为大家讲解怎么制作一个数据可视化大屏,接下来跟随小编的思路走起来~1.数据收集和清洗数据可视化最重要的一步便是数据,收集所需数据,并确保
数据质量
枝上棉蛮
·
2023-08-30 20:43
教程
数据可视化
信息可视化
数据分析
大数据
数据挖掘
sql
mysql
mongodb
上一页
22
23
24
25
26
27
28
29
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他