E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓数据质量
Databend 开源周报第 129 期
Databend是一款现代云
数仓
。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn。
Databend
·
2024-01-23 03:31
开源
浅谈大数据智能化技术在多个领域的应用实践
技术实践、架构设计、指标体系、
数据质量
、数据分析、数据挖掘、数据采集、数据智能化应用、BI、AI等方面,大数据智能化技术在不同领域的应用场景和代码编写。
shinelord明
·
2024-01-22 17:45
大数据
人工智能
算法
CUTANA™ CUT&RUN Assays ——实现超敏基因组定位
但是由于ChIP存在高细胞需求量、技术难度大、成本高、深度测序、
数据质量
差以及变量
Neobioscience
·
2024-01-22 11:14
CUTANA
CUT
RUN
Assays
表观遗传学
【深度学习:数据增强 】提高标记
数据质量
的 5 种方法
【深度学习:数据增强】提高标记
数据质量
的5种方法计算机视觉中常见的数据错误和质量问题?为什么需要提高数据集的质量?
jcfszxc
·
2024-01-22 10:29
深度学习知识专栏
深度学习
人工智能
Flink背景
数仓
简介在信息爆炸的时代,为了从海量数据中洞察业务价值,驱动运营决策,企业通常会构建用于数据分析的数据仓库。
201001070
·
2024-01-22 08:31
Flink
flink
大数据
大数据开发之电商
数仓
(hadoop、flume、hive、hdfs、zookeeper、kafka)
第1章:数据仓库1.1数据仓库概述1.1.1数据仓库概念1、数据仓库概念:为企业制定决策,提供数据支持的集合。通过对数据仓库中数据的分析,可以帮助企业,改进业务流程、控制成本,提高产品质量。数据仓库并不是数据的最终目的地,而是为数据最终的目的地做好准备,这些准备包括对数据的:清洗、转义、分类、重组、合并、拆分、统计等。2、数据仓库的数据通常包括:业务数据、用户行为数据和爬虫数据等3、业务系统数据库
Key-Key
·
2024-01-22 07:29
大数据
hadoop
flume
kafka
hive
hdfs
2020-05-07
刚刚看到一个推送文章,就随手看了起来,文章是关于销售团队的一些用户须知的简化流程,提高
数据质量
,减少人工工作,而且可以是最总用户更轻松滴专注于实际工作。
程可惠
·
2024-01-22 04:38
数据仓库简介、数据仓库的发展、
数仓
理论简介
数仓
理论简介数据仓库解决方案诞生至今,也有2、30年的发展历史了,在这个过程中,
数仓
理论不断被更新和完善,逐步形成了目前大家普通遵守的
数仓
开发理论(概念)。
yida&yueda
·
2024-01-21 11:48
大数据
数据仓库
big
data
数据库
数据仓库简介
一、
数仓
概念数据仓库,英文名称为DataWarehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。
水坚石青
·
2024-01-21 11:46
数据仓库
mysql
数据库
java
数据仓库
oracle
大数据
数据大咖都在考CDMP,你呢?
全方位技能加持:CDMP认证涵盖数据建模、
数据质量
、数据治理等
IT课程顾问
·
2024-01-21 11:50
DAMA
服务器
python
java
前端
后端
数据分析完整流程一般包括哪几个环节/步骤
数据清洗:对收集到的数据进行清理,处理缺失值、异常值和重复值,确保
数据质量
。数据探索(探索性数据分析EDA):探索数据的特征、分布、相关性等,通过可视化和统计方法深入了解数据。
Recursions
·
2024-01-21 07:21
数据分析
智慧城市环境监测系统实验报告
面对当前生态文明建设的新形势和新要求,我国生态环境监测事业发展还存在网络范围和要素覆盖不全,建设规划与信息发布不统一,信息化水平和共享程度不高,监测与监管结合不紧密,监测
数据质量
有待提高等突出问题,
扣jio黑萝莉
·
2024-01-21 05:32
实战讲解|Trino 在袋鼠云数栈的探索与实践
这些模块旨在实现对
数据质量
的有效校验、提升数据加工处理效能
袋鼠云数栈
·
2024-01-20 21:44
大数据
Python实现数据库表的监控告警功能
Python实现数据库表的监控告警功能简介:使用Python实现对数据库表的监控告警功能,并将告警信息通过钉钉机器人发送到钉钉群实现DataWorks中
数据质量
的基本功能,当然DW的
数据质量
的规则类型很多
Taerge0110
·
2024-01-20 21:41
大数据
数仓
算法
数据库
python
开发语言
大数据
Hologres V2.1版本发布,新增计算组实例构建高可用实时
数仓
Highlight产品介绍Hologres是阿里云自研一站式实时
数仓
,统一数据平台架构,将OLAP查询、即席分析、在线服务、向量计算多个数据应用构建在统一存储之上,实现一份数据,多种计算场景。
阿里云大数据AI技术
·
2024-01-20 21:07
网络
java
数据库
数据预处理 matlab &
数据质量
评估
知乎数据类型转换等Mathworks数据预处理概念辨析配对是同一批样本的前后比较,独立是两批不同样本的的比较独立样本是指我们得到的样本是相互独立的。配对样本就是一个样本中的数据与另一个样本中的数据相对应的两个样本。配对样本可以消除由于样本指定的不公平造成的差异。配对样本:指的是来自同一个个体或单位的两组数据,如同一个人在两个不同时间点的血压值,或者同一个医院的两个不同科室的病人的体重值。在配对样本
try_trying_try
·
2024-01-20 19:51
统计学习方法
数据分析
巴别时代基于 Apache Paimon 的 Streaming Lakehouse 的探索与实践
我们基于ApachePaimon(Incubating)构建StreamingLakehouse的落地实践主要分为三期:第一期是在调研验证的基础上进行
数仓
分层,并且上线一些简单的业务验证效果;第二期是实现流式
数仓
的基础设施建设
Apache Flink
·
2024-01-20 12:21
Flink
大数据
实时计算
apache
kafka
大数据
java
分布式
程序员必备的面试技巧——大数据工程师面试必备技能
目录前言一、不同工程师的职责和技能要求1、
数仓
开发工程师2、算法挖掘工程师3、大数据平台开发工程师4、大数据前端开发工程师二、大数据技术架构图三、大数据相关的技术内容四、大数据面试经验1、大数据开发岗位
Francek Chen
·
2024-01-20 11:22
话题征文
面试
职场和发展
大数据
超融合之道:亚信安慧AntDB 8.0版本引领数据库创新
在当今多变的数据应用场景中,AntDB作为行业领先的超融合流式实时
数仓
,秉承着“融合+实时”的研发理念,全面应对企业日益复杂的数据处理需求。
亚信安慧AntDB数据库
·
2024-01-20 01:00
数据库
antdb数据库
antdb
华为外包数据库面试问题分享20211225
数仓
的东西了解多少。数据库开发支持这方面你做过哪些。你现在的工作中的SQL开发,具体是作了哪些。你的工作意愿是哪个方向(这么问是因为知道了我没做过DBA)在
数仓
的设
钦䲹
·
2024-01-19 16:05
数据库
华为
面试
某小外包公司线上面试-大数据开发
1.
数仓
和数据库的区别2.
数仓
建模3.hive用到的函数4.rank,dense_rank,row_number的区别5.hive数据倾斜的原因有哪些7.如何理解
数据质量
?
劝学-大数据
·
2024-01-19 16:03
大数据面试题
大数据
数据中台概念
数据中台1.数据中台模块数据采集数据存储数据处理数据分析数据应用2.数据中台的核心功能数据采集与集成数据清洗与预处理数据建模与存储数据分析与挖掘数据可视化与报告
数据质量
管理数据安全与隐私保护数据共享与开放
大数据驱动
·
2024-01-19 14:40
#
8数据中台-S级
信息可视化
大数据
基于 Hologres+Flink 的曹操出行实时
数仓
建设
本文整理自曹操出行实时计算负责人林震基于Hologres+Flink的曹操出行实时
数仓
建设的分享,内容主要分为以下六部分:曹操出行业务背景介绍曹操出行业务痛点分析Hologres+Flink构建企业级实时
数仓
曹操出行实时
数仓
实践曹操出行业务成果分析未来展望一
Apache Flink
·
2024-01-19 08:54
flink
大数据
EMQX ECP 2.0 工业互联数据平台产品发布会
然而,许多工业企业都面临一系列数据层面的挑战,如数据碎片化、数据处理延迟、以及
数据质量
不一等等。
EMQX
·
2024-01-19 04:25
MQTT
物联网
FineBI实战项目一(25):实战项目一总结
实在项目使用mysql做
数仓
库的ODS层,这仅仅是带领大家入门,用mysql做
数仓
存在很多问题。
不死鸟.亚历山大.狼崽子
·
2024-01-19 02:39
FineBI
finebi
数仓
架构图
阿里巴巴的数据团队把表数据模型分为三层:操作数据层(ODS)、公共维度模型层(DM)和应用数据层(DS),其中公共维度模型层包括明细数据层(DWD)和汇总数据层(DWS)。模型层次关系如9.9所示。image.png公共维度模型层(CDM):存放明细事实数据、维表数据及公共指标汇总数据其中明细事实数据、维表数一般根据ODS层数据加工生成:公共指标汇总数据般根据维表数据和明细事实数据加工生成。CDM
liuxiaolin
·
2024-01-19 01:27
Hologres + Flink 流式湖仓建设
Flink流式湖仓建设1Flink+Hologres特性1.2实时维表Lookup1.3高性能实时写入与更新1.4多流合并1.5Hologres作为Flink的数据源1.6元数据自动发现与更新2传统实时
数仓
分层方案
Direction_Wind
·
2024-01-18 21:56
hologres
技术调研
flink
大数据
数据审核与标注平台需求文档
1.2使用场景数据审核人员小明,负责法律法规/司法案例/法学期刊/用户需求
数据质量
的控制工作,最近新增了一批数据,需要快速地了解这批数据量有多少、有哪些内容、是否有新处理的字段、字段内容是否完
Babo
·
2024-01-18 20:40
ALOS全球30m地形高程瓦片数据介绍
在全球30m的地形高程数据中,有SRTM、ASTER、NASA、ALOS等数据,这一众数据中,论
数据质量
和数据时效性,ALOS是其中最好的。ALOS(AdvancedLandObse
按图索迹
·
2024-01-18 17:44
高程地形瓦片数据
前端
后端
3d
webgl
arcgis
白山云基于StarRocks数据库构建湖仓一体
数仓
的实践
背景随着每天万亿级别的业务数据流向数据湖,数据湖的弊端也逐渐凸显出来,例如:数据入湖时效性差:数据湖主要依赖于离线批量计算,通常不支持实时数据更新,因此无法保证数据的强一致性,造成数据不及时、不准确;查询性能差:在传统架构下,数据湖的查询速度较差,小时粒度的数据查询往往需要数分钟才能得到响应,在多个业务方同时执行数据湖查询任务时,查询响应慢的劣势更加明显;查询体验差:数据存储在多个地方,在进行联邦
StarRocks_labs
·
2024-01-18 17:04
社区投稿
数据库
大数据
关于heatmap
(2)热图的作用
数据质量
控制:通过热图,我们能很直观的看到不同分组之间的基因整体表达模式,因此可以迅速地判断同组之间各样本的重复性如何,从而判断实验处理是否正确,数据是否可信可靠符合逻辑。
果蝇饲养员的生信笔记
·
2024-01-18 15:48
大数据基础-测试过程
二、大数据的测试类型:验证其数据处理、性能和功能测试是关键处理:批量、实时、交互
数据质量
测试:字段一致性、准确性、重复性、有效性、数据完整性性能测试三、大数据的测试步骤step1:数据阶段验证:pre-Had
测试界吖吖
·
2024-01-18 11:37
软件测试
大数据
功能测试
软件测试
自动化测试
程序人生
职场和发展
技术选型|开源大数据OLAP引擎最佳实践
一、开源OLAP综述二、开源
数仓
解决方案三、ClickHouse介绍四、StarRocks介绍五、Trino介绍六、客户案例01开源OLAP综述如今的开源数据引擎多种多样,不同种类的引擎满足了我们不同的需求
浪尖聊大数据-浪尖
·
2024-01-18 08:14
运维
大数据
分布式
数据库
人工智能
数仓
项目6.0配置大全(hadoop/Flume/zk/kafka/mysql配置)
配置背景我使用的root用户,懒得加sudo所有文件夹在/opt/module所有安装包在/opt/software所有脚本文件在/root/bin三台虚拟机:hadoop102-103-104分发脚本fenfa,放在~/bin下,chmod777fenfa给权限#!/bin/bash#1.判断参数个数if[$#-lt1]thenechoXXXXXXXXXNoArguementXXXXXXXXX!
Int mian[]
·
2024-01-18 06:57
hadoop
flume
kafka
如何设计实时数据平台(设计篇)
在上篇设计篇中,我们首先从两个维度介绍实时数据平台:从现代
数仓
架构角度看待实时数据平台,从典型数据处理角度看待实时数据处理;接着我们会探讨实时数据平台整体设计架构、对具体问
longLiveData
·
2024-01-18 05:11
离线
数仓
二
数据仓库维度模型设计维度建模基本概念维度模型是数据仓库领域大师RalphKimall所倡导,他的《数据仓库工具箱》,是数据仓库工程领域最流行的
数仓
建模经典。
pauls
·
2024-01-18 00:26
尚硅谷离线
数仓
之采集平台
1.用户行为日志数据流向流程图如下,其中红框表示用户行为日志数据的流向图。1.1行为日志内容行为日志主要包括以下几个内容页面浏览记录动作记录曝光记录启动记录错误记录页面浏览记录动作记录曝光记录启动记录1.2用户行为日志格式页面日志启动日志页面日志,以页面浏览为单位,即一个页面浏览记录,生成一条页面埋点日志。一条完整的页面日志包含,一个页面浏览记录,用户在该页面所做的若干个动作记录,若干个该页面的曝
韩顺平的小迷弟
·
2024-01-17 21:56
大数据
python
开发语言
数据仓库面试题
1思维导图&
数仓
常见面试题2题目1.数据仓库是什么?
韩顺平的小迷弟
·
2024-01-17 21:53
大数据面试题
数据仓库
大数据
2024.1.16 用户画像day01 - 项目介绍
技术选型:技术架构:项目架构:二.名词解释一.项目介绍整体流程:项目介绍-elasticSearch-业务数据源导入-离线指标开发-Flume实时采集-Nginx日志埋点数据-结构化流实时指标-制作报表
数仓
开发用户画像实时开发
白白的wj
·
2024-01-17 15:40
spark
大数据
分布式
python
kafka
zookeeper
hive
关于CarbonData+Spark SQL的一些应用实践和调优经验分享
行业亟需一个高效、统一的融合
数仓
,从海量数据中快速获取有效信息,从而洞察机遇、规避风险。
weixin_34075551
·
2024-01-17 15:31
大数据
人工智能
后端
数仓
数据含有特殊字符,如何更方便的导出成excel文件
如果遇到数据中含有特殊字符,"\n","\r","\t",或者其他的特殊分隔符在数据导出时造成错位,都用sql替换,但是需求是导出的数据要保持原有内容格式,就不能替换剔除这些特殊字符,这种情况下使用json方式1,在hive
数仓
建一个临时的
第一次看海
·
2024-01-17 15:00
1024程序员节
spark sql实践开发后端引擎
-------------“何以解忧,唯有暴富”需求开发一个系统,主要是将
数仓
中治理完用于检索的数据灌入Elasticsearch中,一般情况,开源的一些系
第一次看海
·
2024-01-17 14:28
spark
sql
大数据
transbigdata 笔记: 官方文档示例3:车辆轨迹数据处理
1读取数据+轨迹
数据质量
分析这一部分和transbigdata笔记:data_summary轨迹
数据质量
/采样间隔分析-CSDN博客的举例是一样的importpandasaspdimportgeopandasasgpdimporttransbigdataastbddata
UQI-LIUWJ
·
2024-01-17 04:19
笔记
数据清洗:确保
数据质量
的关键步骤
一、数据清洗的重要性数据清洗对于
数据质量
和分析结果的准确性至关重要。其重要性如下:1.提高
数据质量
:通过清洗数据,可以纠正错误、删除重复数据、填充缺失值等,从而提高数据的质量和可信度。
正儿八经的数字经
·
2024-01-16 14:00
数字经济
python
人工智能
大数据
Hive使用shell调用命令行特殊字符处理
1.场景分析数据处理常用hive-e的方式,通过脚本操作
数仓
,过程中常常遇到特殊字符的处理,如单双引号、反斜杠、换行符等,现将特殊字符用法总结使用如下,可直接引用,避免自行测试的繁琐。
tuoluzhe8521
·
2024-01-16 07:17
Hive相关
hive
hadoop
数据仓库
ClickHouse - 01
批处理会将源业务系统中的数据通过数据抽取工具(例如Sqoop)将数据抽取到HDFS中,这个过程可以使用MapReduce、Spark、Flink技术对数据进行ETL清洗处理,也可以直接将数据抽取到Hive
数仓
中
ArthurHC
·
2024-01-16 02:17
数据库, 数据仓库, 数据集市,数据湖,数据中台
数据仓库和数据库的区别作者:南宫蓉出处:简书第一篇:数据仓库概述第二篇:数据库关系建模作者:穆晨出处:CNBLOS数据仓库、数据湖、数据集市、和数据中台的故事作者:Murkey学习之旅出处:csdn数据中台和
数仓
的关系作者
cxzhq2002
·
2024-01-16 01:26
数据库
mysql/oracle 数据库delete操作太慢(where ... in ...),不加索引,一招让性能提升百倍
比如在
数仓
项目中,软删虽然更快更安全,但是缺点也很多:1、软删造成数据冗余,甚至快速膨胀的后果。比如一些中间表,只是作为中转站,过两天数据就分配其他表了,不硬删的话就会造成数据快速膨胀。
大壮001
·
2024-01-15 23:30
大数据
数据库
数据库
mysql
oracle
sql
大数据
数据治理总体解决方案
数据治理总体解决方案目录一数据管理的现状二数据治理的概述(一)数据治理概念(二)数据治理目标三数据治理体系四数据治理核心领域(一)数据模型(二)数据生命周期(三)数据标准(四)主数据(五)
数据质量
(六)
huaxi20089
·
2024-01-15 15:29
网络
数据库
大数据
亚信安慧AntDB-S流式数据库实现企业数智化转型
AntDB-S流式数据库是一项针对实时
数仓
等场景的创新技术,旨在取代传统的流式处理引擎,从而简化开发和测试过程。该流式数据库具备强大的ACID特性和高可用性,为企业降低了流式业务开发和维护的成本。
亚信安慧AntDB数据库
·
2024-01-15 14:11
数据库
大数据
antdb数据库
antdb
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他