E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓数据质量
数据质量
管理概述
数据质量
管理:对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段可能引发的各类
数据质量
问题,进行识别、度量、监控、预警等一些列管理活动。
七_seven
·
2023-08-17 14:47
数据仓库架构和建设方法论
在企业级数据应用上单一业务使用方便,且灵活多变;但涉及到跨业务、多部门联合应用就会存在:①数据来源多样化,管理决策数据过于分散;②数据缺乏标准,难以整合;③数据口径不统一,可信度低;④缺乏数据管控体系,
数据质量
难
此木Y
·
2023-08-17 12:52
大数据
数据建模
数据仓库
数仓架构
数仓建模
大数据开发:
数仓
建模常见数据模型
对于
数仓
建模,很多人说不就是建表吗,哪有那么复杂,事实上,这是非常错误的思想。今天的大数据开发分享,我们来聊聊
数仓
建模常见的几种数据模型。
加米谷大数据张老师
·
2023-08-17 12:22
大数据
数据仓库
大数据
数据建模
数仓
建模方法论
1.
数仓
建模的理由数据建模的主要目的是降低成本,提高数据的利用效率。尤其是大数据时代的到来,数据的多样化,巨量,更需要有效的有针对性数据建模方法。
浪尖聊大数据-浪尖
·
2023-08-17 12:51
数据仓库
StoneData 2.0 正式上线阿里云市场,高性能、低成本一站式实时
数仓
,满足用户全场景分析需求
好消息,石原子旗下新一代离在线一体化实时
数仓
StoneData2.0正式上线阿里云云市场了!云市场版本交付方式为计算巢私有化部署,自动完成云资源的创建和应用部署,相比传统部署方案,大幅降低配置复杂度。
·
2023-08-17 12:28
mysql数据库
StoneData 2.0 正式上线阿里云市场,高性能、低成本一站式实时
数仓
,满足用户全场景分析需求
好消息,石原子旗下新一代离在线一体化实时
数仓
StoneData2.0正式上线阿里云云市场了!云市场版本交付方式为计算巢私有化部署,自动完成云资源的创建和应用部署,相比传统部署方案,大幅降低配置复杂度。
·
2023-08-17 12:18
mysql数据库
【数据管理】什么是数据管理?
文章目录前言常见内容主题领域数据类型元数据引用数据主数据交易数据数据类型的特点数据类型之间的关系GIGO
数据质量
评估
数据质量
管理数据治理数据安全前言数据管理,即对数据资源的管理。
逆流°只是风景-bjhxcc
·
2023-08-17 07:31
#
spark
spark
大数据
分布式
数仓
开发需要了解的BI数据分析方法
数仓
开发经常需要与数据表打交道,那么
数仓
表开发完成之后就万事大吉了吗?显然不是,还需要思考一下如何分析数据以及如何呈现数据,因为这是发挥数据价值很重要的一个方面。
大数据技术与数仓
·
2023-08-17 04:32
阿里云大数据实战记录6:修改生产环境表单字段数据类型
最近,在
数仓
处理一个数据表就遇到了这个问题。
Xin学数据
·
2023-08-16 19:07
阿里云大数据
阿里云
大数据
数据库
Databend 开源周报第 106 期
Databend是一款现代云
数仓
。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn。
Databend
·
2023-08-16 19:22
数据库
网易云音乐实时
数仓
治理优化实践
导读今天分享的主题是实时
数仓
治理的优化实践。
王知无(import_bigdata)
·
2023-08-16 18:02
基于Doris实时数据开发的一些注意事项
基于Doris的一些存储实时
数仓
在越来越多的场景中开始有一些实践。大家也看到了这种方案频繁出现在社区分享中。
王知无(import_bigdata)
·
2023-08-16 18:02
【云+社区极客说】新一代大数据技术:构建PB级云端
数仓
实践
本文来自腾讯云技术沙龙,本次沙龙主题为构建PB级云端
数仓
实践在现代社会中,随着4G和光纤网络的普及、智能终端更清晰的摄像头和更灵敏的传感器、物联网设备入网等等而产生的数据,导致了PB级储存的需求加大。
·
2023-08-16 18:59
基于 Kafka 的实时
数仓
在搜索的实践应用
一、概述ApacheKafka发展至今,已经是一个很成熟的消息队列组件了,也是大数据生态圈中不可或缺的一员。ApacheKafka社区非常的活跃,通过社区成员不断的贡献代码和迭代项目,使得ApacheKafka功能越发丰富、性能越发稳定,成为企业大数据技术架构解决方案中重要的一环。ApacheKafka作为一个热门消息队列中间件,具备高效可靠的消息处理能力,且拥有非常广泛的应用领域。那么,今天就来
vivo互联网技术
·
2023-08-16 17:55
技术分享 | StoneData 的身份认证与访问控制策略:构建安全可靠的数据分析环境
身份认证与访问控制策略是构建安全可靠的
数仓
环境的核心要素,StoneData作为一款新一代高性能、低成本的一站式实时
数仓
,已具备健全的身份认证与访问控制能力。本文将围绕着账号合规
·
2023-08-16 15:35
mysql数据库
使用 Databend 助力 MySQL 的数据分析
目标Databend是一个非常先进的基于对象存储云原生
数仓
1可以提强大的计算分析及存储能力。让MySQLDBA非常眼馋。今天想把MySQL的wubx库从MySQL全量迁移到Databend中。
·
2023-08-16 15:47
mysql数据库
技术分享 | StoneData 的身份认证与访问控制策略:构建安全可靠的数据分析环境
身份认证与访问控制策略是构建安全可靠的
数仓
环境的核心要素,StoneData作为一款新一代高性能、低成本的一站式实时
数仓
,已具备健全的身份认证与访问控制能力。本文将围绕着账号合规
·
2023-08-16 15:24
mysql数据库
融入数据浪潮,KaiwuDB 期待与您共赴 DTCC 2023
大会以“数智赋能共筑未来”为主题,设置2大主会场,20+技术专场,邀请超百位行业专家,重点围绕HTAP与多模数据库应用、图数据技术、云原生数据库、实时
数仓
等内容展开分享和探讨。
·
2023-08-16 15:51
数据库
从银行数字化转型来聊一聊,火山引擎 VeDI 旗下 ByteHouse 的应用场景
作为火山引擎数智平台VeDI旗下核心数智产品之一,ByteHouse起源于字节跳动的内部数智实践,并于2021年8月正式外对发布,随后在12月发布
数仓
版本。尽管面向企业级
·
2023-08-16 13:28
大数据clickhouse
火山引擎ByteHouse助力中国地震台网中心,快速构建一站式实时
数仓
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,并进入官方交流群近日,中国地震台网中心与火山引擎达成合作,双方将围绕ByteHouse实时
数仓
展开合作。
·
2023-08-16 13:57
流批一体的近实时
数仓
的思考与设计
摘要:基于对数据时间旅行的思考,引出了对目前三种
数仓
形态和两种
数仓
架构的思考。
·
2023-08-16 10:30
实时计算flink云计算阿里云
尚硅谷大数据项目《在线教育之离线
数仓
》笔记001
视频地址:尚硅谷大数据项目《在线教育之离线
数仓
》_哔哩哔哩_bilibili目录P003P004【
数仓
概念讲的颇为详细】P018P019P020P021P022P023P024P003时间切片:时间回溯
upward337
·
2023-08-16 03:37
#
大数据数仓
大数据
数据仓库
Linux
spark
《
数据质量
征途》
完整性约束-P43对于大多数简单的比例指标,建议使用
数据质量
指标-P44列了一堆衡量整体数据的指标嵌入过程的数据整体性方法-P52表4.1抽样方法抽样过程-P57简单随机抽样系统抽样分层随机抽样聚类抽样
数据质量
问题模式剖析
数据质量
问题的表现
Mil_Pasos
·
2023-08-16 03:10
利用python实现激光雷达LAS数据滤波的7种方式,使用laspy读写
激光雷达(LiDAR)数据在实际应用中可能受到噪声和不完美的测量影响,因此数据去噪和滤波方法变得至关重要,以提高
数据质量
和准确性。以下是一些常用的激光雷达数据去噪与滤波方法。
新月清光
·
2023-08-16 03:44
LIDAR
python
python
Spark操作Hive表幂等性探索
数仓
中的表还要考虑幂等性吗?幂等性数据幂等性是指在多次执行相同操作时,最终的结果与执行一次操作的结果相同。具体来说,无论重复执行多少次相同的操作,操作的结果应该保持一致
SunnyRivers
·
2023-08-16 01:16
Spark最佳实战与性能优化
spark
hive
saveAsTable
insertInto
幂等性
数据质量
EncodingSanger/Illumina1.9[测序平台的版本和相应的编码版本号]TotalSequences[totalreads的数量]Sequencelength[测序长度]%GC[GC含量]1、Perbasesequencecontent:序列碱基含量四种不同碱基占总碱基数的比例,检测有无AT、GC分离的现象。正常情况下四种碱基出现的频率应是接近的,且没有位置差异.因此,好的样品中四
shine_9457
·
2023-08-15 23:46
芒果 TV 基于 Flink 的实时
数仓
建设实践
一、芒果TV实时
数仓
建设历程芒果TV实时
数仓
的建设共分为三个阶段,14-19年为第一阶段,技术选型采用Storm/FlinkJava+SparkSQL
·
2023-08-15 18:00
后端flink大数据实时计算
巴别时代基于 Apache Paimon 的 Streaming Lakehouse 的探索与实践
我们基于ApachePaimon(Incubating)构建StreamingLakehouse的落地实践主要分为三期:第一期是在调研验证的基础上进行
数仓
分层,并且上线一些简单的业务验证效果;第二期是实现流式
数仓
的基础设施建设
·
2023-08-15 18:41
专家老师带教!现场答疑!阿里云实时计算 Flink 版线下训练营北京站来啦!
专家老师现场教学,真实还原实时计算业务和实时
数仓
场景,现场有机会领取Flink最新周边礼包!
·
2023-08-15 18:43
后端flink大数据实时计算
支持多数据源联合查询的SQL运行引擎sycnany-SQL添加使用自定义函数
在微服务和云原生愈发流行的今天,数据的分布也愈发脱离单库单机而更加复杂,使用的数据库类型也会更多,但业务的复杂依然会带来了大量的数据查询和导出需求,而很多时候我们很难为数据量的大部分系统创建完整的BI
数仓
系统
·
2023-08-15 16:36
支持多数据源联合查询的本地运行SQL执行引擎syncnany-SQL安装和配置
在微服务和云原生愈发流行的今天,数据的分布也愈发脱离单库单机而更加复杂,使用的数据库类型也会更多,但业务的复杂依然会带来了大量的数据查询和导出需求,而很多时候我们很难为数据量的大部分系统创建完整的BI
数仓
系统
·
2023-08-15 16:09
Apache Doris 在约苗数据平台的实时
数仓
建设实践
本文导读:约苗平台是国内目前最大的成人预防接种管理服务平台。近年来,随着各功能的不断完善,用户数量不断增多,越来越多注册数据、疫苗类别点击数据、页面浏览时长等数据被生成和积累,如何有效利用这些数据进行处理分析,对于约苗提高工作效率、优化运营决策有着不容小觑的作用。基于此约苗平台历经三代架构演进,最终通过ApacheDoris重构了数据平台架构,统一了数据源出口,实现了近300倍的查询提速,目前已在
·
2023-08-15 16:52
【
数仓
建设系列之一】什么是数据仓库?
一、什么是数据仓库?数据仓库(DataWarehouse,简称DW)简单来讲,它是一个存储和管理大量结构化和非结构化数据的存储集合,它以主题为向导,通过整合来自不同数据源下的数据(比如各业务数据,日志文件数据等),解决企业数据孤岛,为企业提供统一的数据视图。通过构建不同时间范围或不同业务主题下的分析报告和数据报表等,为企业决策提供一定程度上的支持和帮助。二、数据仓库的特点?主题性传统的数据库,更多
码猿小站
·
2023-08-15 16:44
数据仓库
数仓建设
数据仓库
大数据
big
data
实时
数仓
浪潮来袭,这些宝藏开源CDC工具助您破壁 | StoneDB数据库观察 第9期
作者|祁国辉编辑|宇亭头图|Yeekin责编|韩楠实时
数仓
的浪潮来袭,对于用户最大的挑战,就是业务数据的变化需要实时反馈到后台系统,甚至需要针对这些变化,快速做出反应,那么就需要
·
2023-08-15 16:38
数据库mysql
DTCC 2023即将启幕 明天见!
作为国内云原生数据仓库代表厂商,酷克数据受邀亮相DTCC2023,与广大数据库领域从业人士共同分享云原生
数仓
发展趋势,探讨数据仓库提升实时性的路径。精彩话题不容错过!
·
2023-08-15 16:06
数据库postgresql
如何设计实时数据平台(技术篇)
在上篇(设计篇)中,我们从现代
数仓
架构角度和典型数据处理角度介绍了RTDP,并探讨了RTDP的整体设计架构。本文作为下篇(技术篇),则是从技术角度入手
longLiveData
·
2023-08-15 14:47
热烈Matplotlib子图不不会画来看看-分图绘制(怒肝万字)
博主介绍:大家好,我是大锤爱编程的博客_CSDN博客-大数据,Go,数据分析领域博主,有五年的数据开开发,有着丰富的
数仓
搭建、数据分析经验。
大锤爱编程
·
2023-08-15 05:29
matplotlib
python
信息可视化
字节电商大数据开发一面,已过,面试题已配答案
面试题答案参考大数据面试题V3.0,523道题,679页,46w字1、实习经历这点不多说了,根据自己的来就行2、工作中最难的点一般都会提前回顾之前自己遇到的问题,根据自己的来3、如何保证
数据质量
这里主要是阿里对
数仓
的一些
数据质量
保证原则
蓦然_
·
2023-08-15 01:36
大数据面试题
数据仓库
大数据
面试
数仓
建设保姆级教程,离线和实时理论+实战
文档大纲:一、
数仓
基本概念1.数据仓库架构我们在谈
数仓
之前,为了让大家有直观的认识,先来谈
数仓
架构,“架构”是什么?这个问题从来就没有一个准确的答案。
灯惉
·
2023-08-14 23:57
Single Cell RNA-seq Analysis 学习记录(二):数据整理
处理原始scRNA-seq数据2.1FastQC当你获取到单细胞下机数据的时候,第一步需要做的就是检查
数据质量
。
面面的徐爷
·
2023-08-14 19:44
Flink—读Hive表数据写入Kafka
引言场景
数仓
Hive中的数据需要读取后写入Kafka中进行数据服务输出。选型 选用Flink进行读Hive写Kafka,因为其拥有丰富的connector可选择。
Andya_net
·
2023-08-14 19:02
Hadoop大数据技术
开发模板总结
#
Flink
kafka
hive
flink
成功解决DataX从Hive导出Oracle的数据乱码问题!
市面上可用的etl工具和框架很多,如来自于传统
数仓
和BI圈的kettle/informatica/datastage,来自于hadoop生态圈的sqoop/datax,抑或使用计算引擎spark/presto
笑看风云路
·
2023-08-14 18:30
hive
DataX
数据乱码
ETL
Hive
Oracle
大数据开发基础-环境配置篇-Hadoop集群安装
首先是大数据开发基础篇环境搭建、组件面试题等其次是更新大数据开发面经的java面试基础最后更新一个大数据开发离线
数仓
的实战项目,自己写入简历的项目。关注不迷路,学习要进步!!!!!!
葡萄成熟时_
·
2023-08-14 01:19
大数据工程师Java
hadoop
大数据
hdfs
大数据开发学习基础篇
BIGO 使用 Flink 做 OLAP 分析及实时
数仓
的实践和优化
▼关注「ApacheFlink」,获取更多技术干货▼摘要:本文整理自BIGOStaffEngineer邹云鹤在FlinkForwardAsia2021的分享。主要内容包括:业务背景落地实践&特色改进应用场景未来规划Tips:点击「阅读原文」查看原文视频&演讲PDF~一、业务背景BIGO是一家面向海外的以短视频直播业务为主的公司,目前公司的主要业务包括BigoLive(全球直播服务),Likee(短
Apache Flink
·
2023-08-13 15:54
数据仓库
大数据
数据库
python
数据分析
不惧流量持续上涨,BIGO 借助 Flink 与 Pulsar 打造实时消息系统
随着数据规模日益增长,产品不断迭代,BIGO消息流平台承载的数据规模出现了成倍增长,下游的在线模型训练、在线推荐、实时数据分析、实时
数仓
等业务对消息流平台的实时性和稳定性提出了更高的要求。
zhisheng_blog
·
2023-08-13 15:53
运维
大数据
分布式
hadoop
数据库
基于 Flink 的 OLAP 分析及实时
数仓
实践
摘要:本文整理自BIGOStaffEngineer邹云鹤在FlinkForwardAsia2021的分享。主要内容包括:业务背景落地实践&特色改进应用场景未来规划一、业务背景BIGO是一家面向海外的以短视频直播业务为主的公司,目前公司的主要业务包括BigoLive(全球直播服务),Likee(短视频创作分享平台),IMO(免费通信工具)三部分,在全球范围内拥有4亿用户。伴随着业务的发展,对数据平台
浪尖聊大数据-浪尖
·
2023-08-13 15:53
数据仓库
大数据
数据库
java
数据分析
使用Flink 与 Pulsar 打造实时消息系统
随着数据规模日益增长,产品不断迭代,BIGO消息流平台承载的数据规模出现了成倍增长,下游的在线模型训练、在线推荐、实时数据分析、实时
数仓
等业务对消息流平台的实时性和稳定性提出了更高的要求。
ITFLY8
·
2023-08-13 15:22
运维
大数据
分布式
hadoop
数据库
Kafka实时数据同步
ClickHouse3.1数据订阅设置3.2数据加载设置3.3订阅到加载数据流映射3.4查看任务执行日志4校验数据一致性1概述BeeDI支持实时捕获业务系统变化数据并将其发步到Kafka,也支持从Kafka订阅实时数据并写入
数仓
或大数据平台
wahahaman
·
2023-08-13 08:39
kafka
大数据
数据库
clickhouse
数据探查分析
1概述BeeDI提供任意数据的探查分析功能,通过探查可快速了解数据属性取值分布状况(有效值数,空值数、不同属性值数量百分比等),优化改善
数据质量
。
wahahaman
·
2023-08-13 08:38
数据集成
mysql
数据库
postgresql
mongodb
elasticsearch
数仓
学习(一)
数仓
概述:数据仓库,英文名称为DataWarehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。
孟婆灬来碗汤
·
2023-08-13 00:54
上一页
25
26
27
28
29
30
31
32
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他