E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓数据质量
本地
数仓
网络设备迁移实录
环境:本地机房深信服防火墙A8.0.75AF-2000-FH2130B-SCH3CS6520-26Q-SI交换机AVersion7.1.070,Release6326H3CIDC机房深信服防火墙B8.0.75AF-2000-FH2130B-SCH3CS6520交换机Bversion7.1.070,Release6530P02问题描述:本地机房H3CS6520交换机Avlan33,网段192.168
玩电脑的辣条哥
·
2023-10-23 21:27
实操经验专题
经验分享
经验分享:大数据时代,如何让数据成为资产
作者从从大数据开发的角度,到大数据治理的必要性,再到图形化建模的畅想,最后在
数据质量
的把关,然后到大数据可视化的应用,总结他的所见所闻以及他的学习的成果,分享给大家。
数据小仙女
·
2023-10-23 16:32
探索流批一体结构下的实时
数仓
|0x00越来越高的时效性要求在数据仓库的建设过程里,我们一直秉承着“离线先行”的方针,因为离线的技术栈非常成熟,开发起来很快,同时监控工具也做的比较完善,出了问题能及时发现、及时处理。过去我们处理实时的需求,一般都会转化为准实时的模式,例如分钟级调度,但毕竟它不是完全的实时模式,不过绝大多数情况下,应对业务诉求也是足够了。但随着Flink为代表的新一代框架的出现,很多业务已经不再满足于做准实时的
晓阳的数据小站
·
2023-10-23 12:09
2019-07-25
技术元数据:分布式系统存储元数据分布式计算系统运行元数据数据开发平台中数据同步、计算任务、任务调度等信息
数据质量
和运维相关元数据计算管理
AliceGYY
·
2023-10-23 10:56
[24] 《R数据科学》EDA缺失值
此外,如果
数据质量
不高,若对每个变量都采用这种做法,那么到最后可能会发现数据已经所剩无几!相反可以用缺失值来代替异
灰常不错
·
2023-10-23 08:56
数仓
架构对比
快手
数仓
架构image.png规模image.png快手目前集群规模有1500台左右,作业数量大约是500左右,日处理条目数总共有1.7万亿,峰值处理条目数大约是3.7千万。
与AI零距离
·
2023-10-22 13:43
大数据分析实践 | pandas
数据质量
分析
文章目录
数据质量
评估的五个维度口袋妖怪
数据质量
分析导入库和数据检查数据缺失值分析重复值检测异常值检测
数据质量
评估的五个维度Coherent:withoutsemanticerrorsorcontradictorydatabetweenattributesofanobjectCorrect
啦啦右一
·
2023-10-22 04:56
#
大数据分析实践
大数据与数据分析
数据分析
pandas
数据挖掘
土地利用/土地覆盖数据整理
全球数据可分幅下载,
数据质量
较高。但数据量较大,下载和拼接处理较慢。获取途径:Welcome-GlobeLand30http://www.glob
爱地球的曲奇
·
2023-10-22 02:05
大数据
经验分享
数据分析
数据挖掘
深度学习
数据清洗的步骤
在数据清洗之前,对数据分析,对
数据质量
问题有更为详细的了解,从而选择更好的清洗方案。S2:定义清洗规则。通过数据分析,掌握了
数据质量
的信息后,针对各类问题定制清洗规则,如对缺失数据进行填补策略选择。
Luo__1123
·
2023-10-21 23:08
大数据
数据分析
LLMs之BELLE:BELLE(一款能够帮到每一个人的中文LLM引擎)的简介(基于Alpaca架构+中文优化+考察词表扩充/
数据质量
/数据语言分布/数据规模的量化分析)、使用方法、案例应用之详细攻略
LLMs之BELLE:BELLE(一款能够帮到每一个人的中文LLM引擎)的简介(基于Alpaca架构+中文优化+考察词表扩充/
数据质量
/数据语言分布/数据规模的量化分析)、使用方法、案例应用之详细攻略导读
一个处女座的程序猿
·
2023-10-21 18:02
AI/AGI
NLP/LLMs
机器学习
基础大模型
自然语言处理
数据部门起步阶段需要建立
数仓
么?
之前我写了一篇关于数据中台和
数仓
的关系的文章,里面理清了
数仓
和中台的关系。后面我了解到更通用的技术词汇去表达数据管理的两种方式:数据联邦和数据仓储。
祝威廉
·
2023-10-21 17:08
元数据管理-技术元数据解决方案
概念元数据是描述企业数据相关的数据,指在IT系统建设过程中所产生的有关数据定义,目标定义,转换规则等相关的关键数据,包括对数据的业务、结构、定义、存储、安全等各方面对数据的描述元数据是
数仓
建设环节中不可缺少的一部分
热忱 ㅤ ㅤ
·
2023-10-21 13:18
大数据笔记
数据分析、数据挖掘常用的数据清洗方法
数据清洗目的:一是为了解决
数据质量
问题;二是为了使数据更适合模型分析挖掘。
DB_UP
·
2023-10-21 11:47
数据分析挖掘
数据挖掘
数据分析
人工智能
python
「构建企业级推荐系统系列」推荐系统价值观
作者|gongyouliu编辑|auroral-L全文共11620字,预计阅读时间60分钟目录一、当前推荐系统存在的问题1.过度商业化2.算法本身的缺陷和不足3.标的物质量问题4.
数据质量
的问题5.过滤气泡问题
数据与智能
·
2023-10-21 11:15
机器学习
人工智能
编程语言
大数据
datagridview
大数据测试 -
数仓
测试
数仓
分层设计标准
数仓
分为ODS,DWD,DIM,DWS,ADS等,每一层都有自己的含义:ODS:存储原始业务数据,数据原封不动同步到到ODS,不做任何修改,并且备份,备份时可以压缩;DWD:数据清洗,
测试界的飘柔
·
2023-10-21 10:11
软件测试
职场经验
IT
数据仓库
大数据
数据挖掘
程序人生
自动化测试
软件测试
面试
请查收云原生虚拟
数仓
PieCloudDB 十月动态
PieCloudDBDatabase最新动态PieCloudDB压缩效率得到提升为了节省存储空间,降低用户存储费用,PieCloudDB在压缩率上不断优化,包括:对HLL(HyperLogLog)支持游程编码(RunLengthEncoding)支持ZSTD(Zstandard)为默认压缩算法支持DictEncoding、DeltaEncoding等编码方法,降低文件大小PieCloudDB将在未
OpenPie|拓数派
·
2023-10-21 08:57
PieCloudDB
Database
拓数派
OpenPie|拓数派
云原生
数据仓库
对GaussDB数据库和数据管理的简单介绍
目录一、前言二、
数据质量
规则体系(衡量标准)1.为什么要进行数据管理2、
数据质量
规则体系三、GaussDB数据库中如何实现数据管理1、
数据质量
设计2、数据保护技术3、数据存储4、数据加密模型5、数据备份四
Gauss松鼠会
·
2023-10-21 07:44
GaussDB经验总结
gaussdb
技术揭秘:从双11看实时
数仓
Hologres高可用设计与实践
在这场大考中,一站式实时
数仓
Hologres以每秒11.2亿条的高速写入,和每秒1.1亿次的查询峰值(包含点查和OLAP查询),交出了满意的答卷,稳定高效地支撑了阿里巴巴双11核心应用场景。
阿里云Hologres
·
2023-10-21 05:45
python 矢量数据融合代码_在ArcGIS下基于Python的矢量数据处理方法
通过Python串联Arcgis的地理处理工具,实现工作流自动化完成,同时,实践批处理过程,解放人工的机械重复工作,提高效率,进而保证
数据质量
。
weixin_39662834
·
2023-10-21 03:25
python
矢量数据融合代码
数据中台你想知道的都在这里!
数据中台的
数据质量
应该如何保障?数据中台的典型架构是怎样的?企业数据中台的团队如何构建?数据中台团队的绩效如何评价?
Kaka架构
·
2023-10-20 22:19
数据中台
数据中台架构演进路线图全面解读
作者:禅与计算机程序设计艺术1.背景介绍数据中台(DataMesh)架构是一种构建可靠、灵活、可扩展的数据处理和服务中心,用于满足业务需求、提升运营效率、降低成本、改善
数据质量
和价值传递。
禅与计算机程序设计艺术
·
2023-10-20 22:10
禅与计算机程序设计艺术
大数据AI人工智能
大数据
人工智能
语言模型
Java
Python
架构设计
分布式存储 vs. 全闪集中式存储:金融数据仓库场景下的性能对比
例如,不少金融机构使用
数仓
业务系统,为公司高层提供日常经营报表,同时支持监管报送等应用。该业务系统通常是I/O密集型应用,对IT基础架构的性能有极高的要求。
志凌海纳SmartX
·
2023-10-20 14:34
分布式
金融
数据仓库
超大型纸业品牌“清风”也用上 Apache SeaTunnel 啦!
在那时,我们用的是Oracle视图来做
数仓
。如果一个视图不
SeaTunnel
·
2023-10-20 07:33
apache
数据库
大数据
Griffin成为Apache顶级项目
含义ApacheGriffin是一个应用于分布式数据系统中的开源
数据质量
解决方案。在Hadoop,Spark,Storm等分布式系统中,提供了一整套统一的流程来定义和检测数据集的质量并及时报告问题。
小强的进阶之路
·
2023-10-20 05:58
Hive3.x
数仓
开发
文章目录一、
数仓
仓库概念二、数据仓库分层架构ODS\DW\DA(ADS)ETL\ELT三、ApacheHive概述为什么使用HiveHive和Hadoop关系四、ApacheHive架构、组件组件五、ApacheHive
_七七
·
2023-10-20 01:24
大数据数仓
数据仓库
学习
hive
Apache Flink X Apache Doris 构建极速易用的实时
数仓
架构
本篇内容主要分为四个部分:实时
数仓
需求和挑战基于ApacheDoris和ApacheFlink构建实时
数仓
用户案例与最佳实践分享新版本特性点击查看直播回放和演讲PPT一、实时
数仓
需求和挑战在数据流的角度上
Apache Flink
·
2023-10-20 00:33
Flink
大数据
实时计算
apache
flink
架构
大数据
hadoop
数仓
系列 | Flink 窗口的应用与实现
主要内容如下:1.整体思路与学习路径2.应用场景与编程模型3.工作流程与实现机制Tips:点击「阅读原文」可查看更多
数仓
系列直播视频~整体思路与学习路径当我们碰到一项新的技术时,我们应该
Apache Flink
·
2023-10-20 00:33
数据分析 数据预处理
一.概述1.数据可能存在的问题:正式进行分析前,需要先进行
数据质量
分析.可能存在以下问题:"数据缺失"(Incomplete):数据值为空,如Occupancy="""数据噪声"(Noisy):数据值不合常理
EdVzAs
·
2023-10-19 22:45
数据分析
数据挖掘
数据预处理
规范化/标准化
【转】数据库、数据湖、数据仓库、湖仓一体、智能湖仓,分别都是什么鬼?
这套架构,以数据湖为中心,把数据湖作为中央存储库,再围绕数据湖建立专用“数据服务环”,环上的服务包括了
数仓
、机器学习、大数据处理、日志分析,甚至RDS和NOSQL服务
万州客
·
2023-10-19 22:56
RNA-seq :TopHat2 + Cufflinks分析流程
1、测序
数据质量
控制:fastqc软件1)使用方法:/life/rjian/software/fastQC/FastQC/fastqc-o/life/rjian/data/liyan/filename_fastqc
onlyme_862a
·
2023-10-19 20:03
物流仓储晋级智能可视化远程遥控,和低效管理说再见
通过了解得知当前多
数仓
储管理仍旧存在很多困惑:企业如何减少纸张作业,实现无纸化高效办公?如何处理多帐数据对接?解决数据实时性?叉车司机如何定位?如何防止人员原因造成的仓库发货、领料失误?
图扑可视化
·
2023-10-19 13:50
智慧物流
数据可视化
数字孪生
智慧城市
智慧仓储
二维码智慧门牌管理系统:高效标准化处理地址数据
为了提升
数据质量
,标准化检查成为必不可少的环节。今天,我们将探讨二维码智慧门牌管理系统如何通过标准化检查高效地处理地址数据问题。
产品顾问徐文
·
2023-10-19 12:58
智慧门牌管理系统
java
开发语言
科技
大数据
智慧城市
【数据仓库】hadoop生态圈与数据仓库
TDS5.2.抽取过程5.3.转换与装载过程5.4.过程管理和自动化调度5.5.数据目录(或者称为元数据管理)5.6.查询引擎和SQL层5.7.用户界面本文主要讨论:关系型数据库拓展的瓶颈cap理论想了解
数仓
需要哪些能力以及这些能力靠哪些大数据技术实现
roman_日积跬步-终至千里
·
2023-10-19 11:12
数据仓库
数据仓库
hadoop
大数据
大数据
数仓
搭建-大数据用户画像推荐系统搭建
一确定需求我把需求主要分为三大类一离线数据报表需求二实时观查数据走向需求三算法需求二确定系统架构根据需求我们目前有几种大数据架构可以供参考流式架构流式架构非常激进,直接拔掉了批处理,数据全程以流的形式处理,所以在数据接入端没有了ETL,转而替换为数据通道。经过流处理加工后的数据,以消息的形式直接推送给了消费者。虽然有一个存储部分,但是该存储更多的以窗口的形式进行存储,所以该存储并非发生在数据湖,而
老姜的数据江湖
·
2023-10-18 21:10
大数据
大数据数仓搭建
大数据用户画像
大数据架构
大数据推荐算法
Flink SQL 时区
大数据技术AIFlink/Spark/Hadoop/
数仓
,数据分析、面试,源码解读等干货学习资料95篇原创内容公众号TIMESTAMPvsTIMESTAMP_LTZTIMESTAMP类型TIMESTAMP
hyunbar
·
2023-10-18 17:38
Flink
大数据
分布式
java
大数据
Databend 开源周报第 115 期
Databend是一款现代云
数仓
。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn。
Databend
·
2023-10-18 13:59
开源
数仓
建模分层理论
数仓
的建模或者分层,其实都是为了更好的去组织、管理、维护数据,所以当你站在更高的维度去看的话,所有的划分都是为了更好的管理。小到JVM内存区域的划分,JVM中堆空间的
陈二狗想吃肉
·
2023-10-18 13:49
精彩回顾 | Apache Flink Meetup · 北京站(附PPT下载)
9月21日下午,2019年度最后一场Meetup在帝都圆满落幕,来自阿里巴巴、小米、贝壳找房的资深专家们现场分享了小米的Flink应用实践、贝壳找房的实时
数仓
建设、Flink资源管理机制以及FlinkPythonAPI
Apache Flink
·
2023-10-18 11:46
数仓
建设(三)
4)累积快照事实表多个业务过程联合分析而构建的事实表,如采购单的流转环节。用于分析事件时间和时间之间的间隔周期。少量的且当前事务型不支持的,如关闭、发货等相关的统计。4.DWS公共汇总层设计规范数据仓库的性能是数据仓库建设是否成功的重要标准之一。聚集主要是通过汇总明细粒度数据来获得改进查询性能的效果。通过访问聚集数据,可以减少数据库在响应查询时必须执行的工作量,能够快速响应用户的查询,同时有利于减
未来在这儿
·
2023-10-18 06:10
数仓
大数据
数据库
数据仓库
数仓
建设(一)
想了想,我们的
数仓
的建设是基于大数据平台进行的,中间也经历了比较曲折的过程。每个行业都有自身的业务区别,不过很多还是比较相通的。
未来在这儿
·
2023-10-18 06:39
数仓
BigData
SQL
java
大数据
开发语言
数据仓库
数仓
建设(二)
1)指标梳理指标口径的不一致使得数据使用的成本极高,经常出现口径打架、反复核对数据的问题。在数据治理中,我们将需求梳理到的所有指标进行进一步梳理,明确其口径,如果存在两个指标名称相同,但口径不一致,先判断是否是进行合并,如需要同时存在,那么在命名上必须能够区分开。2)指标管理指标管理分为原子指标维护和派生指标维护。原子指标:选择原子指标的归属产线、业务板块、数据域、业务过程选择原子指标的统计数据来
未来在这儿
·
2023-10-18 06:32
数仓
java
前端
数据库
大数据 DataX 数据同步数据分析入门
DataX详解2.1DataX3.0框架设计2.2DataX3.0插件体系2.3DataX3.0核心架构2.3.1核心模块介绍2.3.2DataX调度流程2.4DataX3.0的六大核心优势2.4.1可靠的
数据质量
监控
Stars.Sky
·
2023-10-17 19:43
大数据
DataX
BI工具-DataEase(2) 基础使用
先讲下工具栏,分别是仪表盘,数据集,数据源,模板市场等等.和大多数的BI工具一样,首先配置的就是数据源1.数据源:支持OLTP,OLAP,
数仓
/数据湖,我们这边还是使用的mysql新建mysql数据源,
大曲·蜗牛
·
2023-10-17 18:53
大数据
基于大模型的数据血缘异常归因分析
本期黑客松共吸引了近50位选手参赛,有的在实时
数仓
领域显神通,有的则再次请出了大模型。这些小组都有个共同点——基于数据云平台DataSimba的元数据域“搞事情”。
奇点云
·
2023-10-17 13:49
奇点云
元数据
黑客马拉松
三级公立医院绩效考核系列谈之三
各地要加强病案首页质量控制和上传病案首页
数据质量
管理,确保考核数据客观真实。(二)统一编码和术语集。2019年3月底前,国家卫生健康委推行全国统一的疾病分类编码
老兔子李
·
2023-10-17 08:02
2023年-
数仓
-【时间维度表】-年、周、节假日
建表语句,如下:DROPTABLEIFEXISTSdim_date_info;CREATEEXTERNALTABLEdim_date_info(`date_id`STRINGCOMMENT'日',`week_id`STRINGCOMMENT'周ID',`week_day`STRINGCOMMENT'周几',`day`STRINGCOMMENT'每月的第几天',`month`STRINGCOMMEN
IT小强哥
·
2023-10-17 05:25
数据库
大数据
mysql
hive
scala项目创建
答:实时
数仓
却不了spark,spark离不开scala、也就是你也是不学习spark也就不用学习scala,因为有其他编程语言可以代替它。2、特点答:1)是一门多范式语言,支持面向对象和函数式编程。
鱼得三金
·
2023-10-16 20:02
程序猿
scala
big
data
数仓
建设规范说明书
通过
数仓
架构设计、
数仓
模型设计、
数仓
开发规范、
数据质量
规范这四个⽅⾯对整体
数仓
建设做好规范化的指导。⾯向数据开发团队、数据产品团队、前后端团队等与
数仓
数据有关⼈员。
贾斯汀玛尔斯
·
2023-10-16 18:39
hadoop
数据湖
大数据
分布式
hadoop
企业做数据治理的意义
首先,数据治理可以帮助企业提高
数据质量
。数据作为企业的重要资产,其质量的好坏直接影响着企业的决策和运营效果。通过建立数据治理框架和规范,企业可以确保数据的准确性、完整性和一致性,减少
qingyunliushuiyu
·
2023-10-16 15:58
BI
人工智能
数据治理
数据治理系统
「
数仓
建设」主题域划分
大家好,本篇聊一下
数仓
建设,讲一下面试常遇到的主题域与主题划分,更多精彩文章优先从微信公众号《大数据阶梯之路》首发,欢迎关注,公众号回复:大数据
数仓
资料,可以获取大数据
数仓
相关学习资料。
大数据阶梯之路
·
2023-10-16 12:38
上一页
15
16
17
18
19
20
21
22
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他