E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓数据质量
Flink实时电商
数仓
之DWS层
需求分析关键词统计关键词出现的频率IK分词进行分词需要引入IK分词器,使用它时需要引入相关的依赖。它能够将搜索的关键字按照日常的使用习惯进行拆分。比如将苹果iphone手机,拆分为苹果,iphone,手机。org.apache.dorisflink-doris-connector-1.17com.janeluoikanalyzer测试代码如下:publicclassIkUtil{publicsta
十七✧ᐦ̤
·
2023-12-29 17:19
flink
大数据
长文解读 "数据仓库" 面试必备知识
数仓
分层
数仓
简介1.数据仓库和数据库的区别数据仓库:数据量特别的大,TB~PB级别会保留历史数据一般使用OLAP分析(On-LineAnalyticalProcessing),联机分析处理(聚合操作),
you的日常
·
2023-12-29 15:28
数据仓库-
数仓
优化小厂实践
根据自己的实践整理一些
数仓
相关的优化。二、优化1、简易架构图2、ODS层优化2.1分段式解析随着业务增长,数据量也不断增加,凌晨任务经常基线预警、破线,导致数据不能正常产出,影响运营人员分析数据。
大数据点滴
·
2023-12-29 09:25
#
数据仓库
数据仓库
分享7个Python实战项目代码,让你分分钟晋级大老!快收藏_python编程作品
听两个聊天机器人互相聊天:3、分析唐诗的作者是李白还是杜甫:4、彩票随机生成35选7:5、自动写检讨书:6、屏幕录相机,抓屏软件:7、制作Gif动图:一、Python入门二、Python爬虫三、数据分析四、数据库与ETL
数仓
五
老-程序员
·
2023-12-28 19:38
编程
Python爬虫
代码
python
开发语言
代码作品
银行
数仓
建模方法论
随着金融行业的不断发展,银行业务越来越复杂,数据量也越来越大。为了更好地管理和利用这些数据,银行数据仓库体系应运而生。在前面的文章中,我们介绍了银行数据仓库体系的基础知识,本篇文章将重点介绍银行数据仓库体系实践(7)—数据模型设计及流程。一、数据模型设计数据模型设计是银行数据仓库体系的核心,它是对银行业务进行抽象和概括的过程。在设计数据模型时,需要考虑以下几个方面:业务需求:数据模型的设计必须符合
添柴少年yyds
·
2023-12-28 18:56
数据挖掘
数据仓库
人工智能
ODS DW APP DIM
数仓
ODS:通过ETL工具从源端系统抽取数据,存入ODS层;DW:从ODS层数据进行抽取并按主题进行分类存储;DWD(数据明细层):会对ODS的数据做一定的清洗和汇总,然后生成DWM中间表;DWM(数据中间层):对DWD中的数据按照一定维度进行汇总后,放到DWS中的一张表;DWS(数据服务层):从DWM中间表中按主题进行高度汇总业务宽表,满足各项业务需要;APP:依据DWS中的宽表数据,进行应用(可视
p1i2n3g4
·
2023-12-28 17:41
大数据
数据仓库
数据库
数据挖掘
数据仓库 基本信息
数据仓库基本理论数据仓库(英语:DataWarehouse,简称
数仓
、DW),是一个用于存储、分析、报告的数据系统。
许一世流年 绝不嵩手 cium
·
2023-12-28 11:46
数据仓库
spark
大数据
ETL项目实战--学习笔记
Extract,数据抽取=>抽取的是其他数据源中的数据T:Transform,数据转换=>将数据转换为统一的格式,消除异常值,缺失值,对于错误的逻辑进行修改L:Load,数据加载=>将不同数据源的数据处理后加载到
数仓
或者输出到指定位置
祈愿lucky
·
2023-12-28 11:46
大数据
etl
学习
笔记
单细胞分析(五)——使用Harmony进行数据整合和去批次
这些因素会对测序
数据质量
生信小鹏
·
2023-12-28 09:13
生信学习
开发语言
r语言
数据仓库与数据集成架构:数据仓库与数据仓库规范与标准的制定与应用
数据集成架构包括数据清洗、数据转换、数据加载和
数据质量
检查等步骤。
一枚可爱的程序女孩
·
2023-12-28 05:45
React入门实战
Java入门实战
Python
Java
React
人工智能的弱点有哪些?
如果缺乏足够的数据,或者
数据质量
不佳,可能会影响模型的准确性和性能。2.缺乏常识和推理能力:当前的人工智能系统通常局限于具体任务的解决,缺乏人类拥有的广泛的常识和推理能力。这
金鸣识别
·
2023-12-27 23:33
ai
人工智能
深度学习
人工智能
知乎实时
数仓
架构演进
从智能商业的角度来讲,数据的结果代表了用户的反馈,获取结果的及时性就显得尤为重要,快速的获取数据反馈能够帮助公司更快的做出决策,更好的进行产品迭代,实时
数仓
在这一过程中起到了不可替代的作用。
yoku酱
·
2023-12-27 19:34
Flink实时电商
数仓
之Doris框架(七)
主要实现的功能有:实时看板面向企业内部分析师和管理者的报表面向用户或者客户的高并发报表分析即席查询统一
数仓
构建:替换了原来由Spark,Hive,Kudu,Hbase等旧框架数据湖联邦查询:通过外表的方式联邦分析位于
十七✧ᐦ̤
·
2023-12-27 16:47
flink
大数据
doris
DataFunSummit:2023年数据湖架构峰会-核心PPT资料下载
面对如此大规模的数据,无论是分析型场景、流批一体、增量
数仓
都得益于湖仓一体等数据湖技术的发展而变得越来越容易解决。从核心架构、性能优化、湖仓一体、最佳实践等方面带来数据湖的最新技术和内容实践经验总结。
百家峰会
·
2023-12-27 16:03
大数据
数据湖
数据治理
架构
数据湖
大数据
数据治理
从报表需求到报表开发的流程
报表开发背后涉及到需求调研和
数仓
开发的支持。二、目标梳理从报表需求提出到报表需求实现整个生
qq_36120059
·
2023-12-27 12:55
数据仓库
报表
数据仓库
finebi
基于Kettle和帆软Finereport的血缘解析
开发人员排查
数据质量
问题步骤:首先和业务人员对接了解是哪里数据不准确,要定位是哪张报表,然后查看报表后面数据来源,然后一路排查
数仓
。往往定位到数据问题耗时比较高,开发断层导致找到相关任务比较难。
qq_36120059
·
2023-12-27 12:55
finereport
数据仓库
血缘解析
数据仓库
浅谈数据仓库运营
二、目标提高数据仓库存储性能和开发质量以及
数据质量
三、数据运营指标3.1开发质量表名规范性:检验数据库表名是否按照
数仓
表名规范,表名是否按照词根翻译字段名规范性:检验表字段名是否按照词根中文进行翻译字段类型规范性
qq_36120059
·
2023-12-27 12:53
数据仓库
数据仓库
电商数据分析-03-电商数据采集
第1章数据仓库概念数据仓库规划1.1
数仓
搭建我们这里所说的数据仓库,是基于大数据体系的,里面包含标签类目,区别于传统的数据仓库。下面我们来将这张图分解,逐个做简要分析。
IT从业者张某某
·
2023-12-27 11:14
数据分析入门到进阶
数据分析
电商数据分析-02-电商业务介绍及表结构
参考电商业务简介大数据项目之电商
数仓
、电商业务简介、电商业务流程、电商常识、业务数据介绍、电商业务表、后台管理系统可以把excel复制为markdown的网站举个例子:1.1电商业务流程电商的业务流程可以以一个普通用户的浏览足迹为例进行说明
IT从业者张某某
·
2023-12-27 11:14
数据分析入门到进阶
数据分析
数据库开发常见面试题
ORACLE和kettle1、DeleteTruncateDrop区别2、DML、DDL3、经常使用到得函数4、KETTLE内存溢出解决方案5、kettle中黄色的锁,绿色的对勾,红色的停止代表的意思6、
数仓
架构
'接受现实'
·
2023-12-27 06:54
数据库开发
etl
数据库
hive学习笔记
一、Hive基本概念1.1hive是什么hive是基于hadoop的一个
数仓
分析工具,hive可以将hdfs上存储的结构化的数据,映射成一张表,然后让用户写HQL(类SQL)来分析数据telupdown138383843813451567138383843953451567138383844012411657713838384413453157571383838434353551567567
不爱吃鱼的馋猫
·
2023-12-27 06:05
hive
大数据
hadoop
灵蜂BeeDI ETL
在为大数据存储和处理提供便利的同时,它对企业的数据访问、数据整合和
数据质量
管理都提出了更高的要求。为此,国产数据集成软件厂商北京灵蜂软件有限公司日前宣布,推出最新版本的企业级数据集
weixin_49476464
·
2023-12-26 23:38
学习
hadoop
big
data
数据库
大数据实战项目 -- 实时
数仓
文章目录一、实时数据1.1日志采集器1.1日志生成器1.3日志分发器1.4采集流脚本二、实时采集2.1项目搭建2.2Kafka数据获取2.3Redis数据去重2.4ES数据存储2.5精准一次性消费2.6Kibana可视化配置2.7发布数据接口三、实时监控3.1Canal3.1.1配置MySQL3.1.2安装canal3.2CanalODS层数据分流3.3Maxwell3.4MaxwellODS层数
L小Ray想有腮
·
2023-12-26 18:53
BigData
电商
数仓
笔记7_数据仓库系统(
数仓
搭建-DWD层,
数仓
搭建-DWS层,
数仓
搭建-DWT层,
数仓
搭建-ADS层)
电商
数仓
一、
数仓
搭建-DWD层1、DWD层(用户行为日志)(1)日志解析思路(2)get_json_object函数使用(3)启动日志表(4)页面日志表(5)动作日志表(6)曝光日志表(7)错误日志表(
明灭18
·
2023-12-26 17:47
笔记
大数据
hadoop
hive
电商
数仓
笔记6_数据仓库系统(
数仓
搭建-ODS层,
数仓
搭建-DIM层)
电商
数仓
一、
数仓
搭建-ODS层1、ODS层(用户行为数据)(1)创建日志表ods_log(2)Shell中单引号和双引号区别(3)ODS层日志表加载数据脚本2、ODS层(业务数据)(1)ODS层业务表首日数据装载脚本
明灭18
·
2023-12-26 17:17
笔记
数据仓库
hive
hadoop
大数据
四、电商数据仓库系统——第5章 数据仓库设计
5.1数据仓库分层规划优秀可靠的
数仓
体系,需要良好的数据分层结构。合理的分层,能够使数据体系更加清晰,使复杂问题得以简化。以下是该项目的分层规划。5.2数据仓库构建流程以下是构建数据仓库的完整流程。
怕被各位卷死
·
2023-12-26 17:47
离线电商数仓5.0搭建
大数据
hadoop
kafka
分布式
hdfs
电商
数仓
项目----笔记七(
数仓
DIM层)
所谓的维度层其实就是分析数据的角度,维度层保存的表其实是分析数据的角度,比如:--性别,年龄,品牌,品类这层的表主要用于统计分析,因此DIM层的数据存储格式为orc列式存储+snappy压缩(时间短)orc列式存储的好处:查询的时候不需要扫描全部的数据,而只需要读取每次查询涉及的列,这样可以将I/O消耗降低N倍,另外可以保存每一列的统计信息(min、max、sum等),实现部分的谓词下推。由于每一
zmx_messi
·
2023-12-26 17:16
笔记
EXCEL快速入门
到目前为止,我们已学习了,如何设计表格,什么情况设计一维表,什么情况设计二维表,怎么保证
数据质量
,如何利用函数来提高工作效率。也就是说,现在我们完全可以独立完成一张高质量的报表了。
Dream阿梦
·
2023-12-26 08:12
Flink电商实时
数仓
(六)
交易域支付成功事务事实表从topic_db业务数据中筛选支付成功的数据从dwd_trade_order_detail主题中读取订单事实数据、LookUp字典表关联三张表形成支付成功宽表写入Kafka支付成功主题执行步骤设置ttl,通过Intervaljoin实现左右流的状态管理获取下单明细数据:用户必然要先下单才有可能支付成功,因此支付成功明细数据集必然是订单明细数据集的子集。要注意:Interv
十七✧ᐦ̤
·
2023-12-26 07:25
flink
数据库
java
质量保障的多维形态
最顶层的切分,按研发工种可以分为:工程质量、
数据质量
、算法质量。本系列暂时只围绕工程
hi99
·
2023-12-26 04:41
数据治理之
数据质量
管理系列1:质量管理工具整体架构
数据质量
管理工具,主要面向数据治理和
数据质量
评估场景。
大数据小白
·
2023-12-26 03:14
DataWhale_Matplotlib_Matplotlib初相识
answer:本人从事交通大数据的数据清洗及分析工作,工作中会需要实时观查数据同步的异常情况,并且需要分析
数据质量
。故通常将各个监测指标可视化,分区并实时观察数据同步及分布情况。
恶魔眼睛大又大���
·
2023-12-26 01:48
python
数据可视化
可视化
打造绿色计算数智动力 HashData 入选“绿色计算最具价值解决方案”
酷克数据(HashData)作为国内云原生
数仓
领军企业,受邀参加本次大会,为观众呈现了HashData云
数仓
的技
HashData酷克数据
·
2023-12-26 00:53
postgresql
数据库
创新铸就卓越 HashData再度荣获 IT168技术卓越奖
12月20日,由国内专业数据库及架构技术社区ITPUB、IT垂直门户IT168联合主办的“2023技术卓越奖”评选结果正式揭晓,酷克数据基于云原生架构打造的HashData云
数仓
,凭借创新的技术架构、强大的性能表现
HashData酷克数据
·
2023-12-26 00:53
数据库
数据分析
大数据
数据治理之元数据管理
目录一、元数据管理概述什么是元数据元数据的3种类型业务元数据技术元数据操作元数据元数据的作用什么是元数据管理元数据管理的目标建立指标解释体系提高数据溯源能力
数据质量
稽核体系元数据管理的阶段二、元数据管理方法业务目标理解建立企业数据资产目录消除冗余加强数据复用降低因人员流动而导致知识流失的风险提供数据血缘探查能力
4935同学
·
2023-12-25 14:14
数据治理
数据分析
数据仓库
幸福里基于 Flink & Paimon 的流式
数仓
实践
幸福里业务是一种典型的交易、事务类型的业务场景,这种业务场景在实时
数仓
建模中遇到了诸多挑战。
浪尖聊大数据-浪尖
·
2023-12-25 10:45
flink
大数据
数据处理系列课程 02:数据处理的科学性之初识NumPy
前面我们才提到数据处理是一件非常重要的事情,数据处理的是否得当直接关系到最终的成果,所以针对数据要做缺失值处理、离群点处理、重复值处理、噪声处理、规范化处理、离散化处理、稀疏化处理等处理,这些处理操作的基础都是建立在数学的基础上,利用数学将
数据质量
提高
HerrFu
·
2023-12-25 09:24
数据处理
数据分析
数据挖掘
Flink实时电商
数仓
(五)
FlinkSQL的joinRegularjoin普通join,两条流的数据都时存放在内存的状态中,如果两条流数据都很大,对内存压力很大。IntervalJoin:适合两条流到达时间有先后关系的;一条流的存活时间短,一条流的存活时间长。LookupJoin:适合主流特别大,从流特别小的情况;主流数据没到达一条,就会去查询从流的每一条数据。主流数据不存储在内存中。语法:主流使用时必须有处理时间,pro
十七✧ᐦ̤
·
2023-12-25 02:27
flink
大数据
Flink电商实时
数仓
(四)
日志数据结构业务数据:数据都是MySQL中的表格数据,使用FlinkSQL处理日志数据:分为page页面日志(页面信息,曝光信息,动作信息,报错信息)和启动日志(启动信息,报错信息),使用FlinkStreamAPI处理五种日志数据:“start”;启动信息“err”;错误信息“display”;曝光信息“action”;动作信息“page”;页面信息"actions":[{"action_id"
十七✧ᐦ̤
·
2023-12-25 02:57
flink
vscode
大数据
【黑马甄选离线
数仓
day10_会员主题域开发_DWS和ADS层】
day10_会员主题域开发会员主题_DWS和ADS层DWS层开发门店会员分类天表:维度指标:指标:新增注册会员数、累计注册会员数、新增消费会员数、累计消费会员数、新增复购会员数、累计复购会员数、活跃会员数、沉睡会员数、会员消费金额维度:时间维度(天、周、月)涉及表:门店会员分类天表表字段的组成:维度字段+指标结果字段建表语句:CREATETABLEIFNOTEXISTSdws.dws_mem_
LKL1026
·
2023-12-25 01:58
黑马甄选离线数仓项目
大数据
数据库
sql
数据仓库
2019-05-23
其他时间都在编写法院
数仓
重构项目建设方案。下午王伟离职,涉及到薪资结算不合理问题,他很生气,我建议他不要纠结这些小事,他貌似也没听进去。下午听了一个讲健康安全的课程,感觉很实用。晚11点半就寝。
bigtian
·
2023-12-24 15:11
电商
数仓
项目----笔记六(
数仓
ODS层)
ODS层的设计要点如下:(1)ODS层的表结构设计依托于从业务系统同步过来的数据结构。(2)ODS层要保存全部历史数据,故其压缩格式应选择压缩比较高的,此处选择gzip。(3)ODS层表名的命名规范为:ods_表名_单分区增量全量标识(inc/full)。同样的,需要将用户行为数据表和业务数据表放到ODS层。日志表DROPTABLEIFEXISTSods_log_inc;CREATEEXTERNA
zmx_messi
·
2023-12-24 12:38
笔记
电商
数仓
项目----笔记五(
数仓
架构和建模)
ODS:数据源DWD:加工数据DWS:统计数据ADS:分析数据DIM:维度层(大家都有可能用得上的部分)ER模型数据仓库之父BillInmon提出的建模方法是从全企业的高度,用实体关系(EntityRelationship,ER)模型来描述企业业务,并用规范化的方式表示出来,在范式理论上符合3NF。1)实体关系模型实体关系模型将复杂的数据抽象为两个概念——实体和关系。实体表示一个对象,例如学生、班
zmx_messi
·
2023-12-24 11:35
笔记
基于Hue,Dolphinscheduler,HIVE分析数据仓库层级实现及项目需求案例实践分析
目录一、
数仓
各个层级及作用1,ODS层(OperationDataStore-源数据层)2,DW层(DataWarehouse-数据仓库层)(1)DWD(DataWarehouseDetail-明细数据层
Len°
·
2023-12-24 11:32
Hadoop
hadoop
big
data
hive
【深度学习】DataComp论文,数据集介绍,大数据模型的数据集介绍
参考:https://laion.ai/blog/datacomp/论文:https://arxiv.org/abs/2304.14108文章目录论文报告的一些内容datacomp-1B
数据质量
比lainon2B
XD742971636
·
2023-12-24 09:15
深度学习机器学习
深度学习
人工智能
DataComp
数据集
数据质量
监控框架及解决方案总结
概述随着业务发展和数据量的增加,大数据应用开发已成为部门应用开发常用的开发方式,由于部门业务特点的关系,spark和hive应用开发在部门内部较为常见。当处理的数据量达到一定量级和系统的复杂度上升时,数据的唯一性、完整性、一致性等等校验就开始受到关注,而通常做法是根据业务特点,额外开发job如报表或者检查任务,这样会比较费时费力。目前遇到的表大部分在几亿到几十亿的数据量之间,并且报表数量在不断增加
坨坨的大数据
·
2023-12-24 05:41
技本功|Hive优化之监控(三)
Hive是大数据领域常用的组件之一,主要是大数据离线
数仓
的运算,关于Hive的性能调优在日常工作和面试中是经常涉及的一个点,因此掌握一些Hive调优是必不可少的技能。
云掣YUNCHE
·
2023-12-24 03:15
技术文档
数据库
运维
hive
大数据
mysql
技本功|Hive优化之Spark执行引擎参数调优(二)
Hive是大数据领域常用的组件之一,主要是大数据离线
数仓
的运算,关于Hive的性能调优在日常工作和面试中是经常涉及的的一个点,因此掌握一些Hive调优是必不可少的一项技能。
云掣YUNCHE
·
2023-12-24 03:44
技术文档
spark
hive
企业数据治理:(1)概述
数据治理的范围包括目标数据的创建、存储、共享和使用的规范和流程,以提高
数据质量
并促进系统对企业业务的促进作用。数据治理的结果直接影响到系统的高效使用,如何通过数据治理提升
whqcfp
·
2023-12-24 03:57
数据治理
数据治理
基于conda环境下的宏基因组学分析利器MetaWRAP 1.3.2 安装和使用,序列分析基本流程自动分析脚本
MetaWRAP的功能包括:
数据质量
控制:包括去除低质量的reads、去除污染序列和剪切适配序列等。基因组装配:MetaWRAP支持多种基因组装配算法,包括SPAdes和MEGAHIT等。
小果运维
·
2023-12-24 02:01
生信分析-bioinfo
科学数据分析
metawrap
kraken2
ncbi
metagenome
宏基因组
分析流程
物种注释
上一页
5
6
7
8
9
10
11
12
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他