E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓(
Spark+Flink+Iceberg打造湖仓一体架构实践探索
数据湖-大数据生态杀青数据湖-大数据生态杀青数据仓库的痛点只能存储结构化数据,无法采集存储非结构化数据无法存储原始数据,所有的数据须经过ETL清洗过程离线
数仓
的数据表牵一发而动全身,数据调整工程量大实时
数仓
存储空间有限
架构师老狼
·
2023-04-15 23:13
大数据测试工程师需要熟悉的
数仓
规范和数据测试流程
熟悉
数仓
规范1.数据质量规范数据质量规范是保证数据仓库数据质量的关键。在项目中,我们制定了一系列的数据质量规范,包括数据清洗、数据校验、数据标准化、数据去重、数据加工等方面。
不考虑昵称
·
2023-04-15 21:25
大数据
数据仓库
数据挖掘
规范
电商
数仓
学习-Maxwell的使用
增量表同步工具Maxwell前言一、Maxwell简介1.Maxwell概述2.Maxwell输出数据的格式二、Maxwell1.MySQL二进制日志2.MySQL主从复制3.Maxwell原理三、Maxwell部署1.安装Maxwell2.配置MySQL1)启用MySQLBinlog2)创建Maxwell所需数据库和用户3)配置Maxwell四.Maxwell使用1.启动Kafka集群2.Max
自学大数据的菜鸡
·
2023-04-15 13:32
数仓同步工具
离线数仓
Maxwell
mysql
big
data
电商
数仓
学习-DataX的使用
全量表同步工具DataX前言一、DataX简介1.DataX概述2.DataX支持的数据源二、DataX架构原理1.DataX设计理念2.DataX框架设计3.DataX运行流程4.DataX调度决策思路5.DataX和Sqoop对比三、DataX部署1.下载安装四、DataX使用1.DataX任务提交命令2.DataX配置文件格式3.DataX传参五、DataX案例1.同步MySQL数据到HDF
自学大数据的菜鸡
·
2023-04-15 13:02
DataX
数仓同步工具
离线数仓
big
data
离线电商
数仓
-用户行为采集平台-第1章 数据仓库概念
第1章数据仓库概念1.简介
数仓
仓库是为企业制定决策,提供数据支持
数仓
仓库不是数据的最终目的,数据进入仓库后,需要进行计算分析,形成各种指标,
书墨客
·
2023-04-15 13:28
数据仓库
数据仓库
东软跨境电商
数仓
开发进度
我的工作是使用大数据技术进行
数仓
的开发,作为东北大学大数据班的一名希望在数据领域有长远发
Mmj666
·
2023-04-15 13:26
东软睿购跨境电商数仓项目
hadoop
hive
flume
spark
kafka
电商
数仓
—前言
项目流程图1.数据仓库的概念数据业务数据存储在mysql处理事务过程中产生的数据例如:登录、下单、支付用户行为数据日志文件(以文件形式)用户与客户端产品交互过程中产生的数据通过埋点实现:代码埋点(前端/后端)、可视化埋点、全埋点页面浏览记录、动作记录、曝光记录、启动记录和错误记录例如:浏览、点击、评论、点赞、收藏页面浏览记录用户信息包括用户ID、设备ID时间信息用户跳入页面的时间地理位置信息用户浏
姚circle
·
2023-04-15 13:25
电商数仓
数据仓库
排序对parquet 文件大小的影响
背景公司hive
数仓
全面迁移到iceberg后,发现存储空间比hive要大,并且文件格式都是parquet分析iceberg存储空间比hive表大,最主要的原因是因为压缩算法不一样,然后也发现iceberg
shengjk1
·
2023-04-15 12:39
工作之行
parquet
数仓
排序
数据仓库
iceberg
2020哔哩哔哩大数据面试题整理
网上能搜到的B站的大数据面试题太少了,博主有点找不到了,而且最近B站的校招的效率似乎不是很高,简历投进去一个多星期了,一点反应都没有,别问,问就是在池子里.jpg1.
数仓
与关系数据库区别1.数据库有相对复杂的表格结构
艾姆鸥
·
2023-04-14 22:29
大数据面试
CDH6.3.2 集群部署(尚硅谷)
第一章
数仓
之ClouderaManager1.1CM简介1.1.1CM简介ClouderaManager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具,使得安装集群从几天的时间缩短在几个小时内
小于同学饿了
·
2023-04-14 17:30
大数据
传统
数仓
四层模型
传统数据仓库一般分为四层模型ods原始数据层存放原始数据,保持原貌不做处理dwd明细数据层对ods层数据清洗(去除空值,脏数据,超过极限范围的数据)dws服务数据层轻度聚合ads应用数据层具体需求
wqchibingshaonian
·
2023-04-14 08:20
大数据测试
数仓
第一篇:基础架构
目录01.架构演进02.逻辑分层03.数据调研04.主题域划分05.
数仓
规范06.数据治理07.
数仓
理念01.架构演进离线数据仓库到实时数据仓库,从lambda架构到kappa架构、再到混合架构。
浊酒南街
·
2023-04-14 08:20
数仓建设
大数据
数据仓库(2)
数仓
、大数据与传统数据库的区别
文章来源:数据仓库(2)
数仓
、大数据与传统数据库的区别 数据仓库与大数据区别,数据仓库与数据库的区别,大数据与传统数据库的区别等等,这篇文章带你了解。
张飞的猪大数据
·
2023-04-14 08:19
数据仓库的学习笔记
数据仓库
数据库
big
data
大数据
数据开发
传统
数仓
如何转型大数据?
Q:现在做传统
数仓
,如何快速转到大数据数据呢?其实很多小伙伴都是从传统数据仓库转到大数据的,今天就结合身边的同事经历来一起分享一下。
zhisheng_blog
·
2023-04-14 08:19
数据仓库
分布式
大数据
编程语言
hadoop
数据中台-
数仓
分层思想
一、
数仓
分层思想1、为什么要分层通过分层管理来实现分步完成工作,用空间换时间,通过数据预处理提高效率,提升应用系统的用户体验(效率),简化数据清洗的过程,使每一层处理逻辑变得更简单。
weixin_44214647
·
2023-04-14 08:46
数据中台
big
data
大数据
hive
hadoop
spark
数据俩仨事——埋点与
数仓
前言朋友分享了个
数仓
的PPT,就聊聊对埋点和
数仓
的一些认识和体验。埋点先谈谈埋点吧——用户行为分析的数据来源。(通俗些就是格式化,以表格形式展示的目标日志数据)战士上战场,莫得子弹就是一个死。
范_十八
·
2023-04-14 07:03
关于多事务事实表的一点思考
近期在自建数据分析平台的时候,遇到了事实表包含两个业务时间语义的问题,结合
数仓
事实表建设方面的方法论,整理记录一些自己的想法。
风筝flying
·
2023-04-14 05:19
小文件治理之hive文件合并:hive小文件合并的三种方法
concatenate方法二、insertoverwrite方法三、insertoverwriteselect*用法总结前言hive分区下,有很多小文件,例如一个分区有1000个文件,但每个文件大小是10k,
数仓
大量这种小文件
*星星之火*
·
2023-04-14 03:22
数据治理
hive
hdfs
实时
数仓
之 Kappa 架构与 Lambda 架构
随着互联网时代来临,数据量暴增,开始使用大数据工具来替代经典
数仓
中的传统工具。此时仅仅是工具的取代,架构上并没有根本的区别,
在路上的小苑
·
2023-04-13 18:35
架构
数据仓库
数据库
火山引擎 DataLeap:数据秒级生产,揭秘电商实时
数仓
最佳实践!
本篇文章将带你走进某电商实时
数仓
团队,揭
字节数据平台
·
2023-04-13 04:37
火山引擎
大数据
数据仓库
实时数仓
数仓
--DW--Hadoop
数仓
实践Case-12-事实表概述
前言--先弄明白理论性知识,再利用理论指导实践--李小李发生在业务系统中的操作型事务,其所产生的可度量数值,存储在事实表中,从最细节粒度级别看,事实表和操作型事务表的数据有一一对应的关系。因此,数据仓库中事实表的设计应该依赖于业务系统,而不受可能产生的最终报表影响。除数字类型的度量外,事实表总是包含所引用维度表的外键,也能包含可选的退化维度键或时间戳。数据分析的实质就是基于事实表开展计算和聚合操作
李小李的路
·
2023-04-13 01:42
数仓
分层设计架构
一、
数仓
建模的意义,为什么要对数据仓库分层只有数据模型将数据有序的组织和存储起来之后,大数据才能得到高性能、低成本、高效率、高质量的使用。
朝北游
·
2023-04-13 01:10
资源
架构
数据库
数据仓库
AntDB数据库携超融合流式实时
数仓
亮相第25届中国高速公路信息技术化大会
3月30~31日,第25届中国高速公路信息技术化大会在福州海峡国际会展中心隆重召开,AntDB数据库携超融合流式实时
数仓
亮相本次盛会。
亚信安慧AntDB数据库
·
2023-04-12 23:32
AISWare
AntDB
国产数据库
AntDB
数据库
antdb数据库
antdb
湖仓一体架构
文章目录数据湖数据湖产生数据库时代传统数据仓库
数仓
+数据湖数据湖和
数仓
的区别数据湖引发的问题数据湖和数据仓库湖仓一体要解决的问题湖仓一体架构的提出湖仓一体的主要特征湖仓一体现有的技术途径访问层元数据层优化层存储层
Dlimeng
·
2023-04-12 19:21
Flink实战
数据湖
hive
数仓
中的拉链表
拉链表是针对hive中数据仓库设计中为表存储数据的方式而设计的,所谓拉链表。就是记录一个事物从开始,一直到当前状态的所有变化的信息,表中每个事物的每一个变化都清晰可见。以此表为例左侧his表就是拉链表,记载着表中每个id的变化记录;而右侧的inc表为增量表,记载以day为分区的前一天的增量数据,为第二天数据查询提供数据支持。注意两表联合查询时,--两表查询合并UNINALL----通过hislef
15-王井
·
2023-04-12 17:38
java
big
data
开发语言
大数据
数仓
建模
大数据
数仓
建模数据仓库简介 1.什么是数据库? 数据库(database)是按照数据结构来组织,存储和管理数据的建立在计算机存储设备上的仓库。
醉生梦是
·
2023-04-12 03:19
数据仓库
【
数仓
】数据服务层
1.数据服务数据服务研究的是海量数据如何方便高效地开放出去。1.1服务架构演进1.1.1DWSOA实现:需求为驱动,一个需求开发一个或多个接口,编写接口文档,开放给业务方。优点:简单。缺点:粒度粗,不灵活,扩展性差,复用率低,接口数量增加快,维护成本高,开发效率低,无法快速响应。1.1.2OpenAPI实现:将数据按统计粒度聚合,同样维度的数据形成逻辑表,采用同样的接口描述。例如把会员为中心的数据
和风与影
·
2023-04-11 23:03
数据仓库
大数据
数据仓库
大数据
数据平台的4个阶段:从数据库到
数仓
再到中台,超详细的架构全解
在大数据时代,凡是AI类项目的落地,都需要具备数据、算法、场景、计算力四个基本元素,缺一不可。处理大数据已经不能仅仅依靠计算力就能够解决问题,计算力只是核心的基础,还需要结合不同的业务场景与算法相互结合,沉淀出一个完整的智能化平台。数据中台就是以云计算为数据智能提供的基础计算力为前提,与大数据平台提供的数据资产能力与技术能力相互结合,形成数据处理的能力框架赋能业务,为企业做到数字化、智能化运营。目
遇见的昨天
·
2023-04-11 23:03
大数据
Mysql数据库
big
data
数据库
数据中台:数据服务的架构设计实践!
作为
数仓
对接上层应用的统一出入口,数据服务将
数仓
当作一个统一的DB来访问,提供统一的API接口控制数据的流入及流出,能够满足用户对不同类型数据的访问需求。
智慧化智能化数字化方案
·
2023-04-11 23:58
数据库
数据挖掘
大数据
数仓
学习笔记
目录1.数据处理方式2.数据建模2.1关系建模2.1维度建模3.维度表分类3.1维度表3.2事实表3.2.1事实表特征3.2.2事实表分类4.数据组织类型4.1星型模型4.2雪花模型4.3.星座模型5.
数仓
特征
nijialong11
·
2023-04-11 07:37
数据库
sql
数据仓库
数仓
及其维度(分层)建模(ODS DWD DWS DWT ADS)
一.
数仓
及其维度1.什么是
数仓
?数据仓库,简称
数仓
,(DataWarehouse)。
ForwardSummer
·
2023-04-11 02:25
大数据
数据仓库
【闲聊】大数据开发秋招面试准备
打算从明天开始准备秋招,后面继续更新一些面试题,包括计算机基础、算法、
数仓
、Java、SQL,以及常考题。
和风与影
·
2023-04-10 06:41
面试
big
data
职场和发展
【大数据Hive3.x
数仓
开发】窗口函数案例:连续N次登录的用户;级联累加求和;分组TopN
文章目录1统计连续N次登录的用户(N>=2)自连接过滤实现窗口函数lead()实现2级联累加求和自连接窗口函数sum()实现3分组TopN问题对窗口函数的讲解part见:【大数据Hive3.x
数仓
开发】
锵锵锵锵~蒋
·
2023-04-10 01:56
数据分析
大数据
数据库
python
【大数据Hive3.x
数仓
开发】
数仓
中数据发生变化如何实现数据存储--拉链表详解
文章目录功能与应用场景实现过程SQL实现数据发生变化时,如果全部覆盖没有了历史变化,如果全部保存会有过多的数据冗余。构建拉链表,通过时间标记发生编号的数据的每种状态的时间周期。功能与应用场景拉链表专门用于解决在数据仓库中数据发生变化如何实现数据存储的问题。拉链表的设计是将更新的数据进行状态记录,没有发生更新的数据不进行状态存储,用于存储所有数据在不同时间上的所有状态,通过时间进行标记每个状态的生命
锵锵锵锵~蒋
·
2023-04-09 22:37
数据分析
数据库
大数据
拉链表
hivesql
【clickhouse】微信基于Clickhouse的实时
数仓
1.概述直播回放:ClickHouseOnlineSummerMeetupChina20222、背景数据分析场景2.Hadoop
数仓
下的困境视频号等推荐系统的对个性化体验强烈诉求,催生了“亚秒级”分析系统的诞生设计目标
九师兄
·
2023-04-09 16:22
clickhouse
clickhouse
大数据
数据库
pyspark null类型 在 json.dumps(null) 之后,会变为字符串‘null‘
在将hive
数仓
数据写入MySQL时候,有时我们需将数据转为json字符串,然后再存入MySQL。
小何才露尖尖角
·
2023-04-09 16:20
Hive
Spark
json
hive
大数据
null
字符串
null
大数据项目之电商数据仓库系统回顾
实训目的三、操作环境四、实训过程(实训内容及主要模块)五、实训中用到的课程知识点六、实训中遇到的问题及解决方法七、课程实训体会与心得八、程序清单一、实训课题大数据项目之电商数据仓库系统二、实训目的完成一个电商
数仓
项目
三月枫火
·
2023-04-09 11:31
大数据
项目
大数据
数据仓库
hadoop
5.2.2 电商离线
数仓
项目实战 【下】(任务调度系统Airflow)
电商离线
数仓
项目实战【下】文章目录电商离线
数仓
项目实战【下】第二部分任务调度系统Airflow第1节Airflow简介1.1、体系架构1.2、重要概念第2节Airflow安装部署2.1、安装依赖2.2、
weixin_47134119
·
2023-04-09 10:38
数据仓库
成功解决: 大数据验证注意规范
数仓
分ods源业务数据层、dwd、dws指标层、adm应用数据层一、发散验证(数据唯一性检查)如:按月和组织粒度(联合主键)、存在同一个月+同一个组织多条记录selectmonth_id,organ_id
iBigder
·
2023-04-09 08:26
软件测试全套常用模板
大数据
AB测试平台的那些事
最近一段时间在负责公司AB测试平台的建设过程中,调研了很多竞品的通用做法,其中涉及到的数据整体解决方案,包括AB测试数据采集与
数仓
模型、AB测试指标建设、AB测试可视化方案等,借此机会我把自己总结下来的经验分享给大家
一个数据人的自留地
·
2023-04-09 04:21
离线
数仓
和实时
数仓
架构对比
一、
数仓
的实时需求与离线需求的比较1【离线
数仓
需求】就是在计算开始前已知所有输入数据,输入数据不会产生变化,一般计算量级较大,计算时间也较长。例如今天早上一点,把昨天累积的日志,计算出所需结果。
万里长江横渡
·
2023-04-08 20:18
大数据
大数据
hadoop
分布式
电商离线
数仓
项目-用户行为
数仓
(活跃/新增/留存主题)
用户行为
数仓
指标用户活跃主题日活周活月活用户新增主题日新增用户用户留存主题电商离线
数仓
项目,分四层搭建,基本框架搭建好了之后,编写具体的需求.这些需求主要是在DWS层和ADS层两层进行搭建。
梦里Coding
·
2023-04-08 20:17
Hive
big
data
1024程序员节
大数据项目离线
数仓
(全 )二(
数仓
系统)
本文仅仅包含数据仓库系统的搭建,其他内容请关注我的博客!在专栏里!!!本篇文章参考尚硅谷大数据项目写成!目录一、数据仓库系统1.1基础概念1.1.1数据分层的好处1.1.2数据分层1.1.3数据集市和数据仓库1.1.4OLTP和OLAP1.1.5关系建模与维度建模1.1.6事实表和维度表1.1.7维度建模分类1.1.8数据仓库建模1.2软件工具的安装配置1.2.1安装datagrip1.3系统搭建
一个人的牛牛
·
2023-04-08 20:16
项目
数据仓库
离线
数仓
(二) --------- 项目需求及架构设计
目录一、项目需求分析二、项目框架1.技术选型2.系统数据流程设计3.框架版本选型4.服务器选型5.集群规模6.集群资源规划设计一、项目需求分析A、项目需求用户行为数据采集平台搭建业务数据采集平台搭建数据仓库维度建模分析,设备、会员、商品、地区、活动等电商核心主题,统计的报表指标近100个。采用即席查询工具,随时进行指标分析对集群性能进行监控,发生异常需要报警。元数据管理质量监控权限管理B、思考题项
在森林中麋了鹿
·
2023-04-08 20:12
大数据项目
大数据
数据仓库
Hadoop
离线
数仓
建设,企业大数据的业务驱动与技术实现丨03期直播回顾
原文链接:离线
数仓
建设,企业大数据的业务驱动与技术实现丨03期直播回顾视频回顾:点击这里课件获取:点击这里一、离线
数仓
建设背景离线数据是相对实时数据而言的数据产出,不同于实时数据,离线数据一般是T+1天处理
袋鼠云数栈
·
2023-04-08 20:06
数栈产品文章分享
大数据
数据仓库
离线开发
批数据
离线
数仓
数据可靠性的问题
1.如何检测?使用脚本统计日志服务器上的采集的日志文件的行数与HDFS上的目标存储目录中的文件的行数,进行对比2.如何保证数据的不丢失?日志采集网络架构设计为两层第一级采用了tailDirSource,fileChannel,avroSink的搭配,第二级采用了avroSource,fileChannel,hdfsSink的搭配tailDirSource实现了flume的事务机制,并且可以记录偏移
JinVijay
·
2023-04-08 20:05
离线数仓
大数据
离线
数仓
项目,
数仓
理论(概要, 建模方法,
数仓
分层, 模型介绍,元数据),
数仓
设计(需求分析, 数据埋点, 指标体系, 架构设计(方案选型,逻辑架构, 物理环境, 命名规范))
目录PB级企业电商离线
数仓
项目实战【上】项目背景第一部分数据仓库理论第1节数据仓库1.1什么是数据仓库1.2数据仓库四大特征1.3数据仓库作用1.4数据仓库与数据库的区别1.5数据集市第2节数据仓库建模方法
javastart
·
2023-04-08 20:03
数据仓库
数据仓库
数据库
database
数分-理论-大数据6-Hive
数分-理论-大数据6-Hive(数据仓库)(数据分析系列)文章目录数分-理论-大数据6-Hive(数据仓库)1知识点2具体内容2.1数据仓库2.1.1起源2.1.2
数仓
概念2.1.3体系结构2.1.4存在挑战
yxyibb
·
2023-04-08 19:17
数据分析
大数据
hive
big
data
数据仓库
数分准备
数据分析
从数据仓库到数据中台,终于有人说清楚了
作者简介:王春波,《高效使用Greenplum:入门、进阶和数据中台》作者,“数据中台研习社”号主,十年数据开发从业者,资深零售
数仓
项目实施专家。
weixin_44166276
·
2023-04-08 12:02
数据仓库
数仓
建设保姆级5W字教程,离线实时一网打尽(理论+实战)
文档大纲一、
数仓
基本概念1、数据仓库架构我们在谈
数仓
之前,为了让大家有直观的认识,先来谈
数仓
架构,“架构”是什么?这个问题从来就没有一个准确的答案。
浪尖聊大数据-浪尖
·
2023-04-08 12:29
数据仓库
数据库
scipy
makefile
crm
上一页
26
27
28
29
30
31
32
33
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他