E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓(
顺丰科技数据治理实践
十年前,我们就已经建了
数仓
,同步做了元数据管理,数据质量管理,以及数据安全的管理。顺丰数据治理的演进路线分3个阶段。第一阶段:2020年前,我们主要在进行数据平台的搭建,关键领域能力的建设。
产品经理自我修养
·
2023-08-08 19:09
大数据
人工智能
数据库
离线
数仓
之Kerberos基本使用及问题记录
离线
数仓
之Kerberos基本使用及问题记录文章目录离线
数仓
之Kerberos基本使用及问题记录0.写在前面1.Kerberos基本使用0.启动Kerberos相关服务1.安全模式下启动Hadoop集群
WHYBIGDATA
·
2023-08-08 13:54
大数据项目
大数据
数据仓库
hadoop
hive
数仓
建模—ID Mapping
数据仓库系列文章(持续更新)
数仓
架构发展史
数仓
建模方法论
数仓
建模分层理论
数仓
建模—宽表的设计
数仓
建模—指标体系数据仓库之拉链表
数仓
—数据集成
数仓
—数据
大数据技术派
·
2023-08-08 12:26
怎么快速搭建BI?奥威BI系统做出了表率
搭建BI系统有两大关键,分别是环境搭建和
数仓
建设。这两点不管是哪一个都相当地费时费力,那要怎么才能快速搭建BI平台,顺利实现全企业数字化运营决策?奥威BI系统+方案,你值得拥有!
qq_43696218
·
2023-08-08 07:32
信息可视化
京东实时数据产品应用实践
.流批一体化产品体系4.产品运营:实时数据链路三道防线01京东实时产品概况1.实时数据产品支撑业务场景京东实时产品的应用涵盖集团范围内的各个体系,包括零售、物流、健康等都有实时数据的应用场景,例如实时
数仓
学而知之@
·
2023-08-07 02:30
产品运营
低代码
唯品会亿级数据服务平台落地实践
作为
数仓
对接上层应用的统一出入口,数据服务将
数仓
当作一个统一的DB来访问,提供统一的API接口控制数据的流入及流出,能够满足用户对不同类型数据的访问需求。
qianshanding0708
·
2023-08-07 02:59
大数据
分布式
数据库
python
java
大数据常见应用场景及架构改进
它和传统的
数仓
不太一样。因为传统
数仓
它只能解决中小规模的数据存储与分析问题。大数据这一块要能承接海量的数据。我们来看一下它们的基本架
桥路丶
·
2023-08-07 02:29
大数据入门
大数据
架构
数据仓库
Doris Sequence 列
ApacheDoris在约苗数据平台的实时
数仓
建设实践dorissequence列sequence列目前只支持Uniq模型。
胖胖胖胖胖虎
·
2023-08-06 11:05
doris
doris
数据仓库分层设计
美团配送数据治理实践美团配送数据治理实践-美团技术团队数据仓库分层没有绝对的规范,适合的就是最好的,特别是企业已经有一个初版的
数仓
的时候,需要做好改造成本和可理解性之间的平衡。
javastart
·
2023-08-05 15:06
数据仓库
数据仓库
数据挖掘
数据库
【hive经典指标,离线
数仓
指标,ADS层指标分析】最近7日内连续3日下单用户数
1.建表语句DROPTABLEIFEXISTSads_order_continuously_user_count;CREATEEXTERNALTABLEads_order_continuously_user_count(`dt`STRINGCOMMENT'统计日期',`recent_days`BIGINTCOMMENT'最近天数,7:最近7天',`order_continuously_user_c
青云游子
·
2023-08-05 05:03
离线数仓
hive
大数据
离线数仓
风很大的“云
数仓
”到底怎么用?三家企业交出答卷
为了解决上述问题,云原生
数仓
(以下简称云
数仓
)应运而生。与传统方案不同的是:云
数仓
借助于云平
字节数据平台
·
2023-08-04 22:23
数据库
云原生
关于数据仓库那些事 - 数据质量和
数仓
主题
数仓
主题是什么数据仓库主题是指透过“上帝视角”将企业不同业务流程信息进行汇总、分类然后对其进行分析利用的一个抽象化的概念。也是指企业中某一分析领域具体的分析对象,这样一来,每
派可数据BI可视化
·
2023-08-04 17:16
数据可视化
商业智能
数据仓库
数据仓库
数据挖掘
商业智能BI
信息可视化
数据分析
大数据开发:数据仓库建模方法与模型
数仓
建模方法数据仓库中几种经典的数据模型,包括关系建模、维度建模、DataVault模型。在实际工作中,通常会根据业务场景选择一种或几种模型。1、关系建模关系建模,是数据仓库之父In
成都加米谷大数据
·
2023-08-04 13:24
基于 Flink & Paimon 实现 Streaming Warehouse 数据一致性管理
本篇内容主要分为四个部分:背景方案设计当前进展未来规划点击查看原文视频&演讲PPT一、背景早期的
数仓
生产体系主要以离线
数仓
为主,业务按照自己的业务需求将
数仓
分为不同的层次,例如DWD、DWS、ADS等。
Apache Flink
·
2023-08-04 11:03
flink
大数据
实时
数仓
分层介绍
ODS:原始数据,日志和业务数据。可通过Kafka进行收集。DWD:根据数据对象为单位进行分流,比如订单、页面访问等等。可存储在Kafka中。DIM:维度数据。可存储在HBase中。DWM:对于部分数据对象进行进一步加工,比如独立访问、跳出行为,也可以和维度进行关联,形成宽表,依旧是明细数据。DWS:根据某个主题将多个事实数据轻度聚合,形成主题宽表。可存储在Doris、ClickHouse、Ela
csdn-延
·
2023-08-03 20:21
大数据
flink
架构
kafka
big
data
分布式
数据仓库
x仔的北漂实习日记-day01-02
负责的主要是某公司的日志采集系统,我负责的就是离线日志的采集和分析(之前学的是
数仓
,现在这个还用不到
数仓
,有点小失望,后续慢慢在看),而且
kiritobryant
·
2023-08-03 14:09
北漂实习记录
实习随笔
数据资产治理:元数据采集那点事
在早期的采集系统,我们主要面向
数仓
,通过“API直连方式”采集Hive/Mysql表的元数据。随着业务的快速发展,数据运营、成本治理的需求越来越强烈。
傅一平
·
2023-08-03 11:11
大数据
分布式
编程语言
数据仓库
数据分析
离线
数仓
中,为什么用两个flume,一个kafka
实时
数仓
中,为什么没有零点漂移问题?因为flink直接取的事件时间用kafka是为了速度快,并且数据不丢,那为什么既用了kafkachannel,也用了kafka,而不只用kafkachannel呢?
青云游子
·
2023-08-02 17:04
kafka
flume
kafka
大数据
湖仓一体概念快问快答
“湖仓一体”是一种新的架构模式,湖仓一体是将数据湖的灵活性和
数仓
的易用性、规范性、高性能结合起来的融合架构,无数据孤岛。
偶数科技
·
2023-08-02 16:17
大数据
拓数派入选中国信通院“铸基计划”「高质量数字化转型产品及服务全景图」...
拓数派凭借在数据计算领域的卓越表现以及突破性技术创新,旗下首款数据计算引擎PieCloudDB虚拟
数仓
成功入选中国信通院“铸基计划”「高质量数字
OpenPie|拓数派
·
2023-08-02 15:53
人工智能
大数据
拓数派入选中国信通院 “铸基计划”「高质量数字化转型产品及服务全景图」
拓数派凭借在数据计算领域的卓越表现以及突破性技术创新,旗下首款数据计算引擎PieCloudDB虚拟
数仓
成功入选中国信通院“铸基计划”「高质量数字
OpenPie|拓数派
·
2023-08-02 15:23
OpenPie|拓数派
大数据
数据库
云原生
快速开始 PieCloudDB Database:管控平台权限系统
2.账户实体PieCloudDB以账户实体的形式是账户在
数仓
实例中具象体现,每一个PieCloudDB账户都拥有四类账户实体,如下图所示。其中:用户实体代表该账户下所有附
OpenPie|拓数派
·
2023-08-02 15:22
数据库
云原生
数仓
虚拟化技术:PieCloudDB 通过中国信通院 2023 「可信数据库」性能评测的强力支撑...
“可信数据库”是国内首个数据库的评测体系,被业界广泛认可为产品能力重要的衡量标准之一。PieCloudDB在该评测中展现出卓越的数据处理速度、稳定性和可扩展性,为用户提供了强大的数据分析和查询能力。6月15~16日,中国信通院2023上半年“可信数据库”评测专家评审会圆满结束,经过现场测试、产品资料审核、测试报告审核、质询与答疑、集中评议等多个评审环节,共计28家企业的33款产品通过本次评审。拓数
OpenPie|拓数派
·
2023-08-02 15:22
数据库
拓数派,虚拟
数仓
通过信通院可信数据库评测第一家
中国信通院正式公布了第16批可信数据库测评的结果,拓数派旗下数据计算系统的首款计算引擎PieCloudDB虚拟
数仓
,在IO密集型任务、CPU密集型任务、报表任务、分析型任务、交互式查询、混合
OpenPie|拓数派
·
2023-08-02 15:52
OpenPie|拓数派
数据库
大数据
云计算
云原生
【PostgreSQL 数据库技术峰会(成都站)】云原生虚拟
数仓
PieCloudDB Database 的架构和关键模块实现...
2023年6月17日,中国开源软件推进联盟PostgreSQL分会在成都举办了数据库技术峰会。此次峰会以“新机遇、新态势、新发展”为主题,结合当下信创热潮、人工智能等产业变革背景,探讨PostgreSQL数据库在这些新机遇下的发展前景。峰会邀请众多行业大咖、学术精英、技术专家、技术爱好者等参加本次盛会,分享PostgreSQL数据库未来的发展机遇、新技术和新方向,推动PostgreSQL在中国的发
OpenPie|拓数派
·
2023-08-02 15:52
数据库
postgresql
云原生
架构
云时代已至,新一代数据分析平台是如何实现的?
PieCloudDB产品总监陈金豹也受邀在大会中发表演讲《云原生虚拟
数仓
OpenPie|拓数派
·
2023-08-02 15:21
PieCloudDB
Database
拓数派
数据分析
数据挖掘
数据库
云原生
快速开始 PieCloudDB Database:PieProxy 外部接入工具演示
同一账户下的用户可通过处于开启状态的虚拟
数仓
,使用JDBC、ODBC或Postgre
OpenPie|拓数派
·
2023-08-02 15:21
数据库
云原生
拓数派受邀参加由 Google 举办的 “深度探索 LLM / Generative AI 的生态与应用” 主题活动
冯雷从虚拟
数仓
、多模数据和数据网络等几方面,分享了其本
OpenPie|拓数派
·
2023-08-02 15:51
OpenPie|拓数派
人工智能
机器学习
数据库
【PostgreSQL 数据库线下沙龙(武汉站)】PieCloudDB:云原生分布式虚拟
数仓
的诞生之旅...
2023年6月3日,开源软件联盟PostgreSQL中文社区在武汉举办了技术沙龙活动。本次活动主题围绕未来数据库展开讨论和分享。通过探讨未来数据库的概念和特点,为智能化时代的发展提供更多的支持和服务。同时,通过探讨数据库和AI技术的共生共荣,推动数字经济的发展和创新,开创未来数据库的新篇章。拓数派作为PostgreSQL伙伴社区,也受邀参加本次活动。拓数派(OpenPie)CTO郭罡在活动中发表了
OpenPie|拓数派
·
2023-08-02 15:51
数据库
云原生
分布式
PieCloudDB Database:云原生分布式虚拟
数仓
的诞生之旅
杭州拓数派科技发展有限公司(OpenPie)的旗舰产品PieCloudDBDatabase是一款云原生分布式虚拟
数仓
。PieCloudDB通过多种创新性技术将物理
数仓
整合到云原生数据计算平台。
OpenPie|拓数派
·
2023-08-02 15:21
PieCloudDB
Database
拓数派
数据库
云原生
分布式
云上 Index:看「简墨」如何为云原生打造全新索引
拓数派首款数据计算引擎PieCloudDB是一款全新的云原生虚拟
数仓
。
OpenPie|拓数派
·
2023-08-02 15:20
PieCloudDB
Database
拓数派
云原生
数据库
pyspark_自定义udf_解析json列【附代码】
自定义函数实现大数据并行计算整体流程案例代码运行结果:案例代码:代码地址:代码一、背景:车联网数据有很多车的时序数据,现有一套云端算法需要对每一辆车历史数据进行计算得到结果,每日将全部车算一遍存到hive
数仓
中二
SeafyLiang
·
2023-08-02 15:46
大数据
数据挖掘
Python自学
大数据
python
数据挖掘
即席查询-Kylin
我们在日常的
数仓
建模中,通常都会生成很多指标供用户决策,这些指标通常都是确定的、指标算法相对稳定、指标需要长期使用。但是通常用户还需要满足他的一些突发奇
小王是个弟弟
·
2023-08-02 10:09
kylin
big
data
数据仓库
Databend 开源周报第 104 期
Databend是一款现代云
数仓
。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn。
Databend
·
2023-08-02 07:55
科技
多事务事实表实践
一:企业级
数仓
多事务事实表的重要性整个企业级的数据仓库,从表的性质来分,有维度表和事实表,事务表又分为多事务事实表,累积快照事实表,周期型快照表,这些不同种类的事实表,其实在
数仓
里面都扮演者不同的角色。
愤怒的谜团
·
2023-08-01 13:10
当 Spark 任务出现数据倾斜的问题时该如何处理呢?
前言最近一位
数仓
同学问我,当Spark任务出现数据倾斜的问题时该如何处理呢?那么今天就来讲一下遇到了数据倾斜问题时处理的方式方法。
笑看风云路
·
2023-07-31 15:10
hive
hive
Spark
数据倾斜
「Hive进阶篇」详解存储格式及压缩方式
一、前言hive优化除了有hql语句逻辑优化,hql参数调优等等,还有一个不起眼的细节容易被忽视掉,那便是hive
数仓
模型表的存储格式和压缩方式,hive底层数据是依托在hadoop,以HDFS文件存储在集群上的
大数据阶梯之路
·
2023-07-31 00:38
数仓
建模—宽表的设计
宽表的设计其实宽表是
数仓
里面非常重要的一块,前面我们介绍过了维度表事实表,今天我们介绍一下宽表,前面我们说过了
数仓
是分层的,这是技术进步和时代变化相结合的产物,
数仓
的分层式为了更好地管理
数仓
以及更加高效地进行数据开发
大数据技术派
·
2023-07-30 10:48
数据仓库理论
一、
数仓
简介1、历史演进1)数据仓库最早可以追溯到20世纪70年代,希望将业务处理系统和分析处理系统分成不同的层次;2)1991年BillInmon在《BuildingtheDataWarehouse》
莫待花无空折枝
·
2023-07-29 14:55
大数据
spark
分布式
大数据-
数仓
-数据采集-业务数据(二):全量同步采集【MySQL<-->DataX(全量)<-->HDFS】【每日全量:每天都将业务数据库中全部数据同步到数据仓库,是保证两侧数据同步的最简单方式】
DataX源码地址:GitHub-alibaba/DataX:DataX是阿里云DataWorks数据集成的开源版本。一、第1章DataX介绍1.1DataX概述1.介绍:DataX是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(Mysql、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。2.特点:①DataX侧
u013250861
·
2023-07-29 08:12
#
数据库
大数据
数据仓库
关于数据中台的思考与总结
关于数据中台的思考与总结目录关于数据中台的思考与总结数据中台数据汇聚数据开发智能运维数据体系数据资产管理数据服务体系离线平台苏宁实时平台美团点评bilibili网易离线
数仓
与实时
数仓
从0建设离线
数仓
区别数据中台解决方案零售行业原文地址
akenseren
·
2023-07-28 21:50
大数据
flink
kafka
hadoop
数据隔离与
数仓
分层(大数据)
二、数据隔离方法三、
数仓
分层
数仓
分层通过数据分层管控数据质量,需要对数据清洗等操作,不必改一次业务就需要重新接入数据,每一层数据都是单独的作用,同时规范数据分层,减少业务开发、直接抽取数据。
你的负卿是我
·
2023-07-28 20:49
产品PM
大数据
架构
网络
服务器
运维
数仓
搭建第三步——建立规范
建立相关规范包括但不限于表名字段、sql、安全、测试、报警、依赖、建模等规范1
数仓
表概览管理2
数仓
表明细信息管理3
数仓
表依赖关系管理4指标字典管理5表名:ods:ods_原始表名_更新频率增量/全量_是否分区例
数据咩
·
2023-07-28 18:17
大数据之路
数据库
sql
数据仓库
数仓
搭建第四步——主题域划分
那么
数仓
的主题也是这个意思,用来概括公司某一类业务或者是某一种渠道等。为什么要给
数仓
划分主题呢,这要从
数仓
的整体架构和方法论去谈。人们做一件事一段时间后都会针对某一类事情进行总结。
数据咩
·
2023-07-28 18:46
大数据之路
大数据
数据仓库
数据库
数仓
搭建第二步——根据第一步招揽相关人员
这一步对数据团队来说很关键,数据团队的领导者往往由企业的研发总监或者老板直接招揽,但往往有可能招聘者不懂数据,或者还不清楚自己要什么。所以第一步很重要,在明确自己的目的后,再去招揽人才。数据团队的领导者一般需要具备的条件:1.了解相关业务,知道公司主营业务的营销模式和业务形态2.熟悉现有数据技术和相关开发语言3.具有很好的协调沟通能力4.对数据架构,建模,清洗,治理,落地等步骤都有所了解和实践5.
数据咩
·
2023-07-28 18:16
大数据之路
大数据
数据仓库
大数据处理架构详解:Lambda架构、Kappa架构、流批一体、Dataflow模型、实时
数仓
前言本文隶属于专栏《大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见大数据理论体系姊妹篇《分布式数据模型详解:OldSQL=>NoSQL=>NewSQL》《分布式计算模型详解:MapReduce、数据流、P2P、RPC、Agent》《大数据存储架构详解:数据仓库、数据集市、数据湖、数据网格、湖仓一体》《大数据处理架构详解:La
Shockang
·
2023-07-28 15:34
大数据理论体系
架构
大数据
数据仓库
clickhouse分布式查询降级为本地查询
在基于clickhouse做类
数仓
建模时通常的做法是在本地创建物化视图,然后使用分布式表做代理对外提供服务。
小王是个弟弟
·
2023-07-28 06:47
clickhouse
分布式
2019-10-12
全市场及40支主要指数估值发布(20191011)10月11日,全市场估值水平:正常指数估值表如下:使用说明:1.参考A股全市场估值,控制A股整体仓位,参考指数估值调整指
数仓
位。
不在此山中白话投资
·
2023-07-28 00:58
数仓
学习---14、大数据技术之DolphinScheduler
星光下的赶路人star的个人主页 生命并没有地图,只有你内心的指南针文章目录1、DolphinScheduler简介1.1DolphinScheduler概述1.2DolphinScheduler核心架构2、DolphinScheduler部署说明2.1软硬件环境要求2.1.1操作系统版本要求2.1.2服务器硬件
星光下的赶路人star
·
2023-07-27 19:03
数仓学习
学习
大数据
数据仓库
数仓
学习---16、可视化报表(Superset)
星光下的赶路人star的个人主页 真正的才智是刚毅的志向文章目录1、Superset入门1.1Superset概述1.2环境说明2、Superset安装2.1安装Python环境2.1.1安装Miniconda2.1.2创建Python3.7环境2.2Superset部署2.2.1安装依赖2.2.2安装Super
星光下的赶路人star
·
2023-07-27 19:30
数仓学习
学习
数据可视化
数据仓库
大数据
上一页
18
19
20
21
22
23
24
25
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他