E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓(
揭秘新一代云
数仓
技术架构与最佳实践
从传统
数仓
到湖仓一体,历经三十多年发展,技术的浪潮快速迭代,以云原生
数仓
为中心的现代数据栈时代已然到来。
字节数据平台
·
2023-06-09 21:28
大数据
数据库
人工智能
云原生
FlinkSql中的join查询
InnerJoin的用法SELECT*FROMOrdersINNERJOINProductONOrders.productId=Product.id优点:使用简单和离线
数仓
一样缺点:因为历史数据默认不会被清理
大大大大肉包
·
2023-06-09 20:22
flink
hive
flink
大数据之
数仓
基石Hive3.1.2实战
大数据
数仓
基石-HiveHive3.1全解析===楼兰===文章目录一、关于Hive1、Hive是什么2、Hive的适用场景3、Hive的整体架构4、为什么要用Hive而不用关系型数据库?
roykingw
·
2023-06-09 19:30
大数据相关
大数据
数据仓库
java
hive
Clickhouse系列之整合Hive
数仓
前言什么是Hive?ApacheHive数据仓库软件便于使用SQL读取、写入和管理驻留在分布式存储中的大型数据集。结构可以投射到已存储的数据上。提供了一个命令行工具和JDBC驱动程序,用于将用户连接到Hive。Hive引擎允许您对HDFS配置单元表执行SELECT查询。目前支持如下输入格式:文本:仅支持简单标量列类型,二进制除外;ORC:支持除char以外的简单标量列类型;仅支持数组等复杂类型;p
小二上酒8
·
2023-06-09 19:22
hive
clickhouse
数据库
中间件
开发语言
clickhouse 21.x生产实践优化
1时间字段类型建表时能用数值型或日期时间型表示的字段就不要用字符串,全String类型在以Hive(hbase)为中心的
数仓
建设中常见,但ClickHouse环境不应受此影响。
架构师老狼
·
2023-06-09 15:15
OLAP
架构设计
clickhouse
OLAP
新手必看|StarRocks 入门教程来啦
StarRocks高可用、高可靠、易运维等特性使其广泛应用于实时
数仓
、OLAP报表、数据湖分析等场景并获得了各行业领军企业的青睐。
StarRocks_labs
·
2023-06-09 13:41
大数据
数据库
【大数据之路5-3】离线数据仓库(Hive 搭建)
离线数据仓库(Hive搭建)1.数据仓库概述1.数据仓库概念2.两种
数仓
构建理念1.BillInmon
数仓
2.RalphKimball
数仓
3.CIF架构、Inmon与Kimball建模总结1.CIF架构
程序员胖五
·
2023-06-09 11:32
数据仓库
大数据
hive
离线数仓
分层建设
万字长文|一文了解基于Flink构建流批一体
数仓
的技术点
基于Flink构建流批一体的实时
数仓
是目前数据仓库领域比较火的实践方案。随着Flink的不断迭代,其提供的一系列技术特性使得用户构建流批一体的应用变得越来越方便。
zhisheng_blog
·
2023-06-09 10:46
大数据
数据库
mysql
java
entity
基于CDH环境下的Hive
数仓
配置及优化
文章目录YARN的基础配置NodeManagerCPU配置NodeManager内存配置NodeManager本地目录MapReduce内存配置HDFS副本数配置Hive配置及优化HiveServer2的Java堆栈Hive动态生成分区的线程数Hive监听输入文件线程数压缩配置Map输出压缩Reduce结果压缩Hive多个Map-Reduce中间数据压缩Hive最终结果压缩YARN的基础配置Nod
蜜桃上的小叮当
·
2023-06-09 10:15
Hadoop
hive
linux
hadoop
百度用户产品流批一体的实时
数仓
实践
作者|郑德来导读:本文主要介绍如何基于流批一体的技术架构构建实时
数仓
,在严格的资源成本限制下,满足业务对于数据时效性、准确性的需求。
百度Geek说
·
2023-06-09 10:09
数据仓库
大数据
数据挖掘
应用实践 |
数仓
体系效率全面提升!同程数科基于 Apache Doris 的数据仓库建设
2020年,同程数科基于ApacheDoris丰富的数据接入方式、优异的并行运算能力、极简运维等特性,引入ApacheDoris进行
数仓
架构2.0的搭建。
hf200012
·
2023-06-09 10:38
Doris
大数据
数智学习 | 流批一体实时
数仓
建设路径探索
本期专栏由数澜科技研发专家六木带来,探索流批一体实时
数仓
建设路径。
数澜科技Dtwave
·
2023-06-09 10:06
实时数仓
流批一体
数据中台
打破数据孤岛,Apache Doris 助力纵腾集团快速构建流批一体
数仓
架构|最佳实践
福建纵腾网络有限公司(简称“纵腾集团”)成立于2009年,以“全球跨境电商基础设施服务商”为企业定位,聚焦跨境仓储与物流,为全球跨境电商商户、出口贸易企业、出海品牌商提供海外仓储、商业专线物流、定制化物流等一体化物流解决方案,旗下拥有谷仓海外仓、云途物流、WORLDTECH等知名品牌。作者|纵腾集团数据技术架构师张彬华随着纵腾集团业务的快速发展,各产品线提出的数据需求越发严格,而早期基于多套CDH
hf200012
·
2023-06-09 10:04
Doris
大数据
字节跳动流式
数仓
和实时服务分析的思考与实践
本文整理自火山引擎云原生实时
数仓
技术专家汪建锋在DataFun现代数据栈在线峰会上的演讲,主要介绍字节跳动流式
数仓
和实时服务分析的思考与实践。
字节跳动云原生计算
·
2023-06-09 07:22
云原生计算
云原生
大数据
数仓
用户行为数据分析
分层优点:复杂的东西可以简单化、解耦(屏蔽层作用)、提高复用、方便管理SA贴源数据组织结构与源系统保持一致shm历史层针对不同特征的数据做不同算法,目的都是为了得到一份完整的数据PDM明细层做最细粒度的数据明细,最高扩展性和灵活性,企业级的数据标准,源系统之间的打通BDM业务层针对集市经常放在一起用到的数据做提前预处理,做维度的横向拆合,来源的纵向拆合,形成业务大宽表基础层针对集市主题做定制化整合
February13
·
2023-06-09 02:49
数据分析
数据挖掘
盘点数据仓库建设需要知道的那些事
文章目录建设规范为何要有规范规范如何落地有哪些规范
数仓
分层分层原则常见分层主题域划分原则数据模型设计原则数据类型规范**数据冗余规范**表规范处理规范命名规范生命周期管理指标管理指标定义指标构成指标分类命名规范建设规范为何要有规范无规矩不成方圆
IT小神
·
2023-06-09 00:48
数据仓库
数据仓库
数据库
数仓
和数据湖的区别
1、数据仓库是存储结构化的数据,而数据湖是什么数据都能存(非结构化的数据也能存)。结构化数据可以理解为我们的二维表、JSON数据,非结构化的数据可以理解为图像文件之类的。数据仓库在写入的时候,就要定义好schema了,而数据湖在写入的时候不需要定schema,可以等用到的时候再查出来。强调这点,说明数据湖对数据的schema约束更加灵活。2、数据仓库和数据湖并不是替代关系。数据是先进数据湖,将数据
Six_Hundred_Miles
·
2023-06-08 22:32
数据仓库
大数据
hadoop
hbase
小米基于 Flink 的实时
数仓
建设实践
本篇内容主要分为四个部分:小米
数仓
架构演变Flink+Iceberg架构升级实践流批一体实时
数仓
探索未来展望点击查看原文视频&演讲PPT一、小米
数仓
架构演变1.1
数仓
架构现状在介绍演变前,我们先来了解下小米当前的技术现状
·
2023-06-08 20:58
后端flink大数据实时计算
揭秘新一代云
数仓
技术架构与最佳实践
从传统
数仓
到湖仓一体,历经三十多年发展,技术的浪潮快速迭代,以云原生
数仓
为中心的现代数据栈时代已然到来。
·
2023-06-08 19:19
云原生大数据数据仓库
数据仓库、数据湖、湖仓一体,有什么区别?
一、基本概念1.1
数仓
发展历史数据湖是以集中方式存储各种类型数据,提供弹性的容量和吞吐能力,能够覆盖广泛的数据源,支持多种计算与处理分析引擎直接对数据进行访问的统一存储平台。
jane9872
·
2023-06-08 15:22
数据仓库
揭秘阿里云Flink智能诊断利器——Fllink Job Advisor
丰富而复杂的上下游系统让它能够支撑实时
数仓
、实时风控、实时机器学习等多样化的应用场景。
·
2023-06-08 15:43
大数据运维flink
探究核心技术&最佳实践,云原生OLAP论坛火热开启!
2023/06/11,09:00-12:30,在DataFunSummit2023:OLAP引擎架构峰会上,由阿里云资深技术专家,实时
数仓
Hologres研发负责人姜伟华老师出品的云原生OLAP论坛讲邀请来自阿里云
·
2023-06-08 11:25
云原生大数据
开源云原生
数仓
引擎ByConity 存储计算分离架构和优势
供稿|ByConity技术团队出品|CSDN云计算ByConity是一款字节跳动开源的云原生
数仓
引擎。它的一个重要优势是采用存储计算分离的架构,实现了读写分离和弹性扩缩容。
CSDN云计算
·
2023-06-08 01:51
大数据
开源
数据库
大数据
ByConity
数据仓库
字节跳动
7月23日随笔
增加小市值消费股,增加宽基指数持仓比例,降低行业指
数仓
位。这是大的原则。你的预期是进入恢复期,股市会上涨,所以增加进攻型持仓,减少防守性持仓。
岳海峰
·
2023-06-07 17:53
数仓
建模方法论
1.
数仓
建模的理由数据建模的主要目的是降低成本,提高数据的利用效率。尤其是大数据时代的到来,数据的多样化,巨量,更需要有效的有针对性数据建模方法。
产品经理自我修养
·
2023-06-07 15:37
数据仓库
数据库
数据挖掘
数仓
指标体系实践
指标体系1.痛点分析主要从业务、技术、产品三个视角来看:业务视角业务分析场景指标、维度不明确;频繁的需求变更和反复迭代,数据报表臃肿,数据参差不齐;用户分析具体业务问题找数据、核对确认数据成本较高。技术视角指标定义,指标命名混乱,指标不唯一,指标维护口径不一致;指标生产,重复建设;数据汇算成本较高;指标消费,数据出口不统一,重复输出,输出口径不一致;产品视角缺乏系统产品化支持从生产到消费数据流没有
产品经理自我修养
·
2023-06-07 15:37
大数据
人工智能
Flink SQL 的数据脱敏解决方案
此方案是实时领域Flink的解决思路,类似于离线
数仓
Hive中RangerColumnMasking方案。
·
2023-06-07 14:55
后端flink大数据实时计算
基于Canal与Flink实现数据实时增量同步(二)
本文主要从Binlog实时采集和离线处理Binlog还原业务数据两个方面,来介绍如何实现DB数据准确、高效地进入Hive
数仓
。
大数据技术与数仓
·
2023-06-07 13:34
HiveException java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.S
showdatabases时候报错:Unabletoinstantiateorg.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient在跟着尚硅谷
数仓
宁然也
·
2023-06-07 10:08
hive
Flink CEP 在抖音电商的业务实践|电商行业实践专栏上线
精彩抢先看随着抖音电商业务逐渐趋于稳定和成熟,抖音电商实时
数仓
团队接到的实时数据规则类业务需求也逐步增多,
·
2023-06-07 04:08
flink大数据实时计算
得物数据研发优化策略
随着业务的快速发展以及业务复杂度的不断提高,数据量的不断增长,尤其得物这种业务的高速增长,必然带来数据逻辑复杂度的提升,数据量越大,复杂度越高,对任务的性能的要求就越高,因此,任务性能的优化就成了大家必然的话题,在离线
数仓
招聘中
·
2023-06-07 03:05
数据
数仓
项目框架
离线数据源分为用户行为数据和业务数据,行为数据主要通过前端埋点如神策等产品进行数据收集,业务数据主要从业务系统数据库导入。业务数据主要从各个源系统数据库通过数据总线INFA做个数据集成,再通过sqoop、flume、或文本入仓,放在HDFS上存储,在存储层之上,使用hive数据仓库工具去映射并关联文件与表等元数据信息,在hive基础上可以灵活使用各种计算引擎,如MR,TEZ,SPARK,还可以在数
February13
·
2023-06-07 01:35
大数据
数仓
建模—ID Mapping
数据仓库系列文章(持续更新)
数仓
架构发展史
数仓
建模方法论
数仓
建模分层理论
数仓
建模—宽表的设计
数仓
建模—指标体系数据仓库之拉链表
数仓
—数据集成
数仓
—数据
大数据技术派
·
2023-06-07 00:14
#
数据仓库
数据仓库
java
编程语言
大数据
袋鼠云数据中台专栏(一) :浅析数据中台策略与建设实践
数据中台和传统
数仓
还有数据中心有什么区别?这几乎是笔者最近被别人问到的最多的问题。之所以有这些疑问,其一是不懂的同学真心想了解,其二是懂的同学对我们的
秉寒-CHO
·
2023-06-06 23:26
DW
数栈数据中台专栏(一) :浅析数据中台策略与建设实践
数据中台和传统
数仓
还有数据中心有什么区别?这几乎是笔者最近被别人问到的最多的问题。之所以有这些疑问,其一是不懂的同学真
袋鼠云数栈
·
2023-06-06 23:55
hadoop
spark
flink
kafka
数据仓库理论
数据仓库理论基础理论数据仓库主要特征面相主题集成性非易失性、非易变性时变性OLTP、OLAPOLTPOLAP对比数据库与数据仓库的区别数据仓库、数据集市数据仓库分层架构分层思想和标准阿里巴巴
数仓
三层架构
不知落叶何时落
·
2023-06-06 22:16
大数据
hive
数据仓库
数据挖掘
数据库
Flink SQL 的数据脱敏解决方案
此方案是实时领域Flink的解决思路,类似于离线
数仓
Hive中RangerColumnMasking方案。
·
2023-06-06 21:55
亿级数据毫秒级响应?
由于我们组主要做
数仓
管理这块的业务,这次的性能测试上有一些数据服务并发相关的指标需要后端配合测试,让一天搞定,我寻思半天搞完还能
·
2023-06-06 21:03
数据仓库与数据建模理论
数据仓库的特性:面向主题按主题分类集成将分散在各个数据库的数据集中到一起稳定非实时,一般只做查询变化记录历史,反映最近一段时间的变化
数仓
分层的意义之一是1.问题定位简化,每层只处理一个简单的问题;2.中间结果数据
February13
·
2023-04-21 21:45
模型
我们为什么需要数据血缘
3、什么表该删,什么表不能删,下架无依据业务库,
数仓
库,中间库,开发库,测试库等众多库表,是否存在数据冗
jane9872
·
2023-04-21 16:52
大数据
云上数据变革:Databend Cloud 正式发布
DatabendCloud借助于云原生
数仓
Databend实现了云简单易用的大数据分析场景。
Databend
·
2023-04-21 16:21
产品运营
数据治理实践 | 网易某业务线的计算资源治理
笔者作为
数仓
开发经常会收到大量集群资源满载、任务产出延时等消息/邮件,甚至下游数分及其他同学也会询问任务运行慢的情况,在这里很多
数仓
同学遇
wangyishufan
·
2023-04-21 14:05
大数据
大数据
开发语言
数据分析
数据库
解锁云原生虚拟
数仓
PieCloudDB Database 『第一期』
拓数派旗下旗舰产品PieCloudDB,采用领先的
数仓
虚拟化技术,为企业构建高安全,高可靠,高在线「坚如磐石」的云原生虚拟
数仓
。
·
2023-04-21 14:47
云原生数据库
文盘Rust -- rust 连接云上
数仓
starwift
作者:京东云贾世闻最近想看看rust如何集成clickhouse,又犯了好吃懒做的心理(不想自己建环境),刚好京东云发布了兼容ck的云原生
数仓
Starwfit,于是搞了个实例折腾一番。
·
2023-04-21 10:50
大数据项目实战之数据仓库:电商数据仓库系统——第8章
数仓
开发之DIM层
文章目录第8章
数仓
开发之DIM层8.1商品维度表8.2优惠券维度表8.3活动维度表8.4地区维度表8.5日期维度表8.6用户维度表8.7数据装载脚本8.7.1首日装载脚本8.7.2每日装载脚本第8章
数仓
开发之
yiluohan0307
·
2023-04-21 07:42
大数据项目实战之数据仓库
数据仓库
大数据
数据库
赋能直播行业精细化运营,斗鱼基于 Apache Doris 的应用实践
为更好满足业务需求,斗鱼在2022年引入了ApacheDoris构建了一套比较相对完整的实时
数仓
架构,并在该基础上成功构建了标签平台以及多维分析平台,在此期间积累了一些建设及实践经验通
SelectDB技术团队
·
2023-04-20 20:05
大数据
数据库
doris
用户运营
数据仓库
Apache Doris 在美联物业的数据仓库应用实践,助力传统行业数字化革新
本文主要介绍美联物业基于ApacheDoris在数据体系方面的建设,以及对数据仓库搭建经验进行的分享和介绍,旨在为数据量不大的传统企业提供一些
数仓
思路,实现数据驱动业务,低成本、高效的进行
数仓
改造。
SelectDB技术团队
·
2023-04-20 20:34
数据仓库
大数据
doris
开源软件
big
data
浅谈
数仓
建设之 数据同步(离线)及 sqoop、flume、dataX 原理简介
简介在
数仓
建设中,数据同步是最基础的一步,也是ods层数据的来源。数据同步简而言之,就是把业务库中的需要分析的数据表(或文件)同步到
数仓
中(hdfs)。
大壮001
·
2023-04-20 20:50
大数据
sqoop
flume
hadoop
数据仓库
大数据
数据湖学习笔记No.02(湖仓一体)
数仓
一体什么是数据仓库框架如图所示:为了统计结果,比如最终在数据集市层获得一个销量的指标Lambda架构到Kappa架构Lambda(两套代码两套数据)->Kappa在Lambda的基础上进行了优化,删除了
SEUsmith
·
2023-04-20 20:36
大数据学习
学习
数据仓库
数据库
Canal+Camus快速采集MySQL Binlog到数据仓库
这种方法门槛低,容易操作,在
数仓
建设阶段能够快速启动。但是随着时间的推移,它暴露出了一些缺点:从MySQL获取数据只能靠select
LittleMagic
·
2023-04-20 16:08
上一页
24
25
26
27
28
29
30
31
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他