E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Doris数仓
微信基于StarRocks的湖仓一体实践
作者:StarRocksActiveContributer、微信OLAP内核研发工程师微信作为国内活跃用户最多的社交软件,其数据平台建设经历了从Hadoop到ClickHouse亚秒级实时
数仓
的阶段,但仍旧面临着数据体验割裂
StarRocks_labs
·
2024-01-04 20:38
后端
数据湖和传统
数仓
区别及湖仓一体
1.数据仓库早期系统采用关系型数据库来存放管理数据,但是随着大数据技术的兴起,人们对于多方面数据进行分析的需求愈加强烈,这就要求建立一个能够面向分析、集成保存大量历史数据的新型管理机制,这一机制就是数据仓库。数据仓库通常存储来自不同源的数据,集成源数据以提供统一的视图。这些资源可以包括事务系统、应用程序日志文件、关系数据库等等。数据仓库特性:面向主题:与传统数据库面向应用进行数据组织的特点相对应,
土豆马铃薯
·
2024-01-04 20:04
数据湖
大数据
spark
分布式
Doris
系列2-
Doris
编译和安装
一.编译前准备1.1环境准备主机配置:IP主机名部署10.31.1.119hp5FEFS_Broker10.31.1.120hp6BEFS_Broker10.31.1.121hp7BEFS_Broker,FEObserver10.31.1.122hp8BEFS_Broker硬件配置:每台主机:CPU4核、内存8G、硬盘150G软件版本:名称版本操作系统CentOSrelease7.8(Final)
只是甲
·
2024-01-04 19:09
流式湖仓增强,Hologres + Flink构建企业级实时
数仓
2023年12月,由阿里云主办的实时计算闭门会在北京举行,阿里云实时
数仓
Hologres研发负责人姜伟华现场分享Hologres+Flink构建的企业级实时
数仓
,实现全链路的数据实时计算、实时写入、实时更新
阿里云大数据AI技术
·
2024-01-04 16:07
flink
大数据
数仓
工作中的常见问题及解决方案
数据仓库系列文章
数仓
架构发展史
数仓
建模方法论
数仓
建模分层理论
数仓
建模—宽表的设计
数仓
建模—指标体系数据仓库之拉链表
数仓
—数据集成
数仓
—数据集市
数仓
—商业智能系统
数仓
—埋点设计与管理
数仓
—IDMapping
大数据技术派
·
2024-01-04 16:34
spark
大数据
分布式
实时
数仓
投放主备链路Diff测试工具落地实践
一、背景目前实时
数仓
提供的投放实时指标优先级别越来越重要,特别下游为规则引擎提供的
数仓
数据,直接对投放运营的广告投放产生直接影响,数据延迟或者异常均可能产生直接或者间接的资产损失;从投放管理平台的链路全景图投放全景图来看
得物技术
·
2024-01-04 08:02
得物技术
数据库
某人寿保险公司基础架构云化与小机
数仓
下移实践
随着数据中心IT基础架构的不断演进,云计算、大数据、移动互联的需求日益高涨,快速敏捷、易于维护以及扩展性,逐渐成为金融机构在升级数据中心时重点考虑的方面。某人寿保险公司(以下简称“客户”)过往采用传统三层架构,即IBMPower/x86+FCSAN+集中式存储的组合,在使用多年后面临设备老旧、灵活性与性能无法及时满足业务变化等问题。另外,传统架构也存在使用专用硬件及网络、存储控制器集中、架构及运维
志凌海纳SmartX
·
2024-01-04 03:09
超融合
云计算
数据库架构
Doris
数仓
使用规范(经验版)
第一部分:字符集规范【强制】数据库字符集指定utf-8,并且只支持utf-8。命令规范【建议】库名统一使用小写方式,中间用下划线(_)分割,长度62字节内【建议】表名称大小写敏感,统一使用小写方式,中间用下划线(_)分割,长度64字节内第二部分:建表规范【强制】确保每个tablet大小为1-3G之间。举例:假设表内单分区数据量在100G,按天分区,bucket数量100个。【强烈建议】不要使用Au
hf200012
·
2024-01-03 19:30
数据库
java
前端
Doris
大数据
电商
数仓
可视化1--数据导入
1、数据来源介绍以及数据文件下载1、业务数据业务数据往往产生于事务型过程处理,所以一般存储在关系型数据库中,如mysql、oracle业务数据源:用户基本信息、商品分类信息、商品信息、店铺信息、订单数据、订单支付信息、活动信息、物流信息等2、埋点数据埋点日志相对业务数据是用于数据分析、挖掘需求,一般以日志形式存储于日志文件中,随后通过采集落地分布式存储介质中如hdfs、hbase用户行为日志:用户
bigdata从入门到放弃
·
2024-01-03 18:53
数据仓库
linux
hadoop
大数据
java
数据仓库
我的大数据之路:2023年度总结
2023年度最值得骄傲的事从0到1搭建了离线
数仓
体系,针对Hadoop生态组件的原理和特性有了深入的理解。
话数Science
·
2024-01-03 18:07
大数据
面试
大数据
面试
spark
【大数据】
Doris
数仓
使用规范原则
第一部分:字符集规范【强制】数据库字符集指定utf-8,并且只支持utf-8。命令规范【建议】库名统一使用小写方式,中间用下划线(_)分割,长度62字节内【建议】表名称大小写敏感,统一使用小写方式,中间用下划线(_)分割,长度64字节内第二部分:建表规范【强制】确保每个tablet大小为1-3G之间。举例:假设表内单分区数据量在100G,按天分区,bucket数量100个。【强烈建议】不要使用Au
奔向理想的星辰大海
·
2024-01-03 16:48
大数据
云原生
技术研发
大数据
数据库
数字化转型必备:数睿通 2.0 数据中台升级详解
引言转眼又过了一个月的时间,数睿通2.0数据中台也迎来了本月的更新,本次更新主要包括:数据资产完善(资源评价)数据集市完善,打通审批流程修复数据生产由于DruidSQLUtils不支持
Doris
导致无法建表的问题优化贴源数据模块
小螺旋丸
·
2024-01-03 10:51
hadoop
git
数据仓库
大数据
数睿通2.0:高效的数据处理,主数据与数据表功能全面升级
引言八天很短,七天很长,数睿通2.0数据中台也随之迎来了新一轮的版本迭代,本次更新主要包括:主数据模型(可视化建模)主数据派发(支持派发主数据到下游数据表,rabbitMq,kafka,接口)数据表(
数仓
分层表信息展示
小螺旋丸
·
2024-01-03 10:51
大数据
数据库
大数据
数据中台
Flink实时电商
数仓
(十)
common模块回顾appBaseApp:作为其他子模块中使用Flink-StreamAPI的父类,实现了StreamAPI中的通用逻辑,在其他子模块中只需编写关于数据处理的核心逻辑。BaseSQLApp:作为其他子模块中使用Flink-SQLAPI的父类。在里面设置了使用SQLAPI的环境、并行度、检查点等固定逻辑。bean:存放其他子模块中使用到的javaBean对象,因为如果一直使用json
十七✧ᐦ̤
·
2024-01-03 09:50
flink
大数据
Hive自定义函数支持国密SM4解密
当前项目背景需要使用到国密SM4对加密后的数据进行解密,Hive是不支持的,尝试了华为DWS
数仓
,华为只支持在DWS中的SM4加密解密,不支持外部加密数据DWS解密新建Maven工程只需要将引用的第三方依赖打到
4935同学
·
2024-01-03 08:03
Hive
Java
hive
hadoop
数据仓库
计算机毕业设计吊打导师hadoop+spark+hive知识图谱医生推荐系统 医生数据分析可视化大屏 医生爬虫 医疗可视化 医生大数据 机器学习 大数据毕业设计
mapreduce对mysql中的医生数据进行数据分析,使用高德地图解析地理位置,并将结果转入.csv文件同时上传到hdfs文件系统;3.使用hive建库建表,导入.csv数据集;4.一半指标使用离线
数仓
计算机毕业设计大神
·
2024-01-03 07:53
数据仓库命名规范详解
一、
数仓
中为什么要在数据开发过程中强调遵守
数仓
开发命名规范呢?
孤城暮雨@
·
2024-01-03 04:17
数据仓库
hive
hadoop
数据库
sql
database
数据库架构
Azkaban+Spark资源调度
本文以利用Azkaban+Spark构建
数仓
的DWS层和ADS层为例!!!
孤城暮雨@
·
2024-01-03 04:46
spark
大数据
分布式
Spark内容分享(二十):网易基于 Kyuubi + Spark 内核优化以及实践
AQE–History2.AQE–Shuffle3.AQE-SmallReducePartition4.AQE–SkewedReducePartition5.AQE–OptimizePlanKyuubi+Spark
数仓
类任务优化实践
之乎者也·
·
2024-01-02 10:21
Spark
内容分享
大数据(Hadoop)内容分享
spark
大数据
分布式
最容易出错的 Hive Sql 详解
前言在进行
数仓
搭建和数据分析时最常用的就是sql,其语法简洁明了,易于理解,目前大数据领域的几大主流框架全部都支持sql语法,包括hive,spark,flink等,所以sql在大数据领域有着不可替代的作用
奔跑者-辉
·
2024-01-02 07:30
hive
hive
sql
大数据
Apache
Doris
(五十七):
Doris
- Runtime Filter
个人主页:IT贫道_大数据OLAP体系技术栈,ApacheDoris,Clickhouse技术-CSDN博客私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。博主个人B栈地址:豹哥教你大数据的个人空间-豹哥教你大数据个人主页-哔哩哔哩视频目录
IT贫道
·
2024-01-02 04:42
大数据OLAP体系技术栈
Apache
Doris
apache
php
开发语言
Flink的优势
主要应用场景包括实时
数仓
、实时大屏、实时推荐、实时报表、实时风控和实时监控,当然还有其他一些应用场景。总之,实时计算的业务需求,一般都会用Flink进行开发。
有味青年
·
2024-01-01 13:01
笔记
Apache
Doris
单节点(可多节点)Docker集群制作教程
集群制作Author:苏奕嘉脚本研发Author:种益调研测试Author:杨春东前言ApacheDoris是当下非常火热和流行的MPP架构OLAP数据库,很多同学想自学/测试
Doris
的使用和能力,但是又苦于没有环境或者畏惧冗长的编译
张家锋
·
2024-01-01 11:14
Impala导出csv文件
场景:当
数仓
环境为大数据集群(impala),临时从
数仓
取数导出为csv文件使用impala-shell命令把文件导出为本地csv文件--正常导出impala-shell-q"SELECT*FROMyour_table
n_avo7_i
·
2023-12-31 18:34
大数据
linux
sql
详解Lambda和Kappa架构的区别
二、架构详解1、随着大数据的发展,人们逐渐对系统的实时性提出了要求,为了计算一些实时指标,就在原来离线
数仓
的基础上增加了一个实时计
小枫@码
·
2023-12-31 18:55
架构师
架构
【Apache
Doris
】自定义函数之 JAVA UDF 详解
【ApacheDoris】自定义函数之JAVAUDF详解一、背景说明二、原理简介三、环境信息3.1硬件信息3.2软件信息四、IDE准备五、JAVAUDF开发流程5.1源码准备5.1.1pom.xml5.1.2JAVA代码5.2mvn打包5.2.1clean5.2.2package5.3函数使用5.3.1upload5.3.2使用六、注意事项七、总结一、背景说明UDF主要适用于,用户需要的分析能力D
乙真仙人
·
2023-12-31 17:51
Apache
Doris
大数据
大数据
java
大数据
Doris
(四十五):物化视图选择最优
文章目录物化视图选择最优物化视图选择最优下面详细解释一下第一步最优物化视图是被如何选择出来的。这里分为两个步骤:对候选集合进行一个过滤。只要是查询的结果能从物化视图数据计算(取部分行,部分列,或部分行列的聚合)出都可以留在候选集中,过滤完成后候选集合大小>=1。从候选集合中根据聚合程度,索引等条件选出一个最优的也就是查询花费最少物化视图。这里再举一个相对复杂的例子,来体现这个过程。
Lansonli
·
2023-12-31 14:18
大数据OLAP技术体系
大数据
Doris
go操作
doris
踩坑记录
go操作
doris
踩坑记录1.
doris
无法用deletefrom删除整个表数据2.
doris
本身事务只支持insert、rollback、commitError1105(HY000):TException
清盏涂墨衣
·
2023-12-31 10:56
golang
开发语言
后端
【遇见
Doris
】Apache
Doris
(incubating) 0.12.0版本预览
Doris
线下沙龙完美收官!本次沙龙邀请了来自百度、美团、京东的技术大牛带来实战分享。了解更多详情请关注
Doris
官方公众号,嘉宾分享回顾会陆续放出。
ApacheDoris
·
2023-12-31 03:15
运维
大数据
数据库
python
java
【遇见
Doris
】Apache
Doris
(incubating) 0.11.0新版本预览线下沙龙
此次
Doris
有幸得到中国信通院云大所、大数据技术标准推进委员会的支持,在中国信通院举行了0.11.0新版本预览线下沙龙。
ApacheDoris
·
2023-12-31 03:45
百度
大数据
python
java
编程语言
【遇见
Doris
】Apache
Doris
在京东广告平台的应用
6月29日,
Doris
有幸得到中国信通院云大所、大数据技术标准推进委员会的支持,在中国信通院举行了0.11.0新版本预览线下沙龙。各位嘉宾都带来了干货满满的分享。
ApacheDoris
·
2023-12-31 03:44
运维
大数据
数据库
java
python
【遇见
Doris
】Apache
Doris
Parquet文件读取的设计与实现
6月29日,
Doris
有幸得到中国信通院云大所、大数据技术标准推进委员会的支持,在中国信通院举行了0.11.0新版本预览线下沙龙。各位嘉宾都带来了干货满满的分享。
ApacheDoris
·
2023-12-31 03:44
数据库
python
mysql
java
大数据
Apache
Doris
在京东搜索实时OLAP中的应用实践
1、前言本文讨论了京东搜索在实时流量数据分析方面,利用ApacheFlink和ApacheDoris进行的探索和实践。流式计算在近些年的热度与日俱增,从GoogleDataflow论文的发表,到ApacheFlink计算引擎逐渐站到舞台中央,再到ApacheDruid等实时分析型数据库的广泛应用,流式计算引擎百花齐放。但不同的业务场景,面临着不同的问题,没有哪一种引擎是万能的。我们希望京东搜索业务
小晨说数据
·
2023-12-31 03:11
Doris专栏
数据库
大数据
人工智能
数据分析
java
推荐:一个不错的介绍Apache
Doris
的PPT
原来ApacheDoris居然是百度开源出来的,不错。部分节选:完整下载地址网盘:链接:https://pan.baidu.com/s/18WR70R_f72GxCjh0lykStQ提取码:umd3复制这段内容后打开百度网盘手机App,操作更方便哦--来自百度网盘超级会员v7的分享
jackyrongvip
·
2023-12-31 03:40
doris
实时
数仓
应用价值(下)
博客浅析研发支出费用化和资本化的区别-CSDN博客商业银行数据资产估值白皮书,推荐系统源码下载-CSDN博客用友BIP数据资产入表解决方案白皮书,推荐系统源码下载-CSDN博客六、具体五种方案的解析业界常见的实时
数仓
方案有这几种
Michael_Shentu
·
2023-12-31 00:46
大数据
数据库
人工智能
深度学习
Apache
Doris
(五十六):
Doris
Join类型 - 四种Join对比
博主个人B栈地址:豹哥教你大数据的个人空间-豹哥教你大数据个人主页-哔哩哔哩视频
Doris
支持两种物理算子,一类是HashJoin,另一类是NestLoopJoin。
IT贫道
·
2023-12-30 15:32
大数据OLAP体系技术栈
Apache
Doris
doris
Flink实时电商
数仓
(九)
用户注册汇总表需求分析统计各窗口的注册用户数,写入
Doris
思路分析读取kafka用户注册主题数据转换数据结构string->JSONObject->javaBean使用user_info表中的数据代表用户注册设置水位线开窗聚合写入
十七✧ᐦ̤
·
2023-12-30 11:16
flink
大数据
Flink实时电商
数仓
(八)
用户域登录各窗口汇总表主要任务:从kafka页面日志主题读取数据,统计七日回流用户:之前活跃的用户,有一段时间不活跃了,之后又开始活跃,称为回流用户当日独立用户数:同一个用户当天重复登录,只算作一个独立用户。思路分析读取kafka页面主题数据转换数据结构:String->JSONObject过滤数据,uid不为null登录的两种情况用户打开应用后自动登录用户打印应用后没有登录,浏览后跳转到登录页面
十七✧ᐦ̤
·
2023-12-30 09:55
flink
linq
数据库
AI大模型时代下运维开发探索第二篇:基于大模型(LLM)的数据仓库
在SREWorks社区聚集了很多进行运维
数仓
建设的同学,大家都会遇到类似的挑战和问题:
数仓
中存储大量数据消耗成本,但很多存储的数据却并没有消费。
阿里云大数据AI技术
·
2023-12-30 07:39
原型模式
数据中台-架构、构建与体系建设
构建与体系建设数据中台架构数据中台构建方法论技术体系数据体系服务体系运营体系数据中台功能架构数据中台技术架构企业构建数据中台评估统计分析阶段决策支持阶段数据驱动阶段运营优化阶段数据汇集-打破企业数据孤岛数据开发-提取数据价值数据体系建设贴源数据层ODS(OperationalDataStore)统一
数仓
层
Ybb_studyRecord
·
2023-12-30 03:53
数据中台
架构
大数据
运维
Flink实时电商
数仓
之DWS层
org.apache.dorisflink-
doris
-connector-1.17com.janeluoikanalyzer测试代码如下:publicclassIkUtil{publicsta
十七✧ᐦ̤
·
2023-12-29 17:19
flink
大数据
长文解读 "数据仓库" 面试必备知识
数仓
分层
数仓
简介1.数据仓库和数据库的区别数据仓库:数据量特别的大,TB~PB级别会保留历史数据一般使用OLAP分析(On-LineAnalyticalProcessing),联机分析处理(聚合操作),
you的日常
·
2023-12-29 15:28
数据仓库-
数仓
优化小厂实践
根据自己的实践整理一些
数仓
相关的优化。二、优化1、简易架构图2、ODS层优化2.1分段式解析随着业务增长,数据量也不断增加,凌晨任务经常基线预警、破线,导致数据不能正常产出,影响运营人员分析数据。
大数据点滴
·
2023-12-29 09:25
#
数据仓库
数据仓库
Hive和Spark生产集群搭建(spark on
doris
)
1.环境准备1.1版本选择序号bigdata-001bigdata-002bigdata-003bigdata-004bigdata-005MySQL-8.0.31mysqlDataxDataxDataxDataxDataxDataxSpark-3.3.1SparkSparkSparkSparkSparkHive-3.1.3HiveHive1.2主要组件官网hive官网:https://hive.
tuoluzhe8521
·
2023-12-28 23:56
Hive相关
hive
spark
hadoop
大数据
yarn
分享7个Python实战项目代码,让你分分钟晋级大老!快收藏_python编程作品
听两个聊天机器人互相聊天:3、分析唐诗的作者是李白还是杜甫:4、彩票随机生成35选7:5、自动写检讨书:6、屏幕录相机,抓屏软件:7、制作Gif动图:一、Python入门二、Python爬虫三、数据分析四、数据库与ETL
数仓
五
老-程序员
·
2023-12-28 19:38
编程
Python爬虫
代码
python
开发语言
代码作品
doris
-升级版本
一、简介
doris
可以进行平滑升级,详情可根据官网查看安装包下载地址:github,界面二、升级步骤1.原数据备份将FE-Master节点的
doris
-meta目录进行完整备份!
与数据交流的路上
·
2023-12-28 18:14
doris
数据库
doris
-修改be的存储路径
一、背景因为之前的BE的数据目录在机械盘上,性能太低,打算换到SSD盘,在不改变端口且没有多余机器的情况下,更改磁盘存储位置相对来说比较方便,因为业务尚没有正常使用,所以操作起来更方便重点:非常不推荐这种方式更改,如无必要,不要采取该方式二、具体操作1.备份数据数据量少的时候可以用mysqldump,数据量大的时候可以选择其他方式,详情见官网mysqldump-h192.168.1.1-P9030
与数据交流的路上
·
2023-12-28 18:14
doris
数据库
银行
数仓
建模方法论
随着金融行业的不断发展,银行业务越来越复杂,数据量也越来越大。为了更好地管理和利用这些数据,银行数据仓库体系应运而生。在前面的文章中,我们介绍了银行数据仓库体系的基础知识,本篇文章将重点介绍银行数据仓库体系实践(7)—数据模型设计及流程。一、数据模型设计数据模型设计是银行数据仓库体系的核心,它是对银行业务进行抽象和概括的过程。在设计数据模型时,需要考虑以下几个方面:业务需求:数据模型的设计必须符合
添柴少年yyds
·
2023-12-28 18:56
数据挖掘
数据仓库
人工智能
ODS DW APP DIM
数仓
ODS:通过ETL工具从源端系统抽取数据,存入ODS层;DW:从ODS层数据进行抽取并按主题进行分类存储;DWD(数据明细层):会对ODS的数据做一定的清洗和汇总,然后生成DWM中间表;DWM(数据中间层):对DWD中的数据按照一定维度进行汇总后,放到DWS中的一张表;DWS(数据服务层):从DWM中间表中按主题进行高度汇总业务宽表,满足各项业务需要;APP:依据DWS中的宽表数据,进行应用(可视
p1i2n3g4
·
2023-12-28 17:41
大数据
数据仓库
数据库
数据挖掘
Flink开发利器StreamX
在目前云原生架构的普及和湖仓一体化的大背景下,我们已经确定了将
Doris
作为离线数据仓库,将TiDB(目前已经应用于生产)作为实时数据平台,同时因为
Doris
具有onMySQL的odbc能力,所以又可以对外部数据库资源进行整合
Apache StreamPark
·
2023-12-28 15:34
StreamX
Flink
flink
大数据
big
data
上一页
4
5
6
7
8
9
10
11
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他