E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Doris数仓
Flink 细粒度滑动窗口性能优化
大数据技术AIFlink/Spark/Hadoop/
数仓
,数据分析、面试,源码解读等干货学习资料118篇原创内容公众号1、概述1.1细粒度滑动的影响当使用细粒度的滑动窗口(窗口长度远远大于滑动步长)时,
hyunbar
·
2024-02-19 13:39
Flink
大数据
flink
java
数据库
Apache
Doris
聚合函数源码阅读与解析|源码解读系列
笔者最近由于工作需要开始调研ApacheDoris,通过阅读聚合函数代码切入ApacheDoris内核,同时也秉承着开源的精神,开发了array_agg函数并贡献给社区。笔者通过这篇文章记录下对源码的一些理解,同时也方便后面的新人更快速地上手源码开发。聚合函数,顾名思义,即对一组数据执行聚合计算并返回结果的函数,在统计分析过程中属于最常见的函数之一,最典型的聚合函数包括count、min、max、
·
2024-02-19 11:21
数据系统架构-10.
数仓
开发平台
数仓
开发平台1.背景数据仓库是存储各种数据的仓库,形同于现实当中存储货物的仓库,不可避免的存在“乱放”、“不方便存取”、“浪费空间”等情况。
·
2024-02-19 11:45
大数据系统架构数据仓库
揭秘JVS-智能BI数据集管理:让你的数据处理更高效!
数据集管理与界面介绍在整体的
数仓
架构中,数据集是在线加工的标准数据形态,数据集配置的过程就似对数据进行加工、清晰、关联、建模的过程,建模完成后,可通过手动数据执行或者周期性的
·
2024-02-19 11:41
数据集etl数据可视化大数据
Doris
存储层设计介绍1——存储结构设计解析(索引底层结构)
目录一、概述1.1存储结构的整体介绍1.2存储结构的设计目标二、存储文件格式2.1存储目录结构编辑2.2Segmentv2文件结构三、Footer信息3.1列的meta信息3.2列索引的meta信息四、前缀索引(ShortKeyIndex)4.1功能介绍4.2索引生成4.3索引的底层存储结构4.3.1Segmentfooter4.3.2ShortKeyPage4.4查询过滤4.5应用案例五、Ord
爱吃辣条byte
·
2024-02-19 11:26
#
Doris
大数据
数据库
sql
Hive调优——count distinct替换
离线
数仓
开发过程中经常会对数据去重后聚合统计,而对于大数据量来说,count(distinct)操作消耗资源且查询性能很慢,以下是调优的方式。
爱吃辣条byte
·
2024-02-15 10:58
#
Hive
hive
数据仓库
数仓
面试
0.自我介绍答:1).简单的自我介绍,突出自己优势2).项目介绍3).项目中承担的工作和模块。4).长的帅或漂亮,前四条都可以忽略1.什么是数据仓库?如何构建数据仓库?可参考:漫谈|大牛带你从0到1构建数据仓库实战(如果这个问题回答的好,后面很多问题都不需要再问)答:数据仓库是一个面向主题的(SubjectOriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反
China_mr001
·
2024-02-14 21:46
[
Doris
]
Doris
的安装和部署 (二)
安装要求1.1Linux操作系统要求1.2软件需求1.3注意事项1.4内部端口2.集群部署2.1操作系统安装要求2.2下载安装包2.3解压2.4配置FE2.5配置BE2.6添加BE2.7FE扩容和缩容2.8
Doris
959y
·
2024-02-14 08:56
Doris
OLAP
doris
olap
bigdata
数据仓库内容分享(十七):
Doris
实践分享:它做了哪些架构优化和场景优化?
作为被众多大型互联网企业广泛采用的实时数据仓库,
Doris
拥有一些核心优势和独特的特点。我们从它的架构设计和使用场景来看一下这些优势
之乎者也·
·
2024-02-12 20:13
数据仓库内容分享
架构设计
内容分享
数据仓库
架构
ClickHouse常用表引擎
有点像
数仓
中的缓慢变化维度。创建TinyLog引擎表只需要在
寒 暄
·
2024-02-11 22:23
#
---ClickHouse
数据库
大数据
ClickHouse
clickhouse 21.x生产实践优化
clickhouse1时间字段类型建表时能用数值型或日期时间型表示的字段就不要用字符串,全String类型在以Hive(hbase)为中心的
数仓
建设中常见,但ClickHouse环境不应受此影响。
架构师老狼
·
2024-02-11 18:28
当我们一起走过 2023|Apache
Doris
年度时刻盘点
2024年的第一个月已经彻底过去,2023年的回顾总结才姗姗来迟。在过去一年的大多数时间里,我们一直处于忙碌的状态中,紧锣密鼓的代码研发、高速推进的版本迭代、行程紧密的全国之行,众多社区用户与开发者皆是见证。越是忙碌,在年末的这场回顾就越难能可贵。在2024年开端,我们挑选出了一些有意义的片刻,期待跟每一个社区用户和开发者一同看看过去一年所共同经历的种种。正是因为每一个您都是见证者和参与者,所以把
·
2024-02-11 18:34
Databend 开源周报第 131 期
Databend是一款现代云
数仓
。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn。
·
2024-02-11 18:59
数据库
doris
数据库介绍
目录1、简介2、特点3、
doris
架构4、
doris
数据表设计-分区与分桶5、
doris
的数据模型1、简介ApacheDoris是一个分布式在线分析处理(OLAP)数据库,它的特点是基于列存储的MPP架构
坎坷终究平坦
·
2024-02-11 17:43
数据库
sql
离线
数仓
(一)【
数仓
概念、需求架构】
前言今天开始学习
数仓
的内容,之前花费一年半的时间已经学完了Hadoop、Hive、Zookeeper、Spark、HBase、Flume、Sqoop、Kafka、Flink等基础组件。
让线程再跑一会
·
2024-02-11 11:58
离线数仓
大数据
flinkcdc 3.0 源码学习之任务提交脚本flink-cdc.sh
用简单的话来描述复杂的事,我是Antgeek,欢迎阅读.在flink3.0版本中,我们仅通过一个简单yaml文件就可以配置出一个复杂的数据同步任务,然后再来一句bashbin/flink-cdc.shmysql-to-
doris
.yaml
Antgeek
·
2024-02-11 07:55
flinkcdc
flink
flinkcdc
源码
(C++)对象指针——小白
Doris
的课堂笔记
1.对象指针声明形式:类名*对象指针名;例如:PointA(2,3);Point*ptr;ptr=&A;通过指针访问对象成员:对象指针名-->成员名ptr-->getX();or(*ptr).getX();2.this指针定义:隐含于每一个类的成员函数中的特殊指针。功能:明确地指出了成员函数当前所操作的数据所属的对象。使用:当通过一个对象调用成员函数时,系统先将该对象的地址赋给this指针,然后调
Doris-510
·
2024-02-11 06:58
c++
开发语言
计算机毕业设计PyFlink+Hadoop+Hive民宿数据分析可视化大屏 民宿推荐系统 民宿爬虫 民宿大数据 知识图谱 机器学习 大数据毕业设计
selenium自动化爬虫框架采集民宿数据约10万条存入.csv文件作为数据集;2.使用pandas+numpy或MapReduce对数据进行数据清洗,生成最终的.csv文件并上传到hdfs;3.使用hive
数仓
技术建表建库
计算机毕业设计大神
·
2024-02-10 10:56
实时计算框架 Flink 在教育行业的应用实践
若想实现大规模数据的“即席查询”,就须用实时计算框架构建实时
数仓
来实现。本文通过一个教育行业的应用案例,剖析业务系统对实时计
Java架构师CAT
·
2024-02-10 09:20
HiveSQL——用户中两人一定认识的组合数
注:参考文章:SQL之用户中两人一定认识的组合数--HQL面试题36【快手
数仓
面试题】_sql面试题-快手-CSDN博客文章浏览阅读1.2k次,点赞3次,收藏12次。
爱吃辣条byte
·
2024-02-10 01:52
#
HIve
SQL
大数据
数据仓库
数据湖的整体思路
当数据湖成为中心,那么就可以围湖而建“数据服务环”,环上的服务包括了
数仓
、机器学习、大数据处理、日志分析,甚至RDS和NOSQL服务等等。
zhang菜鸟
·
2024-02-08 22:19
大数据
数据仓库
史上最全OLAP对比
并发能力与查询延迟对比5.执行模型对比5.OLAP引擎的主要特点5.2SparkSQL、FlinkSQL5.3Clickhouse5.4Elasticsearch5.5Presto5.6Impala5.7
Doris
5.8Druid5.9Kylin
只会写demo的程序猿
·
2024-02-08 11:04
数仓
spark
hadoop
数据仓库
【遇见
Doris
】
Doris
on ES在快手商业化的最佳实践
贺祥快手商业化团队数据架构高级工程师主要负责商业化报表引擎快手商业化报表引擎为外部广告主提供广告投放效果的实时多维分析报表在线查询服务,以及为商业化内部各系统提供多维分析报表查询服务。致力于解决多维分析报表场景的高性能、高并发、高稳定的查询问题。1业务场景介绍1.1服务介绍本文主要侧重介绍DorisonES(DOE)在我们业务场景的实践,所以我们的数据架构在这里只做简单介绍,如上如图所示。总体来说
ApacheDoris
·
2024-02-08 11:04
数据仓库
大数据
分布式
数据库
java
【
Doris
】
Doris
on ES在快手商业化的最佳实践
快手商业化报表引擎为外部广告主提供广告投放效果的实时多维分析报表在线查询服务,以及为商业化内部各系统提供多维分析报表查询服务。致力于解决多维分析报表场景的高性能、高并发、高稳定的查询问题。1业务场景介绍1.1服务介绍本文主要侧重介绍DorisonES(DOE)在我们业务场景的实践,所以我们的数据架构在这里只做简单介绍,如上如图所示。总体来说数据分为实时+离线两块事实数据写入,外加mysqlbinl
九层之台起于累土
·
2024-02-08 11:34
【Doris】
【BigData】
elasticsearch
大数据
kafka
数据库
文末附群|
Doris
on ES在快手商业化的最佳实践
贺祥快手商业化团队数据架构高级工程师主要负责商业化报表引擎快手商业化报表引擎为外部广告主提供广告投放效果的实时多维分析报表在线查询服务,以及为商业化内部各系统提供多维分析报表查询服务。致力于解决多维分析报表场景的高性能、高并发、高稳定的查询问题。1业务场景介绍1.1服务介绍本文主要侧重介绍DorisonES(DOE)在我们业务场景的实践,所以我们的数据架构在这里只做简单介绍,如上如图所示。总体来说
小晨说数据
·
2024-02-08 11:33
Doris专栏
数据库
分布式
java
xhtml
大数据
Apache
Doris
用户案例库
按行业分类互联网京东ApacheDoris在京东广告平台的应用ApacheDoris在京东双十一大促中的实践京东物流基于
Doris
的亿级数据自助探索应用ApacheDoris物化视图与索引在京东的典型应用
hf200012
·
2024-02-08 11:03
Doris
大数据
doris
使用navicat导出mysql离线数据后,再导入
doris
的方案
一、背景
doris
本身是支持直接从mysql中同步数据的,但有时候,客户不允许我们使用
doris
直连mysql,此时就需要客户配合将mysql中的数据手工导出成离线文件,我们再导入到
doris
中二、环境
austin1000
·
2024-02-07 16:23
数据库
mysql
doris
navicat
Doris
中的本地routineload环境,用于开发回归测试用例
----------------2024-2-6-更新--------------
doris
的routineload,就是从kafka中加载数据到表,特点是定时、周期性的从kafka取数据。
howard_shooter
·
2024-02-07 10:24
Doris
数据库
数仓
:用户行为类指标一网打尽
前言用户行为分析是对用户在产品或触点上产生的行为及行为背后的数据进行分析,通过构建用户行为数据分析体系或者用户画像,来改变产品、营销、运营决策,实现精细化运营,指导业务增长。总之,很重要。关注公众号,回复关键字【资料】,获取【10万字大数据框架面试知识点】与【大数据开发的命令手册】先来看下用户类行为指标说明,然后下面详解常写的指标。指标名称解释说明新增用户首次联网使用应用的用户,如果一个用户首次打
大数据左右手
·
2024-02-07 09:35
大数据
大数据
数仓
:事实表设计方法,原则和三种类型选择
关注公众号,回复关键字【资料】,获取【10万字大数据框架面试知识点】与【大数据开发的命令手册】事实表设计方法事实表作为数据仓库维度建模的核心,紧紧围绕着业务过程来设计。其包含与该业务过程有关的维度引用(外键)以及该业务过程的度量。一般设计会遵循以下四个步骤:1.选择业务过程及确定事实表类型通常情况下,一个业务过程对应一张事实表。2.声明粒度精确定义每张事实表的每行数据表示什么,按照业务尽可能选择最
大数据左右手
·
2024-02-07 09:35
大数据
数据仓库
数据挖掘
数据分析
kyuubi 接入starrocks |
doris
kyuubi接入starrocks一、环境Hadoop集群组件版本Hadoop3.1.1spark3.Xzookeeper3.XHive3.Xkyuubi版本1.7.1starrocks2.X 已将kyuubi部署到yarn上,并且接入了spark3引擎,并通过Ambari进行kyuubi组件的管理,下面步骤为新增对starrocks集群的访问。二、接入步骤 假设安排hostA、hostB两个节点
甜甜的巧克力阿
·
2024-02-07 09:48
大数据相关
大数据
kyuubi
starrocks
doris
数仓
-数据质量体系建设
注:文章参考:数据仓库数据质量体系建设涤生推荐:未来的行业中,数据是企业的重要资产,而数据仓库则是对企业数据进行有效管理和利用的重要手段。在数据仓https://mp.weixin.qq.com/s/elPkpgTm6cfAR-AFuJA16w目录一、数据质量体系建设的原因二、数据质量的重要性决策基础客户满意度业务流程效率成本控制法律合规三、常见的数据质量问题数据缺失数据错误数据不一致数据重复数据
爱吃辣条byte
·
2024-02-07 08:26
数仓建设
大数据
数据仓库
Flink-CDC实时读Postgresql数据
用户可以在如下的场景使用cdc:实时数据同步:比如将Postgresql库中的数据同步到我们的
数仓
中。数据库的实时物化视图。Postgresql数据库配置Postgresql参数修改#更改wa
pigcoffee
·
2024-02-07 07:13
flink
postgresql
数据库
4.东软跨境电商
数仓
项目--数据采集通道搭建之用户行为数据采集通道搭建(2022.6.1-2022.6.4)
东软跨境电商
数仓
项目–数据采集通道搭建之用户行为数据采集通道搭建(2022.6.1-2022.6.4)文章目录东软跨境电商
数仓
项目--数据采集通道搭建之用户行为数据采集通道搭建(2022.6.1-2022.6.4
Mmj666
·
2024-02-07 00:01
东软睿购跨境电商数仓项目
hadoop
hive
性能实测:分布式存储 ZBS 与集中式存储 HDS 在 Oracle 数据库场景表现如何
在《分布式存储支持数据仓库业务系统性能验证》文章中,我们对比了SmartX分布式存储ZBS与全闪集中式存储(EMCPowerStore)执行
数仓
跑批任务的效率。为了帮助用
志凌海纳SmartX
·
2024-02-06 18:40
数据库
分布式
oracle
揭秘阿里云Flink智能诊断利器——Fllink Job Advisor
丰富而复杂的上下游系统让它能够支撑实时
数仓
、实时风控、实时机器学习等多样化的应用场景。
阿里云大数据AI技术
·
2024-02-06 16:49
Hive分区表增加字段新增字段为NULL解决方案
背景:
数仓
开发过程中,经常会有需求变更,添加字段的情况很难免,添加完了字段需要重新写数据,重新将这个字段的数据overwrite进去,但是会出现一个问题,就是加载的数据为NULL。
Lens5935
·
2024-02-06 10:11
Hive
hive
hadoop
big
data
k8s的Deployment部署策略线上踩坑
线上问题我们有个服务,专门做t-1日的增量数据入仓的.入仓流程:每日0点系统新建个csv文件,通过kafka监听增量数据,实时数据写入该csv文件,供下游
数仓
次日取数.每日产生数据50G(1.8亿条)左右
吴free
·
2024-02-06 07:41
kubernetes
容器
云原生
Doris
集群部署
一、
Doris
默认端口号注意:当部署多个FE实例时,要保证FE的http_port配置相同。
一心猿
·
2024-02-05 21:34
大数据
大数据
DolphinScheduler
数仓
任务管理规范
目录一、DolphinScheduler调度
数仓
任务现状分析2.1一个任务流构建
数仓
所有的逻辑节点2.2每个逻辑节点构建一个任务流二、
数仓
任务管理调度需求分析三、DolphinScheduler
数仓
开发任务管理规范四
i7杨
·
2024-02-05 16:09
大数据
设计规范
数仓
建设规范
数仓
建设规范一、数据模型架构原则1.
数仓
分层原则2.主题域划分原则3.数据模型设计原则二、
数仓
公共开发规范1.层次调用规范2.数据类型规范3.数据冗余规范4.NULL字段处理规范5.指标口径规范6.数据表处理规范四
长不大的大灰狼
·
2024-02-05 04:03
大数据
数据仓库
大数据
D73 2组阿德
doris
+《活出生命的意义》读书笔记
曾经看过一个故事在一间病房里,新住进来两个病人,两个人病情差不多,医生在诊断之后,说两个人可能只有一两年的时间了。他们的家属每天都会过来看望和陪伴他们。A的家属,每次来都会带一束花,穿着整齐,精神满满地过来看他,每次都告诉他:"家里的事,你别担心,我们会处理好的,你就安心养病就可以。”而B的家属他的妻子则完全相反,每天都蓬头垢面,看着邋里邋遢地,每次来都拉着B的手向他哭诉:“爸妈他们本来身体就不好
阿德doris
·
2024-02-04 20:40
基于Flink的实时
数仓
建设
目录:一.实时计算初期二.实时
数仓
建设三.Lambda架构的实时
数仓
四.Kappa架构的实时
数仓
五.流批结合的实时
数仓
一、实时计算初期虽然实时计算在最近几年才火起来,但是在早期也有部分公司有实时计算的需求
园陌
·
2024-02-04 12:48
Doris
(三)-集群部署3个FE+3个BE
前置1)配置java环境1st解压jdk包unzipjdk1.8.0_171-amd64.zip2nd配置环境变量vim/etc/profile#文末添加JAVA_HOME=/data/jdk1.8.0_171-amd64PATH=$JAVA_HOME/bin:$PATHexportPATHJAVA_HOME3rd启用配置source/etc/profile4th验证java-version2)下
BatmanWayne
·
2024-02-04 05:40
数据仓库
doris
数据仓库
集群
第七章 主管信息系统和数据仓库
[TOC]第七章主管信息系统和数据仓库7.0前言EIS是
数仓
之前的概念EIS没有注重基础结构(数据源、数据质量、数据流通等)DSS是现代的EIS,与
数仓
紧密相连7.1EIS概述EIS典型用途趋势分析关键指标度量和跟踪向下钻取问题监控竞争分析关键性能指标监控
晨磊的微博
·
2024-02-04 04:53
Doris
bitmap实现留存计算
一、背景什么是留存比如用户今天使用某应用,明天还继续使用该应用,叫做留存。bitmap原理基本思想是用数组下标表示元素的值,用0,1标记元素是否存在,1表示存在,0表示不存在。由于使用bit为单位来存储数据,大大节省了存储空间。例如:给定一个数组array=[1,3,5];为什么要用bitmap?bitmap为什么能计算留存?bitmap为什么只支持int类型?①节省存储空间。②留存实际上是求交集
小晨说数据
·
2024-02-04 04:06
java
python
算法
数据结构
数据分析
Doris
的12天减肥日记-第5天
去平安了解了情况。接受温老师杨老师的面试邀请下午去助理面试,主要是了解平某的情况事情会一件一件慢慢来和食物一样清新不油腻图片发自App
Dorisyoung
·
2024-02-03 20:22
数仓
建模&维度建模理论知识
0.思维导图第1章数据仓库概述1.1数据仓库概述 数据仓库是一个为数据分析而设计的企业级数据管理系统。数据仓库可集中、整合多个信息源的大量数据,借助数据仓库的分析能力,企业可从数据中获得宝贵的信息进而改进决策。同时,随着时间的推移,数据仓库中积累的大量历史数据对于数据科学家和业务分析师也是十分宝贵的。1.2数据仓库核心架构第2章数据仓库建模概述2.1数据仓库建模的意义 数据模型就是数据组织和存
韩顺平的小迷弟
·
2024-02-03 16:02
#
大数据开发
spark
大数据
数据仓库
hadoop
hive
hadoop使用公平调度器
Stage1(默认调度器)大概在几年前,搭建的
数仓
集群中。数据量不大,做离线一个晚上就能轻松调度完,那时候使用的hadoop自带的调度器,容量调度器。但默认配置没有改,就会发生什么!
向他一样rap
·
2024-02-03 13:22
kylin
hadoop
hadoop
大数据
分布式
离线
数仓
-数据治理
目录一、前言1.1数据治理概念1.2数据治理目标1.3数据治理要解决的问题1.3.1合规性元数据合规性数据质量合规性数据安全合规性1.3.2成本存储资源成本计算资源成本二、数据仓库发展阶段2.1初始期2.2扩张期2.3缓慢发展期2.4变革期三、数据治理内容3.1元数据治理3.2数据质量治理3.3数据安全治理3.4计算资源治理3.5存储资源治理四、数据治理总结4.1模型合规治理4.2数据质量合规治理
爱吃辣条byte
·
2024-02-03 13:51
数据治理
大数据
数据仓库
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他