E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
实时计算(数仓)
主流数据库/
数仓
核心要点对比
ClickHouse:官网讲OLAP系统的特点,更像是讲自己的特点,比如关联查询只会有一个大表,写入都是批量等。Global关键字难于被普通用户理解,join的不足(只有broadcastjoin,没有repartitionjoin),分布式表定义的繁琐。需要ZK存储一些元信息,没有master,各节点对等。对delete和upate支持很弱,无事务支持。可插拔存储引擎。稀疏索引。关于为什么快,官
吸积盘
·
2023-11-26 19:40
数据库
数据仓库
技术分享 | ClickHouse & StarRocks 使用经验分享
一.大纲本篇分享下个人在实时
数仓
方向的一些使用经验,主要包含了ClickHouse和StarRocks这两款目前比较流行的实时
数仓
,文章仅代表个人拙见,有问题欢迎指出,Thanks♪(・ω・)ノ关于实时
数仓
爱可生开源社区
·
2023-11-26 19:08
技术分享
实时数仓
ClickHouse
StarRock
传统
数仓
和clickhouse对比
背景传统
数仓
一般都是Hive+SparkSql作为代表,不过也包括Kylin等,而clickhouse是实时OLAP的代表,我们简单看下他们的对比传统
数仓
和clickhouse对比Hive+SparkSQL
lixia0417mul2
·
2023-11-26 19:06
clickhouse
clickhouse
数仓
中数据清洗的方法
在数据采集的过程中,需要从不同渠道获取数据并汇集在
数仓
中,采集的原始数据首先需要进行解析,然后对不准确、不完整、不合理、格式、字符等不规范数据进行过滤清洗,清洗过的数据才能更加符合需求,从而使后续的数据分析应用更为准确
小小哭包
·
2023-11-26 18:10
大数据
数据仓库
数据清洗
2023年全国职业院校技能大赛-赛题第01套-GZ033 大数据应用开发
安装配置子任务三:HBase分布式安装配置任务B:离线数据处理(25分)子任务一:数据抽取子任务二:数据清洗子任务三:指标计算任务C:数据挖掘(10分)子任务一:特征工程子任务二:推荐系统任务D:数据采集与
实时计算
你可知这世上再难遇我
·
2023-11-26 13:48
各类赛项赛题比赛综合任务书
大数据
数据采集
数据挖掘
漫谈实时
数仓
架构
|0x00从实时
数仓
的历史谈起实时
数仓
的历史,有三个显著的分水岭。
晓阳的数据小站
·
2023-11-26 08:39
千亿
数仓
项目--离线部分杂记
一、电商行业的相关介绍电商行业介绍电商行业技术特点技术新技术范围广分布式高并发、集群、负载均衡、高可用海量数据业务复杂系统安全电商业务系统简介网站采用商家入驻的模式,商家入驻平台提交申请,由平台进行资质审核;审核通过后,商家拥有独立的管理后台录入商品信息,商品经过平台审核后即可发布。大多电商平台由三部分组成:网站前台运营商后台商家管理后台网站前台网站前台通常由这几部分构成:网站首页商家首页商品详细
sanerbaby
·
2023-11-26 07:51
大数据
数据仓库
离线--千亿级
数仓
项目-黑马
大数据
数仓
项目简介业务流程本次
数仓
业务流程主要分为两类,一类是用户下单、提交订单、支付、退款这一条线,另一类是我们收集用户的页面行为数据:用户搜索商品、添加购物车、提交订单、支付订单的日志数据,分析电商网站常见的
紫金小飞侠
·
2023-11-26 05:13
#
大数据项目
【黑马甄选离线
数仓
day05_核销主题域开发】
1.指标分类通过沟通调研,把需求进行分析、抽象和总结,整理成指标列表。指标有原子指标、派生指标、衍生指标三种类型。原子指标基于某一业务过程的度量值,是业务定义中不可再拆解的指标,原子指标的核心功能就是对指标的聚合逻辑进行了定义。可以得出结论,原子指标包含三要素,分别是业务过程、度量值和聚合逻辑。例如订单总额就是一个典型的原子指标,其中的业务过程为用户下单、度量值为订单金额,聚合逻辑为sum()求和
LKL1026
·
2023-11-26 05:11
黑马甄选离线数仓项目
大数据
大数据---离线
数仓
实战项目(一)
离线
数仓
实战---网站流量日志分析系统一、网站流量日志分析背景1.1、网站分析的意义1.2、如何进行网站分析1.2.1、网站流量质量分析(流量分析)1.2.2、网站流量多维度细分(流量分析)1.2.3、
静_步
·
2023-11-26 05:41
#
1.2
大数据_项目
大数据
数据仓库
【黑马甄选离线
数仓
day04_维度域开发】
1.维度主题表数据导出1.1PostgreSQL介绍PostgreSQL是一个功能强大的开源对象关系数据库系统,它使用和扩展了SQL语言,并结合了许多安全存储和扩展最复杂数据工作负载的功能。官方网址:PostgreSQL:Theworld'smostadvancedopensourcedatabase中文文档:http://www.postgres.cn/docs/14/index.htmlPos
LKL1026
·
2023-11-26 05:08
黑马甄选离线数仓项目
数据仓库
大数据
笔记
TiDB一个大数据
实时计算
的存储利器
目录TiDB概述TiDB架构详解TiDB之TiKVTiDB如何部署具体安装流程下载二进制文件使用Docker镜像一些配置解析Server配置Performance配置Log配置PD配置TiDB概述TiDB是由中国PingCAP公司开发的,是一个开源的分布式NewSQL数据库。它最初的设计目标是解决传统关系型数据库的瓶颈和限制,实现高可用、可扩展和高性能的数据存储和处理。TiDB架构详解TiDB是一
云台095
·
2023-11-26 04:59
大数据的应用
tidb
大数据
数据库
Day68 Kafka 快速实战 核心原理
Storm/Spark流式处理引擎web/nginx,访问日志消息服务开放统一接口给consumerhadoop,hbase等.装载到hadoop,
数仓
etl做离线分析和数据挖掘.ScreenShot2022
小周爱吃瓜
·
2023-11-25 21:31
基于 Flink SQL 和 Paimon 构建流式湖仓新方案
传统
数仓
包括Hive、Hadoop正在往湖、Lakehouse架构上演进,L
阿里云大数据AI技术
·
2023-11-25 15:52
flink
sql
大数据
Flink CEP 在抖音电商的实践
本文整理自抖音电商实时
数仓
研发工程师张健,在FlinkForwardAsia实时风控专场的分享。本篇内容主要从FlinkCEP简介、业务场景与挑战、解决方案实践和未来展望四个方面展开介绍。
字节跳动云原生计算
·
2023-11-25 15:00
flink
同程数科基于 Apache Doris 构建统一实时
数仓
,查询提速数十倍!
为帮助业务人员提升数据开发的效率与质量,同程数科历经三代架构演进,最终引入ApacheDoris搭建统一实时
数仓
,在后续的实际应用中,将实时
数仓
平台化,进一步构建了一站式数据平台Ark,为业务人
SelectDB技术团队
·
2023-11-25 13:29
最佳实践
大数据
数据仓库
数据分析
doris
mysql
hive
数据库架构
物流实时
数仓
:
数仓
搭建(ODS)
系列文章目录物流实时
数仓
:采集通道搭建物流实时
数仓
:
数仓
搭建文章目录系列文章目录前言一、IDEA环境准备1.pom.xml2.目录创建二、代码编写1.log4j.properties2.CreateEnvUtil.java3
超哥--
·
2023-11-25 09:53
物流实时数仓
flink
大数据
实时计算
Flink 版总体介绍
简介:
实时计算
Flink版(AlibabaCloudRealtimeComputeforApacheFlink,PoweredbyVerverica)是阿里云基于ApacheFlink构建的企业级、高性能实时大数据处理系统
阿里云云栖号
·
2023-11-25 06:54
云栖号技术分享
flink
Apache
Flink
云原生
「Flink实时数据分析系列」1. 有状态流处理简介
StreamProcessingwithApacheFlink」作者|FabianHueskeandVasilikiKalavri翻译|吴邪大数据4年从业经验,目前就职于广州一家互联网公司,负责大数据基础平台自研、离线计算&
实时计算
研究校对
数据与智能
·
2023-11-25 06:49
数据库
大数据
分布式
编程语言
hadoop
轻量级模型YOLOv5-Lite基于自己的数据集【焊接质量检测】从零构建模型超详细教程
YOLOv5时期一度达到了鼎盛的阶段,v5本身也有:n、s、m、l和x这么多的分支,在不同的业务场景里面需要选择对应的模型,v5模型性能本身已经是非常出色的了,但是在一些边缘端算力较弱的设备上面还是难以满足
实时计算
的需求的
Together_CZ
·
2023-11-25 05:03
目标检测实战
目标检测
人工智能
计算机视觉
【黑马甄选离线
数仓
day03_
数仓
设计和维度域开发】
1.
数仓
基本概念1-什么是数据仓库呢?存储数据的仓库,主要用于存储过去历史发生过的数据,面向主题,对数据进行统计分析的操作,从而能够对未来提供决策支持2-数据仓库最大的特点是什么呢?
LKL1026
·
2023-11-24 16:37
数据仓库
大数据
笔记
【黑马甄选离线
数仓
day02_数据采集】
1.
数仓
工具使用-DataX1.1DataX介绍DataX是阿里推出的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP
LKL1026
·
2023-11-24 16:02
数据仓库
大数据
笔记
数仓
成本下降近一半,StarRocks 存算分离助力云览科技业务出海
成都云览科技有限公司倾力打造了凤凰浏览器,专注于为海外用户提供服务,公司致力于构建一个全球性的数字内容连接入口,为用户带来更为优质、高效、个性化的浏览体验。作为数据驱动的高科技公司,从数据中挖掘价值一直是公司核心任务,公司以前选用了众多组件来提升内部大数据分析效率,如Trino作为即席查询的工具、用ClickHouse和StarRocks来加速报表业务查询,但经过长期实践,最终决定将所有内部数据分
StarRocks_labs
·
2023-11-24 12:31
后端
1、
数仓
模型概述
数仓
领域中的模型指的是数据模型,要和商业分析中的模型不同数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用的角度合理的存储数据2、问:模型和表的区别?
广阔天地大有可为
·
2023-11-24 12:57
数据仓库建设与企业案例
spark
大数据
分布式
大数据基础中台-数据仓库建设
一、数据模型架构原则
数仓
分层原则优秀可靠的
数仓
体系,往往需要清晰的数据分层结构,即要保证数据层的稳定又要屏蔽对下游的影响,并且要避免链路过长。那么问题来了,一直在讲
数仓
要分层,那
数仓
分几层最好?
SmartBrain
·
2023-11-24 12:22
大数据平台架构设计
数据仓库
big
data
hadoop
3、如何从0到1去建设数据仓库
1、
数仓
实施过程1.1数据调研数据调研包括:业务调研、需求调研业务调研需要调研企业内有哪些业务线、业务线的业务是否还有相同点和差异点各个业务线有哪些业务模块,每个模型下有哪些业务流程,每个流程下产生的数据是怎样存储的业务调研完后的产出
广阔天地大有可为
·
2023-11-24 12:50
数据仓库建设与企业案例
数据仓库
Flink SQL 1.11新功能详解:Hive
数仓
实时化 & Flink SQL + CDC 实践
问题导读1.Flink1.11有哪些新功能?2.如何使用flink-cdc-connectors捕获MySQL和Postgres的数据变更?3.怎样利用FlinkSQL做多流join后实时同步到Elasticsearch中?1Flink1.8~1.11社区发展趋势回顾自2019年初阿里巴巴宣布向Flink社区贡献Blink源码并在同年4月发布Flink1.8版本后,Flink在社区的活跃程度犹如坐
000X000
·
2023-11-24 06:18
Flink1.11
实时数仓
实时计算
Flink
SQL
1.11
数据中台建设方法论
1、
数仓
的概念和了解--业务的痛点产生的痛点:数据资产比较模糊、数据的质量比较低、重复建设、代码的耦合性比较强。2、数据仓库中的常见的模型:1、心型模型:中间是一张事实表,周围都是维度表。
新手小农
·
2023-11-24 02:08
数据仓库
大数据
多联机空调能耗计算
其中,该方法包括:接收多联机上传的机组运行数据;根据所述机组运行数据
实时计算
得到第一能耗数据;利用神经网络模型对所述第一能耗数据进行修正,得到修正后的能耗数据。
Joanne Sherkay
·
2023-11-24 01:07
空调项目
机器学习
QTreeView使用总结15,自定义model,支持item可编辑
2,效果但是由于我这个示例,真实数据只有名称、三门课成绩,后面的展示数据都是根据这些
实时计算
出来的。因此只有真实数据支持修改,而且修改后其他推算型数据也会自动刷新。这点需要注意。
逆枫゛
·
2023-11-23 21:32
QTreeView使用总结
Qt
C++
TreeView
元素
可编辑
详解Redis的使用及缓存特性
这是springBoot框架的第二篇,REDIS的使用关联文章SpringBoot工程搭建详解缓存Redis详解
数仓
ElasticSearch详解消息中间件Kafka本文目录回答三个问题SpringBoot
知春路SpideMan
·
2023-11-23 18:00
中间件Middleware
redis
java
分布式
缓存
jedis
离线
数仓
03——业务数据采集平台
文章目录第1章电商业务简介1.1电商业务流程1.2电商常识1.2.1SKU和SPU1.2.2平台属性和销售属性第2章业务数据介绍2.1电商系统表结构2.1MySQL安装2.1.1安装包准备2.1.2安装MySQL2.1.3配置MySQL2.2业务数据模拟2.2.1连接MySQL2.2.2建表语句2.2.3生成业务数据2.2.4业务数据建模第3章业务数据采集模块3.1采集通道3.2采集工具3.3采集
就是这个范~
·
2023-11-23 18:11
离线数仓
数据库
大数据
数据仓库
大数据-
数仓
-数据采集-业务数据(三):增量同步采集【MySQL-(Maxwell)->Kafka-(Flume)->HDFS】【每日增量:每天只将业务数据中新增及变化的数据同步到数据仓库】
增量同步策略解释:每日增量,就是每天只将业务数据中的新增及变化的数据同步到数据仓库中,适用:表数据量大,且每天只会有新的数据插入的场景,特点:采用每日增量的表,通常会在首日先进行一个全量同步。例如:退单表、订单状态表、支付流水表、订单详情表、活动与订单关联表、商品评论表Maxwell的实现原理很简单,就是将自己伪装成Slave,并遵循Mysql主从复制的协议,从master中同步数据。Maxwel
u013250861
·
2023-11-23 18:41
#
大数据
【大数据】
数仓
5.0_业务采集➕数据同步策略(
数仓
环境搭建完成)
file_to_kafka.conf)二、业务数据采集平台1.电商业务简介1.1.电商业务流程1.2.电商常识2.业务数据介绍2.1.电商系统表结构2.2.MySQL安装2.3.业务数据模拟3.业务数据采集模块三、离线
数仓
数据同步策略
欧叶冲冲冲
·
2023-11-23 18:04
数仓
大数据
zookeeper
hive
flume
kafka
hdfs
数据仓库
2023.11.22 -数据仓库的概念和发展
spm=1001.2014.3001.55011经典传统
数仓
架构2离线大数据
数仓
架构3数据仓库三层数据运营层,源数据层(ODS)(OperationalDataStore)数据仓库层(DW)(DataWarehouse
白白的wj
·
2023-11-23 16:16
数据仓库
hdfs
hadoop
大数据
sql
database
2023.11.22 数据仓库2-维度建模
目录1.
数仓
建设方案2.
数仓
结构图,项目架构图2.1项目架构图2.2
数仓
结构图3.建模设计4.维度建模什么是事实表:什么是维度表:数据发展模式y以及对应的模型5.
数仓
建设规范数据库划分规范表命名规范表字段类型规范
白白的wj
·
2023-11-23 16:14
数据仓库
大数据
数据库
hadoop
hive
sql
big
data
免费图书教材配套资料:Spark大数据技术与应用(第2版)
版)》课程内容全面介绍了Spark大数据技术的相关知识,内容包含包括Spark概述、Scala基础、Spark编程、Spark编程进阶、SparkSQL结构化数据文件处理、SparkStreaming
实时计算
框架
泰迪智能科技
·
2023-11-23 14:36
图书教材推荐
大数据
spark
分布式
AppLink定时调度操作
RestCloudAppLink2.点击授权管理3.点击应用认证菜单4.新建拼多多授权认证基础定时调度配置1.拉取一个定时器作为触发动作,通过配置定时器调度时间将定时策略配置为每天执行一次2.触发动作完成后读取mysql
数仓
RestCloud
·
2023-11-23 13:39
AppLink
零代码
定时调度
2、
数仓
理论概述与相关概念
1、问:数据仓库建设过程中经常会遇到那些问题?模型(逻辑)重复建设数据不一致性维度不一致:命名、维度属性值、维度定义指标不一致:命名、计算口径数据不规范(字段命名、表名、分层、主题命名规范)2、OneData数据建设核心方法论?3、OneData数据建设体系架构?4、数据仓库中经常用到的概念?4.1什么是业务过程?是企业活动中一个个不可拆分的行为事件,如下单、支付、退款都是业务过程4.2什么是数据
广阔天地大有可为
·
2023-11-23 12:39
数据仓库建设与企业案例
大数据
实时
数仓
:基于 Flink CDC 实现 Oracle 数据实时更新到 Kudu
作者:于乐,腾讯CSIG工程师解决方案描述概述FlinkCDC于2021年11月15日发布了最新版本2.1,该版本通过引入内置Debezium组件,增加了对Oracle的支持。本方案主要对flink-connector-oracle-cdc进行试用。首先在本地对OracleCDC进行调试通过,然后结合腾讯云产品流计算Oceanus、EMR(Kudu)实现了Oracle-Oceanus-Kudu一体
腾讯云大数据
·
2023-11-23 09:07
数据库
大数据
hadoop
java
mysql
Flink实时
数仓
项目—DWD层设计与实现
Flink实时
数仓
项目—DWD层设计与实现前言一、功能三:订单宽表1.需求描述2.需求分析3.思路分析与代码实现3.1实体类的创建3.2读取Kafka订单数据和订单明细数据3.3双流Join—关联事实表
自学大数据的菜鸡
·
2023-11-23 07:17
大数据项目
Flink
实时数仓
大数据
数据仓库
flink
实时
数仓
维度关联的旁路缓存与异步IO
由于存在dim层中的维度表数据是在Hbase中,查询关联时一般是一行一行的读取如select*fromtwherev=v1andv=v2;而Hbase读取一条数据大概时间在10ms左右。因此Hbase的读数据速度就不能满足时效性要求,上游kafka数据发送过多而下游处理时间不够导致flink反压机制触发,任务处于亚健康状态。时间长了上游就会阻塞,flink1.5之前是通过TCP的反压机制来控制的,
菜鸟一枚7
·
2023-11-23 07:16
缓存
数据库
redis
实时
数仓
(七)DWM层事实表关联维度表(订单宽表、旁路缓存和异步IO优化)
DWM层事实表关联维度表(订单宽表)维度关联实际上就是在流中查询存储在HBase中的数据表。但是即使通过主键的方式查询,HBase速度的查询也是不及流之间的join。外部数据源的查询常常是流式计算的性能瓶颈,所以进行一定的优化。(1)旁路缓存(先查redis)packagecom.yyds.utils;importcom.google.common.base.CaseFormat;importne
undo_try
·
2023-11-23 07:12
#
数仓
big
data
Flink实时
数仓
完结
文章目录主要框架版本选型集群服务器规划实时架构架构的选择分层分析FlinkCDC的选取旁路缓存优化异步查询优化先看项目成品的效果GitHub地址:https://github.com/GTyingzi/Flink_DemoGitee地址:https://gitee.com/gtcs/Flink-Demo主要框架版本选型框架版本Hadoop3.13Zookeeper3.5.7Kafka2.4.1HB
未来影子
·
2023-11-23 07:09
Flink
大数据项目
flink
kafka
大数据
PieCloudDB Database 再次升级!社区版全新版本发布,免费下载
拓数派正式发布大模型数据计算系统「πDataCS」,基于云原生技术重构数据存储和计算,重塑
数仓
、向量和机器学习等数据计算引擎,实现“一份数据存储,多引擎数据计算”。
OpenPie|拓数派
·
2023-11-23 02:01
数据库
什么是美颜SDK?直播美颜SDK技术深度剖析
一、美颜SDK的基本概念美颜SDK是一种软件工具包,通过集成了丰富的图像处理算法和
实时计算
技术,使得开发者能够在其应用中轻松嵌入实时美颜效果。
美狐美颜sdk
·
2023-11-23 02:29
直播美颜技术
直播美颜SDK
美颜SDK
音视频
深度学习
性能优化
人工智能
算法
【黑马甄选离线
数仓
day01_项目介绍与环境准备】
1.行业背景1.1电商发展历史电商1.0:初创阶段20世纪90年代,电商行业刚刚兴起,主要以B2C模式为主,如亚马逊、eBay等电商2.0:发展阶段21世纪初,电商行业进入了快速发展阶段,出现了淘宝、京东等大型电商平台,同时也出现了C2C模式和O2O模式电商3.0:成熟阶段2010年代,电商行业进入了成熟阶段,各大电商平台开始加强自身的品牌建设和服务体系,同时也出现了跨境电商、社交电商、农村电
LKL1026
·
2023-11-23 01:15
黑马甄选离线数仓项目
数据仓库
大数据
数仓
问答篇(一)
数仓
架构(即席查询)总体来说,Hadoop架构在数据量较低的情况下,运行速度远不及MPP架构,但数据量一旦超过某个量级,Hadoop架构在吞吐量方面将非常有优势。
AII派森
·
2023-11-22 16:36
大数据
数据中台项目
.系统、全面地查询元数据信息⒉.变更评估及精准变更周知3.协助数据问题定位及解决2.1元数据中心概述2.2元数据中心的核心功能第3章数据指标中心3.1数据指标中心概述3.2数据指标中心的设计思路第4章
数仓
模型中心
一凡คิดถึง
·
2023-11-22 14:37
大数据
数据中台
mysql到pg库数据迁移_postgres安装及实现mysql到pg的数据迁移
ods表结构:从源库导入中间表表结构:从线上pg库导入2.2.2.准备mysql2udw.sh测试调度任务脚本:保留用户标签需要的源表和
数仓
中间表:文档底部列出用户标签的相关的
公子札的札
·
2023-11-22 13:04
mysql到pg库数据迁移
上一页
7
8
9
10
11
12
13
14
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他