E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓(
支持多数据源联合查询的SQL运行引擎sycnany-SQL添加使用自定义函数
在微服务和云原生愈发流行的今天,数据的分布也愈发脱离单库单机而更加复杂,使用的数据库类型也会更多,但业务的复杂依然会带来了大量的数据查询和导出需求,而很多时候我们很难为数据量的大部分系统创建完整的BI
数仓
系统
·
2023-08-15 16:36
支持多数据源联合查询的本地运行SQL执行引擎syncnany-SQL安装和配置
在微服务和云原生愈发流行的今天,数据的分布也愈发脱离单库单机而更加复杂,使用的数据库类型也会更多,但业务的复杂依然会带来了大量的数据查询和导出需求,而很多时候我们很难为数据量的大部分系统创建完整的BI
数仓
系统
·
2023-08-15 16:09
Apache Doris 在约苗数据平台的实时
数仓
建设实践
本文导读:约苗平台是国内目前最大的成人预防接种管理服务平台。近年来,随着各功能的不断完善,用户数量不断增多,越来越多注册数据、疫苗类别点击数据、页面浏览时长等数据被生成和积累,如何有效利用这些数据进行处理分析,对于约苗提高工作效率、优化运营决策有着不容小觑的作用。基于此约苗平台历经三代架构演进,最终通过ApacheDoris重构了数据平台架构,统一了数据源出口,实现了近300倍的查询提速,目前已在
·
2023-08-15 16:52
【
数仓
建设系列之一】什么是数据仓库?
一、什么是数据仓库?数据仓库(DataWarehouse,简称DW)简单来讲,它是一个存储和管理大量结构化和非结构化数据的存储集合,它以主题为向导,通过整合来自不同数据源下的数据(比如各业务数据,日志文件数据等),解决企业数据孤岛,为企业提供统一的数据视图。通过构建不同时间范围或不同业务主题下的分析报告和数据报表等,为企业决策提供一定程度上的支持和帮助。二、数据仓库的特点?主题性传统的数据库,更多
码猿小站
·
2023-08-15 16:44
数据仓库
数仓建设
数据仓库
大数据
big
data
实时
数仓
浪潮来袭,这些宝藏开源CDC工具助您破壁 | StoneDB数据库观察 第9期
作者|祁国辉编辑|宇亭头图|Yeekin责编|韩楠实时
数仓
的浪潮来袭,对于用户最大的挑战,就是业务数据的变化需要实时反馈到后台系统,甚至需要针对这些变化,快速做出反应,那么就需要
·
2023-08-15 16:38
数据库mysql
DTCC 2023即将启幕 明天见!
作为国内云原生数据仓库代表厂商,酷克数据受邀亮相DTCC2023,与广大数据库领域从业人士共同分享云原生
数仓
发展趋势,探讨数据仓库提升实时性的路径。精彩话题不容错过!
·
2023-08-15 16:06
数据库postgresql
如何设计实时数据平台(技术篇)
在上篇(设计篇)中,我们从现代
数仓
架构角度和典型数据处理角度介绍了RTDP,并探讨了RTDP的整体设计架构。本文作为下篇(技术篇),则是从技术角度入手
longLiveData
·
2023-08-15 14:47
热烈Matplotlib子图不不会画来看看-分图绘制(怒肝万字)
博主介绍:大家好,我是大锤爱编程的博客_CSDN博客-大数据,Go,数据分析领域博主,有五年的数据开开发,有着丰富的
数仓
搭建、数据分析经验。
大锤爱编程
·
2023-08-15 05:29
matplotlib
python
信息可视化
字节电商大数据开发一面,已过,面试题已配答案
面试题答案参考大数据面试题V3.0,523道题,679页,46w字1、实习经历这点不多说了,根据自己的来就行2、工作中最难的点一般都会提前回顾之前自己遇到的问题,根据自己的来3、如何保证数据质量这里主要是阿里对
数仓
的一些数据质量保证原则
蓦然_
·
2023-08-15 01:36
大数据面试题
数据仓库
大数据
面试
数仓
建设保姆级教程,离线和实时理论+实战
文档大纲:一、
数仓
基本概念1.数据仓库架构我们在谈
数仓
之前,为了让大家有直观的认识,先来谈
数仓
架构,“架构”是什么?这个问题从来就没有一个准确的答案。
灯惉
·
2023-08-14 23:57
Flink—读Hive表数据写入Kafka
引言场景
数仓
Hive中的数据需要读取后写入Kafka中进行数据服务输出。选型 选用Flink进行读Hive写Kafka,因为其拥有丰富的connector可选择。
Andya_net
·
2023-08-14 19:02
Hadoop大数据技术
开发模板总结
#
Flink
kafka
hive
flink
成功解决DataX从Hive导出Oracle的数据乱码问题!
市面上可用的etl工具和框架很多,如来自于传统
数仓
和BI圈的kettle/informatica/datastage,来自于hadoop生态圈的sqoop/datax,抑或使用计算引擎spark/presto
笑看风云路
·
2023-08-14 18:30
hive
DataX
数据乱码
ETL
Hive
Oracle
大数据开发基础-环境配置篇-Hadoop集群安装
首先是大数据开发基础篇环境搭建、组件面试题等其次是更新大数据开发面经的java面试基础最后更新一个大数据开发离线
数仓
的实战项目,自己写入简历的项目。关注不迷路,学习要进步!!!!!!
葡萄成熟时_
·
2023-08-14 01:19
大数据工程师Java
hadoop
大数据
hdfs
大数据开发学习基础篇
BIGO 使用 Flink 做 OLAP 分析及实时
数仓
的实践和优化
▼关注「ApacheFlink」,获取更多技术干货▼摘要:本文整理自BIGOStaffEngineer邹云鹤在FlinkForwardAsia2021的分享。主要内容包括:业务背景落地实践&特色改进应用场景未来规划Tips:点击「阅读原文」查看原文视频&演讲PDF~一、业务背景BIGO是一家面向海外的以短视频直播业务为主的公司,目前公司的主要业务包括BigoLive(全球直播服务),Likee(短
Apache Flink
·
2023-08-13 15:54
数据仓库
大数据
数据库
python
数据分析
不惧流量持续上涨,BIGO 借助 Flink 与 Pulsar 打造实时消息系统
随着数据规模日益增长,产品不断迭代,BIGO消息流平台承载的数据规模出现了成倍增长,下游的在线模型训练、在线推荐、实时数据分析、实时
数仓
等业务对消息流平台的实时性和稳定性提出了更高的要求。
zhisheng_blog
·
2023-08-13 15:53
运维
大数据
分布式
hadoop
数据库
基于 Flink 的 OLAP 分析及实时
数仓
实践
摘要:本文整理自BIGOStaffEngineer邹云鹤在FlinkForwardAsia2021的分享。主要内容包括:业务背景落地实践&特色改进应用场景未来规划一、业务背景BIGO是一家面向海外的以短视频直播业务为主的公司,目前公司的主要业务包括BigoLive(全球直播服务),Likee(短视频创作分享平台),IMO(免费通信工具)三部分,在全球范围内拥有4亿用户。伴随着业务的发展,对数据平台
浪尖聊大数据-浪尖
·
2023-08-13 15:53
数据仓库
大数据
数据库
java
数据分析
使用Flink 与 Pulsar 打造实时消息系统
随着数据规模日益增长,产品不断迭代,BIGO消息流平台承载的数据规模出现了成倍增长,下游的在线模型训练、在线推荐、实时数据分析、实时
数仓
等业务对消息流平台的实时性和稳定性提出了更高的要求。
ITFLY8
·
2023-08-13 15:22
运维
大数据
分布式
hadoop
数据库
Kafka实时数据同步
ClickHouse3.1数据订阅设置3.2数据加载设置3.3订阅到加载数据流映射3.4查看任务执行日志4校验数据一致性1概述BeeDI支持实时捕获业务系统变化数据并将其发步到Kafka,也支持从Kafka订阅实时数据并写入
数仓
或大数据平台
wahahaman
·
2023-08-13 08:39
kafka
大数据
数据库
clickhouse
数仓
学习(一)
数仓
概述:数据仓库,英文名称为DataWarehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。
孟婆灬来碗汤
·
2023-08-13 00:54
阿里员工讲数据库、
数仓
和报表平台的实施步骤,小白和进阶扫盲系列
数仓
的知识市面上的书籍和文章不少,但是实际实施依据行业不同,企业核心诉求不同,从技术到方法论各有不同。如何实施
数仓
项目,本文先以传统行业的
数仓
切入,从整体上讲下数据仓库的实施方法论!
Leo.yuan
·
2023-08-12 16:56
数据仓库
大数据
数据库
sql
大数据平台
实时
数仓
在滴滴的实践和落地
1.实时
数仓
建设目的随着互联网的发展进入下半场,数据的时效性对企业的精细化运营越来越重要,商场如战场,在每天产生的海量数据中,如何能实时有效的挖
滴滴技术
·
2023-08-12 03:36
本地安装hadoop及其依赖组件
bin-hadoop3.2计算框架zookeeperapache-zookeeper-3.5.7-bin分布式服务器hbasehbase-2.4.11列式存储hiveapache-hive-3.1.3-bin
数仓
元数据启动服务
yyyyjinying
·
2023-08-11 22:01
大数据
hadoop
大数据
分布式
实时
数仓
项目架构分层
一、滴滴实时
数仓
项目在公司内部,我们数据团队有幸与顺风车业务线深入合作,在满足业务方实时数据需求的同时,不断完善实时
数仓
内容,通过多次迭代,基本满足了顺风车业务方在实时侧的各类业务需求,初步建立起顺风车实时
数仓
公众号:肉眼品世界
·
2023-08-11 14:50
大数据
数据库
java
人工智能
数据仓库
实时
数仓
实践以及架构
从智能商业的角度来讲,数据的结果代表了用户的反馈,获取结果的及时性就显得尤为重要,快速的获取数据反馈能够帮助公司更快的做出决策,更好的进行产品迭代,实时
数仓
在这一过程中起到了不可替代的作用。
000X000
·
2023-08-11 14:50
数据仓库
实战
数据中台
架构
数据仓库
big
data
数据仓库实践杂谈(十三)——逻辑数据模型(
数仓
模型)
整体数据分层第三章:整体实现框架第四章:元数据第五章:ETL第六章:数据校验第七章:数据标准化第八章:去重第九章:增量/全量第十章:拉链处理第十一章:分布式处理增量第十二章:列式存储第十三章:逻辑数据模型(
数仓
模型
老程序员一叶知秋
·
2023-08-11 14:45
数据仓库实践
概念数据模型
大数据
数据仓库
etl
数据建模
数仓
架构模型设计参考
1、数据技术架构1.1、技术架构1.2、数据分层将数据仓库分为三层,自下而上为:数据引入层(ODS,OperationDataStore)、数据公共层(CDM,CommonDataModel)和数据应用层(ADS,ApplicationDataService)。数据仓库的分层和各层级用途如下图所示。●数据引入层ODS(OperationDataStore):存放未经过处理的原始数据至数据仓库系统,
docsz
·
2023-08-11 14:14
架构
大数据
Flink实时
数仓
相关数据:启动日志:{"common":{"ar":"310000","ba":"Redmi","ch":"xiaomi","is_new":"1","md":"Redmik30","mid":"mid_7","os":"Android11.0","uid":"23","vc":"v2.1.111"},"start":{"entry":"icon","loading_time":13312,"op
黑冰vip
·
2023-08-11 12:53
Fink
flink
离线
数仓
08—— 配置Hive on Spark
文章目录6.1数据仓库运行环境6.1.1Hive环境搭建6.1.2Yarn环境配置上一篇:离线
数仓
07——数据仓库设计下一篇:离线
数仓
09——模拟数据准备6.1数据仓库运行环境6.1.1Hive环境搭建
就是这个范~
·
2023-08-11 00:17
离线数仓
hive
spark
数据仓库
离线
数仓
15—— 报表数据导出到MySQL
文章目录第12章报表数据导出12.1MySQL建库建表12.1.1创建数据库12.1.2创建表12.2数据导出12.2.1编写DataX配置文件12.2.2DataX配置文件生成脚本12.2.3测试生成的DataX配置文件12.2.4编写每日导出脚本第12章报表数据导出为方便报表应用使用数据,需将ads各指标的统计结果导出到MySQL数据库中。12.1MySQL建库建表12.1.1创建数据库CRE
就是这个范~
·
2023-08-11 00:17
离线数仓
mysql
数据库
java
从0到1搭建数据仓库流程
从0到1搭建
数仓
,可以概括为6个步骤:业务探查、技术选型、规范制定、主题域划分、
数仓
分层、模型建设。一、业务探查梳理公司业务系统,业务关心的指标,开发过的需求。
夜希辰
·
2023-08-11 00:17
数仓建设
大数据
数据仓库
离线
数仓
02——用户行为日志和采集
文章目录第3章用户行为日志3.1用户行为日志概述3.2用户行为日志内容3.2.1页面浏览记录3.2.2动作记录3.2.3曝光记录3.2.4启动记录3.2.5错误记录3.3用户行为日志格式3.3.1页面日志3.3.2启动日志3.4服务器和JDK准备3.4.1服务器准备3.4.2SSH无密登录配置和JDK准备3.4.3环境变量配置说明3.5模拟数据3.5.1使用说明3.5.2集群日志生成脚本第4章用户
就是这个范~
·
2023-08-11 00:16
离线数仓
java
开发语言
flume
数据仓库
离线
数仓
-03-
数仓
系统搭建(ODS,DIM,DWD,DWS,ADS)
文章目录
数仓
分层为什么要分层数据运营层:ODS(OperationalDataStore)数据仓库层:DW(DataWarehouse)维表层:DIM(Dimension)数据明细层:DWD(DataWarehouseDetail
迷雾总会解
·
2023-08-11 00:45
项目
大数据
hive
数据仓库
大数据离线
数仓
开发项目详细教程
目录一、数据准备/opt/eventdata二、环境准备三、创建Kafka的topic主题四、使用Flume将文件采集到Kafka(一)在/opt/soft/flume190/conf/目录下创建events文件夹,并创建5个conf文件(二)events.conf(三)ea.conf1.ea.conf脚本内容:2开启flume3.复制文件到指定目录4.查看event_attendees_raw主
雷神乐乐
·
2023-08-11 00:44
Spark学习
大数据
kafka
分布式
数仓
项目——在线教育平台离线数据仓库效果展示
ECS云服务器搭建了在线教育平台的离线数据仓库,本文仅用于记录最终的效果,从0到1的实现过程后续进行补充,由于抢占式实例的云服务器按量进行每小时计费,为了避免持续的收费,所以我急于展示结果,也就有了此文(
数仓
已经搭建完成
Vigoroushui
·
2023-08-11 00:44
项目
数据仓库
hadoop
hue集群
mysql
zookeeper
【从0开始离线
数仓
项目】——数据仓库的环境搭建(1)
目录一、服务器环境准备1.2编写集群分发脚本xsync1.3SSH无密登录配置1.4JDK准备1.5环境变量配置说明二、集群所有进程查看脚本三、Zookeeper安装3.1分布式安装部署3.2ZK集群启动停止脚本3.3客户端命令行操作一、服务器环境准备CentOS7怎么从命令行模式切换到图形界面模式切换至root权限:sudosu-准备三台虚拟机,虚拟机配置要求如下:(1)单台虚拟机:内存4G,硬
Lingxw_w
·
2023-08-11 00:13
从0开始离线数仓项目
数据仓库
hadoop
zookeeper
kafka
Flink—读Hive表数据写入Kafka
引言场景
数仓
Hive中的数据需要读取后写入Kafka中进行数据服务输出。选型 选用Flink进行读Hive写Kafka,因为其拥有丰富的connector可选择。
Hughman
·
2023-08-10 22:26
不会Elasticsearch标准查询语句,如何分析
数仓
数据?
1Elasticsearch的查询语句ES中提供了一种强大的检索数据方式,这种检索方式称之为QueryDSL,QueryDSL是利用RestAPI传递JSON格式的请求体(RequestBody)数据与ES进行交互,这种方式的丰富查询语法让ES检索变得更强大,更简洁。1.1查询预发#GET/索引名/_doc/_search{json格式请求体数据}#GET/索引名/_search{json格式请求
贝小贝貝
·
2023-08-10 21:32
DataEase
数据可视化
elasticsearch
BI
大数据
数据分析
数据仓库
Mysql表通过存储过程删除生产表数据
在建设实时
数仓
的过程中,用到了Mysql存放增量的结果数据,所以需要定时清理历史数据,为了避免影响的线上的实时数据写入,采用了按照最后更改时间,分段删除的方法。
风筝flying
·
2023-08-10 14:54
大数据开发:Hive列式存储ORC、Parquet的优点
众所周知,作为Hive列式存储提供了高性能的存储方式,面对大规模的数据存储任务,也能高效快速地完成,这也是Hive作为
数仓
工具受到肯定的一大优点。
成都加米谷大数据
·
2023-08-10 10:12
尘锋信息基于 Apache Paimon 的流批一体湖仓实践
尘锋信息基于ApachePaimon构建流批一体湖仓,主要分享:整库入湖,TB级数据近实时入湖基于Flink+Paimon的
数仓
批ETL建设基于Flink+Paimon的
数仓
流ETL建设
数仓
OLAP与数据地图点击进入
Apache Flink
·
2023-08-10 10:28
Flink
大数据
实时计算
apache
大数据
5 小时玩转阿里云 Flink 实时湖仓,速速报名!
小时玩转阿里云Flink实时湖仓,项目依托于传智教育博学谷线上教育平台数字化建设场景,真实还原实时计算业务细节,学完后掌握基于阿里云的FlinkCDC,Paimon,StarRocks等核心技术,收获完整实时
数仓
与流式数据湖构建经验
Apache Flink
·
2023-08-10 07:31
flink
大数据
芒果 TV 基于 Flink 的实时
数仓
建设实践
一、芒果TV实时
数仓
建设历程芒果TV实时
数仓
的建设共分为三个阶段,14-19年为第一阶段,技术选型采用Storm/FlinkJava+SparkSQL
Apache Flink
·
2023-08-10 07:26
flink
大数据
数据血缘落地实践
数据仓库系列文章(持续更新)
数仓
架构发展史
数仓
建模方法论
数仓
建模分层理论
数仓
建模—宽表的设计
数仓
建模—指标体系数据仓库之拉链表
数仓
—数据集成
数仓
—数据集市
数仓
—商业智能系统
数仓
—埋点设计与管理
数仓
—IDMapping
大数据技术派
·
2023-08-10 06:58
spark
大数据
分布式
大屏实时计算深度剖析(Flink 入门 技术体系剖析 实战 数据处理设计方案 核心技术点)
大屏实时计算深度剖析大屏实时计算深度剖析1.实时计算应用场景1.1智能推荐1.2实时
数仓
1.3大数据分析应用2.Flink快速入门2.1Flink概述2.2Flink基础案例2.3Flink部署配置2.4Flink
Ybb_studyRecord
·
2023-08-10 05:25
大数据
flink
big
data
人工智能
实时计算
Flink sql 创建 视图-view
1.场景是通过flinksql对表的操作,通过添加多个算子对结果的操作如图:例子不是很恰当主要是我们在创建
数仓
表时,通过先将一个函数的结果集放到一个视图中,在通过一个一个函数将结果放入到下一个视图中,然后在通过视图
wudl
·
2023-08-10 00:41
Databend 开源周报第 105 期
Databend是一款现代云
数仓
。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn。
Databend
·
2023-08-09 07:49
开源
搭建企业级BI系统有多快?奥威BI表现惊人
主要有搭建环境、建设
数仓
和分析模型、设计数据可视化报表。
qq_43696218
·
2023-08-09 07:11
信息可视化
两个用字符串表示的大数字的和
文章目录题目详情Java实现分析Java怎么获取到字符串中的对应位置的数字值Java完整代码测试验证python实现python怎么获取到字符串中的对应位置的数字值python完整代码总结这是遇到的一道快手
数仓
岗位的面试题目
富有一文
·
2023-08-09 07:04
算法
java
算法
面试
python
字符串处理
Nebula Exchange 工具 Hive 数据导入的踩坑之旅
www-cdn.nebula-graph.com.cn/nebula-blog/nebula-exchange-hive-import-best-practice.png)]摘要:本文由社区用户xrfinbj贡献,主要介绍Exchange工具从Hive
数仓
导
图数据库NebulaGraph
·
2023-08-09 06:01
Nebula
Graph
数据库
图数据库
基于 Flink x TiDB,智慧芽打造实时分析新方案
摘要:本文整理自智慧芽数据仓库架构师曲明星在FlinkForwardAsia2021实时
数仓
专场的分享。
Flink中文社区
·
2023-08-09 02:20
上一页
17
18
19
20
21
22
23
24
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他