E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓项目学习
基于 Hologres+Flink 的曹操出行实时
数仓
建设
云布道师曹操出行创立于2015年5月21日,是吉利控股集团布局“新能源汽车共享生态”的战略性投资业务,以“科技重塑绿色共享出行”为使命,将全球领先的互联网、车联网、自动驾驶技术以及新能源科技,创新应用于共享出行领域,以“用心服务国民出行”为品牌主张,致力于打造服务口碑最好的出行品牌。曹操出行业务背景介绍作为一家互联网出行平台,主要提供了网约车、顺风车、专车等一些出行服务。打车为其主要的一个业务场景
云布道师
·
2024-01-25 20:23
阿里云
Go Web
项目学习
之项目结构
风离不摆烂学习日志Day4—GoWeb
项目学习
之项目结构创建项目配置代理下载加速go包代理GOPROXY=https://goproxy.cn,direct本
项目学习
自:[github.com](https
风 离
·
2024-01-25 18:28
Golang
golang
前端
学习
gin
gorm
大数据分析组件Hive-集合数据结构
Hive常作为离线
数仓
的分析工具,当面临Json数据时,Hive需要用到其数据结构构建出一张
Aimyon_36
·
2024-01-25 15:15
Hive
数据分析
hive
数据结构
Flink(十五)【Flink SQL Connector、savepoint、CateLog、Table API】
前言今天一天争取搞完最后这一部分,学完赶紧把Kafka和Flume学完,就要开始做实时
数仓
了。据说是应届生得把实时
数仓
搞个80%~90%才能差不多找个工作,太牛马了。
让线程再跑一会
·
2024-01-24 07:17
Flink
flink
大数据
企业建
数仓
的第一步是选择一个好用的ETL工具
而选择合适的ETL工具是构建
数仓
的关键一步。因没有高灵活度的ETL就无法构建高质量的
数仓
。数据仓库的重要性数据仓库是企业将各个部门和系统中分散的数据进行整合、清洗和分析的基础
苛子
·
2024-01-23 20:36
etl
数据仓库
用flinkcdc debezium来捕获数据库的删除内容
但是我现在情况是doris做为
数仓
,数据写到ods,ods的数据还会通过flink计算后写入dwd层,所以此时ods的数据是删除了,但是dwd甚至ads的都没删除,这样就会有脏数据。
后季暖
·
2024-01-23 11:17
数据库
学习让我成长
自从参加暑假2019兴成长计划班,觉得自己过得很充实,在假期也能不断的给自己充电,虽说不是本学科专业知识,但从学科整合及
项目学习
角度考虑,只要学习就会有收获,就会有帮助,这次培训班我选的课程是信息素养提升
通化市179张越
·
2024-01-23 10:41
【
项目学习
】记录segment-anything、SAM及衍生自动标注工具使用
本文章由三部分组成:1.SegmentAnythingModel(SAM)概述:是我学习概念做的记录可以不看直接跳过。2.SAM衍生的标注工具使用:试用了两个开源的SAM衍生的标注工具记录3.遇到的问题参考:1.segment-anything官方demo演示2.SA基础模型图像分割的介绍3.segment-anything项目一、SegmentAnythingModel(SAM)概述Segmen
甜苦酱汁
·
2024-01-23 09:17
开源项目学习
学习
人工智能
计算机视觉
pycharm创建vue项目
pycharm创建vue
项目学习
vue需要下载node.js链接:node.js安装淘宝npm镜像命令行输入:npminstall-gcnpm--registry=https://registry.npm.taobao.org
utoui
·
2024-01-23 07:19
笔记
vue.js
node.js
npm
javascript
html5
Hive 拉链表详解及实例
拉链表版本迭代:hive0.14slowlychangingdimension=>hive2.6.0merge事务管理原来采用分区表,用户分区存储历史增量数据,缺点是重复数据太多定义:
数仓
用于解决持续增长且存在一定时间时间范围内重复的数据存储
Byyyi耀
·
2024-01-23 06:45
hive
hadoop
数据仓库
拉链表
Hive
数仓
及
数仓
设计方案
数仓
(DataWarehouse)数据仓库存在的意义在于对企业的所有数据进行汇总,为企业各个部门提供一个统一、规范的出口。做
数仓
就是做方案,是用数据治理企业的方案。
Byyyi耀
·
2024-01-23 06:34
hive
hadoop
数据仓库
flume案例
在构建
数仓
时,经常会用到flume接收日志数据,通常涉及到的组件为kafka,hdfs等。下面以一个flume接收指定topic数据,并存入hdfs的案例,大致了解下flume相关使用规则。
不加班程序员
·
2024-01-23 06:48
ETL
kafka
Hadoop相关
flume
大数据
etl
数仓
建设 - 维度建模 - DIM维度
文章目录前置:准备数据库一、商品维度表1.1表结构设计1.2建表语句1.3ETL任务脚本二、优惠券维度表2.1表结构设计2.2ETL任务脚本三、活动维度表3.1表结构设计3.2ETL任务脚本四、地区维度表4.1表结构设计4.2ETL任务脚本五、日期维度表六、用户维度表6.1表结构设计6.2ETL任务脚本前置:准备数据库[
[email protected]
]$
m0_46218511
·
2024-01-23 05:14
大数据基础设施搭建
维度建模
数据仓库
Databend 开源周报第 128 期
Databend是一款现代云
数仓
。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn。
Databend
·
2024-01-23 03:01
开源
Databend 开源周报第 129 期
Databend是一款现代云
数仓
。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn。
Databend
·
2024-01-23 03:31
开源
Flink背景
数仓
简介在信息爆炸的时代,为了从海量数据中洞察业务价值,驱动运营决策,企业通常会构建用于数据分析的数据仓库。
201001070
·
2024-01-22 08:31
Flink
flink
大数据
大数据开发之电商
数仓
(hadoop、flume、hive、hdfs、zookeeper、kafka)
第1章:数据仓库1.1数据仓库概述1.1.1数据仓库概念1、数据仓库概念:为企业制定决策,提供数据支持的集合。通过对数据仓库中数据的分析,可以帮助企业,改进业务流程、控制成本,提高产品质量。数据仓库并不是数据的最终目的地,而是为数据最终的目的地做好准备,这些准备包括对数据的:清洗、转义、分类、重组、合并、拆分、统计等。2、数据仓库的数据通常包括:业务数据、用户行为数据和爬虫数据等3、业务系统数据库
Key-Key
·
2024-01-22 07:29
大数据
hadoop
flume
kafka
hive
hdfs
数据仓库简介、数据仓库的发展、
数仓
理论简介
数仓
理论简介数据仓库解决方案诞生至今,也有2、30年的发展历史了,在这个过程中,
数仓
理论不断被更新和完善,逐步形成了目前大家普通遵守的
数仓
开发理论(概念)。
yida&yueda
·
2024-01-21 11:48
大数据
数据仓库
big
data
数据库
数据仓库简介
一、
数仓
概念数据仓库,英文名称为DataWarehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。
水坚石青
·
2024-01-21 11:46
数据仓库
mysql
数据库
java
数据仓库
oracle
大数据
django
项目学习
八
订单模块事务Django默认的事务行为Django默认的事务行为是自动提交。除非事务正在执行,每个查询将会马上自动提交>到数据库。Django自动使用事务或还原点,以确保需多次查询的ORM操作的一致性,特别是>delete()和update()操作。为什么需要事务?解释详情请见链接:https://blog.csdn.net/qq_24997655/article/details/78757347
qq_29254653
·
2024-01-21 06:58
python
mysql
django
python
orm
网小鱼Java的bug小集锦0033-SpringBoot文件配置端口不生效
在
项目学习
的时候,配置一个bootstrap.yml文件的时候,发现端口写上是灰色的,而且bootstrap.yml文件也没有出现正常的绿色小叶子的标识,检查也一下配置文件,发现是配置文件中的依赖加入有问题
网小鱼的学习笔记
·
2024-01-20 22:25
网小鱼Java的bug集
java
spring
spring
boot
bug
配置文件
Hologres V2.1版本发布,新增计算组实例构建高可用实时
数仓
Highlight产品介绍Hologres是阿里云自研一站式实时
数仓
,统一数据平台架构,将OLAP查询、即席分析、在线服务、向量计算多个数据应用构建在统一存储之上,实现一份数据,多种计算场景。
阿里云大数据AI技术
·
2024-01-20 21:07
网络
java
数据库
巴别时代基于 Apache Paimon 的 Streaming Lakehouse 的探索与实践
我们基于ApachePaimon(Incubating)构建StreamingLakehouse的落地实践主要分为三期:第一期是在调研验证的基础上进行
数仓
分层,并且上线一些简单的业务验证效果;第二期是实现流式
数仓
的基础设施建设
Apache Flink
·
2024-01-20 12:21
Flink
大数据
实时计算
apache
kafka
大数据
java
分布式
程序员必备的面试技巧——大数据工程师面试必备技能
目录前言一、不同工程师的职责和技能要求1、
数仓
开发工程师2、算法挖掘工程师3、大数据平台开发工程师4、大数据前端开发工程师二、大数据技术架构图三、大数据相关的技术内容四、大数据面试经验1、大数据开发岗位
Francek Chen
·
2024-01-20 11:22
话题征文
面试
职场和发展
大数据
超融合之道:亚信安慧AntDB 8.0版本引领数据库创新
在当今多变的数据应用场景中,AntDB作为行业领先的超融合流式实时
数仓
,秉承着“融合+实时”的研发理念,全面应对企业日益复杂的数据处理需求。
亚信安慧AntDB数据库
·
2024-01-20 01:00
数据库
antdb数据库
antdb
华为外包数据库面试问题分享20211225
数仓
的东西了解多少。数据库开发支持这方面你做过哪些。你现在的工作中的SQL开发,具体是作了哪些。你的工作意愿是哪个方向(这么问是因为知道了我没做过DBA)在
数仓
的设
钦䲹
·
2024-01-19 16:05
数据库
华为
面试
某小外包公司线上面试-大数据开发
1.
数仓
和数据库的区别2.
数仓
建模3.hive用到的函数4.rank,dense_rank,row_number的区别5.hive数据倾斜的原因有哪些7.如何理解数据质量?
劝学-大数据
·
2024-01-19 16:03
大数据面试题
大数据
基于 Hologres+Flink 的曹操出行实时
数仓
建设
本文整理自曹操出行实时计算负责人林震基于Hologres+Flink的曹操出行实时
数仓
建设的分享,内容主要分为以下六部分:曹操出行业务背景介绍曹操出行业务痛点分析Hologres+Flink构建企业级实时
数仓
曹操出行实时
数仓
实践曹操出行业务成果分析未来展望一
Apache Flink
·
2024-01-19 08:54
flink
大数据
FineBI实战项目一(25):实战项目一总结
实在项目使用mysql做
数仓
库的ODS层,这仅仅是带领大家入门,用mysql做
数仓
存在很多问题。
不死鸟.亚历山大.狼崽子
·
2024-01-19 02:39
FineBI
finebi
数仓
架构图
阿里巴巴的数据团队把表数据模型分为三层:操作数据层(ODS)、公共维度模型层(DM)和应用数据层(DS),其中公共维度模型层包括明细数据层(DWD)和汇总数据层(DWS)。模型层次关系如9.9所示。image.png公共维度模型层(CDM):存放明细事实数据、维表数据及公共指标汇总数据其中明细事实数据、维表数一般根据ODS层数据加工生成:公共指标汇总数据般根据维表数据和明细事实数据加工生成。CDM
liuxiaolin
·
2024-01-19 01:27
【大数据
项目学习
】第十章:HBase分布式集群部署与设计
第十章:HBase分布式集群部署与设计一个初学者的大数据学习过程文章目录第十章:HBase分布式集群部署与设计1.HBase安装前须知1.1必备条件1.1.1硬件1.1.2软件1.2运行模式2.HBase安装部署2.1集群规划2.1.1主机规划2.1.2软件规划2.1.3用户规划2.1.4目录规划2.2HBase安装步骤2.2.1下载2.2.1解压2.2.1创建软连接2.2.1修改配置文件2.2.
学不会K8S不改ID
·
2024-01-19 00:23
大数据项目学习
分布式
hadoop
linux
java
大数据
Hologres + Flink 流式湖仓建设
Flink流式湖仓建设1Flink+Hologres特性1.2实时维表Lookup1.3高性能实时写入与更新1.4多流合并1.5Hologres作为Flink的数据源1.6元数据自动发现与更新2传统实时
数仓
分层方案
Direction_Wind
·
2024-01-18 21:56
hologres
技术调研
flink
大数据
白山云基于StarRocks数据库构建湖仓一体
数仓
的实践
背景随着每天万亿级别的业务数据流向数据湖,数据湖的弊端也逐渐凸显出来,例如:数据入湖时效性差:数据湖主要依赖于离线批量计算,通常不支持实时数据更新,因此无法保证数据的强一致性,造成数据不及时、不准确;查询性能差:在传统架构下,数据湖的查询速度较差,小时粒度的数据查询往往需要数分钟才能得到响应,在多个业务方同时执行数据湖查询任务时,查询响应慢的劣势更加明显;查询体验差:数据存储在多个地方,在进行联邦
StarRocks_labs
·
2024-01-18 17:04
社区投稿
数据库
大数据
技术选型|开源大数据OLAP引擎最佳实践
一、开源OLAP综述二、开源
数仓
解决方案三、ClickHouse介绍四、StarRocks介绍五、Trino介绍六、客户案例01开源OLAP综述如今的开源数据引擎多种多样,不同种类的引擎满足了我们不同的需求
浪尖聊大数据-浪尖
·
2024-01-18 08:14
运维
大数据
分布式
数据库
人工智能
数仓
项目6.0配置大全(hadoop/Flume/zk/kafka/mysql配置)
配置背景我使用的root用户,懒得加sudo所有文件夹在/opt/module所有安装包在/opt/software所有脚本文件在/root/bin三台虚拟机:hadoop102-103-104分发脚本fenfa,放在~/bin下,chmod777fenfa给权限#!/bin/bash#1.判断参数个数if[$#-lt1]thenechoXXXXXXXXXNoArguementXXXXXXXXX!
Int mian[]
·
2024-01-18 06:57
hadoop
flume
kafka
如何设计实时数据平台(设计篇)
在上篇设计篇中,我们首先从两个维度介绍实时数据平台:从现代
数仓
架构角度看待实时数据平台,从典型数据处理角度看待实时数据处理;接着我们会探讨实时数据平台整体设计架构、对具体问
longLiveData
·
2024-01-18 05:11
离线
数仓
二
数据仓库维度模型设计维度建模基本概念维度模型是数据仓库领域大师RalphKimall所倡导,他的《数据仓库工具箱》,是数据仓库工程领域最流行的
数仓
建模经典。
pauls
·
2024-01-18 00:26
尚硅谷离线
数仓
之采集平台
1.用户行为日志数据流向流程图如下,其中红框表示用户行为日志数据的流向图。1.1行为日志内容行为日志主要包括以下几个内容页面浏览记录动作记录曝光记录启动记录错误记录页面浏览记录动作记录曝光记录启动记录1.2用户行为日志格式页面日志启动日志页面日志,以页面浏览为单位,即一个页面浏览记录,生成一条页面埋点日志。一条完整的页面日志包含,一个页面浏览记录,用户在该页面所做的若干个动作记录,若干个该页面的曝
韩顺平的小迷弟
·
2024-01-17 21:56
大数据
python
开发语言
数据仓库面试题
1思维导图&
数仓
常见面试题2题目1.数据仓库是什么?
韩顺平的小迷弟
·
2024-01-17 21:53
大数据面试题
数据仓库
大数据
2024.1.16 用户画像day01 - 项目介绍
技术选型:技术架构:项目架构:二.名词解释一.项目介绍整体流程:项目介绍-elasticSearch-业务数据源导入-离线指标开发-Flume实时采集-Nginx日志埋点数据-结构化流实时指标-制作报表
数仓
开发用户画像实时开发
白白的wj
·
2024-01-17 15:40
spark
大数据
分布式
python
kafka
zookeeper
hive
关于CarbonData+Spark SQL的一些应用实践和调优经验分享
行业亟需一个高效、统一的融合
数仓
,从海量数据中快速获取有效信息,从而洞察机遇、规避风险。
weixin_34075551
·
2024-01-17 15:31
大数据
人工智能
后端
数仓
数据含有特殊字符,如何更方便的导出成excel文件
如果遇到数据中含有特殊字符,"\n","\r","\t",或者其他的特殊分隔符在数据导出时造成错位,都用sql替换,但是需求是导出的数据要保持原有内容格式,就不能替换剔除这些特殊字符,这种情况下使用json方式1,在hive
数仓
建一个临时的
第一次看海
·
2024-01-17 15:00
1024程序员节
spark sql实践开发后端引擎
-------------“何以解忧,唯有暴富”需求开发一个系统,主要是将
数仓
中治理完用于检索的数据灌入Elasticsearch中,一般情况,开源的一些系
第一次看海
·
2024-01-17 14:28
spark
sql
大数据
Mr_HJ / form-generator
项目学习
-增加自定义的超融组件(二)
更多ruoyi-nbcio功能请看演示系统gitee源代码地址前后端代码:https://gitee.com/nbacheng/ruoyi-nbcio演示地址:RuoYi-Nbcio后台管理系统更多nbcio-boot功能请看演示系统gitee源代码地址后端代码:https://gitee.com/nbacheng/nbcio-boot前端代码:https://gitee.com/nbacheng
宁波阿成
·
2024-01-16 16:35
nbcio-boot
ruoyi-nbcio
vue
vue
ruoyi-nbcio
前端
表单设计器
Hive使用shell调用命令行特殊字符处理
1.场景分析数据处理常用hive-e的方式,通过脚本操作
数仓
,过程中常常遇到特殊字符的处理,如单双引号、反斜杠、换行符等,现将特殊字符用法总结使用如下,可直接引用,避免自行测试的繁琐。
tuoluzhe8521
·
2024-01-16 07:17
Hive相关
hive
hadoop
数据仓库
ClickHouse - 01
批处理会将源业务系统中的数据通过数据抽取工具(例如Sqoop)将数据抽取到HDFS中,这个过程可以使用MapReduce、Spark、Flink技术对数据进行ETL清洗处理,也可以直接将数据抽取到Hive
数仓
中
ArthurHC
·
2024-01-16 02:17
数据库, 数据仓库, 数据集市,数据湖,数据中台
数据仓库和数据库的区别作者:南宫蓉出处:简书第一篇:数据仓库概述第二篇:数据库关系建模作者:穆晨出处:CNBLOS数据仓库、数据湖、数据集市、和数据中台的故事作者:Murkey学习之旅出处:csdn数据中台和
数仓
的关系作者
cxzhq2002
·
2024-01-16 01:26
数据库
mysql/oracle 数据库delete操作太慢(where ... in ...),不加索引,一招让性能提升百倍
比如在
数仓
项目中,软删虽然更快更安全,但是缺点也很多:1、软删造成数据冗余,甚至快速膨胀的后果。比如一些中间表,只是作为中转站,过两天数据就分配其他表了,不硬删的话就会造成数据快速膨胀。
大壮001
·
2024-01-15 23:30
大数据
数据库
数据库
mysql
oracle
sql
大数据
亚信安慧AntDB-S流式数据库实现企业数智化转型
AntDB-S流式数据库是一项针对实时
数仓
等场景的创新技术,旨在取代传统的流式处理引擎,从而简化开发和测试过程。该流式数据库具备强大的ACID特性和高可用性,为企业降低了流式业务开发和维护的成本。
亚信安慧AntDB数据库
·
2024-01-15 14:11
数据库
大数据
antdb数据库
antdb
国产开源优秀新一代MPP数据库StarRocks入门之旅-
数仓
新利器(上)
概述背景ApacheDoris官方地址https://doris.apache.org/ApacheDorisGitHub源码地址https://github.com/apache/incubator-dorisApacheDoris是一个现代化的MPP分析型数据库产品。仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。ApacheDoris的分布式架构非常简洁,易于运维,并且可以支持1
IT小神
·
2024-01-15 13:45
大数据
数据库
分布式
数据库
大数据
分布式
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他