E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓学习专栏
「
数仓
建设」主题域划分
大家好,本篇聊一下
数仓
建设,讲一下面试常遇到的主题域与主题划分,更多精彩文章优先从微信公众号《大数据阶梯之路》首发,欢迎关注,公众号回复:大数据
数仓
资料,可以获取大数据
数仓
相关学习资料。
大数据阶梯之路
·
2023-10-16 12:38
java spark 消费kafka_spark streaming消费kafka数据写入hdfs避免文件覆盖方案(java版)
1.写在前面在sparkstreaming+kafka对流式数据处理过程中,往往是sparkstreaming消费kafka的数据写入hdfs中,再进行hive映射形成
数仓
,当然也可以利用sparkSQL
吴羽舒
·
2023-10-16 11:40
java
spark
消费kafka
使用Python创建faker实例生成csv大数据测试文件并导入Hive
数仓
文章目录一、Python生成数据1.1代码说明1.2代码参考二、数据迁移2.1从本机上传至服务器2.2检查源数据格式2.3检查大小并上传至HDFS三、beeline建表3.1创建测试表并导入测试数据3.2建表显示内容四、csv文件首行列名的处理4.1创建新的表4.2将旧表过滤首行插入新表一、Python生成数据1.1代码说明这段Python代码用于生成模拟的个人信息数据,并将数据保存为CSV文件。
程序终结者
·
2023-10-16 06:56
Hadoop生态
python
hive
大数据
数据仓库
notepad++正则匹配使用笔记
主要是在对Mysql的ddl语句进行建立
数仓
表的时候,一些正则替换操作的记录;1、正则匹配既有数字,又有字母:结果:如果要对括号进行匹配,就需要一个反斜杠进行转译;2、对非逗号的字符进行替换(目的是不要
靓仔写sql
·
2023-10-15 22:29
正则表达式
【大数据】Apache Hive
数仓
(学习笔记)
一、数据仓库基础概念1、
数仓
概述数据仓库(
数仓
、DW):一个用于存储、分析、报告的数据系统。OLAP(联机分析处理)系统:面向分析、支持分析的系统。
rexhao_wmh
·
2023-10-15 15:36
大数据
apache
hive
新一代大数据技术:构建PB级云端
数仓
实践
在数据大爆炸时代,随着企业的业务数据体量的不断发展,半结构化以及无结构化数据越来越多,传统的数据仓库面临重大挑战。通过以Hadoop,Spark为代表的大数据技术来构建新型数据仓库,已经成为越来越多的企业应对数据挑战的方式。本期极客说邀请了来自腾讯云大数据基础团队负责人,大数据技术专家堵俊平来为我们分享介绍大数据领域最近的技术趋势,包含介绍Hadoop与Spark技术的最新进展。通过一些实际的应用
腾讯云开发者
·
2023-10-14 23:07
Flink1.11.0 SQL与hive整合
一、前言此次flinksql整合hive主要是能在flinksql中读写hive数据,为flink实时写数据进入hive构建实时
数仓
做准备工作。
天涯到处跑
·
2023-10-14 17:58
数仓
开发:相似表结构通用更新函数
数仓
一、需求描述二、Oracle代码实现三、Mysql代码实现一、需求描述在
数仓
开发中,可能会遇到这样的需求:
数仓
多层之前要进行merge操作,有多少张表进行多少次merge,针对这种通用的merge操作
我爱夜来香A
·
2023-10-14 15:14
数据库开发
java
数据库
开发语言
数据仓库DW-理论知识储备
数仓
分层数据仓库中的数据一般经过一下几层处理:参考来自1.ODSODS主要完成:(1)保持数据原貌不做任何修
躺着听Jay
·
2023-10-14 09:37
大数据
大数据
什么更重要
在
学习专栏
之前,我的精力漂浮不定,一会儿认真在投身在工作上,一会儿开始学习投资,一会
草稿记录
·
2023-10-14 00:52
数仓
面试题(1)
1.数据库的三范式是什么?答:第一范式(1NF)强调的是列的原子性,即列不能够再分成其他几列。第二范式(2NF)第二范式在第一范式的基础之上更进一层。第二范式需要确保数据库表中的每一列都和主键相关,而不能只与主键的某一部分相关(主要针对联合主键而言)。也就是说在一个数据库表中,一个表中只能保存一种数据,不可以把多种数据保存在同一张数据库表中。第三范式(3NF)第三范式需要确保数据表中的每一列数据都
Young_IT
·
2023-10-13 14:16
大数据开发
数据仓库
大数据
数据结构的魔法:高级算法优化实战
文章目录数据结构与算法:基础知识数据结构算法高级算法优化实战1.数据缓存2.哈希表优化3.算法优化高级算法优化的挑战结论欢迎来到数据结构
学习专栏
~数据结构的魔法:高级算法优化实战☆*o(≧▽≦)o*☆嗨
IT·陈寒
·
2023-10-13 08:21
Java学习路线
数据结构学习
数据结构
算法
OLAP
数仓
入门:进阶篇
文章作者:温正湖网易易数内容来源:数据库内核@知乎专栏导读:前一篇文章从OLTP出发,通过对比引出OLAP,进一步介绍了
数仓
的基本概念,包括多维数据模型、数据立方体及其典型操作等。
浪尖聊大数据-浪尖
·
2023-10-13 06:34
数据仓库
hadoop
数据库
大数据
编程语言
hadoop
人工智能
利用Flink(1.17)滚动窗口实时统计Apache Doris审计日志
背景及需求:目前生产环境开放给其他业务组后,需要实时统计各业务组访问
数仓
(ApacheDoris)频次,分析异常请求用户,做到实时监控及提前预警,同时针对慢查询日志,要留存分析原因,降低慢查询带来的负影响
码猿小站
·
2023-10-12 19:03
flink
Doris
java
apache
flink
大数据
big
data
flink-2
实时
数仓
项目第1章分层设计在之前介绍实时
数仓
概念时讨论过,建设实时
数仓
的目的。主要是增加数据计算的复用性。每次新增加统计需求时,不至于从原始数据进行计算,而是从半成品继续加工而成。
不爱吃鱼的馋猫
·
2023-10-12 19:02
flink
Hudi 系列-基础概念-索引机制
FlinkSpark总结前言Hudi系列文章在这个这里查看https://github.com/leosanqing/big-data-study索引(Index)是Hudi最重要的特性之一,也是区别于之前传统
数仓
别惹猪儿虫
·
2023-10-12 18:38
Hudi
大数据
大数据
hudi
Java
Flink CDC 系列 - 实现 MySQL 数据实时写入 Apache Doris
▼关注「ApacheFlink」视频号,遇见更多大咖▼摘要:本文通过实例来演示怎么通过FlinkCDC结合Doris的FlinkConnector实现从Mysql数据库中监听数据并实时入库到Doris
数仓
对应的表中
Apache Flink
·
2023-10-12 10:28
大数据
数据库
mysql
java
hadoop
博文推荐|Flink CDC 结合 Doris Flink Connector 实现MySQL数据实时入Apache Doris
本文通过实例来演示怎么通过FlinkCDC结合Doris的FlinkConnector实现从MySQL数据库中监听数据并实时入库到Doris
数仓
对应的表中。
ApacheDoris
·
2023-10-12 10:54
数据库
大数据
hadoop
mysql
java
【Doris】Flink CDC 结合 Doris Flink Connector 实现MySQL数据实时入Apache Doris
本文通过实例来演示怎么通过FlinkCDC结合Doris的FlinkConnector实现从MySQL数据库中监听数据并实时入库到Doris
数仓
对应的表中。
九层之台起于累土
·
2023-10-12 10:48
【Doris】
【BigData】
flink
mysql
apache
数据仓库
大数据
『LeetCode|每日一题』---->找到字符串中所有字母异位词
找到字符串中所有字母异位词1.每日一题2.解题思路2.1思路分析2.2核心代码2.3全部代码2.4易错点作者简介:一位20级的计科专业的新手,请各位大佬多多指教个人主页:XiaoChen_Android
学习专栏
XiaoXiaoChen-2716
·
2023-10-12 07:03
LeetCode专栏
leetcode
算法
java
面试
【C++初阶(一)】学习前言 命名空间与IO流
本专栏内容为:C++
学习专栏
,分为初阶和进阶两部分。通过本专栏的深入学习,你可以了解并掌握C++。
小小unicorn
·
2023-10-12 03:15
c++
c++
IO流
6个步骤实现-
数仓
数据只加工一次・《数据中台》课程总结
备注:文章内容借鉴了郭忆老师《数据中台》课程,想了解更多可以看这个课程哈、目录:一、元数据1、数据字典2、数据血缘3、数据特征二、指标管理1、如何规范化定义指标三、数据模型1、我建模的方法2、理想的
数仓
模型设计应该具备的因素
夜希辰
·
2023-10-12 01:20
余老师带你学习大数据框架全栈第十三章Hudi第一节核心技术
1.前言1.1为什么产生数据湖数据量比较大,越来越不满足处理结构化的数据,比如说
数仓
,
数仓
就是处理结构化数据。
weixin_45810046
·
2023-10-11 20:55
hudi
数据湖
数据湖系列(1) - Hudi 核心功能原理剖析
随着互联网业务的逐步成熟,
数仓
和模型训练的基本盘逐步稳固,越来越多的工程师从业务开发需求转移到了工程的架构升级,而常用的Hudi和Iceberg往往会成为替代Hive/Hdfs等架构升级的选型。
小晨说数据
·
2023-10-11 20:49
大数据
数据库
python
java
spark
实施运维面试题
为什么要用
数仓
数据仓库是一种分析数据库,用于存储和处理数据,以便对数据进行分析。数据仓库有两个主要功能:存储分析数据和处理分析数据。
Geneartion_Z
·
2023-10-11 18:44
linux
数据库
运维
hadoop
大数据
高频时序数据仓库
针对市场上高频行情数据处理业务的相关痛点,直观的在线演示如何通过天软高频
数仓
及高性能计算能力,将其逐个击破,期待各位老师的参会。
Tinysoft_SH
·
2023-10-11 16:24
大数据
数据库
数据库开发
数据库架构
数据仓库
为何需要重新编译过的hive
3.安装好后可按如下命令查看hive兼容的spark总结前言大数据生态各个组件之间存在兼容性问题,假如您想从事大数据开发相关工作,那么后续很有可能会做离线
数仓
的项目,而在搭建
数仓
环境时会用到spark,
博嘁东
·
2023-10-11 14:18
hive
spark
big
data
基于ClickHouse的用户行为(路径)分析实践
在我们的体系中,ClickHouse定位点击流
数仓
,所以下面举几个用它来做用户行为(路径)分析的实战例子,包括:路径匹配智能路径检测有序漏斗转化用户留存Session
LittleMagic
·
2023-10-11 01:06
该如何设计
数仓
的汇总层(DWS)
数据建模,毫无疑问是
数仓
建设的重中之重,然后,在实际的开发过程中,会把大量的时间都投入到了需求开发,往往会忽略数据建模(尤其是DWS层的建模),长此以往,数据模型变的越来越杂乱,指标口径无法统一,造成的结果就是
大数据技术与数仓
·
2023-10-10 23:28
数据仓库,Hive中使用 != 或 <>符号进行条件过滤时的坑
事情经过是这样的,我在把业务系统数据同步到
数仓
(数据存储在Hive)中时,在数据汇总层(DWS),对数据进行汇总处理时,发现有数据丢失的问题,经过排查,发现是在使用致命陷阱业务场景:把业务数据抽到ODS
雾岛与鲸
·
2023-10-10 19:51
hive
数据仓库
hive
hadoop
MPP和hadoop
特别是在企业数据仓库建设中,MPP架构与Hadoop架构代表两类典型的技术路线选型,事实上,在2015年左右甚至有人认为基于Hadoop体系的
数仓
将彻底取代基于MPP数据库的
数仓
。
方璧
·
2023-10-10 18:03
hadoop
大数据
分布式
什么是URL采集工具?URL采集工具(MsrayPlus)可以做什么?
数据采集的概念数据采集就是从海量的数据中,将数据采集到自己的
数仓
进行二次处理大数据时代,我们需要灵活迅速地抓取网页上散乱分布的数据信息,
Delusion
·
2023-10-10 16:07
msray
大数据
数据挖掘
数据库
日常学习记录随笔-大数据之日志(hadoop)收集实战
数据收集(nginx)--->数据分析--->数据清洗--->数据聚合计算---数据展示可能涉及到zabix做任务调度我们的项目电商日志分析比如说我们现在有一个系统,我们的
数仓
建立也要有一个主题我这个项目是什么我要干什么定义方向对用户进行分析
一个诺诺前行的后端程序员
·
2023-10-10 13:23
大数据
学习
hadoop
Flink+Doris 实时
数仓
Flink+Doris实时
数仓
Doris基本原理Doris基本架构非常简单,只有FE(Frontend)、BE(Backend)两种角色,不依赖任何外部组件,对部署和运维非常友好。
不二人生
·
2023-10-09 04:42
#
Doris
flink
大数据
『LeetCode|每日一题』---->旋转矩阵
2.3完整代码2.4运行情况3.解题思路(原地旋转)3.1思路分析3.2核心代码3.3完整代码3.4运行结果每日一句把烦心事都抛掉,腾出地方让鲜花盛开作者简介个人主页:XiaoChen_Android
学习专栏
XiaoXiaoChen-2716
·
2023-10-09 02:40
LeetCode专栏
leetcode
矩阵
算法
java
数据仓库——分层原理
目录一、什么是数据仓库二、
数仓
建模的意义,为什么要对数据仓库分层?
纠结安然猿
·
2023-10-08 23:05
数据仓库
数据库
大数据
大数据必备shell工具
awksedsortcut2)易出错的地方''单引号不解析里面变量的值""双引号解析里面变量的值嵌套:看谁在最外面3)经常使用的场景a.分发脚本(搭建集群)b.启停脚本(启动集群)c.与mysql的导入导出(数据同步)d.
数仓
层级内部
jiedaodezhuti
·
2023-10-08 15:46
大数据技术
hadoop
2020-05-13关于数据需求的分类
从应用场景划分:监控场景报表场景分析场景决策场景从产出时效划分:实时准实时离线从研发角度划分:数据接入需求:业务接入、日志接入、埋点接入数据开发需求:
数仓
建模、统计开发、算法开发数据输出需求:离线报表、
Simple701
·
2023-10-08 09:37
MySQL — MySQL请求很慢,如何定位问题?
置顶
学习专栏
:【Java后端面试题】1.Java面试题—基础知识、面向对象、【容器】、IO&【设计模式】、泛型&异常&反射&注解、快速排序2.Java面试题—并发基础、【同步&互斥】、JUC&并发容器、
页川叶川
·
2023-10-08 00:54
NoteBook笔记本
mysql
数据库
浅谈如何建设指标监控体系
对于数据人尤其是数据产品和分析师,最难排查(头疼)的问题就是指标为什么升/降/没数,一旦业务方提出这种问题就意味着有大半天的时间要花在确认指标口径+计算逻辑+埋点采集上,而且要同时跟业务方、分析师、数据产品、
数仓
甚至是负责埋点的开发沟通
一个数据人的自留地
·
2023-10-07 21:44
MySQL — 事务的传播级别有什么作用?有哪些事务的传播级别?
置顶
学习专栏
:【Java后端面试题】1.Java面试题—基础知识、面向对象、【容器】、IO&【设计模式】、泛型&异常&反射&注解、快速排序2.Java面试题—并发基础、【同步&互斥】、JUC&并发容器、
页川叶川
·
2023-10-07 16:41
NoteBook笔记本
mysql
数据库
数仓
的DW、ODS、DM概念及其区别
ODS层ODS(OperationalDataStore)操作性数据,是作为数据库到数据仓库的一种过渡,ODS的数据结构一般与数据来源保持一致,便于减少ETL的工作复杂性,而且ODS的数据周期一般比较短。ODS的数据最终流入DW(就是接收到的最原始的数据)DWD层+DW(DataWarehouse)数据仓库,是数据的归宿,这里保持这所有的从ODS到来的数据,并长期报错,而且这些数据不会被修改。(将
焱行软件科技计算机毕设
·
2023-10-07 13:14
数据仓库
大数据
数据库
基于Impala的高性能
数仓
实践之执行引擎模块
导读:本系列文章将结合实际开发和使用经验,聊聊可以从哪些方面对
数仓
查询引擎进行优化。Impala是Cloudera开发和开源的
数仓
查询引擎,以性能优秀著称。
浪尖聊大数据-浪尖
·
2023-10-07 11:10
大数据
分布式
数据库
mysql
java
Java — 堆内存、新生代、老年代 一般设置为多大内存?
置顶
学习专栏
:【Java后端面试题】1.Java面试题—基础知识、面向对象、【容器】、IO&【设计模式】、泛型&异常&反射&注解、快速排序2.Java面试题—并发基础、【同步&互斥】、JUC&并发容器、
页川叶川
·
2023-10-07 10:39
NoteBook笔记本
java
开发语言
Python数据攻略-Mongodb
数仓
无法写入方法汇总
Mongodb作为一个非结构化的NoSQL数据库,能存储各种复杂和多变的数据格式,如JSON。这使得Mongodb在实时数据分析和高性能查询中具有优势。在使用Mongodb的过程中,可能会遇到写入失败的问题。常见的几种情况包括无法建立连接、认证失败和存储限制。文章目录诊断问题日志分析错误码解析常见写入失败原因及解决方案连接问题认证问题存储限制预防措施合理设计Schema数据备份实践案例:《三国志》
Mr数据杨
·
2023-10-07 05:36
Python
数据攻略
python
mongodb
开发语言
数据中台实战(06)-数据模型无法复用,归根结底还是设计问题
由于他们非技术出身,SQL较差,多层嵌套,不择手段,资源消耗大,造成队列阻塞,影响其他
数仓
任务,引起数据开发不满。数据开发要求收回分析师的原始数据读取权限
JavaEdge.
·
2023-10-06 20:19
数据中台
数据库
基于 Kafka 的实时
数仓
在搜索的实践应用
一、概述ApacheKafka发展至今,已经是一个很成熟的消息队列组件了,也是大数据生态圈中不可或缺的一员。ApacheKafka社区非常的活跃,通过社区成员不断的贡献代码和迭代项目,使得ApacheKafka功能越发丰富、性能越发稳定,成为企业大数据技术架构解决方案中重要的一环。ApacheKafka作为一个热门消息队列中间件,具备高效可靠的消息处理能力,且拥有非常广泛的应用领域。那么,今天就来
谁叫我土豆了
·
2023-10-06 14:30
Spring — 三级缓存和 循环依赖
置顶
学习专栏
:【Java后端面试题】1.Java面试题—基础知识、面向对象、【容器】、IO&【设计模式】、泛型&异常&反射&注解、快速排序2.Java面试题—并发基础、【同步&互斥】、JUC&并发容器、
页川叶川
·
2023-10-06 05:58
NoteBook笔记本
spring
java
原理
大数据项目之电商
数仓
(3电商数据仓库系统)V6.1.3
第1章
数仓
分层1.1为什么要分层1.2数据集市与数据仓库概念1.3
数仓
命名规范1.3.1表命名ODS层命名为ods_表名DWD层命名为dwd_dim/fact_表名DWS层命名为dws_表名DWT
okbin1991
·
2023-10-06 00:19
大数据
数据仓库
数据库
数据湖|Flink + Iceberg 全场景实时
数仓
的建设实践
整理|路培杰(Flink社区志愿者)摘要:ApacheFlink是目前大数据领域非常流行的流批统一的计算引擎,数据湖是顺应云时代发展潮流的新型技术架构,以Iceberg、Hudi、Delta为代表的解决方案应运而生,Iceberg目前支持Flink通过DataStreamAPI/TableAPI将数据写入Iceberg的表,并提供对ApacheFlink1.11.x的集成支持。本文由腾讯数据平台部
大数据技术架构
·
2023-10-05 13:31
运维
大数据
分布式
编程语言
hadoop
上一页
13
14
15
16
17
18
19
20
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他