E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数据仓库(数仓)
Hive数据定义(2)
hive数据定义是hive的基础知识,所包含的知识点有:
数据仓库
的创建、
数据仓库
的查询、
数据仓库
的修改、
数据仓库
的删除、表的创建、表的删除、内部表、外部表、分区表、桶表、表的修改、视图。
冬瓜的编程笔记
·
2024-01-14 06:25
大数据
hive
hadoop
数据仓库
数仓
搭建——DWD层
1DWD层(用户行为日志)1.1日志解析思路页面埋点日志启动日志思路1.2get_json_object函数使用数据[{"name":"大郎","sex":"男","age":"25"},{"name":"西门庆","sex":"男","age":"47"}]取出第一个json对象hive(gmall)>selectget_json_object('[{"name":"大郎","sex":"男",
丝丝呀
·
2024-01-14 06:10
java
json
开发语言
数据仓库
-离线
数仓
(基于物流
数仓
)
1、
数据仓库
概述1.1、
数据仓库
概念
数据仓库
是一个为数据分析而设计的企业级数据管理系统。
数据仓库
可集中、整合多个信息源的大量数据,借助
数据仓库
的分析能力,企业可从数据中获得宝贵的信息进而改进决策。
小鱼干换酒钱
·
2024-01-14 06:39
#
物流数仓
数据仓库
hive
数仓
学习笔记(5)——
数仓
搭建(DWD层)
目录一、
数仓
搭建——DWD层1、DWD层(用户行为日志)1.1日志解析思路1.2get_json_object函数使用1.3启动日志表1.4页面日志表1.5动作日志表1.6曝光日志表1.7错误日志表1.8DWD
默萧756
·
2024-01-14 06:35
学习
大数据
数仓
数仓
笔记(五)-DWD层,DWS层
数仓
搭建DWD层1)对用户行为数据解析2)对业务数据采用维度模型重新建模6.1DWD层(用户行为日志)1)日志结构回顾(1)页面埋点日志(2)启动日志2)日志解析思路6.1.2get_json_object
芝士雪豹.
·
2024-01-14 06:33
java
开发语言
hive
大数据
离线
数仓
(十三) --------- DWD 层搭建
目录前言一、DWD层(用户行为日志)1.日志解析思路2.get_json_object函数使用3.启动日志表4.页面日志表5.动作日志表6.曝光日志表7.错误日志表8.DWD层用户行为数据加载脚本二、DWD层(业务数据)1.评价事实表(事务型事实表)2.订单明细事实表(事务型事实表)3.退单事实表(事务型事实表)4.加购事实表(周期型快照事实表,每日快照)5.收藏事实表(周期型快照事实表,每日快照
在森林中麋了鹿
·
2024-01-14 06:02
大数据项目
java
json
数据库
企业级大数据项目【4】
数仓
-业务域ODS-DWD-ADS开发篇
1概要说明业务域的数据来自业务系统的数据库通过sqoop(或datax)抽取到
数仓
的ods层在ods层对有需要的表进行增量合并,字段选择,反范式话,形成dwd明细层表在明细层基础上,进行各类主题的数据统计
江湖人称涛哥
·
2024-01-14 06:32
物流实时
数仓
ODS层——Mysql到Kafka
目录1.采集流程2.项目架构3.resources目录下的log4j.properties文件4.依赖5.ODS层——OdsApp6.环境入口类——CreateEnvUtil7.kafka工具类——KafkaUtil8.启动集群项目这一层要从Mysql读取数据,分为事实数据和维度数据,将不同类型的数据进行不同的ETL处理,发送到kakfa中。代码1.采集流程2.项目架构3.resources目录下
雷神乐乐
·
2024-01-14 06:01
#
实时数仓项目
大数据
数据仓库
flink
kafka
物流实时
数仓
DWD层——1.准备工作
目录1.创建主程序——DwdOrderRelevantApp类2.创建DWD层的事实表——来源于订单表和订单明细表(1)创建订单表实体类(2)创建订单明细表实体类(3)创建交易域:下单事务事实表实体类,并整合(1)与(2),采用下单时间(4)创建交易域:支付成功事务事实表实体类,并整合(1)与(2),采用支付时间和支付状态(5)创建物流域:揽收(接单)事务事实表实体类,并整合(1)与(2),采用揽
雷神乐乐
·
2024-01-14 06:57
#
实时数仓项目
大数据
flink
java
数据仓库
交通物流
Hive命令行运行SQL将数据保存到本地如何去除日志信息
1.场景分析先有需求需要查询hive
数仓
数据并将结果保存到本地,但是在操作过程中总会有日志信息和表头信息一起保存到本地,不符合业务需要,那如何才能解决该问题呢?
tuoluzhe8521
·
2024-01-14 05:01
Hive相关
hive
sql
hadoop
美团点评实时
数仓
平台演进与实践
1.摘要
数据仓库
的建设是“数据智能”必不可少的一环,也是大规模数据应用中必然面临的挑战,而Flink实时
数仓
在数据链路中扮演着极为重要的角色。
笔名辉哥
·
2024-01-14 02:50
数仓
建模—埋点设计与管理
数据仓库
系列文章(部分已出,持续更新)
数仓
架构发展史
数仓
建模方法论
数仓
建模分层理论
数仓
建模—宽表的设计
数仓
建模—指标体系
数据仓库
之拉链表
数仓
—数据集成
数仓
—数据集市
数仓
—商业智能系统
数仓
—埋点设计与管理
数仓
大数据技术派
·
2024-01-14 01:22
mycat中间件+mysql集群
可以替代MySQL的加强版数据库一个可以视为MySQL集群的企业级数据库,用来替代昂贵的Oracle集群一个融合内存缓存技术、NoSQL技术、HDFS大数据的新型SQLServer结合传统数据库和新型分布式
数据仓库
的新一代企业级数据库产品一个新颖的数据库中间件产品
小样想当当
·
2024-01-14 01:19
数据库
中间件
mysql
java
Shell ETL 操作
删除文件第一行记录,即字段名称处理的文件第一行都是字段名称,我们在文件中的数据导入到
数据仓库
Hive中时,不需要第一行字段名称,因此,这里在做数据预处理时,删除第一行。
数据小白鼠
·
2024-01-13 23:54
hiveSQL任务执行时间过长
从业务或者其他方面优化4、从接口层取数前期的
数仓
设计不合理或者临时性
amberwest
·
2024-01-13 22:16
big
data
数据仓库
hive
大数据
广义来说,hadoop通常指一个更广泛的概念,hadoop生态圈:image.pngHive是基于Hadoop的一个
数据仓库
工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将
哈斯勒
·
2024-01-13 19:30
Hive安装部署
安装好对应版本的hadoop集群,并启动hadoop的HDFS以及YARN服务安装了MySQL服务,并启动MySQL的服务Hive的安装部署注意hive就是==一个构建
数据仓库
的工具==,只需要在==一台服务器上
我还不够强
·
2024-01-13 13:35
Hive及各组件功能介绍
Hive是一个开源的
数据仓库
基础设施,是构建在Hadoop之上的。它提供了一种类似于SQL的查询语言,称为HiveQL,用于查询和分析存储在Hadoop中的大规模数据集。
思旭�
·
2024-01-13 12:32
hive
hadoop
数据仓库
如何在VS 2019里安装SQL Server
数据仓库
开发工具
SQLServer的AnalyticService提供了强大的
数据仓库
功能,开发者可以使用VS2019来开发这些功能,但是VS2019即使安装了SQLServerDataTools开发者也找不到创建MultidimensionalProject
surfirst
·
2024-01-13 10:39
架构
sqlserver
数据仓库
数据仓库
Apache Hive
数据仓库
ApacheHive内容大纲#
数据仓库
基础核心知识1、
数据仓库
是什么为何而来?
江枫渔火R
·
2024-01-13 09:29
数据仓库
apache
hive
大数据
2022-02-01大数据学习日志——Hadoop离线阶段——
数据仓库
、Apache Hive
学习目标理解
数仓
概念、起源由来理解
数仓
(OLAP)与数据库(OLTP)区别掌握
数仓
分层架构思想掌握ApacheHive功能与架构组件理解ApacheHive远程模式部署安装内容大纲#
数据仓库
基础核心知识
王络不稳定
·
2024-01-13 09:28
数据仓库
big
data
hive
数据仓库
& Apache Hive
一、数据分析1、
数据仓库
数据仓库
(英语:DataWarehouse,简称
数仓
、DW),是一个用于存储、分析、报告的数据系统。
杀神lwz
·
2024-01-13 09:52
大数据
数据分析
数据仓库
apache
hive
ETL详解--
数据仓库
技术
一、ETL简介ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,是
数据仓库
的生命线
小菠萝Mm
·
2024-01-13 07:45
数据仓库
etl
学习
数据库
年终总结各类表格模板Excel,大屏可视化,PPT总结等
AIGCChatGPT职场案例AI绘画与短视频制作PowerBI商业智能68集数据库Mysql8.054集数据库Oracle21C142集Office2021实战应用Python数据分析实战,ETLInformatica
数据仓库
案例实战
阿里数据专家
·
2024-01-13 06:15
ChatGPT实战案例
ChatGPT
与
Python
ChatGPT
excel
powerpoint
prompt
chatgpt
AIGC
oracle
数仓
建设指南
数仓
建设指南数据模型架构规范数据层次的划分ODS:OperationalDataStore,操作数据层,在结构上其与源系统的增量或者全量数据基本保持一致。
左美美  ̄
·
2024-01-13 06:04
java
大数据
数据仓库
数据仓库
研发规范
数据仓库
研发规范本文将介绍
数据仓库
研发规范的阶段规划、角色职责和整体流程。在大数据时代,规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。
左美美  ̄
·
2024-01-13 06:55
数据仓库
基于大数据与时间序列预测的的书籍数据分析(内含spark+hive+mysql+kettle+echart+tensorflow)
tensorflow简介(二)前端相关技术1.HTML简介2.echarts简介(三)相关数据库1.Mysql简介2.hive简介三.需求分析三.系统设计项目框架:系统目的:数据库设计:四.系统实现1.预处理:
数据仓库
左岸2420
·
2024-01-13 05:59
数据库
大数据
深度学习
大数据
spark
hive
mysql
tensorflow
echarts
Hive学习笔记(Hive数据的定义与操作)
管理表外部表修改表删除表分区表静态分区动态分区HiveQL数据操作向管理表中装载数据经查询语句向表中插入数据单个查询语句中创建表并加载数据导入数据导出数据Hive数据定义与操作HiveQL数据定义语言Hive
数据仓库
中的
ジ時光不老
·
2024-01-13 04:22
Hive学习
java
开发语言
后端
Hive数据定义(1)
hive数据定义是hive的基础知识,所包含的知识点有:
数据仓库
的创建、
数据仓库
的查询、
数据仓库
的修改、
数据仓库
的删除、表的创建、表的删除、表的修改、内部表、外部表、分区表、桶表、表的修改、视图。
冬瓜的编程笔记
·
2024-01-13 04:47
大数据
hive
hadoop
数据仓库
2022字节跳动【
数据仓库
工程师】日常实习面经-----一面
文章目录一,自我介绍二,问答阶段三,代码阶段四,反问五,总结背景:今年金三银四,看着大家都在疯狂找实习offer,不甘落后的我也信心满满(毫无把握)的去字节面试(现在想想真是胆大,都还没学扎实)一,自我介绍二,问答阶段shuffle阶段详细介绍回答环形缓冲区,分区排序,溢写磁盘,reduce再抽取归并等等计算单元和实际block存储单元不在一个机器节点上,这样会带来大量的IO操作,Hadoop如何
dyson不只是吹风机
·
2024-01-13 03:34
面试
数据仓库
大数据
第三阶段、
数据仓库
一、
数据仓库
的基本定义:1.
数据仓库
:简称DW或DWH,是数据库的一种概念上的升级,是为企业所有级别的决策制定过程,出于分析性报告和决策支持目的而创建。
ATPX4869l
·
2024-01-13 01:14
如何解决NAND系统性能问题?--NAND分类
一、故事引言想象一下,你正在管理一座神奇的
数据仓库
,这个仓库没有沉重的门、旋转的磁盘和机械手臂,而是由一群训练有素的“数据小飞侠”组成。
古猫先生
·
2024-01-13 01:15
NAND
大数据
linux
性能优化
服务器
大数据开发工程师需要具备哪些技能?
在回答这个问题之前,需要充分了解一下当前大数据的几个就业方向,可以参考下主流互联网行业的部门架构、职责和JD,大数据开发工程师,总体来说有这么几类,不同的公司叫法不一样:1、
数仓
开发工程师2、算法挖掘工程师
郑小柒是西索啊
·
2024-01-12 21:58
大数据
Databend 开源周报第 127 期
Databend是一款现代云
数仓
。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn。
Databend
·
2024-01-12 20:45
数据库
开源
从 AutoMQ Kafka 导出数据到 Databend
作者:韩山杰DatabendCloud研发工程师https://github.com/hantmacDatabend是使用Rust研发、开源的、完全面向云架构、基于对象存储构建的新一代云原生
数据仓库
,为企业提供湖仓一体化
Databend
·
2024-01-12 20:44
开源
数据库
数据交付变革:研发到产运自助化的转型之路
作者|Chris导读本文讲述为了提升产运侧数据观察、分析、决策的效率,支持业务的快速迭代,移动生态数据研发部对
数仓
建模与BI工具完成升级,采用宽表建模与TDA平台相结合的方案,一站式自助解决数据应用需求
百度Geek说
·
2024-01-12 16:14
信息可视化
数据分析
数据挖掘
数仓建模
BI工具
GBASE南大通用 GBase 8a 产品构建
数仓
系统架构
lGBASE南大通用GBase8a产品构建
数仓
应用的系统架构:架构技术实现特点适用场景独立
数据仓库
(集市)系统架构一套GBase8a物理集群适用于数据规模较小的业务场景适用于各业务之间数据互访较频繁的业务场景适用于单一独立的业务场景企业级
数仓
系统架构多套
GBASE数据库
·
2024-01-12 12:04
数据库
GBASE南大通用
GBASE
【数据库学习】hive
1,HIVEHadoop的
数据仓库
处理工具,数据存储在Hadoop兼容的文件系统(例如,AmazonS3、HDFS)中。
兔兔西
·
2024-01-12 08:50
数据库
学习
hive
【DolphinScheduler】datax读取hive分区表时,空分区、分区无数据任务报错问题解决
问题背景:最近在使用海豚调度DolphinScheduler的Datax组件时,遇到这么一个问题:之前给客户使用海豚做的离线
数仓
的分层搭建,一直都运行好好的,过了个元旦,这几天突然在
数仓
做任务时报错,具体报错信息如下
Alex_81D
·
2024-01-12 08:49
部署项目相关
大数据基础
数据治理
hive
hadoop
数据仓库
【大数据面试】常见
数仓
建模面试题附答案
常见面试题
数据仓库
面试题-理论相关什么是
数据仓库
?如何构建
数据仓库
?概念模型、逻辑模型、物理模型分别介绍一下?SCD常用的处理方式有哪些?模型设计的思路?业务驱动?数据驱动?
数仓
架构为什么要分层?
话数Science
·
2024-01-12 07:28
面试
大数据
大数据
Hive解析json数组
在使用Hive搭建
数据仓库
,处理数据时,同传统
数仓
的结构化数据不同,我们经常会遇到一些非结构化的数据,json格式的字符串就是常见的一种类型。
风筝flying
·
2024-01-12 03:47
Hive数据库:嵌入、本地、远程全攻略(上)
Hive分布式
数据仓库
工具关系型数据库建立在关系模型之上的数据库称为关系型数据库(关系模型是由埃德加·科德于1970年提出的),关系型数据库借助集合代数等数学概念处理数据库中的数据。
小伍_Five
·
2024-01-11 22:03
hive
数据库
【Databend】数据类型
文章目录数据类型列表转换数据类型数据类型扩展整数类型布尔类型浮点数类型字符串类型日期时间类型其它数据类型总结数据类型列表Databend作为一款开源、弹性、低成本,基于对象存储也可以做实时分析的新式
数仓
有请小发菜
·
2024-01-11 17:08
Databend
数据库
mysql
python
rust
分析型数据库产品的排头兵GBase 8a
它是在GBase8a列存储数据库基础上开发的一款SharedNothing架构的分布式并行数据库集群,具备高性能、高可用、高扩展等特性,可以为各种规模数据管理提供高性价比的通用计算平台,并广泛用于支撑各类
数据仓库
系统
any_2311
·
2024-01-11 14:53
数据库
database
big
data
Apache Flink 和 Paimon 在自如数据集成场景中的使用
业务背景自如目前线上有基于Hive的离线
数仓
和基于Flink、Kafka的实时
数仓
,随着业务发展,我们也在探索引入湖仓一体的架构更好的支持业务,我们对比了Iceberg、Hudi、Paimon后,最终选择
Apache Flink
·
2024-01-11 13:09
apache
flink
大数据
亚信安慧AntDB团队引领数据库创新浪潮
该数据库经过多次迭代,形成了完整的“超融合流式实时
数仓
”体系,为通信运营商和各行业提供卓越的服务
亚信安慧AntDB数据库
·
2024-01-11 12:48
数据库
人工智能
大数据
antdb
antdb数据库
基于Hologres+Flink的曹操出行实时
数仓
建设作者:林震|曹操出行实时计算负责人
作者:林震|曹操出行实时计算负责人曹操出行业务背景介绍曹操出行创立于2015年5月21日,是吉利控股集团布局“新能源汽车共享生态”的战略性投资业务,以“科技重塑绿色共享出行”为使命,将全球领先的互联网、车联网、自动驾驶技术以及新能源科技,创新应用于共享出行领域,以“用心服务国民出行”为品牌主张,致力于打造服务口碑最好的出行品牌。作为一家互联网出行平台,主要提供了网约车、顺风车、专车等一些出行服务。
阿里云大数据AI技术
·
2024-01-11 09:40
flink
大数据
Hive(总)看完这篇,别说你不会Hive!
2.2HiveJDBC访问2.2.1启动hiveserver2服务2.2.2连接hiveserver2服务2.2.3注意2.3Hive常用交互命令2.4Hive其他命令操作2.5Hive常见属性配置2.5.1
数据仓库
位置配置
Archie_java
·
2024-01-11 03:22
大数据
hive
hadoop
数据仓库
离线
数仓
构建案例一
数据采集日志数据(文件)到Kafka自己写个程序模拟一些用户的行为数据,这些数据存在一个文件夹中。接着使用flume监控采集这些文件,然后发送给kafka中待消费。1、flume采集配置文件监控文件将数据发给kafka的flume配置文件:#定义组件a1.sources=r1a1.channels=c1#配置sourcea1.sources.r1.type=TAILDIRa1.sources.r1
躺着听Jay
·
2024-01-10 22:06
大数据
big
data
大数据
【大数据进阶第三阶段之ClickHouse学习笔记】ClickHouse的简介和使用
1、ClickHouse简介ClickHouse是一种列式数据库管理系统(DBMS),专门用于高性能数据分析和
数据仓库
应用。
Allen_lixl
·
2024-01-10 20:41
大数据
ClickHouse
大数据
clickhouse
学习
上一页
5
6
7
8
9
10
11
12
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他