E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数据仓库数据中台数据湖
大数据学习:Hive安装部署
Hive的安装部署注意hive就是一个构建
数据仓库
的工具,只需要在一台服务器上安装就可以了,不需要在多台服务器上安装。
zui初的梦想
·
2023-08-31 20:34
大数据
大数据
学习
hive
二黄的第一枚神器
今天搞openAPI,明天搞
数据中台
,计划要搞营销中台”、“1个人干6个人的活,到是给我发7个人的工资啊”二黄啃完剩下的面包,打开桌面上的《订单数据对外接口需求文档》;新的一天,在一万只草泥马奔腾后,悄然拉开序幕
小黄的一天
·
2023-08-31 17:56
数据治理深水区,行业用户该如何走出?
在经历多年的数字化建设之后,绝大部分传统行业用户的数据治理已步入深水区:一方面,企业积累了较为丰富的数据资源,数据正加速重塑业务、流程等方方面面,数据驱动型业务也不断提升;另一方面,企业数据资产化演进过程中,普遍经历了
数据仓库
大数据在线
·
2023-08-31 17:18
云静思园
大数据
数据治理
中国电子云
中海油
数字化转型
实时数仓构建新思路,NineData数据复制技术详解
双方聚焦于实时
数据仓库
技术和数据开发能力,展示如何通过强大的生态开发兼容性,对接丰富的大数据生态产品,助力企业快速开展数据分析业务,共同探索实时数据驱动的未来企业智能化数据管理解决方案。
·
2023-08-31 16:55
ETl
ETL是将业务系统的数据经过抽取、清洗转换之后加载到
数据仓库
的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。ETL是BI项目重要的一个环节。
来10086投诉
·
2023-08-31 15:01
Apache Doris (一) :Doris 介绍及使用场景
目录1.ApacheDoris介绍2.ApacheDoris使用场景2.1报表分析2.2即席查询(Ad-hocQuery)2.3统一数仓构建2.4
数据湖
联邦查询进入正文之前,欢迎订阅专题、对博文点赞、评论
IT贫道
·
2023-08-31 13:24
Apache
Doris
apache
大数据
java
.NET Core AWS S3云存储
这意味着各种规模和行业的客户都可以使用S3来存储并保护各种用例(如
数据湖
、网站、移动应用程
dotNET跨平台
·
2023-08-31 13:10
nginx
大数据
java
物联网
zookeeper
ELT已死,EtLT才是现代数据处理架构的终点!
目前大家使用大数据Hadoop时代,主要都是ELT方式,也就是加载到Hadoop里进行处理,但是实时
数据仓库
、
数据湖
的流行,这个ELT已经过时了,EtLT才是实时数据加载到
数据湖
和实时
数据仓库
的标准架构
·
2023-08-31 12:09
数据库
CLICK HOUSE
ClickHouse的全称由两部分组成,第一个是ClickStream点击流,第二个是
数据仓库
DataWareHouseclickhouse可以做用户行为分析,流
方璧
·
2023-08-31 12:32
数据库
什么是OLAP
一、什么是OLAPOLAP(On-lineAnalyticalProcessing,联机分析处理)是在基于
数据仓库
多维模型的基础上实现的面向分析的各类操作的集合。
方璧
·
2023-08-31 12:31
java
火山引擎ByteHouse:ClickHouse如何保证海量数据一致性
基于高性能、分布式特点,ClickHouse可以满足大规模数据的分析和查询需求,因此字节研发团队以开源ClickHouse为基础,推出火山引擎云原生
数据仓库
ByteHouse。在日常工作中,研发人员经
·
2023-08-31 11:58
大数据数据库云原生
白鲸开源 DataOps 平台加速数据分析和大模型构建
他们使用
数据仓库
或
数据湖
来发现、访问和使用数据,并利用AI推动分析用例。但他们很快意识到
·
2023-08-31 11:25
数据库
认识SQL sever
目录一、数据库的概念1.1数据库的基本概念1.2对数据库的了解二、数据库的分类2.1关系型数据库(RDBMS):2.2非关系型数据库(NoSQL):2.3混合数据库:2.4
数据仓库
:2.5嵌入式数据库:
客逍京北岸
·
2023-08-31 11:18
SQL
sever
sql
数据库
sqlserver
大数据平台与
数据仓库
的五大区别
随着大数据的快速发展,很多人难以区分大数据平台与
数据仓库
的区别,两者傻傻分不清楚。今天我们小编就给大家汇总了大数据平台与
数据仓库
的五大区别,希望有用哦!仅供参考!
行云管家
·
2023-08-31 10:47
大数据
大数据平台
数据安全
数据仓库
Doris Summit 2023 正式启航,议题征集 & 合作伙伴招募火热进行中
作为专注于实时分析的开源实时
数据仓库
ApacheDoris,从开源至今已走过6个年头,这些年里ApacheDoris一直稳步向前,并在这两年取得了令人瞩目的进展。
·
2023-08-31 10:24
数据库大数据处理apache
数据仓库
(13)大数据数仓经典最值得阅读书籍推荐
从事数仓工作,在工作学习过程也看了很多
数据仓库
方面的数据,此处整理了数仓中经典的,或者值得阅读的书籍,推荐给大家一下,希望能帮助到大家。建议收藏起来,后续有新的书籍清单会更新到这里。
·
2023-08-31 10:23
大数据大数据处理etl书籍
数据仓库
(12)数据治理之数仓数据管理实践心得
当然,想要做数据治理,想要学习了解,一下数据治理的范围,理论等,最好可以看看别人怎么做的,了解数据治理可以参考:
数据仓库
(11)什
·
2023-08-31 10:23
大数据etl大数据处理数据
三种事实表
事实表作为
数据仓库
维度建模的核心,紧紧围绕着业务过程来设计,通过获取描述业务过程的度量来表达业务过程,包含了引用的维度和与业务过程有关的度量。
BigData_001_Lz
·
2023-08-31 05:58
数据仓库
大数据
数据仓库
这篇文章解读
数据仓库
、
数据湖
、
数据中台
等概念,竟然写了4万字!
点击上方“芋道源码”,选择“设为星标”管她前浪,还是后浪?能浪的浪,才是好浪!每天8:55更新文章,每天掉亿点点头发...源码精品专栏原创|Java2020超神之路,很肝~中文详细注释的开源项目RPC框架Dubbo源码解析网络应用框架Netty源码解析消息中间件RocketMQ源码解析数据库中间件Sharding-JDBC和MyCAT源码解析作业调度中间件Elastic-Job源码解析分布式事务中
公众号-芋道源码
·
2023-08-31 02:05
数据仓库
sqlite
lamp
scipy
zk
MySQL到SelectDB的实时同步策略
而SelectDB作为一款专为大数据分析设计的分布式
数据仓库
,具有高性能、可扩展的特点,其优异的数据处理能力也在行业内广受关注。01在什么情况下需要把MySQL同步到SelectDB?
·
2023-08-30 10:46
数据库mysql开发工具大数据
数据仓库
_数仓常见的数据模型
转载自:大数据开发:数仓建模常见数据模型-腾讯云开发者社区-腾讯云在
数据仓库
搭建的过程当中,根据需求合理地选择数据模型,是非常关键的一个环节。
高达一号
·
2023-08-30 08:59
数仓设计
数据仓库
大数据
spark
数仓设计_数仓中的三种事实表
一篇文章搞懂
数据仓库
:三种事实表(设计原则,设计方法、对比)-腾讯云开发者社区-腾讯云事实表的三种类型,事务事实表,周期快照事实表,累计快照事实表事实表作为
数据仓库
维度建模的核心,紧紧围绕着业务过程来设计
高达一号
·
2023-08-30 08:59
数仓设计
大数据
数据仓库
_缓慢渐变维_拉链表(全揭秘)
这篇文章我们主要讲解下以下几个点什么是拉链表,用于什么样的场景拉链表的示例如何获取某一天的历史状态如何在使用维度拉链表并使用代理键的前提下,构建含维度代理键的事实表1.什么是拉链表,用于什么样的场景当维度数据发生变化时,将旧数据置为失效,将更改后的数据当作新的记录插入到维度表中,并开始生效,这样能够记录数据在某种粒度上的变化历史。2.拉链表的示例结合之前所讲的代理键,Uid_org为原始的业务主键
高达一号
·
2023-08-30 08:29
数仓设计
Hive
数据仓库
_
数据仓库
_缓慢渐变维度实现的几种思路
数仓缓慢渐变维度表设计,另一篇比较好的文章结合实际案例数仓建设-缓慢变化维的10种处理方式_雾岛与鲸的博客-CSDN博客缓慢渐变维度:维度数据会随着时间发生变化,变化速度比较缓慢,这种维度数据通常称作缓慢渐变维;由于
数据仓库
需要追溯历史变化
高达一号
·
2023-08-30 08:29
数仓设计
数据仓库
数据仓库
_如何评价一个数据模型的好坏?
转载自:如何评价数据模型的好坏?_木东居士的博客-CSDN博客数据模型如何论好坏|0x00数据模型的选择最常见提到的有四种:范式、维度、DataVault、Anchor。在传统行业中,范式很流行,在互联网行业中,维度很流行,另外两种就“只闻其名,不见其人”了。如果论这四种方法,在设计思路上的好坏,那么各有千秋。但如果问,那种模型最为成熟,那么恐怕范式和维度就胜出了,而互联网行业几乎只能选择维度建模
高达一号
·
2023-08-30 08:29
数仓设计
数据仓库
Hive/
数据仓库
_Hive 中如何生成代理键
补充:是由
数据仓库
处理过程中产生的,与业务本身无关的,唯一标识维度表中一条记录并充当维度表主键的列,也是描述维度表与事实表关系的纽带。所以在设
高达一号
·
2023-08-30 08:28
Hive
数仓设计
数据仓库
总结
1.为什么要做数仓建模
数据仓库
建模的目标是通过建模的方法更好的组织、存储数据,以便在性能、成本、效率和数据质量之间找到最佳平衡点。
袁奎
·
2023-08-30 08:27
数据仓库
数据仓库
_维度表的两大分类
最近看一篇文章对维度表进行了分类,记录一下。维度表主要分为两类高基数维度表和低基数维度表。高基数维度数据一般是用户资料表、商品资料表类似的资料表。数据量可能是千万级或者上亿级别。低基数维度数据一般是配置表,比如枚举值对应的中文含义,或者日期维度,地理维度表等。数据量可能是个位数或者几千条几万条。基数指的是一个字段中不同值的个数,比如主键列具有唯一值,所以具有最高的基数,而性别枚举值(日期,地区等)
高达一号
·
2023-08-30 08:26
数仓设计
数据仓库
大数据学习教程SD版第七篇【Hive】
1.Hive简介
数据仓库
工具,将结构化数据映射成二维表,并提供类SQL查询,底层把HQL转换成MR程序Hive自带的客户端hiveclientbeelineclient特点HQL用于数据分析,但处理处理粒度粗处理大数据
道-闇影
·
2023-08-30 08:32
hive
hadoop
big
data
Hive面试题3:底层知识
Hive使用场景Hive的执行流程2.sql如何转为mapreduce程序的1.hive架构什么是HiveHive是由Facebook开源用于解决海量结构化日志的数据统计;Hive是基于Hadoop的一个
数据仓库
工具
mr_cuber
·
2023-08-30 08:31
hive面试题
hadoop
hive
流式
数据湖
平台—Paimon视频教程
ApachePaimon是一个流
数据湖
平台,是Streaming实时计算能力和Lakehouse新架构优势的结合,具有高速数据摄取、变更日志跟踪和高效的实时分析能力。
尚硅谷铁粉
·
2023-08-30 03:50
big
data
大数据
Flink Table Store 独立孵化启动 , Apache Paimon 诞生
与此同时,在大数据领域
数据湖
架构也日益成为新的技术趋势,越来越多企业开始采用La
Apache Flink
·
2023-08-30 03:19
Flink
大数据
实时计算
apache
flink
大数据
当流计算邂逅
数据湖
:Paimon 的前生今世
序言笔者从事流计算多年,真名叫李劲松,简写LJS,ApacheID也是lzljs(泸州李劲松),而流计算简写也是LJS,算是一种缘分吧。一直在分布式计算与存储的领域工作,也参与了多个开源项目,希望通过笔者以下的经历,回顾流计算一步一步扩大场景的过程,并引出ApachePaimon的前生今世。(注:三角中,离顶点更近代表更好,离顶点更远代表更差)很久之前写过一篇文章引用了这个图,原图来自Napa:P
Apache Flink
·
2023-08-30 03:19
Flink
大数据
实时计算
flink
apache
大数据
数据湖
paimon连接flink、mysql和hive
一、启动flink客户端并测试1、环境准备flink版本:1.16.2lib下需要的依赖包:antlr-runtime-3.5.2.jarcommons-beanutils-1.9.3.jarcommons-pool2-2.4.3.jardruid-1.1.19.jarfastjson-1.2.57.jarflink-cep-1.16.2.jarflink-connector-files-1.16
coder李一
·
2023-08-30 03:49
sql
flink
flink
mysql
hive
Flink Table Store 独立孵化启动 , Apache Paimon 诞生
与此同时,在大数据领域
数据湖
架构也日益成为新的技术趋
王知无(import_bigdata)
·
2023-08-30 03:48
flink
apache
大数据
java
开发语言
数据湖
的选型(delta iceberg hudi)以及比对
数据湖
的选型此文章只是作为文稿记录,且截止到2022年11月份Hudi(0.12.0)支持spark3.3.x3.1.x是HadoopUpsertsDeletesandIncrementals的简写Hudi
鸿乃江边鸟
·
2023-08-30 03:17
数据湖
大数据
闲谈
大数据
hadoop
spark
流
数据湖
平台Apache Paimon(三)Flink进阶使用
文章目录2.9进阶使用2.9.1写入性能2.9.2读取性能2.9.3多Writer并发写入2.9.4表管理2.9.5缩放Bucket2.10文件操作理解2.10.1插入数据2.10.2删除数据2.10.3Compaction2.10.4修改表2.10.5过期快照2.10.6Flink流式写入2.9进阶使用2.9.1写入性能Paimon的写入性能与检查点密切相关,因此需要更大的写入吞吐量:增加检查点
Maynor996
·
2023-08-30 03:45
#
Paimon
apache
流
数据湖
平台Apache Paimon(二)集成 Flink 引擎
文章目录第2章集成Flink引擎2.1环境准备2.1.1安装Flink2.1.2上传jar包2.1.3启动Hadoop2.1.4启动sql-client2.2Catalog2.2.1文件系统2.2.2HiveCatalog2.2.3sql初始化文件2.3DDL2.3.1建表2.3.2修改表2.4DML2.4.1插入数据2.4.2覆盖数据2.4.3更新数据2.4.4删除数据2.4.5MergeInt
Maynor996
·
2023-08-30 03:14
#
Paimon
apache
flink
大数据
《数据挖掘——概念与技术》笔记
目录第2章认识数据2.1数据对象与属性类型2.2数据的基本统计描述2.4度量数据的相似性与相异性第3章数据预处理3.2数据清理3.3数据集成3.4数据归约3.5数据变换与数据离散化第4章
数据仓库
与联机分析处理
樟小叶
·
2023-08-29 23:28
数据仓库
Android自动化测试中操作技巧合集(建议收藏)
内容提供器为不同应用间的数据共享提供了接口,它们像是一个中央
数据仓库
,各个应用可以通过内容URI来存取数据。每条短信都会被存储在内容提供器的SMSContentProvider中。
美团程序员
·
2023-08-29 23:22
技术分享
自动化测试
android
职场和发展
测试工具
软件测试
自动化测试
视频结构化
视频被结构化后,存入相应的结构化
数据仓库
,存储的容量极大降低。
oldms
·
2023-08-29 19:12
Apache Arrow - Parquet存储与使用
简介Parquet是一种高效的列式存储格式,广泛用于大数据系统中的
数据仓库
和数据管理工具中,旨在提高数据分析的性能和效率,能够更好地支持数据压缩和列式查询,同时兼顾读写速度和数据大小初衷为了让Hadoop
·
2023-08-29 18:48
hive搭建
一:简介Hive是基于Hadoop构建的一套
数据仓库
分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据。
Gavin_hello
·
2023-08-29 18:46
SAS
数据仓库
的体系结构
SAS
数据仓库
就是一个适应于对企业级的数据、信息进行重新整合,适应多维、快速查询;进行OLAP操作和决策支持的数据、信息的采集、管理、处理和展现的架构体系。
weixin_30551947
·
2023-08-29 17:49
数据库
数据结构与算法
人工智能
探索
数据湖
中的巨兽:Apache Hive分布式SQL计算平台浅度剖析!
文章目录◆ApacheHive概述1.1分布式SQL计算1.2Hive的优势◆模拟实现Hive功能2.1元数据管理2.2解析器2.3基础架构2.4Hive架构◆Hive基础架构3.1Hive架构图3.2Hive组件3.2.1元数据存储3.2.2Driver驱动程序3.2.3用户接口◆Hive部署4.1VMware虚拟机部署步骤一:安装MySQL数据库步骤2:配置Hadoop步骤3:下载解压Hive
缘友一世
·
2023-08-29 13:38
大数据修炼之旅
apache
hive
分布式
NineData X SelectDB 联合发布会,即将上线!
本次发布会将聚焦于实时
数据仓库
技术和数据开发能力,展示SelectDB新一代实时
数据仓库
产品如何解决实时数据分析的行业痛点,以及「NineData如何提供高效、智能、安全的数据管理能力」。
·
2023-08-29 12:16
网易
数据中台
建设
流程协作场景和产品映射:image.png网易大数据产品矩阵:image.pngimage.png
rokie
·
2023-08-29 11:24
什么是
数据仓库
?
数据仓库
:DATAWAREHOUSE,简称数仓、DW。是一个用于存储、分析、报告的数据系统。目的是构建面向分析的集成化数据环境,为企业提供决策支持。
BigData_001_Lz
·
2023-08-29 09:17
数据仓库
数据仓库
大数据
技术实践|Hive数据迁移干货分享
导语Hive是基于Hadoop构建的一套
数据仓库
分析系统,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能。
中电金信
·
2023-08-29 07:56
hive
hadoop
数据仓库
大厂数仓模型规范与度量指标有哪些?
随着数据驱动的决策在企业中的重要性日益增加,
数据仓库
作为数据沟通和业务系统之间的中介,扮演着关键的角色。因此,确保数仓模型的规范性和质量是至关重要的。
南极找南
·
2023-08-29 07:25
数据工厂
大数据
数据治理
大数据
上一页
36
37
38
39
40
41
42
43
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他