E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数据仓库数据中台数据湖
数据库与
数据仓库
的区别
数据库Database(Oracle,Mysql,PostgreSQL)主要用于事务处理,
数据仓库
Datawarehouse(AmazonRedshift,Hive)主要用于数据分析。
42c64edf12e9
·
2024-02-05 02:12
HIVE
--------hive
数据仓库
hive底层执行引擎有MapReduceTezSpark压缩GZIPLZOSnappyBZIP2等存储TextFileSequenceFileRCFileORCParquetUDF
Yagami_
·
2024-02-05 00:23
【读红宝书(一)】背景知识
最近,HDFS领域出现了另一个值得讨论的重点,即“
数据湖
”。HDFS集群(目前大多数企业已经投资并希望找到对他们有用的东西)的合理使用是作为已摄取的数据文件队列。
三半俊秀
·
2024-02-04 23:41
Fink CDC数据同步(六)数据入湖Hudi
数据入湖HudiApacheHudi(简称:Hudi)使得您能在hadoop兼容的存储之上存储大量数据,同时它还提供两种原语,使得除了经典的批处理之外,还可以在
数据湖
上进行流处理。
大数据_苡~
·
2024-02-04 16:21
flink
hadoop
数据中台
第5章 数据汇聚联通:打破企业数据孤岛
要构建企业级的
数据中台
,第一步就是要让企业内部各个业务系统的数据实现互联互通,从物理上打破数据孤岛,这主要通过数据汇聚和交换的能力来实现。
四月天03
·
2024-02-04 12:51
云原生数据中台:让数据用起来
big
data
大数据
智慧水务(水厂)大数据平台,打造水务运营管理驾驶舱
以物联感知技术、大数据、智能控制、云计算、人工智能、数字孪生、AI算法、虚拟现实技术为核心,以监测仪表、通讯网络、数据库系统、
数据中台
、模型软件、前台展示、智慧运维等产
郭靖守襄阳【软芯民用】
·
2024-02-04 09:52
智慧水务
数据大屏可视化
大数据
智慧城市
信息可视化
物联网
大数据领域的
数据仓库
在大数据领域,
数据仓库
(DataWarehouse)是一个用于存储、管理和分析大量数据的集中式系统。
薛定谔的zhu
·
2024-02-04 09:43
大数据
数据仓库
软考笔记--
数据仓库
技术
数据仓库
是一个面向主题的,集成的,相对稳定的、反映历史变化的数据集合,用于支持管理决策。数据源是
数据仓库
系统的基础,是整个系统的数据源泉。
赤露水
·
2024-02-04 07:12
软考
笔记
数据仓库
MySQL调优
优化类型大概分类三个类型结构/架构优化:读写分离、集群热备、分布式架构、引入缓存/消息/搜索中间件、分库分表、中台架构(大
数据中台
、基础设施中台)等配置/参数优化:调整应用系统中各层面的配置文件、启动参数达到优化性能的目标代码
whiteBrocade
·
2024-02-04 06:48
MySQL
mysql
数据库
性能优化
Hadoop大数据实战系列文章之Hive
hive是基于Hadoop的一个
数据仓库
工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,Hive定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户查询数据可以将
测试帮日记
·
2024-02-04 05:45
第七章 主管信息系统和
数据仓库
[TOC]第七章主管信息系统和
数据仓库
7.0前言EIS是数仓之前的概念EIS没有注重基础结构(数据源、数据质量、数据流通等)DSS是现代的EIS,与数仓紧密相连7.1EIS概述EIS典型用途趋势分析关键指标度量和跟踪向下钻取问题监控竞争分析关键性能指标监控
晨磊的微博
·
2024-02-04 04:53
【读书笔记】
数据仓库
- Apache Kylin权威指南
ApacheKylin权威指南(第2版)◆1.2.1为什么要使用ApacheKylin它们的主要技术是“大规模并行处理”(MassivelyParallelProcessing,MPP)和“列式存储”(ColumnarStorage)◆1.2.2ApacheKylin怎样解决关键问题基于以上两点,我们得到一个新的思路——“预计算”。应尽量多地预先计算聚合结果,在查询时刻也尽量使用预计算的结果得出查
KevinBrain
·
2024-02-03 19:16
大数据
数据仓库
apache
kylin
大数据
分布式
[Python] 如何使用scikit-learn的preprocessing和impute模块进行数据预处理(数据无量纲化,缺失值填充,对分类型特征编码与哑变量,对连续型特征进行二值化与分段)
数据挖掘的五大流程获取数据从各种来源收集数据,包括但不限于数据库、
数据仓库
、互联网、传感器、社交媒体等。获取数据的方式可以通过数据抓取、数据爬取、数据采集工具等方法进行。
老狼IT工作室
·
2024-02-03 18:16
机器学习
python
机器学习
scikit-learn
python
数仓建模&维度建模理论知识
0.思维导图第1章
数据仓库
概述1.1
数据仓库
概述
数据仓库
是一个为数据分析而设计的企业级数据管理系统。
韩顺平的小迷弟
·
2024-02-03 16:02
#
大数据开发
spark
大数据
数据仓库
hadoop
hive
离线数仓-数据治理
目录一、前言1.1数据治理概念1.2数据治理目标1.3数据治理要解决的问题1.3.1合规性元数据合规性数据质量合规性数据安全合规性1.3.2成本存储资源成本计算资源成本二、
数据仓库
发展阶段2.1初始期2.2
爱吃辣条byte
·
2024-02-03 13:51
数据治理
大数据
数据仓库
初识Apache Paimon
第0章前言0.1主流
数据湖
工具Delta:由Spark背后商业公司Databricks出品,因此很多功能强兼容Spark,对其他计算引擎不是很友好。
Racin_01
·
2024-02-03 12:30
apache
深入数仓离线数据同步:问题分析与优化措施
一、前言在
数据仓库
领域,离线数仓和实时数仓是常见的两种架构类型。离线数仓一般通过定时任务在特定时间点(通常是凌晨)将业务数据同步到
数据仓库
中。
Light Gao
·
2024-02-03 10:14
数据仓库
实时数仓
数据库
数据仓库
大数据
数据分析
数仓日常维护:剖析每日增量同步的内部机制
而数据的实时性和准确性对于确保
数据仓库
的有效性至关重要。而离线数仓中常见的数据同步方式是T+1,其中同步方式主要分为两种:全量同步和增量同步。本文聚焦于探讨增量同步的原理,解析其工作机制和实
Light Gao
·
2024-02-03 10:14
数据仓库
大数据
数据库
大数据
数据仓库
数据同步
sql
API服务假死
1、OOM,直接看日志服务挂掉了2、服务假死,看服务日志,日志还在正常打印,但是所有请求都被拒绝项目背景:以前在别的项目现场,
数据中台
,使用API服务对外提供接口之前,都是对数据进行加工处理之后,A
爱晒太阳的小老鼠
·
2024-02-03 03:03
#
问题排查
java
#
高并发
java
问题排查
专业数据治理:
数据中台
系统塑造企业未来的数字化运营管理新秩序
数据中台
应运而生,它被认为是企业数字化转型的至关重要的组成部分,为企业提供了崭新的数据管理和应用模式。
亿发软件YiFaRJ
·
2024-02-02 23:36
数据分析
数据湖
系列之一 | 你一定爱读的极简数据平台史,从
数据仓库
、
数据湖
到湖仓一体
从
数据仓库
、
数据湖
,到现在的湖仓一体,业界建设数据平台的新方法和新技术层出不穷。理解这些方法和技术背后隐藏的演进脉路、关键问题、核心技术原理,可以帮助企业更好地建设数据平台。
百度智能云技术站
·
2024-02-02 23:04
百度沧海·存储
数据湖
百度
对象存储
某知名乳业集团:夯实软件安全基础,助力乳业数字化创新发展
代码隐患凸显,数字化进程遇挑战在数字化浪潮中,该乳业集团积极响应,并制定了突破性数字化战略规划,通过智能制造、ERP系统、智能办公三大核心能力,结合
数据中台
和业务中台的支撑,来推动新零售和智慧供应链的创新发
开源网安
·
2024-02-02 21:48
案例精选
安全
大数据
人工智能
Hive和Hbase的各自适用场景
Hive:Hive是Hadoop
数据仓库
,严格来说,不是
yoku酱
·
2024-02-02 17:36
超详细【入门精讲】
数据仓库
原理&实战 一步一步搭建
数据仓库
内附相应实验代码和镜像数据和脚本
文章对应的博客园链接:点击这里文章目录0.B站相关课程链接和搭建
数据仓库
资源及脚本下载食用指南:建议先把博客整体看一遍之后再进行操作文章最后有常见问题及解决方法1.项目介绍及整体流程1.1项目介绍1.2
Oraer_
·
2024-02-02 16:29
数据仓库
大数据分析
数据仓库
数据库
hadoop
银行
数据仓库
体系实践(18)--数据应用之信用风险建模
信用风险银行的经营风险的机构,那在第15节也提到了巴塞尔新资本协议对于银行风险的计量和监管要求,其中信用风险是银行经营的主要风险之一,它的管理好坏直接影响到银行的经营利润和稳定经营。信用风险是指交易对手未能履行约定契约中的义务而给银行造成经济损失的风险。典型的表现形式包括借款人发生违约或信用等级下降。借款人因各种原因未能及时、足额偿还债务/银行贷款、未能履行合同义务而发生违约时,债权人或银行必将因
南极找南
·
2024-02-02 13:10
银行数据仓库
数据仓库
银行
数据仓库
体系实践(15)--数据应用之巴塞尔新资本协议
巴塞尔新资本协议介绍在银行管理中经常会听到巴3、新资本协议等专用词,那这都是指《巴塞尔资本协议》,全称《关于统一国际银行资本衡量和资本标准的协议》。新资本协议的五大目标是:促进金融体系的安全性和稳健性(保持总体资本水平不变);继续促进公平竞争;更全面地反映风险;更敏感地反映银行头寸及其业务的风险程度;重点放在国际活跃银行,基本原则适用于所有银行。最新的《巴塞尔协议III》(第3版)于2010年9月
南极找南
·
2024-02-02 13:40
银行数据仓库
数据仓库
银行
数据仓库
体系实践(16)--数据应用之财务分析
总账系统在所有公司中,财务分析的基础都是核算,那在银行的系统体系中,核算功能在业务发生时由业务系统如核心、贷款、理财中实现登记,各业务系统会在每天切日后统计当天各机构的核算科目的发生额与余额,并统一送到总账系统,总账系统进行全行会计核算的汇总、调整并每天统计出全银行的资产负债表、利润表和现金流表,使银行的经营情况一目了然。后续的许多财务应用以及监管报送中,总账数据是必不可少的一部分。而且数据质量校
南极找南
·
2024-02-02 13:40
银行数据仓库
数据仓库
银行
数据仓库
体系实践(10)--汇总指标层和集市模型设计
建立多层次的数据访问服务体系,有力提升
数据仓库
的价值。基于指标汇总层、集市层、可以提供面向业务人员的即席数据查询、以及面向应用开发者的数据接口、应用访问接口,满足不同类型应用的需要。
acumen_leo
·
2024-02-02 13:38
银行数据仓库
大数据
数据仓库
汇总层
指标层
数据中台
银行
数据仓库
体系实践(17)--数据应用之营销分析
营销是每个银行业务部门重要的工作任务,银行产品市场竞争激烈,没有好的营销体系是不可能有立足之地,特别是随着互联网金融发展,金融脱媒”已越来越普遍,数字化营销方兴未艾,银行的营销体系近些年也不断发展,从客户经理为主逐步转变为客户经理+互联网营销的模式。在客户经理阶段,银行主要通过CRM系统进行产品销售管理。对产品、客户经理、团队的绩效进行统计。那随着互联网营销的发展和数据量的增加,单个CRM系统已经
南极找南
·
2024-02-02 13:06
银行数据仓库
数据仓库
实时
数据湖
:Flink CDC流式写入Hudi
点击上方蓝色字体,选择“设为星标”回复"面试"获取更多惊喜1.环境准备•Flink1.12.2_2.11•Hudi0.9.0-SNAPSHOT(master分支)•Spark2.4.5、Hadoop3.1.3、Hive3.1.22.FlinkCDC写入HudiMySQL建表语句如下createtableusers(idbigintauto_incrementprimarykey,namevarch
王知无(import_bigdata)
·
2024-02-02 12:01
spark
hadoop
hive
大数据
mysql
Flink CDC 详述实时
数据湖
在构建实时数仓的过程中,如何快速、正确的同步业务数据是最先面临的问题,本文主要讨论一下如何使用实时处理引擎Flink和
数据湖
ApacheIceberg两种技术,来解决业务数据实时入湖相关的问题。
000X000
·
2024-02-02 12:01
实战
实时数仓
Apache
Flink
Flink
CDC
Flink
CDC
实时数据湖
flink
使用 Flink Hudi 构建流式
数据湖
摘要:本文介绍了FlinkHudi通过流计算对原有基于mini-batch的增量计算模型不断优化演进。用户可以通过FlinkSQL将CDC数据实时写入Hudi存储,且在即将发布的0.9版本Hudi原生支持CDCformat。主要内容为:背景增量ETL演示一、背景近实时从2016年开始,ApacheHudi社区就开始通过Hudi的UPSERT能力探索近实时场景的使用案例[1]。通过MR/Spark的
浪尖聊大数据-浪尖
·
2024-02-02 12:30
大数据
spark
hadoop
java
数据库
数据仓库
表级血缘应用
表血缘热度文章目录数仓血缘应用(一):表血缘热度前言一、价值衡量指标——应用层二、血缘节点应用——热度1、指标透传(应用层——>数仓)2、指标应用(热度)2.1、数仓血缘节点关系2.2、热度2.3、热度应用总结前言在
数据仓库
的建设过程中
零壹Ture
·
2024-02-02 02:24
数据仓库
大数据
spark
数据库
数据分析
实现成本最优的一体化管理,新一代数据平台的建设方式丨爱分析调研
导读1.当前,企业在大数据和
数据中台
建设上取得成果,但数据开发管理仍具挑战性(成本、效率、复杂度)。
ifenxi爱分析
·
2024-02-01 20:10
人工智能
Flink 读取 Kafka 消息写入 Hudi 表无报错但没有写入任何记录的解决方法
博主历时三年精心创作的《大数据平台架构与原型实现:
数据中台
建设实战》一书现已由知名IT图书品牌电子工业出版社博文视点出版发行,点击《重磅推荐:建大数据平台太难了!给我发个工程原型吧!》
Laurence
·
2024-02-01 15:24
大数据专题
付费专栏
flink
hudi
kafka
无数据
无写入
streaming
springboot+mysql智能停车场管理系统-计算机毕业设计源码41692
摘要由于数据库和
数据仓库
技术的快速发展,智能停车场管理系统建设越来越向模块化、智能化、自我服务和管理科学化的方向发展。
vx2_Biye_Design
·
2024-02-01 09:10
spring
boot
mysql
css
html5
ajax
vue.js
java
大数据开发之离线数仓项目(用户行为采集平台)(可面试使用)
第1章:
数据仓库
概念
数据仓库
,是为企业指定决策,提供数据支持的,可以帮助企业,改进业务流程、提高产品质量等。
数据仓库
的输入数据通常包括:业务数据、用户行为数据和爬虫数据等。
Key-Key
·
2024-02-01 08:46
大数据
面试
职场和发展
hadoop
分布式
弹性分布式数据集
spark
Hadoop 大数据技术原理与应用
生态分布式存储系统(HDFS)分布式计算框架(MapReduce)资源管理(YARN)数据迁移(Sqoop)数据挖掘算法库(Mahout)分布式数据库(HBase)分布式协调服务(Zookeeper)
数据仓库
kk8_
·
2024-02-01 04:33
hadoop
大数据
hdfs
2022年最新数据库经典面试题及答案汇总(含PostgreSQL、Oracle、MySQL)
我们梳理了墨天轮平台上2022年最新的一批数据库经典面试题,主要包含PostgreSQL、MySQL和Oracle、
数据仓库
等方面的内容,希望能够帮助到各位正在或即将求职DBA的朋友们。
MoMoSQL666
·
2024-02-01 02:44
数据库
oracle
sql
postgresql
面试
数据库基础理论
(
数据仓库
)数据:描述事务的符号记录,包含但不限于数字、文字、图形、图像、声音、语言等。数据有多重形式,它们都可以经过数字化后存入计算机。数据库:
数据仓库
。
sour moon
·
2024-02-01 00:59
数据库
oracle
火山引擎ByteHouse:分析型数据库如何设计列式存储
作为云原生
数据仓库
的ByteHouse,也采用列式存储设计,保证读写性能、支持事务一致性,又适用大规模的数据计算,为用户提供极速分析体验和海量数据处理能力,提升企业数字化转型能力。
字节数据平台
·
2024-01-31 22:37
火山引擎
数据库
spark从入门到放弃三十九:Spark Sql(12)SparkSql工作原理以及性能优化
http://www.haha174.top/article/details/2570731工作原理1.大家都知道,只要在数据库类型的技术里面,比如,最传统的mysql,Oracle包括现在大数据领域的
数据仓库
如
意浅离殇
·
2024-01-31 20:42
饿了么元数据管理实践之路
元数据定义与价值元数据打通数据源、
数据仓库
、数据应用,记录了数据
weixin_34113237
·
2024-01-31 20:57
ui
数据库
大数据
Apache Paimon 介绍
FlinkTableStore是一个
数据湖
存储,用于实时流式Changelog写入(比如来自FlinkCDC的数据)和高性能查询。它创新性
zhisheng_blog
·
2024-01-31 15:58
apache
数据湖
技术Iceberg0.12预研文档
Iceberg0.12预研本次预研场景主要为kafka=>flinksql=>iceberg=>hive=>hdfs=>trino(presto)本次预研使用组件如下:名称版本描述flink1.12.1通过parcel包部署于cdh6.3.2中cdh6.3.2开源版本hive2.3.7包含cdh中(更换jar升级替换)hadoop3.0.0cdh原生版本presto2.591开源版本trino36
我去探险了
·
2024-01-31 15:36
数据湖技术
hive
kafka
big
data
【技术预研】StarRocks官方文档浅析(3)
参考文档产品简介|StarRocksStarRocksStarRocks是一款高性能分析型
数据仓库
,使用向量化、MPP架构、CBO、智能物化视图、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析
偏振万花筒
·
2024-01-31 15:02
大数据
starRocks
数据库
有赞一面:亿级用户DAU日活统计,有几种方案?
尼恩作为技术中台、
数据中台
的架构师,致力于为大家研究出一个3高架构知识宇宙,所以,
40岁资深老架构师尼恩
·
2024-01-31 09:35
面试
java
面试
大数据
后端
redis
如何通过Hive/tez与Hadoop的整合快速实现大数据开发
一、Hive的功能Hive是基于Hadoop的一个外围
数据仓库
分析组件,可以把Hive理解为一个
数据仓库
,但这和传统的数据库是有差别的。
小枫@码
·
2024-01-31 08:00
大数据架构师
hadoop
大数据
hive
Apache Doris 2.0.4 版本正式发布
亲爱的社区小伙伴们,ApacheDoris2.0.4版本已于2024年1月26日正式发布,该版本在新优化器、倒排索引、
数据湖
等功能上有了进一步的完善与更新,使ApacheDoris能够适配更广泛的场景。
SelectDB技术团队
·
2024-01-31 03:38
apache
大数据
数据仓库
数据分析
数据库
Apache
Doris
秒级响应,显著增效:明日控股携手奇点云,打造大宗贸易的
数据中台
标杆
而在
数据中台
项目三期落地后,明日控股不仅越过了数据在线化、数据可视化阶段,进而达成了10秒内的业
奇点云
·
2024-01-31 00:16
奇点案例
奇点云
数据中台
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他