E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数据仓库(数仓)
Hadoop大数据实战系列文章之Hive
hive是基于Hadoop的一个
数据仓库
工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,Hive定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户查询数据可以将
测试帮日记
·
2024-02-04 05:45
第七章 主管信息系统和
数据仓库
[TOC]第七章主管信息系统和
数据仓库
7.0前言EIS是
数仓
之前的概念EIS没有注重基础结构(数据源、数据质量、数据流通等)DSS是现代的EIS,与
数仓
紧密相连7.1EIS概述EIS典型用途趋势分析关键指标度量和跟踪向下钻取问题监控竞争分析关键性能指标监控
晨磊的微博
·
2024-02-04 04:53
【读书笔记】
数据仓库
- Apache Kylin权威指南
ApacheKylin权威指南(第2版)◆1.2.1为什么要使用ApacheKylin它们的主要技术是“大规模并行处理”(MassivelyParallelProcessing,MPP)和“列式存储”(ColumnarStorage)◆1.2.2ApacheKylin怎样解决关键问题基于以上两点,我们得到一个新的思路——“预计算”。应尽量多地预先计算聚合结果,在查询时刻也尽量使用预计算的结果得出查
KevinBrain
·
2024-02-03 19:16
大数据
数据仓库
apache
kylin
大数据
分布式
[Python] 如何使用scikit-learn的preprocessing和impute模块进行数据预处理(数据无量纲化,缺失值填充,对分类型特征编码与哑变量,对连续型特征进行二值化与分段)
数据挖掘的五大流程获取数据从各种来源收集数据,包括但不限于数据库、
数据仓库
、互联网、传感器、社交媒体等。获取数据的方式可以通过数据抓取、数据爬取、数据采集工具等方法进行。
老狼IT工作室
·
2024-02-03 18:16
机器学习
python
机器学习
scikit-learn
python
数仓
建模&维度建模理论知识
0.思维导图第1章
数据仓库
概述1.1
数据仓库
概述
数据仓库
是一个为数据分析而设计的企业级数据管理系统。
韩顺平的小迷弟
·
2024-02-03 16:02
#
大数据开发
spark
大数据
数据仓库
hadoop
hive
hadoop使用公平调度器
Stage1(默认调度器)大概在几年前,搭建的
数仓
集群中。数据量不大,做离线一个晚上就能轻松调度完,那时候使用的hadoop自带的调度器,容量调度器。但默认配置没有改,就会发生什么!
向他一样rap
·
2024-02-03 13:22
kylin
hadoop
hadoop
大数据
分布式
离线
数仓
-数据治理
目录一、前言1.1数据治理概念1.2数据治理目标1.3数据治理要解决的问题1.3.1合规性元数据合规性数据质量合规性数据安全合规性1.3.2成本存储资源成本计算资源成本二、
数据仓库
发展阶段2.1初始期2.2
爱吃辣条byte
·
2024-02-03 13:51
数据治理
大数据
数据仓库
数仓
治理-存储资源治理
存储资源治理的流程及思路三、治理前如何评估3.1无用数据表/临时数据表下线评估3.2表及分区的生命周期评估3.3存储及压缩格式评估3.4根据业务场景实现节省存储评估四、治理后的成效如何评估一、存储资源治理的背景由于早期
数仓
的存储资源比较充裕
爱吃辣条byte
·
2024-02-03 13:51
数据治理
数据仓库
大数据
Flink实时
数仓
同步:拉链表实战详解
一、背景在大数据领域,初始阶段业务数据通常被存储于关系型数据库,如MySQL。然而,为满足日常分析和报表等需求,大数据平台采用多种同步方式,以适应这些业务数据的不同存储需求。这些同步存储方式包括离线仓库和实时仓库等,选择取决于业务需求和数据特性。一项常见需求是,业务使用人员需要大数据分析平台中查看历史某一天的表数据,示例如下:[Mysql]业务数据-用户表全量数据:idnamephonegende
Light Gao
·
2024-02-03 10:15
大数据
实时数仓
flink
大数据
数据仓库
拉链表
doris
Flink实时
数仓
同步:流水表实战详解
一、背景在大数据领域,初始阶段业务数据通常被存储于关系型数据库,如MySQL。然而,为满足日常分析和报表等需求,大数据平台采用多种同步方式,以适应这些业务数据的不同存储需求。这些同步存储方式包括离线仓库和实时仓库等,选择取决于业务需求和数据特性。一项常见需求是,大数据分析平台需要能够检索某张业务表的变更记录,并以每天为单位统计每条数据的变更频率。以下是示例:[Mysql]业务数据-用户表全量数据:
Light Gao
·
2024-02-03 10:15
实时数仓
数据仓库
flink
大数据
flinkcdc
数据同步
数据仓库
深入
数仓
离线数据同步:问题分析与优化措施
一、前言在
数据仓库
领域,离线
数仓
和实时
数仓
是常见的两种架构类型。离线
数仓
一般通过定时任务在特定时间点(通常是凌晨)将业务数据同步到
数据仓库
中。
Light Gao
·
2024-02-03 10:14
数据仓库
实时数仓
数据库
数据仓库
大数据
数据分析
数仓
日常维护:剖析每日增量同步的内部机制
数仓
日常维护:剖析每日增量同步的内部机制一、前言在现代企业中,离线仓库扮演着不可或缺的角色。它充当着一个数据的中心枢纽,存储和管理着海量的信息。
Light Gao
·
2024-02-03 10:14
数据仓库
大数据
数据库
大数据
数据仓库
数据同步
sql
Flink实时
数仓
同步:快照表实战详解
一、背景在大数据领域,初始阶段业务数据通常被存储于关系型数据库,如MySQL。然而,为满足日常分析和报表等需求,大数据平台采用多种同步方式,以适应这些业务数据的不同存储需求。这些同步存储方式包括离线仓库和实时仓库等,选择取决于业务需求和数据特性。一项常见需求是,业务使用人员需要大数据分析平台中查看历史某一天的表数据,示例如下:[Mysql]业务数据-用户表全量数据:idnamephonegende
Light Gao
·
2024-02-03 10:38
实时数仓
数据仓库
flink
大数据
数据仓库
flinkcdc
数据同步
数据湖系列之一 | 你一定爱读的极简数据平台史,从
数据仓库
、数据湖到湖仓一体
从
数据仓库
、数据湖,到现在的湖仓一体,业界建设数据平台的新方法和新技术层出不穷。理解这些方法和技术背后隐藏的演进脉路、关键问题、核心技术原理,可以帮助企业更好地建设数据平台。
百度智能云技术站
·
2024-02-02 23:04
百度沧海·存储
数据湖
百度
对象存储
实时
数仓
到底是什么呢?与传统
数仓
有什么区别?如何建设实时
数仓
呢?
在本地生活服务领域的两大巨头,滴滴在自己的业务如顺风车、美团在自己的业务如团购外卖中进行实时
数仓
的建设,为消费者提供更好的服务,如我们在滴滴上可以更快的打到更便宜的车、在美团上可以更快的取到最想要吃的餐
盐城qn
·
2024-02-02 18:50
Hive和Hbase的各自适用场景
Hive:Hive是Hadoop
数据仓库
,严格来说,不是
yoku酱
·
2024-02-02 17:36
超详细【入门精讲】
数据仓库
原理&实战 一步一步搭建
数据仓库
内附相应实验代码和镜像数据和脚本
文章对应的博客园链接:点击这里文章目录0.B站相关课程链接和搭建
数据仓库
资源及脚本下载食用指南:建议先把博客整体看一遍之后再进行操作文章最后有常见问题及解决方法1.项目介绍及整体流程1.1项目介绍1.2
Oraer_
·
2024-02-02 16:29
数据仓库
大数据分析
数据仓库
数据库
hadoop
银行
数据仓库
体系实践(18)--数据应用之信用风险建模
信用风险银行的经营风险的机构,那在第15节也提到了巴塞尔新资本协议对于银行风险的计量和监管要求,其中信用风险是银行经营的主要风险之一,它的管理好坏直接影响到银行的经营利润和稳定经营。信用风险是指交易对手未能履行约定契约中的义务而给银行造成经济损失的风险。典型的表现形式包括借款人发生违约或信用等级下降。借款人因各种原因未能及时、足额偿还债务/银行贷款、未能履行合同义务而发生违约时,债权人或银行必将因
南极找南
·
2024-02-02 13:10
银行数据仓库
数据仓库
银行
数据仓库
体系实践(15)--数据应用之巴塞尔新资本协议
巴塞尔新资本协议介绍在银行管理中经常会听到巴3、新资本协议等专用词,那这都是指《巴塞尔资本协议》,全称《关于统一国际银行资本衡量和资本标准的协议》。新资本协议的五大目标是:促进金融体系的安全性和稳健性(保持总体资本水平不变);继续促进公平竞争;更全面地反映风险;更敏感地反映银行头寸及其业务的风险程度;重点放在国际活跃银行,基本原则适用于所有银行。最新的《巴塞尔协议III》(第3版)于2010年9月
南极找南
·
2024-02-02 13:40
银行数据仓库
数据仓库
银行
数据仓库
体系实践(16)--数据应用之财务分析
总账系统在所有公司中,财务分析的基础都是核算,那在银行的系统体系中,核算功能在业务发生时由业务系统如核心、贷款、理财中实现登记,各业务系统会在每天切日后统计当天各机构的核算科目的发生额与余额,并统一送到总账系统,总账系统进行全行会计核算的汇总、调整并每天统计出全银行的资产负债表、利润表和现金流表,使银行的经营情况一目了然。后续的许多财务应用以及监管报送中,总账数据是必不可少的一部分。而且数据质量校
南极找南
·
2024-02-02 13:40
银行数据仓库
数据仓库
银行
数据仓库
体系实践(10)--汇总指标层和集市模型设计
建立多层次的数据访问服务体系,有力提升
数据仓库
的价值。基于指标汇总层、集市层、可以提供面向业务人员的即席数据查询、以及面向应用开发者的数据接口、应用访问接口,满足不同类型应用的需要。
acumen_leo
·
2024-02-02 13:38
银行数据仓库
大数据
数据仓库
汇总层
指标层
数据中台
银行
数据仓库
体系实践(17)--数据应用之营销分析
营销是每个银行业务部门重要的工作任务,银行产品市场竞争激烈,没有好的营销体系是不可能有立足之地,特别是随着互联网金融发展,金融脱媒”已越来越普遍,数字化营销方兴未艾,银行的营销体系近些年也不断发展,从客户经理为主逐步转变为客户经理+互联网营销的模式。在客户经理阶段,银行主要通过CRM系统进行产品销售管理。对产品、客户经理、团队的绩效进行统计。那随着互联网营销的发展和数据量的增加,单个CRM系统已经
南极找南
·
2024-02-02 13:06
银行数据仓库
数据仓库
Flink CDC 详述实时数据湖
在构建实时
数仓
的过程中,如何快速、正确的同步业务数据是最先面临的问题,本文主要讨论一下如何使用实时处理引擎Flink和数据湖ApacheIceberg两种技术,来解决业务数据实时入湖相关的问题。
000X000
·
2024-02-02 12:01
实战
实时数仓
Apache
Flink
Flink
CDC
Flink
CDC
实时数据湖
flink
如何推动埋点管理项目的落地
一埋点管理常见痛点分析埋点数据作为三大数据来源之一,具有应用场景多、数据量级大等特点,上能影响数据分析、推荐、AB实验的准确性,下能影响
数仓
结构设计和维护成本,其重要性不言而喻。
一个数据人的自留地
·
2024-02-02 06:01
数据仓库
表级血缘应用
数仓
血缘应用(一):表血缘热度文章目录
数仓
血缘应用(一):表血缘热度前言一、价值衡量指标——应用层二、血缘节点应用——热度1、指标透传(应用层——>
数仓
)2、指标应用(热度)2.1、
数仓
血缘节点关系2.2
零壹Ture
·
2024-02-02 02:24
数据仓库
大数据
spark
数据库
数据分析
springboot+mysql智能停车场管理系统-计算机毕业设计源码41692
摘要由于数据库和
数据仓库
技术的快速发展,智能停车场管理系统建设越来越向模块化、智能化、自我服务和管理科学化的方向发展。
vx2_Biye_Design
·
2024-02-01 09:10
spring
boot
mysql
css
html5
ajax
vue.js
java
oracle
数仓
rac两个节点查询耗时不一致问题处理
问题描述数据库节点1查询比节点2查询慢。现场操作应用发现发现同一sql语句在节点2上只要2分钟左右,在节点1,该条sql执行要超过30分钟。处理过程根据问题,初步判断是由于错误的执行计划,导致性能问题,但实际上对两个节点做trace跟踪发现执行计划都一致,后续通过awr报告和10046事件跟踪发现由于“gccrmultiblock”耗时造成节点一慢,这是oracleRAC大事务处理特性,两边都查有
烟雨归来
·
2024-02-01 09:23
oracle
数据库
大数据开发之离线
数仓
项目(用户行为采集平台)(可面试使用)
第1章:
数据仓库
概念
数据仓库
,是为企业指定决策,提供数据支持的,可以帮助企业,改进业务流程、提高产品质量等。
数据仓库
的输入数据通常包括:业务数据、用户行为数据和爬虫数据等。
Key-Key
·
2024-02-01 08:46
大数据
面试
职场和发展
hadoop
分布式
弹性分布式数据集
spark
Hadoop 大数据技术原理与应用
生态分布式存储系统(HDFS)分布式计算框架(MapReduce)资源管理(YARN)数据迁移(Sqoop)数据挖掘算法库(Mahout)分布式数据库(HBase)分布式协调服务(Zookeeper)
数据仓库
kk8_
·
2024-02-01 04:33
hadoop
大数据
hdfs
2022年最新数据库经典面试题及答案汇总(含PostgreSQL、Oracle、MySQL)
我们梳理了墨天轮平台上2022年最新的一批数据库经典面试题,主要包含PostgreSQL、MySQL和Oracle、
数据仓库
等方面的内容,希望能够帮助到各位正在或即将求职DBA的朋友们。
MoMoSQL666
·
2024-02-01 02:44
数据库
oracle
sql
postgresql
面试
数据库基础理论
(
数据仓库
)数据:描述事务的符号记录,包含但不限于数字、文字、图形、图像、声音、语言等。数据有多重形式,它们都可以经过数字化后存入计算机。数据库:
数据仓库
。
sour moon
·
2024-02-01 00:59
数据库
oracle
火山引擎ByteHouse:分析型数据库如何设计列式存储
作为云原生
数据仓库
的ByteHouse,也采用列式存储设计,保证读写性能、支持事务一致性,又适用大规模的数据计算,为用户提供极速分析体验和海量数据处理能力,提升企业数字化转型能力。
字节数据平台
·
2024-01-31 22:37
火山引擎
数据库
多表拆解 | 数据PM的工作内容
之前一篇文章介绍了我司数据体系搭建过程,见:埋点、
数仓
到中台:数据体系的从0到1为了区分数据产品和数据产品经理,下文会用数据产品和数据PM来区分。
PMCAFF产品社区
·
2024-01-31 21:47
可视化
大数据
编程语言
人工智能
数据分析
spark从入门到放弃三十九:Spark Sql(12)SparkSql工作原理以及性能优化
http://www.haha174.top/article/details/2570731工作原理1.大家都知道,只要在数据库类型的技术里面,比如,最传统的mysql,Oracle包括现在大数据领域的
数据仓库
如
意浅离殇
·
2024-01-31 20:42
饿了么元数据管理实践之路
元数据定义与价值元数据打通数据源、
数据仓库
、数据应用,记录了数据
weixin_34113237
·
2024-01-31 20:57
ui
数据库
大数据
数据建模分析与
数仓
维度建模规范
数据建模在
数仓
管理、数据库设计、算法模型训练等领域都有着重要的作用。
i7杨
·
2024-01-31 20:57
大数据
Python入门教程,30分钟玩转Python编程!
一、Python入门二、Python爬虫三、数据分析四、数据库与ETL
数仓
五、机器学
老-程序员
·
2024-01-31 18:50
程序员
python
开发语言
人工智能
python入门教程
编程
大厂 5 年实时数据开发经验总结,Flink SQL 看这篇就够了!
本文摘编于《FlinkSQL与DataStream入门、进阶与实战》(500页、70万字)作者羊艺超,目前就职于快手,国内最早一批FlinkSQL使用者拥有从0到1使用FlinkSQL建设、保障及治理实时
数仓
的丰富经验京东机械工业出版社旗舰店限时
zhisheng_blog
·
2024-01-31 15:29
flink
sql
数据库
oracle
大数据
【技术预研】StarRocks官方文档浅析(3)
参考文档产品简介|StarRocksStarRocksStarRocks是一款高性能分析型
数据仓库
,使用向量化、MPP架构、CBO、智能物化视图、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析
偏振万花筒
·
2024-01-31 15:02
大数据
starRocks
数据库
如何通过Hive/tez与Hadoop的整合快速实现大数据开发
一、Hive的功能Hive是基于Hadoop的一个外围
数据仓库
分析组件,可以把Hive理解为一个
数据仓库
,但这和传统的数据库是有差别的。
小枫@码
·
2024-01-31 08:00
大数据架构师
hadoop
大数据
hive
HBase表结构
一般我们从
数仓
中离线统计分析海量数据,将得到的结果插入HBase中用于实时查询。表结构hbase在表中组织数据。表名是字符串和字符的组合,可以在文件系统路径中使用这里以一个公
内向仓鼠
·
2024-01-31 07:55
hbase
数据库
大数据
Databend 开源周报第 130 期
Databend是一款现代云
数仓
。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn。
Databend
·
2024-01-31 04:28
开源
数据库
银行
数据仓库
体系实践(13)--数据应用之监管报送
1、监管报送概览:我国各类银行已达到4000家左右,管理着亿万资产,已经成为我国金融体系的重要组成部分,它的稳定运行关乎到国家经济走势,关系到每个居民的生活。那在我国金融体系中,银行的主要管理者有人行和银保监会:(1)中央人民银行是中华人民共和国国务院组成部门。主要职责是制定和执行货币政策,防范和化解金融风险,维护金融稳定。(2)中国银行保险监督管理委员会(简称银保监会)是国务院直属事业单位,其主
南极找南
·
2024-01-30 18:18
银行数据仓库
数据仓库
银行
数据仓库
的架构
1.
数据仓库
的定义官方定义
数据仓库
是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。这个定义的确官方,但是却指出了
数据仓库
的四个特点。
specila_coder
·
2024-01-30 18:46
数据仓库
数据仓库
架构
spark
oracle
mysql
sql
银行
数据仓库
体系实践(15)--数据应用之巴塞尔新资本协议
巴塞尔新资本协议介绍在银行管理中经常会听到巴3、新资本协议等专用词,那这都是指《巴塞尔资本协议》,全称《关于统一国际银行资本衡量和资本标准的协议》。新资本协议的五大目标是:促进金融体系的安全性和稳健性(保持总体资本水平不变);继续促进公平竞争;更全面地反映风险;更敏感地反映银行头寸及其业务的风险程度;重点放在国际活跃银行,基本原则适用于所有银行。最新的《巴塞尔协议III》(第3版)于2010年9月
acumen_leo
·
2024-01-30 18:45
银行数据仓库
大数据
巴赛尔
新资本
风险建模
评级
数据仓库
实践杂谈(十八)——关于报表
整体数据分层第三章:整体实现框架第四章:元数据第五章:ETL第六章:数据校验第七章:数据标准化第八章:去重第九章:增量/全量第十章:拉链处理第十一章:分布式处理增量第十二章:列式存储第十三章:逻辑数据模型(
数仓
模型
老程序员一叶知秋
·
2024-01-30 18:45
数据仓库实践
数据库
大数据
java
链表
数据分析
银行
数据仓库
体系实践(14)--数据应用之内部报表及数据分析
在银行日常经营中,每个部门、分支行随时随地都需要进行数据统计和分析,才能对银行当前业务状况及时了解,以进行后续经营策略、营销活动、风险策略的调整和决策。那在平时进行数据分析时除了各数据应用系统(如各类监管报表系统、财务系统、营销系统等)进行专门的数据加工和操作,主要还有报表和自助分析2种方式来分析数据,支持业务运行。1、统计报表统计报表是最常用的数据分析方式,按业务需求中确定的维度和属性进行数据加
南极找南
·
2024-01-30 18:13
银行数据仓库
数据仓库
数据分析
大数据
程序人生系列1-2021年通过私活累积收益1.5w
博主在B站更新了接私活的视频,感兴趣的可以移步到我的B站:博主私活记录一.个人介绍 2011年毕业,计算机专业科班出身,10年及以上金融信贷、通信行业数据库运维管理、
数据仓库
及大数据相关工作经验,持有
只是甲
·
2024-01-30 15:51
程序人生
程序员接单
私活
留学生课程作业
我是职场小白,如何能够平稳度过试用期?
背景2022整年可能大家在各个信息平台都有看到应届、试用期毕业(cy)情况,收集不少信息后发现数据这边毕业的也不少,尤其是数据分析/
数据仓库
侧(由于业务线被砍,人员使用成本太高),本节课针对于试用期该如何卷赢其他人
语兴数据
·
2024-01-30 15:32
大数据
校招
面试
职场
试用期
职业发展
字节跳动二面经典题目
欢迎关注公众号:语数本期投稿本期语数精选来源于球友应对字节跳动二面时候的场景问题
数仓
工程师的职业规划做
数仓
工程师要具备哪些点,按照重要性排序gpt在数据分析中的应用实习项目的收益价值在哪里?
语兴数据
·
2024-01-30 15:31
字节
面试
大数据
学习
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他