E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
--------【数据仓库】
Hive
数据仓库
简介与安装
文章目录Hive
数据仓库
简介及安装配置一、
数据仓库
简介1.什么是
数据仓库
2.
数据仓库
的结构1)数据源2)数据存储与管理3)OLAP服务器4)前端工具3.
数据仓库
的数据模型1)星状模型2)雪花模型二、Hive
W_chuanqi
·
2023-01-08 19:33
Hive数据仓库
数据仓库
hive
数据库
大数据之离线数仓项目搭建(一)
数据仓库
搭建文章目录
数据仓库
搭建1、开启hadoop的权限验证2、在hive中创建数据库3、在hdfs中创建5个目录4、在linux中创建5个用户5、将目录权限赋值给不同用户6、修改hive权限7、在ods
纯欲天花板_
·
2023-01-08 13:53
大数据
big
data
hive
hadoop
数据挖掘学习
文章目录绪论定义挖掘过程数据准备数据探索EDA
数据仓库
空间数据库时间数据库和时序数据库流数据异构数据和遗产数据数据挖掘的模式数据准备数据组成什么是数据对象?什么是数据属性?
银晗
·
2023-01-08 12:46
机器学习
数据挖掘
学习
数据仓库
数据仓库
与数据挖掘——模型评估指标
一、混淆矩阵1、基本概念混淆矩阵(confusionmatrix),又称为可能性表格或是错误矩阵。在机器学习领域是一种特定的矩阵用来呈现算法性能的可视化效果,通常是监督学习(非监督学习,通常用匹配矩阵:matchingmatrix)。其每一列代表预测值,每一行代表的是实际的类别。这个名字来源于它可以非常容易的表明多个类别是否有混淆(也就是一个class被预测成另一个class)。2、计算方法3、关
LiuXin67X
·
2023-01-08 12:16
算法
数据挖掘
人工智能
数据挖掘1
数据清理数据集成数据选择数据变换数据挖掘模式评估知识表示数据挖掘概念:从大量的、错综复杂的数据中挖掘哪些令人感兴趣的(易被理解、新颖的、潜在有用的、非平凡的)模式或知识构成数据挖掘算法的三要素:模式记述语言模式评价模式探索
数据仓库
是一个面向主题的
JaSparrow
·
2023-01-08 12:16
数据挖掘
聚类
人工智能
数据仓库
与数据挖掘——PageRank
一、基本介绍PageRank算法的基本想法是在有向图上定义一个随机游走模型,即一阶马尔可夫链,描述随机游走者沿着有向图随机访问各个结点的行为。在一定条件下,极限情况访问每个结点的概率收敛到平稳分布,各结点的平稳概率值就是其PageRank值,表示结点的重要度。PageRank是递归定义的,PageRank的计算可以通过迭代算法进行。二、实验内容PageRank算法的核心部分可以从一个有向图开始。最
LiuXin67X
·
2023-01-08 12:46
算法
数据仓库
数据挖掘
人工智能
机器学习——
数据仓库
与数据挖掘复习(选择题、判断题)
1.以下不是分类问题的是(B)。A.用户流失模型B.身高和体重关系C.信用评分D.营销响应2.对于回归分析,下列说法错误的是(D)A.在回归分析中,变量间的关系若是非确定关系,那么因变量不能由自变量唯一确定B.线性相关系数可以是正的,也可以是负的C.回归分析中,如果r^2=1,说明x与y之间完全相关D.样本相关系数r在区间(-1,1)3.数据分类是一个两阶段过程,包括(B)和分类阶段。A.分析阶段
小步调LLY
·
2023-01-08 12:46
复习
数据挖掘
机器学习
数据仓库
数据仓库
与数据挖掘——k-Means算法
一、基本介绍聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小。由这个定义可以知道,数据集并没有目标值。因此聚类算法属于无监督算法。k-Means算法的思想很简单,对于给定的样本集,按照样本之间的距离大小,将样本集划分为k个簇,同时使簇内的点尽量紧密的连在一起,簇间的距离尽量的大。二、核心思想给定一个有n个对象的数据集,划分聚
LiuXin67X
·
2023-01-08 12:45
算法
数据挖掘
kmeans
人工智能
数据仓库
与数据挖掘——DBSCAN
一、基本介绍DBSCAN算法是基于一组邻域参数(ε,MinPts)来描述样本分布的紧密程度,相比于基于划分的聚类方法和层次聚类方法,DBSCAN算法将簇定义为密度相连的样本的最大集合,能够将密度足够高的区域划分为簇,不需要给定簇的数量,并且可以在存在噪声的空间数据集中发现任意形状的簇。二、核心思想DBSCAN的簇里面可以有一个或者多个核心对象。如果只有一个核心对象,则簇里其他的非核心对象样本都在这
LiuXin67X
·
2023-01-08 12:45
算法
python
算法
以“升舱”之名,谈谈云原生
数据仓库
AnalyticDB 的核心技术
阿里云企业级云原生
数据仓库
AnalyticDB(以下简称ADB)[1]在帮助以金融机构为主的行业数字化转型和传统数仓升级项目中,也引用了“升舱(仓)”这个概念。
阿里云云栖号
·
2023-01-08 10:50
云原生
数据仓库
云计算
数据库
以“升舱”之名,谈谈云原生
数据仓库
AnalyticDB的核心技术
阿里云企业级云原生
数据仓库
AnalyticDB(以下简称ADB)[1]在帮助以金融机构为主的行业数字化转型和传统数仓升级项目中,也引用了“升舱(仓)”这个概念。
阿里云技术
·
2023-01-08 10:49
云原生
数据仓库
云计算
数据库
美团点评基于 Flink 的实时数仓建设实践
本文整理了常见实时数据组件的性能特点和适用场景,介绍了美团如何通过Flink引擎构建实时
数据仓库
,从而提供高效、稳健的实时数据服务。
zxfBdd
·
2023-01-08 10:16
大数据
flink
用Flink取代Spark Streaming!知乎实时数仓架构演进
作者|知乎数据工程团队“数据智能”(DataIntelligence)有一个必须且基础的环节,就是
数据仓库
的建设,同时,
数据仓库
也是公司数据发展到一定规模后必然会提供的一种基础服务。
chiweiwei2710
·
2023-01-08 10:10
大数据
运维
前端
ViewUI
实时数仓,为什么不可代替?
什么是实时
数据仓库
?它有哪些不可替代之处?
jerry-89
·
2023-01-08 10:05
实时数仓
数据仓库
数据挖掘
大数据
520页(17万字)集团大数据平台整体解决方案-v1.0
完整资料领取见文末,部分资料内容:1.1.1 系统总体逻辑结构4-14系统总体逻辑结构图参见上图,基于Hadoop构建的企业级
数据仓库
,包含:分布式列式存储数据库Hyperbase和分布式文件系统
数字化方案
·
2023-01-08 07:52
大数据
数据分析-Hive学习 Day6
一、什么是
数据仓库
?
小浩码出未来!
·
2023-01-07 19:43
hive
大数据面试通关手册|
数据仓库
面试题(四)
数据仓库
的定义?首先,用于支持决策,面向分析型数据处理;其次,对多个异构的数据源有效集成,集成后按照主题进行重组,并包含历史数据,而且存放在
数据仓库
中的数据一般不再修改。数
王知无(import_bigdata)
·
2023-01-07 15:09
大数据面试通关手册
数据仓库
大数据
数据库
数据分析
java
大数据面试通关手册|
数据仓库
面试题(一)
⭐⭐欢迎关注博客主页:https://blog.csdn.net/u013411339⭐⭐欢迎点赞收藏⭐留言,欢迎留言交流!⭐⭐本文由【王知无】原创,首发于CSDN博客!⭐⭐本文首发CSDN论坛,未经过官方和本人允许,严禁转载!1.维表和宽表的考查(主要考察维表的使用及维度退化手法)维表数据一般根据ods层数据加工生成,在设计宽表的时候,可以适当的用一些维度退化手法,将维度退化到事实表中,减少事实
王知无(import_bigdata)
·
2023-01-07 15:08
大数据面试通关手册
大数据
面试
flink-sql读写hive-1.16
1.1.概述ApacheHive已经成为了
数据仓库
生态系统中的核心。它不仅仅是一个用于大数据分析和ETL场景的SQL引擎,同样也是一个数据管理平台,可用于发现,定义,和演化数据。
第一片心意
·
2023-01-07 13:54
flink
flink
sql
hive
flink-sql读写hive-1.15
1.1.概述ApacheHive已经成为了
数据仓库
生态系统中的核心。它不仅仅是一个用于大数据分析和ETL场景的SQL引擎,同样也是一个数据管理平台,可用于发现,定义,和演化数据。
第一片心意
·
2023-01-07 13:24
flink
hive
flink
sql
flink-sql读写hive-1.14
1.1.概述ApacheHive已经成为了
数据仓库
生态系统中的核心。它不仅仅是一个用于大数据分析和ETL场景的SQL引擎,同样也是一个数据管理平台,可用于发现,定义,和演化数据。
第一片心意
·
2023-01-07 13:24
flink
flink
sql
hive
数据仓库
的构建
目录一.
数据仓库
的定义二.数仓构建规范2.1数仓设计原则2.2数据层次划分2.3数仓层次调用规定2.4ODS层规范2.5CDW层规范2.6ADS层规范三.
数据仓库
构建步骤3.1ODS层3.2CDW层3.3ADS
emPoint
·
2023-01-06 01:54
大数据
数仓构建-架构与模型设计
数仓分层在阿里巴巴的数据体系中,我们建议将
数据仓库
分为三层,自下而上为:数据引入层(O
胜利的曙光
·
2023-01-06 01:24
数据仓库
阿里云
架构
数据仓库
big
data
day21笔记(知行教育结构说明+
数据仓库
概念+维度、指标概念)
1、项目背景1、近年来,在线教育产业发展十分迅速。尤其是2018年以来,在线教育平台动作不断,除了洋葱数学、考虫、作业盒子、火花思维、VIPKID、阿卡索等平台纷纷融资外,诸多在线教育平台纷纷上市。新东方在线也在2019年3月成功上市。在市场规模方面,在线教育很大程度上是随着移动互联网的浪潮发展起来的,在传统的PC时代,虽然出现了网络教育形式,但是真正的所谓在线教育仍然是在2011年左右开始爆发的
月暖.如梵音
·
2023-01-06 01:53
Hive
hive
离线数仓搭建_01_数仓概念与项目框架说明
点击右下方:专栏目录查看全文文章目录1.0
数据仓库
概念(P1-P13)2.0项目需求及架构设计2.1项目需求2.2项目框架2.2.1技术选型2.2.2系统数据流程设计2.2.3框架版本选型2.2.4服务器选型
Fang GL
·
2023-01-06 01:23
#
离线数仓搭建
数据仓库
数据挖掘
数据库
数据仓库
构建方法论和简单实践
数据仓库
的价值构思一个主题讨论
数据仓库
的构建方法论,包括
数据仓库
的价值、选型、构建思路,随着数据规模膨胀和业务复杂度的提升,大型企业需要构建企业级的
数据仓库
(数据湖)来快速支撑业务的数据化需求,与传统的数据库构建不通
小晨说数据
·
2023-01-06 01:52
数据仓库
数据库
大数据
编程语言
人工智能
实时数仓之 Kappa 架构与 Lambda 架构
今天,我们先了解一下
数据仓库
架构的演变过程,本文主要从五个方面进行介绍
数据仓库
概念离线大数据架构Lambda架构Kappa架构Lambda架构与Kappa架构的对比1
数据仓库
概念
数据仓库
是一个面向主题的
智慧化智能化数字化方案
·
2023-01-06 01:22
架构
数据仓库
数据库
数仓实践:总线矩阵架构设计
如何设计一套切实可行的
数据仓库
呢?我们要明白,对于
数据仓库
的设计是不能完全依赖于业务的需求,但往往又必须要服务于业务的价值。
云 祁
·
2023-01-06 01:51
数仓实践
数据仓库
java
人工智能
大数据
python
数仓构建准备
1、数据集市和
数据仓库
的区别1、数据集市通常来说,数仓的构建会从整个企业的业务作为出发点,自上而下的进行构建,但这种方式因为涉及到多部门业务,难度较大。
月暖.如梵音
·
2023-01-06 01:21
数仓项目
数据仓库
4种
数据仓库
建模方法
4种
数据仓库
建模方法1
数据仓库
的前世今生数仓建模的目的是什么?
JaquanC
·
2023-01-05 22:23
数仓学习专栏
数据仓库
数据库
big
data
大数据
《大数据 知识图谱导航》有勇气的牛排
其他四、报错一、hadoop技术栈安装1、单机版hadoop云平台(伪分布式)搭建统计单词2、Ubuntu伪分布式hadoop安装3、hadoop全分布式部署4、hadoopHA高可用集群实战5、hive
数据仓库
完整配
有勇气的牛排
·
2023-01-05 03:43
云计算大数据虚拟化
hadoop
python
NEFU
数据仓库
与数据挖掘复习
文章目录
数据仓库
和数据挖掘概述
数据仓库
数据仓库
的两个主要作用
数据仓库
的关键特征
数据仓库
的三级模型OLAPOLAP概述OLAP与DWOLAP与OLTPOLAP的特性OLAP的分析方法OLAP的数据组织ROLAP
之子与安
·
2023-01-03 10:40
数据仓库
数据挖掘
数据库
NEFU数据科学导论(三)数据预处理
将多个数据源合并存放在一个一致的数据存储(如
数据仓库
)中3.2处理方法实体识别数据冗余·3.3.1实体识别3.3.2数据冗余四、数据规约4.1什么是数据
NEFU-Go D 乌索普
·
2023-01-03 10:07
数据挖掘
人工智能
如何在 TiDB Yun 上使用 Databricks 进行数据分析
Databricks的数据湖仓架构集成了业界最优秀的
数据仓库
和数据湖。
LCHub低代码社区
·
2023-01-03 09:17
TiDB
Yun
tidb
数据分析
数据库
tidb
yun
CC00031.bdpositions——|Hadoop&实时数仓.V11|——|项目.v11|DWD层处理|
数据仓库
层数据处理.V1|
一、DW层处理###---DW层处理~~~DW(DataWarehouse
数据仓库
层)。~~~包含DWD、DWS、DIM层,由ODS层数据加工而成。
yanqi_vip
·
2022-12-31 16:09
数据仓库
impala
aof
数学建模
数据建模
离线数仓07——
数据仓库
设计
文章目录第5章
数据仓库
设计5.1
数据仓库
分层规划5.2
数据仓库
构建流程5.2.1数据调研5.2.2明确数据域5.2.3构建业务总线矩阵5.2.4明确统计指标5.2.5维度模型设计5.2.6汇总模型设计上一篇
就是这个范~
·
2022-12-31 16:38
离线数仓
数据仓库
离线数仓01——概念与设计思路
文章目录第1章
数据仓库
概念第2章项目需求及架构设计2.1项目需求分析2.2项目框架2.2.1技术选型2.2.2系统数据流程设计2.2.3框架版本选型2.2.4服务器选型2.2.5集群资源规划设计下一篇:
就是这个范~
·
2022-12-31 16:08
离线数仓
数据仓库
数据库
浅谈数仓模型(维度建模)
背景
数据仓库
的核心是展现层和提供优质的服务。ETL及其规范、分层等所做的一切都是为了一个更清晰易用的展现层。
公众号:肉眼品世界
·
2022-12-31 16:37
大数据
编程语言
数据库
人工智能
数据分析
数据查询和业务流分开_滴滴实时数仓逐层剖解:实时与离线数据误差<0.5%
负责实时
数据仓库
建设,多年数据相关工作经验,专注数据建模、
数据仓库
、实时数据技术等领域。朱峰,高级软件开发工程师。
weixin_39733812
·
2022-12-31 16:07
数据查询和业务流分开
离线
安装
xfonts-utils
离线数仓搭建_07_数仓建模理论
点击右下方:专栏目录查看全文文章目录第三部分:
数据仓库
系统8.0数仓分层1.1为什么要分层1.2数据集市与
数据仓库
概念1.3数仓命名规范1.3.1表命名1.3.2脚本命名1.3.3表字段类型9.0数仓理论
Fang GL
·
2022-12-31 16:35
#
离线数仓搭建
数据仓库
hive
hadoop
离线电商数仓建模学习笔记
1.
数据仓库
概述1.1
数据仓库
概念
数据仓库
是一个为数据分析而设计的企业级数据管理系统。
数据仓库
可集中、整合多个信息源的大量数据,借助
数据仓库
的分析能力,企业可从数据中获得宝贵的信息进而改进决策。
阳宝宝的向日葵
·
2022-12-31 16:05
大数据
学习
数据仓库
数据挖掘
离线数仓 (九) --------- 数仓理论
1.范式概念2.函数依赖3.三范式区分二、关系建模与维度建模1.关系建模2.维度建模三、维度表和事实表(重点)1.维度表2.事实表四、维度模型分类1.星型模型2.雪花模型3.星座模型4.模型的选择五、
数据仓库
建模
在森林中麋了鹿
·
2022-12-31 16:34
大数据项目
1024程序员节
hadoop
数据仓库
Hadoop总结
目录大数据概述Hadoop大数据开发平台资源管理YARN分布式文件系统HDFS非关系型数据库NOSQL分布式数据库HBASE批处理和MapReduce
数据仓库
查询分析和Hive基于内存计算的Spark流计算和
普通网友
·
2022-12-31 13:04
面试
学习路线
阿里巴巴
android
前端
后端
ETL过程中数据清洗(脏数据处理)小结
在我们想尽各种办法把数据弄进
数据仓库
ods层后,接下来的事情就比较有意思了,并且比较重要,对后续的数据模型建设,数据质量的保证,甚至影响管理层的决策(就问你怕不怕?)
派可数据BI可视化
·
2022-12-31 10:26
数据库
big
data
ETL数据清洗的案例
ETL一词较常用在
数据仓库
,但对象并不限于
数据仓库
.在运行核心业务MapReduce程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。
未来影子
·
2022-12-31 10:22
hadoop
etl
mapreduce
hadoop
关于ETL的两种架构(ETL架构和ELT架构)
ETL一词较常用在
数据仓库
,但其对象并不限于
数据仓库
。ETL是构建
数据仓库
的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的
数据仓库
模型,将数据加载到
数据仓库
中去。
微服务 spring cloud
·
2022-12-31 10:51
etl
数据仓库
数据库
Hadoop案例:数据清洗(ETL)
ETL一词较常用在
数据仓库
,但其对象并不限于
数据仓库
在运行核心业务MapReduce程序之前,往往要先对数据进
小M姐姐呀~
·
2022-12-31 10:19
大数据
etl
hadoop
big
data
mapreduce
大数据
ETL数据清洗
大多
数据仓库
的数据架构可以概括为:数据源-->ODS(操作型数据存储)-->DW-->DM(datamart)ETL贯穿其各个环节。一、数据抽取:可以理解为是把源数据的数据抽取到ODS或者DW中。
jerry-89
·
2022-12-31 10:45
ETL
etl
数据仓库
数据挖掘
Greenplum 实时
数据仓库
实践(10)——集成机器学习库MADlib
目录10.1MADlib基本概念10.1.1MADlib是什么10.1.2MADlib的设计思想10.1.3MADlib的工作原理10.1.4MADlib的执行流程10.1.5MADlib架构10.2MADlib的功能10.2.1MADlib支持的模型类型10.2.2MADlib的主要功能模块10.3MADlib的安装与卸载10.3.1确定安装平台10.3.2安装MADlib10.3.3卸载MAD
wzy0623
·
2022-12-31 05:01
Greenplum
实时数仓
数据仓库
机器学习
数据库
智能湖仓架构实践:利用 Amazon Redshift 的流式摄取构建实时数仓
AmazonRedshift是一种快速、可扩展、安全且完全托管的云
数据仓库
,可以帮助用户通过标准SQL语言简单、经济地分析各类数据。
亚马逊云开发者
·
2022-12-30 17:59
架构
数据仓库
数据库
上一页
55
56
57
58
59
60
61
62
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他