--------【数据仓库】第62页

ClickHouse的入门、使用和优化

ClickHouse是俄罗斯的重要网络服务门户之一Yandex所开源的一套针对数据仓库场景的多维数据存储与检索工具，一个用于联机分析(OLAP)的列式数据库管理系统(DBMS),它通过针对性的设计力图解决海量多维度数据的查询性能问题

木鱼-·2022-12-18 08:01

CDGA数据治理工程师是做什么的？

2.负责数据仓库设计、建模、数据etl，对内及对外提供高质量的数据服务。3.

hb15302782362·2022-12-17 16:25

看场景、重实操，实时数仓不是“纸上谈兵”

有人认为，传统数据仓库做了

aliyunhologres·2022-12-17 14:57

数据挖掘算法

数据清理数据集成数据选择数据变换数据挖掘模式评估知识表示数据挖掘概念：从大量的、错综复杂的数据中挖掘哪些令人感兴趣的（易被理解、新颖的、潜在有用的、非平凡的）模式或知识构成数据挖掘算法的三要素：模式记述语言模式评价模式探索数据仓库是一个面向主题的

JaSparrow·2022-12-17 13:50

Danah.F·2022-12-17 13:49

SDU数据仓库与数据挖掘重要算法提纲

课程难度很大，想要全掌握很难，但是掌握一部分基础算法还是可以的，考试多半也是这个范围。按章节给出。一，数据分析，大数据技术概念性章节，没有什么具体算法，主要是讲大数据的发展和应用。（不太重要）大数据：巨量资料，规模庞大，数据量从TB级别到PB，EB甚至ZB级别。大数据技术的战略意义不在于掌握庞大的数据，而是要对如此规模的数据进行专业化管理，提高加工能力，实现数据增值。大数据名称来源：1980年《第

feilongzzz·2022-12-17 13:47

数据挖掘与数据仓库——关联规则挖掘

关联规则挖掘基本概念Apriori算法Apriori裁剪原理：对于任意项集，如果它不是频繁集，则它的任何超集不用产生/测试!算法流程：关于连接操作：一个例子：Apriori算法存在问题：多次扫描数据库产生大量的候选集合FP-Tree算法可以参考：https://blog.csdn.net/kisslotus/article/details/80328045FP-tree算法的优点FP-tree算法

布丁的自我修养·2022-12-17 13:17

山东大学数据仓库数据挖掘知识点整理

关联规则基于变量种类布尔型关联规则量化型关联规则基于数据的抽象层次单层的关联规则多层的关联规则基于规则中涉及到的数据的维数单维关联规则多维关联规则关联规则挖掘分类频繁项集挖掘序列模式挖掘结构模式挖掘apriori算法关联规则的挖掘过程分解为两个子问题发现频繁项集支持度由频繁项集生成关联规则置信度apriori算法思想是一种最有影响的挖掘布尔关联规则频繁项集的算法。它使用一种称作逐层搜索的迭代算法，

NewtonLoop·2022-12-17 13:46

数据仓库与数据挖掘——Apriori算法

一、基本介绍Apriori算法是经典的挖掘频繁项目集和关联规则的数据挖掘算法。当定义问题时，通常会使用先验知识或者假设，这被称作"一个先验"。算法使用频繁项目集的先验性质，即频繁项目集的所有非空子集也一定是频繁的。Apriori算法使用一种称为逐层搜索的迭代方法，其中k项集用于探索(k+1)项集。首先通过扫描数据库，累计每个项的计数，并收集满足最小支持度的项，找出频繁1项集的集合。该集合记为L1。

LiuXin67X·2022-12-17 13:13

数据仓库与数据挖掘——k-Neareat Neighbors

一、基本介绍k-近邻算法又称kNN，全称是k-NearestNeighbors算法，它是数据挖掘和机器学习中常用的学习算法，也是机器学习中最简单的分类算法之一。kNN算法用一句通俗的古语来说就是：“物以类聚，人以群分”，要判断一个实例的类别，就可以看它附近是什么类别。kNN的使用范围很广泛，在样本量足够大的前提条件之下它的准确度非常高。二、核心思想计算每个训练数据到待分类元组的距离，取和待分类元组

LiuXin67X·2022-12-17 13:13

非结构化数据的时刻已经到来：2023 年的 3 个关键预测

尽管在过去四十年中数据处理、数据库管理和数据仓库方面取得了所有进步，但一个基本的、甚至令人不安的现实仍然存在：大多数企业基本上无法利用其庞大的数据库中的大部分来构建真正的数据库。价值。

DataView数据科技研究院·2022-12-17 11:11

喜讯 | 百度大数据4款产品通过DCA大数据能力评测

本期测评，百度4款大数据产品：时序数据库TSDB数据仓库Palo（现已更名Doris，Apache孵化中）数据科学与机器学习平台Jarvis分布式事务数据库TafDB全部顺利完成测评，获得权威认证。

百度智能云·2022-12-17 11:23

数据仓库分四层

数据库和数据仓库区别：数据库：为某种目的，保存的表型结构化数据。元数据和表数据存放在mysql中数据仓库：为某种目的，结构化/半结构化数据，表数据本身不一定放在数据仓库中，还可以放在hdfs中。

百夜﹍悠ゼ·2022-12-17 10:57

「数仓建设篇」数仓主题域划分

一、前言数据仓库具有面向主题的特性，那么就会有主题的概念，数仓建设是遵循纵向分层开发，横向划分主题域设计，数仓分层就不在这次谈了，这次我会结合本人数仓工作实践总结的经验来聊聊数仓主题域划分，同时会引申出主题划分

大数据阶梯之路·2022-12-16 21:01

「数据接入篇」数据同步策略和实施总结

通过大纲提问式进行概览，你能通过文章学到什么：1.常见的几种数据接入方式2.数据接入的几种业界同步策略3.面对海量数据同步的挑战，如何优化解决方案附上一份文章脉络的思维导图帮助阅读一、数据接入是什么把数据同步至数据仓库中

大数据阶梯之路·2022-12-16 21:01

数据湖与数据仓库的根本区别，在于前者是“市场经济”，而后者是“计划经济”...

这是傅一平的第356篇原创正文开始很多同学跟我一样，对于数据湖充满好奇，也许还读了不少数据湖文章，有不觉明历的，也有认为是概念炒作的，但无论别人怎么说，你还是会觉得难以把握数据湖的本质。有些人会望文生义说，数据湖嘛，就是什么东西都可以往里面扔，特别是对非结构数据的处理比较方便。是这样吗？有案例才有鉴别，有的人找了数据湖的始作俑者AWS来说明数据湖是什么东西，比如下图：但光看产品的介绍，不懂数据的人

dbLenis·2022-12-16 18:14

有了数据湖，距离数据仓库消失还有几年？

有案例才有鉴别，有的人找了数据湖的作者AWS来说明数据湖是什么东西，比如下图：不懂数据的人也许会觉得数据湖很厉害，而懂数据的人也许会觉得仅是一堆数据仓库技术的堆砌包装而已，你看上面那张

Leo.yuan·2022-12-16 18:14

在大数据时代，传统的数据处理方法还适用吗？

传统数据处理方法的不足传统的数据采集来源单一，且存储、管理和分析数据量也相对较小，大多采用关系型数据库和并行数据仓库即可处理。

程序の之道·2022-12-16 18:43

数据仓库实践-拉链表设计

写在开头的话拉链表，学名叫缓慢变化维（SlowlyChangingDimensions），简称渐变维（SCD），俗称拉链表，是为了记录关键字段的历史变化而设计出来的一种数据存储模型，常见于维度表设计，在数据仓库相关的面试中

王知无(import_bigdata)·2022-12-16 18:11

【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍（图文解释超详细）

一、Hive简介Hive起源于Facebook，Facebook公司有着大量的日志数据，而Hadoop是实现了MapReduce模式开源的分布式并行计算的框架，可轻松处理大规模数据。然而MapReduce程序对熟悉Java语言的工程师来说容易开发，但对于其他语言使用者则难度较大。因此Facebook开发团队想设计一种使用SQL语言对日志数据查询分析的工具，而Hive就诞生于此，只要懂SQL语言，就

showswoller·2022-12-16 18:09

大数据开发是干什么的？

大数据作为时下火热的IT行业的词汇，随之而来的数据开发、数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。

一起学习大数据·2022-12-16 18:08

大数据时代，数据仓库究竟是干嘛的？

前言无论你是否专门从事大数据开发，作为一个开发人员，应该都听说过数据仓库的概念，那你知道为什么会出现数据仓库？数据仓库究竟是干嘛的吗？有什么价值和意义呢？那么本文就带到入门，揭开数据仓库的面纱。

JAVA旭阳·2022-12-16 18:07

对话交通银行：中国金融业数据仓库有哪些重要趋势？

数字经济时代，什么才是金融机构的核心竞争力？笔者访谈了交通银行软件开发中心总经理刘雷。刘雷指出：“数据和数据能力是金融机构发展的核心竞争力”。当下，金融机构的数字化转型正迈入纵深阶段，使得两大核心诉求更加清晰：其一、通过数字化转型重塑核心竞争力，让营销、风控、管理等传统业务焕发生机，走向高效化；其二、利用数字化技术拓展新的业务领域，在商业模式上实现创新与突破。无一例外，这两大核心诉求的基础都是数据

大数据在线·2022-12-16 15:26

数据生态第四弹 | OpenMLDB Hive Connector，架构起数据仓库到特征工程的生态桥梁

导读近日，OpenMLDB实现了与开源数据仓库软件Hive的连接，继完成与Kafka、Pulsar、RocketMQ等实时数据源生态整合后，持续构建离线数据生态，期待建设一个更加全面一体的上下游生态圈，

第四范式开发者社区·2022-12-16 09:25

Hive实现词频统计（详细讲解）

HiveQL，可以通过HiveQL语句快速实现简单的MapReduce统计，Hive自身可以将HiveQL语句快速转换成MapReduce任务进行运行，而不必开发专门的MapReduce应用程序，因而十分适合数据仓库的统计分析

青春是首不老歌丶·2022-12-16 00:42

新一代云原生实时数仓 SelectDB 发布会精华干货！五大核心特色解读。

回顾往昔，可以归结为三个典型阶段：第一阶段：传统数据仓库时代使用场景：企业内部BI技术实现：基于传统数据库共享存储架构和专门面向分析型的无共享MPP架构第二阶段：湖仓并行时代使用场景：企业内部报表与分析

·2022-12-15 14:02

分布式数据仓库 HBase

关系型数据库基本概念关系型数据库简介关系型数据库的功能及特点–基于事务的ACID机制，数据强一致性–参照完整性–采用标准的SQL进行数据操作–适合事务性操作–物理结构基于行进行存储关系型数据库存在的问题-–数据量急剧增长会导致数据库变慢–索引带来的额外负载–不适合超大规模的数据分析操作解决方案–读写分离–增加缓存，如memcached–数据分区数据结构介绍结构化数据结构化数据具有固定的结构，属

Blue Protocol·2022-12-15 11:10

大数据部门组织结构

平台团队(运维团队)运维工程师最基本的职责都是负责服务的稳定性，确保服务可以7*24H不间断地为用户提供服务，负责维护并确保整个服务的高可用性，同时不断优化系统架构提升部署效率、优化资源利用率；数据仓库团队

YaPengLi.·2022-12-15 11:44

hadoop实战（综合实验）

配置环境本地数据集上传数据仓库导入数据集数据预处理删第一行导入脚本2.字段预处理但是报错awk:line4:runawaystringconstant"…sh文件有误#!

CHILDE Ley·2022-12-15 11:48

JupyterLab深度定制开发实践

3、在公司数据仓库内，执行导数任务，输出相关csv数据集。4、在本地利用单机python/R来进行探索性数据分析。5、完成数据分析，获得相关数据模型，并完成模型验证。6、将分

szwx855·2022-12-14 15:01

ArgoDB 5.1 正式发布：多模融合、实时分析和数据安全多重升级

基于星环科技ArgoDB数据库，可以打造一站式离线数据仓库、实时数据仓库、数据集市和联邦计算平台等数据分析系统，为企业提供全面、便捷、智能和安全的数据服务能力。

·2022-12-14 15:35

数据生态第四弹 | OpenMLDB Hive Connector，架构起数据仓库到特征工程的生态桥梁

导读近日，OpenMLDB实现了与开源数据仓库软件Hive的连接，继完成与Kafka、Pulsar、RocketMQ等实时数据源生态整合后，持续构建离线数据生态，期待建设一个更加全面一体的上下游生态圈，

·2022-12-14 15:58

数据智仓功能介绍（一）

数据仓库的目的是构建面向分析的集成化数据环境，为企业提供基于数据的决策支持（DecisionSupport）。

·2022-12-14 14:14

元数据 Hive血缘关系（解析SQL构建血缘图）V2.0

数据中台，数据仓库在大数据的发展中占着重要的占比，二者两者都离不开血缘关系的构建，解析SQL构建血缘关系SQL的解析可以分为三个步骤：【一】获取最外层表的个数（判断是否是Union关系）我们可以借助工具查询最外层表的个数

tb77506668·2022-12-14 04:40

如何在5分钟内发现 SQL 语言中的数据血缘

数据仓库和数据湖中处理数据用的最多的工具就是SQL语言，无论是数据加载、数据转换、还是数据清洗，都会用到SQL查询语言，更不用说数据查询和分析了。

chensuper·2022-12-14 04:33

从数据仓库到百万标签库，精细化数据管理，这么做就够了

不知道你们有没有发现，营销的手段越来越丰富，但也越来越难了。虽然很多企业都有自己的标签库，或者说是DMP吧，但毕竟不是每个产品经理都有机会让平台承载的标签数量超过一百万，原因很简单，要么没需求，要么没数据，要么没必要。我记得当初打造1000+标签库的时候，也是觉得太多了，但大数据运营几年后，却有了观念的转变今天就来讲一讲，主要包括五大部分内容：标签库定位、标签体系、产品功能、平台架构。无论你是做什

Leo.yuan·2022-12-13 22:15

数据仓库与数据挖掘知识点梳理

数据仓库与数据挖掘知识点梳理一：数据挖掘1：什么是数据挖掘数据挖掘是从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则。

Jangtall·2022-12-13 20:18

数据挖掘基础之数据库

最近出现的一种数据库结构是数据仓库（1.3.2小节）。这是一种多个异种数据源在单个站点以统一的模式组织的存储，以支持管理决策。数据仓库技术包括数据清理、数据集成和联机分析处理（OLAP）。

miner_zhu·2022-12-13 20:16

数据仓库与数据挖掘阶段考试复习题

文章目录第一章数据仓库与数据挖掘概述第二章数据仓库概述第三章联机分析处理（OLAP）第四章数据挖掘的基本概念第五章数据预处理第六章概念描述：特征化和比较习题答案第一章数据仓库与数据挖掘概述无习题第二章数据仓库概述一

nefu-ljw·2022-12-13 20:41

关于数据公共层建设

调研问题数据仓库目前有多少个表？有多少个认证表？数据开发团队有哪些？数据使用团队有哪些？数据模型图整理现有的数据模型E-R图，归属到不同主题域。

数据驱动足迹·2022-12-13 20:25

数仓建模理论

文章目录第一章数仓分层一、为什么要分层（1）数据仓库分层（2）数据仓库为什么要分层二、数据集市与数据仓库概念三、数仓命名规范（1）表命名（2）脚本命名（3）表字段类型第二章数仓理论一、范式理论（1）范式概念

Chen Mon·2022-12-13 18:55

Centos7 从零开始搭建 hive（含hive测试-数据导入与安装包）

Centos7从零开始搭建hive博主这两天搭建了Centos，所以写个教程帮助大家去搭建hive数据仓库的环境。

Mr Gao·2022-12-13 13:41

数据库建模 : 概念模型 , 逻辑模型和物理模型

概念模型设计,逻辑模型设计,物理模型设计是数据库及数据仓库模型设计的三个主要步骤1.概念模型概念模型就是在了解了用户的需求,用户的业务领域工作情况以后,经过分析和总结,提炼出来的用以描述用户业务需求的一些概念的东西

Ensk·2022-12-13 12:12

服务器云管理系统设计与开发,服务器云管理系统设计与开发

服务器云管理系统设计与开发内容精选换一换云硬盘(ElasticVolumeService,EVS)可以为云服务器提供高可靠、高性能、规格丰富并且可弹性扩展的块存储服务，可满足不同场景的业务需求，适用于分布式文件系统、开发测试、数据仓库以及高性能计算等场景

木目也念相·2022-12-12 17:42

数据库与数据仓库

数据仓库是数据库概念的升级。从逻辑上理解，数据库和数据仓库没有区别，从数据量来说，数据仓库要比数据库更庞大的多。数据仓库主要用于数据挖掘和数据分析，辅助做决策。

知更鸟k·2022-12-12 17:33

大数据组件的区别总结（hive，hbase，spark，flink）

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。

枫锦旧曾谙·2022-12-12 15:02

我眼中的Hive-你眼中的了?

的生母Hive体系结构Hive在Hadoop心中的位置Hive的设计特征Hive的体系结构Hive的运行机制Hive的核心-编译器Hive的优缺点万花筒大众眼中的hivehive是基于Hadoop的一个数据仓库工具

风一样的美狼子·2022-12-12 10:47

大数据-hive入门详解

维基百科-hiveApacheHive中文手册hive是建立在hadoop架构上的数据仓库工具,能够提供数据精炼、查询和分析,能够将结构化的数据文件映射成一张表,并提供类SQL查询功能,底层是将SQL转换成

zZsS松·2022-12-12 10:37

大数据从入门到实战 - Hive的安装与配置

一、关于此次实践1、实战简介Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询

发芽ing的小啊呜·2022-12-12 09:18

尚硅谷大数据---06---hive01

官方文档：https://hive.apache.org/hadoop入门：https://www.jianshu.com/p/0d4a365ef350hive的介绍：一、Hive的介绍1.Hive是一个数据仓库软件

nzch·2022-12-12 09:13

推荐频道

--------【数据仓库】

ClickHouse的入门、使用和优化

CDGA数据治理工程师是做什么的？

看场景、重实操，实时数仓不是“纸上谈兵”

数据挖掘算法

数据挖掘相关算法

SDU数据仓库与数据挖掘 重要算法提纲

数据挖掘与数据仓库——关联规则挖掘

山东大学数据仓库数据挖掘知识点整理

数据仓库与数据挖掘——Apriori算法

数据仓库与数据挖掘——k-Neareat Neighbors

非结构化数据的时刻已经到来：2023 年的 3 个关键预测

喜讯 | 百度大数据4款产品通过DCA大数据能力评测

数据仓库分四层

「数仓建设篇」数仓主题域划分

「数据接入篇」数据同步策略和实施总结

数据湖与数据仓库的根本区别，在于前者是“市场经济”，而后者是“计划经济”...

有了数据湖，距离数据仓库消失还有几年？

在大数据时代，传统的数据处理方法还适用吗？

数据仓库实践-拉链表设计

【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍（图文解释 超详细）

大数据开发是干什么的？

大数据时代，数据仓库究竟是干嘛的？

对话交通银行：中国金融业数据仓库有哪些重要趋势？

数据生态第四弹 | OpenMLDB Hive Connector，架构起数据仓库到特征工程的生态桥梁

Hive实现词频统计（详细讲解）

新一代云原生实时数仓 SelectDB 发布会精华干货！五大核心特色解读。

分布式数据仓库 HBase

大数据部门组织结构

hadoop实战（综合实验）

JupyterLab深度定制开发实践

ArgoDB 5.1 正式发布：多模融合、实时分析和数据安全多重升级

数据生态第四弹 | OpenMLDB Hive Connector，架构起数据仓库到特征工程的生态桥梁

数据智仓功能介绍（一）

元数据 Hive血缘关系（解析SQL构建血缘图）V2.0

如何在5分钟内发现 SQL 语言中的数据血缘

从数据仓库到百万标签库，精细化数据管理，这么做就够了

数据仓库与数据挖掘知识点梳理

数据挖掘基础之数据库

数据仓库与数据挖掘 阶段考试复习题

关于数据公共层建设

数仓建模理论

Centos7 从零开始搭建 hive（含hive测试-数据导入与安装包）

数据库建模 : 概念模型 , 逻辑模型和物理模型

服务器云管理系统设计与开发,服务器云管理系统设计与开发

数据库与数据仓库

大数据组件的区别总结（hive，hbase，spark，flink）

我眼中的Hive-你眼中的了?

大数据-hive入门详解

大数据从入门到实战 - Hive的安装与配置

尚硅谷大数据---06---hive01

SDU数据仓库与数据挖掘重要算法提纲

【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍（图文解释超详细）

数据仓库与数据挖掘阶段考试复习题