数据仓库数据挖掘第15页

Teradata数据库和Informatica ETL逻辑及视图、用户定义函数和存储过程迁移到AWS的Hive数据仓库基本流程

，我们需要注册AWS帐号，并启用EC2（ElasticCloudComputing，高性能云计算）、EMR（ElasticMap-Reduce，高性能大数据计算）、Redshift/Snowflake数据仓库和

weixin_30777913·2024-01-07 10:12

FineBI实战（2）：案例架构说明及数据准备

1系统架构基于MySQL搭建数据仓库基于Kettle进行数据处理帆软FineBI基于MySQL搭建的数据仓库进行数据分析2数据流程图通过Kettle将MySQL业务系统数据库中，将数据抽取出来，然后装载到

不死鸟.亚历山大.狼崽子·2024-01-07 08:25

【数据仓库与联机分析处理】多维数据模型

目录一、数据立方体二、数据模型（一）星形模型（二）雪花模式（三）事实星座模式三、多维数据模型中的OLAP操作（一）下钻（二）上卷（三）切片（四）切块（五）转轴数据仓库和OLAP工具是基于多维数据模型的，

Francek Chen·2024-01-07 07:05

SaaS中数据仓库实战：构建智能数据基础支持业务创新

在当今数字化时代，SaaS企业越来越重视数据的价值，而构建一个高效的数据仓库是实现数据驱动业务创新的关键一步。本文将深入探讨SaaS中数据仓库的实战应用，以及如何通过智能数据基础支持业务的持续发展。

benhuyun_dev·2024-01-07 07:05

PriSTI: A Conditional Diffusion Framework for Spatiotemporal Imputation

PriSTI:AConditionalDiffusionFrameworkforSpatiotemporalImputation时空数据挖掘在空气质量监测、人群流量建模、气候预测等方面发挥着重要作用。

西西弗的小蚂蚁·2024-01-07 07:34

Apriori算法C++实现

最近刚上了数据挖掘这门课，老师讲了两个算法，即Apriori算法和FP-growth算法，然后布置了上机作业，挖掘一个有8万行的记录的retail.dat，需要从中找出强规则，即同时满足最小支持度和最小置信度的规则

无人赴约的cat·2024-01-07 07:33

PriSTI

PriSTI:AConditionalDiffusionFrameworkforSpatiotemporalImputationonVariationalPointProcesses代码地址论文地址引言时空数据挖掘在空气质量监测

llddycidy·2024-01-07 07:47

Hive内部表和外部表的区别

主要体现在load与drop（是否同时删除元数据与数据）的操作上：创建表：Hive创建内部表时，会将数据移动到数据仓库指向的路径，hive管理数据的生命周期；Hive创建外部表时，仅记录数据所在的路径，

airyv·2024-01-07 06:44

ssm企业人事信息管理系统-98194，（免费领取源码）计算机毕业设计选题开题+程序定制+论文书写+答辩ppt书写包售后全流程

企业人事信息管理系统的设计与实现摘要由于数据库和数据仓库技术的快速发展，企业人事信息管理系统建设越来越向模块化、智能化、自我服务和管理科学化的方向发展。

vx_bscxy322·2024-01-07 05:21

工业缺陷检测新时代！OpenCV4六种方法助你轻松应对生产难题！

方法六：写在末尾：主页传送门：传送送书系列：送书第一期：考研必备书单送书第二期：CTF那些事儿送书第三期：数据要素安全流通送书第四期：MLOps工程实践：工具、技术与企业级应用送书第五期：Python数据挖掘

家有娇妻张兔兔·2024-01-07 02:20

2023年度盘点：AIGC、AGI、GhatGPT、人工智能大模型必读书单

通用人工智能》写在末尾：主页传送门：传送送书系列：送书第一期：考研必备书单送书第二期：CTF那些事儿送书第三期：数据要素安全流通送书第四期：MLOps工程实践：工具、技术与企业级应用送书第五期：Python数据挖掘

家有娇妻张兔兔·2024-01-07 02:20

Hive的基本的概述即使用参考

1.Hive的概述√意义：在于大幅度降低工程师学习MapReduce的学习成本，让好用（计算速度快）的MapReduce更方便的使用（使用简单）√基本概念：Hive是基于Hadoop的一个数据仓库工具，

C8H11O2N_4cd4·2024-01-07 02:29

2024.1.5 Hadoop各组件工作原理,面试题

4.数据库与数据仓库的区别?5.简述下数据仓库经典三层架构?6.请简述内部表和外部表的区别?

白白的wj·2024-01-06 23:34

数据挖掘聚类算法--划分(partitioning)

数据挖掘--聚类算法简介聚类是对物理的或者抽象的对象集合分组的过程，聚类生成的组称为簇，而簇是数据对象的集合。

Mr_Peter_Hu·2024-01-06 21:55

数据挖掘经典算法之K-邻近算法（超详细附代码）

简介又叫K-邻近算法，是监督学习中的一种分类算法。目的是根据已知类别的样本点集求出待分类的数据点类别。基本思想kNN的思想很简单：在训练集中选取离输入的数据点最近的k个邻居，根据这个k个邻居中出现次数最多的类别（最大表决规则），作为该数据点的类别。kNN算法中，所选择的邻居都是已经正确分类的对象。算法复杂度kNN是一种lazy-learning算法，分类器不需要使用训练集进行训练，因此训练时间复杂

Python研究者·2024-01-06 19:37

《Hive系列》Hive详细入门教程

目录1Hive基本概念1.1什么是HiveHive简介Hive：由FaceBook开源用于解决海量结构化日志的数据统计工具Hive：基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表

DATA数据猿·2024-01-06 17:55

Hive（一）概述

6.Hive配置7.关于小文件问题二.安装Hive三.Hive基本使用一.简介1.概述什么是HiveHive：由Facebook开源用于解决海量结构化日志的数据统计工具Hive是基于Hadoop的一个数据仓库工具

Jumanji_·2024-01-06 17:54

贷款违约预测-Task2 数据分析

赛题：零基础入门数据挖掘-零基础入门金融风控之贷款违约目的：1.EDA价值主要在于熟悉了解整个数据集的基本情况（缺失值，异常值），对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模.2.了解变量间的相互关系

致Great·2024-01-06 17:51

教你如何将本地虚拟机变成服务器，供其它电脑访问

场景：最近在做数据仓库的作业，需要团队协作，买不起阿里云服务器，所以想到能不能将我本地机上的虚拟机变成服务器，供其它同学的电脑访问。

吾浴西风·2024-01-06 16:01

高可用分布式部署Spark、完整详细部署教程

mapreduce算法实现的分布式计算，拥有HadoopMapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的

一座野山·2024-01-06 16:15

湖仓架构的演进

1.数据仓库架构的历史演进起初，业界数据处理首选方式是数仓架构。通常数据处理的流程是把一些业务数据库，通过ETL的方式加载到DataWarehouse中，再在前端接入一些报表或者BI的工具去展示。

土豆马铃薯·2024-01-06 16:09

特性快闪：使用 Databend 玩转 Iceberg

ApacheOpenDAL(Incubating)Committerhttps://github.com/PsiACE几周前，Databricks和Snowflake召开了各自的年度大会，除了今年一路持续走红的AI，数据湖/数据仓库技术的发展仍然值得关注

Databend·2024-01-06 14:48

Databend 的安装配置和使用

介绍Databend是一个内置在Rust中的开源、弹性和工作负载感知的云数据仓库，为Snowflake提供了具有成本效益的替代方案，专门对最大的数据集进行复杂分析而设计。

有请小发菜·2024-01-06 14:47

一个月读完6本书？这些烧脑神书，你能读完1本，就是学霸！

1数据挖掘导论（原书第2版）

大数据v·2024-01-06 11:05

今年最值得期待的美股IPO（三）：硅谷最神秘独角兽Palantir

事实上，这家数据挖掘和分析公司常常被称作是“硅谷最神秘的科技独角兽”。随着IPO提上议程，Palantir的面纱可能要被逐渐揭开。

HOX币股世界·2024-01-06 11:42

数据探索 —— 数据预处理 1

在数据挖掘中，海量的原始数据中存在着大量不完整（有缺失值）、不一致、有异常的数据，严重影响到数据挖掘建模的执行效率，甚至可能导致挖掘结果的偏差，所以进行数据清洗就显得尤为重要，数据清洗完成后接着进行或者同时进行数据集成

冰度猎魂·2024-01-06 10:33

计算机毕业设计基于SpringBoot的公司资产网站的设计与实现 Java实战项目附源码+文档+视频讲解

博主介绍：✌从事软件开发10年之余，专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。

IT学长编程·2024-01-06 07:38

数据仓库系列7-OLAP是什么

数据挖掘中的这些OLAP操作是资源密集型的。使用OLAP可以预先计算和预先聚合数据，从而加快分析速度。OLAP数据库被分成一个或多个多维数据集。多维数据集

allwit·2024-01-05 21:32

GBDT、XGBoost、LightGBM的区别与联系

GBDT也是各种数据挖掘竞赛的致命武器，据统计Kaggle上的比赛有一半以上的冠军方案都是基于GBDT。

徐卜灵·2024-01-05 19:32

《数据挖掘基础》实验：Weka平台实现聚类算法

实验目的进一步理解聚类算法（K-平均、PAM、层次聚类、密度聚类），利用weka实现数据集的聚类处理，学会调整模型参数，以图或树的形式给出挖掘结果，并解释规则的含义。实验要求（1）随机选取数据集（UCI或data文件夹），需要做预处理的，单独说明处理过程。完成以下内容：（用四种方法：K-means、K-中心法、层次、密度）文件导入与编辑参数设置说明结果截图结果分析与对比（2）以AQI.xls中1-

lazyn·2024-01-05 18:08

【数据挖掘】聚类趋势估计、簇数确定、质量测定等评估方法详解（图文解释超详细）

需要PPT和源码请点赞关注收藏后评论区留言私信~~~聚类评估用于对在数据集上进行聚类的可行性和被聚类方法产生的结果的质量进行评估。聚类评估主要包括以下任务估计聚类趋势对于给定的数据集聚类趋势估计用于评估该数据集是否存在非随机结构，如果盲目地在数据集上使用聚类方法返回一些簇所挖掘的簇可能是误导因为数据集上的聚类分析仅当数据中存在非随机结构时才有意义确定数据集中的划分簇数一些聚类算法需要数据集划分的簇

showswoller·2024-01-05 18:37

基于SSM的招聘信息管理系统的设计与实现-计算机毕业设计源码78049

摘要由于数据库和数据仓库技术的快速发展，招聘客户管理系统建设越来越向模块化、智能化、自我服务和管理科学化的方向发展。

vx_bysj1330·2024-01-05 17:15

【亚马逊云科技】自家的AI助手 - Amazon Q

本人的技术路线从Java全栈工程师一路奔向大数据开发、数据挖掘领域，如今终有小成，愿将昔日所获与大家交流一二，希望对学习路上的你有所助益。

一头小山猪·2024-01-05 14:00

计算机毕业设计基于Java的供应商管理系统的设计与实现 Java实战项目附源码+文档+视频讲解

博主介绍：✌从事软件开发10年之余，专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。

IT学长编程·2024-01-05 11:57

Python数据处理 ——展现Pandas 的强大

Pandas被普遍用于数据挖掘和数据分析，同时也提供数据清洗、数据I/O、数据可视化等辅助功能。Pandas不仅简洁，还拥有出众的数据处理能力和完备的辅助功能。归纳起来，Pandas有以下5大特点。

Zouia Gail(修行中)·2024-01-05 11:57

数据分析系统有哪些

一、数据仓库系统数据仓库系统作为数据分析的基石，扮演着收集、存储、整合和管理数据的重要角色。它能够集中存储来自多个数据源的原始数据，并进行数据清洗和转换，便于后续的分析工作。常见的数据仓

qingyunliushuiyu·2024-01-05 10:52

数据挖掘与数据分析的主要区别是什么

在当今数字化时代，数据已经成为了企业决策的重要依据，而数据挖掘与数据分析作为数据处理的重要工具，都在帮助企业从数据中发现价值，从而提升业务效益。然而，许多人对于数据挖掘与数据分析的区别并不清晰。

qingyunliushuiyu·2024-01-05 09:16

数据挖掘总结(考试版）

数据挖掘总结：第一章：数据挖掘KDD步骤：数据清理:(消除噪声和删除不一致的数据)数据集成（多种数据源可以组合在一起）数据选择（从数据库中提取与分析任务相关的数据）数据变换（数据变换或统一成适合挖掘的形式

acmakb·2024-01-05 09:45

数据仓库理论进阶 - 01 《阿里大数据之路》第二篇数据模型篇

第8章大数据领域建模综述此文章为学习笔记，有兴趣的小伙伴可以根据以下指引获取更多，学习内容链接如下：视频：【一起啃书】阿里大数据之路数据仓库建模基础理论研读(已完结)_哔哩哔哩_bilibili书籍：《

:Concerto·2024-01-05 08:43

为什么自然语言转SQL(text to sql)在企业中较难落地

业务用户仍在寻找BI仪表板中的见解，数据分析师仍在打开连接到数据仓库的SQL引擎并手写SQL查询来回答临时业务问题。为什么对话式BI还没有出现？虽然结构化数据仅占全球数据的20%左右，但大

数大招疯·2024-01-05 08:36

HBase 和 Hive 的差别是什么，各自适用在什么场景中？

Hive：Hive是Hadoop数据仓库，

杰在天涯·2024-01-05 05:23

灰度共生矩阵纹理特征提取matlab,灰度共生矩阵纹理特征提取的Matlab实现

灰度共生矩阵纹理特征提取的Matlab实现焦蓬蓬，郭依正，刘丽娟，卫星(南京师范大学泰州学院，江苏泰州225300)摘要:图像的特征提取是图像的识别和分类、基于内容的图像检索、图像数据挖掘等研究内容的

陆牙·2024-01-05 02:21

python数据分析

青花锁·2024-01-04 23:22

超详细EM算法举例及推导

最好先学习一下极大似然EM（Expectation-Maximum）算法也称期望最大化算法，曾入选“数据挖掘十大算法”中，可见EM算法在机器学习、数据挖掘中的影响力。

老实人小李·2024-01-04 21:33

数据湖和传统数仓区别及湖仓一体

1.数据仓库早期系统采用关系型数据库来存放管理数据，但是随着大数据技术的兴起，人们对于多方面数据进行分析的需求愈加强烈，这就要求建立一个能够面向分析、集成保存大量历史数据的新型管理机制，这一机制就是数据仓库

土豆马铃薯·2024-01-04 20:04

《数据仓库与数据挖掘》期末复习总结

《数据仓库与数据挖掘》期末复习总结适用教材：《数据挖掘概念与技术（第3版）》，JiaweiHan，MiehelineKamber，JianPei著，机械工业出版社提示：与教材内容不完全匹配，有所取舍写在前面

炼魂·2024-01-04 18:43

Python数据挖掘与机器学习实践技术应用

近年来，Python编程语言受到越来越多科研人员的喜爱，在多个编程语言排行榜中持续夺冠。同时，伴随着深度学习的快速发展，人工智能技术在各个领域中的应用越来越广泛。机器学习是人工智能的基础，因此，掌握常用机器学习算法的工作原理，并能够熟练运用Python建立实际的机器学习模型，是开展人工智能相关研究的前提和基础。为各领域人员量身定制课程内容，让你畅学Python编程及机器学习理论与代码实现方法，从“

思考的小猴子·2024-01-04 18:03

数仓工作中的常见问题及解决方案

数据仓库系列文章数仓架构发展史数仓建模方法论数仓建模分层理论数仓建模—宽表的设计数仓建模—指标体系数据仓库之拉链表数仓—数据集成数仓—数据集市数仓—商业智能系统数仓—埋点设计与管理数仓—IDMapping

大数据技术派·2024-01-04 16:34

公共数据挖掘竟然还可以发到15分+？

Identificationofacytokine-dominatedimmunosuppressiveclassinsquamouscelllungcarcinomawithimplicationsforimmunotherapyresistance鳞状细胞肺癌中细胞因子为主的免疫抑制类的鉴定，对免疫疗法抗性的影响发表期刊：GenomeMed发表日期：2022Jul8影响因子：15.266DOI

生信学霸·2024-01-04 14:55

表达矩阵的归一化和标准化，去除极端值，异常值

在数据挖掘过程，数据的归一化和标准化是必须的。取log值就是一种归一化的方法，z-score是常用的标准正态分布化的方法。归一化和标准化的区别实际上口语里面通常是没办法很便捷的区分这两个概念。

天明豆豆·2024-01-04 14:44

推荐频道

数据仓库数据挖掘