《数据分析与数据挖掘》--天津大学公开课

天津大学《数据分析与数据挖掘》公开课–学习笔记

1.1 数据分析与数据挖掘

数据分析是指采用适当的统计分析方法对收集到的数据进行分析、概括和总结,对数据进行恰当的描述,提取出有用的信息的过程。对决策进行辅助,提供数据的根据,利用表格和列表进行展示。
数据挖掘是指在大量的数据中进行挖掘知识。

1.1.2 知识发现(KDD)的过程

图片

1.1.3 区别

图片

1.1.4 联系

图片

1.2 分析和挖掘的数据类型

1.2.1 数据库数据

关系数据库
SQL
数据库 比较流行的有:MySQL, Oracle, SqlServer

1.2.2 数据仓库数据

数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。
数据仓库 比较流行的有:AWS Redshift, Greenplum, Hive等

《数据分析与数据挖掘》--天津大学公开课_第1张图片

1.2.3 事务数据

1.2.4 数据矩阵

1.2.5 图和网状结构数据

例如社交数据,电商数据,搜索引擎
网页排名算法PageRank

2.1 数据的属性

2.2 数据的分散度量

2.2.3 数据的图形显示

1、箱图
用来描述最大值、最小值、下四位数、中位数和上四位数的五数概括

2.饼图

3、频率直方图

4、散点图

2.3 数据的相似性和相异性

2.3.1 数据矩阵和相异矩阵

近邻性度量

数值属性的相异性

1、欧几里得距离
2、曼哈顿距离

序数属性的近邻性度量

余弦相似性

余弦相似度

3.1 数据存在的问题

数据不一致
数据缺失
噪声数据
缺失值

3.2 数据清理

3.3 数据集成

1、实体识别问题
2、冗余问题
数值数据:相关系数及协方差
相关性分析
卡方检验

3.4 数据规约

数据标准化
数据立方体

3.5 数据变换与数据离散化

数据变换:将数据变换成适合数据挖掘的形式

数据泛化

数据规范化

数据变换:属性构造

离散化

分箱法

4.1

4.2

4.3

4.4

4.5

你可能感兴趣的:(数据科学,数据挖掘,数据分析,数据库,python,sql)