推荐lyf大佬的笔记
从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的 、潜在有用的,以及最终可理解的模式的非平凡过程。(从大型数据中挖掘所需要的知识)
它是一门涉及面很广的交叉学科,包括机器学习、数理统计、神经网络、数据库、模式识别、粗糙集等相关技术。
研究如何使用机器来模拟人类学习活动的一门学科。
简称神经网络(NNs),是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。
这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。(百度百科)
研究如何应用机器来模拟人类某些智能行为的基本理论、方法和技术的一门科学。
指一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合
海量的数据规模、快速的数据流转、多样的数据类型和价值密度低
研究知识信息处理并探讨开发知识系统的技术。
描述类别特征的概括性知识。
这类数据挖掘系统是对细节数据所蕴涵的概念特征信息的概括和抽象的过程。
反映⼀个事件和其他事件之间的依赖或关联。
找出数据库中隐藏的关联信息
spider/crawler,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本
是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。
联机事务处理 传统的关系型数据库的主要应用,主要是基本的、日常的事务处理(增删改查),例如银行交易 (CSDN)。
联机分析处理 数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果 (CSDN)。
决策者通过数据、模型和知识,以人机交互方式进行半结构化或非结构化决策(百度百科)。
一个事务数据库是对事务型数据的收集(P24)。
物理上分散而逻辑上集中的数据库系统【在逻辑上是一个统一的整体,在物理上则是分别存储在不同的物理节点上】(百度百科)。
##中英互译
联机分析挖掘(On line Analytical Mining,OLAM)
关联规则(Association Rule)
决策树 -> Decision Tree
聚类 -> Clustering
数据分类 -> Data Classification
信息检索 -> Information Retrieval :简单地说就是研究合适的信息组织并根据用户需求快速而准确地查找信息的技术。通常指的是计算机信息检索,它以计算机技术为手段,完成电子信息的汇集、存储和查找等的相关技术。
数据可视化 -> Data Visualization
链接挖掘 -> Link Mining
访问挖掘 -> Usage Mining
序列挖掘 -> Sequential Mining
决策支持 -> Decision Support
频繁项目集 -> Frequent Itemset
知识发现(Knowledge Discovery in Database,KDD),是一个系统化的工作,
必须对可以利用的源数据进行分析,确定合适的挖掘目标,然后才能着手系统的设计和开发。
KDD是一个多步骤的处理过程,一般分为问题定义、数据采集、数据预处理、数据挖掘、 模式评估等基本阶段。
是一种挖掘关联规则的频繁项集算法 ,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。
输入:数据集D;最小支持数minsup_count
输出:频繁项目集L
算法apriori中调用了apriori-gen ( L k − 1 ) (L_{k-1}) (Lk−1) ,是为了通过(k-1)-频集产生K-侯选集。
输入:(k-1)-频繁项目集 ( L k − 1 ) (L_{k-1}) (Lk−1)
输出:k-候选项目集 C k C_{k} Ck
一个项目集C,当且仅当对于在C中的任何元素,不可能在C中存在小于或等于它的支持度的子集。
(自己写的,加强理解)
计算 F C C i FCC_{i} FCCi 的产生式:数据库中每个个数为 i 的项目集(不重复)
计算 F C C i FCC_{i} FCCi 闭合项目集(closure)并求出支持度(support):找出数据库中所有包含A的项⽬(数据库中的一行)的交集及其支持度(在数据库中包含这个闭合项目集的有几行)
修剪候选闭合项目集,得到 F C i FC_{i} FCi :删除小于Min Support的候选闭合项目集(那一行都删除)
利用 F C i FC_{i} FCi 的generator生成 F C C i + 1 FCC_{i+1} FCCi+1 :将产生式(Generator)两两组合,如果得到的这个新的产生式是
① F C i FC_{i} FCi 中是 F C C i + 1 FCC_{i+1} FCCi+1 中的某个候选项的子集的项选出来,称为Sp,
如果 F C C i FCC_{i} FCCi 这一项是Sp的字母的闭合项目集;
②其闭合项目集为空(在数据库中不存在这种组合);
③非频繁项目集的超集
其中任一,则删除。
重复1.~4.,直至某一步生成的 F C C i + 1 FCC_{i+1} FCCi+1 为空
将闭合项目集的元素个数为i的放到 L i L_{i} Li 集合中
从 L i L_{i} Li 最大的集合开始,分解该集合,找到它的所有的(i—1)项子集,如果它不属于 L i − 1 L_{i-1} Li−1 ,则把其加入 L i − 1 L_{i-1} Li−1
重复7.直至 i =2
A的闭合项集是指所有包含A的项⽬的交集,⽀持度是指包含A的项⽬的交集 出现的频数
分类是一种监督学习(Supervised Learning),即每个训练样本的数据对象己经有类标识,通过学习可以形成表达数据对象与类标识间对应的知识。
利用历史数据纪录来自动学习一个分类模型/函数(分类器),利用该模型把数据库中的数据项映射到给定类别中的某一个类别,从而能对未来数据进行类别预测。
K-近邻分类算法(K Nearest Neighbors,KNN)通过计算每个训练数据到待分类元组的距离,取和待分类元组距离最近的K个训练数据,K个数据中哪个类别的训练数据占多数,则待分类元组就属于哪个类别。
算法 4-2 K-近邻分类算法
输入: 训练数据T;近邻数目K;待分类的元组t。
输出: 输出类别c。
假如高度参与距离计算, k=5。
跟踪 算法:
前 5个记录, N={<李莉,女, 1.50>,<吉米,男,1.92>,<马大华,女,1.70>,
<王小华,女,1.73>,<刘敏杰,女,1.60>}。
第6个记录 =<包博,男,1.75>,相比测试记录<范可可,女, 1.50>,
需要替换掉N中和测试记录差别最大的< 吉米,男,1.92>,
得到 N={<李莉,女, 1.50>,<包博,男,1.75>,<马大华,女, 1.70>,<王小华,女,1.73>,
< 刘敏杰,女,1.60>}。
第7个记录 =<张烨,女,1.50>,需要替换掉<包博,男,1.75>,
得到 N={<李莉,女, 1.50>,<张烨,女,1.50>,<马大华,女, 1.70>,<王小华,女,1.73>,
< 刘敏杰,女,1.60>}。
第8个记录 =<戴维,男,1.60>,需要替换掉<王小华,女,1.73> ,
得到N ={<李莉,女, 1.50>,<张烨,女,1.50>,<马大华,女 ,1.70>,<戴维,男,1.60>,
< 刘敏杰,女,1.60>}。
第9、10个记录,没变化。
第11个记录 =<刘冰冰,女,1.68>,需要替换掉<马大华,女, 1.70>,
得到N ={<李莉,女, 1.50>,<张烨,女,1.50>,<刘冰冰,女,1.68>,<戴维,男,1.60>,< 刘敏杰,女,1.60>}。
第12~14个记录,没变化。
第15个记录 =<徐甜甜,女,1.65>,需要替换掉<刘冰冰,女, 1.68>,
得到 N={<李莉,女, 1.50>,<张烨,女,1.50>,<徐甜 甜,女,1.65>,<戴维,男,1.60>,
< 刘敏杰,女,1.60>}。
最后的输出 ={<李莉,女, 1.50,矮>,<张烨, 女,1.50,矮>,<徐甜甜,女,1.65,中等>,
<戴维,男,1.60,矮>,< 刘敏杰,女,1.60, 矮>}。
对照表4-2,在这五项中,四个属于矮个, 一个属于中等。最终K-最临近算法认为范可可为矮个。
是对随机变量不确定度的度量,熵越⼤,随机变量的不确定性就越⼤。
针对特征而言的,就是看一特征,系统有它和没有它时的信息量各是多少,两者的差值就是这个特征给系统带来的信息量,即信息增益。
给定样本电脑分类所需的期望信息
计算每个属性的熵
性别属性
类似的,可以计算:
G a i n ( 学 生 ) = − ( 1 3 l o g 2 1 3 + 2 3 l o g 2 2 3 ) − ( 1 2 ( − 3 3 l o g 2 3 3 ) + 1 2 ( − 1 3 l o g 2 1 3 − 2 3 l o g 2 2 3 ) ) = 0.459 Gain(学生)=-(\dfrac{1}{3}log_{2}\dfrac{1}{3}+\dfrac{2}{3}log_{2}\dfrac{2}{3})-(\dfrac{1}{2}(-\dfrac{3}{3}log_{2}\dfrac{3}{3})+\dfrac{1}{2}(-\dfrac{1}{3}log_{2}\dfrac{1}{3}-\dfrac{2}{3}log_{2}\dfrac{2}{3}))=0.459 Gain(学生)=−(31log231+32log232)−(21(−33log233)+21(−31log231−32log232))=0.459 ;
G a i n ( 民 族 ) = − ( 1 3 l o g 2 1 3 + 2 3 l o g 2 2 3 ) − ( 5 6 ( − 4 5 l o g 2 4 5 − 1 5 l o g 2 1 5 ) + 1 6 ( − 1 1 l o g 2 1 1 ) = 0.316 Gain(民族)=-(\dfrac{1}{3}log_{2}\dfrac{1}{3}+\dfrac{2}{3}log_{2}\dfrac{2}{3})-(\dfrac{5}{6}(-\dfrac{4}{5}log_{2}\dfrac{4}{5}-\dfrac{1}{5}log_{2}\dfrac{1}{5})+\dfrac{1}{6}(-\dfrac{1}{1}log_{2}\dfrac{1}{1})=0.316 Gain(民族)=−(31log231+32log232)−(65(−54log254−51log251)+61(−11log211)=0.316 。
“学生属性”在所有属性中具有最高的信息增益,首先被选为测试属性
左子树的生成过程。对于“学生”=1的所有元组,其类别标记均为1。得到一个叶子结点。
右子树需要计算其他2个属性的信息增益:
G a i n ( 性 别 ) = − ( 1 3 l o g 2 1 3 + 2 3 l o g 2 2 3 ) − ( 1 3 ( − 1 1 l o g 2 1 1 ) + 2 3 ( − 2 2 l o g 2 2 2 ) ) = 0.918 Gain(性别)=-(\dfrac{1}{3}log_{2}\dfrac{1}{3}+\dfrac{2}{3}log_{2}\dfrac{2}{3})-(\dfrac{1}{3}(-\dfrac{1}{1}log_{2}\dfrac{1}{1})+\dfrac{2}{3}(-\dfrac{2}{2}log_{2}\dfrac{2}{2}))=0.918 Gain(性别)=−(31log231+32log232)−(31(−11log211)+32(−22log222))=0.918 ;
G a i n ( 民 族 ) = − ( 1 3 l o g 2 1 3 + 2 3 l o g 2 2 3 ) − ( 2 3 ( − 1 2 l o g 2 1 2 − 1 2 l o g 2 1 2 ) + 1 3 ( − 1 1 l o g 2 1 1 ) ) = 0.251 Gain(民族)=-(\dfrac{1}{3}log_{2}\dfrac{1}{3}+\dfrac{2}{3}log_{2}\dfrac{2}{3})-(\dfrac{2}{3}(-\dfrac{1}{2}log_{2}\dfrac{1}{2}-\dfrac{1}{2}log_{2}\dfrac{1}{2})+\dfrac{1}{3}(-\dfrac{1}{1}log_{2}\dfrac{1}{1}))=0.251 Gain(民族)=−(31log231+32log232)−(32(−21log221−21log221)+31(−11log211))=0.251 ;(书上答案错了)
对于右子树T2,选取最大熵的“性别”
最大期望算法(Expectation-maximization algorithm,EM)用于寻找,依赖于不可观察的隐性变量的概率模型中,参数最大似然预计或者最大后验预计的算法。
最大期望算法经过两个步骤交替进行计算:
假设男、女身高都服从正态分布,通过抽样调查男、女群体的身高平均值。
男人身高(cm):170,180,180,190
女人身高(cm):150,160,160,170
如果出现了意外,把抽样信息中男女的标记给弄丢了,男女身高数据混在了一起,那么还有没有办法把男女身高的平均值分别求出来呢?
身高(x) | 150 | 160 | 160 | 170 | 170 | 180 | 180 | 190 |
---|---|---|---|---|---|---|---|---|
男人数目(M) | ? | ? | ? | ? | ? | ? | ? | ? |
女人数目(F) | ? | ? | ? | ? | ? | ? | ? | ? |
把一组个体按照相似性归为若干类别。
聚类属于无监督学习(Unsupervised Learning)。
使同一类别的个体之间的差别尽可能地小,不同类别上的个体间的差别尽可能地大
两种特殊情况:
处理集合,计算离散值距离(前面的距离函数都是计算连续值)
会考到用哪种距离函数(看题目要求!)★★
算法5-1 k-means算法
输入:簇的数目k和包含n个对象的数据库。
输出:k个簇,使平方误差准则最小。
K 中心点算法中,每次迭代后的质点都是从聚类的样本点中选取,
k中心点算法不采用簇中对象的平均值作为簇中心,而选用簇中离平均值最近的对象作为簇中心。
这样划分方法仍然是基于最小化所有对象与其参照点之间的相异度之和的原则来执行的。
对下列表中的10个数据聚类, 每个数据的维度都为2 , k=2。
c1=(3,4), c2=(7,4).(选出来的k个点使得cost最小[此处等于20],而不是随机取的)
那么将所有点到这两点的距离(曼哈顿距离)计算出来:
AGNES (AGglomerative NESting):自底向上凝聚的算法,先将每个对象作为一个簇,然后这些簇根据某些准则(类间距离最近的两个点)被一步步地合并,直到某个终结条件被满足(达到定义的簇的数目)。(写这些就够了)
两个簇间的相似度由这两个不同簇中距离最近的数据点对的相似度来确定。
算法5-3 AGNES(自底向上凝聚算法)
输入:包含n个对象的数据库,终止条件簇的数目k。
输出:k个簇,达到终止条件规定簇数目。
DIANA (Divisive ANAlysis):自顶向下分裂的算法,它首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到达到了某个终结条件(达到了某个希望的簇数目,或两个最近簇之间的距离超过了某个阈值)。
在一个簇中的任意两个数据点的欧氏距离中的最大值。
算法5-4 DIANA(自顶向下分裂算法)
输入:包含n个对象的数据库,终止条件簇的数目k。
输出:k个簇,达到终止条件规定簇数目。
不包含在任何簇中的对象被认为是“噪声”。
落在某个核心点的邻域内,是一个稠密区域边缘上的点。(非核心对象点)
DBSCAN(Density-Based Spatial Clustering of Applications with Noise):噪声环境下的密度聚类算法,将密度相连的点的最大集合聚成簇,并可在有“噪声”的空间数据库中发现任意形状的聚类。
事先不知道会有多少个簇
如果一个点q的区域内包含多于Min Pts 个对象,则创建一个q作为核心对象的簇。然后,反复地从这些核心对象中寻找直接密度可达的对象,把一些密度可达簇进行合并。当没有新的点可以被添加到任何簇时,该过程结束。
核心思想:将密度相连的核心对象点都放在一个簇中。
算法5-5 DBSCAN
输入:包含n个对象的数据库,半径ε,最少数目MinPts。
输出:所有生成的簇,达到密度要求。
REPEAT
从数据库中抽取一个未处理过的点;
IF 抽出的点是核心点 THEN找出所有从该点密度可达的对象,形成一个簇
ELSE 抽出的点是边缘点(非核心对象),跳出本次循环,寻找下一点;
UNTIL 所有点都被处理;
在本章中与不同,有时间先后之分
类似关联规则挖掘
时间序列(Time Series),从统计意义上来讲,时间序列是将某一指标在不同时间上的不同数值,按照时间先后顺序排列而成的数列。
从大量的时间序列数据中提取人们事先不知道的、但又是潜在有用的与时间属性相关的信息和知识。
是数据挖掘在Web上的应用,它利用数据挖掘技术从与WWW相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息。
初始V0代表上网者一开始在哪个页面
每用Vi右乘一次转移矩阵M,得到第i次点击链接后到达某一页面的概率
直到Vi稳定,代表不论用户从哪个页面开始访问,经过无数次点击超链接最终到达某个页面的概率,可以计算出某个页面排除了用户点击多少次超链接到达因素后的权重,比较客观。(个人理解)
如果某个网页没有指向其它网页的超链接
改进,加入一个系数,代表上网者多大概率 α \alpha α 点击页面中的超链接,多大概率 1 − α 1-\alpha 1−α 在地址栏键入某个网页的链接。
算法7-3 基于随机冲浪的PageRank算法
输入:页面链接网络G
输出:页面等级值向量R
HITS(Hyperlink-Induced Topic Search)是遵照寻找权威 页面和中心页面的典型方法,基于一组给定的关键字,可 以找到相关的页面。
是指包含需求信息的最佳资源页面。是指与某个领域或者某个话题相关的高质量网页
是一个包含权威页面链接的页面。