第一章 数据挖掘的基本概念(读书笔记)

机器学习擅长的典型场景是人们对数据中的寻找目标几乎一无所知,另一方面,当挖掘的目标能够更直接地描述时,机器学习算法似乎并不成功(槽:也许它起作用了,但总比不上我们对它有了解的探索)

 

计算机科学家将数据挖掘看成算法问题,也可以看成数学问题。二者的区别是,前者仅当做技术使用,后者是一种通用模型且对其进行更多形式化的描述,仅仅是不同上下文下的概念,无须明确划分

 

对数据建模的两种方法:

1.     对数据进行简洁的近似汇总描述(数据汇总)

2.     从数据中抽取出最突出的特征来代替数据并将剩余内容忽略(特征抽取)(槽:我们想要的那部分特征,上下文决定)

 

对于数据汇总举两个例子:

1.     PageRank:网页是一种数据,而一个PageRank则是对一个网页数据的近似汇总描述(槽:对我们想要操作的那方面属性进行汇总,比如存在于之上的概率)

2.     聚类:将多维空间上的点集,按“就近原则”划分成多个点集,这些点集的概括信息就是全体点集汇总的结果

综上可猜想,数据汇总是一种将复杂的数据简洁化,便于人们去谈论之,处理之的一种手段。

 

对特征抽取举两个例子:

1.     频繁项集:它适用于由小规模项集组成的数据集。这里,我们抽取的特征是项的出现次数,在某些求最大频繁项集的场景,我们得出的结果就是“对我们获得数据的表示”(槽:这个说法很垃圾,但只要时刻记住,数据挖掘是面向应用实际而不是面向理论就可以接受这种说法)

2.     相似项:在一些场景中,我们需要探查两个数据集的相似程度(这里的数据集可以是文档,或购物清单),通过人为的将数据集划分为单个元素(或者数据集本身已经做好划分),比较不同集合之间的距离(比如可以是共有元素数目),来在某一应用场景做出规划。

综上可猜想,特征抽取依然是紧紧跟实际应用绑定在一起的,需要根据目的,抽出数据中我们关心的特征来研究

 

 

综上两种方法,可以注意到数据建模的两种常用方法具有强烈的主动性,研究方是根据应用背景以及自己的问题的看法去设计数据挖掘采用的方案的。

 

 

邦弗朗尼原理:用来避免将随机出现看成真正出现。在数据随机性假设的基础上,可以计算所寻找事件出现的期望值。如果该结果显著高于你所希望找到的真正实例的数目,那么可以预期,寻找到的几乎任何事物都是臆造的,也就是说,它们是在统计上出现的假象,而不是你所寻找事件的凭证(书本上给的例子是关于恐怖活动的发生。这个时候其实存在一个命题,两个人在两天中的每一天入住相同宾馆能否支持去预测这两人是否为恐怖分子,这个时候邦弗朗尼原理站出来说,这不行,“它还不够强”)

 

词项频率和逆文档频率很直白,有最高Tf*IDF得分的词项通常为刻画文档主题的最佳词项

 

哈希函数:其在多个数据挖掘算法中都是核心要素,但不同于常见方式。在数据挖掘里面,我们更经常用Hash函数将数据尽可能均匀地分布在散列空间中。(比如在用小规模数据模拟大规模数据的一些场景下会去使用哈希函数,将其随机均匀化)

 

 

你可能感兴趣的:(大数据,数据挖掘)