找出词与词之间的关联(association relationship/rule)

关联规则可能是看数据挖掘书的第一个topic。很多的书也会举一个卖尿片的例子,有兴趣的朋友上网找找吧,很经典。我下面要说的是我现在搞的研究,词语之间的关联(association relationship between words)。我们都知道词语是有语意的(semantic meaning),如果我们想把词A与词A'区分开的话,我们就要明确这两个词的semantic meaning。

 

比如说:

苹果与梨子是不同的,为什么不同呢,苹果比梨子圆些;苹果是红色或绿色的,而梨子是黄色的;苹果没有梨子多汁...还有很多特征,可能说不尽那么多特征。从另一个角度来看的话就是:

 

             苹果   梨子

圆滑度     高      低

颜色      红/绿    黄

水份        少      多

....         ...      ...

 

 

现在的问题是,对于一个事物,我们有说不尽的属性(attribute),我们只有把这些所有的属性都找出来,然做后一个差(相减,或其它计算距离的方法),才能比较两个词,苹果与梨子的差异。

 

而我们现在做的这个词语之间的关联可以间接地把这一此绕过去,我们不做semantic的东西,semantic的东西也说不清楚的(目前,希望以后有高手能搞出来,哈~)。

 

引用我毕业论文的一段话:

 

In everyday life, symbols are used as a transmission medium for communication. However, a word is not only a symbol, but a concept with some degree of subjective understanding. When talking about ‘Sports’ for example, people will associate with some “related” words, such as ‘Football’, ‘Basketball’, and so on. If two persons associate the concept to a similar set of “related” words, then their communication can be easier and more effective.

 

基于这样的一个假设(hypothesis),系统通过学习一些文章(具体的计算要看我的论文《Background Net for Personalized Keywords on Article Selection》),就会得到一个人的阅读背景,我文章中把它叫做Background Net。我们用它应用在了文章的分类中,也就是由用户提供一些他喜欢的文章,然后用我这个方法把用户的兴趣爱好抓取出来,然后对文章数据库里面的文章进行评价,把最符合用户的文章拿出来,反馈给用户。这一个方法呢,可以由系统通过学习用户指定的文章就可以抓到用户需求的文章的特征,而并不需要用户给出需要文章的特征,但是关键字还是要用户给的。

 

明确一点的就是,这是一种association analysis,并不是说association analysis就是只有这一种应用。却记却记,世上没有绝对。哈~

 

你可能感兴趣的:(机器学习)