programming collective intelligence读书笔记二

第三章讲的是如何给社区里面的blog分组...

hierarchical clustering(word clustering)
统计博客中的文章,按照词语词出现的频率作为博客间的距离,把博客分组,形成树状图
算法是,查找所有博客,距离近的作为一组,然后反复迭代构成树
这个树有不同的生长策略的...书里介绍的是最简单的那种:不停的把最近的组合并构成树...

column clustering(blog clustering)
上面是以blog为维度,也可以用word为维度,查看经常同时出现的word...
算法上是一样的,只不过把数据矩阵转制了一下
这样统计出来的是经常在一起出现的词语,按照词语来划分组...

k-means clustering
这个目的是把blog分成k个组,算法是:
二维图上有n个点,先随机放k个中心点
然后n个点找最近的中心点,这样分成了k组
这时候再把中心点移动到每组的正中心作为一轮,然后再迭代分组,一直到中心点不移动为止...

multidimensional scaling
这个讲的是如何在二维图上表示n个blog
其实就是牛顿迭代...先把点放上去,然后参考他们之间的距离,移动一点点
反复迭代,直到收敛不动为止...


--------------
chenjinlai
2008-05-06

你可能感兴趣的:(算法,Blog,读书)