有很多利用了群众性智慧的机器智能系统是回答 What’s popular 这个问题的,比如:
1、单一测量维度
郑昀认为,多数机器智能是以单一系统的内部数据做测量标准的。
我的文章《Social Media排序算法的四种模式》中提及 Digg 排序算法,拥有华丽无比的众多规则,但无论是投票的速度、投票用户的级别、评论和评分的数量、Bury的数量、用户的Popular Ratio等参数,都还是 Digg 系统内部的数据。
Tweetmeme 拥有高效的追踪Twitter世界热门链接的能力,但它的评价体系还是在围绕着 Twitter 的数据转,虽然体贴的链接分类(内容分类为科技、娱乐、游戏等;链接分类为News、图片和视频)是外部数据的计算结果。
Rssmeme 仅是依据 Google Reader Shared Items 的分享次数。stumbleupon 和 Delicious Popular Bookmarks 都是依据自身系统的收藏次数。
这些足够庞大的系统在互联网成熟期的国度,是完全可以反映 What’s popular 的。
但在中国,由于各个 Social Media 应用用户都不足够多,比如微博客,比如RSS阅读器。即使人数足够多,也只是往往趋同于某一特定气质人群。比如,猫扑的用户气质,天涯社区的用户气质,前校内网、开心网的用户气质,Twitter 中文用户的气质。
这就引发下面要说的问题:
2、国内数据少或偏 不足以回答 What’s popular
先强调,还是有一些例外的,如百度贴吧的数据,如果好好挖掘一下,是可以充分反映中国的 Hot Trends、What’s popular 的。
但对于 Social Media 的数据,往往由于中国固有的问题,以至于用户不得不在多个网站(官方和非官方的都要找一两个)流连才能获取足够的资讯和读物,而北美用户基本可以只依赖 Digg 就够了,科技用户只看 Techmeme 就够了。
比如同样模仿 Rssmeme 或 Tweetmeme 做应用,显然数据有严重的偏好,不是科技(而且还只是某一部分科技资讯)就是政治(而且还倾向性强得要命),为广大人民所喜闻乐见的情色都很少。
3、加入其他测量维度 交叉验证
(下面的延伸更偏重于 memeTracker 方向的 Readings Filter ,并不是通用的解决方案。)
为了弥补这一问题,就需要把不同 Social Media 的各种内部数据都当成是一个一个的测量维度,然后交叉验证。或者叫“基于mashup的数据挖掘模式”。
举一个非常简单的例子:
按照我写的《如何测量Google Reader用户的分享活跃度》遍历Google Reader 中文用户,计算他们的Rank值,从而得到来自于RSS阅读器的分享权重,将一少部分分享质量不高、Rank值低的用户摒弃掉后,得到一批可靠的阅读器用户(简称reader A-List)。
按照我写的《来,做一个社会化推荐引擎》遍历Twitter等微博客核心用户的Followers/Followings关系,计算中文微博客用户的Rank,并确立微博客中的一小部分用户为高质量的可靠用户(简称miniblog A-List)。
对 Twitter 进行扫描,获取中文用户都在分享什么链接,简称为 SRCBacks Links。
其他 Social Media 的数据也会算在推荐源内,但由于数据不多,所以不再阐述。
有了这些数据之后,希望 SR 首页(现被维护中)能反映中文世界的 What’s popular ,不管是值得阅读的Readings材料,还是突然暴起流行的笑料八卦,抑或时效性很强的Breaking News。
但由于阅读器的时效性有问题,微博客虽然够快但发链接太容易所以质量不高的链接泛滥,为了综合这些因素,可以如下交叉验证:
这样,这个信息过滤器既引入了微博客的实时性,又抑制了它的过度泛滥,还参考了Social Media用户在原体系中的活跃度、受欢迎程度等指标,能有效地摒弃质量不高的社会化媒体用户,算法不复杂,最终达到一个较好的过滤效果和效率。