其实总的来说不如称之为PrePlanning。经过上周我们和Cambridge guys的亲切交流之后,愈发觉得我们要做的事情还太多太多,虽然M1我们搞出来看似还蛮fancy的东西,比如:
但实际上对于更advanced的部分,即所谓new topic的获取我们并没有太多的想法。Mr. Richard Harper (Principle Researcher of MSRC)的想法大概是对于从Bing获取来的信息,我们应该能自动地将其分类,并为每一类总结出新的topic words,然后以这样的words作为新的关键词到Bing里面去搜,获取到的结果再聚类(或者我们可以定义树的深度,即一定程度后就不再自动聚类了),如此反复,最终从一个keyword出发,得到的是某一个field的类似knowledge graph之类的东西。
嘛,怎么说呢,如果真能做成那样,首先要解决的问题就是如何为网页分类并抽取关键词的问题,这看起来是一个text-mining的问题,并且non-trivial,我们让NLC组的Shuangzhi去调研一下这方面的情况,但是目测应该不是很容易的东西,因为我记得有一个小组是专门做这样的东西(收藏夹智能分类之类),可是从M1的结果上来看并不是很make sense,所以我们不一定会completely follow Richard的想法。
但是树总是要分叉的,分叉意味着有一定的层次,今天的讨论主要围绕这一点,最后产生了URL分类流,domain分类流,任意分叉流,等等。但是有一点我们注意到目前我们用到的只有Bing API的Search功能,对于其他可能获取的Data我们并没有关注,在Xichao进行过调研后可能会有一些有意思的结果。
另外,对于之前考虑的多棵树功能,我们今天对其进行了质疑。因为如果我们能在一棵树的分叉上做得很好,换句话讲一棵树已经能长得很茂盛,也就没有必要加入多棵树功能了。
看起来今天只是提出了很多问题,还有待于更多的讨论。