统计关系学习
0:序
最近正在申请出国,想申请统计关系学习方向,把读过的论文稍微整理了下,写了这篇博客。
欢迎研究此领域的同学留言讨论。
1:什么是统计关系学习
传统的统计模型,都是基于独立同分布的(iid)。这包含了两个假设:
a、统计模型的对象是同一种类型的;
b、统计模型中的对象是不相关的。
而统计关系模型否定了这两个假设:
a、模型中的对象是不同类型的;
b、对象之间有联系;
例如:我设计一个模型,来预测一部新的电影是否会在上映的第一个星期里,达到票房2百万(瞎扯的数)。如果我用统计关系模型来做,我的模型里可以包括电影对象,导演对象,演员对象和发行商对象。这些对象显然不是同一类型,他们具有不同的属性。电影对象之间的关系,对于预测电影的成功也很重要。比如某女星(想不起来说谁好),一部电影走红,下一部电影走红的可能性相当大。
2: 统计关系模型的主要研究人员:
(1)Lise Getoor:马里兰大学的教授,主页在http://www.cs.umd.edu/~getoor/;这个是她做的一个tutorial,里面有统计关系学习在命名实体发现中的一个应用http://www.seas.upenn.edu/~wiml/wiml06/slides/invited_talks/lise_getoor.ppt
(2)utexas的machine learning组:http://www.cs.utexas.edu/~ml/专门有人在做统计关系学习
(3)Ben Taskar:Stanford koller的学生,在Jordan的实验室做了博后,现在在upenn,主页在http://www.seas.upenn.edu/~taskar/。 Ben taskar和Lise Getoor合写了一本统计关系学习的书叫Introduction to statistical relational learning
(4)David Jensen:umass的,做的统计关系学习有5 6年了,他做了一个Poximity的系统,可以在上面方便的做统计挖掘的实验。http://kdl.cs.umass.edu/people/jensen/
(5)Jennifer Neville:David Jensen的学生,现在在purdue。http://www.stat.purdue.edu/people/faculty/neville。入选过2008年的ai ten to watch
3:统计关系学习的应用
我看到的有
(1)命名实体的识别,判断相同名字的是不是同一个人
(2)金融欺诈:想法就是和诈骗犯相关的人,估计也是诈骗犯
(3)在dblp数据上,预测怎么洋的文章容易被发表和引用
(4)判断电影在上映后的一个星期里,会不会票房达到100万