吴信东--数据挖掘top10算法

背景:

09年12.31日下午,应清华大学智能计算实验室邀请,吴教授在清华深圳研究院C栋做了一个讲座。

 

人物:

吴信东,计算机科学家,数据挖掘领域知名学者。

(以下来自http://zx.china-b.com/hfgydx/zixun_22448.html)

吴信东教授是国际学报知识与信息系统(Knowledge and Information Systems)的创办人、主编(1999年1月~2004年12月) 、和名誉主编(2005年1月至今) ,国际电机与电子工程师学会“国际数据挖掘大会”(IEEE International Conference on Data Mining) 的创办人和指导委员会主席(2001年至今),德国Springer出版社高等信息与知识处理(Advanced Information and Knowledge Processing)系列丛书的两名主编之一,和国际电机与电子工程师学会计算机学会(IEEE Computer Society)智能信息处理(Intelligent Informatics)委员会的主任(2002~2008)。他曾受邀、受聘在11个国际会议上作特邀或主题报告,在8份学术期刊的编委会和100多个专业会议的程序委员会上担任各种职务,包括《IEEE Transactions on Knowledge and Data Engineering》的副编(Associate Editor, 2000年1月~2003年12月)、主编(2005年1月至今)、和几个会议的大会主席或程序委员会主席。

(以下来自http://zh.wikipedia.org/wiki/%E5%90%B4%E4%BF%A1%E4%B8%9C)

1984年8月获 合肥工业大学微型机应用研究所计算机应用学士学位。 1987年7月获合肥工业大学计算机与信息系计算机应用硕士学位。 1993年7月获 英国 爱丁堡大学 人工智能博士学位。 1987年7月至1991年3月在 合肥工业大学任助教。 1993年7月至2001年8月,曾先后在 澳大利亚的 詹姆士库克大学(James Cook)任讲师, 蒙纳许大学(Monash)任高级讲师,和美国的 科罗拉多州立矿业学院(Colorado School of Mines)任副教授。 2001年9月至今,在美国佛蒙特(Vermont)州 佛蒙特大学计算机科学系任正教授兼系主任。

 

讲座主题:

主要介绍评选top10算法的整个过程,从想法到最终实现。

 

内容概览:

top10算法的前期背景是吴教授在香港做了一个关于数据挖掘top10挑战的一个报告,会后有一名内地的教授提出了一个类似的想法。吴教授觉得非常好,开始着手解决这个事情。找了一系列的大牛(都是数据挖掘的大牛),都觉得想法很好,但是都不愿自己干。原因估计有一下几种:1.确实很忙2.得罪人3.一系列工作很繁琐等等。最后和明尼苏达大学的Vipin Kumar教授一起把这件事情承担下来。先是请数据挖掘领域获过kdd和icdm大奖的十四个牛人提名候选,其中一人因为确实很忙,正从ibm转行到微软,吴教授虽然没提其名字,但从经历来看,应该就是我眼中的数据挖掘之父印度人--Rakesh Agrawal,就是他没有给出提名,其他13位都给出了自己心中的候选。经过汇总和筛选,共有18个算法,涵盖分类,聚类,图挖掘,关联分析,rough set等领域。由于是算法,一些比较有影响的领域,如神经网络,进化算法等都没有一个特别具体的算法,只能是一个比较大的框架或者思想等,就没有入选。汇总后,吴和Vipin Kumar就开始吵架,吴想删掉一些算法,比如naive bayes,他觉得过于简单,而Vipin Kumar则想添加一些,比如基于规则的挖掘算法(忘记吴是怎样说的了,大概就是这个意思)。最后作为一个折中,谁都没有增删其中的算法。第二步请更多的大牛,包括其中提名的那些最大牛进行投票,每人仅有一票,最终得出了其中的10个作为最后的算法。有些人的几个算法(韩家炜教授有三个算法成为候选,但一个也没有进入top10)都很优秀,却因为开创性,影响力等问题一个也没有入选最终名单。

在大会上宣布的时候,要请一些人来讲这些算法,大家都开开心心的来了,却因为算法的前后排名不高兴。(邀请的时候没说排名,只说进入top10),cart的宣讲人是该系统的拥有公司的一个技术顾问来讲的(发明此算法的四位统计学家,如breiman等,由于年龄问题,其中两位都已经过世了,有一个已经退休,都无法前来,而且他们已经将cart的所有权全部转让给一家公司了),一看自己是第一个讲得,不开心,尽管是凤尾,呵呵。等到最后一个讲完,他更是不开心,原因是第一个竟敢是C4.5,这个和cart都是决策树的经典算法,而且cart还比c4.5提出来的早,c4.5的一些思想直接或间接来源于此。吴见状,上前道:您觉得这十个算法哪几个容易被人凝记,这人带气曰:“我哪知道”,吴答道:最后一个和最前一个,这人呵呵一笑,笑得是老有深意啦。

 

特别爆料:

另据吴教授讲,他正准备在明年悉尼的会议上推出top10 case,既是数据挖掘应用的十个案例(或者领域),大家期待吧!

 

附数据挖掘top 10算法列表:

 C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART

详细论文请参阅:http://cid-e9e3c8934f6e9b47.skydrive.live.com/self.aspx/Papers/Top%2010%20algorithms%20in%20data%20mining.pdf

你可能感兴趣的:(数据挖掘,数据挖掘,算法,transactions,processing,ibm,c)