对于《The Text Mining Handbook》一书还是要继续读下去,中间插上一些对相关文章的学
习。对了,昨天还是我的生日,在生日这天发生了件大事:我的QQ升到两个太阳了(嘿
嘿,腾讯知道我把这个叫大事,肯定很开心)。但对于腾讯的SOSO,现在印象还真不
错。最近很多媒体上挺上劲的。附腾讯在CSDN的博客http://blog.csdn.net/soso_blog。
言归正传,《IE:Distrilling Structured Data from Unstructured Text》一文是由马萨诸塞
州大学阿姆赫斯特分校的老师Andrew McCallum所写,用来普及基础教育的(伟大啊)。他
有一门课叫做 Information Extraction。http://www.cs.umass.edu/~mccallum/courses/ie2003/
全文主要内容如下:
1,提出一个案例:
美国工会要建立一个网站,为再教育服务,即人们可以在这个网站上查询各个大学、学
院、社区学校的介绍、开设的课程、时间、要求、领域等等,反正就是一堆字段,并且,网站
管理人员可以根据这些数据进行分析得到教育发展趋势。
这个任务的关节点在于怎样获得这些大学及其开展课程的信息,人工操作或者以工会名
义邀请不太靠谱。虽然各个教育机构有网站,但网页的展示方式千变万化。
问题结局方案:信息提取,面对网页。
2,什么是信息提取,以及更多
由于网络上的文档(网页)越来越多,信息也越来越多,虽然通过搜索引擎可以搜索信
息,当搜索引擎只是在人们键入几个关键词后,把越来越多的文档选择列表提供给用户,用户
在2000年输入关键字得到10万张网页,在2010得到100万张,但用户并不会感觉有多奇妙,
搜索引擎就是这样,只是把越来越多的东西放到你面前,缺不知道整理一下。并且搜索引擎对
于field search、range-based,data-mining等无能为力,他不能理解 “火锅 location=无
锡,average=80”这样的输入。
Information Extraction是拯救者。他的主要任务是将无结构松散的或者半结构化的信
息抽取成包含一个个字段的结构化信息。得到结构化信息是很有用的,不但可以用来实现更为
精确的搜索(比如上面提到的field search),还可以用来之后的数据挖掘(数据挖掘是面
向结构化信息的,就是存储在数据库中的信息)。
Information Extraction包含5个子任务:
a. Segmentation。分割字段。在文本中找到可以填入field的文本片段。比如在
“Jiangnan University is located at Wuxi。。。。。”这段文本中,分割Jiangnan University
出来。因为他可以作为学校名称这一字段的值。
b.Classification。(我个人认为,叫Attribute Labelling更为贴切)划分、分类。这是
对上面一步已经提取出来的segment进行的。即确定某一segment属于那个字段。ex:
Jiangnan University输入学校名称这一字段。
c.Association. 关联。即确定哪些字段是属于同一条记录的。比如:名称字段1,Jiangnan University;地址字段1,Wuxi;名称字段2,Nanjing University;地址字段2,Nanjing。 哪么名称字段1与地址字段1为对同一条记录(object)的描述。当然,在有些问题中,可能天然的就不存在Association的操作。
d.Normalization.标准化。即“2010-7-4” 与 “2010/7/4”应该统一为某一格式。
e.Duplication。去除冗余。
3,实现信息提取的方法
文中提到了三种方法:
对每个网站的每次布局编写regular expression;
使用machine-learning methods;
使用statistical model。
其实就是语言学中的两大门派:规则与统计。他们都是要通过对样例的学习、训练,让自身的rules或者parameters进行调优。
4,使用原标题:Life is good but rarely perfect
信息提取如果实施在格式比较规范、数据库产生的信息上的话,会得到很好的效果。但如果对于纯粹无结构的文本,比如报纸上的新闻。准确率还是不够好。(当然,这篇文章写在2005年,不过现在估计还是不怎么地)
好了,通篇有用的就是这些了。作为一篇亲和的,以例子开端的介绍性文章,还不错。
文章下载地址:http://download.csdn.net/source/2515699