论文笔记 《Information Extraction:Distrilling Structured Data from Unstructured Text》

对于《The Text Mining Handbook》一书还是要继续读下去,中间插上一些对相关文章的学

习。对了,昨天还是我的生日,在生日这天发生了件大事:我的QQ升到两个太阳了(嘿

嘿,腾讯知道我把这个叫大事,肯定很开心)。但对于腾讯的SOSO,现在印象还真不

错。最近很多媒体上挺上劲的。附腾讯在CSDN的博客http://blog.csdn.net/soso_blog。

言归正传,《IE:Distrilling Structured Data from Unstructured Text》一文是由马萨诸塞

 

州大学阿姆赫斯特分校的老师Andrew McCallum所写,用来普及基础教育的(伟大啊)。他

 

有一门课叫做 Information Extraction。http://www.cs.umass.edu/~mccallum/courses/ie2003/

 

 

全文主要内容如下:

 

1,提出一个案例:

 

            美国工会要建立一个网站,为再教育服务,即人们可以在这个网站上查询各个大学、学

 

院、社区学校的介绍、开设的课程、时间、要求、领域等等,反正就是一堆字段,并且,网站

 

管理人员可以根据这些数据进行分析得到教育发展趋势。

 

            这个任务的关节点在于怎样获得这些大学及其开展课程的信息,人工操作或者以工会名

 

义邀请不太靠谱。虽然各个教育机构有网站,但网页的展示方式千变万化。

 

            问题结局方案:信息提取,面对网页。

 

2,什么是信息提取,以及更多

 

            由于网络上的文档(网页)越来越多,信息也越来越多,虽然通过搜索引擎可以搜索信

 

息,当搜索引擎只是在人们键入几个关键词后,把越来越多的文档选择列表提供给用户,用户

 

在2000年输入关键字得到10万张网页,在2010得到100万张,但用户并不会感觉有多奇妙,

 

搜索引擎就是这样,只是把越来越多的东西放到你面前,缺不知道整理一下。并且搜索引擎对

 

于field search、range-based,data-mining等无能为力,他不能理解 “火锅 location=无

 

锡,average=80”这样的输入。

 

             Information Extraction是拯救者。他的主要任务是将无结构松散的或者半结构化的信

 

息抽取成包含一个个字段的结构化信息。得到结构化信息是很有用的,不但可以用来实现更为

 

精确的搜索(比如上面提到的field search),还可以用来之后的数据挖掘(数据挖掘是面

 

向结构化信息的,就是存储在数据库中的信息)。

 

             Information Extraction包含5个子任务:

 

             a. Segmentation。分割字段。在文本中找到可以填入field的文本片段。比如在

 

“Jiangnan University is located at Wuxi。。。。。”这段文本中,分割Jiangnan University

 

出来。因为他可以作为学校名称这一字段的值。

 

             b.Classification。(我个人认为,叫Attribute Labelling更为贴切)划分、分类。这是

 

对上面一步已经提取出来的segment进行的。即确定某一segment属于那个字段。ex:

 

Jiangnan University输入学校名称这一字段。

 

             c.Association. 关联。即确定哪些字段是属于同一条记录的。比如:名称字段1,Jiangnan University;地址字段1,Wuxi;名称字段2,Nanjing University;地址字段2,Nanjing。 哪么名称字段1与地址字段1为对同一条记录(object)的描述。当然,在有些问题中,可能天然的就不存在Association的操作。

             d.Normalization.标准化。即“2010-7-4” 与 “2010/7/4”应该统一为某一格式。

             e.Duplication。去除冗余。

 

3,实现信息提取的方法

 

             文中提到了三种方法:

             对每个网站的每次布局编写regular expression;

             使用machine-learning methods;

             使用statistical model。

 

             其实就是语言学中的两大门派:规则与统计。他们都是要通过对样例的学习、训练,让自身的rules或者parameters进行调优。

 

4,使用原标题:Life is good but rarely perfect

 

             信息提取如果实施在格式比较规范、数据库产生的信息上的话,会得到很好的效果。但如果对于纯粹无结构的文本,比如报纸上的新闻。准确率还是不够好。(当然,这篇文章写在2005年,不过现在估计还是不怎么地)

 

 

好了,通篇有用的就是这些了。作为一篇亲和的,以例子开端的介绍性文章,还不错。

 

文章下载地址:http://download.csdn.net/source/2515699

 

 

你可能感兴趣的:(论文笔记 《Information Extraction:Distrilling Structured Data from Unstructured Text》)