来源:http://www.dmresearch.net/web-data-mining/200901/124433.html
四川大学公共管理学院信息管理系 四川 成都 610064
[摘要]文章在介绍web内容挖掘对数字图书馆中的重要作用的基础上,详细阐述了数字图书馆中对web内容中的文本信息的挖掘过程,包括文本自动摘要,文本分类和文本聚类,分析了如何在挖掘过程中结合用户需求,得到更好的挖掘结果.
[关键词]Web 内容挖掘 数字图书馆
Web Content Mining in Digital Library
Li Lin
School of Public Administration, Sichuan University, Chengdu,Sichuan 610064
[Abstract]After an introduction of the important role of web content mining in the digital library, the process of text mining that is a part of web content mining is shown, which includes automatic abstracting, classing and clustering for texts. In addition, how to improve the effect of mining according to the need of customer is analyzed.
[Keywords] Web;Content mining;Digital library
1数字图书馆概述
http://www.dmresearch.net/bbs
数字图书馆"是采用现代高新技术的数字信息资源系统,是没有时空限制的,便于使用的,超大规模的知识中心."[1]从这个定义可以得出,数字图书馆并不是将传统图书馆的纸质资源简单数字化,以及将传统图书馆的业务转移到网络环境中完成,数字图书馆的最终目标,应是通过对数字化资源的建设,为用户提供知识.正如馆藏资源是传统图书馆的生命一样,数字图书馆建设的核心是数字资源,要为用户提供知识,必须建立在丰富的数字资源基础之上.
数字图书馆的资源来源可以有多种途径,目前主要有以下几种:(1)本馆纸质资源的数字化.数字图书馆的建设主体通常是传统图书,将传统图书馆的纸质馆藏数字化,使其成为数字化馆藏,是许多数字图书馆数字资源的重要来源.这些资源有目录型的,也有全文型的.数字资源相对纸质资源有许多优势,除便于用户通过网络查找以外,更是实现知识服务的基础.(2)外购数据库.国内较有名的有清华同方CNKI,重庆维普,书生之家等等,国外有John Wiley电子期刊,SDOS数据库,美国化学文摘等等.针对特定服务群体,购买相应专业的数据库,这其中有一个普遍存在的问题就是异构数据库.由于各个数据库为不同厂商开发,用户要在不同的数据库进行检索就必须进入不同的检索界面,且检索结果无法排重,加重了用户负担;在知识服务阶段,作为知识服务基础的数字资源也需要解决异构数据库问题.(3)自建数字资源.根据开发程度的深浅,可分为建立学科导航库和建立特色数据库.根据服务对象的专业特征,图书馆工作人员在网上检索相关学科网站,对网站内容进行描述,将网站描述内容,网站地址,网站建立者,建立时间等信息形成记录,从而建立学科导航库.建立特色库是根据本馆的馆藏特点,将其有特色的纸质资源电子化,并对其进行深加工,进行深度标引,最终形成便于检索的特色数据库.
数字图书馆目前能够给用户提供的主要服务就是查询已有的资源,获得电子版全文或到图书馆获取全文,实现的都是一些基本的数据操作,数字图书馆要成为"知识中心",还需要长期探索.将web数据挖掘技术应用在数字图书馆中,使数字图书馆"知识中心"的目标向前迈了一步.
2 web内容挖掘在数字图书馆中的意义
数据挖掘就是从数据库中抽取隐含的,以前未知的,具有潜在应用价值的信息的过程.[5]Web挖掘是将数据挖掘的思想和方法应用到Web页面内容,页面之间的结构,用户访问信息等各种Web数据中,从中抽取隐含的,以前未知的,具有潜在应用价值的信息.Web挖掘对在浩瀚的网络中发现有价值的知识,改进网站设计,提供更好的网上服务有重要的作用.根据挖掘的对象不同,Web挖掘可分为web内容挖掘,web结构挖掘和web用户挖掘,本文主要对web内容挖掘中对文本的挖掘在数字图书馆中的应用做了一点研究. http://b2b.itonghui.com/
2.1 web内容挖掘有利于丰富数字图书馆资源
数字图书馆的核心是数字资源,除了本馆的数字化馆藏,外购数据库,Internet上丰富的资源是数字图书馆资源的一个重要来源.然而,将Internet上的资源为数字图书馆所用,需要解决以下问题:(1)Internet上的数据是无序的,价值与垃圾同在,虽然搜索引擎从一定程度上解决了信息查找的难题,但是要将Intenet上的资源整合到数字图书馆中为用户直接提供其需要的知识,仅仅依靠搜索引擎是难以实现的.因为数字图书馆服务对象是特定的用户群,比起搜索引擎广而浅的检索结果,数字图书馆用户需要专而深的知识,所以只有通过在搜索引擎的基础上对web内容进行深入挖掘,才能为用户提供高质量的信息,才能实现数字图书馆的目标;(2)由于存在新的网页内容代替旧的网页内容,网页建立者消失,网站重组等问题,一些重要的web资源会随着时间推移而消失,通过对web文本进行挖掘,将其重要资源组织成本地资源,有利于用户长期,连续使用,丰富数字图书馆数字资源. http://b2b.itonghui.com/
2.2 web内容挖掘有利于为用户提供知识型服务
Web内容挖掘与搜索引擎的基本目的都是帮助用户从大量的数据中找到用户需要的信息,面对Internet上同样的数据量,与使用搜索引擎相比,web内容挖掘将提供给用户更满意的结果,原因在于二者的工作原理不同:搜索引擎是根据用户提供的检索式对信息进行查找,其检索结果的质量很大程度上依赖用户构建的检索式,但用户构建的检索式很多时候并不能准确表达其需求;数字图书馆中的web内容挖掘为用户查找信息的依据不仅仅限于用户所构建的检索式,而是充分利用各种用户信息来了解用户,以便更准确地获取用户的需求,比如通过用户在数字图书馆中的注册信息可以了解用户的专业背景,用户在数字图书馆中的浏览记录以及用户的借阅记录可以反映用户近来的研究方向,同专业方向的用户的检索记录可以相互参考等,充分考虑这些信息对用户需求的潜在反映,将为web内容挖掘提供有力的依据,同时挖掘结果包括文摘和全文,并以分类推送和聚类列表的形式提供给用户,从而达到为用户提供知识的目的.
http://www.dmresearch.net/bbs
3 web内容挖掘的过程
web内容挖掘是对网页内容进行挖掘,包括文本,图像,语音,视频等多媒体信息,其中最多的是对文本信息的挖掘,所用到的数据挖掘技术主要是对文本的分类和聚类.下面对文本信息的挖掘在数字图书馆中的应用进行介绍.
3.1 信息采集
数字图书馆在进行web文本挖掘之前,需要确定挖掘目标,即要确定挖掘哪个专业的信息,供哪一类用户使用,以便确定挖掘的数据源,然后使用蜘蛛等网络采集工具将相关网页采集回来以待分析.数据源的选定,重点放在各学科门户网站.
3.2 特征提取和特征表示
将文本信息采集到本地后,挖掘工作真正开始,特征提取是挖掘工作的基础,由于采集回来的都是非结构化或是带有html语言简单标识的半结构化文本,如 标识之间的是全文的标题,但这些标识能够提供的信息非常有限,无法使计算机理解全文内容,需要将文本转换成计算机能够理解的结构化数据,即用文本的特征来表示文本本身.文本特征包括描述性特征和语义性特征,描述性特征指文本的物理特征,如日期,大小,类型等,语义性特征指文本的内容特征,如文本作者,标题,摘要,内容等,文本挖掘要做的是提取文本的内容特征.
特征提取之前要对文本进行词条切分.词条切分的方法有很多,在数字图书馆中,文本挖掘的专业性很明确,可以考虑将专业词表用于文本的切分中.基本思路是:将文本d先根据html标识以及标点进行粗切分,然后采用禁用词表将"的,地,得,了,如果"等无实际意义的虚词去掉,获得短语集合P(p1,……pi,……pn),再将短语逐个与专业词表T中的词条(t1,……ti,……tn)进行匹配,通常词条长度pi>ti,取ti作为文本特征词条.用向量空间模型VSM可以将d的特征向量表示为:V(d)=(tl,w1(d),……ti,wi(d)……;tn,wn(d)),wi(d)为ti在d中的加权值,最简单的计算方法是:wi=f(ti)/n(d),其中f(ti)表示词条ti在d中出现的次数,n(d)表示用来代表d的特征的词条总数.
3.3自动摘要
文本的摘要是对文本内容的高度概括,使用户在不阅读全文的基础上就能对全文内容有总体的把握,但目前很多搜索引擎只是简单提取文本前面的句子作为摘要,效果并不好,采用好的算法来处理文本摘要,提高摘要质量,也是文本挖掘的重要任务之一.一般的自动文摘方法都是采取直接从原文获取字串来组成文摘,基本思路是:扫描全文,以标点符号为断句标识,得到文本的字串集合,对出现了特征词条的字串,参考特征词条的权重值,赋予该字串相应的权重值,另外调整一些特殊位置的字串的权重值,如对后面的文本字串赋予最高的权重值,对段首句,段尾句增加其权重值,并且记录每个文本字串的起始位置.此时,文本字串是一个三元组.最后根据权值大小挑选字串,按照字串在文中的本来顺序生成文字流畅且具备一定质量的自动摘要.
http://b2b.itonghui.com/
3.4 文本分类
文本分类是文本挖掘在数字图书馆中的重要应用,根据特征提取阶段获得的文本特征,以事先确定的分类标准为依据,将文本集合进行分类.之所以说文本挖掘能够为数字图书馆馆用户提供知识,是因为此处的文本分类是根据用户的真正需求将文本进行细分,提供给用户的是很个性化的结果,即是用户真正需要的知识.
文本分类有两个阶段,一是训练阶段,二是分类阶段.
训练阶段:
(1)定义类别集合C=(c1……ci……cn).在数字图书馆中,对于同一个专业领域,用户的专业背景,研究方向,课题任务等不同,提出的检索要求也会有很大差别,在定义类别集合阶段,根据用户之前在定制信息时提出的检索式,结合其专业背景,研究方向以及课题任务等,预先设计出细致的分类类别,并且对特定的挖掘任务,可以请领域该专家对划分的类别提出意见,以求划分的类别细而准确;
(2)给出训练文本集合D=(d1……di……dn),D中的文本是已经由用户确认,与其需求最相关,可以代表用户的真实需求的文本,每一个si都被标上所属的类别ci; http://www.itonghui.com
(3)统计D中所有文本的特征向量V(d),确定其代表C中每个类别的特征向量V(ci);
分类阶段:
(4)对于测试文本集合T(d1……i……dn)中的每个待分类文本di,计算其特征向量V(di)与每个V(ci)之间的相似度SIM(di,ci);
(5)选取相似度最大的一个类别作为di的类别.计算SIM(di,ci)时,有多种方法可供选择,最简单的方法是仅考虑两个特征向量中所包含的词条的重叠程度,即:
SIM(di,ci)= n(V(di))∩n(V(ci))
n(V(di))∪n(V(ci))
n(V(di))∩n(V(ci))是V(di)和V(ci)具有的相同词条数目,n(V(di))∪n(V(ci))是V(di)和V(ci)具有的所有词条数目.另一种考虑权重值的算法是计算两个特征向量之间的夹角余弦,即:
SIM(di,ci)=cos (V(di),V(ci)) = ∑(V(di)*V(ci))
∑ |V(di)|*|V(ci)|
由于是根据用户的真实需求划分的类别,此时就可以将分类后的文本主动提供给用户,而不需要用户再进行检索,用户可以将自己觉得最有用,最相关的文本反馈给系统,系统可凭此对分类的相关性做进一步调整.
3.5文本聚类
文本聚类是指把文本集合按照相似性归成若干类别.与分类有所不同,聚类没有预先定义好主题类别标记,需要由聚类学习算法来自动确定.其目标是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能地大而不同簇间的相似度尽可能地小.[10] 在数字图书馆中,利用文本分类可以为用户主动提供相关性最高的信息,而文本聚类在数字图书馆中主要针对最新的学科前沿信息,将采集回来的新信息经过聚类后,将相关性高的文本聚成一类供用户浏览,通常放在数字图书馆网站上的"最新学科信息栏目".文本聚类算法有多种,大致可以分为两种类型:以GHAC等算法为代表的层次凝聚(Hierarchical Clusters)法[11],以K-Means等算法为代表的平面划分法[12]. http://www.dmresearch.net/bbs
4 结论
开展基于Web内容的文本挖掘,丰富了数字图书馆数字资源,结合开展用户需求挖掘,充分了解用户需求,更好地开展用户个性化服务,不久的将来,数字图书馆必定成为"知识中心".
[参考文献]
[1]任继愈.建设中国数字图书馆工程.人民日报.2000-04-04
[2]张正.新世纪数字图书馆研究综述.图书馆理论与实践.2004(1)
[3]王已芳等.数字图书馆建设要点刍议.河北建筑科技学院学报.2004(12)
[4]刘丽.web数据挖掘及其在数字图书馆中的应用,中国信息导报 2003(12)
[5]刘同明等,数据挖掘技术及其应用.国防工业出版社.2001(9)
[6]何少卓.浅谈数据挖掘及其在图书馆的应用.图书馆界.2004(3)
[7]陈桂林,王永成.Internet网络信息自动摘要的研究.高技术通讯.1999(2) http://www.chinakdd.com
[8]邹涛,王继成,张福炎.基于WWW的资料搜集系统的设计与实现.情报学报.1999(6)
[9]郭庚麒.Web文本挖掘技术.计算机与网络.2004年(1~2)
[10]涂承胜,鲁明羽,陆玉昌.web内容挖掘技术研究.计算机应用研究.2003(11)
[11]Willet P.Trends in Hierarchical Document Clustering:Acritical Review[J] .Information Processing and Management.1988 (24)
[12]Rocchio J J.Document Retrieval Systems-Optimization and evaluation[D] .Harvard University.Cambridge,MA.1966.
[作者简介] 黎琳,女,四川大学公共管理学院信息管理系研究生.