想开发搜索的人必读的文章(www.lucene.com.cn)

1 互联网搜索


其实搜索的这个核心就是分词与PageRank算法,择日和大家讨论具体的实现,依靠PR算法,sogou 3.0的搜索结果相当不错,如果融入人工智能、数据挖掘自然语言理解等最新信息技术成果的搜索引擎,将会给用户带来了一种方便、易用、灵活的检索方式,为用户提供的是详实、准确、直接的信息。


这部分讨论几种特色搜索,概念检索是以概念为核心,这种方式一改以关键词核心的搜索模式,借助概念词典,通过与用户交互而获得用户要搜索的目的核心的一种搜索方式。提问式检索是以自然语言形式的问答式检索。引导式分类检索和聚类检索是对结果显示方式的重新布置方法,使方便用户的一种搜索方式。个性化搜索是利用个性化提取技术对不同的用户获得不同的结果的一种方法。


1.1 概念检索


检索并不是一次完成的,而是通过概念树进行交互过程中实现的,这种技术的前提是用户搜索并不是想查某个关键词,而是想查一个概念,或一件事。比如:用户输入绿茶,它是想查绿茶电影,通过概念树的描述结构获得,绿茶的不同树结点,相应有趣标的节点信息提示给用户,以便用户电击,用户的电击过程其实是与系统交互的过程,通过交互,获得用户所需要的信息。这既是所谓的语义检索。


语义检索是把信息检索与人工智能技术、自然语言处理技术相结合的检索,能够较好地解决传统全文检索中关键词词间关系模糊、检准率低的问题。传统的全文检索系统在网络信息检索中最大的问题就是检索模式单一,表面化,仅用单一的词或词的组合来对网络式结构的知识进行检索,缺乏对知识的理解和处理,其结果是返回的匹配网页数目过多,起不到真正的信息检索的作用。语义检索立足于对原文信息进行语义层次上的分析和理解,提取各种概念信息,并由此形成一个知识库,然后根据对用户提问的理解来检索知识库中相关的信息以提供直接的问答。它提供的不是知识的标识,而是知识的内容。语义检索与全文检索的根本差别在于具有一个巨大的知识库,而知识库本身就是一个概念的语义空间网络。建立知识库首先要构造语义网络,即利用人工智能、计算语言学等技术从大量网页中自动提炼概念、计算概念之间联系,包括确立概念等级体系、概念之间的语义映射关系及语义关系的推理原则等。检索系统可利用语义网络对网页进行语义标注,并形成索引库,智能型检索接口利用语义网络进行语义推理,主动分析用户提出的检索需求,向用户提出既符合用户检索需求又符合索引系统规范的检索关键词,实现语义检索和其他智能处理。


因此,建立在语义空间网络基础上的语义检索具有分析和理解自然语言的能力、记忆能力、智能人机接口,可以实现同义词扩展检索、语义蕴涵和外延扩展检索、语义相关扩展检索,突破了关键词检索单一模式的固有缺陷,实现概念层次上的词义扩展,能够在检索和获取信息过程中有针对性地提供有关解释、说明、范例、辅导、纠错等动态服务,对用户检索实现智能导航,充分保证用户的实际检索效率。但是,如何在一个分布式的、异构的信息环境下实现完全意义上的语义检索是目前所面临的最大挑战。
这项技术提供对用户输入词做一定的运算,获得关键词的中心意义,使得搜索变聪明了。用户只需在问题框里输入关键词,而不用在关键词之间加上一大堆诸如空格、加号、减号之类的东西,搜索引擎就会搞清楚想问的是什么。


1.2 直接提问式搜索


这是对传统检索放出的补充,是中文问答系统的一下应用。
搜索引擎允许用户可以按照平时说话的方式,通过问话框直接提问。把想问的问题输入问话框并提交,用户将会马上看到用户需要的内容。这是一种最直接、最快捷的获取答案的方式。比如,用户想知道北京今天的天气情况,就可以在问话框中直接输入“北京今天天气怎样”或“北京今天的天气好吗”等问法,然后按回车键或点击“提交”按钮,用户会看到有关天气的内容出现在窗口中,里面就是用户要了解的北京的天气情况。还可以询问诸如“《红楼梦》的作者是谁?”,“《大话西游》的导演是谁?”之类的问题。有的时候,用户在问题框中输入问题后得到的是一些相关问题而不是直接的网站,这些相关问题都是搜索引擎精心提炼、归纳的,用户可以从这些相关问题中找到他想确切表述的问题,还可以发现他感兴趣的其它问题;同时,相关问题还可以引导用户快速适应搜索引擎所提倡的提问方式,即用简捷的、有目的性的问句(即有意向的问题)来提问,以便其更快速的找到想要的内容。


1.3 引导式分类浏览


分类浏览是一种更为传统的搜索方法,但某些搜索引擎的分类浏览有别于传统的分类浏览方式,因为在浏览智能搜索引擎的分类时,用户看到的不是传统的网页内容,而是一个个相关问题,也就是说,如果用户不想输入问题,可以浏览相关类目,在问题列表中找出用户想问的问题。用户只要点击每个问题前的按钮,就能看到相应的内容了。(聚类方法见下节)


1.4 聚类搜索


搜索引擎的站点类聚方式和时限的选择等。站点类聚方式的选择,用户在搜索时经常遇到以下情况:一种是一个词频繁一个网站的许多网页中出现,如果搜索这个词的话,就会出现大量的属于同一网站的许多不同网页,如果只关心这个网站,就可以使用“站点类聚”方式,这样在结果中所有同一个网站的网页就会合并成一个键接;另一种情况是同样的内容在不同的网站频繁出现,那么可以选择“内容类聚”方式,这样在搜索结果中就会只显示出与具体内容相关的一个网页。也可以选择“站点类聚+内容类聚”方式,可同时达到上述两个目标。时限选择即选择网页生成时间,提供“任何时间的网页”、“‘三个月以内的网页”、“半年以内的网页”与“一年以内的网页”四个选择。

1.5 个性化搜索


个性化搜索的目的是做到:利用用户在搜索得10分钟,留住用户20分钟,如何做到这一点呢,首先,要在用户的搜索行为发生后对其个性进行分析,获得其感兴趣的信息,同时,在下一个电击行为开始时推送适合这个用户的感兴趣信息。获得用户行为的方法在个性化部分论述,推送方案在以后论述。这项技术同样可以影响结果排序。


1.5.1 个性化广告投放
见智能广告投放技术(2.5)


1.5.1.1 个性化查找服务


用户自动分类:目的是用户在聊天的过程中,自动被识别出自己兴趣爱好相似的同类别,这更增加了同类用户的亲和力。


这部分是面向又交友为目的人,开发的聊天服务功能产品,目前的聊天查找都是以系统内注册的信息获得的,可以通过聊天者的聊天内容的知识表示,获得用户的经历、历史等信息,最终达到聊天交友查找的目的。这种方式显然比直接查找来的更加准确。


2 个性化检索服务


如何面向用户需求,以最最方便的方式让用户获得所需的信息正是智能应用的任务。对于用户来说,没有输入任何信息而获得到自己所需要的这当然是最合适的方案。这部分应用即为个性化检索。
个性化服务的根本原因就是用户的情况千差万别,针对不同的用户可以进行如下分类:地域、性别、文化程度、行业、职业、上网时间等等。针对不同需求,比如上网目的:获取信息、学习、学术研究、休闲娱乐、情感需要、交友、获得各种免费资源、对外通讯、联络、炒股、网上购物、商务活动、追崇时尚、赶时髦、好奇等等也可以作不同的处理


2.1 个性化服务内容


个性化问题已经在研究领域里做了很多工作,这里将用大量的篇幅论述个性化问题的应用方法。
个性化是使事物具有个性,或者使其个性凸显。这里包含了两层含义,其一,个性是需要经过培养而逐步形成的。这个过程可以称之为使个体个性化的一个过程;其二,个体总是具有一定的个性的,让这种个性得到别人的了解、认可,并在一定的空间得以体现、展示,是每个个体都拥有的潜在需求,这个过程也称之为个性化的过程。那么什么是个性化信息,这个概念可从两个角度来分析。其一,个性化信息是指反映人类个性特性的一切信息,这些信息包括了这个个体的各种属性的描述;其二,个性化信息是指由人类个体特性所决定的其对信息的需求的一种信息组合,也就是由人类个性对信息需求的决定关系而产生的一系列对个体有用的信息。个性化信息服务既是一种个性化服务,又是一种信息服务。因此,可根据前面阐述的两种个性化过程和两类个性化信息,找到个性化信息服务的定位。个性化信息服务首先应该是能够满足用户的个体信息需求的一种服务,即根据用户提出的明确要求提供信息服务,或通过对用户个性、使用习惯的分析而主动地向用户提供其可能需要的信息服务。其次,个性化信息服务应能够根据用户的知识结构、心理倾向、信息需求和行为方式等来充分激励用户需求,促进用户有效检索和获取信息,促进用户对信息的有效利用并在此基础上进行知识创新。


2.2 个性化信息服务机制


如前所述,个性化信息服务就是将用户感兴趣的信息主动提供给用户,要实现这项服务,服务系统必须具备两方面的能力:一是构建个性化信息模型,即将个性化信息从全局信息空间中分离出来;二是构建用户信息模型,即跟踪用户行为,学习、记忆用户兴趣,通过描述用户的兴趣来建立个性化用户模型。此外,还需要有功能强大的网络信息搜索能力和友好的用户界面,它们即是构建个性化信息模型和用户模型的基础,也是实现个性化信息服务的保障。


2.3 个性化获取


目前,Internet网上站点从不同角度出发,采用了不同的用户个体特性采集和个性化信息传递方法,主要有以下四种方法。


2.3.1 界面定制法


界面定制个性化信息服务是根据用户需求对用户个体所需的系统界面、资源集合、检索工具与技术、检索利用服务过程、检索结果等进行定制。在理想情况下,系统应提供以下定制功能:1方便实用的定制工具;2用户能对系统提供的定制内容进行选择、引入或自定义定制内容、组合定制内容、调整定制结构;3查看定制效果;4对定制信息进行修改、存储和管理;5根据用户使用选择倾向和历史统计自动修改定制信息。从个性化程度讲,定制应能充分支持和展示个人的特色,允许用户积极参与界面的定制,通过填写表格,用户指示出自己的需求和选择,并依次决定所需的内容和对话界面的外观。一般系统为用户提供一个基础模板,用户根据需要从中选择或添加相关内容。用户定制的数据存放在服务器端数据库里,在用户登录时系统确定用户身份,调用相关定制信息,并利用定制信息匹配系统数据或过程,动态生成个性化的系统形态和系统行为。界面定制至少包括界面结构的定制和界面内容的定制。界面结构指对话界面的总体模块类别和布局形式,例如页面将包括哪些模块或服务,各模块的布局方式(上下或左右或层次),有关图像、菜单等的位置设置,界面色彩设计等。而界面内容定制主要是对各个信息或服务模块的具体内容进行定制。这种形式定制的个性化信息服务效率依赖于用户定制的能力和动机,如用户不愿花费力气建立复杂、准确的个性化特性,这项服务就不会发挥作用。而且所定制的界而是静止不动的,不会随用户的需求而变化,除非用户能及时调整和更新。


2.3.2 点击流分析法(Click Stream Analysis)


点击流分析法是采集用户在站点上运动情况的方法,可用于跟踪记录访问过的链结点,包括用户的来源地点、浏览站点的路线和最终到达的目标,链结分析包括对点击过的链结的观察、它们在屏幕上的相关位置、用户在网页上停留的时间以及点击过的链接间的关系和最终结果(象用户是否发生了电子交易等)。通过对这些数据的有效分析,不但能够对网站的建设起到指导作用,增强网站的黏着度,而且也能够反映出企业在市场、销售、服务和财务等各个方面的状况。总之,对这些数据深层次分析能够使网站改善客户关系、培养顾客忠诚、增加网上销售和提高服务质量。在电子商务网站环境中,点击流分析的已经远远超出点击流的范围,而成为企业了解经营状况、了解客户行为的有效工具。点击流分析以WEB上的点击流数据为基础,利用OLAP、数据挖掘等技术满足电子商务企业的所有人员(市场、销售、工程与管理)的需求,不同的部门有不同的需求,通过对点击流不同数据的分析来达到不同的目的。


(1)网站点击分析。网站点击分析是点击流分析的一个重要部分,网站点击主要回答了市场开拓部门所关心的以下问题:1网站的哪个部分或产品吸引了最多的访问者;2网站的哪个部分导致的直接购买行为最多;3网站的哪个部分是多余的或者很少有访问的;4哪个部分是会话结束最多;5哪个部分进入的购买会话或其他类型的会话最多;通过对这些问题的充分了解,市场开拓部门在进行网上广告宣传时就会有比较好的倾向性,也利于有倾向的发展广告客户。


(2)点击状态分析。访问者的每次有效点击都是对网站服务器的一个资源请求,因此点击状态等同于请求状态。请求状态是指对于一个访问请求,服务器返回的结果类型。其中,对网站影响最大的请求结果是:资源错误,请求失败。作为网站来讲,实时监测请求的错误情况,找出故障原因并及时排除是至关重要的,点击状态分析提供实时的网站质量报告,给维护人员详细的故障信息做指导,评测故障恢复时间和影响范围。


(3)客户关系管理(CRM)。客户关系管理也是点击流分析的一个重要内容。点击流分析中的客户关系管理通常回答了以下几个方面的问题:1一个新用户的会话模式(Click Profile)是什么样的;2退出客户的会话模式通常是什么样的;3给网站带来利润的客户会话模式是什么样的;4取消服务的客户会话模式是什么样子的;5抱怨和投诉客户的会话模式是什么样的;6怎样可以吸引一个访问者成为网站的注册用户;通过对这些会话模式的分析,为市场、销售等部的CRM提供了数据分析基础。对客户群体进行划分,找到网站所关心的客户,如潜在客户、有价值客户和保持客户等。


2.3.3 协调过滤法(Collaborative Filtering)


协调过滤法把一个用户的偏好与其他用户的偏好进行比较,建立同偏好群体的描述。然后假定这个特定用户与这个同偏好群体的需求相同,对其需求内容进行推荐。协调过滤法的基本机制是:1登记团体人群的偏好;2用相似测度法,挑择偏好类似的子群组;3对子群组的偏好加权平均;4利用由此导出的偏好函数(preference function)为用户作出推荐。如相似测度法确实挑选了具有相似偏好的群体,那么,根据该群体确定的选项满足用户个体的几率就大。协调过滤法较典型的应用是推荐图书、光盘或电影。也可用于文献、服务或产品的挑选。


目前协调过滤法存在的主要瓶颈是用户偏好的收集。为增加可靠性,系统需要大量的人群(数千)在数量相对大(数十)的选项中做出选择。这需要众多人群的共同努力。避免这个问题的方法是采集隐含在用户行为中的偏好。例如,从网上书店订购图书的人们,在他们订购的过程中含蓄地表达着他们对图书的偏好。已经购买了与他们相同图书的顾客则有可能具有与他们相似的图书偏好。这种方法由Amazon网上书店采用,Amazon书店为每本书提供了相似人群购买的有关图书书目。

2.3.4 Cookies方法


Cookie不再是Internet上的新名词,但对个性化信息服务仍然有用。Cookie是由站点发送的小数据包并存储在浏览器一侧,因此作为用户的唯一标识可以在服务器一方(发送Cookie的站点),重复使用。Cookie提供了追踪用户的方法。它给用户加标识,更确切他说是给用户的浏览器文件加标识,当再次访问发送Cookie的站点时,浏览器被当作唯一可以鉴别的实体。在浏览器中用作Cookie存储的用户信息在以后的访问中能够被发布站点调用,也能够在重复地访问中更新。它构成了到存储在服务器(提供方)方的指定文档信息的连接。Cookie可用于存储用户的其它信息——用户自己提供(填表格)的资料、最后一次访问的时间和其它的对话信息。


2.4 用户分类


用户分类是实现网站个性化的一项重要工作,我们可以根据需要进行多种分类,可以根据访问内容分出用户的各类兴趣爱好:如喜好足球的、喜好电脑技术的、喜好休闲娱乐的、喜好交友的:根据一般的上网时刻、访问量、上网的总时间、上网总次数等把用户分为一般网友、中级网友、高级网友等:甚至还可以根据访问内容确定用户大致所在的阶层,如白领、蓝领等。从以往相同喜好的用户的访问内容、访问顺序中进行学习,经过综合、筛选后将其推荐给当前用户。这些推荐信息与用户兴趣间的相关度很高,能很大程度上满足用户的需求。


2.4.1 通过日志获取兴趣


客户浏览信息被Web服务器自动收集,并保存在访问日志、引用日志和代理日志中有效地对这些Web日志进行定量分析,揭示用户兴趣路径等,不但可以为优化Web站点的拓扑结构提供参考,而且还可以为企业制定更有效的市场营销策略提供依据,使其及时改进决策,获得更大的竞争优势
目前,Web日志的挖掘研究主要集中在用户浏览模式的获取上,算法有最大向前序列法、参考长度法和树形拓扑结构法等它们先将日志中的用户浏览历史记录转换成一个浏览子序列集:最大向前序列法根据用户折返的特性形成若干浏览子序列;参考长度法根据用户在网页上停留的时间形成若干个浏览子序列;树形拓扑结构法则把整个日志当作浏览子序列然后利用关联规则法对浏览子序列进行挖掘找出频繁访问路径以上算法单纯地考虑了浏览频度,简单地认为用户的浏览频度就反应了用户的访问兴趣,这很不精确网页浏览频度的影响因素有很多,其中的页面放置位置和其它页面对该页面的链接都起着非常重要的作用所以有必要提出一种可正确挖掘用户浏览兴趣路径的算法本文就是从提出的支持 偏爱度的概念出发,给出了一种Web站点访问的矩阵表示模型,在此基础上挖掘用户浏览偏爱路径,然后进行了实验,提出需要进一步研究的问题。


2.4.2 个性化聚类


作为一种重要的知识发现方法,数据聚类主要用于发现属性间有用的模式和(或)关联(统称为知识),对于大规模数据集的探测性分析有着重要的作用。由于操作的对象是海量数据,所以其效率也就显得特别的重要。为此,近年来除了对聚类算法本身寻求改进以外,还对算法的并行化进行了大量的工作,以充分利用了当今计算机的综合计算能力,缩短聚类过程所需的时间。而且数据聚类的相应技术已经在图象处理,模式识别,信息融合等各个领域里都有重要的应用。发现知识的效率固然重要,但是发现后所得到的知识的“质量”也同样不可忽视。一般来说,一个知识发现系统是面向多用户的(或者说是面向多应用的)。如果一次聚类所得到的知识多于、或少于、甚至根本不是当前用户所需要的知识,那么这些知识对当前用户而言就是存在所谓的质量问题。例如,对于一群学生,教学工作者可能需要把他们分为一年级学生、二年级学生等;而对于同一群学生,医务工作者则可能把他们分为甲肝患者、乙肝患者等。显然,如果一个教学工作者去操作知识发现系统的时候,系统按患病情况进行聚类时,其结果是不能接受的。所以理想的情况是,不但要高效地产生所需要的知识,而且产生的知识要能够满足用户的实际需要,不存在与用户需要无关和多余的知识。当然,这些知识是在反映属性间内在客观联系的前提下满足用户需要的一种知识。该文通过聚类的方法获得仅满足用户需要的知识(不存在无关的知识)的过程,称为个性化聚类,相应的知识就称为个性化知识。


在当今信息的海洋中,研究个性化聚类,发现个性化知识,对于减少用户的工作量、提高工作效率和正确率、以及进一步推动信息处理系统向智能化和实用化方向发展有着极为重要的现实意义。


2.5 信息过滤


信息过滤是个大的概念,这里专门来讨论这个问题。
信息过滤技术基本分为两类:一种是基于内容的过滤(Content-based Filtering);另一种是合作过滤(Collaborative Filtering)。在基于内容过滤模式中,每个用户假定是相互独立操作的。因此,过滤的结果只取决于用户信息需求模型(即用户模板Profiles)与信息源的匹配程度。在相关反馈的基础上,系统辅助维护用户模板。基于内容过滤的系统如Personal Web Personalizer等,它们利用资源与用户兴趣的相似性来过滤信息。它的优点是简单、有效,缺点是难以区分资源内容的品质和风格,且不能为用户发现新的感兴趣的信息。合作过滤的出发点在于任何人的兴趣不是孤立的,而是处于某个群体中。根据相同或相近兴趣的用户对相应信息做出的评价,向其它用户进行推荐。由于不依赖于内容,这种模式不仅适用于文本格式,也可以广泛应用于非文本介质的资源,如视频、音频等。协作过滤系统如:Web Watcher,Grou-pLens,Firefly,SELECT,LileMinds和Citeseer等,它们利用用户之间的相似性来过滤信息。基于合作过滤系统的优点是能为用户发现新的感兴趣的信息。但是,它也存在两个致命的缺点:其一是稀疏性问题,即在系统使用初期,由于系统资源还未获得足够多的评价,系统很难利用这些评价来发现相似的用户。另一缺点是系统可扩展性,即随着系统用户和信息资源的增多,系统的性能会下降。为了综合基本内容和合作过滤两种方式的优点,本文拟在数字图书馆中采用基于混合模式的信息过滤(Hybrid Filtering)模型。它建立面向个人的用户模板和面向合作的公共模板,抽取信息特征,作为可能的特征项,便于用户动态地修改模板;利用其它用户对文档的评价以及用户模板与文档的相似度来预测用户的接受程度,另外还考虑到推荐者的权威性和与用户兴趣的一致性。结合这两种过滤技术可以克服各自的一些缺点,从而提高信息过滤的性能。


3 热门新词提取


这是利用自然语言未登录词识别技术,获取网上最新的动态,同时,将获得的新词进行分类标注的新技术。这项功能有许多应用,可以很好的有用户的兴趣,结合用户的习惯及个性化,甚至可以改变用户的上网模式,使得用户具有相应的依赖性。

 
未登录词(unlisted/unknown words)是指词表未收因而机器不认识的词。词表应当有一定规模(一般是几万词);极而言之,如果词表为空,文本中的每一个词都成了未登录词。另一方面,未登录词本质上是不可穷尽登录的:人名、地名几乎可以看成是无限的,新词也在不断地产生。


缺乏识别未登录词的能力,计算机就难以自动处理大规模语料。目前处理百万词级的语料时,通常的做法是先用机器分词,然后进行人工校对。但是人工校对费时费力,缺乏一致性,即使校对多次也难以保证没有错误。要处理几千万、几亿词语料,用这种办法是肯定行不通的,因此亟需开发一种免校对的自动分词系统。所谓“免校对”,不是说正确率要达到百分之百,而是指切分错误极少,至少能跟人工校对后的正确率相当。要做到这一点,就必须比较彻底地解决未登录词问题。


未登录词可以分为专名和非专名两大类。专名包括人名、地名等,非专名包括新词、简称、方言词语、文言词语、行业用词、港台用词等。目前关于未登录词识别的研究,集中在专名上,非专名的未登录词识别问题尚未引起足够的重视。如前面所举的例子,在真实文本中,非专名的未登录词占相当大的比例。词组式专名中含普通词语,如“蒙古人民共和国”“北京工业大学”。在自动分词中,能把其中的专名未登录词“蒙古”“北京”识别出来就可以了;至于组合处理,有时可能有困难。如,“美国大学”不是一个词组式专名,而“韩国大学”是一个词组式专名(例子引自张小衡,1997)。品牌名常常用普通词语,如“长虹牌彩电”“联想电脑”。对于这些品牌名,按照上面的建议(不作组合处理),就不存在未登录词识别问题。但“康佳彩电”“富士牌彩卷”之类的品牌名,应该把其中的专名识别出来。如果把这些词组都整个儿看成未登录词,显然会加重自动分词的困难。


3.1 新词的自动获取


第一,先用最大概率法进行第一趟分词,识别已登录的多字词;第二,在“分词碎片”中寻找未登录词:分词碎片中任意字串皆为候选未登录词,利用局部统计和单字概率来计算其概率;但碎片中任意单字亦为候选单字词,故应同时计算每个单字的成词概率,与候选未登录词形成竞争,依概率来决定每个单字究竟是词还是未登录词的一部分,对分词碎片进行第二趟分词。最大概率法分词给出了最大概率法分词的算法,其基本思路是从各种可能的词串中,找出各词概率乘积最大的词串。其实,是自动分词的统计模型。
计算单字概率为了在分词碎片中识别未登录词,计算单字的以下几种概率:(1)单字概率Pz(c),即每个单字在语料中的出现概率。Pz(c)应从极大规模语料库中统计得到,因为规模不够大时,许多非常用字难得出现,而未登录词(特别是专名)中往往包含非常用字。(2)单字词概率Pw(c)。语料规模当然也是越大越好,但实际上很难得到极大规模的、校对精确的分词语料。关键是如何计算Pw(c)。用单字词出现次数除以分词语料的总词次,得到的是该单字词的出现概率;用单字词的出现次数除以该单字的出现次数,得到的是该单字的相对成词概率。8孤立地考虑某单字是否成词的时候,应该用它的相对成词概率;但如果在上下文中考虑它是否成词时,应该用它的单词出现概率与相对成词概率的乘积。(3)单字非词概率Pf(c)=Pz(c)-Pw(c)分词碎片中的候选单字词连续出现时,用其转移概率:λ1Pw(ci)+λ2Pw(ci-1ci),其中λ1+λ2=1,具体值可通过试验得到。这是强调慎重识别单字词。最大匹配法和最大概率法为了保证任意汉字串能在有限步骤内切分完毕,都是把词表中查不到的单字权且当作一个词。这是不能发现和识别未登录词的根本原因。未登录词是无限的,而单字是有限的,单字词更少。把单字和单字词作为识别未登录词的关键,就是想以有限来驾驭无限。当然,也不能说,只要把已登录的多字词和单字词都识别出来了,其余的连续单字都当作未登录词。事情不是这么简单,因为在分词碎片中,一个单字是不是词,也有赖于它周围的单字是不是待识别的未登录词的一部分。


3.2 新词的推送技术


通过为登陆处的识别,可以定期获得新词,这样就构成了新词词库。
新词仍让有个性化的问题,也就是说,对以某些用户来说,成为新词的,对于另一些用户来说,可能不是新词,这样。新词的概念有所变化,即个性化新词,新词,对于用户来说是新的兴趣点,对于新词的个性化推送不仅可以获得新的点击效益,对于用户来说,该功能也具有了新的市场,用户在使用过程中获益后,会对此能能产生依赖性的认可。


4 智能广告投放技术


4.1 智能广告投放的内涵


自从万维网WWW出现以来,Internet已经成为人们获取信息重要媒介,据统计中国网民人数已经达到上千万,这么多网民意味着巨大的潜在的广告市场许多商家将目光从传统的广告模式——电视、电台、报纸转向网络广告网站如何设置、播放什么样式的网络广告才能吸引网民而不是造成网民的反感已成为网站设计者需要考虑的问题传统网站常采用两愿营销的网络广告模式,这种模式在实际中存在安全性问题及随着时间的变化,使用者的兴趣与偏好可能会随着改变的问题基于上述的原因,为了能更准确地掌握使用者信息以提供使用者个性化的广告,本文提出一种新的网络广告模式根据用户的浏览行为和所浏览网页的内容,分析出用户的爱好与兴趣有针对地对个人播放个性化广告也既是每个用户看到的广告是根据其爱好不同而动态的改变,并不是现在常见的网站所呈现的固定不变的广告在此模式中,主要使用近来兴起的网页挖掘(WEB挖掘)技术获取用户爱好和兴趣网站使用者在网络上浏览行为存成日志文件,可利用网页挖掘中的网页使用挖掘方法,对于使用者浏览网页的行为找出其浏览网页的偏好,而后利用所得之结果,获取与使用者浏览网页特性有关联的网页其次,未来的网页将具有扩展标记语言中可自我描述与可自行定义标记的特性,对于这些网页内容可利用扩展标记语言挖掘方法进行挖掘,找出使用者对网页内容浏览的偏好与特性如此既能动态而且随时追踪使用者特性,结合广告数据库,建立一个个性化(个人化)的广告播放机制。


4.2 以网页挖掘为基础的个性化网络广告模式


从营销使用者必须主动提供信息,并且维护自己的偏好信息,使得当时间一长或使用者兴趣改变的时候,可能再也无法确切的掌握使用者的偏好,因此,可以利用网页挖掘,且能随时动态地更新使用者资料的个性化网络广告模式:(1)日志文件:此日志文件为一浏览的日志文件,它记录的内容包括记录使用者的浏览路径、时间、使用者IP地址、浏览器等使用者相关讯息(2)使用者信息数据库:记录使用者的基本资料与经过挖掘之后的使用者特性信息(3)广告数据库:储存广告主托播的各式广告,并包括广告的类别等信息(4)经预处理后的资料:将日志文件透过预处理的程序,进行过滤与筛选,以去掉不必要或错误的信息,得到想要的资料(5)协商代理程序:为一全自动化的代理程序,负责自动与广告主依广告的价格、时段、版面配置、类型、营销目标进行协调广告播放、并负责传送广告效果回报给广告主(6)广告媒合系统:获取使用者数据库并对广告数据库进行媒合,而后呈现经媒合之后的个性化广告(7)网页使用挖掘系统:读取浏览日志文件,进行网页使用挖掘,藉以了解使用者浏览的习惯来找出其浏览的特性,例如:网页浏览的频率高低,亦即使用者对各个网页的浏览频率,分析之后,并加以记录,以作为网页内容挖掘的基础(8)网页内容挖掘系统:在这个系统之中最主要的工作就是以网页挖掘的技术,对XML文件中的标记来做挖掘,并将挖掘之后的所得的资料存入使用者的数据库,以作为将来播放广告的依据


5 自然语言处理的基础资源


这里简单介绍一下实现以上技术所需要的自然语言处理的基础资源-综合型语言知识库。
语言知识库的规模和质量决定了自然语言处理系统的成败。经过18年的努力,北京大学计算语言学研究所已经积累了一系列颇具规模、质量上乘的语言数据资源:现代汉语语法信息词典,大规模基本标注语料库,现代汉语语义词典,中文概念词典,不同单位对齐的双语语料库,多个专业领域的术语库,现代汉语短语结构规则库,中国古代诗词语料库等等。本项研究将把这些语言数据资源集成为一个综合型的语言知识库。集成不同的语言数据资源时,必须克服它们之间的"缝隙"。规划中的综合型语言知识库除了有统一的友好的使用界面和方便的应用程序接口外,还将提供支持知识挖掘的工具软件,促使现有的语言数据资源从初级产品形式向深加工产品形式不断发展;提供多种形式的知识传播和信息服务机制,让综合型语言知识库为语言信息处理研究、语言学本体研究和语言教学提供全方位的、多层次的支持。综合型语言知识库将在应用中扩充规模,更新内容,提高质量,永葆活力。

 

本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/chengg0769/archive/2007/07/27/1710979.aspx

你可能感兴趣的:(想开发搜索的人必读的文章(www.lucene.com.cn))