ictextr9

网上信息抽取技术纵览

网上信息抽取技术纵览 (Information Extraction from World Wide Web-A Survey)

Line Eikvil 原著（1999.7）陈鸿标译 (2003.3)

第一章导论

信息抽取（Information Extraction: IE）是把文本里包含的信息进行结构化处理，变成
表格一样的组织形式。输入信息抽取系统的是原始文本，输出的是固定格式的信息点。信
息点从各种各样的文档中被抽取出来，然后以统一的形式集成在一起。这就是信息抽取的
主要任务。
信息以统一的形式集成在一起的好处是方便检查和比较。例如比较不同的招聘和商品信息
。还有一个好处是能对数据作自动化处理。例如用数据挖掘方法发现和解释数据模型。
信息抽取技术并不试图全面理解整篇文档，只是对文档中包含相关信息的部分进行分析。
至于哪些信息是相关的，那将由系统设计时定下的领域范围而定。
信息抽取技术对于从大量的文档中抽取需要的特定事实来说是非常有用的。互联网上就存
在着这么一个文档库。在网上，同一主题的信息通常分散存放在不同网站上，表现的形式
也各不相同。若能将这些信息收集在一起，用结构化形式储存，那将是有益的。
由于网上的信息载体主要是文本，所以，信息抽取技术对于那些把因特网当成是知识来源
的人来说是至关重要的。信息抽取系统可以看作是把信息从不同文档中转换成数据库记录
的系统。因此，成功的信息抽取系统将把互联网变成巨大的数据库！
信息抽取技术是近十年来发展起来的新领域，遇到许多新的挑战。
本文首先在第二章简要介绍信息抽取技术，第三章介绍网页分装器(wrapper)的开发，第四
章介绍已经开发出来的网站信息抽取系统，第五章介绍信息抽取技术的应用范围以及首批
已经进入商业运作的商用系统。

第二章信息抽取技术概述
信息抽取原来的目标是从自然语言文档中找到特定的信息，是自然语言处理领域特别有用
的一个子领域。所开发的信息抽取系统既能处理含有表格信息的结构化文本，又能处理自
由式文本（如新闻报道）。IE系统中的关键组成部分是一系列的抽取规则或模式，其作用
是确定需要抽取的信息[52]。网上文本信息的大量增加导致这方面的研究得到高度重视。

本章首先介绍信息抽取领域的发展。第2.1.节比较了信息抽取和信息检索的区别；第2.2.
节介绍IE的历史。接下来两节解释评价IE系统的指标和常用的两派技术方法。信息抽取技
术所处理的文本类型将在第2.5.节中说明。第2.6.节描述信息抽取技术可利用的网页特征
。
第2.1.节 IR和IE
IR的目的是根用户的查询请求从文档库中找出相关的文档。用户必须从找到的文档中翻阅
自己所要的信息。
就其目的而言，IR和IE的不同可表达如下：IR从文档库中检索相关的文档，而IE是从文档
中取出相关信息点。这两种技术因此是互补的。若结合起来可以为文本处理提供强大的工
具[24]。
IR和IE不单在目的上不同，而且使用的技术路线也不同。部分原因是因为其目的差异，另
外还因为它们的发展历史不同。多数IE的研究是从以规则为基础的计算语言学和自然语言
处理技术发源的。而IR则更多地受到信息理论、概率理论和统计学的影响[24]。
第2.2.节 IE的历史
自动信息检索已是一个成熟的学科，其历史与文档数据库的历史一样长。但自动信息抽取
技术则是近十年来发展起来的。有两个因素对其发展有重要的影响：一是在线和离线文本
数量的几何级增加，另一是“消息理解研讨会”（MUC）近十几年来对该领域的关注和推动
。
IE的前身是文本理解。人工智能研究者一直致力于建造能把握整篇文档的精确内容的系统
。这些系统通常只在很窄的知识领域范围内运行良好，向其他新领域移植的性能却很差[5
3]。
八十年代以来，美国政府一直支持MUC对信息抽取技术进行评测。各届MUC吸引了许多来自
不同学术机构和业界实验室的研究者参加信息抽取系统竞赛。每个参加单位根据预定的知
识领域，开发一个信息抽取系统，然后用该系统处理相同的文档库。最后用一个官方的评
分系统对结果进行打分。
研讨会的目的是探求IE系统的量化评价体系。在此之前，评价这些系统的方法没有章法可
循，测试也通常在训练集上进行。MUC首次进行了大规模的自然语言处理系统的评测。如何
评价信息抽取系统由此变成重要的问题，评分标准也随之制定出来。各届研讨会的测试主
题各式各样，包括拉丁美洲恐怖主义活动、合资企业、微电子技术和公司管理层的人事更
迭。
过去五、六年，IE研究成果丰硕。英语和日语姓名识别的成功率达到了人类专家的水平。
通过MUC用现有的技术水平，我们已有能力建造全自动的 IE系统。在有些任务方面的性能
达到人类专家的水平[53]。不过自1993年以来，每届最高组别的有些任务，其成绩一直没
有提高（但要记住MUC的任务一届比一届复杂）。一个显著的进步是，越来越多的机构可以
完成最高组别的任务。这要归公于技术的普及和整合。目前，建造能达到如此高水平的系
统需要大量的时间和专业人员。另外，目前大部分的研究都是围绕书面文本，而且只有英
语和其他几种主要的语言。
第2.3.节评价指标在
信息抽取技术的评测起先采用经典的信息检索(IR)评价指标，即回召率(Recall)和查准率
(Precision)，但稍稍改变了其定义。经修订后的评价指标可以反映IE可能产生的过度概括
现象(Over-generation)，即数据在输入中不存在，但却可能被系统错误地产生出来（Pro
duced）[24]。
就IE而言，回召率可粗略地被看成是测量被正确抽取的信息的比例(fraction)，而抽准率
用来测量抽出的信息中有多少是正确的。计算公式如下：
P=抽出的正确信息点数/所有抽出的信息点数
R=抽出的正确信息点数/所有正确的信息点数
两者取值在0和1之间，通常存在反比的关系，即P增大会导致R减小，反之亦然。
评价一个系统时，应同时考虑P和R，但同时要比较两个数值，毕竟不能做到一目了然。许
多人提出合并两个值的办法。其中包括F值评价方法：
F = (b² + 1)PR / (b²P + R)
其中 b 是一个预设值，决定对P侧重还是对R侧重。通常设定为1。
这样用F一个数值就可很看出系统的好坏。
第2.4.节 IE系统设计的两大方法
IE系统设计主要有两大方法：一是知识工程方法（Knowledge Engineering Approach），
二是自动训练方法(Automatic Training Approach)。
知识工程方法主要靠手工编制规则使系统能处理特定知识领域的信息抽取问题。这种方法
要求编制规则的知识工程师对该知识领域有深入的了解。这样的人才有时找不到，且开发
的过程可能非常耗时耗力。
自动训练方法不一定需要如此专业的知识工程师。系统主要通过学习已经标记好的语料库
获取规则。任何对该知识领域比较熟悉的人都可以根据事先约定的规范标记语料库。经训
练后的系统能处理没有见过的新文本。这种方法要比知识工程方法快，但需要足够数量的
训练数据，才能保证其处理质量。
第2.5.节自由式、结构化和半结构化文本
自由式文本：信息抽取最初的目的是开发实用系统，从自由文本中析取有限的主要信息。
例如，从报道恐怖袭击活动的新闻中析取袭击者、所属组织、地点、受害者等信息；又如
，从医药研究报告的摘要中提取新产品、制造商、专利等主要信息点。
处理自由文本的IE系统通常使用自然语言处理技巧，其抽取规则主要建立在词或词类间句
法关系的基础上。需要经过的处理步骤包括：句法分析、语义标注、专有对象的识别（如
人物、公司）和抽取规则。规则可由人工编制，也可从人工标注的语料库中自动学习获得
。
自由文本信息点抽取技术的现有水平不可与人的能力同日而语，但还是有用的，不管其抽
取规则是人工编制的还是通过机器学习的[52]。虽然自然语言理解是漫长的期待，但是，
信息抽取技术确实可行，因为这项技术对其需要搜索的模式类型有很强的限定，而这种限
定是有根有据的。
结构化文本：此种文本是一种数据库里的文本信息，或者是根据事先规定的严格格式生成
的文本。从这样的文本中抽取信息是非常容易的，准确度也高，通过描述其格式即可达到
目的。所用的技巧因而相对简单。
半结构化文本：这是一种界于自由文本和结构化文本之间的数据，通常缺少语法，象电报
报文，也没有严格的格式。用自然语言处理技巧对这样的文本并不一定有效，因为这种文
本通常连完整的句子都没有。因此，对于半结构化文本不能使用传统的IE技巧，同时，用
来处理结构化文本的简单的规则处理方法也不能奏效。
在半结构化文本中确实存在一些结构化的信息，但是，抽取模式通常依赖字符和象html标
记那样的分隔标志。句法和语义信息的作用则非常有限。
第2.6.节网页
因特网提供了一个巨大的信息源。这种信息源往往是半结构化的，虽然中间夹杂着结构化
和自由文本。网上的信息还是动态的，包含超链接，以不同的形式出现，而且跨网站和平
台，全网共享。因此，因特网是一个特殊的挑战，一直推动着从结构化和半结构化文本中
抽取信息的研究向前迈进。
有些研究者把所有网页都归入半结构化文本，但Hsu[31]对网页类型做了颇有用的定义：若
能通过识别分隔符或信息点顺序等固定的格式信息即可把“属性-值”正确抽取出来，那么
，该网页是结构化的。半结构化的网页则可能包含缺失的属性，或一个属性有多个值，或
一个属性有多个变体等例外的情况。若需要用语言学知识才能正确抽取属性，则该网页是
非结构化的。
网页的结构化程度总是取决于用户想要抽取的属性是什么。通常，机器产生的网页是非常
结构化的，手工编写的则结构化程度差些，当然有很多例外。
传统的NLP技巧对抽取半结构化文本的信息并不是很有用，因其缺少规范的语法结构，而且
，NLP方法的处理速度通常比较慢，这对于网上海量信息来说是一个大问题。
网上大部分内容都以属性列表的形式呈现，例如很多可搜索的网页索引。这种外观上的规
律性可被利用来抽取信息，避免使用复杂的语言学知识。
网页上的组织结构和超链接特性是需要认真考虑的重要因素。例如，可能需要打开链接的
内容才能找到你想要的信息。网页的组织结构不同，抽取规则也不同。
网上数据库查询的结果通常是一系列的包含超级链接的网页。文献[14]把这类网页分成三
类：一层一页，即一个页面即包含了所有的查询结果；一层多页，即需要调出多个链接才
能获得所有的结果；两层页面，即第一层是列表式条目链接，点击链接后才能看到详细资
料。
第2.7.节小结
IE领域是近十年来新发展起来的研究领域，一是由于“消息理解研讨会”(MUC)的推动，二
是由于网上内容的大量增加。
IE对自由文本和结构化文本都能处理。NLP技巧通常用于自由文本，对结构化和半结构化文
本并不是太适合。相反，基于分隔符和字符的方法更能奏效。
因特网是包含大量半结构化文本的信息源。网页与传统的文本相比，有许多特点：量大，
常更新，变化多，页面的一大半包含结构化的文字块，还可能有超链接。因此，网页为信
息抽取研究带来新的挑战。

第三章分装器生成
第3.1.节分装器
第3.2.节从IE发展成WG
第3.3.节分装器生成
第3.4.节分装器的归纳学习
第3.5.节小结

各网站的信息内容互相独立，要收集起来有困难。信息抽取技术就是冲着解决此困难而来
的。
因特网上还存在一个被称为“暗藏网”（the hidden web），即那些网上数据库系统。文
献[37]估计因特网上80%的内容存在于这种看不见的因特网中。搜索引擎的“网络爬虫”抓
不到这些网页。这就意味着需要一种独立的工具从这些网页中收集数据。
从网站中抽取信息的工作通常由一种叫做“分装器”（Wrapper，也译“包装器”）的程序
完成。以下3.1.和3.2.节将介绍分装器的概念及分其生成（Wrapper Generation, WG）研
究的历史。第3.3.节总结了构造分装器的不同方法。手工制造分装器的工作繁重，因此，
自动生成的研究变得非常重要。机器学习的方法非常诱人，第3.4.节介绍了归纳式学习的
相关技巧。
第3.1.节分装器
分装器是一个程序，用于从特定的信息源中抽取相关内容，并以特定形式加以表示。在数
据库环境下，分装器是软件的组成部分，负责把数据和查询请求从一种模式转换成另外一
种模式。在因特网环境下，分装器的目的是把网页中储存的信息用结构化的形式储存起来
，以方便进一步的处理。
因特网分装器可接受针对特定信息源的查询请求，并从该信息源中找出相关的网页，然后
把需要的信息提取出来返回给用户。它由一系列的抽取规则以及应用这些规则的计算机程
序代码组成。通常，一个分装器只能处理一种特定的信息源。从几个不同信息源中抽取信
息，需要一系列的分装器程序库。分装器的运行速度应该很快，因为它们要在线处理用户
的提问。它还要能应付网络经常变化、运行欠稳定的特点。比如，网络连接失败、文档格
式混乱、格式变化等。
建造针对网页的分装器主要有两个好处：一是提高了从某一特定信息源获取相关信息的能
力，二是能把不同信息源的信息整合到数据库中，用通用查询语言即可查找信息。
第3.2.节从IE发展成WG
人们需要能从不同网页资源抽取并整合数据的工具。这种需求造就了分装器生成研究领域
的发展。分装器生成（WG）领域独立于传统的IE领域。典型的WG应用系统能从网上数据库
返回的查询结果网页中抽取数据。这些网页构成一个被WG业内人称之为“半结构化”的信
息源。为了能把这些网页的数据整合在一起，必须把相关的信息从这些网页中抽取出来。
因此，分装器实质上是针对某一特定信息源的IE应用系统。
传统的IE系统采用基于句法和语义条件相结合的抽取模式。如前所述，对于半结构化信息
源，基于语言知识的模式并不是很管用。典型的WG系统生成的是基于分隔符的抽取模式。
由于这类网页均是在一个统一的模板上即时生成的，因此，只要学习了几个样本网页后，
系统即能识别分隔符特征串，构成不同的模板区域。
从网页中抽取信息并不容易，要考虑许多问题，例如信息量膨胀的问题、系统灵活性的问
题等。
第3.3.节分装器生成
可用人工或半自动的办法生成分装器。手工生成分装器通常需要编写专用的代码，要花很
多时间理解文档的结构并将其转换成程序代码。虽然处理半结构化的网页要容易一些，但
并仍然还是比较烦琐而且容易出错。
有一些工具可帮助手工生成分装器。使用的方法之一是利用描述性语法对网页结构进行描
述，并且提供工具生成代码。不过，编写语法本身就是一项很艰巨和耗时的工作，而且需
要高水平的专家。
手工构造的IE系统不能适应处理对象所属领域的变化。每个领域都要有相应的分装器，维
护成本很高。对于网上信息源来说，这些缺点尤为明显，因为网页数量庞大，内容和结构
繁杂，而且新的信息源不断增加，旧的信息还会改变，因此，帮助生成自动抽取网页信息
的分装器的技术变得非常重要。
半自动化生成分装器的技术得益于上述分装器生成的支持工具。一种方法是使用向导让用
户告诉系统那些信息是需要抽取的。通过图形界面，用户即可以通过演示编写程序，标示
出需要抽取的区域。这意味着在分装器编码过程中不需要专业知识，而且比手工编码少产
生错误。但是，用这种方法也需要对新的站点进行重新的学习，因为这种系统不能自己学
习新的网站结构，也不能处理旧网站的结构变化。
全自动分装器的生成利用机器学习的技巧，开发学习算法，设计出从非常简单到相对复杂
的分装器。即使是全自动的方法也需要人工专家的少量参与。系统必须通过学习阶段，从
例子中归纳出规则。通常，这个过程是由人工指导的。
分装器归纳法是一种自动构造分装器的技术。主要思想是用归纳式学习方法生成抽取规则
。用户在一系列的网页中标记出需要抽取的数据，系统在这些例子的基础上归纳出规则。
这些规则的精确度如何取决于例子的质量如何。如果能代表那些需要处理的网页，那么，
这些例子就是高质量的。
第3.4.节分装器的归纳学习
用于IE的机器学习方法有很多，如符号化学习法，ILP（归纳逻辑设计法），分装器归纳法
，统计法和语法归纳法。在分装器归纳法中，分装器的生成被描述成一种归纳学习问题。

在最高层次，归纳学习法是从一些实例中完成未知目标概念的计算任务，是对现象的一种
概括。主要思路是，如果归纳出来的规则能解释观察到的实例，或者在新事例出现时能做
出准确的预测，那么，这种归纳是成功的。在分类、知识获取、知识发现等任务中被证明
是有用的。
归纳学习法是通过推论来完成的。推论是一种从部分到整体、从个别到一般、从个体到普
遍的推理过程。老师提供几个实例给学生，学生则从中归纳出普遍适用的规则。人类的学
习是基于实验性的观察过程中的，对于我们来说，提供好的观察事例要比提供明确的完整
的规则要容易。总的说来，归纳式学习法是一种建立在假设的基础上的研究方法。
有指导的归纳式学习法可以分为两类：零阶(zero-order)和一阶(first-order)学习法。两
者的区别在于其训练数据和所形成的理论的表达方式的不同。
零阶学习法所采用的事例是事先分好类的。每个事例都由对应于固定属性集合的特定值描
述。这类系统发展的理论以决策树（Decision Tree）或生成规则（Production Rules）的
形式出现，把事例的类和它的属性值联系起来。不幸的是，决策树的学习系统缺少表达能
力，因为它们建立在命题逻辑的基础上，不能学习到对象之间的关系（如家族成员的关系
）之类的概念。从数据库角度看，他们只能处理“属性-值”这种关系。
关系型一阶学习法可在带有结构信息的例子中进行归纳，例如一阶逻辑谓词和函数，无界
限结构体（Unbounded Structures，如列表，树）等。尤其是ILP方法，专门研究从例子中
归纳一阶逻辑形式的规则，逻辑编程的学习以及其他关系型知识。
ILP的研究介于机器学习和逻辑编程两种传统研究领域之间。许多其他的机器学习算法均限
定于处理有限的基于特征表达的例子和概念，而不能处理复杂的关系型和递归型知识。但
ILP借助一阶逻辑的表达能力，可以学习关系和递归概念。ILP还可以学习更丰富的表达式
和比决策树更复杂的概念，因此，已应用于解决从包含复杂结构和关系的文档中抽取信息
的学习中。
ILP算法采用两种不同的归纳方法：一是自下而上（概括），另一是自上而下（具体化）。
自下而上的方法是数据驱动的。先选择几个例子，在此基础上提出一个假设，使之能处理
这些例子。然后把这个假设推而广之，使之能处理其余例子。自上而下的方法则先从最普
遍的假设开始，通过引入反例，把假设规则不断具体化。总的说来，自上而下算法可以归
纳出一大类的逻辑程序，但需要相对多的样例。而自下而上算法有为数不多的例子就行了
，但只能归纳出一小类的程序。
目前已经有了几个实验ILP系统，包括有名的FOIL[47]和GOLEM[39]。FOIL由Quinlan于１９
８９年开发，采用自上而下的算法。在一个既有正又有反的事实的训练集中，先找出一个
只覆盖正例而不涉及反例的逻辑子句(clause)，然后把这个子句覆盖的事实从训练集中删
除。如此直到训练集中没有正例为止。GOLEM（Muggleton and Feng 1990）采用贪婪覆盖
算法（Greedy Covering Algorithm）。子句的生成是自下而上的，建立在更多具体子句的
“最少概括”（least-general）的概括生成上。概括一直进行直到所有的正例都被覆盖而
无一个反例被涉及。
第3.5.节小结
可以预计，网上结构化信息将不断增加。通过查询网上数据库所获得的网页也将不断增加
。这些网页是无法让搜索引擎获取的。因此，越来越需要可以把相关信息从这些网页中抽
取出来的工具。
分装器是专门从特定信息源中抽取需要的信息并返回结果的程序。对于从不同信息源中整
合信息资料是非常有用的。由于这种需求不断增加，分装器生成的研究领域从传统的IE领
域中脱颖而出。相比之下，生成分装器所采用的技术比较少依赖句子的全面语法分析和NL
P技术。
分装器可由程序员直接编写，或手工指定网站结构再由程序自动生成规则和代码。无论是
哪种情况，这个过程都是费时费力的，而且网页的结构经常变化，新网页层出不穷。这样
，必须建造新的分装器。为此，网上信息抽取的研究转向了半自动和自动生成分装器的工
作上。
分装器归纳法是用机器学习方法自动生成分装器的方法。在归纳法中，分装器的生成被看
成是归纳学习的问题，其任务是从一组例子中计算出一般规则，以解释观察到的事实。教
师提供例子，学生在例子的基础上作出归纳，推导出规则。
归纳逻辑编程方法处于传统的机器学习领域和逻辑编程之间，使用一阶逻辑规则。得益于
一阶逻辑丰富的表达能力，ILP方法可以学习关系型和嵌套概念。这是大多数基于“属性-
值”表达方式的机器学习算法所无法达到的。ILP方法为此被应用到学习如何从复杂结构和
关系的文档中抽取信息。

第四章分装器生成系统简介
第4.1.节处理结构化和半结构化网页的系统...
第4.1.1.节 ShopBot
第4.1.2.节 WIEN..
第4.1.3.节 SoftMealy.
第4.1.4.节 STALKER.
第4.2.节处理半结构化和非结构化网页的系统...
第4.2.1.节 RAPIER.
第4.2.2.节 SRV.
第4.2.3.节 WHISK.
第4.3.节小结...
早期从网站上抽取信息的方法基本上是基于手工操作的。程序员认真研究网站的结构后手
工编写代码，开发一个分装器程序，把网页的逻辑特征抽取出来并把他们存入到数据库。
TSIMMIS[13，25，28，29]系统和“斯坦福-IBM多信息源管理系统（1995）”是比较早的帮
助建造分装器程序的框架系统。TSIMMIS的目标是以一体化的方式获取不同信息源的信息并
且保证所获取信息一致性。其重点是开发支持这种包装过程的语言和工具。
对于数据量大，结构动态变化的网站而言，需要一种更为有效的分装器建造方法。一般说
来，数据库领域的人把注意力放在错综复杂的信息如何进行整合，分装器则用手工建造。
另一方面，AI领域的人则把重点放在机器学习的方法如何能用在网站结构的自动学习上。
本章将重点介绍分装器的自动或半自动的生成系统。
分装器及其自动生成的复杂度和难易度将取决于网站结构的层次。第4 .1.节介绍的系统主
要是针对结构化程度相对好的网站。这类系统多数是源自分装器生成领域的研究者。第4.
2.节介绍了能处理结构缺少规范化的网页。这类系统较多地受到传统的IE领域的影响。
第4.1.节处理结构化和半结构化网页的系统
本节介绍ShopBot, WIEN, SoftMealy 和STALKER系统。这类系统可以说是属于分装器生成
系统，专门用来从网站数据库系统生成的网页。采用分隔符为主的抽取规则，无需用到句
法和语义知识，局限于处理比较结构化的数据。
第4.1.1.节 ShopBot
开发者：R. B. Doorenbos, O. Etzioni, D. S. Weld (1996/1997)[17,18]。
ShopBot是比价代理系统，专门从网上卖家的网站上抽取信息，因此，比其他系统的局限性
要大。其算法主要针对以表单形式提供查询的页面，而且返回的搜索结果是以表格形式显
示的产品信息页面。从结果页面中抽取信息的技巧结合了启发式搜索、模式匹配和归纳式
学习。
ShopBot的运行分两个阶段：离线学习阶段和在线比价阶段。在学习阶段，系统分析每个购
物网站，获得其符号化描述，然后在比价阶段，利用获得的符号化描述，从网站上抽取信
息，找到用户指定的产品的最低价格。
在学习阶段，系统利用简单的启发式方法找到正确的检索表单，学习如何向该表单发送查
询请求。学习程序还必须判定查询结果页面的格式。一般包括头部、主体和尾部等三部分
。头尾两部分在所有的结果页面中都是一致的，而主体则包含了想要的产品信息。结果页
面的格式是通过三个步骤判定的：
第1步：获取“找不到产品”的失败页面。用不存在的词（如“xldccxx-no-product”）作
为关键字查询数据库，然后分析返回的页面。
第2步：找到头尾部分。用可能存在的产品名称去查询数据库，通过分析返回的页面找到头
尾部分。
第3步：判定包含产品信息的主体格式。首先用HTML标记和字串对可能的产品信息摘要进行
定义和表示。网页主体被切分成“逻辑行”，代表“垂直空格分隔”(vertical-space-de
limited)的文本。学习程序用逻辑行比较不同的摘要形式，找到最佳匹配。这样可以找到
产品的描述格式，但是不能归纳出信息栏的名称。最关键的价格信息是用手工编码的方法
获取的。
第4.1.2.节 WIEN
开发者：N. Kushmerick (1997) [33,34]。
“分装器归纳生成环境”（WIEN-Wrapper Induction Environment）是辅助分装器生成的
工具，为网页的自动分析而设计，受到ShopBot的影响。不过，Kushmerick 是第一个提出
分装器归纳生成这一术语的。其方法不只局限于某一领域，适用于所有包含表格信息的结
构化文本，也不只是用于HTML文本。
这种方法可以处理被他们称之为具有HLRT结构的网页：头分隔符、左右分隔符（在每个待
抽取的事实的左右）和尾分隔符。系统寻找标记信息点开始和结尾的统一的分隔符，以及
那些把表格信息与其他周围信息分开的分隔符。符合这一规则的页面几乎都是搜索数据库
所得的结果页面。
Kushmerick力图尽量自动化，避免用人工标记样例，因此开发了一系列自动标记样例的方
法。标记算法需要输入特定领域（domain-specific）的启发学习规则，目标是找到待抽取
属性的值。系统虽然需要输入学习规则，但却不管这些规则是如何获得的，可以手工编制
。即使是这样，比起标记整个网站来，其工作量要小。
系统采用归纳学习法，从查询结果样例中生成分装器。归纳算法是：把标记好的网页作为
输入，然后搜索由“HLRT分装器模型”定义的分装器空间（space of wrappers），反复尝
试所有可能的分隔符，直到找到与标记网页相一致的HLRT分装器。系统还采用基于机器学
习理论的模型来预测需要学习多少个例子，以保证所生成的分装器的出错几率控制在一特
定的范围内。
由于WIEN只考虑与待抽取数据紧相邻的分隔符，因此不能包装那些数据不全或信息项次序
不固定的网页。系统采用的是多栏（Multi-slot）规则，这就意味着能把相关的信息联在
一起，而单栏规则只能抽取孤立数据（例如，若一篇文档包含多个姓名和地址，使用单栏
规则不能辨认出哪个地址是属于某人的）。
第4.1.3.节 SoftMealy
开发者：C-H. Hsu (1998)[30,31]。
Kushmerick之后，有好几个别的系统研发出来，力图改进WIEN的分装器归纳算法。SoftMe
aly是一个通过学习分装器学习从半结构化网页中抽取信息的系统。其分装器被称为“非确
定有限自动机”（non-deterministic finite automata）。这种表达模式和学习算法据说
可以处理缺失值、一栏多值和变量改变（permutations）的情况。
系统从训练样例中归纳上下文规则。训练样例提供一个有顺序的事实列表以及事实间的分
隔符。归纳生成分装器时，把一系列带标记元组（labeled tuples）作为输入。这些元组
提供了分隔符的位置和事实次序变化的信息。这些信息被归纳为上下文规则作为结果输出
。
归纳生成的分装器是一个“非确定有限自动机”。其状态代表待抽取的事实，状态的转换
代表定义分隔符的上下文规则。状态的转换由上下文规则的匹配结果来确定。分装器通过
识别事实周围的分隔符来抽取事实。
SoftMealy的规则允许使用通配符，而且能处理信息缺失和次序变化。然而，为了能处理不
同次序的事实，系统需要学习其各种可能的次序。总的说来，SoftMealy的抽取模式比WIE
N规定的要更有表达能力。
第4.1.4.节 STALKER
开发者：I. Muslea, S. Minton, C. Knoblock. (1998) [42,43,44]。
STALKER采用指导学习的算法归纳抽取规则。训练例子由用户提供。用户需选择若干样例页
面并把有用的数据（即所谓“EC树”的叶子）标记出来。页面被标记好后，系统可生成一
符号序列（the sequence of tokens），用来表示页面的内容，还生成代表信息点开始的
符号索引。符号系列（字、HTML标记）和通配符被作为定位标志，用于找到页面上的数据
。分装器归纳算法产生抽取规则并表示为简单的标志语法（landmark-grammars）。此法可
处理文本，但不能处理链接信息。
网页文档用所谓的“内嵌目录”（ Embedded Catalog）表示。那是一个树形结构，其内部
节点或是同构的（homogeneous）信息点列表，或是异构信息点元组（tuples）。根节点是
整篇文档，任一节点的内容代表其父节点内容的一个接续（subsequence）。末节点即是用
户需要抽取的数据。
STALKER采用线性覆盖算法（sequential covering algorithm）。首先生成线性标志自动
机（landmark automata）。这些自动机能产生尽可能多的训练正例（positive training
examples）。该自动机实际上是一个“非确定有限自动机”。其状态的变化只有在字符串
输入为了目前状态与下一状态间的转换而被接受时才发生。然后系统试图生成新的自动机
以覆盖剩余的例子，一直到所有的训练例子都被覆盖为止。这时，STALKER返回一个被称之
为SLG（简单标记语法）的解决方法。其每个分支都对应一个学习获得的标记自动机。
STALKER可以包装有任意层结构的信息源。每个节点的抽取与其子节点独立，因此，文档中
信息点的次序是没有关系的。对于信息点缺失或次序多变的文档一样能处理。这就比只能
处理固定次序的WIEN等系统更灵活。与同样能处理信息点缺失或次序多变文档的SoftMeal
y不同，STALKER无需把各种可能的次序变化都学习到。
STALKER采用的规则与WIEN的不同，是单栏的。不过由于STALKER利用EC树把从多栏模板中
取出的单个信息点集在一起，因此没有什么缺陷。
第4.2.节处理半结构化和非结构化网页的系统
本节介绍RAPIER，SRV和WHISK系统。这些系统比上节介绍的要复杂一些，能处理的文本类
型要多一些。虽然如此，它们并不依赖语义和句法信息，只是在可能的情况下利用这些知
识，而且能发挥混合抽取模式的作用。
这些系统更接近传统的信息抽取方法，可以说处于IE和WG中间，因为它们的重点是开发用
机器学习方法来解决IE问题。所用的方法以归纳逻辑编程（inductive logic programmin
g）或关系学习（relational learning）为基础，而且与归纳算法有关，比如FOIL算法（
SRV， WHISK采用）和GOLEM算法（RAPIER采用）。
第4.2.1.节 RAPIER
开发者：E. Califf (1997) [11,12]。
RAPIER（Robust Automated Production of Information Extraction Rules，健壮的信息
抽取规则自动生成系统）以半结构化文本为处理对象，学习抽取规则，为整个IE过程服务
。系统需要输入指明待抽取信息的“文档-充实模板”（filled template）组对作为训练
内容，从中获得模式匹配规则，抽取“填充子”（filler）填充模板中的空槽。
学习算法结合了多个归纳逻辑编程系统所采用的技巧，能学习无界限模式。这些模式包含
了对词的限制条件和填充子周围的词性。学习算法由一个从具体到一般（即自下而上）的
搜索，从训练中与目标槽匹配的最具体的规则开始。随机从规则库中抽取一对对规则，然
后横向搜索（beam search），以图找到这两条规则的最佳概括，采用最少概括的概括方法
（a least general generalization），增加限制条件，不断重复后直到不再有进展为止
。
RAPIER的抽取规则是建立在分隔符和内容描述的基础上的，即使用了能利用句法和语义信
息的模式所表达的规则。系统使用了一个词性标注程序获取句法信息，使用了一个语义类
别词典获取语义信息。标注程序以句子为输入单位，把词标注为名词、动词、形容词等，
速度和健壮性都比完全句法分析器快和优，但给出的信息有限。
信息抽取规则用模板名和格栏（slot）名索引，由三部分组成：前填充子（pre-filler）
：一个应匹配目标文本之前的文本的模式（pattern）；填充子：一个应匹配目标文本的模
式；后填充子：一个应匹配紧接目标文本之后的文本的模式。
一个模式是一串模式信息点（pattern items），要求一个一个词匹配，或者是模式列表（
pattern lists），可匹配N个词。文本必须满足模式规定的条件才算匹配成功。可能的条
件包括文本必须是（I）一组词，其中一个必须与文档文本匹配；（II）一组句法标记，其
中一个标记必须与文档文本的标记匹配；或者（iii）一组语义类别，文档文本必须属于其
中一类。
这种以目标词组为中心设定抽取区域的方法意味着系统只能进行单格抽取。但是，若把文
本分成超过三个区域，系统或许能进行多格抽取。
第4.2.2.节 SRV
开发者：D. Freitag (1998) [21,22,23]。
SRV(Sequence Rules with Validation，带确认功能的次序规则)是一种自上而下、关系型
的信息抽取算法。其输入是一系列的网页，上面标记了待抽取区域的实例（instance），
以及一系列基于字串(token)的特征。输出是一系列的抽取规则。
SRV把信息抽取问题看成是一种分类问题。文本中所有可能的短语（取最长者）都是实例。
文档中的候选实例被提交到分类器。系统会给每个短语赋一个测量值，用于反映该短语作
为目标格填充子的信度。最初版本的SRV采用的分类器是一个关系型规则的学习器，使用的
归纳方法类似于FOIL的自上而下的办法。在文献[23] 中，他们采用了另外两个分类器，机
械背诵学习器（rote learner）和简单贝叶斯分类器( naive Bayes classifier)，并
与原来的分类器作了比较。
SRV利用的特征分两种：简单特征和关系特征。字词的长度、类型、拼写、词性等属于简单
特征。关系特征反映字词的相邻度。正是这一特征使SRV具有关系型的特点。
SRV的学习素材包括训练集文档中与最短实例区（field instance）一样长（以词的个数计
算）的字串，但不能长过最长的实例。抽取过程即是检验长度适合的字串是否与规则匹配
的过程。
SRV与FOIL一样，从学习所有正反例子开始。所谓反例是没有被标记为实例区的字串。归纳
过程也是用正排除法，即当一条规则覆盖的例子全部是正例，或该规则已无法继续具体化
时，所有与之匹配的正例将被从训练集中删除。然后重复以上过程。
SRV的规则具有较强的表达能力，且无需先进行句法分析。SRV与STALKER和RAPIER有类似之
处，能把与其他相关信息点独立的特定信息点抽取出来。关系型学习器也与RAPIER的一样
用于抽取单格信息点。这与WIEN等抽取多格信息的系统不一样。
第4.2.3.节 WHISK
开发者：S. Soderland (1998) [52]。
WHISK系统能处理的文本对象很全面，从结构化程度很强的文本到网页等半结构化文本，还
能处理新闻等纯文本。处理结构化或半结构化文本时，WHISK无须事先经过句法分析，但处
理自由文本时，最好能先对文本作句法和语义标注。
系统采用指导学习算法，而且需要输入一系列手工标注的训练实例。标注和学习过程是交
织在一起的。每次循环，系统将提交一批实例让用户标注，系统则从标注的实例中归纳出
规则。
开始时，输入的文本是未标注的，训练集也是一个空集。系统会从文本中挑选一批实例（
即小于整个文档的文字单位），让用户把需抽取的部分加上标记。怎样的字串会被选为实
例呢？这取决于文档的类型。对于结构化和半结构化文档来说，系统根据HTML标记或其他
字符串表达式把文本切成多个实例。对自由文本，实例的切分将由一个句子分析器完成。
在这种情况下，一个实例可能是一个句子或者句子的一部分。
训练实例上的标记将指导抽取规则的生成，并且检验规则的效果。如果规则被成功应用到
一个实例上，那么该实例则被认为被规则“覆盖”了。如果抽取出来的词组与实例上的标
记相吻合，则认为该词组的抽取是正确的。
WHISK属于机器学习算法家族中的覆盖学习法，与自上而下的学习分类归纳法相关。首先，
找到一个最宽泛（general）的能覆盖规则种子的规则，然后一次加一个条件，直到错误率
为零，或者满足一个事先设定的标准为止。用来衡量新条件增加的标准是规则的Laplacia
n期望错误值。计算公式如下：(e+1)/(n+1) 。n是训练集中抽取出来的字串数，e是这些字串中应用规
则所产生的错误数。学习过程一直进行，直到能覆盖所有该被覆盖的抽取字串都被覆盖为
止。最后把那些过适（overfitting）规则删除掉。
WHISK与SRV、RAPIER等一样可以处理结构化和非结构化文本，但没有“单格”抽取法的缺
陷。象WIEN一样，WHISK通过多格“格框架”（Case Frame），把有关的信息联系在一起。
WHISK与SRV和RAPIER也不同，操作的对象不是整个文档，而是象句子或类似长度的文本。

WHISK象SoftMealy一样可以处理信息点顺序变化的情况，但需要输入各种例子，以便学习
所有可能的排序。由于其特征集的表达能力不强，因此不能表达否定特征（negated feat
ures），比SRV的性能要差一些。
第4.3.节小结
本章比较了几个分装器的自动学习系统。表 4. 1 总结了这些系统的特点。

表 4. 1. 七个系统的功能特征比较

系统            结构化    半结构化    自由式    多槽    缺失信息    次序变化
ShopBot        X
WIEN         X                         X
SoftMealy    X           X                                 X             X*
STALKER        X           X                        *           X             X
RAPIER        X           X                                     X             X
SRV               X           X                             X             X
WHISK          X           X             X         X           X             X*

第五章商用系统简介
第5.1.节应用范围...
第5.2.节商用系统...
第5.2.1.节 Junglee.
第5.2.2.节 Jango.
第5.2.3.节 MySimon.
第5.3.节小结...
因特网上的海量信息是世界各地的用户都能获得的，因此，能帮助完成信息自动收集和分
析的代理程序是非常有用的。具有如此技术的应用程序有很多。
本章第1节介绍了信息抽取应用系统已被试用的几个领域。第2节介绍了首批商用系统。
第5.1.节应用范围
网上有很多有用的信息，例如电话黄页、产品目录、股票行情、天气预报等。这些信息可
能不是由一个网上数据库提供，而是分散在多个数据库中。这些数据库可供用户输入关键
字等查询条件进行搜索，然后自动生成网页，把结果显示出来。
一般说来，把来源分散的数据集中在一起是非常有用的。但是，以浏览器为界面的浏览方
式不直接支持把不同网站的数据集成起来，因此，信息抽取工具便有了用武之地。
前一章节介绍的系统对几种不同的网页信息进行了处理。下面重温一下其中几类：
* 产品描述
ShopBot专为此设计[17，18]，用于比价购物。所抽取的产品信息按价格排序。
* 餐厅指引
STALKER被用来抽取不同网站上的餐厅信息，如餐厅名称、菜肴种类、价格、烹调方法、地
址、电话和评价。[42，43]
* 讲座通知
SRV试用在讲座信息的抽取任务上，把讲者、地点、时间等信息抽取出来。
* 招聘广告
RAPIER和WHISK被用于招聘广告的信息抽取。需抽取的信息点包括职位名称、工资、地点等
。
* 人事更迭公告
这项任务需要处理自由式文本，属于传统的信息抽取任务。WHISK曾被实验从一堆华尔街金
融杂志的文章中分析出公司管理层的人事更迭事件[52]。目标是抽取出公司名称、职位、
新任人员的姓名、卸任人的姓名。
以上只是这种技术可发挥作用的许多应用领域中的很小的一部分。其他还有很多例子，例
如，租赁广告、地理信息、假日旅游信息、天气预报、参考书目信息等。
总的说来，具有信息抽取和收集功能的代理程序可以用于处理任何列表式的、分散在一堆
网页上的数据。
第5.2.节商用系统
在上节提到的应用中，比价购物是主要的商用领域之一。其原因之一是近来对电子商务的
普遍关注以及因特网上与此相关的应用在不断增长。
另一原因是这类网上商店网站专门为用户快速找到商品而设计，具有统一的外观和风格。
这就为比价系统自动处理商品信息带来了便利。
由于不同商家经常经营同一商品，因此，从不同商家网站中收集并比较同一产品的价格的
服务受到网上购物用户的欢迎。通常，网上商店提供的商品信息是存在数据库系统中的。
用户需要这些信息时，系统将根据用户的请求从数据库中提取数据，当即显示给用户。这
部分的信息成为了“暗藏网”（hidden web），因为搜索引擎查不到这些数据。比价系统
成为除手工收集以外的这类信息获取的唯一途径。
下面将介绍三种商用比价系统：Junglee，Jango和MySimon。它们是市面上最引人注目的系
统，实现方法各有千秋。Jango和mySimon用的是在线模式，即当用户发出请求时马上到各
网站查找信息。Junglee则先把数据收集下来，在必要的时候进行更新。
每个系统都是在用户的请求下返回产品清单，用户可对清单上的价格作出比较并决定从哪
个商家中购买。下面对以上系统作一简要介绍。
第5.2.1.节 Junglee
1996年斯坦福大学的研究生们创建了Junglee。1998年Amazon以大约1亿8千万美圆的价格收
购了该系统。Junglee使用的是一种被成为虚拟数据库（Virtual Database, VDB）的技术
，并利用HTML和XML的混合形式表示从多个网站中获取的信息 [46，48] 。
VDB把分散的数据收集下来，规范化并整合起来，为程序员提供一个单一数据库的界面。分
装器负责与数据源对接，把数据转换成数据库。
VDB有两个主要组成部分：数据整合系统和数据发布系统。前者完成数据的抽取，后者定期
完成数据库更新。
数据整合系统有三个组成部分：一组分装器、一个影射器和一个抽取器。分装器提供对不
同网站的统一接口，用描述性编程语言建造，特别针对网站结构和链接网站间的特点而设
计。
影射器用预定义的影射规则，把抽取出来的数据转换成统一的格式。抽取器用字典和语言
学规则从非结构化的文本中归纳出其组织结构。两者都采用了特殊设计的语言来编写规则
。针对每个网站都有一个单独的分装器，而抽取器则针对所有类似网站。
第5.2.2.节 Jango
Jango的前身是ShopBot，是NETbot的产品。发源于华盛顿大学的研究者Oren Etzioni 和
Dan Weld的研究成果[17，18]。1997年10月Excite用3500万美圆收购了NetBot，把Jango整
合进其购物频道。
Jango由四部分组成[8]：（I）一个自然语言前端，能将用户请求转换成产品描述的逻辑表
示；（ii）一个查询路由器（query router），能判定产品类别，找出相关的一系列网站
；（iii）一个集成引擎，能平行向选定的网站提交查询；（iv）一个过滤器，能用类似于
ShopBot 的方法，把信息抽取出来。
在学习阶段，Jango根据网上商店首页的URL和产品领域知识，学习如何在网站购物，能学
得每个商店的产品描述的格式，获取价格等产品属性。在购物阶段，这些学得的描述将被
用于抽取用户指定的产品信息。信息抽取是在线平行进行。结果以价格排序显示给用户。

第5.2.3.节 MySimon
MySimon是Michael Yang和Yeogirl Yun在１９９８年４月一起创建的。一种被称为虚拟学
习代理（Virtual Learning Agent－VLA）的技术由Yeogirl Yun开发并用于网站的学习中
。
VLA生成若干智能代理，能模仿人的采购行为，经过训练可从任何一个购物网站上抽取信息
。
代理的训练过程是通过一个图形界面进行的。训练者无须是编程人员。在浏览网上商店的
同时，系统会复制其获得的信息。根据训练者的操作行为和复制的信息，系统会生成能使
代理运行的编码。
第5.3.节小结
信息抽取技术可以发挥作用的地方有许多。不过，最成功的要数比价购物。最近两年来，
比价购物系统已经投入商用。其中比较出色的是Jango, MySimon和Junglee。
Jango在线进行抽取，用机器学习方法学得网站结构。MySimon也以在线方式抽取信息，但
使用的学习方法不同。非程序员通过实际上网购物，教会智能代理学习如何从网站上抽取
相关的信息。
Junglee把数据抽取出来并储存在数据库中，然后用数据库作为比价系统的信息源。一种专
用的语言被用来描述网站结构并生成抽取过程所需的代码。

第六章总结和讨论

第6.1.节总结...
第6.2.节讨论...
第6.1.节总结
信息抽取是近十年来新发展起来的领域。MUC等国际研讨会给予高度关注，并提出了评价这
类系统的方法，定义了评价指标体系。
信息抽取技术的研究对象包括结构化、半结构化和自由式文档。对于自由式文档，多数采
用了自然语言处理的方法，而其他两类文档的处理则多数是基于分隔符的。
网页是信息抽取技术研究的重点之一。通常用分装器从一特定网站上抽取信息。用一系列
能处理不同网站的分装器就能将数据统一表示，并获得它们之间的关系。
分装器的建造通常是费事费力的，而且需要专门知识。加上网页动态变化，维护分装器的
成本将很高。因此，如何自动构建分装器便成为主要的问题。通常采用的方法包括基于归
纳学习的机器学习方法。
有若干研究系统被开发出来。这些系统使用机器学习算法针对网上信息源生成抽取规则。
ShopBot，WIEN ，SoftMealy和STALKER生成的分装器以分隔符为基础，能处理结构化程度
高的网站。RAPIER，WHISK和SRV能处理结构化程度稍差的信息源。所采用的抽取方法与传
统的IE方法一脉相承，而学习算法多用关系学习法。
网站信息抽取和分装器生成技术可在一系列的应用领域内发挥作用。目前只有比价购物方
面的商业应用比较成功，而最出色的系统包括Jango，Junglee和MySimon。
第6.2.节讨论
目前的搜索引擎并不能收集到网上数据库内的信息。根据用户的查询请求，搜索引擎能找
到相关的网页，但不能把上面的信息抽取出来。“暗藏网”不断增加，因此有必要开发一
些工具把相关信息从网页上抽取并收集起来。
由于网上信息整合越来越重要，虽然网站信息抽取的研究比较新，但将不断发展。机器学
习方法的使用仍将成为主流方法，因为处理动态的海量信息需要自动化程度高的技术。在
文献[52]中提出，结合不同类型的方法，以开发出适应性强的系统，这应是一个有前途的
方向。在文献[36]中，一种混合语言知识和句法特征的方法也被提出来。
本文介绍的系统多数是针对HTML文档的。以后几年XML的使用将被普及。HTML描述的是文档
的表现方式，是文档的格式语言。XML则可以告诉你文档的意义，即定义内容而不只是形式
。这虽然使分装器的生成工作变得简单，但不能排除其存在的必要性。
将来的挑战是建造灵活和可升级的分装器自动归纳系统，以适应不断增长的动态网络的需
要。

参考文献

[1] S. Abiteboul.
Querying Semistructured Data.
Proceedings of the International Conference on Database Theory (ICDT), Greece,
January 1997.
[2] B. Adelberg.
NoDoSE - A tool for Semi-Automatically Extracting Semistructured Data from Text
Documents.
Proceedings ACM SIGMOD International Conference on Management of Data, Seat-
tle, June 1998.
[3] D. E. Appelt, D. J. Israel.
Introduction to Information Extraction Technology.
Tutorial for IJCAI-99, Stockholm, August 1999.
[4] N. Ashish, C. A. Knoblock.
Semi-automatic Wrapper Generation for Internet Information Sources.
Second IFCIS Conference on Cooperative Information Systems (CoopIS), South Car-
olina, June 1997.
[5] N. Ashish, C. A. Knoblock.
Wrapper Generation for semistructured Internet Sources.
SIGMOD Record, Vol. 26, No. 4, pp. 8--15, December 1997.
[6] P. Atzeni, G. Mecca.
Cut & Paste.
Proceedings of the 16'th ACM SIGACT-SIGMOD-SIGART Symposium on Principles
of Database Systems (PODS'97), Tucson, Arizona, May 1997.
[7] M. Bauer, D. Dengler.
TrIAs - An Architecture for Trainable Information Assistants.
Workshop on AI and Information Integration, in conjunction with the 15'th National
Conference on Artificial Intelligence (AAAI-98), Madison, Wisconsin, July 1998.
[8] P. Berka.
Intelligent Systems on the Internet.
http://lisp.vse.cz/ berka/ai-inet.htm, Laboratory of Intelligent Systems, University
of Economics, Prague.
[9] L. Bright, J. R. Gruser, L. Raschid, M. E. Vidal.
A Wrapper Generation Toolkit to Specify and Construct Wrappers for Web Accessible
Data Sources (WebSources).
Computer Systems Special Issue on Semantics on the WWW, Vol. 14 No. 2, March
1999.
[10] S. Brin.
Extracting Patterns and Relations from the World Wide Web.
International Workshop on the Web and Databases (WebDB'98), Spain, March 1998.
[11] M. E. Califf, R. J. Mooney.
Relational Learning of Pattern-Match Rules for Information Extraction.
Proceedings of the ACL Workshop on Natural Language Learning, Spain, July 1997.
[12] M. E. Califf.
Relational Learning Techniques for Natural Language Information Extraction.
Ph.D. thesis, Department of Computer Sciences, University of Texas, Austin, August
1998. Technical Report AI98-276.
[13] S. Chawathe, H. Garcia-Molina, J. Hammer, K. Ireland, Y. Papakonstantinou, J.
Ullman, J. Widom.
The TSIMMIS Project: Integration of Heterogeneous Information Sources.
In Proceedings of IPSJ Conference, pp. 7--18, Tokyo, Japan, October 1994.
[14] B. Chidlovskii, U. M. Borghoff, P-Y. Chevalier.
Towards Sophisticated Wrapping of Web-based Information Repositories.
Proceedings of the 5'th International RIAO Conference, Montreal, Quebec, June 1997.
[15] M. Craven, D. DiPasquo, D. Freitag, A. McCallum, T. Mitchell, K. Nigam, S. Slattery.
Learning to Extract Symbolic Knowledge from the World Wide Web.
Proceedings of the 15'th National Conference on Artificial Intelligence (AAAI-98),
Madison, Wisconsin, July 1998.
[16] M. Craven, S. Slattery, K. Nigam.
First-Order Learning for Web Mining.
Proceedings of the 10'th European Conference on Machine Learning, Germany, April
1998.
[17] R. B. Doorenbos, O. Etzioni, D. S. Weld.
A Scalable Comparison-Shopping Agent for the World Wide Web.
Technical report UW-CSE-96-01-03, University of Washington, 1996.
[18] R. B. Doorenbos, O. Etzioni, D. S. Weld.
A Scalable Comparison-Shopping Agent for the World-Wide-Web.
Proceedings of the first International Conference on Autonomous Agents, California,
February 1997.
[19] O. Etzioni
Moving up the Information Food Chain: Deploying Softbots on the World Wide Web.
AI Magazine, 18(2):11-18, 1997.
[20] D. Florescu, A. Levy, A. Mendelzon.
Database Techniques for the World Wide Web: A Survey.
ACM SIGMOD Record, Vol. 27, No. 3, September 1998.
[21] D. Freitag.
Information Extraction from HTML: Application of a General Machine Learning Ap-
proach.
Proceedings of the 15'th National Conference on Artificial Intelligence (AAAI-98),
Madison, Wisconsin, July 1998.
[22] D. Freitag.
Machine Learning for Information Extraction in Informal Domains.
Ph.D. dissertation, Carnegie Mellon University, November 1998.
[23] D. Freitag.
Multistrategy Learning for Information Extraction.
Proceedings of the 15'th International Conference on Machine Learning (ICML-98),
Madison, Wisconsin, July 1998.
[24] R. Gaizauskas, Y. Wilks.
Information Extraction: Beyond Document Retrieval.
Computational Linguistics and Chinese Language Processing, vol. 3, no. 2, pp. 17--60,
August 1998,
[25] H. Garcia-Molina, J. Hammer, K. Ireland, Y. Papakonstantinou, J. Ullman, J.
Widom.
Integrating and Accessing Heterogeneous Information Sources in TSIMMIS.
In Proceedings of the AAAI Symposium on Information Gathering, pp. 61--64, Stan-
ford, California, March 1995.
[26] S. Grumbach and G. Mecca.
In Search of the Lost Schema.
Proceedings of the International Conference on Database Theory (ICDT'99),
Jerusalem, January 1999.
[27] J-R. Gruser, L. Raschid, M. E. Vidal, L. Bright.
Wrapper Generation for Web Accessible Data Source.
Proceedings of the 3'rd IFCIS International Conference on Cooperative Information
Systems (CoopIS-98), New York, August 1998.
[28] J. Hammer, H. Garcia-Molina, J. Cho, R. Aranha, A. Crespo.
Extracting Semistructured Information from Web.
Proceedings of the Workshop on Management of Semistructured Data, Tucson, Ari-
zona, May 1997.
[29] J. Hammer, H. Garcia-Molina, S. Nestorov, R. Yerneni, M. Breunig, V. Vassalos.
Template-Based Wrappers in the TSIMMIS System.
Proceedings of the 26'th SIGMOD International Conference on Management of Data,
Tucson, Arizona, May 1997.
[30] C-H. Hsu.
Initial Results on Wrapping Semistructured Web Pages with Finite-State Transducers
and Contextual Rules.
Workshop on AI and Information Integration, in conjunction with the 15'th National
Conference on Artificial Intelligence (AAAI-98), Madison, Wisconsin, July 1998.
[31] C-H. Hsu and M-T Dung.
Generating Finite-Sate Transducers for semistructured Data Extraction From the
Web.
Information systems, Vol 23. No. 8, pp. 521--538, 1998.
[32] C. A. Knoblock, S. Minton, J. L. Ambite, N. Ashish, P. J. Modi, I. Muslea, A. G.
Philpot, S. Tejada.
Modeling Web Sources for Information Integration.
Proceedings of the 15'th National Conference on Artificial Intelligence (AAAI-98),
Madison, Wisconsin, July 1998.
[33] N. Kushmerick, D. S. Weld, R. Doorenbos.
Wrapper Induction for Information Extraction.
15'th International Joint Conference on Artificial Intelligence (IJCAI-97), Nagoya,
August 1997.
[34] N. Kushmerick.
Wrapper Induction for Information Extraction.
Ph.D. Dissertation, University of Washington. Technical Report UW-CSE-97-11-04,
1997.
[35] N. Kushmerick.
Wrapper induction: Efficiency and expressiveness.
Workshop on AI and Information Integration, in conjunction with the 15'th National
Conference on Artificial Intelligence (AAAI-98), Madison, Wisconsin, July 1998.
[36] Kushmerick, N.
Gleaning the Web.
IEEE Intelligent Systems, 14(2), March/April 1999.
[37] S. Lawrence, C.l. Giles.
Searching the World Wide Web.
Science magazine, v. 280, pp. 98--100, April 1998.
[38] A. Y. Levy, A. Rajaraman, J. J. Ordille.
Querying Hetereogeneous Information Sources Using Source Descriptions.
Proceedings 22'nd VLDB Conference, Bombay, September 1996.
[39] S. Muggleton, C. Feng.
Efficient Induction of Logic Programs.
Proceedings of the First Conference on Algorithmic Learning Theory, New York,
1990.
[40] I. Muslea.
Extraction Patterns: From Information Extraction to Wrapper Induction.
Information Sciences Institute, University of Southern California, 1998.
[41] I. Muslea.
Extraction Patterns for Information Extraction Tasks: A Survey.
Workshop on Machine Learning for Information Extraction, Orlando, July 1999.
[42] I. Muslea, S. Minton, C. Knoblock.
STALKER: Learning Extraction Rules for Semistructured, Web-based Information
Sources.
Workshop on AI and Information Integration, in conjunction with the 15'th National
Conference on Artificial Intelligence (AAAI-98), Madison, Wisconsin, July 1998.
[43] I. Muslea, S. Minton, C. Knoblock.
Wrapper Induction for Semistructured Web-based Information Sources.
Proceedings of the Conference on Automatic Learning and Discovery CONALD-98,
Pittsburgh, June 1998.
[44] I. Muslea, S. Minton, C. Knoblock.
A Hierarchical Approach to Wrapper Induction.
Third International Conference on Autonomous Agents, (Agents'99), Seattle, May
1999.
[45] S. Nestorov, S. Aboteboul, R. Motwani.
Inferring Structure in Semistructured Data.
Proceedings of the 13'th International Conference on Data Engineering (ICDE'97),
Birmingham, England, April 1997.
[46] STS Prasad, A. Rajaraman.
Virtual Database Technology, XML, and the Evolution of the Web.
Data Engineering, Vol. 21, No. 2, June 1998.
[47] J.R. Quinlan, R. M. Cameron-Jones.
FOIL: A Midterm Report.
European Conference on Machine Learning, Vienna, Austria, 1993.
[48] A. Rajaraman.
Transforming the Internet into a Database.
Workshop on Reuse of Web information, in conjunction with WWW7, Brisbane, April
1998.
[49] A. Sahuguet, F. Azavant.
WysiWyg Web Wrapper Factory (W4f).
http://cheops.cis.upenn.edu/ sahuguet/WAPI/wapi.ps.gz, University of Pennsylva-
nia, August 1998.
[50] D. Smith, M. Lopez.
Information Extraction for Semistructured Documents.
Proceedings of the Workshop on Management of Semistructured Data, in conjunction
with PODS/SIGMOD, Tucson, Arizona, May 1997.
[51] S. Soderland.
Learning to Extract Text-based Information from the World Wide Web.
Proceedings of the 3'rd International Conference on Knowledge Discovery and Data
Mining (KDD), California, August 1997.
[52] S. Soderland.
Learning Information Extraction Rules for Semistructured and Free Text.
Machine Learning, 1999.
[53] K. Zechner.
A Literature Survey on Information Extraction and Text Summarization.
Term paper, Carnegie Mellon University, 1997.
[54] About mySimon.
http://www.mysimon.com/about mysimon/company/backgrounder.anml

你可能感兴趣的:(网上信息抽取技术纵览)

UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
腾讯云技术深度探索：构建高效云原生微服务架构我的运维人生云原生架构腾讯云运维开发技术共享
腾讯云技术深度探索：构建高效云原生微服务架构在当今快速发展的技术环境中，云原生技术已成为企业数字化转型的关键驱动力。腾讯云作为行业领先的云服务提供商，不断推出创新的产品和技术，助力企业构建高效、可扩展的云原生微服务架构。本文将深入探讨腾讯云在微服务领域的最新进展，并通过一个实际案例展示如何在腾讯云平台上构建云原生应用。腾讯云微服务架构概览腾讯云微服务架构基于云原生理念，旨在帮助企业快速实现应用的容
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
CX8836：小体积大功率升降压方案推荐（附Demo设计指南）诚芯微科技社交电子
CX8836是一颗同步四开关单向升降压控制器，在4.5V-40V宽输入电压范围内稳定工作，持续负载电流10A，能够在输入高于或低于输出电压时稳定调节输出电压，可适用于USBPD快充、车载充电器、HUB、汽车启停系统、工业PC电源等多种升降压应用场合，为大功率TYPE-CPD车载充电器提供最优解决方案。提供CX8836Demo测试、CX8836样品申请及CX8836方案开发技术支持。CX8836同升
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
【华为OD技术面试真题 - 技术面】-测试八股文真题题库（1）算法大师华为od 面试 python 算法前端
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.黑盒测试和白盒测试的区别2.假设我们公司现在开发一个类似于微信的软件1.0版本，现在要你测试这个功能：打开聊天窗口，输入文本，限制字数在200字以内。问你怎么提取测试点。功能测试性能测试安全性测试可用性测试跨平台兼容性测试网络环境测试3.接口测试的工具你了解哪些
2019-11-04复盘——飞来山上千寻塔，闻说鸡鸣见日升。那一叶秋
1、大盘篇先上老图，看习惯了，也就知道走势了图1上证指数日线图还是那张老图，自己可以在自己的相关软件上画出来，快变盘了。2、个股篇未加仓、未减仓。分析量能的时候，突然发现这么一个东西：“放量突破年线，缩量回调。”合众科技日线图其实，最近的N只个股，在技术分析上，都到了变盘的临界时候。结合这么久的走势，特别是ZJH不断放开IPO的申请，本质上说是融资难度变大，或者说是为企业的融资开创便利。但现在市场
【华为OD技术面试真题精选 - 非技术题】 -HR面，综合面_华为od hr面一个射手座的程序媛程序员华为od 面试职场和发展
最后的话最近很多小伙伴找我要Linux学习资料，于是我翻箱倒柜，整理了一些优质资源，涵盖视频、电子书、PPT等共享给大家！资料预览给大家整理的视频资料：给大家整理的电子书资料：如果本文对你有帮助，欢迎点赞、收藏、转发给朋友，让我有持续创作的动力！网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以点击这里获
18、架构-可观测性之聚合度量大树~~ 架构 java python 后端架构
聚合度量聚合度量是指对系统运行时产生的各种指标数据进行收集、聚合和分析，以了解系统的健康状况和性能表现。聚合度量是可观测性的关键组成部分，通过对度量数据的分析，可以及时发现系统中的异常和瓶颈。以下是对聚合度量各个方面的详细解析，并结合具体的数据案例和技术支撑。指标收集收集系统运行时产生的各种指标数据是聚合度量的基础。常见的指标包括CPU使用率、内存使用率、请求处理时间、请求数、错误率等。以下是指标
教育用心灵温暖心灵
@陈春丽长期学习班冯倩。今天一早就听到说高职合并，取消中专教育的教育信息。感觉是虽然知道，再听还是吓一跳。国家重视职业教育为何还要取消中专技术学校的教育？再听高中就要进行技术教育了，一部分人学习好继续努力学习考大学，一部分人在高中就可以进行职业教育接受职业教育了还要中专技术教育学校干什么呢！a有些职业教育学校转型升级快，不是孩子上完给找工作，而是学校帮孩子创业，我觉得是不错的方向！新闻新你得实时更
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
EIO国际确定性的交易（3/10）资管，资金委托安全吗？古城鹏哥
大家可能都知道资金托管，账户是自己开，钱在自己的账户上，密码是由自己掌控，别人提不走你账户的资金，每天可以看下到自己的账户，也可以看到交易流水。现金只能提到自己的银行卡中。账户由技术人员或操作人员，或者是机构团队帮你操作账户，产生盈利和收入，以获得的利润来分配盈利，技术强硬和做的时间久了过硬技术团队，会保证你的资金本金，不会让你的本金亏损的按照一定比例分配收入。所以在这个过程当中一定要看清楚技术的
OPENAIGC开发者大赛企业组AI黑马奖 | AIGC数智传媒解决方案 RPA中国人工智能 AIGC 传媒
在第二届拯救者杯OPENAIGC开发者大赛中，涌现出一批技术突出、创意卓越的作品。为了让这些优秀项目被更多人看到，我们特意开设了优秀作品报道专栏，旨在展示其独特之处和开发者的精彩故事。无论您是技术专家还是爱好者，希望能带给您不一样的知识和启发。让我们一起探索AIGC的无限可能，见证科技与创意的完美融合！创未来AI应用赛-企业组AI黑马奖作品名称：AIGC数智传媒解决方案参赛团队：深圳市三象智能技术
【六】阿伟开始搭建Kafka学习环境能源恒观中间件学习 kafka spring
阿伟开始搭建Kafka学习环境概述上一篇文章阿伟学习了Kafka的核心概念，并且把市面上流行的消息中间件特性进行了梳理和对比，方便大家在学习过程中进行对比学习，最后梳理了一些Kafka使用中经常遇到的Kafka难题以及解决思路，经过上一篇的学习我相信大家对Kafka有了初步的认识，本篇将继续学习Kafka。一、安装和配置学习一项技术首先要搭建一套服务，而Kafka的运行主要需要部署jdk、zook
提高教师信息素养，提高道德与法治课教学效益长白159宋彦红
提高教师信息素养，提高道德与法治课教学效益随着经济和社会的发展，信息技术已经运用到课堂教学中，为课堂教学展示了一个崭新的天地。的确，信息技术形象、生动、直观性强，能够将课本中的一些抽想的概念直接展示在学生面前，从而调动学生的眼、耳、脑，让他们兴奋起来，变被动学习为主动学习，充分发挥教师的教育引导作用，创造一个可以使学生积极参与的场景。在制作、使用信息技术的实践过程中，本文拟就教师提升信息素养的必要
ExpRe[25] bash外的其它shell：zsh和fish tritone ExpRe bash linux ubuntu shell
文章目录zsh基础配置实用特性插件`autojump`语法高亮自动补全fish优点缺点时效性本篇撰写时间为2021.12.15，由于计算机技术日新月异，博客中所有内容都有时效和版本限制，具体做法不一定总行得通，链接可能改动失效，各种软件的用法可能有修改。但是其中透露的思想往往是值得学习的。本篇前置：ExpRe[10]Ubuntu[2]准备神秘软件、备份恢复软件https://www.cnblogs
TDengine 签约前晨汽车，解锁智能出行的无限潜力涛思数据（TDengine） tdengine 汽车大数据
在全球汽车产业转型升级的背景下，智能网联和新能源技术正迅速成为商用车行业的重要发展方向。随着市场对环保和智能化需求的日益增强，企业必须在技术创新和数据管理上不断突破，以满足客户对高效、安全和智能出行的期待。在这一背景下，前晨汽车凭借其在新能源智能商用车领域的前瞻性布局和技术实力，成为行业中的佼佼者。前晨汽车采用整车数据采集和全车数据打通策略，能够实时将数据推送至APP端客户。然而，这导致整体写入和
为什么瘦子很难增胖？我的狗毛毛
我是个标准的瘦子，168，100斤。用一句通俗的话来讲，我连马甲线都瘦出来了（体脂含量比较低）。但是我反而很羡慕那些比较丰满的女人，我的理想是再增重十五斤，练成前凸后翘的魔鬼身材。为此我开始纠正自己不规律的作息，吃高热量的食物，减少运动量，能坐着绝不站着，能躺着绝不坐着。但是结果却没有丝毫变化。我一直很苦恼，直到最近在网上看到一个视频，英国的某个研究机构做了一个实验，想要知道瘦子能否在高热量的食物
你可能遗漏的一些C#/.NET/.NET Core知识点追逐时光者 C#.NET DotNetGuide编程指南 c#.net .netcore microsoft
前言在这个快速发展的技术世界中，时常会有一些重要的知识点、信息或细节被忽略或遗漏。《C#/.NET/.NETCore拾遗补漏》专栏我们将探讨一些可能被忽略或遗漏的重要知识点、信息或细节，以帮助大家更全面地了解这些技术栈的特性和发展方向。拾遗补漏GitHub开源地址https://github.com/YSGStudyHards/DotNetGuide/blob/main/docs/DotNet/D
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发