zhanghefu

信息抽取研究综述

信息抽取研究综述ж
李保利陈玉忠俞士汶
（北京大学计算机科学与技术系计算语言学研究所北京 100871）
摘要：信息抽取研究旨在为人们提供更有力的信息获取工具，以应对信息爆炸带来的严重挑战。与信息检索不同，信息抽取直接从自然语言文本中抽取事实信息。过去十多年来，信息抽取逐步发展成为自然语言处理领域的一个重要分支，其独特的发展轨迹——通过系统化、大规模地定量评测推动研究向前发展，以及某些成功启示，如部分分析技术的有效性、快速NLP系统开发的必要性，都极大地推动了自然语言处理研究的发展，促进了NLP研究与应用的紧密结合。回顾信息抽取研究的历史，总结信息抽取研究的现状，将有助于这方面研究工作向前发展。
关键词：自然语言处理；信息抽取；信息检索；命名实体识别
中图法分类号：TP391
RESEARCH ON INFORMATION EXTRACTION: A SURVEY
LI Bao-Li, CHEN Yu-Zhong, YU Shi-Wen
Department of Computer Science and Technology, Peking University, Beijing 100871
Abstract: The research on Information Extraction aims at providing more powerful information access tools to help people overcome the problem of information overloading. Unlike Information Retrieval, Information Extraction Systems extract factual information directly from natural language texts. In the last decade, Information Extraction has become an important sub-field of Natural Language Processing. Its unique development track, i.e. accelerating research via systematical and large scale evaluation, and some successful experience, such as the effectiveness of partial-parsing techniques and the importance of fast development cycles, have made it a great and most important impetus to the research of NLP in the last decade. Moreover, Information Extraction has built a more effective connection between NLP researchers and NLP system developers. It will be helpful to review the history and investigate the state of the art of Information Extraction.
Key words: Natural Language Processing; Information Extraction; Information Retrieval; Named Entity Recognization
1. 引言
随着计算机的普及以及互联网（WWW）的迅猛发展，大量的信息以电子文档的形式出现在人们面前。为了应对信息爆炸带来的严重挑战，迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息。信息抽取（Information Extraction）研究正是在这种背景下产生的。
信息抽取系统的主要功能是从文本中抽取出特定的事实信息（factual information）。比如，从新闻报道中抽取出恐怖事件的详细情况：时间、地点、作案者、受害者、袭击目标、使用的武器等；从经济新闻中抽取出公司发布新产品的情况：公司名、产品名、发布时间、产品性能等；从病人的医疗记录中抽取出症状、诊断记录、检验结果、处方等等。通常，被抽取出来的信息以结构化的形式描述，可以直接存入数据库中，供用户查询以及进一步分析利用。
与信息抽取密切相关的一项研究是信息检索，但信息抽取与信息检索存在差异，主要表现在三个方
ж本文得到国家自然科学基金项目（69973005）、国家973项目（G1998030507-4）和北大985项目支持。
作者李保利，男，1971年生，博士研究生，主要研究方向：中文信息处理。陈玉忠，男，1963年生，副教授，博士研究生，主要研究方向：中文信息处理、机器翻译等。俞士汶，男，1938年生，教授，博士生导师，主要研究方向：中文信息处理、计算语言学等。
面：
① 功能不同。信息检索系统主要是从大量的文档集合中找到与用户需求相关的文档列表；而信息抽取系统则旨在从文本中直接获得用户感兴趣的事实信息。
② 处理技术不同。信息检索系统通常利用统计及关键词匹配等技术，把文本看成词的集合（bags of words），不需要对文本进行深入分析理解；而信息抽取往往要借助自然语言处理技术，通过对文本中的句子以及篇章进行分析处理后才能完成。
③ 适用领域不同。由于采用的技术不同，信息检索系统通常是领域无关的，而信息抽取系统则是领域相关的，只能抽取系统预先设定好的有限种类的事实信息。
另一方面，信息检索与信息抽取又是互补的。为了处理海量文本，信息抽取系统通常以信息检索系统（如文本过滤）的输出作为输入；而信息抽取技术又可以用来提高信息检索系统的性能。二者的结合能够更好地服务于用户的信息处理需求。
信息抽取虽然需要对文本进行一定程度的理解，但与真正的文本理解（Text Understanding）还是不同的。在信息抽取中，用户一般只关心有限的感兴趣的事实信息，而不关心文本意义的细微差别以及作者的写作意图等深层理解问题[1]。因此，信息抽取只能算是一种浅层的或者说简化的文本理解技术。
一般来说，信息抽取系统的处理对象是自然语言文本尤其是非结构化文本。但广义上讲，除了电子文本以外，信息抽取系统的处理对象还可以是语音、图像、视频等其他媒体类型的数据。在这里，我们只讨论狭义上的信息抽取研究，即针对自然语言文本的信息抽取。
下面首先回顾了信息抽取研究发展的历史，然后介绍信息抽取系统的体系结构以及一些关键技术，最后对信息抽取研究未来的方向做了展望。
2. 信息抽取研究的发展历史
从自然语言文本中获取结构化信息的研究最早开始于20世纪60年代中期，这被看作是信息抽取技术的初始研究，它以两个长期的、研究性的自然语言处理项目为代表[2]。
美国纽约大学开展的Linguistic String项目[3]开始于60年代中期并一直延续到80年代。该项目的主要研究内容是建立一个大规模的英语计算语法，与之相关的应用是从医疗领域的X光报告和医院出院记录中抽取信息格式（Information Formats），这种信息格式实际上就是现在我们所说的模板1（Templates）。
另一个相关的长期项目是由耶鲁大学Roger Schank及其同事在20世纪70年代开展的有关故事理解的研究。由他的学生Gerald De Jong设计实现的FRUMP系统[4]是根据故事脚本理论建立的一个信息抽取系统。该系统从新闻报道中抽取信息，内容涉及地震、工人罢工等很多领域或场景。该系统采用了期望驱动（top-down，脚本）与数据驱动（bottom-up，输入文本）相结合的处理方法。这种方法被后来的许多信息抽取系统采用。
从20世纪80年代末开始，信息抽取研究蓬勃开展起来，这主要得益于消息理解系列会议（MUC，Message Understanding Conference）的召开。正是MUC系列会议使信息抽取发展成为自然语言处理领域一个重要分支，并一直推动这一领域的研究向前发展。
从1987年开始到1998年，MUC会议共举行了七届，它由美国国防高级研究计划委员会（DARPA，the Defense Advanced Research Projects Agency）资助。MUC的显著特点并不是会议本身，而在于对信息抽取系统的评测[5]。只有参加信息抽取系统评测的单位才被允许参加MUC会议。在每次MUC会议前，组织者首先向各参加者提供样例消息文本和有关抽取任务的说明，然后各参加者开发能够处理这种消息文本的信息抽取系统。在正式会议前，各参加者运行各自的系统处理给定的测试消息文本集合。由各个系统的输出结果与手工标注的标准结果相对照得到最终的评测结果。最后才是所谓的会议，由参与者交
1遵循MUC（Message Understanding Conference）系列会议建立的术语，我们把信息抽取最终的输出结果称为模板（Template），模板中的域称为槽（Slot），而把信息抽取过程中使用的匹配规则称为模式（Pattern）。另外，我们把要提取的特定事件或关系称为一个场景（Scenario），而领域（Domain）的概念要宽泛一些，通常一个领域可以包含多个场景。比如，在金融领域的新闻中，可能包含有建立合资公司、股票转让等很多个场景。
流思想和感受。后来，这种评测驱动的会议模式得到广泛推广，如1992年开始举行的文本检索会议TREC2等。
从历次MUC会议，可以清楚地看到信息抽取技术发展的历程。
1987年5月举行的首届MUC会议基本上是探索性的，没有明确的任务定义，也没有制定评测标准，总共有6个系统参加，所处理的文本是海军军事情报，每个系统的输出格式都不一样。
MUC-2于1989年5月举行，共有8个系统参加，处理的文本类型与MUC-1一样。MUC-2开始有了明确的任务定义，规定了模板以及槽的填充规则，抽取任务被明确为一个模板填充的过程。
MUC-3于1991年5月举行，共有15个系统参加，抽取任务是从新闻报告中抽取拉丁美洲恐怖事件的信息，定义的抽取模板由18个槽组成。从MUC-3开始引入正式的评测标准，其中借用了信息检索领域采用的一些概念，如召回率和准确率等。
MUC-4于1992年6月举行，共有17个系统参加，任务与MUC-3一样，仍然是从新闻报告中抽取恐怖事件信息。但抽取模板变得更复杂了，总共由24个槽组成。从这次会议开始MUC被纳入TIPSTER文本项目3。
MUC-5于1993年8月举行，共有17个系统参加：美国14个，英国、加拿大、日本各一个。此次会议设计了两个目标场景：金融领域中的公司合资情况、微电子技术领域中四种芯片制造处理技术的进展情况。除英语外，MUC-5还对日语信息抽取系统进行了测试。在本次会议上，组织者尝试采用平均填充错误率（ERR, Error Per Response Fill）作为主要评价指标。与以前相比，MUC-5抽取任务的复杂性更大，比如公司合资场景需要填充11种子模板总共47个槽，光任务描述文档就有40多页。MUC-5的模板和槽填充规范是MUC系列评测中最复杂的。
MUC-5的一个重要创新是引入了嵌套的模板结构。信息抽取模板不再是扁平结构（flat structure）的单个模板，而是借鉴面向对象和框架知识表示的思想，由多个子模板组成。模板中每个槽的取值除了可以是文本串（如公司名）、格式化串（如将日期、时间、金额等文本描述转化为某种规范形式）、有限集合中的元素（如组织类型可以分为公司、政府部门、研究机构等）外，还可以是指向另一个子模板的指针。
MUC-6于1995年9月举行，训练时的目标场景是劳动争议的协商情况，测试时的目标场景是公司管理人员的职务变动情况，共有16家单位参加了这次会议。MUC-6的评测更为细致，强调系统的可移植性以及对文本的深层理解能力。除了原有的场景模板（Scenario Templates）填充任务外，又引入三个新的评测任务：命名实体（Named Entity）识别、共指（Coreference）关系确定、模板元素（Template Element）填充等[5][6]。
命名实体识别任务主要是要识别出文本中出现的专有名称和有意义的数量短语并加以归类；共指关系确定任务是要识别出给定文本中的参照表达式，并确定这些表达式之间的共指关系；模板元素填充任务是要识别出特定类型的所有实体以及它们的属性特征。
最后一届MUC会议——MUC-7于1998年4月举行。训练时的目标场景是飞机失事事件，测试时的目标场景是航天器（火箭/导弹）发射事件。除MUC-6已有的四项评测任务外，MUC-7又增加了一项新任务——模板关系任务，它意在确定实体之间与特定领域无关的关系 [6]。共有18家单位参加了MUC-7评测。值得注意的是，在MUC-6和MUC-7中开发者只允许用四周的时间进行系统的移植，而在先前的评测中常常允许有6-9个月的移植时间。
在MUC中，衡量信息抽取系统的性能主要根据两个评价指标：召回率和准确率[7]。召回率等于系统正确抽取的结果占所有可能正确结果的比例；准确率等于系统正确抽取的结果占所有抽取结果的比例。为了综合评价系统的性能，通常还计算召回率（REC）和准确率（PRE）的加权几何平均值，即F指数，它的计算公式如下：
2 http://trec.nist.gov/
3 TIPSTER文本项目（ http://www.itl.nist.gov/iaui/894.02/related_projects/tipster/）由美国国防高级研究计划委员会组织，1991年开始实施，1998年秋天终止。该项目致力于推动和促进提高文本处理技术水平，重点是文档检索（Document Detection）、信息抽取（Information Extraction）、自动文摘（Summarization）等技术，共分三个阶段实施。
RECPREbetaRECPREbetaMEASUREF++=−)*)((**)0.1)((22
其中，beta是召回率和准确率的相对权重。beta等于1时，二者同样重要；beta大于1时，准确率更重要一些；beta小于1时，召回率更重要一些。在MUC系列会议中，beta取值一般为1、1/2、2。表1给出了MUC3-7分任务最优评测结果 [8]。
表1、MUC3-7分任务最优评测结果
子任务
评测
命名实体
共指
模板元素
模板关系
场景模板
多语言
MUC-3
R<50%
P<70%
MUC-4
F<56%
MUC-5
EJV F<53%
EME F<50%
JJV F<64%
JME F<57%
MUC-6
E F<97%
C F<85%
J F <93%
S F<94%
R<63%
P<72%
F<80%
F<57%
MUC-7
E F<94%
C F<91%
J F<87%
F<62%
F<87%
F<76%
F<51%
说明： R-召回率 P-准确率 F-F指数（相对权重取1） JV-合资
E-英语 C-汉语 J-日语 S-西班牙语 ME-微电子
MUC系列会议对信息抽取这一研究方向的确立和发展起到了巨大的推动作用。MUC定义的信息抽取任务的各种规范以及确立的评价体系已经成为信息抽取研究事实上的标准。
近几年，信息抽取技术的研究与应用更为活跃。在研究方面，主要侧重于以下几方面：利用机器学习技术增强系统的可移植能力、探索深层理解技术、篇章分析技术、多语言文本处理能力、WEB信息抽取（Wrapper）以及对时间信息的处理等等。在应用方面，信息抽取应用的领域更加广泛，除自成系统以外，还往往与其他文档处理技术结合建立功能强大的信息服务系统。至今，已经有不少以信息抽取技术产品为主的公司出现，比较著名的有：Cymfony公司4、Bhasha公司5、Linguamatics公司6、Revsolutions公司7等。
目前，除强烈的应用需求外，正在推动信息抽取研究进一步发展的动力主要来自美国国家标准技术研究所（NIST）组织的自动内容抽取（ACE，Automatic Content Extraction）评测会议8。这项评测从1999年7月开始酝酿，2000年12月正式开始启动，迄今已经举办过两次评测（2000年5月、2002年2月），最近正在进行第3次评测（2002年9月）。这项评测旨在开发自动内容抽取技术以支持对三种不同来源（普通文本、由自动语音识别ASR得到的文本、由光学字符识别OCR得到的文本）的语言文本的自动处理，研究的主要内容是自动抽取新闻语料中出现的实体、关系、事件等内容，即对新闻语料中实体、关系、事件的识别与描述。最近一次评测（ACE Phase 2 summer evaluation）主要有两大任务：实体识别与跟踪
4 http://www.cymfony.com/index.html
5 http://www.bhasha.com/
6 http://www.linguamatics.com/index.html
7 http://www.revsolutions.com/index.shtml
8 http://www.itl.nist.gov/iad/894.01/tests/ace/
（EDT，Entity Detection and Tracking）、关系识别与描述（RDC，Relation Detection and Characterization）[9]。
与MUC相比，目前的ACE评测不针对某个具体的领域或场景，采用基于漏报（标准答案中有而系统输出中没有）和误报（标准答案中没有而系统输出中有）为基础的一套评价体系，还对系统跨文档处理（Cross-document processing）能力进行评测。这一新的评测会议将把信息抽取技术研究引向新的高度。
图1、纽约大学PROTEUS信息抽取系统体系结构
中文信息抽取方面的研究起步较晚，主要的研究工作集中在对中文命名实体的识别方面，在设计实现完整的中文信息抽取系统方面还处在探索阶段。其中，国立台湾大学（National Taiwan University）和新加坡肯特岗数字实验室（Kent Ridge Digital Labs）参加了MUC-7中文命名实体识别任务的评测[10][11]。Intel中国研究中心的ZHANG Yi-Min和ZHOU Joe F等人在ACL-2000上演示了他们开发的一个抽取中文命名实体以及这些实体间相互关系的信息抽取系统，该系统利用基于记忆的学习（MBL，Memory-Based Learning）算法获取规则用以抽取命名实体及它们之间的关系[12]。
3. 信息抽取系统的体系结构
Hobbs曾提出一个信息抽取系统的通用体系结构 [13] ，他将信息抽取系统抽象为“级联的转换器或模块集合，利用手工编制或自动获得的规则在每一步过滤掉不相关的信息，增加新的结构信息”。
Hobbs认为典型的信息抽取系统应当由依次相连的十个模块组成：
1、文本分块：将输入文本分割为不同的部分——块。
2、预处理：将得到的文本块转换为句子序列，每个句子由词汇项（词或特定类型短语）及相关的属性（如词类）组成。
3、过滤：过滤掉不相关的句子。
4、预分析：在词汇项（Lexical Items）序列中识别确定的小型结构，如名词短语、动词短语、并列结构等。
5、分析：通过分析小型结构和词汇项的序列建立描述句子结构的完整分析树或分析树片段集合。
6、片段组合：如果上一步没有得到完整的分析树，则需要将分析树片段集合或逻辑形式片段组合成整句的一棵分析树或其他逻辑表示形式。
7、语义解释：从分析树或分析树片段集合生成语义结构、意义表示或其他逻辑形式。
8、词汇消歧：消解上一模块中存在的歧义得到唯一的语义结构表示。
9、共指消解或篇章处理：通过确定同一实体在文本不同部分中的不同描述将当前句的语义结构表示合并到先前的处理结果中。
10、模板生成：由文本的语义结构表示生成最终的模板。
当然，并不是所有的信息抽取系统都明确包含所有这些模块，并且也未必完全遵循以上的处理顺序，比如6、7两个模块执行顺序可能就相反。但一个信息抽取系统应当包含以上模块中描述的功能。
图1给出了美国纽约大学Proteus信息抽取系统[14]的体系结构，具有一定的代表性。
4. 信息抽取中的关键技术
5.1 命名实体识别
命名实体是文本中基本的信息元素，是正确理解文本的基础。狭义地讲，命名实体是指现实世界中的具体的或抽象的实体，如人、组织、公司、地点等，通常用唯一的标志符（专有名称）表示，如人名、组织名、公司名、地名等。广义地讲，命名实体还可以包含时间、数量表达式等。至于命名实体的确切含义，只能根据具体应用来确定。比如，在具体应用中，可能需要把住址、电子信箱地址、电话号码、舰船编号、会议名称等作为命名实体。
命名实体识别就是要判断一个文本串是否代表一个命名实体，并确定它的类别。在信息抽取研究中，命名实体识别是目前最有实用价值的一项技术。根据MUC评测结果 [8]，英文命名实体识别任务的F-指数（召回率与准确率的加权几何平均值，权重取1）能达到90%以上。
命名实体识别的难点在于：
1、在不同领域、场景下，命名实体的外延有差异；
2、数量巨大，不能枚举，难以全部收录在词典中；
3、某些类型的实体名称变化频繁，并且没有严格的规律可以遵循；
4、表达形式多样；
5、首次出现后往往采用缩写形式；
命名实体识别的方法主要分为：基于规则的方法和基于统计的方法。一般来说，基于规则的方法性能要优于基于统计的方法。但是这些规则往往依赖于具体语言、领域、文本格式，编制过程耗时且容易产生错误，并且需要富有经验的语言学家才能完成。相比而言，基于统计的方法利用人工标注的语料进行训练，标注语料时不需要广博的计算语言学知识，并且可以在较短时间内完成。因此，这类系统在移植到新的领域时可以不做或少做改动，只要利用新语料训练一遍即可。此外，基于统计的系统要移植到其他自然语言文本也相对容易一些。
5.2 句法分析
通过句法分析得到输入的某种结构表示，如完整的分析树或分析树片段集合，是计算机理解自然语言的基础。在信息抽取领域一个比较明显的趋势是越来越多的系统采用部分分析技术，这主要是由于以下三方面原因造成的[15]。
首先是信息抽取任务自身的特殊性，即需要抽取的信息通常只是某一领域中数量有限的事件或关系。这样，文本中可能只有一小部分与抽取任务有关。并且，对每一个句子，并不需要得到它的完整的结构表示，只要识别出部分片段间的某些特定关系就行了，得到的只是完整分析树的部分子图。
其次是部分分析技术在MUC系列评测中的成功。
SRI公司在其参加MUC-4评测的FASTUS系统 [16] 中开始采用层级的有限状态自动机（Cascaded Finite-State Automata）分析方法。该方法使FASTUS系统具有概念简单、运行速度快、开发周期短等优点，在多次MUC评测中都居于领先地位。
最后，部分分析方法盛行也是因为目前我们尚没有其他更好的选择。现在，完全分析技术的鲁棒性以及时空开销都难以满足信息抽取系统的需要。
但是，另一方面，我们也要清醒看到：部分分析技术只能使信息抽取系统的处理能力达到目前的水平（F-指数小于60% [17]），要想使其性能有大的飞跃，必须探索更有效的分析技术。
5.3 篇章分析与推理
一般说来，用户关心的事件和关系往往散布于文本的不同位置，其中涉及到的实体通常可以有多种不同的表达方式，并且还有许多事实信息隐含于文本之中。为了准确而没有遗漏地从文本中抽取相关信息，信息抽取系统必须能够识别文本中的共指现象，进行必要的推理，以合并描述同一事件或实体的信息片段。因此，篇章分析、推理能力对信息抽取系统来说是必不可少的。
初看起来，信息抽取中的篇章分析比故事理解中的篇章分析要简单得多。因为在信息抽取中只需要记录某些类型的实体和事件。但是，大多数信息抽取系统只识别和保存与需求相关的文本片段，从中抽取出零碎的信息。在这个过程中很可能把用以区分不同事件、不同实体的关键信息给遗漏了。在这种情况下要完成篇章分析是相当困难的。
除此之外，目前尚缺乏有效的篇章分析理论和方法可以借鉴。现有篇章分析理论大多是面向人、面向口语的，需要借助大量的常识，它们设想的目标文本也比真实文本要规范，并且理论本身也没有在大规模语料上进行过测试。
信息抽取系统除了要解决文本内的共指问题外，还需要解决文本间的（跨文本的）共指问题。在文本来源比较广泛的情况下，很可能有多篇文本描述了同一个事件、同一个实体，不同文本间还会存在语义歧义，如相同的词有不同的含义、不同的词代表一个意思。为了避免信息的重复、冲突，信息抽取系统需要有识别、处理这些现象的能力。
由MUC-6和MUC-7对信息抽取系统部分篇章处理能力（即指称短语的共指消解）的评测结果看，篇章处理能力是目前信息抽取系统的弱项，是一个瓶颈，急需深入研究与改进。
5.4 知识获取
作为一种自然语言处理系统，信息抽取系统需要强大知识库的支撑。在不同的信息抽取系统中知识库的结构和内容是不同的，但一般来说，都要有：一部词典（Lexicon），存放通用词汇以及领域词汇的静态属性信息；一个抽取模式库（Extraction Patterns Base），每个模式可以有附加的（语义）操作，模式库通常也划分为通用部分和领域（场景）专用部分；一个概念层次模型（Ontology），通常是面向特定领域或场景的，是通用概念层次模型在局部的细化或泛化。除此之外，可能还有篇章分析和推理规则库、模板填充规则库等。
如前所述，信息抽取系统通常是面向特定应用领域或场景的。这种领域受限性决定了信息抽取系统中用到的主要知识是所谓的浅层知识。这种知识的抽象层次不高，通常只适用于特定应用领域，很难在其他领域复用。如果要把一个信息抽取系统移植到新的领域或场景，开发者必须要为系统重新编制大量的领域知识。一般说来，手工编制领域知识往往是枯燥的、费时的、易错的，费用较高，并且只有具有专门知识（应用领域知识、知识描述语言知识，熟悉系统的设计与实现）的人员才能胜任这种工作。另外，由于自然语言中存在的“长尾”综合效应（”long tail” syndrome）或称Zipf法则9，人工编制的知识库很难达到很高的语言覆盖面。因此，知识获取问题已经成为制约信息抽取技术广泛应用的一个主要障碍。它除了影响系统的可移植性外，也是影响系统性能的主要因素。正因为如此，近几年召开的多次专题学术研讨会都是以解决知识获取问题、建立具有自适应能力的信息抽取系统为主题的。
9绝大多数事实采用经常出现的、非常少量的表达方式来描述，而剩余的事实却需要大量的、不经常出现的表达方式才能覆盖。
领域知识获取可以采用的策略通常有两种：手工+辅助工具（图形用户接口）；自动/半自动+人工校对。前者相对简单一些，人工工作仍然是主体，只是为移植者提供了一些图形化的辅助工具，以方便和加快领域知识获取过程。后者采用有指导的、无指导的或间接指导的机器学习技术从文本语料中自动或半自动获取领域知识，人工干预程度较低。实际上，这两种策略不是完全对立的，只是自动化程度高低不同而已。某种意义上讲，第一种策略仍然是一种人工编制知识库的过程，知识瓶颈问题只是得到某种程度的缓解。第二种策略才是解决信息抽取系统知识获取瓶颈问题的真正出路。近几年有不少研究者采用自扩展（Bootstrapping）技术从未经标注的语料中学习抽取模式[18]。
5. 展望
信息抽取经过二十多年尤其是最近十多年的发展，已经成为自然语言处理领域一个重要的分支，其独特的发展轨迹——通过系统化、大规模地定量评测推动研究向前发展，以及某些成功启示，如部分分析技术的有效性、快速NLP（Natural Language Processing）系统开发的必要性、知识工程研究以及软件工程技术的重要性等等[19]，都极大地推动了自然语言处理研究的发展，迫使NLP研究人员面向实际的应用重新考虑他们的研究重点，开始重视解决以前曾被忽视的一些深层问题，如语义特征标注、共指消解、篇章分析等等。
目前，影响信息抽取技术广泛应用的两个最主要的因素是：系统性能和系统可移植能力[18]。因此，今后信息抽取研究将紧紧围绕如何克服和解决这两个问题展开，重点解决知识获取、篇章分析、高效句法分析等问题，不断提高信息抽取系统的性能、增强其可移植能力。
未来的信息抽取系统将是动态（Dynamic）的、开放域（Open Domain）的[20]，前景光明。
致谢
感谢Chinchor Nancy、Cardie Claire、王厚峰博士等提供宝贵见解和文献资料。
参考文献
[1] Applet D E, Israel D J, Introduction to Information Extraction Technology, A Tutorial for IJCAI-99, 1999
[2] Gaizauskas R, Wilks Y, Information Extraction: Beyond Document Retrieval. Journal of Documentation, 1997.
[3] Sager N, Natural Language Information Processing, Reading, Massachusetts: Addison Wesley, 1981.
[4] Dejong G, An Overview of the FRUMP System. In: LEHNERT, W., & RINGLE, M.h. (eds), Strategies for Natural Language Processing. Lawrence Erlbaum, 1982, 149-176.
[5] Grishman R, Sundheim B, Message Understanding Conference-6: A Brief History, In Proceedings of the 16h International Conference on Computational Linguistics (COLING-96), August 1996
[6] Chinchor N, Marsh E, MUC-7 Information Extraction Task Definition (version 5.1), In Proceedings of the Seventh Message Understanding Conference, 1998
[7] Douthat A, The Message Understanding Conference Scoring Software User's Manual, In Proceedings of the Seventh Message Understanding Conference, 1998
[8] Chinchor N, Overview of MUC-7/MET-2, In Proceedings of the Seventh Message Understanding Conference, 1998
[9] The ACE 2002 Evaluation Plan, ftp://jaguar.ncsl.nist.gov/ace/doc/ACE-EvalPlan-2002-v06.pdf, Site visited on August 30th , 2002
[10] Chen H H, Ding Y W, Tsai S C, et al, Description of the NTU System Used for MET2, In Proceedings of the Seventh Message Understanding Conference, 1998
[11] Yu S H, Bai S H, Wu P, Description of the Kent Ridge Digital Labs System Used for MUC-7, In Proceedings of the
Seventh Message Understanding Conference, 1998
[12] Zhang Y M, Zhou J F, A Trainable Method for Extracting Chinese Entity Names and Their Relations, In Proceedings of the Second Chinese Language Processing Workshop, Hong Kong, Oct. 2000
[13] Hobbs J, The Generic Information Extraction System. In Proceedings of the Fifth Message Understanding Conference (MUC-5), pages 87-91. Morgan Kaufman, 1993
[14] Yangarher R, Grishman R, NYU: Description of the Proteus/PET System as Used for MUC-7, In Proceedings of the Seventh Message Understanding Conference, 1998
[15] Grishman R, Information Extraction: Techniques and Challenges. In M-T. Pazienza, editor, Information Extraction: a Multidisciplinary Approach to an Emerging Information Technology, Springer, Berlin, 1997
[16] Hobbs J, Appelt D, Bear J, et al, FASTUS: A Cascaded Finite-State Transducer for Extracting Information from Natural-Language Text, in Roche and Schabes, eds. Finite State Devices for Natural Language Processing, MIT Press, Cambridge MA, 1996.
[17] Appelt D E, Introduction to Information Extraction, AI COMMUNICATIONS, Vol. 12 No. 3, 1999
[18] Yangarber R, Scenario Customization for Information Extraction, Ph.D. Thesis, New York University, January 2001
[19] Cowie J, Lehnert W, Information Extraction. Communications of the ACM, Vol. 39 No. 1, 1996
[20] Grishman R, Adaptive information extraction and sublanguage analysis, In Proceedings of IJCAI-2001 Workshop on Adaptive Text Extraction and Mining, 2001

你可能感兴趣的:(信息抽取研究综述)

specpu2017安装/编译/运行测试总结 So_shine linux调试工具和性能量化 linux
目录前言一、源码镜像获取二、安装三、配置修改四、编译五、运行测试六、结果查看七、遇到的问题前言SPEC是标准性能评估公司（StandardPerformanceEvaluationCorporation）的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织，这个组织的目标是建立、维护一套用于评估计算机系统的标准。SPECCPU测试中，测试系统的处理器、内存子
specpu2017在arm64环境下的部署/测试 So_shine specpu 性能测试 arm64 环境部署
目录前言一、源码镜像获取二、安装三、配置修改四、编译五、运行测试六、结果查看七、遇到的问题前言SPEC是标准性能评估公司（StandardPerformanceEvaluationCorporation）的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织，这个组织的目标是建立、维护一套用于评估计算机系统的标准。SPECCPU测试中，测试系统的处理器、内存子
基于均值偏移算法的动态目标跟踪研究 Zoiny_楠算法均值算法目标跟踪
摘要：目标跟踪技术是计算机视觉领域中重要研究课题之一,在人类生活、军事侦察、工业生产、医疗诊断、交通管理等多方面,都有广泛的应用,研究目标跟踪对人类生活、工程应用等具有现实的指导意义。在基于视觉的目标跟踪算法中,经典的Mean-Shift算法以其理论科学有效、操作简单易实现,跟踪性能较好等优势,一直是众多学者研究的热点。可算法也存在着许多缺陷。例如目标模型中混有背景信息的干扰,给目标定位带来了偏差
探索虚拟世界的裂缝：CVE-2021-3929与3947漏洞利用工具详解缪昱锨Hunter
探索虚拟世界的裂缝：CVE-2021-3929与3947漏洞利用工具详解去发现同类优质开源项目:https://gitcode.com/在安全研究的最前沿，有一类工具因其独特魅力和教育价值而备受关注。今天，我们将深入探讨一个面向专业安全研究人员与对系统底层运作好奇者的开源项目——CVE-2021-3929-3947，这是一套针对特定虚拟机逃逸漏洞的实际演示代码。项目介绍本项目旨在展示如何利用已知的
【安全漏洞】深入剖析CVE-2021-40444-Cabless利用链 IT老涵安全网络漏洞安全安全漏洞网络安全
背景CVE-2021-40444为微软MHTML远程命令执行漏洞，攻击者可通过传播MicrosoftOffice文档，诱导目标点击文档从而在目标机器上执行任意代码。该漏洞最初的利用思路是使用下载cab并释放、加载inf文件的形式执行恶意代码。独立安全研究员EduardoB.在github公开了一种新的“无CAB”的漏洞利用方法及其POC。公众号之前发布的研判文章中已对在野利用中出现的新的Cable
学校老师课堂点名管理系统带TkinterUI界面深度学习乐园 oracle 数据库
完整源码项目包获取→点击文章末尾名片！基于PythonTkinter的学生管理系统，有最基本的增删改查功能，还有随机点名、顺序点名功能##1、研究现状综述目前，在学生信息管理领域，各大高校面临的难题在于对学生信息管理的效率过低，传统的人工管理造成了资金和劳动力的浪费。因此，大部分学者研究的是针对高校的学生信息或成绩管理系统，而用python语言的也很少，其中大多用的是PyQt5模块。而且，针对低年
四个机器学习模型对比道路裂缝检测识别分类模型深度学习乐园深度学习实战项目机器学习分类人工智能
完整源码项目包获取→点击文章末尾名片！一、课题综述1.1.课题简介在机器学习的研究领域中，传统分类算法模型数量众多，适合的应用场景也各不相同。1.2.课题目标（示例）本课题使用的数据集来自于数据分析与数据挖掘竞赛Kaggle，该竞赛为数据科学领域著名的国际性赛事之一。课题使用的数据集为带标签的图像数据集，包含带有裂痕和不带有裂痕的桥梁、墙和人行道图片。课题的目标为对于目标数据集，搭建相应的传统机器
【细胞自噬】上班减脂最佳方案分析
文章目录总结一、空腹时长与饥饿感曲线**对照表****关键说明**二、**长时间空腹（24-100小时）饥饿感与代谢曲线细化表****关键生理机制与注意事项****应用建议**三、少量进食会中断细胞自噬吗**1.细胞自噬的核心触发条件****2.少量进食对自噬的影响****3.关键时间阈值****4.实践建议（平衡自噬与健康）****5.研究支持****总结**四、西洋参与细胞自噬**1.西洋参的
基于MATLAB的资源优化与工期固定-资源均衡分析方法研究【附代码】拉勾科研工作室 matlab 开发语言
算法与建模领域的探索者|专注数据分析与智能模型设计✨擅长算法、建模、数据分析matlab、python、仿真✅具体问题可以私信或查看文章底部二维码✅感恩科研路上每一位志同道合的伙伴！（1）资源均衡优化相关理论与问题分类在现代工程项目中，资源的合理分配和使用是确保项目按时完成、成本可控的关键因素。资源均衡优化作为项目管理中的核心环节，旨在通过调整资源的使用方案，使资源消耗在整个工期内尽可能平稳，避免
医学图像增强的层级化模糊与虚拟仪器无参考质量评价研究【附代码】拉勾科研工作室计算机视觉图像处理人工智能
算法与建模领域的探索者|专注数据分析与智能模型设计✨擅长算法、建模、数据分析matlab、python、仿真✅具体问题可以私信或查看文章底部二维码✅感恩科研路上每一位志同道合的伙伴！（1）层级模糊隶属度的X光医学图像增强算法针对X光医学图像普遍存在的对比度差、细节模糊等问题，本算法提出了一种基于层级模糊隶属度的增强方法。该方法的核心思想在于利用拉普拉斯金字塔分解图像，并在多尺度下分层计算模糊隶属度
直播预告！探讨生成模型中的极简概念擦除青稞社区. 青稞Talk 人工智能图像处理
主页：http://qingkeai.online/原文：https://mp.weixin.qq.com/s/yc4whKbnVY8ho1w7rgFVGg6月16日20:00，青稞Talk第55期，新加坡国立大学博士生张扬，将直播分享《生成模型中的极简概念擦除》。分享嘉宾张扬，慕尼黑工业大学计算机专业硕士，新加坡国立大学人工智能专业博士。曾于牛津大学进行学术访问，并在微软亚洲研究院及美国运通新加
2019-2020年线上睡眠市场深度分析报告我就是夏迎春
本文还有配套的精品资源，点击获取简介：本报告全面分析了2019至2020年间中国线上消费者购买睡眠相关产品的行为和趋势。报告内容涉及市场概况、消费偏好、消费者行为、地域差异及未来展望，详细解读了消费者对多种睡眠产品的偏好及线上市场的发展。京东平台的数据为研究提供了丰富的实证，包括市场增长、产品多样化、高端产品需求上升、科技产品的发展、购买时段、年龄分布、决策因素以及地域差异等。报告指出，健康意识和
Python爬虫实战：用Tushare和Baostock爬取股票历史数据及K线图与技术指标计算
在金融数据分析和量化交易中，股票历史数据的获取是进行技术分析、回测和策略研究的第一步。传统上，投资者需要依赖付费数据服务，然而如今，借助Python强大的爬虫工具和开源数据接口，我们能够轻松地爬取免费的历史股票数据，并结合K线图与技术指标来进行深入分析。Tushare和Baostock是两个非常流行的开源金融数据接口。Tushare提供了丰富的国内外金融数据，特别是A股市场的历史数据和实时数据，而
【iOS越狱开发】iOS越狱步骤1之环境搭建 JR_Wang2491 MAC 移动苹果 ios ios iphone ipad
这段时间都是研究iOS越狱事情，如今我会一点一点的把自己学到的遇到的问题会陆续编写出来，让大家一起讨论，也让做逆向的朋友有个交流平台机会，废话不多说！！一、学习条件至少1~2年iOS开发经验基本UI界面操作多线程网络基本操作数据储存基本操作一台苹果手机，建议至少iPhone5S（因为从5S开始支持arm64架构）或者至少是iPadAir、iPadmini2等支持arm64架构的设备系统至少iOS8
初学翁凯老师的c语言后对其中一些问题的看法 Obltv #初学c语言 c语言
文章目录初学翁凯老师的c语言后对其中一些问题的看法一、一个课后的简单逻辑语法问题二、解答和一些思考1.**++i++--**2.**i++++**3.**a=b+=c++-d+--e/-f**问题初探原代码逻辑举例初次写博客的看法及感受初学翁凯老师的c语言后对其中一些问题的看法学习c语言已有数天，其中一些问题今日来看仍有研究价值，故记录探讨之一、一个课后的简单逻辑语法问题++i+±-i++++a=
ResNet（Residual Network）不想秃头的程序神经网络语音识别人工智能深度学习网络残差网络神经网络
ResNet（ResidualNetwork）是深度学习中一种经典的卷积神经网络（CNN）架构，由微软研究院的KaimingHe等人在2015年提出。它通过引入残差连接（SkipConnection）解决了深度神经网络中的梯度消失问题，使得网络可以训练极深的模型（如上百层），并在图像分类、目标检测、语义分割等任务中取得了突破性成果。以下是ResNet的详细介绍：一、核心思想ResNet的核心创新是
AI助力基因遗传疾病检测：现状与未来 t0_54program 大数据与人工智能人工智能个人开发
在现代医学领域，与基因紊乱相关疾病的早期检测至关重要。像肺癌，早期诊断的患者5年生存率可达57%，而四期癌症患者生存率仅3%。阿尔茨海默病的早期检测，能让患者改变生活方式、参与临床试验并提前治疗脑部退化症状，有效延长生命。尽管基因检测对评估晚发性阿尔茨海默病的可能性有帮助，对早发性阿尔茨海默病也有指示作用，但其检测技术仍有待完善。目前，仅基于生物学研究的疾病检测技术多样，虽对特定病例精确，但通常需
深入研究 Golang 领域的 Fiber 框架架构 Golang编程笔记 golang 架构网络 ai
深入研究Golang领域的Fiber框架架构关键词：Golang、Fiber框架、架构、高性能、Web开发摘要：本文将深入探讨Golang领域的Fiber框架架构。我们会先介绍背景知识，包括目的、预期读者等。接着用通俗易懂的方式解释核心概念，如Fiber框架的各个组成部分，以及它们之间的关系。然后详细阐述核心算法原理、数学模型，通过实际代码案例展示其应用。还会介绍Fiber框架的实际应用场景、推荐
Prompt Engineering for Large Language Models 三月七꧁ ꧂ 论文合集llm+prompt prompt 语言模型人工智能自然语言处理 pdf javascript 前端
题目大型语言模型的快速工程简介随着OpenAI的ChatGPT和Google的Bard等软件的普及，大语言模型（LLM）已经渗透到生活和工作的许多方面。例如，ChatGPT可用于提供定制食谱，建议替换缺失的成分。它可用于起草研究提案、用多种编程语言编写工作代码、在语言之间翻译文本、协助政策制定等等（Gao2023）。用户通过“提示”或自然语言指令与大型语言模型进行交互。精心设计的提示可以带
构建医学文献智能助手：基于 LangChain 的专业领域 RAG 系统实践
前言在当今医疗科技快速发展的时代，每天都有数以千计的医学研究成果在全球范围内发表。从临床试验报告到基础研究论文，从流行病学调查到药物研发数据，这些专业文献承载着推动医学进步的重要知识。然而，面对如此海量且专业性极强的文献资料，医疗从业者往往感到力不从心。如何在有限的时间内，准确把握文献核心价值，并将其转化为临床实践的指导？这个问题一直困扰着整个医疗行业。1.项目背景与业务价值1.1医学文献阅读的困
Python实战：自动在知乎回答点赞并采集内容的高阶爬虫教程 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 okhttp 学习
✨写在前面：为什么做知乎自动化操作？知乎作为中国领先的知识问答平台，拥有大量结构化内容。对于研究舆情分析、情绪识别、用户画像，甚至产品舆情反馈采集的用户来说，如何自动获取知乎内容并进行交互行为（如点赞、回答），是一个非常实用的能力。本文将手把手带你用Python完成以下目标：✅自动登录知乎✅自动搜索某个关键词下的热门问题✅自动点赞高质量回答✅自动采集回答内容（文本、点赞数、评论数等）✅自动保存为本
从历史到未来：《今日简史》与《原则》的世界格局研究喝醉酒的小白破万卷历史
目录标题一、引言：两种视角下的世界格局二、世界观比较：历史演进与系统运行2.1赫拉利的人类中心史观2.2达利欧的系统论世界观2.3世界观的异同与互补三、方法论比较：历史叙事与系统建模3.1赫拉利的历史叙事方法3.2达利欧的系统建模方法3.3方法论的异同与互补四、核心议题比较：科技、经济与全球治理4.1科技变革：颠覆性力量的不同解读4.2经济周期：历史规律的不同阐释4.3全球治理：未来秩序的不同展望
Python 数据挖掘实战：关联规则与聚类分析，解锁数据价值的钥匙清水白石008 python Python题库 python 数据挖掘动画
Python数据挖掘实战：关联规则与聚类分析，解锁数据价值的钥匙引言在数字化浪潮席卷全球的今天，数据已成为企业和组织最重要的战略资产。海量数据蕴藏着巨大的价值，等待我们去挖掘和发现。数据挖掘(DataMining)，作为从海量数据中提取有价值知识和模式的关键技术，正日益受到各行各业的重视。它如同探矿者的火眼金睛，能够穿透数据的迷雾，发现隐藏在背后的规律和趋势，为商业决策、科学研究和社会发展提供强有
基于机器学习的智能文本分类技术研究与应用
在当今数字化时代，文本数据的爆炸式增长给信息管理和知识发现带来了巨大的挑战。从新闻文章、社交媒体帖子到企业文档和学术论文，海量的文本数据需要高效地分类和管理，以便用户能够快速找到所需信息。传统的文本分类方法主要依赖于人工规则和关键词匹配，这些方法不仅效率低下，而且难以应对复杂多变的文本内容。近年来，机器学习技术的快速发展为文本分类提供了一种高效、自动化的解决方案。一、机器学习在文本分类中的应用概述
误差的回响：反向传播算法与神经网络的惊天逆转田园Coder 人工智能科普人工智能科普
当专家系统在20世纪80年代初期大放异彩，成为人工智能实用化的耀眼明星时，另一股曾经被宣判“死刑”的力量——连接主义（神经网络）——正在寒冬的冻土下悄然涌动，孕育着一场惊天动地的复苏。马文·明斯基和西摩·帕尔特在1969年《感知机》专著中那精准而冷酷的理论批判，如同沉重的封印，将多层神经网络的研究禁锢了近二十年。他们指出的核心死结——缺乏有效算法来训练具有隐藏层的网络——仿佛一道无法逾越的天堑。单
基于SIP的视频会议系统研究 weixin_33921089 数据库
摘要根据IETFSIPPING工作组提出的集中式会议模型，设计并实现了基于SIP的视频会议系统。该系统各部分可分别设计，具有良好的可扩展性。详细介绍了此系统的结构和工作原理。关键词SIP视频会议会议控制服务器会场控制媒体服务器0前言近几年来，随着计算机技术、通信技术和互联网技术的飞速发展，视频会议的应用范围正逐渐从传统的专业领域、大型企业等高端用户向中小企业等普通用户和个人用户拓展。据有关机构的分
【Html实现“心形日出”（附效果+源代码）】| JavaScript面试题：解释一下异步编程中的回调函数、Promise和Async/Await的概念。它们有什么区别？追光者♂ html5 css3 心形日出前端特效 JS面试题 Promise Async/Await
风会带走你曾经存在过的证明。——虞姬作者主页：追光者♂个人简介：[1]计算机专业硕士研究生[2]2023年城市之星领跑者TOP1(哈尔滨)[3]2022年度博客之星人工智能领域TOP4[4]阿里云社区特邀专家博主[5]CSDN-人工智能领域优质创作者无限进步，一起追光！！！
python做生物信息学分析_Python从零开始第五章生物信息学①提取差异基因吴敬欣 python做生物信息学分析
目前来说，做生物信息学的人越来越多，但是我觉得目前而言做生信的主要有三类人：老本行是做实验的，做生信可能是为了辅助研究或者是为了发paper(有非常多的临床生选择趟生信这波水)主要是做生信的，主要涵盖高通量测序数据分析，组学数据分析等等，专门从事生物学数据分析的这群人，其大部分也是本科生物狗作为强大的生力军，以调包写R，python为主。那么这群人就要熟悉看各种包的tutorial以及如何进行常规
用Python实现生信分析——功能预测详解写代码的M教授生信分析 python 开发语言
功能预测是生物信息学中的一项重要任务，通过分析基因或蛋白质序列的特征，推测它们的生物学功能。功能预测通常涉及多种方法，包括序列比对、基序识别、机器学习模型等。这些方法可以帮助科学家推断未知基因的功能，从而加速生物学研究的进展。1.功能预测的主要方法（1）同源性比对：通过将未知基因或蛋白质序列与数据库中的已知序列进行比对，识别出同源序列，并推测它们的功能。常用工具包括BLAST、HMMER等。（2）
用Python实现生信分析——序列搜索和比对工具详解写代码的M教授生信分析 python
1.什么是序列搜索和比对工具？序列搜索和比对工具在生物信息学中用于在大型序列数据库中搜索与查询序列相似的序列，并进行比对分析。这些工具可以帮助研究人员识别与目标序列相关的已知序列，从而推测其功能、结构和进化关系。常见的序列搜索和比对工具包括：BLAST（BasicLocalAlignmentSearchTool）：最常用的序列搜索工具，能够快速找到与查询序列相似的序列。FASTA：另一个常用的序列
ztree异步加载 3213213333332132 JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑，我开始的时候也是看了API花了些时间才搞定了异步加载，在这里分享给大家。我后台代码生成的是json格式的数据，数据大家按各自的需求生成，这里只给出前端的代码。设置setting，这里只关注async属性的配置 var setting = { //异步加载配置
thirft rpc 具体调用流程 BlueSkator 中间件 rpc thrift
Thrift调用过程中，Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类，这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作：（1）将客户端程序调用的函数名和参数传递给协议层（TProtocol），协议
异或运算推导, 交换数据 dcj3sjt126com PHP 异或 ^
/* * 5 0101 * 9 1010 * * 5 ^ 5 * 0101 * 0101 * ----- * 0000 * 得出第一个规律: 相同的数进行异或, 结果是0 * * 9 ^ 5 ^ 6 * 1010 * 0101 * ---- * 1111 * * 1111 * 0110 * ---- * 1001
事件源对象周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令 g21121 mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化，主要包括字符集设置，启动设置，连接优化，表优化，分区优化等等。一修改MySQL密码及用户
[简单]poi删除excel 2007超链接 53873039oycg Excel
采用解析sheet.xml方式删除超链接，缺点是要打开文件2次,代码如下: public void removeExcel2007AllHyperLink(String filePath) throws Exception { OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart 云端月影
准备以下开源项目： 1. Struts 2.1.6 2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009) 3. jofc2，这东西不知道是没做好还是什么意思，好像和ofc2不怎么匹配，最好下源码，有什么问题直接改。 4. log4j 用eclipse新建动态网站，取名OFC2Demo，将Struts2 l
spring包详解 aijuans spring
下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念 antonyup_2006 算法 Web 应用服务器搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时，准备了解下网站的推广分析策略。所谓网站推广，目的在于让尽可能多的潜在用户了解并访问网站，通过网站获得有关产品和服务等信息，为最终形成购买决策提供支持。网站推广策略有很多，seo，email，adv
单例模式,sql注入,序列百合不是茶单例模式序列 sql注入预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时需要使用序列创建一个自增长的字段居然不会了,所以将序列写在本篇的前面 1,序列是一个保存数据连续的增长的一种方式; 序列的创建; CREATE SEQUENCE seq_pro 2 INCREMENT BY 1 -- 每次加几个 3
Mockito单元测试实例 bijian1013 单元测试 mockito
Mockito单元测试实例： public class SettingServiceTest { private List<PersonDTO> personList = new ArrayList<PersonDTO>(); @InjectMocks private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标 bijian1013 oracle 数据库 plsql
/* *使用游标 */ --显示游标 --在显式游标中使用FETCH...INTO语句 DECLARE CURSOR emp_cursor is select ename,sal from emp where deptno=1; v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; begin ope
【Java语言】动态代理 bit1129 java语言
JDK接口动态代理 JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式，为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联 package com.tom; import com.tom.model.User; import com.tom.service.IUserService;
Java通信之URL通信基础白糖_ java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持，java.net包能让程序员直接在程序中实现网络通信。在技术日新月异的现在，我们能通过很多方式实现数据通信，比如webservice、url通信、socket通信等等，今天简单介绍下URL通信。学习准备：建议首先学习java的IO基础知识 URL是统一资源定位器的简写，URL可以访问Internet和www，可以通过url
博弈Java讲义 - Java线程同步 (1) boyitech java 多线程同步锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件，共用数据库连接，全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。同步不仅可以阻止一个线程看到对象处于不一致的状态，它还可以保证进入同步方法或者块的每个线程，都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件（cri
java-给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 bylijinnan java
public class DeleteExtraSpace { /** * 题目：给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 * 方法1.用已有的String类的trim和replaceAll方法 * 方法2.全部用正则表达式，这个我不熟 * 方法3.“重新发明轮子”，从头遍历一次 */ public static v
An error has occurred.See the log file错误解决！ Kai_Ge MyEclipse
今天早上打开MyEclipse时，自动关闭！弹出An error has occurred.See the log file错误提示！很郁闷昨天启动和关闭还好着！！！打开几次依然报此错误，确定不是眼花了！打开日志文件！找到当日错误文件内容： --------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱? comsci
地球上的钛金属矿藏已经接近枯竭........... 我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床..... 那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes dai_lm google api
为了获得从A点到B点的路劲，经常会使用Google提供的API，例如 [url] http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false [/url] 从返回的结果上，大致可以了解应该怎么走，但
SQL还有多少“理所应当”？ datamachine sql
转贴存档，原帖地址：http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html！ ------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时，如何设置某些字段不需要验证 dcj3sjt126com Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如: $form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码 dcj3sjt126com crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com 管理一网站，最开始使用的虚拟空间，采用提供商支持的ftp上传网站文件，后换用vps，vps可以自己搭建ftp的，但是懒得搞，直接使用scp传输文件到服务器，现在需要更新文件到服务器，使用scp真的很烦。发现本人就职的公司，采用的git+rsync的方式来管理、同步代码，遂
sql基本操作蕃薯耀 sql sql基本操作 sql常用操作
sql基本操作 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:30:33 星期一 &
Spring4+Hibernate4+Atomikos3.3多数据源事务管理 hanqunfeng Hibernate4
Spring3+后不再对JTOM提供支持，所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考：http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站：http://www.atomikos.com/ 一.pom.xml <dependency> <
jquery中两个值得注意的方法one()和trigger()方法 jackyrong trigger
在jquery中，有两个值得注意但容易忽视的方法，分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍 1） one方法 one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数，格式为 one(type,${data},fn) &nb
拿工资不仅仅是让你写代码的 lampcy 工作面试咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是，我并不关心你是如何快速完成任务的，哪怕代码很差，只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。这个说法其实很合理：我们的工作是思考客户提出的问题，然后制定解决方案。思考第一，代码第二，公司请我们的最终目的不是写代码，而是想出解决方案。话粗理不粗。付你薪水不是让你来思考的，也不是让你来写代码的，你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空 nannan408 架构师
1.前言。如题。 2.代码。 (1)对象的复制，比spring的beanCopier在大并发下效率要高，利用net.sf.cglib.beans.BeanCopier Src src=new Src(); BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案 Rainbow702 JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面，各位可能都做过。今天碰到一个奇怪的现象，就是，同一个ajax请求，在chrome中，不论发送多少次，都可以发送至服务器端，而不会被缓存。但是，换成在IE下的时候，发现，同一个ajax请求，会发生被缓存的情况，只有第一次才会被发送至服务器端，之后的不会再被发送。郁闷。解决方法如下： ① 直接使用 JQuery提供的 “cache”参数，
修改date.toLocaleString()的警告 tntxia String
我们在写程序的时候，经常要查看时间，所以我们经常会用到date.toLocaleString()，但是date.toLocaleString()是一个过时的API，代替的方法如下： package com.tntxia.htmlmaker.util; import java.text.SimpleDateFormat; import java.util.
项目完成后的小总结 xiaomiya js 总结项目
项目完成了，突然想做个总结但是有点无从下手了。做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。先说说项目主要实现的功能吧 1，按键精灵 2，获取行情数据 3，各种input输入条件判断 4，发送数据（有json格式和string格式） 5，获取预警条件列表和预警结果列表， 6，排序， 7，预警结果分页获取 8，导出文件（excel，text等） 9，修