lyflower

信息抽取

网上信息抽取技术纵览

Line Eikvil 原著（1999.7）陈鸿标译 (2003.3)

第一章 导论

信息抽取（Information Extraction: IE）是把文本里包含的信息进行结构化处理，变成表格一样的组织形式。输入信息抽取系统的是原始文本，输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来，然后以统一的形式集成在一起。这就是信息抽取的主要任务。

信息以统一的形式集成在一起的好处是方便检查和比较。例如比较不同的招聘和商品信息。还有一个好处是能对数据作自动化处理。例如用数据挖掘方法发现和解释数据模型。

信息抽取技术并不试图全面理解整篇文档，只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的，那将由系统设计时定下的领域范围而定。

信息抽取技术对于从大量的文档中抽取需要的特定事实来说是非常有用的。互联网上就存在着这么一个文档库。在网上，同一主题的信息通常分散存放在不同网站上，表现的形式也各不相同。若能将这些信息收集在一起，用结构化形式储存，那将是有益的。

由于网上的信息载体主要是文本，所以，信息抽取技术对于那些把因特网当成是知识来源的人来说是至关重要的。信息抽取系统可以看作是把信息从不同文档中转换成数据库记录的系统。因此，成功的信息抽取系统将把互联网变成巨大的数据库！

信息抽取技术是近十年来发展起来的新领域，遇到许多新的挑战。

本文首先在第二章简要介绍信息抽取技术，第三章介绍网页分装器(wrapper)的开发，第四章介绍已经开发出来的网站信息抽取系统，第五章介绍信息抽取技术的应用范围以及首批已经进入商业运作的商用系统。

第二章 信息抽取技术概述

信息抽取原来的目标是从自然语言文档中找到特定的信息，是自然语言处理领域特别有用的一个子领域。所开发的信息抽取系统既能处理含有表格信息的结构化文本，又能处理自由式文本（如新闻报道）。IE系统中的关键组成部分是一系列的抽取规则或模式，其作用是确定需要抽取的信息[52]。网上文本信息的大量增加导致这方面的研究得到高度重视。

本章首先介绍信息抽取领域的发展。第2.1.节比较了信息抽取和信息检索的区别；第2.2.节介绍IE的历史。接下来两节解释评价IE系统的指标和常用的两派技术方法。信息抽取技术所处理的文本类型将在第2.5.节中说明。第2.6.节描述信息抽取技术可利用的网页特征。

第2.1.节 IR和IE

IR的目的是根用户的查询请求从文档库中找出相关的文档。用户必须从找到的文档中翻阅自己所要的信息。

就其目的而言，IR和IE的不同可表达如下：IR从文档库中检索相关的文档，而IE是从文档中取出相关信息点。这两种技术因此是互补的。若结合起来可以为文本处理提供强大的工具[24]。

IR和IE不单在目的上不同，而且使用的技术路线也不同。部分原因是因为其目的差异，另外还因为它们的发展历史不同。多数IE的研究是从以规则为基础的计算语言学和自然语言处理技术发源的。而IR则更多地受到信息理论、概率理论和统计学的影响[24]。

第2.2.节 IE的历史

自动信息检索已是一个成熟的学科，其历史与文档数据库的历史一样长。但自动信息抽取技术则是近十年来发展起来的。有两个因素对其发展有重要的影响：一是在线和离线文本数量的几何级增加，另一是“消息理解研讨会”（MUC）近十几年来对该领域的关注和推动。

IE的前身是文本理解。人工智能研究者一直致力于建造能把握整篇文档的精确内容的系统。这些系统通常只在很窄的知识领域范围内运行良好，向其他新领域移植的性能却很差[53]。

八十年代以来，美国政府一直支持MUC对信息抽取技术进行评测。各届MUC吸引了许多来自不同学术机构和业界实验室的研究者参加信息抽取系统竞赛。每个参加单位根据预定的知识领域，开发一个信息抽取系统，然后用该系统处理相同的文档库。最后用一个官方的评分系统对结果进行打分。

研讨会的目的是探求IE系统的量化评价体系。在此之前，评价这些系统的方法没有章法可循，测试也通常在训练集上进行。MUC首次进行了大规模的自然语言处理系统的评测。如何评价信息抽取系统由此变成重要的问题，评分标准也随之制定出来。各届研讨会的测试主题各式各样，包括拉丁美洲恐怖主义活动、合资企业、微电子技术和公司管理层的人事更迭。

过去五、六年，IE研究成果丰硕。英语和日语姓名识别的成功率达到了人类专家的水平。通过MUC用现有的技术水平，我们已有能力建造全自动的 IE系统。在有些任务方面的性能达到人类专家的水平[53]。不过自1993年以来，每届最高组别的有些任务，其成绩一直没有提高（但要记住MUC的任务一届比一届复杂）。一个显著的进步是，越来越多的机构可以完成最高组别的任务。这要归公于技术的普及和整合。目前，建造能达到如此高水平的系统需要大量的时间和专业人员。另外，目前大部分的研究都是围绕书面文本，而且只有英语和其他几种主要的语言。

第2.3.节评价指标在

信息抽取技术的评测起先采用经典的信息检索(IR)评价指标，即回召率(Recall)和查准率(Precision)，但稍稍改变了其定义。经修订后的评价指标可以反映IE可能产生的过度概括现象(Over-generation)，即数据在输入中不存在，但却可能被系统错误地产生出来（Produced）[24]。

就IE而言，回召率可粗略地被看成是测量被正确抽取的信息的比例(fraction)，而抽准率用来测量抽出的信息中有多少是正确的。计算公式如下：

P=抽出的正确信息点数/所有抽出的信息点数

R=抽出的正确信息点数/所有正确的信息点数

两者取值在0和1之间，通常存在反比的关系，即P增大会导致R减小，反之亦然。

评价一个系统时，应同时考虑P和R，但同时要比较两个数值，毕竟不能做到一目了然。许多人提出合并两个值的办法。其中包括F值评价方法：

其中是一个预设值，决定对P侧重还是对R侧重。通常设定为1。

这样用F一个数值就可很看出系统的好坏。

第2.4.节 IE系统设计的两大方法

IE系统设计主要有两大方法：一是知识工程方法（Knowledge Engineering Approach），二是自动训练方法(Automatic Training Approach)。

知识工程方法主要靠手工编制规则使系统能处理特定知识领域的信息抽取问题。这种方法要求编制规则的知识工程师对该知识领域有深入的了解。这样的人才有时找不到，且开发的过程可能非常耗时耗力。

自动训练方法不一定需要如此专业的知识工程师。系统主要通过学习已经标记好的语料库获取规则。任何对该知识领域比较熟悉的人都可以根据事先约定的规范标记语料库。经训练后的系统能处理没有见过的新文本。这种方法要比知识工程方法快，但需要足够数量的训练数据，才能保证其处理质量。

第2.5.节自由式、结构化和半结构化文本

自由式文本：信息抽取最初的目的是开发实用系统，从自由文本中析取有限的主要信息。例如，从报道恐怖袭击活动的新闻中析取袭击者、所属组织、地点、受害者等信息；又如，从医药研究报告的摘要中提取新产品、制造商、专利等主要信息点。

处理自由文本的IE系统通常使用自然语言处理技巧，其抽取规则主要建立在词或词类间句法关系的基础上。需要经过的处理步骤包括：句法分析、语义标注、专有对象的识别（如人物、公司）和抽取规则。规则可由人工编制，也可从人工标注的语料库中自动学习获得。

自由文本信息点抽取技术的现有水平不可与人的能力同日而语，但还是有用的，不管其抽取规则是人工编制的还是通过机器学习的[52]。虽然自然语言理解是漫长的期待，但是，信息抽取技术确实可行，因为这项技术对其需要搜索的模式类型有很强的限定，而这种限定是有根有据的。

结构化文本：此种文本是一种数据库里的文本信息，或者是根据事先规定的严格格式生成的文本。从这样的文本中抽取信息是非常容易的，准确度也高，通过描述其格式即可达到目的。所用的技巧因而相对简单。

半结构化文本：这是一种界于自由文本和结构化文本之间的数据，通常缺少语法，象电报报文，也没有严格的格式。用自然语言处理技巧对这样的文本并不一定有效，因为这种文本通常连完整的句子都没有。因此，对于半结构化文本不能使用传统的IE技巧，同时，用来处理结构化文本的简单的规则处理方法也不能奏效。

在半结构化文本中确实存在一些结构化的信息，但是，抽取模式通常依赖字符和象html标记那样的分隔标志。句法和语义信息的作用则非常有限。

第2.6.节网页

因特网提供了一个巨大的信息源。这种信息源往往是半结构化的，虽然中间夹杂着结构化和自由文本。网上的信息还是动态的，包含超链接，以不同的形式出现，而且跨网站和平台，全网共享。因此，因特网是一个特殊的挑战，一直推动着从结构化和半结构化文本中抽取信息的研究向前迈进。

有些研究者把所有网页都归入半结构化文本，但Hsu[31]对网页类型做了颇有用的定义：若能通过识别分隔符或信息点顺序等固定的格式信息即可把“属性-值”正确抽取出来，那么，该网页是结构化的。半结构化的网页则可能包含缺失的属性，或一个属性有多个值，或一个属性有多个变体等例外的情况。若需要用语言学知识才能正确抽取属性，则该网页是非结构化的。

网页的结构化程度总是取决于用户想要抽取的属性是什么。通常，机器产生的网页是非常结构化的，手工编写的则结构化程度差些，当然有很多例外。

传统的NLP技巧对抽取半结构化文本的信息并不是很有用，因其缺少规范的语法结构，而且，NLP方法的处理速度通常比较慢，这对于网上海量信息来说是一个大问题。

网上大部分内容都以属性列表的形式呈现，例如很多可搜索的网页索引。这种外观上的规律性可被利用来抽取信息，避免使用复杂的语言学知识。

网页上的组织结构和超链接特性是需要认真考虑的重要因素。例如，可能需要打开链接的内容才能找到你想要的信息。网页的组织结构不同，抽取规则也不同。

网上数据库查询的结果通常是一系列的包含超级链接的网页。文献[14]把这类网页分成三类：一层一页，即一个页面即包含了所有的查询结果；一层多页，即需要调出多个链接才能获得所有的结果；两层页面，即第一层是列表式条目链接，点击链接后才能看到详细资料。

第2.7.节小结

IE领域是近十年来新发展起来的研究领域，一是由于“消息理解研讨会”(MUC)的推动，二是由于网上内容的大量增加。

IE对自由文本和结构化文本都能处理。NLP技巧通常用于自由文本，对结构化和半结构化文本并不是太适合。相反，基于分隔符和字符的方法更能奏效。

因特网是包含大量半结构化文本的信息源。网页与传统的文本相比，有许多特点：量大，常更新，变化多，页面的一大半包含结构化的文字块，还可能有超链接。因此，网页为信息抽取研究带来新的挑战。

第三章 分装器生成

第3.1.节分装器

第3.2.节从IE发展成WG

第3.3.节分装器生成

第3.4.节分装器的归纳学习

第3.5.节小结

各网站的信息内容互相独立，要收集起来有困难。信息抽取技术就是冲着解决此困难而来的。

因特网上还存在一个被称为“暗藏网”（the hidden web），即那些网上数据库系统。文献[37]估计因特网上80%的内容存在于这种看不见的因特网中。搜索引擎的“网络爬虫”抓不到这些网页。这就意味着需要一种独立的工具从这些网页中收集数据。

从网站中抽取信息的工作通常由一种叫做“分装器”（Wrapper，也译“包装器”）的程序完成。以下3.1.和3.2.节将介绍分装器的概念及分其生成（Wrapper Generation, WG）研究的历史。第3.3.节总结了构造分装器的不同方法。手工制造分装器的工作繁重，因此，自动生成的研究变得非常重要。机器学习的方法非常诱人，第3.4.节介绍了归纳式学习的相关技巧。

第3.1.节分装器

分装器是一个程序，用于从特定的信息源中抽取相关内容，并以特定形式加以表示。在数据库环境下，分装器是软件的组成部分，负责把数据和查询请求从一种模式转换成另外一种模式。在因特网环境下，分装器的目的是把网页中储存的信息用结构化的形式储存起来，以方便进一步的处理。

因特网分装器可接受针对特定信息源的查询请求，并从该信息源中找出相关的网页，然后把需要的信息提取出来返回给用户。它由一系列的抽取规则以及应用这些规则的计算机程序代码组成。通常，一个分装器只能处理一种特定的信息源。从几个不同信息源中抽取信息，需要一系列的分装器程序库。分装器的运行速度应该很快，因为它们要在线处理用户的提问。它还要能应付网络经常变化、运行欠稳定的特点。比如，网络连接失败、文档格式混乱、格式变化等。

建造针对网页的分装器主要有两个好处：一是提高了从某一特定信息源获取相关信息的能力，二是能把不同信息源的信息整合到数据库中，用通用查询语言即可查找信息。

第3.2.节从IE发展成WG

人们需要能从不同网页资源抽取并整合数据的工具。这种需求造就了分装器生成研究领域的发展。分装器生成（WG）领域独立于传统的IE领域。典型的WG应用系统能从网上数据库返回的查询结果网页中抽取数据。这些网页构成一个被WG业内人称之为“半结构化”的信息源。为了能把这些网页的数据整合在一起，必须把相关的信息从这些网页中抽取出来。因此，分装器实质上是针对某一特定信息源的IE应用系统。

传统的IE系统采用基于句法和语义条件相结合的抽取模式。如前所述，对于半结构化信息源，基于语言知识的模式并不是很管用。典型的WG系统生成的是基于分隔符的抽取模式。由于这类网页均是在一个统一的模板上即时生成的，因此，只要学习了几个样本网页后，系统即能识别分隔符特征串，构成不同的模板区域。

从网页中抽取信息并不容易，要考虑许多问题，例如信息量膨胀的问题、系统灵活性的问题等。

第3.3.节分装器生成

可用人工或半自动的办法生成分装器。手工生成分装器通常需要编写专用的代码，要花很多时间理解文档的结构并将其转换成程序代码。虽然处理半结构化的网页要容易一些，但并仍然还是比较烦琐而且容易出错。

有一些工具可帮助手工生成分装器。使用的方法之一是利用描述性语法对网页结构进行描述，并且提供工具生成代码。不过，编写语法本身就是一项很艰巨和耗时的工作，而且需要高水平的专家。

手工构造的IE系统不能适应处理对象所属领域的变化。每个领域都要有相应的分装器，维护成本很高。对于网上信息源来说，这些缺点尤为明显，因为网页数量庞大，内容和结构繁杂，而且新的信息源不断增加，旧的信息还会改变，因此，帮助生成自动抽取网页信息的分装器的技术变得非常重要。

半自动化生成分装器的技术得益于上述分装器生成的支持工具。一种方法是使用向导让用户告诉系统那些信息是需要抽取的。通过图形界面，用户即可以通过演示编写程序，标示出需要抽取的区域。这意味着在分装器编码过程中不需要专业知识，而且比手工编码少产生错误。但是，用这种方法也需要对新的站点进行重新的学习，因为这种系统不能自己学习新的网站结构，也不能处理旧网站的结构变化。

全自动分装器的生成利用机器学习的技巧，开发学习算法，设计出从非常简单到相对复杂的分装器。即使是全自动的方法也需要人工专家的少量参与。系统必须通过学习阶段，从例子中归纳出规则。通常，这个过程是由人工指导的。

分装器归纳法是一种自动构造分装器的技术。主要思想是用归纳式学习方法生成抽取规则。用户在一系列的网页中标记出需要抽取的数据，系统在这些例子的基础上归纳出规则。这些规则的精确度如何取决于例子的质量如何。如果能代表那些需要处理的网页，那么，这些例子就是高质量的。

第3.4.节分装器的归纳学习

用于IE的机器学习方法有很多，如符号化学习法，ILP（归纳逻辑设计法），分装器归纳法，统计法和语法归纳法。在分装器归纳法中，分装器的生成被描述成一种归纳学习问题。

在最高层次，归纳学习法是从一些实例中完成未知目标概念的计算任务，是对现象的一种概括。主要思路是，如果归纳出来的规则能解释观察到的实例，或者在新事例出现时能做出准确的预测，那么，这种归纳是成功的。在分类、知识获取、知识发现等任务中被证明是有用的。

归纳学习法是通过推论来完成的。推论是一种从部分到整体、从个别到一般、从个体到普遍的推理过程。老师提供几个实例给学生，学生则从中归纳出普遍适用的规则。人类的学习是基于实验性的观察过程中的，对于我们来说，提供好的观察事例要比提供明确的完整的规则要容易。总的说来，归纳式学习法是一种建立在假设的基础上的研究方法。

有指导的归纳式学习法可以分为两类：零阶(zero-order)和一阶(first-order)学习法。两者的区别在于其训练数据和所形成的理论的表达方式的不同。

零阶学习法所采用的事例是事先分好类的。每个事例都由对应于固定属性集合的特定值描述。这类系统发展的理论以决策树（Decision Tree）或生成规则（Production Rules）的形式出现，把事例的类和它的属性值联系起来。不幸的是，决策树的学习系统缺少表达能力，因为它们建立在命题逻辑的基础上，不能学习到对象之间的关系（如家族成员的关系）之类的概念。从数据库角度看，他们只能处理“属性-值”这种关系。

关系型一阶学习法可在带有结构信息的例子中进行归纳，例如一阶逻辑谓词和函数，无界限结构体（Unbounded Structures，如列表，树）等。尤其是ILP方法，专门研究从例子中归纳一阶逻辑形式的规则，逻辑编程的学习以及其他关系型知识。

ILP的研究介于机器学习和逻辑编程两种传统研究领域之间。许多其他的机器学习算法均限定于处理有限的基于特征表达的例子和概念，而不能处理复杂的关系型和递归型知识。但ILP借助一阶逻辑的表达能力，可以学习关系和递归概念。ILP还可以学习更丰富的表达式和比决策树更复杂的概念，因此，已应用于解决从包含复杂结构和关系的文档中抽取信息的学习中。

ILP算法采用两种不同的归纳方法：一是自下而上（概括），另一是自上而下（具体化）。自下而上的方法是数据驱动的。先选择几个例子，在此基础上提出一个假设，使之能处理这些例子。然后把这个假设推而广之，使之能处理其余例子。自上而下的方法则先从最普遍的假设开始，通过引入反例，把假设规则不断具体化。总的说来，自上而下算法可以归纳出一大类的逻辑程序，但需要相对多的样例。而自下而上算法有为数不多的例子就行了，但只能归纳出一小类的程序。

目前已经有了几个实验ILP系统，包括有名的FOIL[47]和GOLEM[39]。FOIL由Quinlan于１９８９年开发，采用自上而下的算法。在一个既有正又有反的事实的训练集中，先找出一个只覆盖正例而不涉及反例的逻辑子句(clause)，然后把这个子句覆盖的事实从训练集中删除。如此直到训练集中没有正例为止。GOLEM（Muggleton and Feng 1990）采用贪婪覆盖算法（Greedy Covering Algorithm）。子句的生成是自下而上的，建立在更多具体子句的“最少概括”（least-general）的概括生成上。概括一直进行直到所有的正例都被覆盖而无一个反例被涉及。

第3.5.节小结

可以预计，网上结构化信息将不断增加。通过查询网上数据库所获得的网页也将不断增加。这些网页是无法让搜索引擎获取的。因此，越来越需要可以把相关信息从这些网页中抽取出来的工具。

分装器是专门从特定信息源中抽取需要的信息并返回结果的程序。对于从不同信息源中整合信息资料是非常有用的。由于这种需求不断增加，分装器生成的研究领域从传统的IE领域中脱颖而出。相比之下，生成分装器所采用的技术比较少依赖句子的全面语法分析和NLP技术。

分装器可由程序员直接编写，或手工指定网站结构再由程序自动生成规则和代码。无论是哪种情况，这个过程都是费时费力的，而且网页的结构经常变化，新网页层出不穷。这样，必须建造新的分装器。为此，网上信息抽取的研究转向了半自动和自动生成分装器的工作上。

分装器归纳法是用机器学习方法自动生成分装器的方法。在归纳法中，分装器的生成被看成是归纳学习的问题，其任务是从一组例子中计算出一般规则，以解释观察到的事实。教师提供例子，学生在例子的基础上作出归纳，推导出规则。

归纳逻辑编程方法处于传统的机器学习领域和逻辑编程之间，使用一阶逻辑规则。得益于一阶逻辑丰富的表达能力，ILP方法可以学习关系型和嵌套概念。这是大多数基于“属性-值”表达方式的机器学习算法所无法达到的。ILP方法为此被应用到学习如何从复杂结构和关系的文档中抽取信息。

你可能感兴趣的:(数据库,IE,文档,自然语言处理,任务,wrapper)

Python爬虫网安-request+示例 Whoisshutiao python爬虫网安 python 爬虫开发语言网络安全
目录get&post自定义请求头文件上传添加cookie获取网页使用cookiejarsessionssl证书校验超时身份认证（httpbasicAuth）代理配置get&post#！/usr/bin/envpythonimportrequests#get#r=requests.get('http://httpbin.org/get')#print(r.text)#添加参数的get请求data={
MyBatis 简介 hweiyu00 技术栈杂谈 mybatis
MyBatis简介MyBatis是一款优秀的持久层框架，它支持定制化SQL、存储过程以及高级映射，能够帮助开发者将Java对象与数据库表进行灵活映射，简化数据持久化操作。以下从多个维度详细介绍MyBatis：一、核心定位与优势轻量级框架：相比Hibernate等全自动ORM框架，MyBatis更“轻”，开发者需手动编写SQL语句，灵活性更高，便于优化性能。ORM映射功能：通过XML或注解方式，将J
Go 语言高效连接 SQL Server（MSSQL）数据库实战指南程序员爱钓鱼数据库 golang sqlserver
在Go语言的开发过程中，与MicrosoftSQLServer(MSSQL)数据库的交互是常见需求之一。本文将详细介绍如何使用Go语言高效、安全地连接SQLServer，并进行基本的CRUD（增删改查）操作。1.安装MSSQL驱动Go语言使用github.com/denisenkom/go-mssqldb作为SQLServer驱动，首先需要安装它：goget-ugithub.com/denisen
Spring AI 结合 MCP MySQL 实现对话式数据库查询没刮胡子软件开发技术实战专栏人工智能AI Spring 数据库 spring 人工智能 spring-ai mcp-server mysql
在现代应用开发中，将人工智能与数据库查询结合可以创造更自然、更智能的用户交互方式。下面我将详细介绍如何使用SpringAI框架结合MCP（可能指MySQL连接池或相关组件）实现对话中的数据库查询功能。什么是SpringAI和MCPMySQLSpringAI框架概述SpringAI是基于Spring生态的人工智能集成框架，它提供了：与大型语言模型(LLM)的集成能力对话管理和自然语言处理功能业务逻辑
Flutter基础（对接 API） aaiier flutter
1.添加依赖首先在pubspec.yaml中添加http包：dependencies:flutter:sdk:flutterhttp:^1.1.0#网络请求库然后运行flutterpubget来获取依赖包。2.创建API服务类创建一个专门的类来处理所有API请求，方便统一管理。import'dart:convert';//用于JSON编解码import'package:http/http.dart
信息抽取领域关键Benchmark方法：分类体系
信息抽取领域关键Benchmark方法：分类体系摘要信息抽取（InformationExtraction,IE）作为自然语言处理的核心任务之一，旨在从非结构化文本中识别并结构化关键信息（如实体、关系、事件等），广泛应用于知识图谱构建、智能问答和数据分析等领域。近年来，随着深度学习技术的快速发展，信息抽取方法在性能和应用范围上取得了显著进步，但同时也面临着任务多样性、跨领域泛化性以及低资源场景下的适
深度学习使用Pytorch训练模型步骤 vvvdg 深度学习 pytorch 人工智能
训练模型是机器学习和深度学习中的核心过程，旨在通过大量数据学习模型参数，以便模型能够对新的、未见过的数据做出准确的预测。训练模型通常包括以下几个步骤：1.数据准备：收集和处理数据，包括清洗、标准化和归一化。将数据分为训练集、验证集和测试集。2.定义模型：选择模型架构，例如决策树、神经网络等。初始化模型参数（权重和偏置）。3.选择损失函数：根据任务类型（如分类、回归）选择合适的损失函数。4.选择优化
公文写作指令 andyyah晓波指令合集人工智能
公文写作指令️KIMI应用介绍“KIMI是一款便捷的应用程序，用户可以通过电脑或手机轻松访问和使用。”电脑端访问在电脑上使用KIMI应用，用户可以通过百度搜索“KIMI”来找到相关信息和链接。手机端访问对于手机用户，可以在手机应用商店中搜索“KIMI”来下载和安装该应用。访问方式总结设备类型访问方式电脑百度搜索“KIMI”手机手机应用商店搜索“KIMI”使用KEMIE生成会议通知“使用KEMIE可
Go 语言单例模式全解析：从青铜到王者段位的实现方案后端
什么是单例模式？单例模式（SingletonPattern）是一种创建型设计模式，它确保一个类（或结构体，在Go语言中）只有一个实例，并提供一个全局访问点来访问这个实例。这个模式在需要协调系统中动作的场景下非常有用，例如日志记录、配置管理或数据库连接池。为什么在Go中需要单例模式？Go语言以其简洁和高效的并发能力而闻名，支持goroutine和通道（channel）来实现并发编程。在并发环境中，确
OpenAI-Compatible Edge-TTS API 使用教程马琥承
OpenAI-CompatibleEdge-TTSAPI使用教程openai-edge-ttsFree,high-qualitytext-to-speechAPIendpointtoreplaceOpenAI,Azure,orElevenLabs项目地址:https://gitcode.com/gh_mirrors/op/openai-edge-tts1.项目介绍本项目提供了一个本地化的、与Ope
开源项目安装与配置指南：OpenAI-Compatible Edge-TTS API 霍虹情Victorious
开源项目安装与配置指南：OpenAI-CompatibleEdge-TTSAPIopenai-edge-ttsFree,high-qualitytext-to-speechAPIendpointtoreplaceOpenAI,Azure,orElevenLabs项目地址:https://gitcode.com/gh_mirrors/op/openai-edge-tts1.项目基础介绍OpenAI-
数据库的查询爱吃草莓的土拨鼠️ 数据库
一.单表查询1.简单数据查询a.显示指定字段列：使用“*”显示全部字段列；列出字段名显示指定字段列。b.显示字段列别名：使用AS关键字为字段指定别名，方便理解。c.显示计算的列值：通过算术运算符(+-*/%)对字段进行计算，得到新的列值。d.消除重复行：使用DISTINCT参数消除查询结果中的重复行。e.限制行数：利用LIMIT控制返回的行数，可指定偏移量和行数。f.排序：ORDERBY子句按指定
深入解析 Cookie、LocalStorage 和 SessionStorage 浪裡遊杂文前端服务器后端信息与通信 tcp/ip 交互
浏览器数据存储三剑客：深入解析Cookie、LocalStorage和SessionStorage在现代Web应用开发中，经常需要在用户的浏览器端存储数据，以实现用户状态管理、个性化设置、离线功能等。浏览器为此提供了几种主要的客户端存储机制，其中Cookie、LocalStorage和SessionStorage是最常用且核心的三种。虽然它们都用于在浏览器端存储数据，但它们在设计目的、生命周期、作
解决报错：org.apache.catalina.connector.ClientAbortException: java.io.IOException: Broken pipe 天黑请闭眼 Java异常处理 java
目录一、场景二、报错信息三、原因四、解决一、场景1、前端调用后端接口报错2、接口功能为导出excel二、报错信息org.apache.catalina.connector.ClientAbortException:java.io.IOException:Brokenpipeatorg.apache.catalina.connector.OutputBuffer.realWriteBytes(Out
STM32F407 步进电机梯形加减速 smallerlang STM32 电机 stm32 单片机 arm
/*USERCODEBEGINHeader*//*********************************************************************************@file:main.c*@brief:Mainprogrambody************************************************************
go语言PDF---golang完整文档尹泽凝
go语言PDF---golang完整文档【下载地址】go语言PDF---golang完整文档本仓库提供了Go语言的完整文档PDF资源，内容全面、系统，涵盖基础语法、特性、标准库、并发编程等关键知识点。通过实例讲解，帮助您快速掌握Go语言的开发技巧，为实际项目开发奠定坚实基础。PDF格式便于在电脑、平板、手机等多种设备上阅读，随时随地学习。无论您是初学者还是有一定经验的开发者，这份文档都将成为您高效
掌握编程：数字时代的必备技能 afsdfewasdf AI编程
编程在现代社会的必要性学习编程在当今数字化时代具有显著优势。随着科技发展，编程技能已成为许多行业的基础需求，从软件开发到数据分析，甚至传统行业也在逐步依赖技术解决方案。掌握编程能力可以提升个人竞争力，开拓职业机会。就业市场需求旺盛技术岗位如软件工程师、数据科学家、人工智能专家等持续增长。非技术岗位如市场营销、金融分析也要求基础编程知识处理自动化任务或数据分析。掌握编程技能能显著提高薪资水平和职业发
浏览器存储机制解析：Cookie vs localStorage vs sessionStorage neon1204 计算机｜网络计算机网络缓存
全面对比：cookie、localStorage和sessionStorage1.Cookie核心作用：用于浏览器和服务器通信（如身份验证）存储大小：最多4KB生命周期：可设置过期时间（通过Expires或Max-Age）未设置则随浏览器会话结束失效访问方式：读/写：document.cookie（字符串形式）修改需手动字符串拼接通信特性：每次HTTP请求自动携带（通过请求头）增加网络负担安全相关
基于 Kintex UltraScale 系列 2 路 QSFP+40G 光纤 PCIe 数据传输卡 / 光纤适配器（5GByte/s 带宽KU060光纤 PCIe 数据传输卡） F_white 数据中心视频与图像采集处理机器视觉
PCIE732是一款基于PCIE总线架构的高性能数据传输卡，板卡具有1个PCIex8主机接口、2个QSFP+40G光纤接口，可以实现2路QSFP+40G光纤的数据实时采集、传输。板卡采用Xilinx的高性能KintexUltraScale系列FPGA作为实时处理器，板载2组独立的72位DDR4SDRAM大容量缓存。板卡具有1个RJ45千兆以太网口以及若干IO信号。一般应用于基于服务器的雷
WPF中获取主窗体周杰伦fans ai学习参考 WPF笔记学习C#的笔记 wpf
在WPF的MVVM模式中，通常不直接引用主窗体（MainWindow），而是通过依赖注入、事件聚合器或命令参数传递等方式实现逻辑解耦。以下是几种推荐方法：方法1：依赖注入（推荐）在ViewModel中定义一个接口，通过构造函数注入主窗体服务。步骤：定义接口（可选）：publicinterfaceIMainWindowService{voidShowMessage(stringmessage);}在
next-hexagonal-starter：前端六边形架构的简约实践翟珊兰
next-hexagonal-starter：前端六边形架构的简约实践next-hexagonal-starter项目地址:https://gitcode.com/gh_mirrors/ne/next-hexagonal-starter项目介绍在软件开发中，六边形架构（HexagonalArchitecture）是一种设计模式，它通过将应用程序的业务逻辑与外部关注点（如UI、数据库、框架等）解耦，
非结构化数据真“野”？聊聊AI处理它时踩过的那些坑 Echo_Wish Python 进阶人工智能
非结构化数据真“野”？聊聊AI处理它时踩过的那些坑在AI圈子里有一句“老话”：真正的世界，是非结构化的。图像、音频、视频、文本、传感器原始数据……这些在数据库里没个字段、没个主键的家伙，占据了全世界80%以上的数据量。咱们都喜欢说“数据是新时代的石油”，但很少人说：非结构化数据，就是粘稠未提炼的原油——处理它，才是最累的活。这篇文章，我不想跟你讲那些“炫技”的论文和模型，而是从一个一线AI工程师的
探索未来Android开发：深度解析JetHub项目宗廷国Kenyon
探索未来Android开发：深度解析JetHub项目JetHubSampleAppwithJetpackcomponents(LiveData,Navigation,ViewModel)+MVVM+coroutine+singleactivity项目地址:https://gitcode.com/gh_mirrors/je/JetHub随着Android技术的不断演进，开发者们总是在寻找那些能够引领
基于springboot的社会志愿者管理系统 QQ242219979 spring boot 后端 java
目录部分效果实现截图本系统介绍关于我开发技术详细介绍开发思路核心代码参考示例基于springboot的社会志愿者管理系统论文提纲参考系统测试源码获取详细视频演示或者查看其他版本：文章底部获取博主联系方式！部分效果实现截图本系统介绍基于springboot的社会志愿者管理系统采用的开发工具：IntelliJIDEA，VScode；数据库管理软件：Navicat；服务器运行平台：Tomcat；开发技术
SD-WAN优化云应用与多云架构访问的关键策略
1.SD-WAN如何优化企业对公有云和SaaS应用的访问？1.1智能流量优化SD-WAN通过应用识别技术，可以根据不同的业务应用流量需求，动态分配网络资源。例如，SD-WAN能够优先为钉钉、企业微信、金山文档等关键SaaS应用分配低延迟、高带宽的链路，确保这些应用的高效运行。动态路径选择：SD-WAN可实时监测网络性能（如延迟、抖动、丢包率），并基于网络状态动态选择访问云服务（如阿里云、腾讯云、华
oracle 归档日志与RECOVERY_FILE_DEST 视图是桃萌萌鸭~ oracle 数据库
1.RECOVERY_FILE_DEST视图的作用RECOVERY_FILE_DEST是Oracle数据库用于管理快速恢复区（FastRecoveryArea,FRA）的一个视图。FRA是Oracle提供的一种集中存储恢复相关文件（如归档日志、备份文件、闪回日志等）的区域。RECOVERY_FILE_DEST视图的主要作用显示快速恢复区的路径和状态：快速恢复区的配置路径。快速恢复区的总大小和当前使
QT-登录界面的实现是桃萌萌鸭~ ui qt c++物联网数据库开发
QT-登录界面的实现一、登录界面设计要求创建一个窗体，设计用户登录的界面（含有用户名、密码），并实现用户登录的功能，要求用户提交的登录按钮时能获取界面中的用户名、密码数据并与数据库中的数据进行匹配，若用户名，密码正确则登录成功，否则登录失败。二、具体实现过程1、图片演示2、详细代码实现(1)dialog.cpp：（登录界面.cpp文件）#include"dialog.h"#include"ui_d
Oracle 导入导出 dmp 数据文件实战 dazhong2012 数据库 oracle 数据库
一、DMP文件基础知识1.DMP文件定义DMP（DataPumpDumpFile）是Oracle数据库专用的二进制格式文件，由expdp/impdp或旧版exp/imp工具生成。它包含数据库对象的元数据（表结构、索引等）和实际数据，是数据备份、迁移和恢复的核心载体。2.DMP文件结构文件头：记录Oracle版本、字符集、导出时间等元信息。数据段：存储表数据，按数据块组织，支持并行读写。索引段：加速
No row with the given identifier exists 解决方法 dazhong2012
博客分类：异常、错误处理Hibernate有两张表,a和b.产生此问题的原因就是a里做了关联或者(特殊的多对一映射,实际就是一对一)来关联b.当hibernate查找的时候,b里的数据没有与a相匹配的,这样就会报Norowwiththegivenidentifierexists这个错.(一句话,就是数据的问题!)假如说,a里有自身的主键id1,还有b的主键id2,这两个字段.如果hibenrate
Spring Cache+Redis缓存方案详解：从代码到实践大手你不懂 Java Java项目实战 Redis spring 缓存 redis
描述：在现代Java开发中，缓存是提升系统性能的核心手段之一。本文通过实际代码案例，深入解析SpringCache与Redis的集成原理，结合项目中的ModuleDatabaseInfoService接口和RedisConfig配置，探讨如何通过声明式缓存实现高效的数据库访问优化。一、核心代码解析1.服务接口设计（拿查询数据源配置信息举例）publicinterfaceModuleDatabase
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu

信息抽取

网上信息抽取技术纵览

第2.1.节 IR和IE

第2.2.节 IE的历史

第2.3.节 评价指标在

第2.4.节 IE系统设计的两大方法

第2.5.节 自由式、结构化和半结构化文本

第2.6.节 网页

第2.7.节 小结

第3.1.节 分装器

第3.2.节 从IE发展成WG

第3.3.节 分装器生成

第3.4.节 分装器的归纳学习

第3.5.节 小结

你可能感兴趣的:(数据库,IE,文档,自然语言处理,任务,wrapper)

第2.3.节评价指标在

第2.5.节自由式、结构化和半结构化文本

第2.6.节网页

第2.7.节小结

第3.1.节分装器

第3.2.节从IE发展成WG

第3.3.节分装器生成

第3.4.节分装器的归纳学习

第3.5.节小结