ganlantree

基于词汇链的预案主题抽取方法研究

rel="File-List" href="file:///C:%5CDOCUME%7E1%5C%E7%BD%97%E5%BF%97%E6%88%90%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_filelist.xml"> rel="Edit-Time-Data" href="file:///C:%5CDOCUME%7E1%5C%E7%BD%97%E5%BF%97%E6%88%90%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_editdata.mso"> rel="OLE-Object-Data" href="file:///C:%5CDOCUME%7E1%5C%E7%BD%97%E5%BF%97%E6%88%90%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_oledata.mso">

基于词汇链的预案主题抽取方法研究

裘江南 [1] 罗志成² 王延章1

(1.大连理工大学管理学院，大连，116024，2.武汉大学信息管理学院，武汉，430072)

摘要： 本文针对应急预案自动主题抽取的需求，致力于词汇语义相关度的计算，构建了一个基于词汇链算法且符合人的主观感受的主题抽取模型。模型根据应急预案文本的特点，运用了若干自然语言处理技术，改进了原始的词汇链生成算法，提出了一种多因素词语权重算法。最终，通过与人工主题词抽取的实验结果相比较，该主题提取模型在查全率和查准率上都取得了较好的效果。

关键词 主题抽取，词汇链，语义相关，应急预案

Research on Semantic Relatedness Based Subjects Extraction from Emergency Plans

Qiu Jiangnan¹ Luo Zhicheng²Wang Yanzhang¹

^{(1.School of Management of DalianUniversity of Technology, Dalian 116024,}

^{2. School of Information Management, WuhanUniversity, Wuhan 430072)}

Abstract: The paper aimed at the requirement of the automatic extraction of subject from the emergency plans, took up with the measures of lexical semantic relatedness, and has constructed a subject extraction model based on the lexical chain algorithm which accords with human’s subjective feeling. According to the characteristics of the emergence plans text and the needs of the project, the model used a number of natural language processing methods, improved the original chain generating algorithm, and brought forward a weight algorithm base on multi-factors. Finally, an experimental was carried out which compared the human subject extraction results to our system result, and the recall and the precision showed that our model do a good job.

Keywords Subject Extraction, Lexical Chain, Semantic Relatedness, Emergency Plans

1 引言

应急管理的过程中，预案是应急决策和指挥者依法处置的法律依据，应急决策相关主题知识段落可能是一篇预案文本、一篇预案文本的一部分或几篇预案文本各部分的集合。随着中央政府、各部委、各地方政府发布的预案数量与日剧增。因此，能够快速、准确、全面地从众多预案中提取相关文本信息是应急辅助决策信息系统的主要功能，而其中的核心基础是实现从大量的文本中抽取出用户相关的主题性知识段落。传统的全文检索方法可以提供文本段落的定位功能，但是全文检索的核心是关键字符的机械式匹配，所以经常出现检索不全、答非所问的结果^[1]，因而传统全文检索方式难以满足应急管理的需要。

本文针对预案的文本特点，采用预案文本结构化和文本章节主题抽取的信息组织方法，为快速准确的知识定位和检索打下基础。有关中文主题抽取和标引方面学术界已作了较多的研究，具体包括：1）王永成等人^[2]建立了中文文献主题自动标引系统，提出了采用实词的相对频率、特征词，并结合词形聚类的主题关键词加权标引算法。2）李素建等^[3]提出了利用最大熵模型进行关键词自动标引的方法，由于特征参数估计的误差，导致最终查全率和查准率都不理想。3）索红光等人^[4]提出一种基于词汇链的主题抽取方法，并取得了较好的效果，但该项研究由于采用刘群^[5]的没有提供标准接口的《知网》相似度计算软件包，导致词汇链算法的使用受到很多限制。

基于词汇链的主题抽取方法是近年来提出的一种新方法，而最初引入词汇链的主要目的是用于分析文本的结构。应急预案是一种较为规范和结构性较好的文本，因此，对预案的主题抽取和标引可采用基于词汇链的方法。

2 系统分析

2.1 词汇链算法分析

词汇链算法是Morris和Hirst于1991提出的^[6]，其中词汇链是指一个主题下的一系列相关的词共同组成的词系列。词汇链算法的原理是：在文章中描述某个主题的文本块内，使用的词语应该是相关的，这些相关词语构成一条词汇链。所以，词汇链可以视作一个语言片段的标志性主题词语链，不同的词汇链对应了不同的语言片段。因此，一旦词汇链确定，那么文章的结构也就确定了。

Morris和Hirst最初使用词汇链的目的是用于文本分割，即分析文本的结构。其基本想法是：由于词汇链是一系列相关的词所组成的，这些词表达的是同一件事情或意思，找到这些链就得到了文本的结构。后来这一基本想法在很多方面得到了应用，比如文本检索、信息抽取、检查文本的用词不当等。

目前国内对于词汇链的研究较少。最早的是刘素红^[7]等人对词汇链算法的介绍，之后有尤文建^[8]基于词汇链构建文本过滤模型。另外，索红光^[4]利用改进的词汇链算法和刘群开发的《知网》相似度计算软件包，提出了一种关键词抽取方法，但是实验结果的查全率和查准率都比较低。陈燕敏等人^[9-10]将词汇链算法应用于自动文本摘要，实验结果表明，他们算法的查全率和查准率都比较高。

基于上述分析，本文考虑首先将一篇文本中的词汇按照它们的词义相关度构建多个词汇链，然后按照一定的规则从中挑选出能够代表文本主题的关键词。其中，度量词汇语义相关性是生成词汇链的基础，根据文献^[11]的实验结果，本研究在词汇链的生成中采用基于语义词典的语义相关度量方法。

2.2 应急预案特点分析

应急预案的文本具有比较强的结构化特性，及明显的章节编号，这些章节编号有助于提取出文本的篇章结构。因此，应急预案的是一种“准规范文本”。其具体的特点总结如下：

1) 文本中使用一些可辨识的符号，如第三章、第2节等等。一个编号所统领的文字区域成为一个章节；

2) 文本中一个章节包含多个子章节，子章节用不同的符号来标记；

3) 文本中存在不可再分的子章节，可称之为原子章节；

4) 文本中一个章节中除了子章节之外，可以含有其他段落，这些段落中不包含章节符号，可称之为该章节的附属段落；

5) 在同一文本中，同一个章节中一般只包含附属段落或者子章节；

6) 文本中的用语规范严谨，章节标题一般概况了该章节的主要内容。

3 算法流程设计

根据前文的分析，设计了主题抽取的流程如图1所示。下文对图中各个操作进行详细介绍。

图1 主题抽取流程图

3.1 文本预处理

分词是中文、日文等亚洲语言的信息检索中遇到的特殊问题，目前中文分词技术已日益完善，本研究采用中科院计算技术研究所发布的ICTCLAS-3软件进行分词。同时，根据停用词表剔出停用词，为后面词汇链生成做准备。

因为文本的主题词有的是专业词语，而得到的分词结果却将这些词语分割开，所以模型中根据专业词典对分词后的这部分专业词语重新合并。之后，根据事先制订的停用词表剔除停用词。同时，考虑到汉语当中的单字词所含信息量很少，所以也把所有单字词剔除。

本研究需要抽取的是篇章的主题词，而一个篇章的数据量相对比较小。这样难免出现数据稀疏的问题，因而本研究在统计词频的之前进行文本重构。通过借鉴张敏等人提出的文本重构的方法^[12]，将文本中的主题词的下位词替换为上位主题词，以增加上位主题词的词频。同时，对于同一个集合中的词语，将低频词语替换为高频词语，以进一步增加高频词语的频率。

3.2 提取文章篇章结构

因为应急管理当中的检索需要定位到相关的主题性知识段落，所以文本结构化是应急管理系统的必要工作。通过2.2节中的分析，可知应急预案大多都符合准规范文本。所以可以通过文本的特征直接提取文本的篇章结构，从而实现文本结构化。而文本的章节往往表示为若干个主题知识，本研究在提取文本主题结构的基础上，对章节应用词汇链方法来抽取主题词。

在具体的提取方法上，本文借鉴单永明提出的汉语文本形式结构分析及其标引算法^[13]，并进一步细化的算法流程如图2所示。

图2 文本篇章结构提取算法

3.3 生成词汇链

本研究采用哈尔滨工业大学信息检索实验室提供的《同义词词林》作为语义词典^[14]，并通过改进Morris和Hirst的方法，提出了词汇链生成算法，其流程如图3所示。在构建词汇链时，需要根据词义相关度的阈值来判定。因此，算法中相关度阈值的设置对构建词汇链有非常大的影响。当阈值过高时，每个链中词的数目会很少，链的数目很多；而当阈值过低，链的数目减少，每个链的词数很多。我们在实验中发现随着文本长度的增加，即使是一个较大的阀值，也会出现词汇链过长的问题。限制词汇链的数量只会使得词汇链越来越长，最终词汇链中的词语权重趋同。最终，本研究采用规定词汇链的最大长度的方法解决此问题。

由于本研究是从章节中抽取主题，章节中相应词语的词频都较低，因此，本研究与索红光的方法^[4]不同，并不按照词频大小作为选择候选词的依据，而是把文本预处理之后的所有词语作为候选词。另外，根据研究中开展的词汇对相关度人工判断的实验结果，取出人工判断相关度最高的10对词，对这些词对的系统计算结果求平均值，微调之后作为词汇链相关度的阀值。

图3 词汇链生成算法流程图

3.4 抽取主题词

抽取主题词，即找出权重最大的词语。本研究在综合借鉴郑家恒等的词频及区域函数^[15]和索红光的算法基础上，考虑词频、区域因子和词汇链权重等三个因素，提出一种基于词汇链的关键词权值函数如公式(1)所示：

(1)

其中，表示词汇的权值；

表示词汇的词频因子。词频与词语的重要性呈正相关关系，这符合人们的主观认识，即一个词语在文章中出现的次数越多，那么它往往越重要。当然，那些频率极高的词汇应该被剔除，因为这些词语出现在每一篇文章中，那么它们的代表性就大大降低。但是在应急管理的实际项目当中，因为是在一个章节甚至仅仅一个段落中比较词语权重，词频往往都较低，所以仅仅考虑词频是不够的。

公式(1)的表示词汇的区域因子，依据预案文本的特点及郑家恒在文献^[15]提出的思想，本文将区域因子权重函数按标题、主题句、普通文本等三部分定义，如公式(2)所示。

(2)

公式(1)中的表示词汇所在词汇链的权重，可根据公式(3)计算。

(3)

公式(3)中的为词汇链的长度，是指词汇链中包含在标题中和主题句中的词语的个数。

公式(1)中的a、b和c是、和的调节因子。根据本文最终的实验经验，b应该取一个相对较大值，因为相对于区域因子的结果值而言，词频和词汇链权重的结果值都比较大。在本文第4节多因素重要性比较的实验中，在抽取文档主题词的时候，a=1,b=4,c=0；在抽取章节主题词的时候，a=0,b=2,c=1。

4 主题词抽取效果分析

下面将文中提出的主题词自动抽取方法与人工抽取方法的试验结果作对比分析，来评价本文所提出方法的效果。实验的测试集是从应急预案中随机选取10篇预案，这些应急预案的特征如表1所示。三个受试者各自独立地从整篇文档和文档的各个章节中抽取出若干个主题词，具体主题词数量由个人视文本块长度而定，从而构建了1983个“理想”章节，30篇“理想”文档。之后，应用本文提出的主题词抽取方法来抽取主题词，与人工抽取的“理想”主题词作比较，通过计算平均查准率（Precision），查全率（Recall）和调和平均值F值来评价系统抽取主题词的质量^[10]。

表1 实验所采用的应急预案的特征

编号

文本名称

章节数目

字数

国家安全生产事故灾难应急预案

6607

国家处置城市地铁事故灾难应急预案

7440

国家处置电网大面积停电事件应急预案

4915

国家处置民用航空器飞行事故应急预案

7117

国家突发重大动物疫情应急预案

8260

国家重大食品安全事故应急预案

7224

国家突发环境事件应急预案

10045

国家通信保障应急预案

4833

国家防汛抗旱应急预案

147

14944

国家地震应急预案

9145

在此实验条件下，我们分别计算只考虑词频、只考虑区域因子、只考虑词汇链权重（采用Resnik的度量方法^[16]，阀值为6.86）、同时考虑词频和区域因子、同时考虑词频和词汇链权重、同时考虑词汇链权重和区域因子、同时考虑词频和词汇链权重和区域因子等7种情况下的主题词抽取效果。

表2 词频和词汇链权重和区域因子重要性分析

方法

章节

整篇文本

查全率

查准率

F值

查全率

查准率

F值

词频

0.461

0.514

0.486

0.913

0.520

0.663

区域因子

0.782

0.682

0.729

0.261

0.260

词汇链

0.252

0.293

0.271

0.174

0.180

0.177

词频-区域因子

0.740

0.686

0.712

0.913

0.520

0.663

词汇链-区域因子

0.779

0.680

0.726

0.565

0.600

0.582

词汇链-词频

0.470

0.521

0.494

0.478

0.540

0.507

词汇链-词频-区域因子

0.739

0.683

0.710

0.565

0.580

0.573

从表2中可以看出，区域因子在章节主题词的抽取中起了最重要的作用。这实际上符合本文之前分析的应急预案文本特点，即应急预案用语规范严谨，章节标题都概况了该章节的主要内容。但是如果考虑区域因子，那么在抽取整篇文本的主题词的时候，查全率和查准率都很低。

词频在整篇文本主题词抽取上效果最好，查全率达到了最高值91.3%。其中一部分是因为文本主题词数据量比较小，另外也反应了词频对于主题抽取的重要性。但是在章节主题词抽取之中，仅仅考虑一个词语在该章节中的出现频率是不够的。因为章节中的词频都偏低，并且某些重要词语如章节标题中的词语可能仅仅出现一次。

如果说仅仅考虑词汇链的权重的话，那么效果是最差的。但是在和区域因子结合之后，章节主题词抽取的效果是很好的，文本主题词抽取的效果相对较好。这和我们最初的预期非常符合，即在章节这种词语量很小的处理中，在抽取主题词的时候，仅仅考虑词频是不合理的，而应该把较为相关的词语也考虑进来。而生成词汇链之后，考虑词汇链权重，就相当于是一种扩展的词频统计结果，而不必再考虑单纯的词频。

通过上述分析和综合考虑，本研究拟采用词汇链-区域算法，即在计算词语权重的时候，考虑词语的词汇链权重和区域因子。最终主题词抽取的效果如表3。其中词汇链算法中相关度度量方法采用Resnik的方法^[16]，阀值为6.86。

表3 主题抽取效果表

章节

整篇文本

查全率

查准率

F值

查全率

查准率

F值

0.779

0.680

0.726

0.565

0.600

0.582

5 结论

本文提出了一个基于词汇链的应急预案的主题提取模型。模型中根据应急预案文本的特点和项目的需要，运用了若干自然语言处理技术，改进了原始的词汇链生成算法，提出了多因素词语权重算法。并建立了一个主题词自动抽取系统。通过与人工主题词抽取方法的实验结果相比较，该主题提取模型在查全率和查准率上都取得了较好的效果。进一步的工作中，将调整系统中用到的众多参数和经验值，以求获得一种最优的主题抽取方案，进一步提高系统的查全率、查准率和执行效率。

参考文献

[1] 李蕾，王楠，钟义信等. 基于语义网络的概念检索研究与实现. 情报学报，2000, 19(5):525-531.

[2] 王永成，顾晓明，王丽霞. 中文文献主题的自动标引. 情报学报，1998，17(3):219-225.

[3] 李素建, 王厚峰, 俞士汶等.关键词自动标引的最大熵模型应用研究.计算机学报, 2004, 27(9):1192-1197.

[4] 索红光, 刘玉树, 曹淑英. 一种基于词汇链的关键词抽取方法.中文信息学报，2006，20(6):25-30.

[5] 刘群,李素建.基于《知网》的词汇语义相似度计算.中文计算语言学.2002，7(2):59-76.

[6] Morris J, Hirst G. Lexical cohesion computed by thesaural relations as an indicator of the structure of text. Computational Linguistics, 1991, 17(1):21–48.

[7] 刘素红，刘传汉，王永成. 动态词链算法.计算机工程，2003, 29(20):80-81.

[8] 尤文建,李绍滋,李堂秋.基于词汇链的文本过滤模型.计算机应用研究，2003, (9):32-35.

[9] Chen Yanmin, Liu Bingquan, Wang Xiaolong. Automatic Text Summarization Based On Textual Cohesion. Journal of Electronics (China), 2007, 24(3):338-346.

[10] 陈燕敏,王晓龙,刘秉权等.多知识源融合的自动摘要系统研究与实现. 高技术通讯，2006, 16(4):337-341.

[11] Mohammad S, Hirst G. Distributional Measures of Concept-Distance: A Task-oriented Evaluation. In Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing (EMNLP 2006), Sydney, 2006:35-43.

[12] 张敏,宋睿华,马少平.基于语义关系查询扩展的文档重构方法.计算机学报，2004, 27(10):1395-1401.

[13] 单永明. 汉语文本形式结构分析及其标引算法.中文信息学报，2001, 16(2):14-19.

[14] 《同义词词林》扩展版. http://www.ir-lab.org/

[15] 郑家恒，卢娇丽.关键词抽取方法的研究.计算机工程，2005, 31(18):194-196.

[16] Resnik, P. Using information content to evaluate semantic similarity. In Proceedings of the 14th International Joint Conference on Artificial Intelligence, Montreal, Canada,1995.

作者简介:裘江南，男，1968年生，副教授，博士研究生，研究方向为电子政务、知识管理。Email: [email protected]。罗志成，男，1984年生，硕士研究生，研究方向为信息检索。Email: [email protected]。王延章，男，1952年生，教授，研究方向为电子政务、决策支持系统。

你可能感兴趣的:(相关度,算法,behavior,全文检索,自然语言处理,semantic,algorithm)

Redis配置与优化 ?ccc? redis 数据库缓存
目录一：Redis介绍1：关系数据库与非关系型数据库2：Redis基础2.1Redis简介2.2Redis安装部署2.3配置参数3：Redis命令工具3.1redis-cli命令行工具3.2redis-benchmark测试工具4：Redis数据库常用命令4.1key相关命令4.2多数据库常用命令二：Redis持久化1：RDB和AOF的区别2：RDB和AOF的优缺点3：Redis持久化配置三：性能
疲劳检测与行为分析：工厂智能化实践智驱力人工智能安全智慧城市行为识别人员属性识别疲劳检测抽烟检测徘徊检测
视觉分析算法赋能工厂疲劳与安全管理一、背景与需求在制造业中，疲劳作业是导致安全事故和效率下降的核心因素之一。传统人工巡检存在覆盖面不足、响应滞后等问题，而基于视觉分析的智能监控系统通过多算法协同，可实现全天候、高精度的疲劳检测与行为管理。本文围绕疲劳检测算法、人员计数算法、抽烟检测算法及徘徊检测算法，探讨其在工厂场景中的技术实现与应用价值。二、技术实现疲劳检测算法原理：基于PERCLOS（眼睑闭合
三阶落地：腾讯云Serverless+Spring Cloud的微服务实战架构大熊计算机 #腾讯云架构腾讯云 serverless
云原生演进的关键挑战（1）传统微服务架构痛点资源利用率低（非峰值期资源闲置率>60%）运维复杂度高（需管理数百个容器实例）突发流量处理能力弱（扩容延迟导致P99延迟飙升）（2）Serverless的破局价值腾讯云SCF（ServerlessCloudFunction）提供：毫秒级计费粒度（成本下降40%~70%）百毫秒级弹性伸缩（支持每秒万级并发扩容）零基础设施运维同步调用异步事件用户请求API网
010 【入门】链表入门题目-合并两个有序链表要天天开心啊算法专栏链表数据结构
合并两个有序链表|[算法]-[中级]-[链表]▶JDK8+|⏱️O(m+n)核心代码实现packageclass010;//将两个升序链表合并为一个新的升序链表并返回//新链表是通过拼接给定的两个链表的所有节点组成的//测试链接:https://leetcode.cn/problems/merge-two-sorted-lists/publicclassMergeTwoLists{//链表节点定义
008 【入门】算法和数据结构简介要天天开心啊算法专栏算法数据结构
算法与数据结构系统概览|[算法]-[基础]-[通用]一、算法分类与应用1.硬计算类算法|[算法]-[中级]-[通用]特点应用场景复杂度特征-精确求解问题-可能带来较高计算复杂度-大厂笔试/面试-ACM竞赛-所有程序员岗位必考⏱️通常为O(n)~O(n²)//[示例]快速排序算法-分治思想核心实现publicvoidquickSort(int[]arr,intleft,intright){if(le
linux mysql命令行操作
命令行,linux,命令行操作相关学习资料：https://edu.51cto.com/video/797.htmlhttps://edu.51cto.com/video/1400.htmlhttps://edu.51cto.com/video/3832.htmlLinuxMySQL命令行操作入门指南作为一名刚入行的开发者，掌握Linux系统下的MySQL命令行操作是一项基本技能。本文将带你一步步
【数据结构】顺序表 nanguochenchuan 数据结构数据结构
一，顺序表1.顺序表的定义顺序表是一种线性表的数据结构，它的数据元素按照一定次序依次存储在计算机存储器中，使用连续的存储空间来存储。顺序表中每个数据元素的位置都有一个序号，这个序号也称为元素在顺序表中的下标。顺序表的特点是：元素的逻辑顺序与物理顺序相同，支持随机访问，插入和删除元素的时间复杂度为O(n)，查找元素的时间复杂度为O(1)。2.优点与不足优点是访问速度快，因为它的元素在内存中是连续存储
莫队算法 —— 将暴力玩出花秒啦算法
莫队算法——将暴力玩出花一、为什么需要莫队？——暴力法的瓶颈我们已经学会了用分块处理一些在线的区间问题。现在，我们来看一类特殊的离线区间查询问题。“离线”意味着我们可以把所有查询先读进来，再按我们喜欢的顺序去处理它们。思考一个问题：给定一个长度为N的数组，M次询问。每次询问一个区间[l,r]，问区间内有多少种数字至少出现了2次？那我们回到最朴素的暴力。纯暴力：对于每个询问(l,r)，都for一遍，
Vue SPA 路由跳转无法回到顶部问题排查与解决浪裡遊 vue.js javascript ecmascript pinia router html
VueSPA路由跳转无法回到顶部问题排查与解决1.问题现象描述在使用Vue3+VueRouter4开发单页应用（SPA）时，遇到如下问题：点击导航栏或页脚的路由跳转后，页面没有自动回到顶部。即使配置了VueRouter的scrollBehavior，页面依然没有回到顶部的效果。有时内容会被导航栏遮住，看起来像"没有回到顶部"。2.常见原因分析内容区没有为导航栏预留空间导航栏是fixed或stick
Web3前沿科技：开启数字资产交易新征程 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据 web3 科技 ai
Web3前沿科技：开启数字资产交易新征程关键词：Web3、数字资产交易、区块链、智能合约、去中心化金融摘要：本文聚焦于Web3前沿科技在数字资产交易领域的应用与发展。详细阐述了Web3的核心概念、相关技术原理，包括区块链、智能合约等。通过具体的算法原理和Python代码示例，深入剖析了数字资产交易在Web3环境下的运行机制。同时，结合实际项目案例，讲解了开发环境搭建、代码实现与解读。探讨了Web3
高斯混合模型GMM&K均值（十三-1）——K均值是高斯混合模型的特例 phoenix@Capricornus 模式识别与机器学习均值算法机器学习算法
EM算法与K均值算法的关系K均值可以看成是高斯混合模型的特例。对K均值算法与EM算法进行比较后，可以发现它们之间有很大的相似性。K均值算法将数据点硬（hard）分配到聚类中，每个数据点唯一地与一个聚类相关联，而EM算法基于后验概率进行软（soft）分配。事实上，可以从EM算法推导出K均值算法。考虑一个高斯混合模型，其中混合分量的协方差矩阵由σ2I{\sigma^2}Iσ2I给出，其中σ2{\sig
鸿蒙开发：一文了解桌面卡片
前言本文基于Api13鸿蒙的桌面卡片功能，也就是服务卡片，和Android端的小部件以及iOS端的小组件功能是一样的，只是叫法不一样，都是将应用内比较核心的功能，或者用户关注度高的功能，通过触发桌面应用进行添加到服务卡片上，进而添加到桌面上，以此达到信息展示的及时性，相关功能直达应用内的便捷效果，可以说在用户体验上，是一个质的提升。触发方式也是十分的简单，无论你是Android、iOS还是Harm
Transformer底层原理解析及基于pytorch的代码实现 LiRuiJie 人工智能 transformer pytorch 深度学习
1.Transformer底层原理解析1.1核心架构突破Transformer是自然语言处理领域的革命性架构，其核心设计思想完全摒弃了循环结构，通过自注意力机制实现全局依赖建模。整体架构图如下：以下是其核心组件：1）自注意力机制（Self-Attention）-输入序列的每个位置都能直接关注所有位置-数学公式（缩放点积注意力）：-Q：查询矩阵（当前关注点）-K：键矩阵（被比较项）-V：值矩阵（实际
Practical TLA+ 项目中的Dekker算法形式化验证焦习娜Samantha
PracticalTLA+项目中的Dekker算法形式化验证practical-tla-plusSourceCodefor'PracticalTLA+'byHillelWayne项目地址:https://gitcode.com/gh_mirrors/pr/practical-tla-plus概述本文分析PracticalTLA+项目中关于Dekker互斥算法的形式化规范。Dekker算法是解决多线
深入理解reeze/tipi项目中的词法分析与语法分析技术焦习娜Samantha
深入理解reeze/tipi项目中的词法分析与语法分析技术tipiThinkingInPHPInternals,AnopenbookonPHPInternals项目地址:https://gitcode.com/gh_mirrors/ti/tipi引言在编程语言实现领域，词法分析和语法分析是构建编译器或解释器的关键环节。本文将基于reeze/tipi项目中的相关内容，深入浅出地讲解这些核心技术原理。
【C++算法竞赛】前缀和+桶数组 YLCHUP C++算法技巧算法 c++开发语言数据结构哈希算法 c语言笔记
文章目录1.前缀和基础2.算法原理3.例题讲解[P1114“非常男女”计划](https://www.luogu.com.cn/problem/P1114)[P11965[GESP202503七级]等价消除](https://www.luogu.com.cn/problem/P11965)[P10724[GESP202406七级]区间乘积](https://www.luogu.com.cn/pro
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
小程序入门：跳过域名校验、跨域与 Ajax 问题解析 you4580 小程序
在小程序开发过程中，我们常常会遇到一些和网络请求相关的问题，比如合法域名校验、跨域以及Ajax的使用。今天这篇博客就来为大家详细讲解一下这些内容，帮助大家少走弯路，更高效地进行小程序开发。一、跳过request合法域名校验在小程序中发起网络数据请求，有两个硬性条件：接口必须基于https协议，同时要把接口对应的域名配置到合法域名列表里。可要是后端程序员只提供了http协议的接口，这时候该怎么办呢？
提示词编程语言设计艺术探索 AI天才研究院计算 AI人工智能与大数据 AI大模型企业级应用开发实战 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
《提示词编程语言设计艺术探索》关键词：提示词编程语言，设计艺术，编程语言设计，核心算法，实例分析，项目实战摘要：本文旨在深入探讨提示词编程语言的设计艺术，从基础概念到核心算法，再到实际应用和未来趋势，全面解析这一领域的关键技术和设计理念。通过具体的实例分析和项目实战，帮助读者更好地理解和掌握提示词编程语言的设计与实现。引言与概述1.1提示词编程语言的背景和重要性提示词编程语言（Prompt-Bas
误差的回响：反向传播算法与神经网络的惊天逆转田园Coder 人工智能科普人工智能科普
当专家系统在20世纪80年代初期大放异彩，成为人工智能实用化的耀眼明星时，另一股曾经被宣判“死刑”的力量——连接主义（神经网络）——正在寒冬的冻土下悄然涌动，孕育着一场惊天动地的复苏。马文·明斯基和西摩·帕尔特在1969年《感知机》专著中那精准而冷酷的理论批判，如同沉重的封印，将多层神经网络的研究禁锢了近二十年。他们指出的核心死结——缺乏有效算法来训练具有隐藏层的网络——仿佛一道无法逾越的天堑。单
根包含文件——Luaconf.h (src) LLLLLLLLLLLLLL265161 Inside Lua lua integer 编译器 alignment c++dll
Luaconf.h是配置的总集，定义了平台相关的设置，是所有文件都包含的，即RootlyIncluded。0.前言开始关注Lua也是06年六月的事情，《程序员》的2006年第六期中，我独独看中了Lua，而不是当时我已经比较熟悉的Python和Ruby，即使它们我都关注了好几年，但是都没有Lua给我的震撼大。于是那个夏天，稍微地尝试读了Lua的代码。开学后，我突然觉得自己有点受唆使，轻信了动态的福音
【安装Stable Diffusion以及遇到问题和总结】岁月玲珑 AI stable diffusion AI编程 AI作画
在本地安装部署StableDiffusion，需要准备好硬件环境，安装相关依赖，然后配置模型。下面为你详细介绍安装部署的步骤：一、硬件要求显卡：需要NVIDIAGPU，显存至少6GB，推荐8GB及以上。系统：Windows10/11、Linux（Ubuntu等）或macOS（需要Rosetta2）。内存：至少16GBRAM。存储空间：准备10GB以上的可用空间。二、软件准备首先要安装Python和
力扣网C语言编程题：在数组中查找目标值位置魏劭逻辑编程题 C语言算法 c语言 leetcode
一.简介本文记录一下力扣网上涉及数组的问题：排序数组中查找目标值的位置。主要以C语言实现。二.力扣网C语言编程题：在数组中查找目标值位置题目：在排序数组中查找元素的第一个和最后一个位置给你一个按照非递减顺序排列的整数数组nums，和一个目标值target。请你找出给定目标值在数组中的开始位置和结束位置。如果数组中不存在目标值target，返回[-1,-1]。你必须设计并实现时间复杂度为O(logn
在vue3项目中使用el-upload实现文件上传柒@宝儿姐 javascript 前端 vue.js vscode
在vue3项目中使用el-upload实现文件上传template将文件拖到此处，或点击上传是否更新已经存在的用户数据仅允许导入xls、xlsx格式文件。下载模板确定取消相关属性说明limit：允许上传文件的最大数量accept：接受上传的文件类型headers：设置上传的请求头部action：请求URLdisabled：是否禁用上传on-progress：文件上传时的钩子on-success：文
博图SCL语言中用户自定义数据类型（UDT）使用详解控界小宇宙西门子PLC 博途（TIA Portal)SCL 自动化运维程序人生开发语言
博图SCL语言中用户自定义数据类型（UDT）使用详解一、UDT概述用户自定义数据类型（UDT）是TIAPortal中强大的结构化工具，允许将多个相关变量组合成单一数据结构。UDT本质是可重用的数据模板，具有以下核心优势：结构化组织：将逻辑相关的变量分组管理代码重用：一次定义，多处使用维护便捷：修改UDT定义自动更新所有实例接口标准化：确保数据传递一致性二、UDT创建步骤（图文详解）1.创建UDT项
ARMv7内核架构手册及全部ARM内核资料下载杨焕月Great
ARMv7内核架构手册及全部ARM内核资料下载去发现同类优质开源项目:https://gitcode.com/资源介绍本仓库提供了一个重要的资源文件下载，标题为“Armv7内核架构手册+全部arm内核资料”。该资源文件包含了ARMv7内核架构的详细手册以及其他相关的配套资料，非常适合想要深入了解和学习ARM内核的朋友。资源内容ARMArchitectureReferenceManualARMv7-
深入探索Linux设备驱动开发：基于Linux 4.0内核的全面指南邴洁沫Edna
深入探索Linux设备驱动开发：基于Linux4.0内核的全面指南【下载地址】Linux设备驱动开发详解基于最新的Linux4.0内核配套光盘分享本仓库提供了一个资源文件的下载，该资源文件是《Linux设备驱动开发详解：基于最新的Linux4.0内核配套光盘》的配套光盘内容。该光盘包含了与Linux4.0内核相关的设备驱动开发所需的详细资料和示例代码，旨在帮助开发者更好地理解和掌握Linux设备驱
Vue3+ element 实现导入导出青柠97 vue.js javascript 前端
一、导入功能相关代码分析相关变量定义importVisible：这是一个ref类型的响应式变量，用于控制导入对话框的显示与隐藏，初始值为false。当用户点击“导入”按钮时，会尝试将其值设为true来显示导入对话框，若出现异常则提示相应错误信息。file：同样是ref类型的变量，用于存储用户选择要上传的文件对象，后续在文件上传等操作中会以此文件对象作为基础数据进行处理。pre_import：ref
ElementPlus表格相关操作大全-2 朝阳 Melo 前端 javascript 开发语言
网址：一个Vue3UI框架|ElementPlus(element-plus.org)https://element-plus.org/zh-CN/例：组件——Form表单典型表单参考代码：-OnlineactivitiesPromotionactivitiesOfflineactivitiesSimplebrandexposureSponsorVenueCreateCancelimport{re
C++ Lambda表达式详解：从入门到精通 Jay_515 c++Lambda
Lambda表达式是C11引入的最重要特性之一，它彻底改变了我们在C中编写函数对象的方式。本文将带你全面掌握Lambda表达式的使用技巧！1.什么是Lambda表达式？Lambda表达式是C++11引入的一种匿名函数对象，它允许我们在需要函数的地方内联定义函数，无需单独命名。Lambda的出现极大简化了代码，特别是在使用STL算法时。为什么需要Lambda？简化代码：避免为简单操作单独编写函数对象
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl