kaijie234

中文自动文摘关键技术总结

搜索微信公众号:‘AI-ming3526’或者’计算机视觉这件小事’ 获取更多AI干货

csdn：https://blog.csdn.net/abcgkj

github：https://github.com/xiaoming3526/ai-ming3526

定义

所谓自动文摘就是利用计算机自动地从原始文献中提取文摘，文摘是全面准确地反映某一文献中心内容地简单连贯的短文。

应用

互联网迅速发展伴随着每天产生大量的文本数据，文摘是文本的主要内容，用户想查询和了解自己关注的话题需要花费大量时间进行选择和阅读文章，并且文摘任务单靠人工也是无法实现的。为了应对这种状况，学术界尝试使用计算机技术实现对文献的自动处理，自动文摘即为研究之一。应用场景：

Web搜索引擎需要
问答系统的知识融合
舆情监督系统的热点和专题追踪

抽取式

基于规则和统计的方法
基于图模型的方法
基于主题的文摘方法
基于整数线性规划方法
机器学习等

基于规则和统计的文摘方法

主要思想：是将文本看作是句子的线性序列，将句子看作是词的线性序列，通过计算句子的权重得分，排序抽取重要的句子。

计算句子权重的依据主要包括：

词频(TF-IDF)
句子位置
句子与标题的相似度等。

优点： 简单易用，不受领域限制，在新闻领域基于规则的方法效果突出。

缺点： 对词句的使用大多停留于表面信息，且容易造成文摘句子冗余，在主题覆盖面上也很难满足。故学者一般都将基于规则和统计的方法与其他方法相结合，例如 Ko, Youngjoong[6]提出一种结合统计信息和上下文信息的自动文摘方法。

基于图模型的文摘方法

主要思想： 将句子作为节点，构建拓扑结构图，边的建立主要通过计算两个句子间的相似度，如果相似度大于给定的阈值，则两个节点之间建立一条边。

用于文本的基于图模型的排序算法代表算法：

	TextRank	LexRank
句子相似度	两个句子的相同词个数，也就是词共现个数计算	基于 TF-IDF 向量的余弦相似度方法
面向的文档对象数量	单文档	多文档

图模型文摘抽取的主要步骤：

语料库预处理(包括分句，分词，去停用词，词性过滤)
图模型构建(包括节点的建立和边的建立)
图模型的计算(主要是迭代计算节点的权重，直至节点的权重收敛到指定的收敛域)
图模型排序(主要是将节点按权重降序排序，按原文顺序输出权重较大的节点)
文摘输出

图模型的构建的主要步骤：

节点的建立： 经典的TextRank 和 LexRank 算法都是以句子为节点，当图模型排序后，直接输出节点形成文摘。同时这两种算法还可以用于文档关键字的抽取，在抽取关键字时，则是以词项为节点。Litvak[9]以词项为节点，利用 HITS(全称 Hypertext-Induced Topic Search)算法[10]抽取关键词，将包含关键词的句子抽取作为文摘。Goyal[11]利用伯努利模型产生主题词，以主题词为节点建立图模型。
边的建立： 边的建立主要是计算两个句子的相似度，可以用两个句子的相似度作为两个节点间边的权值。在句子相似度计算上，TextRank 算法使用的是词共现方法，将两个句子的共同词的个数作为两句子的相似度。LexRank 算法采用的是余弦相似度方法。

这两种方法虽然也能有效的计算两句子相似度，但忽略了句子的语义信息。

Ferreira[12]提出了一种包含了句法分析、语法分析以及语义成分分析的句子相似度测量方法。Wei[13]提出一种基于查询的句子相似度计算方法，指出query 不应只限于影响节点，更应该影响节点间的权重，并开发了一种基于查询的相似度度量方法。Ramesh 提出基于 WordNet 的句子相似度计算方法，在许多情况下，两个完全不同的篇章单元可能存在语义相关，希望通过 WordNet 资源和语义图来克服这种问题，该算法使用文本节点之间的语义关联来构造语义图，并利用排序算法对节点进行排序。Ramesh[14]提出基于维基百科的句子相似度计算方法，建立一个句子-概念二部图，然后在图上迭代更新对输入句子进行排序。并且在建立的多个二部图模型上都得到了收敛性质。

基于主题的文摘方法

基于主题的自动文摘方法主要利用文本的语义信息，挖掘句子间的语义关系，将代表文本主题的句子最佳文摘。

张明慧[15]实现了基于主题模型的多文档自动文摘系统，其中主题模型采用LDA模型,LDA是一个多层产生式概率模型，能够检测文本的主题分布。系统使用LDA 为多文档集合建模，通过计算句子在不同主题上的概率分布的相似度作为句子的重要度，并根据句子重要度抽取文摘句。
Neto[16]提出先用 TextTiling 算法对文本进行分区，再结合 TF-IDF 算法将文本分成几个主题簇，最后对每个主簇利用 TF-ISF(Term Frequency -Inverse Sentence Frequency)算法抽取文摘句。
Angheluta [17]提出了一种基于文本结构树的主题分割自动文摘方法。

基于整数规划的文摘方法

基于整数规划的自动文摘方法是将文摘抽取问题转化成整数线性规划问题，在文摘长度等若干限制条件下，求全局最优解。

Dan G[18]提出了基于概念的 ILP((Integer Linear Programming )文摘抽取模型，指出在文摘长度的限制条件下，文摘包含的概念的权重量最大，因为此问题是一个 NP 问题，所以必须将权值较小的概念剪枝，才能有效解决此问题。
Boudin[19]基于 Dan 提出的模型，并进行多组实验，得出当概念取 bi-gram 时，文摘效果最好。若 bi-gram 中包含的是两个停止词或者是重复词，则此概念忽略，且将概念在文本中的出现频率作为它的权重，排序剪枝。

基于 ILP 的文摘抽取系统的过程是：文档清理(文档格式化，去除无用符)；分句(使用 splitta1分句，每行一句)；抽取概念并计算其权重；句子剪枝(将词数少于 10 的句子剪枝)；写 ILP 需要的问题描述公式，并调用 ILP solver2，将文摘结果按原文顺序输出。
基于 ILP 的文摘抽取方法效果较好，在文摘长度的约束条件下，最大化文摘和原文的相似度，能覆盖到整篇文档，且减少冗余。
缺点： 是由于选择概念和计算权重等计算量较大，比其他文摘抽取方法耗时久。

生成式

在自然语言处理领域，生成式文摘研究一直是一个热门且复杂的课题，生成式自动文摘系统应该是能理解所有文档内容并且重新组织产生连贯的、简短的且能传达原文重要信息的摘要[20]。
本文重点使用解码器是根据编码器对源语言的抽象表示预测目标词序列的，正是这种抽象表示为生成式自动文摘提供了可能。本文虽然实现了基于深度学习模型的生成式自动文摘，但仍有很多弊端，如生成重复词等问题。

部分生成式自动文摘方法都是将生成过程分成两部分[21]：

利用无监督的文摘抽取方法和语言知识抽取原文中的关键元素
利用文本生成和语言学技术重写或释义抽取的元素产生简洁的摘要。

近年来，深度学习方法在很多自然语言处理任务上表现突出。括语音识别、机器翻译、自动问答、命名实体识别等多项任务中深度学习都表现出相当不错的成绩。学术界也开始将深度学习模型应用于生成式自动文摘任务。

障碍： 公开的大规模文摘语料太少，并且人工构建大规模文摘语料十分难。经典的 DUC,TAC 和 TREC 语料也只有数百篇人工英文文摘。

EMNLP 2015发布了一个大规模新浪微博中文文摘语料库，包含 240 多万篇人工文摘和微博原文，并且提出了一个基于 GRU 的 Encoder-Decoder 深度学习模型方法作为基线方法[25] 。
论文中对比了将单个汉字作为输入(将字典大小降到 4,000)和将分词后的词语作为输入(词典大小降到 50,000)，实验结果显示将单个汉字作为输入效果更好，原因是词典大小有限，有些文章中的词不在词典中，出现未登录词的情况。并对比了两种模型结构，第一种结构是在 Decoder 中不使用所有文本，即只将 RNN 最后一层的隐状态作为 Decoder 的输入。第二种结构是 Decoder中使用所有文本，即将 Decoder 的所有隐状态的组合作为 Decoder 的输入[26]。实验结果显示使用所有的文本的模型效果更好。

在 RNN 方面，使用 Chung 提出的 GRU(gated recurrent unit)模型[27]GRU 被证明效果与 LSTM 差别不大，但在收敛速度上更胜一筹[28]。因为现有的生成式文摘方法经常遇到未登录词和生成重复词问题，针对这两个问题，NLPCC2017 年 Single Document Summarization任务中 The state of art 的系统提出了基于双向 LSTM 的 Encoder-Decoder 模型和Joint Attention 机制的方法，针对未登录词问题，使用在输入序列加上 Subword机制[29]处理。针对生成重复词问题，使用 Joint Attention 机制，在 Decoder 输入序列加 Attention 机制，为了在每个 timestep 存储和传送更加全面的信息，并在Encoder 输出序列加 Attention 机制，通过回顾之前的输出信息来避免生成重复短语，这是因为 Encoder 所有时刻的输出共用一个 Context Vector，后边的信息可能会将之前的信息稀释或者覆盖。

自动文摘评价指标

自动文摘评价指标主要从文摘的连贯性、可读性、信息覆盖度、长度、冗余度等方面来评价，目前比较流行的方法是 ROUGE 方法，ROUGE 评价方法是由 Flick[30]基于机器翻译的自动评价方法研发的。该评价方法的主要思想是通过比较生成的文摘和人工文摘之间的相似内容，一般是 N 元词共现来评价文摘质量，是自动文摘领域比较权威的测评方法。ROUGE 评价包括五个评价指标：

ROUGE-N，系统文摘和人工文摘的 n-gram 共现统计。ROUGE-1 表示意愿字共现，ROUGE-2 代表二元字共现。ROUGE-N 只能评价准确率，不能评价召回率。 ROUGE-N 计算公式如式(1-1)所示。
ROUGE-L,基于系统文摘和人工文摘的最长公共子序列。
ROUGE-W,在 ROUGE-L 的基础上，引入了加权洗漱，考虑了序列的连续匹配。
ROUGE-S,基于系统文摘和人工文摘的顺序词对统计。F 值计算公式如式(1-8)所示，召回率计算如式(1-6)所示，精确率计算如式(1-7)所示。
ROUGE-SU,对 ROUGE-S 和 ROUGE-1 进行综合加权。Lin[31]通过实验证明：ROUGE-2,ROUGE-L,ROUGE-W 和 ROUGE-S 用于单文档自动文摘任务时效果较好；ROUGE-1,ROUGE-L,ROUGE-W,ROUGE-SU 用于评价短文摘时效果较好；ROUGE-1,ROUGE-L,ROUGE-W,ROUGE-SU 用于多文档自动文摘任务时效果较好(匹配时需要去停止词)；使用多个人工文摘可以提高评价的准确性。

中文单文档自动文摘的部分方法

参考文献
1.张洪荣. 中文自动文摘关键技术研究与实现[D].哈尔滨工业大学,2018.
2.百度百科

好脾气，是练出来的莲子陪儿子走过小学
相由心生。直到与人接触的多了，渐渐明白看他人的面相，可以猜出他人的性格脾气。有人，脸上表情僵硬，给人不舒服感，这样的人就肯定不好相处；而有人满面春风，含有笑容，那就一定是个和善的人。身边的人有你喜欢的，不喜欢的。喜欢的多接触，不喜欢的少来往。发生不好的事情时，开始会让自己冷静面对，先在头脑中想几分钟这件事积极的一面，会逐渐感觉好转。而不要一触动到情绪，语言就从嘴里冒出来，要学习克制自己的脾气。其实
Kotlin集合分组 Kiri霧 kotlin java 前端 android
集合的分组（Grouping）在之前的学习中，我们已经学会了如何对集合进行过滤、排序或执行聚合操作。在本节中，我们将学习如何对集合元素进行分组，以便以最适合我们任务的方式呈现信息。分组（Grouping）在Kotlin中，有一些扩展函数可以用来对集合元素进行分组，其中一个就是groupBy()。它接收一个lambda表达式，并返回一个Map，其中的键（key）是分组依据，值（value）则是对应的
Kotlin集合与空值
我们已经学习了Kotlin中的空安全（nullsafety）。在本节中，我们将讨论如何处理集合中的空值（null），因为集合比其他数据类型更复杂。我们还将讨论如何处理可空元素时常用的便利方法。集合与空值可空集合和具有可空元素的非空集合是同一枚硬币的两面。此外，我们还需要认识到空集合和可空集合之间的区别。让我们看看四种情况：vallist=listOf()varnullableList:List?=
《随园诗话》学习与译注意趣与刺点
卷六六十八原文乾隆丙辰，唐公莪村为太常寺卿。余鸿词报罢后，袖诗走谒。公奇赏之。次日，即托其西席朱君佩莲道意，欲以从女见妻。余以聘定辞，公为惋惜。至今感不能忘，垂五十年矣。甲辰到端州，见公《赠关庙瑞公上人》一律云：“何因来古寺?冷落二年羁。性拙宜僧朴，身危仗佛慈。险夷无定象，梦幻有醒时。一笑成今别，前途最汝思。”纸尾注云：“甲子冬，缘事来肇庆，羁栖二年。今丙寅夏，将之任山左，赋诗留别。”盖公任广西方
Kotlin自定义排序
在之前，我们学习了如何根据Comparator接口中定义的方法和compareTo()方法按照元素的自然顺序对集合进行排序。在本章中，我们将看到如何根据我们的需求或任务使用Kotlin中的特殊方法自定义集合的排序。自定义排序为了按我们自己的需求对集合中的元素进行自定义排序，Kotlin提供了以下两个函数：sortedBy()和sortedByDescending()。它们是如何工作的呢？这两个方法
2023-03-31 wgbj
争做敢拼敢为的新时代年轻干部“在其位，谋其政；行其权,尽其责。”年轻党员干部想干事、能干事、多干事、干实事、干大事是义务，是本分，是最起码的要求。要始终把干事创业作为一生无悔的追求，坚持“工作学习化，学习工作化”，保持政治上的清醒、坚定和成熟，不辱使命，不负重托。把勤奋学习常思进取作为干事之基。立身以立学为先，立学以读书为本。读书、立德、修身，不仅是立身之本，更是从政之基。在日常工作学习中要不断培
8.关于获取知识见山闻道
8.关于获取知识上一节苏霍姆林斯基提到，知识既是目的，也是手段，他强调知识不是最终目的，应该是学生进行思考、认识世界的手段。本节又关注于如何获取知识。苏霍姆林斯基提出，学生读过的东西或者教师讲述的东西背得烂熟，回答得很流畅这种积极性未必能拐进智力才能的发展。当我们一味的关注如何提高学生学习积极性、提高学习效率的时候，我们是否也曾想过，这种积极性是否真的有效，是否真的高效，是不是真的能促进学生的成长
【深度强化学习】MIP-DQN 实现案例（完整Python代码）
目录MIP-DQN算法概述建模基础训练阶段（Training）部署阶段（OnlineExecution）DNN网络转化为MIP表达式性能指标完整Python代码实现主函数：random_generator_battery模型函数：MIP_DQN基础/专用库包安装模型运行（完整Python代码）参数设置函数：Parameters参考本博客根据论文《Optimalenergysystemschedul
学习力测评健宜
开放本周六上课名额!明天20号(周六)下午三点，专注力游戏测评(学生测评+学生沙盘+家长访谈)原价600元，公益推广价299元，先约先得!联系报名方式，微信号：explore4love图片发自App图片发自App图片发自App图片发自App图片发自App图片发自App
Kotlin泛型约束
泛型类型约束简介之前我们已经了解了，泛型可以接受任意类型的参数，使代码具有良好的复用性。现在，我们来学习泛型的另一个方面：类型约束（typebounds）。有时候，我们希望对泛型函数或类中允许的类型参数进行限制。例如，我们有一个泛型类Storage，但我们只想让它存储“书籍”类型的对象，而不需要创建另一个专门的类。这种情况下，就可以使用类型约束。在类中使用类型约束假设我们有以下泛型类：classS
《开学第一课》心得体会 1a260f012d38
今天晚上八点，我收看了2020年《开学第一课》，为我们介绍了许多在一线抗击疫情的英雄事迹，看完觉得热血澎湃。特别是钟南山爷爷，他不畏艰险，勇往直前，坚持与疫情做斗争，赢得了广大群众的喜爱。还有陈薇奶奶，她和同事们一起发明了疫苗。目前，有的志愿者已经接种疫苗了。太空也有人在为我们奉献，北斗的卫星在帮助雷神山和火神山医院的建设。少年强则国强。我一定要好好学习，将来为祖国做出更大的贡献。
生产故障排查记录：Redis 中间件疑难错误排查与修复韩先超 redis 中间件 php 数据库缓存
欢迎关注我的公众号「DevOps和k8s全栈技术」，进公众号【服务】栏，可以看到技术群，点击即可加入学习交流群。↓↓↓一、问题描述某生产环境中，Redis集群出现间歇性超时（timeout）和高延迟，部分应用侧出现READONLYYoucan'twriteagainstaread-onlyreplica错误。二、问题分析1.错误现象1）应用层报错：Timeoutwaitingforconnecti
【DL经典回顾】激活函数大汇总（四）（Softmax & Softplus附代码和详细公式）夺命猪头 python 机器学习人工智能神经网络 numpy
激活函数大汇总（四）（Softmax&Softplus附代码和详细公式）更多激活函数见激活函数大汇总列表一、引言欢迎来到我们深入探索神经网络核心组成部分——激活函数的系列博客。在人工智能的世界里，激活函数扮演着不可或缺的角色，它们决定着神经元的输出，并且影响着网络的学习能力与表现力。鉴于激活函数的重要性和多样性，我们将通过几篇文章的形式，本篇详细介绍两种激活函数，旨在帮助读者深入了解各种激活函数的
Go开发技术路线全解析：从基础到资深的系统学习指南（2025年版） Mr.小海 golang 开发语言后端容器云原生 vim 中间件
Go开发技术路线全解析：从基础到资深的系统学习指南（2025年版）一、基础阶段：Go语言入门与核心语法环境搭建与工具链环境标准化是Go开发流程的基础，其核心目标是确保开发环境的一致性与可重复性。2025年主流的Go环境安装方式包括两种：一是通过Go官方网站下载对应操作系统的二进制安装包，二是使用系统包管理器（如Linux的apt/yum、macOS的Homebrew等）进行安装。安装完成后，需配置
基于NanoDet的健身姿势纠正系统开发 YOLO实战营人工智能 NanoDet 深度学习计算机视觉 ui
1.引言在现代健身行业中，正确的运动姿势至关重要，不仅能提升训练效果，还能预防运动损伤。尤其是在进行一些高强度的力量训练时，如深蹲、俯卧撑等，错误的姿势可能导致肌肉不平衡或关节损伤。传统的健身姿势纠正方式依赖教练的人工指导，但随着人工智能技术的发展，使用计算机视觉和深度学习技术来进行姿势纠正，逐渐成为一种高效且可扩展的解决方案。本文将详细介绍如何基于NanoDet（一个轻量化目标检测模型）开发一个
大模型算法工程师技术路线全解析：从基础到资深的能力跃迁 Mr.小海大模型算法数据挖掘人工智能机器学习深度学习机器翻译 web3
文章目录大模型算法工程师技术路线全解析：从基础到资深的能力跃迁一、基础阶段（0-2年经验）：构建核心知识体系与工程入门数学与机器学习基础编程与深度学习框架NLP与Transformer入门二、进阶阶段（2-4年经验）：深化模型技术与工程落地能力大模型预训练与微调技术预训练原理：数据与任务的协同设计微调工具：参数高效适配与工程优化对齐实践：价值观优化与实证效果分布式训练与框架工具并行策略：多维度协同
【Pandas超实用经验汇总-数据建模分析】 Mr.小海 Python 数据挖掘数据分析 python
Pandas超实用经验汇总-数据分析前言基本方法1.读取文件2.查看数据3.修改、删除、替换数据等总结前言看见了很多教程虽然很全，但是很多技巧容易忘记且几乎用不上，读起来晦涩难懂，今天我给大家总结了Pandas的一些学习经验技巧，包含常见日常使用的pandas知识，以及一些技巧,这些技巧常见于数学建模，数据分析，数据挖掘比赛等。基本方法1.读取文件方法如下：importpandasaspd#正常写
《论语》学习第256天，君子不忧不惧流水王丽霞
弘毅乐学书院之学妹读经一字一句读《论语》第256天原文阅读：12.4司马牛问君子。子曰：“君子不忧不惧。”曰：“不忧不惧，斯谓之君子已乎？”子曰：“内省不疚，夫何忧何惧？”译文讲解：司马牛问怎样做一个君子。孔子说：“君子不忧愁，不恐惧。”又问：“不忧愁，不恐惧，这样就可以叫做君子了吗？”孔子说：“内心反省不感到有错而悔恨，那还有什么可愁可怕的呢？”启发思考：关于如何做一个君子，《论语》中有很多描述
Go与Python在数据管道与分析项目中的抉择：性能与灵活性的较量真智AI 人工智能 python go
你正在设计一个全新数据管道或启动一个分析项目，此时你或许正在思考该选择Python还是Go。五年前，这甚至不是个值得讨论的问题——你会毫不犹豫地选择Python，故事到此为止。然而，近年来Go在数据领域，尤其是在数据基础设施和实时处理方面，正逐渐被更多人采用。实际上，这两种语言都已在现代数据技术栈中找到了各自的定位。Python依然非常适合机器学习和数据分析，而Go则逐步成为高性能数据基础设施的首
2018-02-28 我可爱的小宇
践行17反复的记住以前学习的思考方式所谓的现状就是过往的积累，急切改变现状，要有耐心。我们活在未来。戒掉抱怨，积累，成长，选着刚需，靠耐心活在未来。这种价值观。赚不到钱。正确的难受。进取型的人格，思考方式，就是注意自己的成长正确的刚需，刚需塑造大脑，做什么都要做到最好。做过第一的经验，不断的思考，不断的学习，给他一个重大的意义。知道什么好，知道什么差价值观决定命运。以偏概全。大多数人的需求才是真的
Python返回函数完全指南：从基础到高级应用 Python_trys python 数据库开发语言 Python教程 Python技巧 Python入门 Python基础
包含编程籽料、学习路线图、爬虫代码、安装包等！【点击领取】前言在Python编程中，函数不仅可以执行操作，还可以作为返回值，这种特性为编程带来了极大的灵活性和强大的表达能力。本文将全面介绍Python中的返回函数，从基础概念到高级应用场景，帮助开发者掌握这一重要特性。一、返回函数的基本概念1.1什么是返回函数？返回函数指的是一个函数可以返回另一个函数作为其结果。在Python中，函数是一等对象，可
《论语》每日一句Day 7 贤贤易色王隽祺
原文：子夏曰：“贤贤易色；事父母，能竭其力；事君，能致其身；与朋友交，言而有信。虽曰未学，吾必谓之学矣。”译文：子夏说：“一个人能够尊重贤者而看轻女色；侍奉父母，能够竭尽全力；服侍君主，能够献出自己的生命；同朋友交往，说话诚实、恪守信用“这样的人，即使他自己说没有学过什么，我也一定要说他已经学习过了”心得：（或闻思修）这句话说明了在如今的社会，真正有学问的人是怎样的人：1、尊重贤者轻女色的人2、孝
Python爬虫实战：从新浪财经爬取股票新闻的完整实现 Python爬虫项目 python 爬虫开发语言数据分析 php
第一部分：爬虫概述1.1什么是爬虫？爬虫是指通过程序模拟浏览器的行为，自动化地抓取网络上的数据。通过爬虫技术，能够从各种网站上提取信息，广泛应用于数据采集、数据分析、机器学习等领域。1.2新浪财经简介新浪财经是中国最大的财经信息平台之一，提供股票、基金、债券、外汇等多方面的财经新闻和数据。在股票领域，新浪财经提供了大量的股票行情、实时数据、新闻报道等信息，因此爬取新浪财经的股票新闻对于投资分析和决
2019.2.1串讲心得梧桐70
虽然看过海灵格老师家庭系统排列的书，但还是不会应用，不能透过情绪剖析家庭系统中的问题，内心充满了对这本书的期待。通过屹峥老师的串讲，贯通了全书内容，盼望老师能用实例来加深对书中内容的理解。没有书，去网上找电子书没找到，学习群中听读就成了主要的学习方式。
AutoGen C#三步变强：比Python还野的多AI协作实战！墨瑾轩一起学学C#【四】c#python 人工智能
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣一、第一步：环境搭建——给AutoGen装上"AI乐高积木"目标：用C#搭建AutoGen基础环境，像组装乐高一样准备工具。步骤：克隆AutoGen项目：访问AutoGenGitHub仓库，克隆到本地：gitclonehttps://github.com/mi
挑战1000天演讲打卡的第627天：女儿皮肤过敏。开心快乐幸福美满
上个8月28号女儿陪我去杭州学习体质养生的课，这个课前后加起来是五天，在这五天的日子里我每天六点起床九点上课，中午12点下课，下午2点上课5点结束。女儿在这五天的日子里晚上不睡白天不起，结果在课程结束的前一天孩子身上长了好多的小疹子而且很痒很痒，看着孩子满身的小疹子，又痒的难受，实在是好心疼可是又不知道怎么办？后来就带着孩子去了杭州的医院看了一下，医生说是荨麻疹，然后晚上给她挂了些盐水，还开了点药
AI 智能运维，重塑大型企业软件运维：从自动化到智能化的进阶实践 AI、少年郎人工智能运维自动化
一、引言：企业软件运维的智能化转型浪潮在数字化转型加速的背景下，大型企业软件架构日益复杂，微服务、多云环境、分布式系统的普及导致传统运维模式面临效率瓶颈。AI技术的渗透催生了智能运维（AIOps）的落地，通过机器学习、大模型、智能Agent等技术，实现从"人工救火"到"智能预防"的范式转变。本文结合头部企业实践，解析AI在运维领域的核心应用场景、技术架构及未来趋势，特别针对基础运维中流程重构、技术
Spring AI 概述与功能简介 drebander AI 编程 spring 人工智能 java
SpringAI是一个由Spring团队开发的开源框架，旨在为人工智能（AI）和机器学习（ML）提供一个成熟且高效的开发平台。它将Spring生态系统的设计理念应用于AI开发，尤其强调模块化、可移植性以及简洁的集成。SpringAI提供了丰富的功能，涵盖从AI模型的调用到与数据库的集成等多个方面，帮助开发者构建和管理AI驱动的应用程序。1.SpringAI背景SpringAI的背景源于Spring
2021-01-09 做个会思考的老师
写给我的小“猪”娃们亲爱的小猪娃们，新年好！之所以想到要给你们写这封信，源于这段时间来你们带给我的惊喜和改变。不知从什么时候开始，我们的课堂有了灵气，我们的互动也有了默契。每一节课，你们都在用自己的思考，自己的表达向我展示你们的进步。课堂上，最喜欢看到你们认真倾听其他同学的想法时那专注的神情，最喜欢听到你们说：“老师，我还有不同的想法！”你们现在所表现出来的学习状态，和开学时简直是有了180°的大
大前端开发者如何应对 AI 浪潮：技能提升与职业发展规划欧阳天羲大前端与 AI 的深度融合 #AI 大前端行业应用与趋势篇人工智能前端
AI技术的爆发正深刻重塑大前端领域的技术栈与职业边界——从代码生成到智能交互，从自动化测试到自主化应用，AI不再是“可选技能”，而是“生存必备”。对于前端开发者而言，这既是挑战（传统技能贬值加速），更是机遇（新职业赛道涌现）。本文将系统梳理AI时代前端开发者的技能升级路线图，解析三大核心职业方向的能力要求，并提供可落地的学习路径与实践方案，帮助开发者在技术变革中实现竞争力跃迁。一、AI时代对大前端
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include

中文自动文摘关键技术总结

中文自动文摘关键技术总结

定义

应用

分类

抽取式

基于规则和统计的文摘方法

基于图模型的文摘方法

基于主题的文摘方法

基于整数规划的文摘方法

生成式

自动文摘评价指标

中文单文档自动文摘的部分方法

你可能感兴趣的:(NLP学习)