无水先生

使用句子嵌入的无监督文本摘要

一、说明

这是一个AI研究生班的作业练习，在本文中，我将描述我用来在 Python 中执行文本摘要的方法，这是我在导师分配给我的很棒的任务列表之一。

二、什么是文本摘要？

文本摘要是从一个或多个源中提取最重要的信息以生成特定用户（或多个用户）和任务（或多个）的删节版本的过程。

——第1页，《自动文本摘要进展》，1999年。

人类通常非常擅长这项任务，因为我们有能力理解文本文档的含义，并提取显着特征以使用我们自己的话来总结文档。然而，在当今世界，文本摘要的自动方法至关重要，因为当今世界数据过多，缺乏人力和时间来解释数据。自动文本摘要有用的原因有很多：

摘要减少了阅读时间。
在研究文档时，摘要使选择过程更容易。
自动汇总提高了索引的有效性。
自动汇总算法比人工汇总器偏差更小。
个性化摘要在问答系统中很有用，因为它们提供个性化信息。
使用自动或半自动摘要系统使商业摘要服务能够增加他们能够处理的文本文档的数量。

2.1 文本摘要方法的类型：

文本摘要方法可以分为不同的类型。

文本摘要方法的类型

基于输入类型：

Single 文档，其中输入长度较短。许多早期的摘要系统处理单个文档摘要。
多文档，其中输入可以任意长。

基于目的：

泛型，其中模型不对要汇总的文本的领域或内容做出假设，并将所有输入视为同质。已经完成的大部分工作都围绕着通用摘要。
特定于域，其中模型使用特定于域的知识来形成更准确的摘要。例如，总结特定领域的研究论文、生物医学文件等。
基于查询，其中摘要仅包含回答有关输入文本的自然语言问题的信息。

基于输出类型：

抽取式，从输入文本中选择重要句子以形成摘要。今天，大多数总结方法本质上都是抽取性的。
抽象的，模型形成自己的短语和句子，以提供更连贯的摘要，就像人类会生成的内容一样。这种方法绝对比抽取式总结更具吸引力，但要困难得多。

2.2 我们的任务

任务是使用 Python 对英语、丹麦语、法语等语言的电子邮件执行文本摘要。大多数公开可用的文本摘要数据集适用于长文档和文章。由于长文档和文章的结构与短电子邮件的结构明显不同，因此使用监督方法训练的模型可能会受到域适应性不佳的影响。因此，我选择探索无监督的方法来无偏见地预测摘要。

现在，让我们尝试了解构成模型管道的各个步骤。

三、文本摘要模型管道

我采用的文本摘要方法受到本文的启发。让我们将其分解为几个步骤：

3.1 步骤1：电子邮件清理

为了激励这一步，让我们首先看看一些典型的电子邮件是什么样的：

英文电子邮件示例：

Hi Jane,

Thank you for keeping me updated on this issue. I'm happy to hear that the issue got resolved after all and you can now use the app in its full functionality again. 
Also many thanks for your suggestions. We hope to improve this feature in the future. 

In case you experience any further problems with the app, please don't hesitate to contact me again.

Best regards,

John Doe
Customer Support

1600 Amphitheatre Parkway
Mountain View, CA
United States

挪威电子邮件示例：

Hei

Grunnet manglende dekning på deres kort for månedlig trekk, blir dere nå overført til årlig fakturering.
I morgen vil dere motta faktura for hosting og drift av nettbutikk for perioden 05.03.2018-05.03.2019.
Ta gjerne kontakt om dere har spørsmål.

Med vennlig hilsen
John Doe - SomeCompany.no
04756 | [email protected]

Husk å sjekk vårt hjelpesenter, kanskje du finner svar der: https://support.somecompany.no/

意大利电子邮件的示例：

Ciao John, 

Grazie mille per averci contattato! Apprezziamo molto che abbiate trovato il tempo per inviarci i vostri commenti e siamo lieti che vi piaccia l'App. 

Sentitevi liberi di parlare di con i vostri amici o di sostenerci lasciando una recensione nell'App Store!

Cordiali saluti, 

Jane Doe
Customer Support

One Infinite Loop
Cupertino
CA 95014

正如人们所看到的，电子邮件开头和结尾的称呼和签名行对摘要生成任务没有任何价值。因此，有必要从电子邮件中删除这些行，我们知道，这些行不应该有助于摘要。这使得模型可以更好地执行更简单的输入。

由于称呼和签名行可能因电子邮件和一种语言而异，因此删除它们将需要与正则表达式匹配。为了实现这个模块，我使用了在Mailgun Talon GitHub存储库中找到的稍微修改的代码版本，以便它也支持其他语言。该模块还会删除换行符。代码的较短版本如下所示：

除了修改代码来创建自己的clean（），您还可以使用：

上述电子邮件的清理版本将如下所示：

清洁的英文电子邮件：

Thank you for keeping me updated on this issue. I'm happy to hear that the issue got resolved after all and you can now use the app in its full functionality again. Also many thanks for your suggestions. We hope to improve this feature in the future. In case you experience any further problems with the app, please don't hesitate to contact me again.

清理后的挪威电子邮件：

Grunnet manglende dekning på deres kort for månedlig trekk, blir dere nå overført til årlig fakturering. I morgen vil dere motta faktura for hosting og drift av nettbutikk for perioden 05.03.2018-05.03.2019. Ta gjerne kontakt om dere har spørsmål.

清洁后的意大利电子邮件：

Grazie mille per averci contattato! Apprezziamo molto che abbiate trovato il tempo per inviarci i vostri commenti e siamo lieti che vi piaccia l'App. Sentitevi liberi di parlare di con i vostri amici o di sostenerci lasciando una recensione nell'App Store.

完成预处理步骤后，我们可以继续探索摘要管道的其余部分。

3.2 步骤2：语言检测

由于要汇总的电子邮件可以是任何语言，因此需要做的第一件事是确定电子邮件使用哪种语言。许多Python库都可用，它们使用机器学习技术来识别一段文本的编写语言。一些例子是多语言，语言检测和textblob。我使用语言检测来达到我的目的，它支持 55 种不同的语言。语言检测只需一个简单的函数调用即可执行：

3.3 步骤3 ：句子标记化

对每封电子邮件执行语言识别后，我们可以使用此信息将每封电子邮件拆分为其组成句子，使用每种语言的句子分隔符的特定规则。NLTK的句子分词器将为我们完成这项工作：

NLTK的句子分词器

3.4 步骤4：跳思路编码器

我们需要一种方法来为电子邮件中的每个句子生成固定长度的向量表示。这些表示形式应编码相应句子的固有语义和含义。用于生成单词嵌入的众所周知的 Skip-Gram Word2Vec 方法可以为我们模型词汇表中存在的单个单词提供词嵌入（一些更高级的方法也可以使用子词信息为不在模型词汇表中的单词生成嵌入）。

Skip-gram Word2Vec 模型经过训练，可以预测给定输入单词的周围单词。

对于句子嵌入，一种简单的方法是对句子中包含的单词获取单词向量的加权和。我们采用加权总和，因为经常出现的单词，如“和”、“到”和“the”，很少或根本没有关于句子的信息。一些很少出现的单词，是少数句子所独有的，具有更多的代表性。因此，我们认为权重与单词出现的频率成反比。本文详细描述了这种方法。

但是，这些无监督方法不考虑句子中的单词顺序。这可能会对模型性能造成不良损失。为了克服这个问题，我选择使用维基百科转储作为训练数据，以监督方式训练Skip-Thought句子编码器。跳过思想模型由两部分组成：

编码器网络：编码器通常是一个 GRU-RNN，它为输入中的每个句子 S（i） 生成固定长度的向量表示 h（i）。编码表示 h（i） 是通过将 GRU 单元的最终隐藏状态（即在它看到整个句子之后）传递到多个密集层获得的。
解码器网络： 解码器网络将这个向量表示 h（i）作为输入，并尝试生成两个句子 — S（i-1） 和 S（i+1），它们可能分别出现在输入句子之前和之后。实现单独的解码器用于生成上一个和下一个句子，两者都是 GRU-RNN。向量表示 h（i） 充当解码器网络的 GRU 的初始隐藏状态。

跳过思想模型概述

给定一个包含一系列句子的数据集，解码器应逐字生成上一个和下一个句子。编码器-解码器网络被训练以最小化句子重建损失，在此过程中，编码器学习生成矢量表示，为解码器编码足够的信息，以便它可以生成相邻的句子。这些学习的表示使得语义相似的句子的嵌入在向量空间中彼此更接近，因此适合聚类。我们电子邮件中的句子作为编码器网络的输入给出，以获得所需的矢量表示。本文详细介绍了这种用于获取句子嵌入的跳过思维方法。

给定一个句子（灰点），模型尝试预测前一个句子（红点）和下一句（绿点）。图片来源：https://arxiv.org/pdf/1506.06726.pdf

为了实现，我使用了由skip-thoughts论文的作者开源的代码。它是用Theano写的，可以在这里找到。获取电子邮件中每个句子的嵌入的任务可以通过几行代码完成：

跳思编码器-解码器架构

3.5 步骤 5：聚类

在为电子邮件中的每个句子生成句子嵌入后，方法是将这些嵌入聚类到高维向量空间中，以达到预定义的簇数。聚类数将等于摘要中所需的句子数。我选择摘要中的句子数等于电子邮件中句子总数的平方根。人们也可以认为它等于句子总数的 30%。下面是可以为你执行群集的代码：

3.6 步骤 6 ：总结

每个句子嵌入簇都可以解释为一组语义相似的句子，其含义只能由摘要中的一个候选句子表达。候选句子被选为其向量表示最接近聚类中心的句子。然后对对应于每个集群的候选句子进行排序，以形成电子邮件的摘要。摘要中候选句子的顺序由句子在原始电子邮件中相应集群中的位置决定。例如，如果候选句子簇中的大多数句子都出现在电子邮件的开头，则选择候选句子作为摘要的第一行。以下代码行实现了这一点：

由于这种方法本质上是从文本中提取一些候选句子以形成摘要，因此称为抽取总结。

为上述电子邮件获得的示例摘要如下：

对于英文电子邮件：

I'm happy to hear that the issue got resolved after all and you can now use the app in its full functionality again. Also many thanks for your suggestions. In case you experience any further problems with the app, please don't hesitate to contact me again.

对于丹麦电子邮件：

Grunnet manglende dekning på deres kort for månedlig trekk, blir dere nå overført til årlig fakturering. I morgen vil dere motta faktura for hosting og drift av nettbutikk for perioden 05.03.2018-05.03.2019. Ta gjerne kontakt om dere har spørsmål.

对于意大利语电子邮件：

Apprezziamo molto che abbiate trovato il tempo per inviarci i vostri commenti e siamo lieti che vi piaccia l'App. Sentitevi liberi di parlare di con i vostri amici o di sostenerci lasciando una recensione nell'App Store.

四、训练

预先训练的模型可用于对英语句子进行编码（有关更多详细信息，请参阅存储库）。然而，对于丹麦语句子，必须训练跳过思维模型。数据取自丹麦语维基百科转储，您可以在此处获得。提取了.bz2存档，并解析了生成的.xml以剥离html，以便仅保留纯文本。有许多工具可用于解析维基百科转储，但没有一个是完美的。它们也可能需要大量时间，具体取决于用于解析的方法。我从这里使用了该工具，它不是最好的，但是免费的，可以在合理的时间内完成工作。对生成的纯文本执行简单的预处理，例如删除换行符。通过这样做，大量的训练数据可供跳过思想模型训练数天。

由此生成的训练数据包括来自维基百科条目的2，712，935个丹麦句子。训练过程还需要预先训练的Wor2Vec词向量。为此，我使用了Facebook fastText的预训练向量（只是文件而不是，因此不使用词汇扩展功能）用于丹麦语。预训练向量的词汇量为312，956个单词。由于这些词向量也是在丹麦语维基百科上训练的，因此词汇外的词非常罕见。存储库中还提供所使用的训练代码。wiki.da.vecwiki.da.bin

五、实施详细信息

下面是该模块的简化版本，它仅支持英文电子邮件，但实现了上述所有步骤，并且效果非常好。该模块以及有关如何运行它的说明存在于此 GitHub 存储库中，供您参考。随意分叉和修改代码！

六、结果

正如您所注意到的，当电子邮件由几个句子组成而不是只有 2-3 个句子时，这种摘要方法的效果要好得多。对于三句话的电子邮件，摘要将由两句话组成，情况并非如此。此外，这三个句子可能传达完全不同的东西，从任何一个句子中省略信息是不可取的。正是由于这个原因，抽取方法通常不是总结短投入的首选。监督 Seq2Seq 模型更适合此任务。然而，在这种情况下，电子邮件的长度通常更长，提取方法的效果出奇地好。
使用跳过思想向量的一个缺点是模型可能需要很长时间才能训练。虽然在训练2-3天后获得了可接受的结果，但丹麦跳过思想模型训练了大约一周。成本在迭代期间波动很大，因为它是按句子长度规范化的。

成本与否迭代图

为了了解 Skip-Thoughts 模型的效果如何，我们可以查看数据集中大多数相似的句子对：

I can assure you that our developers are already aware of the issue and are trying to solve it as soon as possible.
AND
I have already forwarded your problem report to our developers and they will now investigate this issue with the login page in further detail in order to detect the source of this problem.
--------------------------------------------------------------------I am very sorry to hear that.
AND
We sincerely apologize for the inconvenience caused.
--------------------------------------------------------------------Therefore, I would kindly ask you to tell me which operating system you are using the app on.
AND
Can you specify which device you are using as well as the Android or iOS version it currently has installed?

从上面可以明显看出，该模型的效果出奇地好，即使句子的长度大不相同，使用的词汇也完全不同，也可以标记相似的句子。

七、可能的改进

这里介绍的方法效果很好，但并不完美。通过增加模型复杂性，可以进行许多改进：

快速思维向量是跳过思维方法的最新进展，可以显着减少训练时间和提高性能。
跳过思想编码表示的维数为 4800。由于维度的诅咒，这些高维向量不是最适合聚类目的。在使用自动编码器或 LSTM 自动编码器进行聚类之前，可以在压缩表示中传递进一步的序列信息，从而降低矢量的维数。
抽象总结可以通过训练解码器网络来实现，而不是使用抽取方法，该解码器网络可以将集群中心的编码表示转换回自然语言句子。这样的解码器可以通过跳思维编码器生成的数据进行训练。但是，如果我们希望解码器生成合理且语法正确的句子，则需要为解码器做出非常谨慎的超参数调整和架构决策。

八、基础设施设置

上述所有实验都是在n1-highmem-8 Google Cloud实例上进行的，该实例具有八核Intel（R）Xeon（R）CPU和具有80 GB RAM的Nvidia Tesla K52 GPU。

特别感谢我的导师拉胡尔·库马尔（Rahul Kumar）一路走来的建议和有用的建议，没有他，这是不可能的。我还要感谢 Jatana.ai 给我这个绝佳的机会和必要的资源来完成同样的工作。

差异中寻找共识：浅析中美欧AIGC服务商的标识义务人工智能
2025年1月7日，西藏日喀则地震中一张被广泛传播的图片“被压在废墟下的小男孩”被证明是AI合成图片，[1]这随即引发了社会对于人工智能生成物（ArtificialIntelligenceGeneratedContent，以下简称“AIGC”）的广泛讨论。随着AI大模型生成逼真图像、音频与视频的能力日益增强，人类作品与AIGC之间的界限愈发模糊。如不加以管控，则会产生“真相侵蚀”（TruthDec
迷雾渐开：美国AIGC可版权性剖析及案例梳理人工智能
当地时间2025年1月29日，美国版权局（U.S.CopyrightOffice,USCO）发布了版权和人工智能相关法律和政策报告的第二部分——《版权和人工智能：可版权性》（以下简称“《USCO可版权性报告》”）[1]，旨在探讨人工智能生成内容（AIGC）的可版权性问题。该报告明确指出，美国版权局认为现有的版权法足以解决AIGC问题，因此无需制定新的立法。具体而言，该报告在此前美国版权局于2023
智能体平台架构深度剖析：从底层到应用的全链路解析人工智能
在当今人工智能飞速发展的时代，智能体平台作为承载和驱动智能应用的关键基础设施，其架构设计至关重要。一个优秀的智能体平台架构，能够高效整合各类资源，实现智能体的灵活构建与稳定运行，为多样化的应用场景提供强大支持。稳固根基：基础资源层与并行平台层基础资源层是整个智能体平台的基石。其中，GPU和服务器构成了强大的计算硬件支撑，确保平台能够应对复杂的计算任务。而数据与OSS（对象存储服务）则如同智能体的“
美国首例AI训练数据版权案：从汤森路透诉罗斯案看AI训练数据的“合理使用” 人工智能
随着人工智能（AI）技术的快速发展和广泛应用，复杂的版权问题也随之而来。2025年2月11日，美国特拉华州联邦地区法院对汤森路透（ThomsonReuters）诉罗斯（Ross）案作出部分简易判决，认定被告罗斯公司未经授权使用受版权保护的作品训练AI法律检索工具的行为构成版权侵权，且不属于合理使用。[1]这是美国首个就AI训练数据作出实质性判决的案件。本文将重点分析其合理使用论述中对于“转换性目的
如何进行OceanBase 运维工具的部署和表性能优化! oceanbase
随着OceanBase数据库应用的日益深入，数据量不断攀升，单个表中存储数百万乃至数千万条数据的情况变得愈发普遍。因此，部署专门的运维工具、实施针对性的表性能优化策略，以及加强指标监测工作，都变得更为重要。以下为基于我们的使用场景，所采取的一些部署和优化措施分享。一、OCP部署升级1．OCP升级（1）4.2.1BP1升级到4.2.2，本来以为毫无波澜但是下载完毕一键包并完成前期准备工作启动后发现无
理解持续测试，才算理解DevOps
软件产品的成功与否，在很大程度上取决于对市场需求的及时把控，采用DevOps可以加快产品交付速度，改善用户体验，从而有助于保持领先于竞争对手的优势。作为敏捷开发方法论的一种扩展，DevOps强调开发、测试和运维不同团队间的协作与沟通。持续集成和持续测试是一个在迭代中构建、测试产品并修复Bug的过程。它有助于团队在开发阶段的初期发现缺陷，这时的缺陷通常相对不那么复杂，并且更容易被解决。通过持续集成和
产品经理如何管理需求项目管理
产品经理在管理需求时，应注重准确收集用户反馈、深入分析需求合理性、合理设定优先级、确保跨部门协作顺畅、有效控制需求变更、持续优化产品。其中，深入分析需求合理性尤为关键。产品经理需要验证收集到的需求是否符合公司的战略目标、技术条件和资源限制，确保所开发的功能真正满足用户需求并为企业创造价值。一、需求收集与分析有效的需求管理始于准确且全面的需求收集。产品经理应通过多种渠道进行需求收集，包括直接用户交流
一文了解 Go 标准库 strconv challengego后端
前言上篇文章介绍了strings标准库里的一些常用的函数和方法，本文也是以string类型为中心，通过strconv标准库，介绍其与其他基本数据类型相互转换的函数。strconvstrconv包提供了string类型与其他基本数据类型之间转换的函数，本文不会介绍其所有函数，如果想了解更多的小伙伴可以到Go包文档查看。string与int之间的转换Itoa：int类型转string类型Itoa(ii
一文了解 Go 方法 challenge后端go
前言在前面的文章中，介绍了Go函数的声明，函数的几种形式如匿名函数、闭包、基于函数的自定义类型和函数参数详解等，而本文将对方法进行介绍，方法的本质就是函数，介绍方法的同时也会顺带对比其与函数的不同之处。方法在Go中，我们可以为任何的数据类型定义方法(指针或接口除外)，现在让我们看一看方法的声明和组成部分以及与函数有什么不同之处。typePersonstruct{ageint}func(p*Pers
PostgreSQL 用户及授权管理 04：授予及回收权限 LavenLiu postgresql
PostgreSQL是一个坚如磐石的数据库，它非常注重安全性，提供了非常丰富的基础设施来处理权限、特权和安全策略。在前面的章节中以我们介绍的基本概念为基础，重新审视角色概念，特别关注授予角色的安全性和权限（角色可以是用户，也可以是用户组）。我们将学习如何配置角色的各个方面以细致管理安全性，从连接到访问数据库中的数据。文章目录授予及回收权限表相关的权限基于列的权限序列相关的权限schema相关的权限
《java面向对象（2）》＜不含基本语法＞ java小白板 java 开发语言
提示：本笔记基于黑马程序员java教程整理，仅供参考文章目录前言1.继承2.多态2.1对象多态2.2行为对象2.3多态的问题前言本文纯笔记，主要记录了java面向对象的高级方法继承与多态1.继承在创建多个对象类时，它们可能会有很多相似的属性，如姓名，身高，体重等，就会造成代码的重复，所以我们可以采用继承的思想，将它们相同的属性放在同一个父类中，而其它作为子类的都可以继承父类的属性，子类本身就只用定
Centos离线安装perl 为什么要做囚徒 linux运维 linux centos perl linux 运维
文章目录Centos离线安装perl1.perl是什么？2.Perl下载地址3.perl的安装4.安装结果验证Centos离线安装perl1.perl是什么？Perl是一种高级脚本语言，诞生于1987年，以强大的文本处理能力和灵活性著称，常用于系统管理、Web开发、网络编程等领域2.Perl下载地址perl整体打包下载地址CentOS-7所有rpm包的仓库地址：perl-5.16.3-297.el
消息队列的特性与使用场景：Kafka、ActiveMQ、RabbitMQ与RocketMQ的深度剖析啊sen丶 kafka activemq rabbitmq rocketmq 分布式消息队列
在分布式系统和微服务架构中，消息队列是实现服务间通信和解耦的核心组件。Kafka、ActiveMQ、RabbitMQ和RocketMQ是当前最受欢迎的消息队列解决方案，它们各自具有独特的特性和适用场景。本文将从特性和使用场景两个维度进行对比分析，帮助读者更好地理解它们的差异，并根据实际需求选择合适的消息队列。一、特性对比（一）吞吐量与延迟-Kafka：以高吞吐量著称，适合大规模数据的批量处理。延迟
从FFmpeg命令行到Rust：多场景实战指南
FFmpeg作为功能强大的多媒体处理工具，被广泛应用于视频编辑、格式转换等领域。然而，直接使用FFmpeg的命令行界面（CLI）可能会遇到以下挑战：命令复杂度高：FFmpeg的命令行参数众多且复杂，初学者可能难以掌握，配置错误时调试困难。集成困难：在Rust等现代编程语言中，直接调用FFmpeg的C语言API需要处理复杂的内存管理和安全性问题，可能引发内存泄漏、非法访问等问题。为了解决这些问题，R
C/C++ | 每日一练 (6) 张胤尘 C/C++每日一练 c++c语言面试
欢迎来到张胤尘的技术站技术如江河，汇聚众志成。代码似星辰，照亮行征程。开源精神长，传承永不忘。携手共前行，未来更辉煌文章目录C/C++|每日一练(6)题目参考答案普通指针存在的问题？内存泄漏悬空指针指针被重复释放智能指针`std::unique_ptr`底层结构常用操作释放所有权重置获取原始指针交换`std::shared_ptr`底层结构常用操作获取引用计数重置获取原始指针交换检测是否唯一判断相
YashanDB用户表空间管理数据库
关于表空间管理的详细语法描述请参考开发手册CREATETABLESPACE、ALTERTABLESPACE、DROPTABLESPACE。创建表空间数据库管理员在接收到一个创建表空间的申请时，需要从以下方面进行考量：表空间所服务的业务属性：HEAP表和TAC表采取段页式结构，挂载普通数据文件--不指定DATAFILE将默认创建一个数据文件CREATETABLESPACEtablespace_nam
WHQL微软驱动签名认证，让企业驱动在Windows系统畅通无阻 WoTrusSSL microsoft
对于开发硬件设备或驱动软件的企业来说，如何在Windows系统上实现驱动程序的“无感安装”和稳定运行，是直接影响用户体验和产品口碑的关键。而微软的WHQL认证（Windows硬件质量实验室认证），正是解决这一痛点的“黄金标准”。本文将为您解读WHQL认证的核心价值，并拆解三种适配不同需求的驱动签名方案，助您的产品轻松获得微软官方背书，抢占市场先机。一、WHQL微软驱动签名的作用简单来说，WHQL认
如何设计一个低成本数据归档及查询的架构 LavenLiu 架构
引言随着企业数据的快速增长，如何高效地管理和查询这些数据成为了一个亟待解决的问题。尤其是当数据量达到一定程度时，传统的数据存储和查询方式往往面临成本高、效率低等挑战。因此，设计一个低成本、高效的数据归档及查询架构变得尤为重要。目标分析在设计低成本数据归档及查询架构之前，我们首先需要明确几个关键目标：成本控制：在保证数据完整性和查询效率的前提下，尽可能降低存储和查询的成本。可扩展性：系统应能够轻松应
深入解密：Postman、Apipost和Apifox API 协议与工具选择
作为一个一个每天和API“打交道”的全栈开发者，我的日常就是在一堆请求回应之间探寻系统间的“沟通艺术”。熟悉API的各种协议和工具，几乎成了我的谋生技能。今天，我就把自己积累多年的“血泪教训”和经验打包成一篇文章，献给和我一样的开发同胞们，带你一网打尽API的协议类型和工具选择，让你工作效率飙升，开发道路越走越顺！API常见协议及适用场景解析API的协议就像一根根看不见的“桥梁”，将用户请求灵活而
21-梯度累积原理与实现机器人图像处理深度学习算法与模型人工智能深度学习 YOLO
一、基本概念在深度学习训练的时候，数据的batchsize大小受到GPU内存限制，batchsize大小会影响模型最终的准确性和训练过程的性能。在GPU内存不变的情况下，模型越来越大，那么这就意味着数据的batchsize智能缩小，这个时候，梯度累积（GradientAccumulation）可以作为一种简单的解决方案来解决这个问题。二、Batchsize的作用训练数据的Batchsize大小对训
go结构体初始化_golang中结构体的初始化方法 weixin_39724748 go结构体初始化
目录1、自定义一个结构体typeVertexstruct{X,Yfloat64}2、初始化方法-指针：rect1:=new(Vertex)rect2:=&Vertex{}rect3:=&Vertex{1,2}rect4:=&Vertex{X:100,Y:200}注意:这几个变量全部为指向Rect结构的指针(指针变量)，因为使用了new()函数和&操作符．3、初始化方法-类型实例a:=Rect{}b
使用 Go 语言实现高性能网络服务: 包括TCP连接管理、内存池、epoll、缓存设计、序列化等 AI天才研究院 Golang实战一天一门编程语言自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介Go是一门开源的编程语言，由Google开发并于2009年正式发布。其拥有以下特征：静态强类型:在编译时已经把变量的数据类型确定下来，并进行严格类型检查；自动垃圾回收:不需要手动分配和释放内存，通过引用计数实现自动释放无用对象；接口:支持接口、多态特性，可以方便地实现依赖注入、适配器模式、代理模式等；goroutine:采用协程（Coroutine）机制，使得编
golang time包和日期函数平谷一勺 Golang基础篇 golang java 服务器 timehanshu 时间函数 time 定时器
1.简介在程序中日期和时间是我们经常会用到的，在go中time包提供了时间的显示和测量函数。2.获取当前时间通过time.Now()函数获取当前时间对象，然后获取时间对象的年月日时分秒等值。now:=time.Now()fmt.Printf("now=%vtype=%T\n",now,now)fmt.Println("年：",now.Year())fmt.Println("月：",int(now.
一篇文章掌握整个JVM，JVM超详细解析！！！（持续更新中）阿杰同学 JVM java面试宝典 jvm java虚拟机
一篇文章掌握整个JVM，JVM超详细解析！！！（持续更新中）JVM内存模型JVM内存模型包括：虚拟机栈、堆、方法区、程序计数器、本地方法栈堆(Heap)是计算机科学中一类特殊的数据结构的统称。堆通常是一个可以被看做一棵完全二叉树的数组对象。栈（stack）又名堆栈，它是一种运算受限的线性表。限定仅在表尾进行插入和删除操作的线性表。这一端被称为栈顶，相对地，把另一端称为栈底。向一个栈插入新元素又称作
JVM常用概念之FPU溢出剑海风云 JDK（Java Development Kit）jvm FPU溢出
问题当自己的代码根本没有浮点或矢量运算，JVM在x86生成的机器代码为什么会用到XMM寄存器?基础知识FPU和矢量单元在现代CPU中随处可见，在许多情况下，它们为FPU特定的操作提供了一组备用寄存器。例如，Intelx86_64中的SSE和AVX扩展具有一组额外的宽XMM、YMM和ZMM寄存器，可与更宽的指令结合使用。虽然非矢量指令集通常与矢量和非矢量寄存器不正交（例如，我们不能在x86_64上将
数据结构与算法——二叉树，多叉树的递归遍历、层序遍历，DFS与BFS Book_熬夜！数据结构与算法深度优先宽度优先算法数据结构广度优先
文章目录二叉树1.递归遍历2.层序遍历3.多叉树遍历二叉树【子节点】：每个节点下方相连的节点【父节点】：每个节点上方相连的节点【根节点】：最上方没有父节点的节点【叶子节点】：最下方没有子节点的节点【最大深度】：树的最大层数【高度】：节点数减一，即枝数。【满二叉树(PerfectBinaryTree)】：深度为h，则总节点数：2^h-1FullBinaryTree是指一棵二叉树的所有节点要么没有孩子
nginx中proxy_pass和root的区别 LeonNo11 nginx nginx 运维
在location配置中，proxy_pass和root是完全不同的指令，它们的作用和适用场景不同。1.proxy_pass：代理请求到后端服务器location/api/{proxy_passhttp://http_backend;}作用把请求转发到后端服务器http_backend，即Nginx作为反向代理。适用于Nginx作为API网关或负载均衡的情况。示例如果http_backend是ht
使用Python Flask构建Web应用程序代码快速拳 python flask 前端 Python
Flask是一个轻量级的PythonWeb框架，它提供了构建Web应用程序所需的基本功能。它简单易用，非常适合小型项目和原型开发。本文将介绍如何使用Flask构建一个简单的Web应用程序，并提供相应的源代码。首先，我们需要安装Flask。可以使用以下命令使用pip安装Flask：pipinstallflask一旦安装完成，我们就可以开始构建我们的Web应用程序了。首先，创建一个Python文件，命
2024年一文1800字从0到1使用Python Flask实战构建Web应用(1) 2401_84564025 程序员 python flask 前端
现在我也找了很多测试的朋友，做了一个分享技术的交流群，共享了很多我们收集的技术文档和视频教程。如果你不想再体验自学时找不到资源，没人解答问题，坚持几天便放弃的感受可以加入我们一起交流。而且还有很多在自动化，性能，安全，测试开发等等方面有一定建树的技术大牛分享他们的经验，还会分享很多直播讲座和技术沙龙可以免费学习！划重点！开源的！！！qq群号：110685036第三部分：运行Flask应用在app.
Go语言的数据结构 2401_90032081 包罗万象 golang 开发语言后端
Go语言的数据结构Go语言（也称为Golang）是一种由谷歌开发的开源编程语言，以其简单性、高效性和并发性而受到欢迎。作为一门现代语言，Go语言在处理数据时提供了丰富的数据结构，这些数据结构不仅可以帮助开发者管理复杂的数据关系，还能提高程序的性能和可读性。本文将详细探讨Go语言中的各种数据结构，包括数组、切片、映射、链表、树以及它们的使用场景与实现细节。一、数组1.1数组的定义在Go语言中，数组是
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo