彭伟_02

Bi-directional Cognitive Thinking Network for Machine Reading Comprehension 论文阅读

面向机器阅读理解的双向认知思维网络

专知阅读链接

摘要

本文从互补学习系统理论的角度提出了一种新的阅读理解双向认知知识框架（BCKF）。它旨在模拟大脑中两种回答问题的思维方式，包括逆向思维和惯性思维。为了验证该框架的有效性，我们设计了一个相应的双向认知思维网络（BCTN），对文章进行编码，生成一个给定答案（问题）的问题（答案），并对双向知识进行解耦。该模型具有逆向推理的能力，有助于惯性思维产生更准确的答案。在DuReader数据集中观察到有效地改善，证实了我们的假设，即双向知识有助于QA任务。同时，这个新颖的框架也展示了机器阅读理解和认知科学的一个有趣的视角。

1. 介绍

机器阅读理解（MRC）已经取得了长足的进步，一系列的神经模型在一些基准上，如SQuAD，迅速接近人类的对等水平。然而，现有的方法在认知科学的水平上还处于初级阶段。近年来，脑科学和心理学为类脑计算的发展和模拟人类的感知、思考、理解和推理能力提供了重要的基础。

思维是人脑对客观事物的性质、相互关系和内在规律的概括和间接反映。在心理学中，有两种思维是互补的：一种是从前向刺激到后向刺激的惯性思维，另一种是从后向刺激到前向刺激的逆向思维。比如数学中常用的反证法，就是对结论取反，一直推导到矛盾结束。具体地说，在MRC任务中，这两种思维可以看作是从问题（答案）到答案（问题）的推理过程。例如，如图1所示，我们可以通过定位实体{怀孕的孕妇}和{枇杷}很容易得到答案。相反地，生成问题可以通过阅读答案和文章来推理，这个答案描述了两个方面的问题，包括{孕妇能吃枇杷}和{孕妇吃枇杷有什么好处}。我们希望这种逆向推理问题的能力能够提高阅读理解任务的表现。

以往的方法只考虑一个正向的逻辑关系，即基于给定的问题和文章。他们忽略了给定段落和答案之间的反向关系。尽管有相关工作提出了一个既问又答的联合模型，但它将正向和逆向的知识耦合起来，而不是以一种解耦合的方式进行处理。类似的，我们假设逆向推理问题的能力可以帮助模型获得更好的性能。这部分源于心理学的观察，即在阅读时设计问题可以帮助学生提高阅读和理解的文本处理能力。

因此，可以从人类的认知过程中获得对问题解决方案的见解。互补学习系统理论（CLST）认为，人脑包含互补的学习系统，在我们试图理解一个经历过的情况时，支持同时使用许多信息源。其中一个系统是通过累积学习逐步获得一个完整的知识体系，包括我们对词义、常见事物性质和熟悉情景特征的知识。就像惯性思维一样，长时间学习现实世界中不同事物之间的关系。另一个系统是一个类似于逆向思维的快速学习系统，它的目标是从另一个不寻常的角度来刺激和增强大脑中不经常使用的回路区域

2. 双向认知知识框架

在互补学习系统理论（CLST）的启发下，我们提出了双向认知知识框架（BCKF）。如图2（a）所示，蓝色和方块包含围绕一组输入组织的新皮层系统。红盒是内侧颞叶（MTL）系统，其中蓝色椭圆形（融合系统、惯性思考器、逆向思考器、推理机和门控制器）代表与橙色椭圆有着直接或间接相关的关系，这些橙色的椭圆定义为包含少量信息（如视觉和语言输入）的输入池。绿色箭头表示不同蓝色椭圆之间的学习连接，它们将嵌入的元素绑定在一起，以便以后重新激活。绿色虚线表示双向思考者包含推理模块。蓝色箭头表示不同系统之间的信息传输。红色和蓝色的圆形箭头表示自我学习和自我更新。控制者决定记忆中逆向思维的刺激强度，以便在不同的情况下做出不同的决定。最后，理解系统通过惯性思维和逆向思维相结合来指导模型的行为和对语言的理解。

3. 方法

本文提出了双向认知知识框架（BCKF）。并设计相应的双向认知思维网络（BCTN）来验证逆向思维的有效性，如图2所示。

该方法概述：（a）我们的双向认知知识框架由大脑皮层系统和内侧颞叶系统（MTL）组成，箭头表示思维的流动，（b）双向认知思维网络，n表示不同的训练阶段。灰色虚线表示它只存在于训练的第一阶段。

根据图2的概述，我们提出的基于双向认知知识框架的模型由以下模块组成，模型的训练包括两个阶段。

在{第一阶段}（反向编码器->基于门控的反向思考器->融合层->软解码器）中，反向编码器模拟答案和文章之间的交互关系，生成问题，称为反向思维训练。

前向编码器类似于具有不同参数和输入的反向编码器，在{第二阶段}（正向编码器->无门的惯性思考器->基于门控的反向思考器->融合层->软解码器）期间，使用给定的段落和问题进行再训练，生成最终的答案，称为惯性思维再训练。

内侧颞叶（MTL）系统包括基于门控的反向思考器、无门的惯性思考器和融合层。基于门控的反向思考器从逆向的一面学习神经元的反向连接，并决定记忆中反向思维的刺激强度。无门的惯性思考器建立文章和问题的正向关系。融合层结合双向知识为解码做准备。

软解码器输出一个指针生成器加复制机制的答案（问题），以综合词汇分布和源输入的tokens分布。

3.1 逆向思维训练

在这一节中，我们用答案和文章训练基于门控的反向思考器，其中保留的参数被视为大脑中反向回路的连接。所述图2（a）中的控制器，其确定存储器中反向思维的刺激强度，以在不同的情况下做出不同的决定。最后，解码器根据答案推断出问题。

反向编码器
我们使用BERT的编码器，添加了特殊分类嵌入（[CLS]），它对两个句子之间的蕴涵信息进行编码，并用一个特殊的符号（[SEP]）将答案A和段落P分开。输入的总长度是L=（K+N+3），其中K和N分别是答案和文章的长度。为了review答案（问题），找到答案（问题）相关的语义信息，我们再用一个BERT对答案（问题）进行编码，得到一个带有K+2个tokens的纯答案向量V。

基于门控的反向思考器

示意图说明，它由两部分组成：门控制器和推理模块（蓝框）。颜色的阴影（橙色、绿色和粉色）表示状态不断更新。n表示进程的顺序。

如图3所示，推理模块（蓝框）包含由开始（橙色）和结束（绿色）子块组成的推理块。这两个子块具有时序依赖性，即在计算结束子块时需要考虑起始子块的结果。推理模块模拟人类的思维过程，通过多个推理步骤不断挖掘U和V之间的关系。在第j步推理过程中，sj和ej是推理的起始和结束向量，可以看作是隐藏状态来增强U的表示。

最终的推理向量s2和e2基于与答案（或问题）的相关性融合所有可能的推理片段。此外，思考器基于已经解码的词来计算门控向量g，以确定记忆中逆向思维的刺激强度。因此我们可以得到最终的隐层状态的表示：

ui 表示的BERT的第l个token编码，gi 表示第l个token的打分，最终的unew即编码器的输出表示。

融合层
为了将逆向思维和惯性思维相结合，我们采用了Wang等人（2018a）中使用的融合核来更好地理解语义：

软解码器

我们在单词嵌入层和self-attention提供的嵌入之上使用了一组Transformer解码器块。此外，还使用了指针softmax机制，该机制学习在从文档复制单词和从指定词汇表生成单词之间进行转换。

3.2 惯性思维再训练

接下来我们会重复第二阶段的训练，同样的以BERT作为正向编码器，经过无门的惯性思考器得到正向的知识，同时基于门控的反向思考器基于第一阶段训练得到的参数，模拟逆向的知识，在这个过程中，我们把双向的知识进行了解耦合，得：

最终进行双向知识得融合和解码，两个超参数表示的是人工设计的，来决定双向思维的比例：

4. 实验设置

4.1数据集

为了证明我们工作的有效性，我们选择了DuReader基准数据集，它是从真实世界的搜索引擎（BaiDu）设计的。在数据量方面，它包含了300k个问题，并且数据被分成了一个训练集（290k对）和一个开发集（10k对）。测试分割对公众是隐藏的，因此，我们从开发数据中随机抽取5k个问题-答案对作为验证集，并使用其余的开发数据来报告测试结果。至于评价指标，答案是人为生成的，因此DuReader中的评测指标我们考虑的是{ROUGE-L}（R-L）和{BLEU-4}（B-4）。

4.2 实验结果

在DuReader数据集中，基线可分为三类：最新模型、RoBERTa-base（RB-base）模型和RoBERTa-large（RB-large）模型。RB-base和RB-large表明我们直接使用预先训练好的语言模型作为编码器，而不需要MTL系统。为了降低模型的复杂度，以往的方法将其转化为抽取任务。因此，我们将模型分为抽取模型和生成模型。如表1所示，我们在DuReader上的单个模型的主要结果优于BERT-Style的基线。在RoBERTa基础模型上ROUGE-L和BLEU4分别增加了3.86%和4.34%，在RoBERTa大型模型上，ROUGE-L和BLEU-4分别增加了2.26%和2.66%。虽然我们的模型在BLEU-4上比提取模型略有下降，但它在ROUGE-L上的表现要优于它们约8.4%。这是因为抽取式模型相比而言，通常具有更好的性能。这一现象在生成摘要任务中也可以体现。

4.3 消融实验和不同参数的影响

我们对我们的模型进行了消融研究，以讨论在我们的框架中可以移除的增强组件的影响。表2显示了我们提出的BCTN中不同部分的有效性。注意，通过删除所有不同的元素，配置3减少到RB基本模型。

此外，我们手动设置不同的参数alpha和beta来探索双向知识如何影响BCTN的性能。从表3可以看出，仅使用惯性思维时，模型在ROUGE-L上的性能达到57.02%，而加入反向思维后，模型达到了一个峰值。在模型只使用逆向思维而忽略惯性思维的情况下，模型的有效性显著下降。这与心理学中的人类行为相一致，即逆向思维可以帮助惯性思维产生更准确的答案，仅仅使用逆向思维或惯性思维是不够的。

4.4 Case study

定性地说，我们在加入双向思考者之前和之后观察到了一些有趣的例子。如表4所示，在案例1中，提出的模型输出了一个生成性问题{如何通过“噩梦结束”}的大师级别，该问题的语义与gold question相同。我们提出的BCTN得到了正确的答案，并给出了更详细的解释。然而，RB基线输出了一个错误的答案，尤其是句子{他们必须到达血}。在案例二中，也可以得出同样的结论。RB基线的答案描述的是枇杷的营养成分，而不是真正的问题对应的答案。但BCTN不仅给出了正确的反应，而且解释了孕妇为什么能吃枇杷。在我们的模型的帮助下，答案变得更加可解释和正确，说明我们的想法确实可以帮助系统回答更准确的问题。

5. 结论

本文从心理学角度提出了与双向认知知识框架（BCKF）相对应的双向认知思维网络（BCTN）。BCTN通过模拟惯性思维和逆向思维，以双向知识回答问题。我们将这两个部分的知识解耦，进行最终的答案生成。为了确定记忆中反向思维的刺激强度，我们考虑解码后的tokens来计算基于门机制的分数。我们证明了所提出的BCTN方法是有效的，它与文献中关于DuReader的单模型方法相比具有竞争力。我们未来的工作将考虑使用不同的数据集和设计各种模型来模拟我们大脑的行为，以尝试获取人类水平的语言理解和智能。这篇论文的工作是我们在认知科学中的浅层理解，我们希望有更多的研究者能够共同交流和学习。最后，我们相信我们的框架可以推广到其他的生成任务，例如摘要生成和image caption等任务。

团队介绍

中国科学院信息工程研究所雏鹰团队，在ACL、AAAI、IJCAI、TIP、ACM Multimedia、EMNLP、COLING等国际/国内会议及期刊上均有论文发表，同时也在2019 年世界视觉对话比赛，WMT 2020国际机器翻译大会，SemEval2020国际语义评测大会，CCMT 2019全国机器翻译大会取得TOP-3的成绩。目前由胡玥老师和于静老师带领，学生总共13名，博士生10名，硕士生3名。主要的研究方向分为两大类，一类是自然语言处理，一类是跨媒体智能分析。在自然处理领域中，主要研究机器翻译，机器阅读理解，对话系统。在跨媒体智能分析领域，主要研究视觉问答，视觉对话，跨媒体检索以及图像视频描述生成。欢迎对上述方向感兴趣的研究学者和同学们加入到我们团队共同学习！共同交流！
联系邮箱：胡玥[email protected]、于静[email protected]

论文地址

：https://www.aclweb.org/anthology/2020.coling-main.235.pdf

PyTorch 基础数据集：从理论到实践的深度学习基石那年一路北 Pytorch理论+实践深度学习 pytorch 人工智能
一、引言深度学习作为当今人工智能领域的核心技术，在图像识别、自然语言处理、语音识别等众多领域取得了令人瞩目的成果。而在深度学习的体系中，数据扮演着举足轻重的角色，它是模型训练的基础，如同建筑的基石，决定了模型的性能和泛化能力。PyTorch作为当下最流行的深度学习框架之一，为开发者提供了丰富且强大的工具来处理数据集。本文将深入探讨PyTorch中的基础数据集，从深度学习中数据的重要性出发，详细介绍
【深度学习】Pytorch：导入导出模型参数 T0uken 深度学习 pytorch 人工智能
PyTorch是深度学习领域中广泛使用的框架，熟练掌握其模型参数的管理对于模型训练、推理以及部署非常重要。本文将全面讲解PyTorch中关于模型参数的操作，包括如何导出、导入以及如何下载模型参数。什么是模型参数模型参数是指深度学习模型中需要通过训练来优化的变量，如神经网络中的权重和偏置。这些参数存储在PyTorch的torch.nn.Module对象中，通过以下方式访问：importtorchim
使用 PyTorch 从头开始构建您自己的 Llama 3 架构子然在打码 pytorch llama 人工智能
https://www.aisolink.com/build-your-own-llama-3-architecture-from-scratch-using-pytorch全文摘要本文提供了一个详细的指南，介绍如何使用PyTorch从头开始构建Llama3模型的完整架构，并对自定义数据集进行训练和推理。文章涵盖了构建输入块、解码器块和输出块的步骤，并提供了相应的代码示例。最终目标是构建一个功能齐
ChatGPT 绘图的工作原理
ChatGPT的绘图功能结合了自然语言处理（NLP）和图像生成的技术，这种综合能力依赖于预训练模型（如GPT-4）和图像生成模型（如DALL-E）之间的紧密协作。ChatGPT本质上是一个大规模的语言模型，但通过与图像生成模型集成，它得以执行基于描述生成图像的任务。接下来，我们将从模型架构、训练方法、推理机制和一些技术挑战等方面，详细讨论ChatGPT进行绘图的工作原理。
在PyTorch框架上训练ImageNet时，Dataloader加载速度慢怎么解决？ cda2024 pytorch 人工智能 python
在深度学习领域，PyTorch因其灵活性和易用性而受到广泛欢迎。然而，在实际应用中，特别是在处理大规模数据集如ImageNet时，Dataloader的加载速度往往成为瓶颈。本文将深入探讨这一问题，并提供多种解决方案，帮助你在PyTorch框架上高效地训练ImageNet。1.问题背景ImageNet是一个包含超过1400万张图像的大规模数据集，被广泛用于图像分类任务的研究。在PyTorch中，D
AscendC从入门到精通系列（四）使用Pybind调用AscendC算子人工智能深度学习
如果已经通过AscendC编程语言实现了算子，那该如何通过pybind进行调用呢？1Pybind调用介绍通过PyTorch框架进行模型的训练、推理时，会调用很多算子进行计算，其中的调用方式与kernel编译流程有关。对于自定义算子工程，需要使用PyTorchAscendAdapter中的OP-Plugin算子插件对功能进行扩展，让torch可以直接调用自定义算子包中的算子，详细内容可以参考PyTo
2024 年技术盘点与展望：从 AI 辅助到个人成长的多元探索 109702008 杂谈人工智能
一、引言2024年，技术领域的发展日新月异，我在这片汹涌的浪潮中不断探索与成长。这一年，我不仅见证了人工智能技术的飞速发展，还通过AI辅助创作、AI赋能编程以及参与各类竞赛与课程，实现了个人技术的显著提升与视野的拓展。本文将从总结盘点的角度，回顾我在技术领域的成长历程，并对未来进行展望。二、AI辅助创作：提升写作效率与质量在自然语言处理技术（NLP）的推动下，AI写作工具成为了我的得力助手。这些工
torch.utils.data.Dataset()和torch.utils.data.DataLoader() 我叫罗泽南深度学习 python
torch.utils.data.Dataset()和torch.utils.data.DataLoader()是Pytorch中处理数据集和批量加载数据的重要工具。下面将详细介绍它们的作用、用法，并通过一个简单的例子来演示如何使用它们。torch.utils.data.Dataset()Dataset是Pytorch数据加载的基类，用于表示一个数据集。用户可以继承Dataset类并实现其两个方法
17-7 向量数据库之野望7 - PostgreSQL 和pgvector 拉达曼迪斯II AIGC学习数据库管理工具 AI创业数据库 postgresql 人工智能机器学习 AIGC 搜索引擎
PostgreSQL是一款功能强大的开源对象关系数据库系统，它已将其功能扩展到传统数据管理之外，通过pgvector扩展支持矢量数据。这一新增功能满足了对高效处理高维矢量数据日益增长的需求，这些数据通常用于机器学习、自然语言处理(NLP)和推荐系统等应用。https://github.com/mazzasaverio/find-your-opensource-project什么是pgvector？
【强化学习】PyTorch-RL框架大雨淅淅人工智能 pytorch 人工智能 python 深度学习机器学习
目录一、框架简介二、核心功能三、学习环境配置四、学习资源五、实践与应用六、常见问题与解决方案七、深入理解强化学习概念八、构建自己的强化学习环境九、调试与优化十、参与社区与持续学习一、框架简介PyTorch-RL是一个基于PyTorch框架的深度强化学习项目。它充分利用了PyTorch的强大功能，提供了易于使用且高效的深度强化学习算法实现。该项目的主要编程语言是Python，旨在帮助开发者快速实现和
使用Python实现LLM的文本生成：风格迁移与内容控制二进制独立开发 GenAI与Python 非纯粹GenAI python 开发语言人工智能自然语言处理分布式语言模型 transformer
文章目录引言1.大型语言模型（LLM）概述1.1Transformer架构1.2预训练与微调2.文本生成基础2.1无条件生成2.2条件生成3.风格迁移3.1风格迁移的基本原理3.2使用Python实现风格迁移4.内容控制4.1内容控制的基本原理4.2使用Python实现内容控制5.高级技巧与优化5.1多轮对话生成5.2生成参数优化6.应用场景与未来展望结论引言随着自然语言处理（NLP）技术的快速发
PyTorch使用教程- Tensor包 Loving_enjoy 论文 pytorch 人工智能
###PyTorch使用教程-Tensor包PyTorch是一个流行的深度学习框架，它提供了一个易于使用的API来创建和操作张量（Tensors）。张量是一个多维数组，类似于NumPy中的ndarray，但它是基于GPU的，支持自动求导。本文将详细介绍PyTorch中的Tensor包，包括张量的创建、运算、形状变换、索引与切片、以及重要的张量处理方式。####一、张量的创建在PyTorch中，可以
ChatGPT详解 Loving_enjoy 实用技巧人工智能自然语言处理
ChatGPT是一款由OpenAI研发和维护的先进的自然语言处理模型（NLP），全名为ChatGenerativePre-trainedTransformer，于2022年11月30日发布。以下是对ChatGPT的详细介绍：###一、技术架构与原理1.**技术架构**：ChatGPT建立在Transformer架构之上，这是一种深度学习模型，特别适用于处理自然语言。其核心是自注意力机制，允许模型在
NLP 中文拼写检测纠正论文 Automatic-Corpus-Generation 代码后端java
拼写纠正系列NLP中文拼写检测实现思路NLP中文拼写检测纠正算法整理NLP英文拼写算法，如果提升100W倍的性能？NLP中文拼写检测纠正Paperjava实现中英文拼写检查和错误纠正？可我只会写CRUD啊！一个提升英文单词拼写检测性能1000倍的算法？单词拼写纠正-03-leetcodeedit-distance72.力扣编辑距离NLP开源项目nlp-hanzi-similar汉字相似度word-
【大模型】从零样本到少样本学习：一文读懂 Zero-shot、One-shot 和 Few-shot 的核心原理与应用！橙子小哥的代码世界 NLP自然语言理解大模型自然语言处理 sklearn 深度学习神经网络 tensorflow
《从零样本到少样本学习：一文读懂Zero-shot、One-shot和Few-shot的核心原理与应用！》正文：在自然语言处理（NLP）领域，Zero-shot、One-shot和Few-shot学习已经成为衡量大语言模型泛化能力的重要指标。尤其是在大规模预训练模型（如GPT系列）的推动下，这些技术得到了广泛应用和关注。本篇文章将带你全面了解这三种学习方法的核心概念、原理和实际应用场景。1.什么是
从零开始的 AI Infra 学习之路 SSS不知-道 MLSys 人工智能深度学习 pytorch
从零开始的AIInfra学习之路文章目录从零开始的AIInfra学习之路一、概述二、AI算法应用2.1机器学习2.2深度学习2.3LLM三、AI开发体系3.1编程语言四、AI训练框架&推理引擎4.1PyTorch4.2llama.cpp4.3vLLM五、AI编译&计算架构5.1CUDA5.2CANN六、AI硬件&体系结构6.1INVIDIAGPU6.2AscendNPU一、概述AIInfra（AI
【深度学习】Huber Loss详解小小小小祥深度学习人工智能算法职场和发展机器学习
文章目录1.HuberLoss原理详解2.Pytorch代码详解3.与MSELoss、MAELoss区别及各自优缺点3.1MSELoss均方误差损失3.2MAELoss平均绝对误差损失3.3HuberLoss4.总结4.1优化平滑4.2梯度较好4.3为什么说MSE是平滑的1.HuberLoss原理详解HuberLoss是一种结合了MSE（均方误差）与MAE（平均绝对误差）的损失函数，旨在克服两者的
NLP 中文拼写检测纠正论文-07-NLPTEA-2020中文语法错误诊断共享任务概述后端java
拼写纠正系列NLP中文拼写检测实现思路NLP中文拼写检测纠正算法整理NLP英文拼写算法，如果提升100W倍的性能？NLP中文拼写检测纠正Paperjava实现中英文拼写检查和错误纠正？可我只会写CRUD啊！一个提升英文单词拼写检测性能1000倍的算法？单词拼写纠正-03-leetcodeedit-distance72.力扣编辑距离NLP开源项目nlp-hanzi-similar汉字相似度word-
NLP 中文拼写检测纠正论文-04-Learning from the Dictionary 后端java
拼写纠正系列NLP中文拼写检测实现思路NLP中文拼写检测纠正算法整理NLP英文拼写算法，如果提升100W倍的性能？NLP中文拼写检测纠正Paperjava实现中英文拼写检查和错误纠正？可我只会写CRUD啊！一个提升英文单词拼写检测性能1000倍的算法？单词拼写纠正-03-leetcodeedit-distance72.力扣编辑距离NLP开源项目nlp-hanzi-similar汉字相似度word-
NLP 中文拼写检测纠正论文-01-介绍了SIGHAN 2015 包括任务描述，数据准备，绩效指标和评估结果后端java
拼写纠正系列NLP中文拼写检测实现思路NLP中文拼写检测纠正算法整理NLP英文拼写算法，如果提升100W倍的性能？NLP中文拼写检测纠正Paperjava实现中英文拼写检查和错误纠正？可我只会写CRUD啊！一个提升英文单词拼写检测性能1000倍的算法？单词拼写纠正-03-leetcodeedit-distance72.力扣编辑距离NLP开源项目nlp-hanzi-similar汉字相似度word-
小猿口算自动PK脚本小黄编程快乐屋人工智能 python
大家好，我是小黄。近期，众多大学生炸鱼小猿口算APP,把一众小学生都快虐哭了，小黄听闻后，也跃跃欲试。对此小黄也参考网上的资料写了一个自动Pk的脚步。首先大家需要安装一个pytorch环境过程中，如果小伙伴对此不熟悉的话可以参考网上的相关教程。我们需要用到Tesseract-OCR文本识别。他的原理就是先截图，之后框选出比较大小的两个数字所在的区域，使用Tesseract-OCR识别出来后进行判断
利用Langchain与Minimax进行自然语言处理的精彩指南 afTFODguAKBF langchain 自然语言处理 easyui python
#引言在人工智能的浪潮中，自然语言处理（NLP）成为了企业和个人用户的重要工具。Minimax作为一家中国初创企业，专注于提供优秀的语言模型服务。本篇文章将介绍如何使用Langchain库与Minimax进行交互，帮助开发者充分利用这一强大的AI工具。#主要内容##1.Minimax简介Minimax专注于自然语言处理，为企业和个人用户提供高效的语言模型服务。其API能处理多种自然语言任务，例如文
深入解读ChatGPT的工作原理及底层逻辑 NAR_鱼丸 ChatGPT 程序人生
ChatGPT的工作原理和底层逻辑可以从多个方面进行解读，主要包括其基本原理、核心技术、训练过程以及应用能力。工作原理涉及了深度学习模型、自然语言处理技术和文本生成算法等多个方面。通过预训练和微调，模型能够理解语言的语法和语义，并能够根据上下文生成符合语境的文本回复。基本原理ChatGPT是一种基于自然语言处理（NLP）和深度学习技术的聊天机器人。其基本原理是使用大量文本数据来训练深度神经网络模型
Pytorch详解-模型模块(RNN,CNN,FNN,LSTM,GRU,TCN,Transformer) qq742234984 rnn pytorch cnn
Pytorch详解-模型模块Module¶meterModule初认识forward函数ParameterPytorch中的权重、参数和超参数Module容器-ContainersSequentialModuleListModuleDictParameterList&ParameterDict常用网络层LSTM输入和输出GRUConvolutionalLayers卷积层的基本概念常见的卷积
ChatGPT原理及其应用场景编程小郭 chatgpt 人工智能 ai
ChatGPT的原理及应用场景一、ChatGPT的原理ChatGPT，全名ChatGenerativePre-trainedTransformer，是OpenAI研发的一款聊天机器人程序，其背后依托的是人工智能技术和自然语言处理（NLP）的深厚功底。其工作原理可以从以下几个方面进行解析：GPT系列模型基础ChatGPT基于GPT（GenerativePre-trainedTransformer）技
算力平台环境搭建实操罗小黑的师傅目标检测深度学习人工智能
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录一、登录账号二、选择算力平台已有镜像或外部导入镜像创建开发环境三、配置环境1.修改算力平台密码2.配置代理（1）进入bashrc配置文件（2）在文本末尾添加（3）重新运行bashrc配置文件3.安装miniconda方法1：离线下载方法2：在线下载4.pip换源5.创建并激活虚拟环境6.安装pytorch7.额外包的安装，都可
SnowNLP 情感分析 Taichi呀 python 开发语言
#-*-coding:utf-8-*-importsysfromsnownlpimportSnowNLPfromjiebaimportanalysefromjiebaimportpossegtxt=u'''在文学的海洋中，有一部名为《薄雾》的小说，它犹如一颗闪耀的明珠，让人过目难忘。这部作品讲述了一段发生在上世纪初的跨越阶级的爱情故事。在这篇文学短评中，我们将探讨这部小说所展现的情感与人性，以及它
Pytorch 三小时极限入门教程 power-辰南人工智能深度学习 pytorch 人工智能
一、引言在当今的人工智能领域，深度学习占据了举足轻重的地位。而Pytorch作为一款广受欢迎的深度学习框架，以其简洁、灵活的特性，吸引了大量开发者投身其中。无论是科研人员探索前沿的神经网络架构，还是工程师将深度学习技术落地到实际项目，Pytorch都提供了强大的支持。本教程将带你从零基础开始，一步步深入了解Pytorch的核心知识，助你顺利踏上深度学习的征程。二、Pytorch基础环境搭建安装An
nlp培训重点-3 heine162 自然语言处理人工智能
1.文本匹配分类：loader:#-*-coding:utf-8-*-importjsonimportreimportosimporttorchimportrandomimportloggingfromtorch.utils.dataimportDataset,DataLoaderfromcollectionsimportdefaultdictfromtransformersimportBertT
大语言模型（LLMs）入门教程（非常详细）从零基础入门到精通，看完这一篇就够了大模型零基础教程语言模型人工智能自然语言处理大模型
大语言模型（LLMs）作为人工智能（AI）领域的一项突破性发展，已经改变了自然语言处理（NLP）和机器学习（ML）应用的面貌。这些模型，包括OpenAI的GPT-4o和Google的gemini系列等，已经展现出了在理解和生成类人文本方面的令人印象深刻的能力，使它们成为各行各业的宝贵工具。如下这份指南将涵盖LLMs的基础知识、训练过程、用例和未来趋势……一.WhatareLargeLanguage
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb