wangqiaowq

NLP学习

参考：NLP发展之路I - 从词袋模型到Transformer - 知乎 (zhihu.com)

NLP大致的发展历史。从最开始的词袋模型，到RNN，到Transformers和BERT，再到ChatGPT，NLP经历了一段不断精进的发展道路。数据驱动和不断完善的端到端的模型架构是两大发展趋势。

NLP技术，全称为Natural language Processing，即自然语言处理技术，也就是用计算机来处理人类语言的学科。

这一时期最有代表性的方法是词袋模型(Bag of Words, or BOW)，即统计文章中每个词出现的频率，然后对这个频率的向量进行各种各样的统计分析。比如可以根据正向词汇和负向词汇在文中出现的频率对比，来判断文章的情感倾向。或者用词频向量去训练一个分类器，做文本分类任务。

词袋模型是一个简单有效的办法。即使在普遍使用深度学习的今天，这个方法仍有时候被作为快速验证或比较基准来使用。

词频向量实际上是将人类语言翻译成了一种机器能看懂的方式，有两项信息损失最为突出：第一个是词袋模型中，每个词都是独立的，没有相对的语义关系，无法使用词与词之间的关联来更好地帮助分析。第二个是词袋模型完全忽视了语序信息。例如，“我，很不好”和“不，我很好”两句的词频向量完全相同，但语义却相反。

不过在深度学习出现之后，这两个问题都得到了解决。

WordEmbedding: 深度学习解决语义问题

2012年，深度学习在ImageNet比赛中碾压了其它传统的机器学习方法，拉开了划时代的大幕。

深度学习无需手写任何规则，而是依赖大量的数据进行训练。简单来说，深度学习，也就是神经网络，是通过给模型看大量的数据，并对每次模型输出的结果与正确答案比对，让模型自己慢慢调整到正确的方向。由于神经网络的参数远多于一般机器学习模型，在较大数据量的训练下，可以对数据中复杂的隐含的关系进行更精确的建模，因此能够实现其他方法达不到的准确度。

2013年，谷歌的研究员Mikolov使用神经网络训练了词向量（word embedding，有些文献又称“词嵌入”，但还是“词向量”更直观一些）。研究者使用一个简单的一层全连接的神经网络，通过“给出一句话的上文，让模型去预测下一个词”的方式去训练。在看过了大量文章之后，这个神经网络便可将语言中隐含的语义信息”记“在自己的参数中。比如“我想喝一杯”，后文是“水”或是”茶“的概率差不多，那么模型对这两个词的参数也会差不多，即输出的的词向量也是相似的。这样，模型便学会了同义词。

词向量的一个重要性质就是，这个向量在高维空间中的位置关系即可代表语义的关系。比如相似的词可能会聚拢在一起，甚至“法国“与”巴黎”的距离和”英国”与”伦敦”之间的距离都是相似的。

Word2Vec词向量可以抓住不同词之间的相对语义关系 (source: NCAA word2vec lecture notes)

这种给模型喂上文，让模型去预测下文的训练方式，被称为Language Modeling，也就是语言模型或语言建模。这种训练方式不需要人工标注，模型结果可以直接和原文对比，从而能够利用到海量的数据。这种语言建模的方法后面还会一次又一次地被用到，目前实现技术突破的大语言模型也是应用此方法。

RNN: 循环神经网络解决语序问题

语义的问题解决之后，RNN的出现又解决了语序问题。

全连接神经网络是最简单的神经网络模型，在此之上又发展出两类主要的变体，一个是卷积神经网络(Convolutional Neural Network, or CNN) 和循环神经网络(Recurrent Neural Network, or RNN) 。CNN的输入采用滑动一个固定窗口的方式，每次只考虑附近的信息，适合处理图像问题，能做到又快又好。而RNN的输入是按顺序一个一个接收的，在处理完上一个信息之后才会处理下一个信息，天然是阅读文章的一把好手。

LSTM(RNN的一种模型)示意图（source: Modeling Genome Data Using Bidirectional LSTM）

使用词向量(语义)+RNN(语序)的方法成为这一时期的王者，在各项NLP通用任务上表现颇为亮眼。

研究者们在这一时期的主要工作是在词向量+RNN的基本思想上，对网络架构进行各种各样的改动，用叠加各种buff方式来提升模型的表现。

词向量+RNN这样的NLP已经相对比较接近人脑处理语言的方式了。然而还是有一个显著的缺陷，那就是无法像人一样根据上下文处理多义词的含义。由于词向量的训练方式，每个词只能有一个固定的词向量。如果一个词有两个同样常用的，但毫不相关的含义，那么这个词向量在高维空间内只能处于这两个位置的中间点，实际效果就是两边都没法准确建模。

语言模型解决上下文问题

ELMo的作者大开脑洞，谁说没法处理上下文含义啊，语言模型不就是一个天然的、考虑了上下文的模型吗？当RNN一个一个吸收完前文，再吐出来的最后一个词，这个输出显然已经是包含了上文信息的。于是ELMo的作者训练了一个双向的LSTM模型（LSTM是RNN的一种）。这个模型通过把文章从前往后读一遍，再从后往前读一遍，来接收上文和下文的信息。然后作者将这个过程中的三层输出进行组合，就变成了ELMo词向量（Embeddings from Language Models）从此，我们把文本放进ELMo模型里，拿到的输出就可以作为词向量使用。而每次的输入句子不同时，即使同一个词的词向量也会有所不同，因为ELMo的输出是考虑到了整个句子的信息的。

LSTM（Long Short-Term Memory，长短期记忆）是一种特殊的循环神经网络（RNN），它被广泛用于解决一些与序列和时序相关的深度学习问题。传统的RNN在处理长序列时，会出现梯度消失或梯度爆炸的问题，这使得它们无法有效地记住序列中的长期依赖关系。为了解决这个问题，LSTM被设计出来。

LSTM的核心思想是通过引入一种称为“门”的机制来控制信息的流动。它有三个主要的门：输入门、遗忘门和输出门。这些门可以学习在何时让信息进入、何时让信息保留、何时让信息输出，从而有效地解决了长期依赖的问题。

具体来说，LSTM的工作流程如下：

遗忘门：这个门决定上一时刻的单元状态有多少保留到当前时刻。它会读取上一时刻的输出和当前时刻的输入，然后通过一个sigmoid函数输出0到1之间的数值，表示保留的比例。
输入门：这个门决定当前时刻网络的输入有多少保存到单元状态。首先，一个sigmoid函数决定哪些值需要更新，然后一个tanh函数生成新的候选值，这些新的候选值可以被添加到状态中。
单元状态：这个状态负责在网络中传递信息。首先，我们将上一时刻的状态和遗忘门的输出相乘，丢弃不需要的信息。然后，将输入门的输出和候选值相乘，添加到状态中。这样，我们就得到了新的单元状态。
输出门：这个门决定单元状态有多少输出到LSTM的当前输出值。首先，一个sigmoid函数决定哪些部分的状态需要输出，然后将单元状态通过tanh函数进行处理（得到一个在-1到1之间的值），并将它和sigmoid函数的输出相乘，最终得到LSTM的输出。

通过这种方式，LSTM可以选择性地记住或遗忘序列中的信息，从而可以有效地处理具有长期依赖关系的序列数据。这使得LSTM在许多任务中都取得了很好的效果，例如语音识别、自然语言处理（NLP）、时间序列预测等。

Elmo的三层组合词向量 (source: Analytics Vidhya)

语义解决了，语序解决了，甚至上下文含义也解决了。从思想上看，这时NLP模型越来越接近人类处理语言的方式。RNN需要一个词一个词地处理，在处理大数据时，这个时间差异就十分巨大。RNN的长期记忆还不太好。因为RNN把信息存储在一个固定纬度的向量里，就好比一个打包盒，每多加一个词，就往这个打包盒里压缩一次。到输出层，需要把这个打包盒打开、找到相关的信息的时候，恐怕最开始输入的信息都已经被压缩得面目全非了，很难解码。

Transformer大幅提升效果

2018年，本世纪NLP界最大的外挂诞生了。这就是Transformer。

先说一下注意力机制（attention）

人们发现如果能让输入和输出直接建立一个连接，让模型去学习特定的目标词应该更关注哪些输入词，而不是只从RNN压缩的打包盒里解码，会非常好地提升翻译的表现。attention被作为一种增强手段，用在循环或卷积神经网络上。其中一个重要的点是，attention能非常有效地解决RNN长期记忆不好的缺点，输入序列的任何两个词之间都有联系关系，真正实现了“天涯若比邻”。

**Attention（注意力机制）**是深度学习中的一个重要概念，它的核心思想是在处理复杂数据时，允许模型集中关注于最相关的部分，而忽视其他不太相关的信息。

在深度学习的上下文中，特别是在处理序列数据（如文本、时间序列等）时，注意力机制允许模型在处理一个序列的元素时，将更多的“注意力”放在与该元素更相关的其他元素上。这使得模型可以更有效地处理长序列，并捕获序列中的长期依赖关系。

注意力机制的实现方式有很多种，但大多数都涉及到计算一个权重分布，这个分布决定了在处理一个序列的元素时，应该如何关注其他元素。这个权重分布通常是通过计算元素之间的相似性或相关性得到的。

自注意力机制（Self-Attention）是注意力机制的一种特殊形式，它允许模型在处理一个序列时，关注该序列中的其他位置。自注意力机制的一个关键优点是它能够捕获序列中的长期依赖关系，而且它的计算复杂度不随序列长度的增加而线性增长，这使得它能够更有效地处理长序列。

Transformer模型就是完全基于自注意力机制的深度学习架构，它在NLP领域取得了很好的效果。在Transformer中，注意力和前馈神经网络是其主要的构成部分，而传统的RNN和CNN结构被完全摒弃。

总的来说，注意力机制是一种强大的工具，它允许深度学习模型更有效地处理复杂数据，特别是序列数据。

Transformer的创新之处在于，将attention的输入与输出之间的连接，变为输入与输入自己的连接，这相当于在做任务时，把每个词都在上下文的语境中理解一次。作者称为自注意力机制（self-attention）。使用时将语义信息（词向量）和语序信息（序号）作为输入。由于自注意力模型之下词与词之间的联系变得很直接，这种模型能更好地编码输入的上下文信息，训练的反馈也能得到很好的传导。

Transformer的另一个厉害之处在于它可以毫无压力地进行并行计算。虽然它的计算量相比RNN大大增加了，但由于可以并行计算，在拥有足够算力的情况下，需要的时间反而变少了。

Transformer出现之后，由于效果太好，大家几乎完全抛弃了其他的架构。如果说RNN时代是百花齐放的春秋战国，Transformer就是秦王扫六合，一举统一了整个NLP模型江湖。Transformer的性能使整个NLP界从蒸汽时代迈入了内燃机时代，也使得后续效果超群的大模型的出现成为可能。

参考：NLP发展之路II - 从BERT到ChatGPT - 知乎 (zhihu.com)

预训练-微调时代

2018年，BERT和初代GPT几乎在同一时间出现。BERT由谷歌开发，GPT由OpenAI开发

首先，它们都采用了Transformer，甚至层数也相同。

其次，它们都使用了当时几乎所有开源的、较高质量的NLP数据，如wikipedia, 书籍等。

最后，它们的训练方法都是语言建模Language Modeling，即给模型输入上文，令其预测下文的方法。从而可以使用大量文本而无需人工标注。

BERT和GPT的参数量大约在亿级，在当时已经是从未出现过的“大模型”了。加上使用了当时可获得的几乎所有高质量文本数据训练，研究者发现，这两个模型在大量数据中学到了对语言的基本理解和一些通用的世界知识，并且将这些知识被储存在模型的参数中。有了这样的“义务教育”打底，在此基础上，只需针对各个专业下游任务（如情感分析、对话生成）进行一个小范围的基于监督学习的微调，比如只调整模型最后一层的参数，居然可以打败很多专门针对这些任务开发的模型。这就是‘’预训练-微调‘’模式。

BERT的预训练模型可以用来做不同的下游任务 (source: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding)

GPT是一个单向模型。OpenAI采用标准的Language Modeling方式进行训练，模型根据上文来推测下文。

BERT是一个双向模型。Google在训练BERT的时候，挖掉输入文本中15%的词，让模型去完成类似完形填空的任务

BERT和GPT架构的区别 (source: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding)

ERT模型由于同时可以看到目标词上下文的信息，一般在理解类任务上表现较好。而GPT模型只能看到上文，在此类任务上表现略逊一筹。但是这类单向模型天然更适合生成类任务，表现也稍好。

这一时期的流行做法是，无论什么任务，先来一个BERT打底，再换掉最后一层，用自己的数据进行微调，让模型产出成为自己需要的格式。尤其是在自己的数据不多的情况下，这样做普遍比自己从头训练Transformer效果要好。

大语言模型时代：Prompt代替微调

OpenAI提出了非常巧妙的办法来忽悠模型完成任务——小样本提示词（Few Shot Prompt），也就是先给模型一些问答的例子，最后留出一个问题。因为作为预测下文的语言模型，GPT-2的目标是续写我们提供的输入，而在这个过程中，就正好回答了我们最后留出的问题。使用这样的方法，GPT-2就可以在未经微调的情况下来完成各种它并没有被专门训练过的任务。

利用提示Prompt和大语言模型互动 (Source: GPT-3: Language Models are Few-Shot Learners)

Prompt模式本质是文本生成，刚好是GPT这样单向模型更为擅长的。因此在目前大语言模型的训练中，研究者们变成了更多采用GPT而不是BERT。

大模型的涌现能力：大力出奇迹

OpenAI继续沿着大力出奇迹的道路前行，发布了GPT-3。

GPT-3与GPT-2在模型架构上没有区别，只是采用了更大的模型和更多的数据，将参数提升到千亿级别，是BERT的五百倍。在标准NLP任务的测试中，又展现出了不小的提升，而且人们发现了这个模型出现了一些之前模型没有的，处理复杂任务能力。

模型解决某些相对简单直接的任务能力是随着模型的增大逐渐线性增长的，而解决另外一些较复杂任务的能力，则是在模型达到某个量级之后突然出现的，我们称之为涌现能力（Emergent Ability）。

大模型的涌现能力（source: Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models）

这类涌现能力有一些共同的特点：比如任务是需要多步骤解决，逻辑推理能力比较重要等等。

一个突出的涌现能力叫做思维链能力(Chain-of-Thought，简写为CoT)。这个现象是：如果在prompt当中加入一个一步步推理的例子，然后再问问题，能够提高模型的准确率，把以前做不对的题做对。一个可能的猜想是思维链prompt中给出了与目标答案更加相关的文本（也就是人工写的相似的例子），这些文本会激发模型中的相似记忆，帮助它找到更相关的答案。

引爆全球：逻辑思维和对话能力的增强

Codex 增加GitHub上所有的代码作为训练数据的模型

InstructGPT，这里OpenAI使用了一种基于强化学习的方法RLHF（Reinforcement Learning from Human Feedback with dialogue）RLHF的具体方法是首先让人类标注员来写一些prompt和对应的答案，然后用这个数据集去微调GPT-3，然后再让人工为这个新GPT-3的输出排序，用这个排序信息训练一个reward模型来辨别什么样的回答是人类喜欢的，最后再用这个reward模型和强化学习的方法去继续训练GPT-3。

ChatGPT在GPT-3的架构和训练数据基础上，增加代码数据，再加上RLHF指令微调训练而成，内部代号GPT-3.5。

其能力分解开来大致就是GPT-3提供语言理解能力和世界知识，Codex增强逻辑推理能力，InstructGPT提供对话能力。OpenAI又对后端基础模型进行了升级，从最开始的GPT-3.5升级到了GPT-4，性能上又有大幅提升，而且可以接受图像作为输入。

至此，我们已经回顾完了NLP大致的发展历史。从最开始的词袋模型，到RNN，到Transformers和BERT，再到ChatGPT，NLP经历了一段不断精进的发展道路。数据驱动和不断完善的端到端的模型架构是两大发展趋势。

ChatGPT（Chat Generative Pre-training Transformer）是自然语言处理（Natural Language Processing，NLP）领域的一种AI模型。

OpenAI 还发布了支持语音转文本的 Whisper API。

BPE（字节对编码）和WordPiece 是什么 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 机器学习算法人工智能 transformer 深度学习
BPE（字节对编码）和WordPiece是什么BPE（字节对编码）和WordPiece是自然语言处理中常用的子词分词算法，它们通过将文本拆分为更小的语义单元来平衡词汇表大小和表达能力。BPE（BytePairEncoding，字节对编码）原理初始化：将文本按字符（或Unicode字节）拆分为最小单元，形成初始词汇表。统计合并：迭代合并最频繁出现的相邻字符对，形成新的子词单元，直到达到预设的词汇表大
自动字幕生成器：Auto-Subtitle — 技术解析与应用指南房耿园Hartley
自动字幕生成器：Auto-Subtitle—技术解析与应用指南在视频内容日益丰富的今天，自动字幕生成工具变得越来越重要，尤其是对于听障人士、非母语者和在嘈杂环境下观看视频的人来说。Auto-Subtitle是一个开源项目，它利用先进的自然语言处理（NLP）技术为你的视频自动生成准确的字幕。本文将深入探讨这个项目的原理、功能、应用场景及特点，以期吸引更多开发者和用户关注并使用。项目简介Auto-Su
NUS：LLM表格数据建模综述
标题：LanguageModelingonTabularData:ASurveyofFoundations,TechniquesandEvolution来源：arXiv,2408.10548摘要表格数据是一种跨领域的流行数据类型，由于其异构性和复杂的结构关系，带来了独特的挑战。在表格数据分析中实现高预测性能和鲁棒性对许多应用程序具有重大前景。受自然语言处理，特别是转换器架构的最新进展的影响，出现了
略说NLP引入公理模型的可行性金井PRATHAMA 知识图谱与NLP 自然语言处理人工智能知识图谱
在自然语言处理（NLP）的深层语义分析中，公理化体系的引入具有理论可行性，但其实际应用仍面临挑战。以下从公理模型的设计思路、关键技术要点及注意事项三个方面展开分析，结合搜索结果的多个相关技术点进行综合说明：一、公理模型在深层语义分析中的设计思路公理的定义与语义形式化公理模型需以形式化逻辑为基础，定义语义分析中的原始概念（如谓词、实体、关系）和推理规则。例如：原始概念：将语义角色（如施事者、受事者）
SBERT、CoSENT和BETR以及transformers的区别和联系 panshengnan NLP nlp transformer
SBERT、CoSENT、BETR和Transformers的区别和联系这几个模型（SBERT、CoSENT、BETR）和框架（Transformers）都是围绕自然语言处理（NLP）的句子嵌入和语义理解任务展开的。它们的联系主要在于基于Transformer架构，并针对特定任务做了优化；区别则在于目标任务、优化策略、训练方法和适用场景等方面。1.联系基于Transformer架构：它们的核心编码
SFT：大型语言模型专业化定制的核心技术体系——原理、创新与应用全景大千AI助手人工智能 Python #OTHER 语言模型人工智能自然语言处理深度学习机器学习微调 SFT
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！以下基于权威期刊、会议论文及技术报告，对监督微调（SupervisedFine-Tuning,SFT）的技术框架、创新方法与实际应用进行系统梳理：一、核心定义与技术原理基本概念SFT是在预训练语言模型（如GPT、BERT）基础上，利用标注数据集对模型进
【自然语言处理】文本规范化 2401_84149564 自然语言处理自然语言处理人工智能文本规范化 python 分词词的规范化分句
目录一、引言二、分词三、词规范化四、分句五、文本规范化的Python代码实战六、总结一、引言在自然语言处理的许多任务中，第一步都离不开文本规范化。文本规范化的作用是将使用字符串表示的文本转化为更易于计算机处理的规范形式。文本规范化一般包括3个步骤：分词、词的规范化、分句。本文将分别介绍这3个步骤及Python代码实战。二、分词词是语言的基本单元，人类学习语言的过程也是从理解词开始的。显而易见，自然
ONNX模型使用指南：从零开始掌握跨领域模型部署
ONNX模型使用指南：从零开始掌握跨领域模型部署ONNX模型作为一种开放式的神经网络交换格式，已成为AI模型部署的行业标准。当您获得一个没有使用说明的ONNX模型时，可以通过系统化的分析和部署流程，使其在不同领域发挥作用。本文将详细阐述如何分析模型结构、配置运行环境、准备特定领域输入数据、执行推理并处理结果，同时提供图像分类、自然语言处理、医疗影像分析、金融风控和自动驾驶等领域的具体应用示例，帮助
Transformer：自注意力驱动的神经网络革命引擎大千AI助手人工智能 Python #OTHER transformer 神经网络深度学习 google 人工智能机器学习大模型
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！从语言理解到多模态智能的通用架构基石⚙️一、核心定义与历史意义Transformer是由Google团队在2017年论文《AttentionIsAllYouNeed》中提出的深度学习架构，其颠覆性创新在于：完全摒弃RNN/CNN：仅依赖自注意力机制（S
LLM系统性学习完全指南（初学者必看系列） GA琥珀 LLM 学习人工智能语言模型
前言这篇文章将系统性的讲解LLM（LargeLanguageModels,LLM）的知识和应用。我们将从支撑整个领域的数学与机器学习基石出发，逐步剖析自然语言处理（NLP）的经典范式，深入探究引发革命的Transformer架构，并按时间顺序追溯从BERT、GPT-2到GPT-4、Llama及Gemini等里程碑式模型的演进。随后，我们将探讨如何将这些强大的基础模型转化为实用、安全的应用，涵盖对齐
AI 人工智能与 Copilot 的融合发展策略 AI天才研究院 AI人工智能与大数据人工智能 copilot ai
AI人工智能与Copilot的融合发展策略关键词：人工智能、Copilot、代码生成、人机协作、机器学习、自然语言处理、软件开发摘要：本文探讨了人工智能与Copilot技术的融合发展策略。我们将从技术原理、实现方法、应用场景等多个维度深入分析，提出一套完整的融合框架和发展路径。文章首先介绍背景和核心概念，然后详细讲解关键技术，包括自然语言处理、代码生成算法等，接着通过实际案例展示应用效果，最后讨论
HW prefetcher之CDP(Content-Directed Data Prefetching) Chip Design xPU Chip Design CPU GEM5
CDP是Content-DirectedDataPrefetching的缩写，它基于RobertCooksey和StephanJourdan提出的"Stateless,Content-DirectedDataPrefetchingMechanism"论文实现。是一种内容导向的数据预取机制，CDP通过分析内存中的数据内容来识别可能的指针，当识别到指针时，它会预取指针指向的内存地址。CDP使用VPN表
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
GPT实操——利用GPT创建一个应用狗木马深度学习 gpt-3 gpt
功能描述信息查询：用户可以询问各种问题，如天气、新闻、股票等，机器人会返回相关信息。任务执行：用户可以要求机器人执行一些简单的任务，如设置提醒、发送邮件等。情感支持：机器人可以与用户进行情感交流，提供安慰和支持。个性化设置：用户可以自定义机器人的回复风格和偏好。技术栈前端：React.js后端：Node.js+Express数据库：MongoDB自然语言处理：OpenAIGPT-3API其他工具：
Python爬虫实战：使用最新技术爬取新华网新闻数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 音视频
一、前言在当今信息爆炸的时代，网络爬虫技术已经成为获取互联网数据的重要手段。作为国内权威新闻媒体，新华网每天发布大量高质量的新闻内容，这些数据对于舆情分析、市场研究、自然语言处理等领域具有重要价值。本文将详细介绍如何使用Python最新技术构建一个高效、稳定的新华网新闻爬虫系统。二、爬虫技术选型2.1技术栈选择在构建新华网爬虫时，我们选择了以下技术栈：请求库：httpx（支持HTTP/2，异步请求
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
bert中 [CLS] 和 [SEP] 表示什么意思？
[CLS]和[SEP]是BERT中的两个特殊标记符号，在BERT的输入文本中起到特殊的作用。[CLS]是"classification"的缩写，在文本分类任务中，它通常表示句子或文档的开头。在BERT中，[CLS]对应着输入文本中第一个词的词向量，输出层中的第一个神经元通常会被用来预测文本的类别。[SEP]是"separator"的缩写，它通常表示句子或文档的结尾。在BERT中，[SEP]对应着输
新型BERT勒索软件肆虐：多线程攻击同时针对Windows、Linux及ESXi系统
趋势科技安全分析师发现，一个代号为BERT（内部追踪名WaterPombero）的新型勒索软件组织正在亚洲、欧洲和美国展开多线程攻击。该组织主要针对医疗保健、科技和会展服务行业，其活动范围显示其正成为勒索软件生态中的新兴威胁力量。攻击技术分析在Windows系统中，BERT通过PowerShell加载器（start.ps1）实施攻击，该脚本会执行以下操作：禁用WindowsDefender防火墙和
Ntfs!LfsReadRestart函数和Ntfs!_LFCB-＞LogHeadBuffer的关系 sitelist nt4源代码分析 LfsReadRestart LogHeadBuffer RESTART_PAGE_HE RT_PAGE_HEADER
Ntfs!LfsReadRestart函数和Ntfs!_LFCB->LogHeadBuffer的关系第0部分：////RememberthislogfileintheLfcb.//ThisLfcb->FileObject=LogFile;SetFlag(ThisLfcb->Flags,(LFCB_READ_FIRST_RESTART|LFCB_READ_SECOND_RESTART));if(Lf
Transformer、BERT等模型原理与应用案例程序猿全栈の董（董翔）人工智能热门技术领域 transformer bert 深度学习
Transformer、BERT等模型原理与应用案例Transformer模型原理Transformer是一种基于注意力机制的深度学习模型架构，由Vaswani等人在2017年的论文"AttentionIsAllYouNeed"中提出。与传统的循环神经网络(RNN)和卷积神经网络(CNN)不同，Transformer完全依赖自注意力机制来处理输入序列的全局依赖关系。核心组件多头自注意力机制(Mul
【论文阅读笔记】TimesURL: Self-supervised Contrastive Learning for Universal Time Series 少写代码少看论文多多睡觉 #论文阅读笔记论文阅读笔记
TimesURL:Self-supervisedContrastiveLearningforUniversalTimeSeriesRepresentationLearning摘要学习适用于多种下游任务的通用时间序列表示，并指出这在实际应用中具有挑战性但也是有价值的。最近，研究人员尝试借鉴自监督对比学习（SSCL）在计算机视觉（CV）和自然语言处理（NLP）中的成功经验，以解决时间序列表示的问题。
AIGC与自动驾驶：文心一言的车载交互设计 AI天才研究院 ChatGPT 实战计算 Agentic AI 实战 AIGC 自动驾驶文心一言 ai
AIGC与自动驾驶：文心一言的车载交互设计关键词：AIGC、自动驾驶、车载交互、文心一言、自然语言处理、多模态交互、用户体验摘要：本文深入探讨人工智能生成内容（AIGC）技术在自动驾驶领域的创新应用，特别是百度文心一言如何重构车载交互体验。通过解析文心一言的核心技术架构、多模态融合算法、场景化交互模型，结合具体代码实现和数学模型，揭示其在语音交互、情境理解、个性化服务等场景中的技术优势。同时通过项
golang的各种原生类型之间赋值是原子的吗无用程序员~ Linux应用编程 golang 开发语言后端
原始代码我在项目里写了这样一段代码packageid2nameimport("time")typeId2Namestruct{mmap[int]string}funcNew()(*Id2Name,error){m,err:=getId2NameMap()iferr!=nil{returnnil,err}ins:=&Id2Name{m:m,}goins.reload()returnins,nil}f
torch 填充补齐 AI算法网奇 python宝典 python
目录行填充补齐1.填充长度（Padding）2.掩码（Masking）3.排序优化（可选）行填充补齐importtorchfromtorch.nn.utils.rnnimportpad_sequence#原始序列（每个序列是二维张量，行数不同）batch_data=[torch.tensor([[1,2,3]])#1行#torch.tensor([[4,5,6],[7,8,9]]),#2行#tor
NLP-D7-李宏毅机器学习---X-Attention&&GAN&BERT&GPT 甄小胖机器学习自然语言处理机器学习 bert
—0521今天4:30就起床了！真的是迫不及待想看新的课程！！！昨天做人脸识别系统的demo查资料的时候，发现一个北理的大四做cv的同学，差距好大！！！我也要努力呀！！不是比较，只是别人可以做到这个程度，我也一定可以！！！要向他学习！！！开始看课程啦！-----0753看完了各种attention，由于attention自己计算的限制，当N很大的时候会产生计算速度问题，从各种不同角度（人工知识输入
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found