暴躁的猴子

论文阅读：recent trends in deep learning based natural language processing

作者通过本文概述了 2017 年深度学习技术在 NLP 领域带来的进步，以及未来的发展趋势，并与大家分享了这一年中作者最喜欢的研究。2017 年是 NLP 领域的重要一年，深度学习获得广泛应用，并且这一趋势还会持续下去。

转载：http://www.sohu.com/a/210427622_465975

近年来，深度学习（DL）架构和算法在图像识别、语音处理等领域实现了很大的进展。而深度学习在自然语言处理方面的表现最初并没有那么起眼，不过现在我们可以看到深度学习对 NLP 的贡献，在很多常见的 NLP 任务中取得了顶尖的结果，如命名实体识别（NER）、词性标注（POS tagging）或情感分析，在这些任务中神经网络模型优于传统方法。而机器翻译的进步或许是最显著的。

本文，我将概述 2017 年深度学习技术在 NLP 领域带来的进步。可能会有遗漏，毕竟涵盖所有论文、框架和工具难度太大。我想和大家分享这一年我最喜欢的一些研究。我认为 2017 年是 NLP 领域的重要一年。深度学习在 NLP 中的应用变得广泛，在很多分支取得了傲人的成绩，所有这些都说明这个趋势不会停止。

从训练 word2vec 到使用预训练模型

可以说，词嵌入是用于自然语言处理（NLP）的最广为人知的深度学习（DL）技术。它遵循由 Harris（1954）提出的分布式假设，根据该假设，具有相似含义的词通常出现在相似语境中。如想详细了解词嵌入，推荐阅读 Gabriel Mordecki 的文章：《Word embeddings: how to transform text into numbers》（https://monkeylearn.com/blog/word-embeddings-transform-text-numbers/）。

词的分布式向量示例（图像来源：https://arxiv.org/abs/1708.02709）。

word2vec（Mikolov et al., 2013）和 GloVe（Pennington et al., 2014）是该领域的先驱性算法，尽管它们无法被称为 DL（word2vec 中的神经网络是浅层的，GloVe 实现了一种计数方法），但借助它们进行训练的模型通常用作深度学习 NLP 方法的输入数据。它的效果很好，因此越来越多的人开始使用词嵌入。

最初，对于一个需要词嵌入的 NLP 问题，我们倾向于利用与领域相关的大型语料库训练自己的模型。当然，这不是推进词嵌入广泛使用的最佳方式，因此人们开始慢慢转向预训练模型。通过在维基百科、推特、谷歌新闻、网页抓取内容等上面进行训练，这些模型可以轻松地把词嵌入整合到 DL 算法中。

今年证实，预训练词嵌入模型仍然是 NLP 中的核心问题。比如来自 Facebook 人工智能实验室（FAIR）的 fastText 发布了 294 种语言的预训练向量，对社区做出了重大贡献。除了大量的语言，fastText 这一举措的有用之处在于其使用字符 n 元作为特征。这使得 fastText 避免了 OOV（out of vocabulary）问题，因为即使非常罕见的词（比如特定领域的术语）也很可能与常见词共享字符 n 元。在这个意义上，fastText 要比 word2vec 和 GloVe 表现更好，并且它在小数据集上的表现也要优于二者。

然而，尽管我们看到一些进展，这一领域中仍有很多事情要做。比如，NLP 框架 spaCy 通过整合词嵌入和 DL 模型以本地方式完成诸如命名实体识别（NER）和依存句法分析（Dependency Parsing）等任务，允许用户更新模型或使用他们自己的模型。

我认为这就是趋势。未来将会有针对特定领域（比如生物、文学、经济等）、易于在 NLP 框架中使用的预训练模型。就我们的使用情况来说，锦上添花的事情就是以尽可能简单的方式调整它们。与此同时，现在开始出现适应词嵌入的方法。

使用通用嵌入适应特定用例

也许使用预训练词嵌入的主要缺点是训练数据和真实数据之间存在词分布式差距。假设你有一个生物学论文、食谱或者经济学研究论文的语料库。由于你很可能没有一个足够大的语料库训练好的嵌入，所以通用词嵌入可能帮助你提升结果。但是如果你能使通用嵌入适应你的特定用例呢？

在 NLP 中此类适应通常被称为跨域或域适应技术，并且非常接近迁移学习。Yang et al. 今年提出了一个非常有趣的工作，在给定源域嵌入的情况下，他们展示了一个正则化的 skip-gram 模型来学习目标域的词嵌入。

其核心思想简单却有效。想象一下如果我们知道源域中词 w 的词嵌入为 w_sws。为了计算 w_twt（目标域）的嵌入，研究者将两个域之间的特定迁移量添加到 w_sws。基本上，如果词频繁出现在两个域中，这意味着其语义并不依赖于域。这种情况下，迁移量很大，在两个域中产生的嵌入可能相似。但是如果特定域的词在一个域中出现的频率比另一个域频繁得多，则迁移量小。

该词嵌入研究主题还未被广泛探索，我认为在不久的将来它将获得更多关注。

情感分析不可思议的「副作用」

青霉素、X 光甚至邮件都是意料之外的发现。今年，Radford et al. 发现训练模型中的单个神经元具有高度可预测的情感值，并探索了字节级的循环语言模型属性，旨在预测亚马逊评论文本中的下一个字符。是的，这一单个「情感神经元」能够相当精确地区分消极和积极的评论。

评论极性 vs 神经元值（图像来源：https://blog.openai.com/unsupervised-sentiment-neuron/）。

注意到这个行为之后，Radford 等人决定在 Stanford Sentiment Treebank 上测试该模型，测试结果显示其精确度高达 91.8%，而之前的最优结果是 90.2%。这意味着通过显著减少实例的使用，他们以无监督方式训练的模型至少在一个特定但经过广泛研究的数据集上取得了当前最佳的情感分析结果。

运转中的情感神经元

由于模型在字符级别上起作用，因此神经元为文本中的每个字符改变状态，其工作方式看起来相当惊人。

情感神经元的行为（图像来源：https://blog.openai.com/unsupervised-sentiment-neuron/）。

比如，在词 best 之后，神经元值呈现为强积极；但是词 horrendous 出现时，神经元值的状态完全相反。

生成极性（polarity）有偏文本

当然，已训练模型仍然是有效的生成模型，因此它能用于生成类似 Amazon 评论的文本。但我发现你可以简单地重写情感神经元的值，从而选择生成文本的情感级性（积极或消极）。

生成文本示例（图像来源：https://blog.openai.com/unsupervised-sentiment-neuron/）。

Radford 等人选择的神经网络模型是 Krause 等人在 2016 年提出的 multiplicative LSTM，选择原因是他们观察到在给定超参数设置情况下，multiplicative LSTM 的收敛速度比一般的 LSTM 快。该模型有 4096 个单元，且在 8200 万亚马逊评论语料库中进行训练。

推特上的情感分析

无论是获取客户对企业品牌的评价、分析营销活动的影响还是民意调查，Twitter 上的情感分析都是非常强大的工具。

特朗普和希拉里在 Twitter 上的情感分析（图像来源：https://monkeylearn.com/blog/donald-trump-vs-hillary-clinton-sentiment-analysis-twitter-mentions/）。

SemEval 2017

Twitter 中的情感分析不仅已经引起了 NLP 研究者的关注，同时还引起了政治和社会科学的关注。这就是为什么自 2013 年以来，SemEval 比赛设置了推特情感分析任务。

今年共有 48 支队伍参加了该任务，表明人们对推特情感分析的关注程度。为了说明 SemEval 比赛中推特情感分析的内容，下面我们看一下该竞赛今年的子任务：

子任务 A：给定一篇推文，判断该推文表达情感是积极、消极还是中性。
子任务 B：给定一篇推文和一个主题，区分推文传递到该主题的情感是积极还是消极。
子任务 C：给定一篇推文与一个主题，区分推文传递到该主题的情感是强积极、弱积极、中性、弱消极还是强消极。
子任务 D：给定关于相同主题的一组推文，评估这组推文在积极和消极之间的分布。
子任务 E：给定关于相同主题的一组推文，评估这组推文在强积极、弱积极、中性、弱消极和强消极之间的分布。

其中子任务 A 是最常见的情感分析任务，有 38 支团队参与了该任务，但其它几个任务更具挑战性。组织方表明深度学习方法的使用十分突出且得到持续的提升，今年有 20 支队伍采用了 CNN 和 LSTM 等深度学习模型。此外，虽然 SVM 模型仍然非常流行，但很多参赛者将它们与神经网络方法结合起来，或使用词嵌入特征。

BB_twtr 系统

我发现今年令人印象深刻的是一个纯 DL 系统 BB_twtr 系统（Cliche, 2017），该系统在英语任务的 5 个子任务中名列第一。该系统的作者将 10 个 CNN 与 10 个双向 LSTM（biLSTM）结合起来，并使用不同的超参数和预训练策略进行训练。

为了训练这样的模型，作者使用人工标注的推文（子任务 A 就有 49693 篇样本），构建包含 1 亿篇推文的无标注数据集，作者通过表情符号将推文简单地标注为积极情感或消极情感，从中抽取出一个隔离的数据集。为了将预训练的词嵌入作为 CNN 和双向 LSTM 的输入，作者在未标记的数据集上使用 word2vec、GloVe 和 fastText（全部使用默认设置）等方法构建词嵌入。然后他使用前面隔离数据集提炼词嵌入以添加积极和消极信息，最后再使用人工标注的数据集对他们再次进行提炼。

之前使用 SemEval 数据集的经验表明使用 GloVe 会降低性能，并且对所有的标准数据集并没有唯一的最优模型。因此作者用软投票策略将所有模型结合起来，由此产生的模型比 2014 和 2016 年的历史最好成绩都要好。

即使这种组合不是以一种有机的方式进行，但这种简单的软投票策略已经证明了模型的高效性，因此这项工作表明了将结合 DL 模型的潜力，以及端到端的方法在推特情感分析任务中的性能优于监督方法。

令人兴奋的抽象摘要系统

自动摘要和机器翻译一样是 NLP 任务。自动摘要系统有两个主要的方法：抽取式——从源文本中抽取最重要的部分来创建摘要；生成式——通过生成文本来创建摘要。从历史角度来看，抽取式自动摘要方法最常用，因为它的简洁性优于生成式自动摘要方法。

近年来，基于 RNN 的模型在文本生成领域获得了惊人成绩。它们在短输入和输出文本上效果非常好，但对长文本的处理不太好，不连贯且会重复。Paulus et al. 在论文中提出一种新的神经网络模型来克服该局限。结果很好，如下图所示。

自动摘要生成模型图示（图片来源：https://einstein.ai/research/your-tldr-by-an-ai-a-deep-reinforced-model-for-abstractive-summarization）。

Paulus et al. 使用 biLSTM 编码器读取输入，使用 LSTM 解码器生成输出。他们的主要贡献是一种新的注意力内策略（intra-attention strategy），分别关注输入和持续生成的输出；和一种新的训练方法，将标准监督式词预测和强化学习结合起来。

注意力内策略

目标是避免重复输出。研究者在解码时使用时间注意力（temporal attention），以查看输入文本之前的 segments，从而确定接下来要生成的单词。这强制模型在生成过程中使用输入的不同部分。他们还让模型评估解码器中之前的隐藏状态。然后结合这两个功能选择输出摘要中最适合的单词。

强化学习

创建摘要的时候，两个人会使用不同的单词和句子顺序，两个摘要可能都是有效的。因此，好的摘要的词序未必要匹配训练数据集中的顺序。基于此，论文作者没有使用标准的 teacher forcing 算法，该算法可使每个解码步（即每个生成单词）的损失最小化；而是使用强化学习策略，这被证明是一个很棒的选择。

几乎端到端模型的结果

该模型在 CNN／Daily Mail dataset 上进行测试，获得了当前最佳结果。此外，人类评估员参与的特定实验证明人类的阅读能力和质量也有提升。在基础的预处理后能够取得这样的结果非常惊人，预处理包括：输入文本标记化、小写，数字用 0 代替，移除数据集中的某些实体。

迈向完全无监督机器翻译的第一步

双语词典构建，即使用源语言和目标语言的单语语料库获取两种语言词向量之间的映射关系，是一个古老的 NLP 任务。自动构建双语词典在信息检索、统计机器翻译等 NLP 任务中起到一定作用。但是，这种方法主要依赖于初始的双语词典，而这种词典通常不容易获取或构建。

随着词嵌入的成功，跨语言词嵌入出现，其目标是对齐嵌入空间而不是词典。不幸的是，这种方法仍然依赖于双语词典或平行语料库。Conneau et al.（2018）在论文中呈现了一种很有前景的方法，该方法不依赖于任何特定资源，且在多个语言对的词翻译、句子翻译检索和跨语言词汇相似度任务上优于顶尖的监督方法。

该方法将在单语数据上分别训练的两种语言的词嵌入集作为输入，然后学习二者之间的映射，以使共享空间中的翻译结果较为接近。他们使用的是用 fastText 在 Wikipedia 文档上训练的无监督词向量。下图展示了其关键想法：

构建两个词嵌入空间之间的映射（图像来源：https://arxiv.org/pdf/1710.04087.pdf）。红色的 X 分布是英语单词的词嵌入，蓝色的 Y 分布是意大利单词的词嵌入。

首先，他们使用对抗学习学习旋转矩阵 W，W 执行第一次原始对齐（raw alignment）。他们基本上按照 Goodfellow et al.（2014）的 proposition 训练生成对抗网络（GAN）。如想对 GAN 的工作原理有直观了解，推荐阅读 https://tryolabs.com/blog/2016/12/06/major-advancements-deep-learning-2016/。

为了使用对抗学习来建模问题，他们使判别器具备决定作用，从 WX 和 Y 中随机采样一些元素（见上图第二列），两种语言分属于 WX 和 Y。然后，他们训练 W 阻止判别器做出准确预测。在我看来，这种做法非常聪明、优雅，直接结果也很不错。

之后，他们用两步重新定义映射。一步用来避免罕见词引入映射计算中的噪声，另一步主要使用学得的映射和距离测量（distance measure）来构建实际的翻译结果。

这种方法在一些案例中的结果非常好，比如在英语-意大利语词翻译中，在 P@10 中，该方法在 1500 个源单词上的准确率比最优平均准确率高将近 17%。

英语-意大利语词翻译平均准确率（图像来源：https://arxiv.org/pdf/1710.04087.pdf）。

Conneau 等人称他们的方法是通向无监督机器翻译的第一步。如果真的是这样，那就太棒了。这种新方法能走多远，让我们拭目以待。

专用框架和工具

现有大量通用 DL 框架和工具，其中一些得到广泛应用，如 TensorFlow、Keras 和 PyTorch。但是，专门用于 NLP 的开源 DL 框架和工具出现了。2017 年对我们来说是重要一年，因为很多有用的开源框架对社区开放。其中有三个尤其引起了我的注意，你或许也会觉得有趣。

AllenNLP

AllenNLP 框架是基于 PyTorch 构建的平台，可以在语义 NLP 任务中轻松使用 DL 方法。其目标是允许研究者设计和评估新模型。该框架包括语义角色标注、文字蕴涵和共指消解等常见语义 NLP 任务的模型参考实现。

ParlAI

ParlAI 框架是一个用于对话研究的开源软件平台。它使用 Python 实现，目标是提供用于共享、训练和测试对话模型的统一框架。ParlAI 提供与亚马逊土耳其机器人轻松集成的机制，它还提供该领域常用数据集，支持多个模型，包括记忆网络、seq2seq 和注意力 LSTM 等神经网络模型。

OpenNMT

OpenNMT 工具包是专用于序列到序列模型的通用框架，可用于执行机器翻译、摘要、图像到文本和语音识别等任务。

结语

不可否认，用于解决 NLP 问题的 DL 技术持续发展。一个重要指标就是近年深度学习论文在重要的 NLP 会议如 ACL、EMNLP、EACL、NAACL 上的比例。

深度学习论文在 NLP 会议论文中的比例（图像来源：https://arxiv.org/abs/1708.02709）。

但是，有关端到端学习的研究才刚刚开始。我们仍然通过处理一些经典的 NLP 任务来准备数据集，如清洗、标记化（tokenization）或部分实体统一化（如 URL、数字、电子邮箱地址等）。我们还使用通用嵌入，缺点是它们无法捕捉特定领域术语的重要性，且对多词表达的处理效果不好，这是我在过去项目中多次发现的重要问题。

2017 年是深度学习应用到 NLP 的伟大一年。我希望 2018 年能够出现更多端到端学习方面的研究以及专门的开源框架变的更加完善。

扩展阅读

NLP 研究中的深度学习方法：Recent Trends in Deep Learning Based Natural Language Processing，Young et al.（2017）：https://arxiv.org/pdf/1708.02709.pdf
From Characters to Understanding Natural Language (C2NLU): Robust End-to-End Deep Learning for NLP，Blunsom et al.（2017）：http://drops.dagstuhl.de/opus/volltexte/2017/7248/pdf/dagrep_v007_i001_p129_s17042.pdf
模型对比：Comparative Study of CNN and RNN for Natural Language Processing，Yin et al.（2017）：https://arxiv.org/pdf/1702.01923.pdf
GAN 工作原理：The major advancements in Deep Learning in 2016，Pablo Soto：https://tryolabs.com/blog/2016/12/06/major-advancements-deep-learning-2016/
词嵌入详解：Word embeddings: how to transform text into numbers，Gabriel Mordecki：https://monkeylearn.com/blog/word-embeddings-transform-text-numbers/
Word embeddings in 2017: Trends and future directions，Sebastian Ruder：http://ruder.io/word-embeddings-2017/

参考文献

From Characters to Understanding Natural Language (C2NLU): Robust End-to-End Deep Learning for NLP Phil Blunsom, Kyunghyun Cho, Chris Dyer and Hinrich Schütze (2017)
BB_twtr at SemEval-2017 Task 4: Twitter Sentiment Analysis with CNNs and LSTMs Mathieu Cliche (2017)
Word Translation without Parallel Data Alexis Conneau, Guillaume Lample, Marc』Aurelio Ranzato, Ludovic Denoyer, Hervé Jégou (2018)
Generative adversarial nets Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville and Yoshua Bengio (2014)
Distributional structure Zellig Harris (1954)
OpenNMT: Open-source toolkit for neural machine translation Guillaume Klein, Yoon Kim, Yuntian Deng, Jean Senellart and Alexander M Rush. (2017)
Multiplicative lstm for sequence modelling Ben Krause, Liang Lu, Iain Murray and Steve Renals (2016)
Parlai: A dialog research software platform Alexander H Miller, Will Feng, Adam Fisch, Jiasen Lu, Dhruv Batra, Antoine Bordes, Devi Parikh and Jason Weston (2017)
Linguistic Regularities in Continuous Space Word Representations Tomas Mikolov, Scott Wen-tau Yih and Geoffrey Zweig (2013)
Glove: Global vectors for word representation Jeffrey Pennington, Richard Socher and Christopher D. Manning (2014)
Learning to Generate Reviews and Discovering Sentiment Alec Radford, Rafal Jozefowicz and Ilya Sutskever (2017)
A Simple Regularization-based Algorithm for Learning Cross-Domain Word Embeddings Wei Yang, Wei Lu, Vincent Zheng (2017)
Comparative study of CNN and RNN for Natural Language ProcessingWenpeng Yin, Katharina Kann, Mo Yu and Hinrich Schütze (2017)
Recent Trends in Deep Learning Based Natural Language Processing Tom Younga, Devamanyu Hazarikab, Soujanya Poriac and Erik Cambriad (2017)

原文链接：https://tryolabs.com/blog/2017/12/12/deep-learning-for-nlp-advancements-and-trends-in-2017/

【深度学习解惑】如果用RNN实现情感分析或文本分类，你会如何设计数据输入？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 分类人工智能机器学习神经网络
以下是用RNN实现情感分析/文本分类时数据输入设计的完整技术方案：1.引言与背景介绍情感分析/文本分类是NLP的核心任务，目标是将文本映射到预定义类别（如正面/负面情感）。RNN因其处理序列数据的天然优势成为主流方案。核心挑战在于如何将非结构化的文本数据转换为适合RNN处理的数值化序列输入。2.原理解释文本到向量的转换流程：原始文本分词建立词汇表词索引映射词嵌入层序列向量关键数学表示：词嵌入表示：
大语言模型(LLM)量化基础知识(一) -派神- RAG NLP ChatGPT 语言模型人工智能自然语言处理
承接各类AI相关应用开发项目(包括但不限于大模型微调、RAG、AI智能体、NLP、机器学习算法、运筹优化算法、数据分析EDA等)!!!有意愿请私信!!!随着大型语言模型(LLM)的参数数量的增长,与其支持硬件（加速器内存）增长速度之间的差距越来越大，如下图所示：上图显示，从2017年到2022年，语言模型的大小显著增加：2017年：Transformer模型（0.05B参数）2018年：GPT（0
对话云蝠智能：大模型如何让企业呼叫系统从 “成本中心” 变身 “价值枢纽”？ MARS_AI_ 人工智能自然语言处理信息与通信交互
在人工智能重塑企业服务的浪潮中，云蝠智能（南京星蝠科技有限公司旗下品牌）以深厚的技术积累和行业实践，逐步成长为国内智能外呼领域的标杆企业。其发展路径揭示了技术自主创新与场景深度结合的必然性。一、技术架构：全栈自研奠定领先基础云蝠智能的核心竞争力源于其全链路自研技术体系。该架构覆盖语音识别（ASR）、自然语言处理（NLP）、语音合成（TTS）及软交换六大层级，实现从基础设施到操作层的闭环设计。这一分
Jenkins JNLP与SSH节点连接方式对比及连接断开问题解决方案 tianyuanwo devops jenkins ssh 运维
一、JNLPvsSSH连接方式优缺点对比对比维度JNLP（JavaWebStart）SSH（SecureShell）核心原理代理节点主动连接Jenkins主节点，通过加密通道通信，支持动态资源分配。Jenkins通过SSH协议远程登录代理节点执行命令，需预先配置SSH服务。适用场景容器化环境（如Kubernetes）、需要跨平台或动态扩缩容的场景。传统物理机/虚拟机、静态节点或简单命令执行场景。安
用AI写一个自动记录手机支付记录的小插件教程python
要实现一个自动记录手机支付记录的小插件，核心是利用AI技术解析支付通知短信/通知栏消息。以下是通过训练让AI写代码实现方案：基础方案：手动输入+AI分类（无需权限）#使用Python+Tkinter（界面）+简易NLP分类importtkinterastkfromdatetimeimportdatetimeimportreclassPaymentTracker:def__init__(self):
AI 销售系统：重塑销售格局的科技利器小柔说科技人工智能科技 java
在数字化浪潮汹涌澎湃的当下，人工智能（AI）正以前所未有的速度渗透到各个行业，销售领域也不例外。AI销售系统作为一种融合了先进人工智能技术的创新工具，正逐渐成为企业提升销售效率、优化客户体验、增强市场竞争力的关键因素。一、AI销售系统的概念与核心技术AI销售系统是基于人工智能技术构建的一套综合性销售管理平台，它整合了自然语言处理（NLP）、机器学习（ML）、数据分析、预测建模等多种核心技术。通过这
【炼丹炉】Conda环境离线迁移黑白象炼丹笔记自然语言处理 pip python anaconda linux
1.背景笔者所在公司最近要在局域网内部署NLP算法模型，由于需求方对数据安全有严格要求，新服务器所在局域网不能直接访问Internet，因此需要将模型所需的运行环境离线迁移到新服务器中。2.方案2.1conda-packconda-pack是一个命令行工具，用于打包conda环境。该命令会将坏境中安装的软件包的二进制文件进行打包。注：本方法不需要下载安装包，因此，conda-pack需要指定平台和
NLP市场规模将破千千亿，哪些岗位会成为新风口？ duolapig 人工智能
近年来，自然语言处理（NLP）技术在全球范围内掀起了一场“语言革命”。从智能客服到机器翻译，从情感分析到内容生成，NLP正以惊人的速度重塑人类与机器的交互方式。艾媒咨询数据显示，2023年中国NLP市场规模已达660亿元，预计2027年将突破千亿大关。这一数字背后，不仅是技术迭代的加速，更是一场深刻的人才需求变革。在AI大模型浪潮的推动下，新的职业风口正在形成，而这场变革的核心逻辑，是技术与产业融
RNN、LSTM、GRU详解昔颜1121 人工智能 rnn python
RNN、LSTM、GRU详解在深度学习领域，序列数据（如语音识别、机器翻译、文本生成等）广泛应用于自然语言处理（NLP）、时间序列预测、语音和视频处理等任务中。针对序列数据，循环神经网络（RNN,RecurrentNeuralNetwork）及其改进版本——长短时记忆网络（LSTM,LongShort-TermMemory）和门控循环单元（GRU,GatedRecurrentUnit）成为处理时序
小白的进阶之路系列之十六----人工智能从初步到精通pytorch综合运用的讲解第九部分金沙阳人工智能 pytorch python
从零开始学习NLP在这个由三部分组成的系列中，你将构建并训练一个基本的字符级循环神经网络(RNN)来对单词进行分类。你将学习如何从零开始构建循环神经网络NLP的基本数据处理技术如何训练RNN以识别单词的语言来源。从零开始学自然语言处理：使用字符级RNN对名字进行分类我们将构建并训练一个基本的字符级循环神经网络(RNN)来对单词进行分类。展示了如何预处理数据以建模NLP。特别是，这些教程展示了如何以
使用Hugging Face的BGE模型进行文本嵌入 lirxx 人工智能 langchain
在文本嵌入领域，BGE（BeijingAcademyofArtificialIntelligenceEmbeddings）模型是开源界的佼佼者。由北京智源人工智能研究院（BAAI）开发，BGE模型以其高效的嵌入性能和开放性获得了广泛的认可。本文将通过HuggingFace平台展示如何使用BGE模型进行文本嵌入。技术背景介绍文本嵌入是将文本数据转换为可计算向量的过程，这在自然语言处理（NLP）中具有
第8章：智能菜谱生成器——语言模型如何解析烹饪秘方白嫖不白嫖深度求索-DeepSeek 语言模型人工智能自然语言处理
第8章：智能菜谱生成器——语言模型如何解析烹饪秘方从语义理解到操作执行的完整技术解密工业案例背景：法国里昂的Bocused’Or国际烹饪大赛选手手册中记载这样一道经典指令：“将酱汁熬煮至Nappé状态（即勺子划过痕迹缓慢回填）”。当传统NLP系统将其简单译为"煮浓"，新一代Transformer模型却精准解析出粘度为1500-2000cP的物性指标，并据此生成控温方案。这背后的核心技术便是基于烹饪
WebRTC 语音激活检测(VAD)算法 u013250861 Audio webrtc 算法语音识别
语音激活检测最早应用于电话传输和检测系统当中，用于通信信道的时间分配，提高传输线路的利用效率。激活检测属于语音处理系统的前端操作，在语音检测领域意义重大。但是目前的语音激活检测，尤其是检测人声开始和结束的端点始终是属于技术难点，各家公司始终处于能判断，但是不敢保证判别准确性的阶段。通常搭建机器人聊天系统主要包括以下三个方面:语音转文字(ASR/STT)语义内容(NLU/NLP)文字转语音(TTS)
Java企业技术趋势分析：AI驱动下的Spring AI、LangChain4j与RAG系统架构在未来等你 Java场景面试宝典 AI 技术编程 Java Spring
【Java企业技术趋势分析：AI驱动下的SpringAI、LangChain4j与RAG系统架构】开篇在当今快速发展的技术环境中，人工智能（AI）正在以前所未有的速度重塑企业的技术架构和业务流程。Java作为企业级开发的主流语言之一，在AI应用落地方面也迎来了新的机遇和挑战。从自然语言处理（NLP）到机器学习（ML），再到生成式AI（GenerativeAI），Java开发者正在积极拥抱这些新兴技
【资源共享】eBook分享大集合天堂的鸽子杂七杂八资源分享
文章目录eBook分享大集合服务器系统类(9)机器学习类(17)NLP算法类(19)网络类(6)程序语言类C/C++语言(8)Python语言(14)Java语言(14)PHP语言(4)C#/.NET语言(21)Web技术(12)数据库类Oracle(5)MySQL(8)SQLServer(10)大数据类(11)其他系列IT思维类(15)架构设计类(11)敏捷开发类(21)面试精华文档Java(3
预训练目标：BERT 更适配 “理解类” 任务
在NLP任务中，更倾向于用BERT而非GPT做预训练，核心原因与两者的模型设计、任务适配性、资源成本有关，具体可从以下维度拆解：一、预训练目标：BERT更适配“理解类”任务BERT的双向预训练目标：通过掩码语言模型（MLM）和下一句预测（NSP），强制模型学习上下文的双向语义依赖（比如用“[MASK]是水果”的前后文猜“苹果”），天生适合文本理解、分类、问答等任务。GPT的单向预训练目标：基于自回
PyABSA 入门指南：基于深度学习的情感分析工具包是纯一呀 DeepLearning AI NLP 深度学习人工智能 NLP
在自然语言处理（NLP）领域，情感分析（SentimentAnalysis）一直是热门任务之一。而基于方面的情感分析（Aspect-BasedSentimentAnalysis，ABSA），则是更细粒度的分析方式——不仅判断正负情绪，还识别情绪对象（方面）和具体情感极性（如好/差）。什么是PyABSA？PyABSA（PythonAspect-BasedSentimentAnalysis）是一个专为
AI智能时代SEO优化，AISEO-人工智能搜索引擎优化 weixin_ggwwsscc 人工智能搜索引擎 deepseek AI seo
AI驱动的关键词精准匹配与语义理解传统的关键词排名规则主要依赖于关键词的字面匹配，即网站内容中出现的关键词与用户搜索词完全一致或高度相似时，才有可能获得较好的排名。然而，随着AI技术在搜索引擎中的广泛应用，这一局面正在发生深刻改变。如今的搜索引擎借助自然语言处理（NLP）和机器学习算法，能够深入理解用户搜索词背后的语义和意图，实现更精准的内容匹配。AI智能时代SEO优化，AISEO-人工智能搜索引
大语言模型应用指南：多模态大语言模型 AI天才研究院 AI人工智能与大数据 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型应用指南：多模态大语言模型作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：多模态大语言模型(MMLM),多媒体数据处理,自然语言理解,图像文本生成,应用场景探索1.背景介绍1.1问题的由来随着人工智能技术的迅速发展，特别是自然语言处理(NLP)领域的突破，大型语言模型(LargeLanguageModels,LLMs)成为研究热点。
Milvus 向量数据库详解与实践指南 JJJ@666 基础知识(人工智能AI)milvus 向量数据库图像检索推荐系统
一、Milvus核心介绍1.什么是Milvus？Milvus是一款开源、高性能、可扩展的向量数据库，专门为海量向量数据的存储、索引和检索而设计。它支持近似最近邻搜索（ANN），适用于图像检索、自然语言处理（NLP）、推荐系统、语义搜索、智能问答、多模态数据处理等AI应用场景。它能够高效处理：嵌入向量（Embeddings）特征向量（FeatureVectors）任何高维数值向量2.核心特性特性说明
【AI论文】MultiFinBen：一个用于金融大语言模型评估的多语言、多模态且具备难度感知能力的基准测试集东临碣石82 人工智能金融语言模型
摘要：近期，大型语言模型（LLMs）的进展加速了金融自然语言处理（NLP）及其应用的发展，然而现有的基准测试仍局限于单语言和单模态场景，往往过度依赖简单任务，无法反映现实世界金融交流的复杂性。我们推出了MultiFinBen，这是首个针对全球金融领域定制的多语言、多模态基准测试集，用于在特定领域任务上跨模态（文本、视觉、音频）和语言环境（单语言、双语、多语言）对大型语言模型进行评估。我们引入了两个
小白的进阶之路系列之十七----人工智能从初步到精通pytorch综合运用的讲解第十部分金沙阳人工智能 pytorch python
NLP从零开始：使用字符级RNN生成姓名这是我们“NLP从零开始”系列三部分教程中的第二部分。在第一个教程中，我们使用了RNN将姓名分类到其语言来源。这次我们将反过来，从语言生成姓名。>pythonsample.pyRussianRUSRovakovUantovShavakov>pythonsample.pyGermanGERGerrenErengRosher>pythonsample.pySpa
6月19日复盘四万二千人工智能 transformer
6月19日复盘二、分词与词向量分词和词向量是NLP的基础技术。1.分词分词是将连续的文本分割成独立的词汇单元（tokens）的过程。这些单元可以是单词、符号或子词。1.1中文特性中文句子由连续的汉字组成，没有明显的词边界：词与词之间没有分隔符英文：Ilovenaturallanguageprocessing.中文：我喜欢自然语言处理。词是最基本的语义单元。为了处理文本信息，须将连续的序列分割成有意
程序代码篇---ESP32-S3小智固件 Atticus-Orion 深度学习篇程序代码篇上位机知识篇 AI Esp32-S3 小智
Q1：ESP32-S3小智语音对话系统的整体架构是怎样的？A1：该系统采用“语音采集→唤醒词检测→ASR→NLP→TTS→语音播放”的流水线架构：硬件层：ESP32-S3芯片+麦克风阵列（如INMP441）+扬声器（如MAX98357A）。驱动层：ESP-IDF或Arduino框架提供的I2S、ADC、DAC驱动。算法层：唤醒词检测：基于MicroML（如TensorFlowLiteMicro）。
NLPIR智能语义：大数据精准挖掘是信息化发展趋势 weixin_33778544 大数据数据库人工智能
随着信息技术的高速发展、数据库管理系统的广泛应用，人们积累的数据量急剧增长，大量的信息给人们带来方便的同时，也带来了诸如：信息过量难以消化，信息真假难以辨识，信息安全难以保证，信息形式不一致难以统一处理等问题。如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。数据挖掘就是对观测到的数据集进行分析，目的是发现未知的关系和以数据拥有者可以理解并对其
从代码学习深度学习 - 情感分析及数据集 PyTorch版飞雪白鹿€ #自然语言处理深度学习 pytorch
文章目录前言1.认识数据集：aclImdb基本信息数据结构特点2.解压与读取数据2.1解压文件2.2读取评论与标签3.预处理数据集3.1词元化与构建词汇表3.2分析评论长度3.3截断与填充4.创建数据迭代器5.整合所有步骤总结前言欢迎来到“从代码学习深度学习”系列！今天，我们将深入探讨自然语言处理（NLP）中的一个核心任务：情感分析。随着互联网的普及，从产品评论、社交媒体到论坛讨论，我们每天都在产
文本表示的发展概述抱抱宝大模型自然语言处理
文本表示的目的是将人类语言的自然形式转化为计算机可以处理的形式，也就是将文本数据数字化，使计算机能够对文本进行有效的分析和处理。文本表示是NLP领域中的一项基础性和必要性工作，它直接影响甚至决定着NLP系统的质量和性能。在NLP中，文本表示涉及到将文本中的语言单位（如字、词、短语、句子等）以及它们之间的关系和结构信息转换为计算机能够理解和操作的形式，例如向量、矩阵或其他数据结构。这样的表示不仅需要
Linux根据进程id获取此进程的端口号
Linux根据进程id获取此进程的端口号：在Linux中，可以通过/proc文件系统来获取一个进程的相关信息，包括其端口号。以下是一种常见的方法，可以根据进程ID获取对应进程的端口号：1、使用netstat命令结合管道和过滤器，来查找与指定进程ID相关的网络连接。netstat-nlp|grep2、执行上面命令，结果如下，其中8501就是37这个进程的端口号3、根据端口号查找进程lsof-i:或者
深度解析 ImportError: cannot import name AdamW from transformers——从报错原理到完美解决方案 Tadas-Gao 机器学习人工智能机器学习 pytorch LLM python
为什么这个错误值得关注？在自然语言处理(NLP)领域，HuggingFace的transformers库已成为事实上的标准工具。然而，随着库的快速迭代，开发者经常会遇到ImportError:cannotimportname'AdamW'from'transformers'这个看似简单却令人头疼的错误。本文将带你深入理解这个错误的本质，提供多种解决方案，并分享版本管理的专业技巧，帮助你在AI开发中
美元反弹压制金价：基于ARIMA-GARCH模型的汇率-黄金联动效应解构金融小师妹人工智能大数据算法
摘要：本文采用LSTM-Attention混合模型进行价格序列特征提取，结合自然语言处理（NLP）构建政策不确定性指数（PUI），运用ARIMA-GARCH模型预测美元流动性溢价因子（DLP）变动。通过DSGE模型模拟贸易政策冲击传导路径，并基于Nelson-Siegel模型分解美债收益率曲线结构分析。现货黄金呈现典型的三阶段波动特征：首先在3392美元/盎司关键阻力位触发动量交易突破，随后因美元
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息

论文阅读：recent trends in deep learning based natural language processing

你可能感兴趣的:(NLP)