CopperDong

NLP的这一年2017：深度学习或成主角

在过去几年，深度学习（DL）的架构和算法在很多领域都取得了里程碑似的进展，例如图像识别和语言处理。

起初，深度学习在自然语言处理（NLP）中的应用并不起眼，但后来却出现了许多重量级的成果，例如命名实体识别（NER）、词性标注（POS tagging）或文本情感分析（sentiment analysis）等都是神经网络模型超越传统模型的方法。然而，机器翻译领域所取得的进步才是最显著的。

本文作者Javier Couto是tryo labs公司的一名研发科学家，专注于NLP技术。这篇文章是他对2017年NLP领域中深度学习技术应用的总结，也许并不全面，但都是他认为有价值、有意义的成果。Couto表示，2017年是对NLP领域非常有意义的一年，随着深度学习的应用，NLP技术也将继续发展下去。以下是论智对原文的编译。

从训练word2vec到使用预先训练的模型

通常来说，词嵌入（word embeddings）是与NLP相关的最有名的深度学习技术了，它遵循了Harris提出的分布假想（distributional hypothesis），分布假想源自于语言学中的语义学原理，即认为出现在相似的上下文环境中的词汇可能是用于表达相似的意思。

词的分布式向量

虽然著名的word2vec和GloVe等算法不能算作是深度学习框架（word2vec中只涉及浅显的神经网络，而GloVe是基于矩阵的方法），但用它们训练的许多模型都被输入到用于NLP的深度学习工具中。所以在这一领域使用词嵌入通常是非常好的做法。

开始时，对于一个需要词嵌入的问题，我们倾向于从与该领域相关的语料库中训练自己的模型。不过，这种方法并不适用于所有情况，所以出现了预训练模型。通过在维基百科、Twitter、谷歌新闻以及其他网页上训练，这些模型可以让你轻松地将词嵌入整合到深度学习算法中。

今年，许多人认为预训练的词嵌入模型仍然是NLP中的一个关键问题。例如，Facebook人工智能实验室（FAIR）发布的fastText是一款能够支持294种语言的预训练词嵌入模型，为NLP领域做出了巨大的贡献。除了支持多种语言，fastText还能够将字分解成字符n-gram，即使遇到词典中不存在的字（OOV problem），也能给出向量表示。因为一些特定领域的罕见词仍然可以被分解成字符n-gram，所以它们可以与通用字共享这些n-gram。而word2vec和GloVe都不能为词典中不存在的词提供向量表示。所以从这方面来说，fastText比上述两种方法表现得更好，在小数据集上更是如此。

不过，虽然取得了一些进展，NLP方面还有很多工作要做。例如，强大的NLP框架spaCy能够以本地方式将词嵌入整合到深度学习模型中，完成例如NER或依存句法分析（Dependency Parsing）等任务，允许用户更新或使用自己的模型。

我认为，在将来，对于易于在NLP框架中使用的特定领域（例如生物学、文学、经济等），使用预训练的模型是很合适的。对我们来说，如果能用最简单的方式对它们进行调校，那就更是锦上添花的进步了。与此同时，能够适应词嵌入的方法开始出现。

将通用型嵌入应用到具体应用案例

使用预训练的词嵌入的主要缺点就是，训练数据与实际问题中的数据存在着词语分布的差距（word distributional gap）。假如你有一份生物学论文、或一份食谱、或经济学研究论文的语料，但是没有足够大的语料库来训练良好的嵌入，所以最终会选择通用词嵌入来帮助你提高结果。但是如果能将通用的嵌入调整为适合你个人案例的情况呢？

这种适应通常被称为NLP中的跨领域或域自适应技术，与迁移学习非常接近。Yang等人今年提出了一个正则化的skip-gram模型，给定始源域（source domain）的嵌入，可以学习目标域（target domain）的嵌入，是一项非常有趣的研究。

重要思想简洁且高效。假设我们知道始源域中单词w的词嵌入为ws。为了计算目标域中wt的嵌入，就要在两个域之间加入一个特定量的迁移ws。一般来说，如果这个单词在两个域中都经常出现，那么它的语义就是独立的。在这种情况下，迁移的值越大，嵌入的结果可能在两个域中就越相似。反之，如果一个单词在一个域中的出现频率高于另一个域，那么迁移的值就小。

关于这一话题的研究并未深入展开，但我相信在不远的未来会有更多人关注它。

情感文本分析不可思议的副作用

伟大的发明往往是意外之喜，下面要说的这个成就也不例外。今年，Radford等人在研究字节级循环语言模型的特性，目的是要预测亚马逊评论文本中的下一个字符。然而在这一过程中，他们发现训练模型中的一个单一神经元能够高度预测出文章的情感价值（sentiment value）。这个单一的“情感神经元”（sentiment neuron）能够以相当准确的方式将评论分为积极或消极的两类。

评论极性vs神经元值

在发现了这一特性后，作者决定将模型应用于Stanford Sentiment Treebank数据集上，结果得到的精确度高达91.8%，比之前最佳的90.2%的结果还要高。这意味着，他们的模型经过无监督的方式训练后，用更少的训练数据达到了最先进的情感文本分析结果。

情感神经元的工作过程

由于模型是在字符层面工作，可以看到，神经元在文本中进行判断时，能够改变特殊的字符颜色。如下图所示：

在单词“best”之后，神经元使文本变成了深绿色（代表积极），而在单词“horrendous”之后，绿色消失，表示情感由积极开始转向消极。

生成极性偏向文本

当然，训练过的模型是一个有效地生成模型，所以你也可以拿他来生成类似亚马逊的评论那样的文本。但是，我觉得很棒的一点是，你可以简单地改写情感神经元的值来决定生成文本的极性（polarity）。

积极情绪	消极情绪
这是我买过的最好的吊床！完全不会变形，而且超级舒服。我喜欢上面的印花，看起来好可爱！	根本不能用，吃一堑长一智吧。
这就是我想要的。这条裤子完全合身，走线也很精密，强烈推荐！	包裹竟然是空的，没有二维码。浪费时间金钱。

作者选用的神经网络模型是Krause等人在2016年提出的multiplicative LSTM，主要原因是他们观察到该模型的超参数设置比正常的LSTM收敛地更快。它有4096个单位，训练的语料库中含有8200万条亚马逊的评论。

同时，你还可以试着训练自己的模型并进行试验。当然这需要你有足够的时间和强大的GPU：论文的作者在NVIDIA Pascal GPU上花了一个月的时间训练了该模型。

Twitter上的情感文本分析

要想知道人们对某个品牌的评价，或是分析某一营销活动的影响，甚至是衡量人们对总统大选的感受，Twitter中的情感分析是一个非常强大的工具。

推特对有关川普和希拉里的推文的情感分析

SemEval 2017

Twitter中的情感文本分析已经引起了NLP研究人员的关注，而且也引起了政界和社会科学界的关注。所以自从2013年以来，国际语义测评SemEval提出了一项具体的任务。

2017年共有48支队伍参加了评选，以下五个子任务可以让你了解SemEval在Twitter上都分析了什么。

A：给定一条推文，判断它是积极的或是消极的或是中立的情绪。
B：给定一条推文和话题，将话题中所传达出的情绪进行分类：正面或负面。
C：给定一条推文和话题，将推文中所传达出的情绪分为五类：非常积极、一般积极、中立、一般消极、非常消极。
D：给定关于某一话题的一组推文，估计这些推文在积极和消极中的分布。
E：给定关于某一话题的一组推文，将推文的情绪分为五类：非常积极、一般积极、中立、一般消极、非常消极。

可以看到，A任务是最常见的任务，共有38支队伍参加了这个任务，其他的几项更难一些。主办方指出，今年使用深度学习方法的队伍比较显眼，并且在不断增加，有20个团队使用了CNN和LSTM等模型。另外，尽管SVM模型仍然非常流行，但已经有几个队伍将它们与神经网络或词嵌入等方法结合起来了。

BB_twtr系统

我认为今年最值得关注的是一个纯粹的深度学习系统——BB_twtr，该系统在英语的5个子任务中排名第一。作者将10个CNN和10个biLSTM的集合结合起来，用不同的超参数和不同的预训练策略进行训练。可以在论文中看到神经网络架构的细节。

为了训练这些模型，作者使用了带有话题标签的推文（A任务中共有49693条推文），然后建立了一个含有1亿条没有标签的推文数据集，将其中带有类似微笑表情的推文归为积极一类，反之归为消极一类，再次建立派生的数据集。在这里，推文都被变成了小写、标上了记号；URL和表情符号被替换成了特殊的符号；重复的字母都被合并，例如“niiice”和“niiiiiiiice”变成了“niice”。

为了对用作CNN和biLSTM的输入词嵌入进行预训练，作者使用带有默认设置的word2vec、GloVe和fastText在未标记的数据集上进行训练。然后他使用派生数据集改进嵌入，并加入极性信息，然后再使用带有标签的数据集再次改进。

使用从前的SemEval数据集的实验表明，使用GloVe会降低性能，并且对所有金标准数据集没有一个最佳模型。然后作者将所有模型与软投票策略结合起来，由此产生的模型比2014和2016年的最佳成绩都好，接近2015年的最佳成绩。它最终在2017SemEval的5个子任务中排名第一。

即使这种组合并不是以一种有机的方式进行的，而是加入了简单的软投票策略，也表明了将深度学习模型应用其中的潜力非常大，同样也证明了几乎所有端到端的方法在Twitter中的情感分析可以超越监督的方法（输入必须进行预处理）。

令人激动的抽象总结系统

自动总结（automatic summarization）是NLP最早的任务之一。方式主要有两种：抽取式（extraction-based）和生成式（abstraction-based）。抽取式自动文摘方法是通过提取文档中已存在的关键词、句子形成摘要；生成式自动文摘方法是通过建立抽象的语义表示，使用自然语言生成技术形成摘要。在过去，抽取式是最常用的方法，因为他们比另一种方法简单。

在过去几年，基于RNN的模型在文本生成方面取得了惊人的成果。对于简短的文本输入和输出，它们表现得很好。但是遇到长文本，往往输出的是不连贯的、重复的结果。在他们的工作中，Paulus等人提出了一种新型的神经网络模型来克服这一局限性，并取得了令人兴奋的结果，如下所示：

自动摘要生成模型

作者使用biLSTM编码器读取输入，并使用LSTM解码器生成输出。他们的主要贡献是创建了一种新的内部注意策略，能够分别关注输入和连续的输出，并且还有一种新的训练方法，将监督词语预测的标准和强化学习结合起来。

内部注意策略

新型的内部注意策略的目的是避免在输出中出现重复。为了达到这个目的，他们在解码时用缓存的注意查看输入文本的前一段内容，然后再决定下一个将要产生的字。这就使得模型在生成过程中使用输入的不同部分。他们还允许模型从解码器访问之前的隐藏状态，两个函数结合后，就会选择出最适合输出摘要的下个词。

强化学习

写摘要时，两个不同的人会使用不同的词语和句子，但写出的摘要都是正确的。因此，判断一个摘要是好的标准不一定是使其完全与数据集中的单词序列相匹配。了解这一点后，作者就避免了标准的强制教导（teacher forcing）算法，该算法会在每个解码步骤将损失最小化，而是依赖更可靠的强化学习策略。

近似端到端模型的好结果

该模型在CNN和《每日邮报》的数据集上进行了测试，并取得了前所未有的好结果。在人类评估下，一项具体的实验结果表明，可读性和质量都有了增长。由于在预处理时，输入文本都被打上了标记、改为小写，同时数字被替换成0，以及数据集的一些特殊对象被移除，还能得到这样的结果，实在令人印象深刻。

迈向完全无监督机器翻译的第一步

双语词典构建是NLP领域一个老生常谈的问题了，它使用两种语言的源语言和目标语言的单语料库生成词语互译。自动生成的双语词典能够帮助其他NLP任务，例如信息检索和机器翻译统计。然而，这些方法大多都需要一个初始的双语词典，但通常很难建立。

随着词嵌入的出现，跨语言词嵌入（cross-lingual word embeddings）也随之产生，其目的是调整嵌入空间而不是生成字典。但不幸的是，跨语言嵌入也需要有双语词典或平行语料库。接着，Conneau等人提出了一个可行的方法，可以不依赖任何特定的资源，在词语翻译、句子翻译检索以及跨语言词语相似性等任务上由于现有的监督式方法。

作者提出的方法是将两组在单语语料库上训练的词嵌入作为输入，然后学习二者之间的映射，使得公共空间上的翻译相近。他们利用fastText对维基百科上的文本进行无监督训练，如下图所示。

构建两个词嵌入空间之间的映射

红色的X表示英语单词的嵌入，紫色的Y表示意大利语的词嵌入。

刚开始，他们使用对抗学习来学习旋转矩阵W，W将执行第一次原始对齐。接着，在Ian Goodfellow等人提出生成对抗网络之后，他们也训练了一个GAN。

为了用生成学习对该问题建模，他们将判别器看作能够做决定的角色。他们从Wx和Y中随机采样（上图第二栏），两种语言分别属于Wx和Y。然后，他们训练W，防止判别器做出好的预测。我认为这种方式非常聪明优雅，直接结果也非常不错。

之后，他们增加了两步来完善映射。一是消除罕见字在映射计算中产生的噪声，另一个是利用学到的映射和测量距离建立实际的翻译。

在某些案例中，输出的结果已经超越了最佳纪录。例如在P@10的英语和意大利语之间的词语翻译中，他们在1500个源单词所组成的数据库中得出了近17%的平均准确率。

英语-意大利语词语翻译平均精确度

作者称，他们的方法可以用作开启无监督机器翻译的第一步，让我们拭目以待。

特别的框架和工具

现如今已经有很多通用的深度学习框架和工具，例如TensorFlow、Keras、PyTorch等等。然而，面向NLP的特定开源深度学习框架和工具才刚刚兴起。今年对我们来说十分重要，因为有许多开源框架出现，其中三个是我很感兴趣的。

AllenNLP

AllenNLP框架是构建在PyTorch之上的一个平台，它的设计初衷是将深度学习方法应用其中，执行相关的NLP任务。其目的是让研究人员设计并评估新模型，它包含了语义角色标注（semantic role labeling）、文字蕴涵（textual entailment）和共指消解（coreference resolution）等常见的NLP语义任务。

ParlAI

ParlAI框架是一个开源的用于对话研究的软件平台。它在Python中实现，其目标是提供一个集分享、训练和测试于一体的框架。ParlAI提供了一个与亚马逊Mechanical Turk轻松集成的机制，同时还提供了该领域流行的数据集，并支持多种模型，包括内存网络、seq2seq和注意力LSTM等神经模型。

OpenNMT

OpenNMT工具箱是专门用于序列到序列模型的通用框架，它可以执行类似机器翻译、总结、图像到文本和语音识别的任务。

写在最后

不可否认，用于NLP领域的深度学习技术在不断增长，从过去几年的ACL、EMNLP、EACL、NAACL等关键大会上所提交的有关NLP深度学习的论文上就能看出这一趋势。

有关深度学习的论文

然而，真正端到端的学习才刚刚开始出现，我们仍在处理一些经典的NLP任务来准备数据集，例如清理、标记或合并（例如URL、数字、电子邮件地址等）。我在研究的项目中发现，通用嵌入除了不能捕捉特定领域术语的重要性，而且在多次表达中表现不佳。

2017对深度学习在NLP领域的应用是关键的一年，我希望2018年将带来更多端到端的学习工作，并涌现出更多的开源框架。

原文地址：tryolabs.com/blog/2017/12/12/deep-learning-for-nlp-advancements-and-trends-in-2017/

【原创】下雨天要游泳饶金霞家庭教育心理咨询
下午，我照着昨天与小儿的约定，在四点半，就来到幼儿园门口接孩子。老师打开大门，孩子从教室里走出来，一见到我就问:“老妈，泳衣准备好了吗？”我半蹲下来拥抱他说：“都放在车上啦！”儿子在我额头上亲一口说：“你真是世界上最讲信用的好妈妈！”我有点怀疑我这儿子有NLP的基因，总是能及时地给沟通者作出良好的回应，而且还会用米尔顿。其实看着这满天的乌云，我心里还在嘀咕，这场大雨可能不会等到我们去游泳场。果不其
LLM系统性学习完全指南（初学者必看系列） GA琥珀 LLM 学习人工智能语言模型
前言这篇文章将系统性的讲解LLM（LargeLanguageModels,LLM）的知识和应用。我们将从支撑整个领域的数学与机器学习基石出发，逐步剖析自然语言处理（NLP）的经典范式，深入探究引发革命的Transformer架构，并按时间顺序追溯从BERT、GPT-2到GPT-4、Llama及Gemini等里程碑式模型的演进。随后，我们将探讨如何将这些强大的基础模型转化为实用、安全的应用，涵盖对齐
AI数字人系统开发上线全攻略：从0到1全流程解析 v_qutudy 人工智能 AI系统开发 AI数字人开发
一、需求分析：定义数字人核心能力1.1功能规划矩阵模块基础功能进阶功能形象生成2D/3D建模实时表情捕捉与驱动语音交互TTS语音合成情感识别与应激反应动作系统预设动作库骨骼动画与物理引擎智能决策规则引擎强化学习驱动决策多模态交互文本/语音输入AR/VR空间交互1.2非功能性指标实时性：唇形同步延迟B[语音识别]A-->C[姿态检测]A-->D[文本理解]B-->E[NLP引擎]C-->F[动作解析
Java NLP炼金术：从词袋到深度学习，构建AI时代的语言魔方墨夶 Java学习资料人工智能 java 自然语言处理
一、JavaNLP的“三剑客”：框架与工具链1.1ApacheOpenNLP：传统NLP的“瑞士军刀”目标：用词袋模型实现文本分类与实体识别代码实战：文档分类器的“炼成术”//OpenNLP文档分类器（基于词袋模型）importopennlp.tools.doccat.*;importopennlp.tools.util.*;publicclassDocumentClassifier{//训练模型
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
数据安全审计平台的三大关键技术：日志分析、行为监测与智能告警 KKKlucifer 安全算法
在数字化浪潮中，数据安全审计是企业守护核心资产的“瞭望塔”。通过日志分析、行为监测、智能告警三大技术，数据安全审计平台构建起“全流程监控-异常识别-快速响应”的闭环，为数据安全筑牢防线。以下从技术原理、实践价值与行业应用展开解析。日志分析：数据安全的“DNA图谱”1.多源日志融合技术实现：通过Agent采集操作系统、数据库、网络设备等200+日志源，利用正则表达式、NLP技术解析非结构化日志（如“
【论文阅读笔记】TimesURL: Self-supervised Contrastive Learning for Universal Time Series 少写代码少看论文多多睡觉 #论文阅读笔记论文阅读笔记
TimesURL:Self-supervisedContrastiveLearningforUniversalTimeSeriesRepresentationLearning摘要学习适用于多种下游任务的通用时间序列表示，并指出这在实际应用中具有挑战性但也是有价值的。最近，研究人员尝试借鉴自监督对比学习（SSCL）在计算机视觉（CV）和自然语言处理（NLP）中的成功经验，以解决时间序列表示的问题。
NLP-D7-李宏毅机器学习---X-Attention&&GAN&BERT&GPT 甄小胖机器学习自然语言处理机器学习 bert
—0521今天4:30就起床了！真的是迫不及待想看新的课程！！！昨天做人脸识别系统的demo查资料的时候，发现一个北理的大四做cv的同学，差距好大！！！我也要努力呀！！不是比较，只是别人可以做到这个程度，我也一定可以！！！要向他学习！！！开始看课程啦！-----0753看完了各种attention，由于attention自己计算的限制，当N很大的时候会产生计算速度问题，从各种不同角度（人工知识输入
PyTorch 在 Python 自然语言处理中的运用 Python编程之道 Python编程之道 python pytorch 自然语言处理 ai
PyTorch在Python自然语言处理中的运用关键词：PyTorch，Python，自然语言处理，深度学习，文本分类，情感分析摘要：本文全面探讨了PyTorch在Python自然语言处理（NLP）领域的运用。首先介绍了相关背景知识，包括目的范围、预期读者等内容。接着详细阐述了核心概念，如词嵌入、循环神经网络等，并给出了相应的原理示意图和流程图。深入讲解了核心算法原理，结合Python代码进行详细
VIT视觉妄想成为master opencv 目标检测机器学习数据挖掘语音识别人工智能计算机视觉
VisionTransformer视觉和语言(Vision-Language)NLPrompt:Noise-LabelPromptLearningforVision-LanguageModelsPaper:https://arxiv.org/abs/2412.01256Code:GitHub-qunovo/NLPromptPhysVLM:EnablingVisualLanguageModelsto
RAG实战指南 Day 11：文本分块策略与最佳实践在未来等你 RAG实战指南 RAG 检索增强生成文本分块语义分割文档处理 NLP 人工智能
【RAG实战指南Day11】文本分块策略与最佳实践文章标签RAG,检索增强生成,文本分块,语义分割,文档处理,NLP,人工智能,大语言模型文章简述文本分块是RAG系统构建中的关键环节，直接影响检索准确率。本文深入解析5种主流分块技术：1)固定大小分块的实现与调优技巧；2)基于语义的递归分割算法；3)文档结构感知的分块策略；4)LLM增强的智能分块方法；5)多模态混合内容处理方案。通过电商知识库和科
中文大模型的技术债问题大鹏的NLP博客大模型 transformer 大模型
中文大模型的技术债问题摘要随着中文大语言模型（LargeLanguageModels,LLMs）在自然语言处理（NLP）领域的广泛应用，其研发和部署过程中积累的“技术债”（TechnicalDebt）问题日益突出。本文系统性地分析了中文大模型在数据采集、预训练、微调、评估与部署等生命周期各阶段产生的技术债类型，包括代码复杂性、数据隐患、训练流程依赖、工具链碎片化、模型解释性差、隐性资源耦合等问题，
AI 正在深度重构软件开发的底层逻辑和全生命周期，从技术演进、流程重构和未来趋势三个维度进行系统性分析
AI正在深度重构软件开发的底层逻辑和全生命周期，从需求分析到运维维护的每个环节都产生了范式级变革。以下从技术演进、流程重构和未来趋势三个维度进行系统性分析：一、AI重构软件开发全栈的技术图谱需求工程智能化NLP驱动的需求解析：GPT-4架构实现用户访谈转录自动转化为UML用例图，准确率达89%（微软2023内部数据）情感计算应用：基于BERT的意图识别模型可捕捉用户需求中的隐性情绪，需求变更预测准
新手向:中文语言识别的进化之路
自然语言处理（NLP）技术正在以前所未有的速度改变我们与机器的交互方式，而中文作为世界上使用人数最多的语言，其处理技术面临着独特的挑战与机遇。本文将全面剖析中文自然语言识别模型的发展历程、核心技术原理、当前应用现状以及未来发展趋势，带您深入了解这一改变人机交互方式的关键技术。一、中文NLP的特殊挑战：为什么中文处理如此困难？中文自然语言处理面临着一系列西方语言所不具备的特殊挑战，这些挑战直接影响了
深入详解 AI 与深度学习：从零开始掌握 BERT 模型架构拉不拉斯AICoding 技术探索人工智能深度学习 bert
深入详解AI与深度学习：从零开始掌握BERT模型架构引言在自然语言处理（NLP）领域，BERT（BidirectionalEncoderRepresentationsfromTransformers）是近年来最具影响力的模型之一。它通过双向上下文理解彻底改变了NLP任务的处理方式。本文将从基础概念到核心原理、应用场景和实践技巧，深入浅出地讲解BERT，帮助初学者快速掌握这一技术。一、BERT的核心
Transformer模型架构深度讲解
Transformer是一种在自然语言处理（NLP）和深度学习中非常重要的模型架构。它首次由Vaswani等人于2017年提出，主要应用于序列到序列的任务（如机器翻译、文本生成、摘要生成等）。Transformer模型与传统的RNN（循环神经网络）和LSTM（长短时记忆网络）不同，它不依赖于时间步的顺序处理，而是完全基于“注意力机制”进行计算，这使得它在训练速度、并行化能力和长期依赖问题的处理上具
AI人工智能浪潮中，GPT的技术优势凸显 AI学长带你学AI 人工智能 gpt ai
AI人工智能浪潮中，GPT的技术优势凸显关键词：人工智能、GPT、自然语言处理、深度学习、Transformer、大语言模型、技术优势摘要：本文深入探讨了在人工智能浪潮中GPT(GenerativePre-trainedTransformer)系列模型的技术优势。我们将从GPT的核心架构出发，分析其独特的技术特点，包括自注意力机制、预训练-微调范式、零样本学习能力等。通过与传统NLP方法的对比，揭
自然语言处理-基于预训练模型的方法-笔记
自然语言处理-基于预训练模型的方法-笔记【下载地址】自然语言处理-基于预训练模型的方法-笔记《自然语言处理-基于预训练模型的方法》由哈尔滨工业大学出版，深入探讨了NLP领域的前沿技术与预训练模型的应用。本书系统介绍了预训练模型的基本概念、发展历程及常见模型的原理，并通过丰富的实践案例与代码实现，帮助读者掌握这些技术在自然语言处理任务中的实际应用。无论是初学者、研发人员，还是希望提升NLP能力的研究
大语言模型应用指南：ReAct 框架 AI大模型应用实战 java python javascript kotlin golang 架构人工智能
大语言模型应用指南：ReAct框架关键词：大语言模型,ReAct框架,自然语言处理(NLP),模型融合,多模态学习,深度学习,深度学习框架1.背景介绍1.1问题由来近年来，深度学习技术在自然语言处理(NLP)领域取得了显著进展。尤其是大语言模型(LargeLanguageModels,LLMs)，如BERT、GPT系列等，通过在大规模无标签数据上进行预训练，获得了强大的语言理解和生成能力。然而，预
大语言模型原理基础与前沿基于语言反馈进行微调 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿基于语言反馈进行微调作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，自然语言处理（NLP）领域取得了显著的进展。大语言模型（LargeLanguageModels，LLMs）如GPT-3、BERT等在各项NLP任务上取得了令人瞩目的成绩。然而，如何进一步提高大语言模型的理
从新闻到知识图谱：用大模型和知识工程“八步成诗”打造科技并购大脑许泽宇的技术分享知识图谱科技人工智能
一句话摘要：本文带你用现代NLP和知识图谱技术，把科技公司并购新闻变成结构化的知识大脑，过程全景揭秘，理论与实战齐飞，代码只用伪代码，干货与段子齐发，助你成为AI知识工程老司机！前言：为什么要把新闻变成知识图谱？想象一下，你是个投资分析师，老板让你一周内梳理全球科技并购大事件，找出谁在买谁、花了多少钱、背后有哪些大佬、涉及哪些新技术……你会怎么做？A.手动Ctrl+F，Excel狂敲，熬夜爆肝？B
Longformer: The Long-Document Transformer（2020-4-10）不负韶华ღ 深度学习（NLP）transformer 深度学习人工智能
模型介绍目前基于Transformer的预训练模型在各项NLP任务纷纷取得更好的效果，这些成功的部分原因在于Self-Attention机制，它运行模型能够快速便捷地从整个文本序列中捕获重要信息。然而传统的Self-Attention机制的时空复杂度与文本的序列长度呈平方的关系，这在很大程度上限制了模型的输入不能太长，因此需要将过长的文档进行截断传入模型进行处理，例如BERT中能够接受的最大序列长
搜索架构中的NLP技术：提升搜索准确性的关键搜索引擎技术架构自然语言处理人工智能 ai
搜索架构中的NLP技术：提升搜索准确性的关键关键词：搜索架构、NLP技术、查询理解、语义搜索、相关性排序、意图识别、BERT模型摘要：本文将深入探讨现代搜索架构中NLP技术的核心应用，从查询理解到结果排序的全流程，揭示NLP如何提升搜索准确性。我们将通过生动的比喻解释复杂概念，分析关键技术原理，并提供实际代码示例，帮助读者全面理解搜索系统背后的NLP魔法。背景介绍目的和范围本文旨在解析NLP技术在
探索AI人工智能医疗NLP实体识别系统的架构设计 AI学长带你学AI 人工智能自然语言处理 easyui ai
探索AI人工智能医疗NLP实体识别系统的架构设计关键词：人工智能、医疗NLP、实体识别、系统架构、深度学习、自然语言处理、医疗信息化摘要：本文将深入探讨医疗领域NLP实体识别系统的架构设计。我们将从基础概念出发，逐步解析医疗文本处理的特殊性，详细介绍实体识别技术的核心原理，并通过实际案例展示如何构建一个高效可靠的医疗实体识别系统。文章还将探讨当前技术面临的挑战和未来发展方向，为医疗AI领域的从业者
RNN案例人名分类器（完整步骤） AI扶我青云志 rnn 人工智能深度学习 nlp lstm gru
今天给大家分享一个NLP（自然语言处理）中的一个小案例，本案例讲解了RNN、LSTM、GRU模型是如何使用并进行预测的，一、案例架构人名分类器的实现可分为以下五个步骤:第一步:导入必备的工具包第二步:对data文件中的数据进行处理，满足训练要求第三步:构建RNN模型(包括传统RNN,LSTM以及GRU)第四步:构建训练函数并进行训练五步第:构建评估函数并进行预测二、实现步骤1.导包#导入torch
【论文笔记】RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation AustinCyy 论文笔记论文阅读
论文信息论文标题：RAGLAB:AModularandResearch-OrientedUnifiedFrameworkforRetrieval-AugmentedGeneration-EMNLP24论文作者：XuanwangZhang-NanjingUniversity论文链接：https://arxiv.org/abs/2408.11381代码链接：https://github.com/fat
happy-llm 第一章 NLP 基础概念 weixin_38374194 自然语言处理人工智能学习
文章目录一、什么是NLP？二、NLP发展三大阶段三、NLP核心任务精要四、文本表示演进史1.传统方法：统计表征2.神经网络：语义向量化课程地址：happy-llmNLP基础概念一、什么是NLP？核心目标：让计算机理解、生成、处理人类语言，实现人机自然交互。现状与挑战：成就：深度学习推动文本分类、翻译等任务达到近人类水平。瓶颈：歧义性、隐喻理解、跨文化差异等。二、NLP发展三大阶段时期代表技术核心思
【AI】大语言模型（LLM）& NLP G皮T #大语言模型 LLM NLP 大模型大语言模型 AI 人工智能
大语言模型（LLM）&NLP1.大语言模型（LLM）1.1一句话解释1.2更形象的比喻1.3为什么叫“大”模型1.4它能做什么1.5现实中的例子2.对比NLP2.1用“汽车进化”比喻NLP→LLM2.2为什么说LLM属于NLP2.3LLM的“革命性突破”在哪里2.4总结1.大语言模型（LLM）1.1一句话解释大语言模型（LargeLanguageModel，LLM）是一个“超级文字预测器”，它通过
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地