NLP --- > The Illustrated Transformer (翻译)

文章目录

preface
A High-level Look
Bring the Tensors into the Picture
Encoding
- Self-Attention at a High Level
- Self-Attention in Detail
- The Beast With Many Heads
- Representing The Order of The Sequence Using Positional Encoding
- residuals
The Decoder Side
Final Linear and softmax layer
- The Loss Function
Go Forth And Transform

本文是一篇非常好的transformer的翻译，此处为原文链接。

preface

我们知道，attention目前已经深度学习中一种普通的方法。在这篇文章中，我们将介绍Transformer，一种在使用attention时能够加速训练的模型，不仅如此，在一些任务上，它的效果还要比 Google Neural Machine Translation model出色，下面我们拆分详细分析下这个模型。

The Transformer是2017年由Google的一篇问题Attention is all you need 提出, 其中此处是tensorflow的实现，其作为Tensor2Tensor的一个子模块，pytorch的一个由Harvard’s NLP groups的实现这里。

A High-level Look

当我们做机器翻译的时候，即如下图，存在若干encoders 和decoders

其中encoders和decoders均由几个相同的encoder或decoder层堆叠组成，这些encoder的结构完全相同，只是其参数不同。

每个encoder可分解为两层，其输入分别经过self-attention—该层能够获取输入的各词两两之间的相关信息，具体后面分析，然后经过一个普通的前馈神经网络，每个输入位置对应的网络是独立互不干扰的。

每个decoder同样具有与encoder相同的两层，但其在两层直接又夹了一attention 层，能够帮助decoder集中于输入句子的相关部分（其作用于seq2seq model中的attention相似）

Bring the Tensors into the Picture

从上面我们大致看出翻译的基本机构，下面我们具体从更细的张量角度来看整个流程是怎么运作的。最开始，我们通过embedding algorithm将输入的词转化为向量，即：

Encoding

对于最底层的encoder, 其输入的是一个句子中所有词向量的list, 如果我们的训练集句子长度不一，我们以句子的最大长度作为list 的容量，其他较短的句子中进行padding（填充）以达到相同的长度，这样对于每个句子，其输入的维度都将保持一致。对于list中每个词的向量，其维度我们事先进行训练设置的参数保持一致。
对于其他层的encoder，其输入为上一层encoder的输出，每层的输入输出的张量维度信息都保持一致。

NLP --- > The Illustrated Transformer (翻译)_第5张图片

Self-Attention at a High Level

当我们想将下面的句子翻译时：

”The animal didn't cross the street because it was too tired”

单词‘it’指的是什么？是街道还是动物？对于人类很简单，对于算法并不容易理解；
这里模型处理方式是，对于一个输入句子的每个词，self-attention允许它“看”该句子的所有的其他词，通过这种方式，能够“理解”该句子中其他相关的词。具体可视化关联性，可参考Tensor2Tensor notebook

NLP --- > The Illustrated Transformer (翻译)_第6张图片

Self-Attention in Detail

下面我们具体看一下一个词怎么和其他词进行联系，具体的过程是什么样的。

第一步：首先创建三个矩阵 $W^Q， W^K，W^V$ ，其维度为512*64（512为词向量维度，64为attention维度），然后对每一次词，将创建的矩阵与词向量相乘得到对应的Query Vector， Key Vector和Value Vector。
第二步：对于每个词，计算一个分数。比如这个例子中，对于第一个词“Thinking”,我们需要分别计算句子中每个词（包括它自己）与该词的关联性分值，如图所示：
第三步：将上述得到的分值再除以一个共同的值 $\sqrt{d_k}$ ，这里为8，其目的在于有更稳定的梯度，也其他为其他数值。
第四步：计算上述值的softmax值，当然，在原位的分值最高，但有时候也能找到其他更相关的词。
第五步：将softmax的值与values值求积
第六步：将上述得到的值相加，为这个新生成一个向量。

我们然后将为该词新生成的向量传给下一层进行计算。

上述过程可以用矩阵成绩来完成：
如第一步，直接使用一个句子所有词相乘，其中矩阵X中每一行代码输入句子的一个词：

NLP --- > The Illustrated Transformer (翻译)_第11张图片

剩下步骤：如图所示，直接得到句子中每个词新向量的表达：

The Beast With Many Heads

论文中进一步优化self-attention，通过多头（“multi-headed”）机制，它通过两种方式提升attention layer的表现。

它扩展了模型聚焦不同位置的能力，在上面的例子中，Z包含了每一个其他位置的信息，但是它也可能被它自己主导；但我们想知道“The animal didn’t cross the street because it was too tired””中“it”代表的含义时，多头能提供更多的信息，更可能聚集到正确的位置。
它给attention layer多个表示"子空间"，这种机制使得我们有多套Query/Key/Value 权重矩阵，在使用时每一套被随机初始化，训练后，每一套都能用户将输入向量转化为一个不同的表示子空间。

如果像上述提到的计算方式，当我们使用 8个heads时，将会得到8个不同的Z矩阵。

NLP --- > The Illustrated Transformer (翻译)_第14张图片

此时有些问题，就是下一层的输入要求的是一个矩阵，而我们现在有8个，因此我们需要将其压缩为一个。怎样做呢，如下图所示：

首先将所得到的z矩阵拼接在一起
将拼接好的矩阵乘以一个权重矩阵 $W^0$
将结果作为encoder层的最终输出层进入下一层。

NLP --- > The Illustrated Transformer (翻译)_第15张图片

小结

在整个过程中有很多矩阵，让我们在一起看整个流程

经过“multi-head”学习后，让我们重新修正上述中的例子，看句子中“it”表示的含义

NLP --- > The Illustrated Transformer (翻译)_第17张图片

看一看出其中一个head聚集在“tired”上，一个聚集在“the animal”上。某种意义上，在这个模型中，“it”含有同时含有“animal”和“tired”的表示。然而，当我们把所有的head加上后，结果有点难以解释：

NLP --- > The Illustrated Transformer (翻译)_第18张图片

Representing The Order of The Sequence Using Positional Encoding

在上述模型中，还有词的顺序信息没有被利用，被模型丢弃，为了解决上述方法，the transform对于每个词增加了一个位置向量，这个向量能够通过学习表征到一些特定的模式，帮助决定每个词的位置，或者不同词之间的距离。

NLP --- > The Illustrated Transformer (翻译)_第19张图片

如果向量的维度是4，那个真实的位置向量看起来是这样的：

那么特定的模式是什么样子呢：
在下面图中，每一行代表一个位置编码，其中共有20个词，每个词的词向量维度为512。为什么看起来是中间分裂的，是因为左半部是由于sine函数产生，右半部分由cose函数产生，他们然后拼接形成每个词的位置编码。

NLP --- > The Illustrated Transformer (翻译)_第21张图片

位置编码的具体公式见原论文，虽然它并不是仅有的位置编码方式，但也能够对未知长度的序列进行编码，比如当我们进行翻译比我们训练集更长的句子时。

residuals

值得注意的是，在每一个encoder层，都有一个残差连接，然后接一个lay-normalization层：

NLP --- > The Illustrated Transformer (翻译)_第22张图片

具体来看，即是

该残差结构同样对decoder有效，当我们考虑到两层的encoders和decoders时，结果如下：

The Decoder Side

通过对encoder部分的分析，我们已了解大部分概念，下面详细了解decoder层是如何工作的。首先值得encoder层初始的输入为句子中词的向量；顶层的encoder输出为一套attention 向量 K和V；它能够被每一个decoder的encoder-decoder attention 层来使用，以帮助decoder集中在输入句子中合适的位置，如图所示：

decoder部分中每一步的输出用于底层decoder层的输入，正如encoder所做的，decoder中我们也将位置向量作为输入来表示每个词的位置，如图所示

在解码器中的self attention 层与编码器中的稍有不同，在解码器中，self-attention 层仅仅允许关注早于当前输出的位置。在softmax之前，通过遮挡未来位置（将它们设置为-inf）来实现。

"Encoder-Decoder Attention "层工作方式跟multi-headed self-attention是一样的，除了它从前层获取输出转成query矩阵，接收最后encoder层的key和value矩阵做key和value矩阵作为相应矩阵。

Final Linear and softmax layer

最后decoder层输入一个浮点型的向量，怎么把它转成一个词呢，这就是最后线性层和softmax层的作用。
线性层是一个简单的全连接层，通过将decorders的输出投射到一个更加大的向量，称为“logits vector”，其大小和词汇保持一致，然后通过softmax输出一个概率分值，并选择概率最高的作为下一个词。

The Loss Function

当我们进行训练的时候，需要表征预测的词和真实词的差异，怎么比较这两概率分布呢，我们简单地将两个分布相减。也可参考交叉熵和KL散度的计算。

NLP --- > The Illustrated Transformer (翻译)_第25张图片

上述仅考虑一个词，当我们对一个句子进行训练时，比如
输入：“je suis étudiant”
输出： “i am a student”

此时我们的目标输出为：

在一个大的训练集上训练足够多的次数后，我们希望模型输出的结果：

现在，因为模型每步只产生一组输出，假设模型选择最高概率的，去除其他的部分，这种产生的预测结果的方法，称为greedy解码。
另一种是每一步保留头部高概率的两个输出，根据这两个输出在预测下一步，再保留头部高概率的两个输出，重复直到结束，即beam-search，该过程只在预测阶段需要。

Go Forth And Transform

如果想了解更深，下面是一些步骤：

阅读Attention Is All You Need 原文，the transform 博客，以及Tensor2Tensor announcement。
查看Łukasz Kaiser’s talk 模型以及它的细节
play with Jupyter Notebook provided as part of the Tensor2Tensor repo
explore the Tensor2Tensor repo

后续工作：

Depthwise Separable Convolutions for Neural Machine Translation
One Model To Learn Them All
Discrete Autoencoders for Sequence Models
Generating Wikipedia by Summarizing Long Sequences
Image Transformer
Training Tips for the Transformer Model
Self-Attention with Relative Position Representations
Fast Decoding in Sequence Models using Discrete Latent Variables
Adafactor: Adaptive Learning Rates with Sublinear Memory Cost

你可能感兴趣的:(nlp,nlp)

2021-02-07 NLP心理实操作线上课 day7（16讲、17讲）海洋7606
#前提假设（上）（下）【学习内容】：第十六讲：前提假设（上）1、前提假设A.对人的前提假设【看人】：（1）没有两个人是一样的（2）沟通的效果取决于对方的回应【每当做出一个沟通需要向对方做出一个核对】（3）一个人不能改变另外一个人（4）每一个人都选择给自己最佳利益的行为(5）每人都已经具备使自己成功快乐的资源和能力（6）动机和情绪总不会错，只是行为没有效果而已第十七讲：前提假设（下）B.对事的前提假
自然语言处理概念以及发展黑夜照亮前行的路自然语言处理
自然语言概念总结自然语言处理（NaturalLanguageProcessing，简称NLP）是计算机科学领域与人工智能领域的一个重要方向，它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理旨在帮助计算机理解和处理自然语言，使计算机能够像人类一样处理和生成语言。从概念上讲，自然语言处理融合了语言学、计算机科学和数学等多学科的知识。它并不仅仅是一般地研究自然语言，而是侧重
读《重塑心灵》，悟个人与企业系统关系猫咪06
系统动力派NLP的创始人李中莹先生在他的《重塑心灵》中写到：一个人生于宇宙之间，不可能脱离其它人事物的影响，也不可能完全不影响其他人，因此只有充分尊重这种系统性才能摆正自己的位置，达到天人合一，内外和谐的境界，理解事物，如果越能从系统的整体平衡的角度出发，站在系统的高度理解事物，他就越能照顾全局，越能更好地解决问题，NLP12条前提假设中的“凡事照顾了三赢，不会有后遗症”也是系统的观念。在任何一个
自然语言处理（NLP）技术的概念及优势刘小董学习心得自然语言处理
自然语言处理（NLP）是人工智能领域的一个重要分支，其目标是使计算机能够理解、处理和生成人类自然语言的形式和含义。NLP技术的优势包括：实现人机交互：NLP技术可以使计算机与人类之间实现自然的语言交互，使人们可以通过语音识别、语义理解等方式与计算机进行交流。大规模文本处理：NLP技术可以对大规模文本进行自动化处理和分析，提取关键信息和知识，从而实现文本分类、情感分析、信息检索等任务。自动化翻译：N
今日无更新我的昵称违规了
学校的一个会忙得昏天黑地。明天有自己的一个发表，还要准备PPT，根据原来的改改就好……这周真的是有点繁杂了，搞定之后连着四五月份要写两篇论文，再加上五月底的课程论文还有紧接着的文献综述，看样子要疯……现在梳理一下自己手里的锤子：转到Pytorch，使用AllenNLP了解Transformer、了解LSTM了解jieba等分词工具了解Gensim等NLP处理工具接下来要做的：基于AllenNLP搞
大型语言模型RAG（检索增强生成）：检索技术的应用与挑战 in_tsz 语言模型人工智能自然语言处理
摘要检索增强生成（RAG）系统通过结合传统的语言模型生成能力和结构化数据检索，为复杂的问题提供精确的答案。本文深入探讨了RAG系统中检索技术的工作原理、实现方式以及面临的挑战，并对未来的发展方向提出了展望。随着大型预训练语言模型（LLMs）如GPT-3和BERT的出现，自然语言处理（NLP）领域取得了显著进展。然而，这些模型在处理知识密集型任务时仍存在局限性，特别是在需要最新或特定领域知识的情况下
(done) NLP “bag-of-words“ 方法（带有二元分类和多元分类两个例子）词袋模型、BoW shimly123456 NLP 相关杂谈自然语言处理 c#人工智能
一个视频：https://www.bilibili.com/video/BV1mb4y1y7EB/?spm_id_from=333.337.search-card.all.click&vd_source=7a1a0bc74158c6993c7355c5490fc600这里有个视频，讲解得更加生动形象一些总得来说，词袋模型(Bow,bag-of-words)是最简单的“文本—>矢量”(把文本转为矢量
NLP技术小天才dhsb 网络其他
自然语言处理（NLP）技术可以应用在多个领域，例如机器翻译、情感分析、文本分类等。以下是几个例子：1.机器翻译：NLP技术可以将一种语言的文本自动翻译成另一种语言。例如，谷歌翻译就是应用了NLP技术，它可以将英语的文本翻译成其他语言，如法语、西班牙语等。2.情感分析：NLP技术可以分析文本中的情感倾向。例如，通过分析社交媒体上用户的评论和推文，可以判断用户对某个产品或事件的情感态度是正面的、负面的
小白看得懂的 Transformer zy_zeros python 开发语言
1.导语谷歌推出的BERT模型在11项NLP任务中夺得SOTA结果，引爆了整个NLP界。而BERT取得成功的一个关键因素是Transformer的强大作用。谷歌的Transformer模型最早是用于机器翻译任务，当时达到了SOTA效果。Transformer改进了RNN最被人诟病的训练慢的缺点，利用self-attention机制实现快速并行。并且Transformer可以增加到非常深的深度，充分
【AI视野·今日NLP 自然语言处理论文速览第八十二期】Tue, 5 Mar 2024 hitrjj LLM NLP Papers 人工智能自然语言处理 NLP 预训练模型文本摘要情绪识别推理训练
AI视野·今日CS.NLP自然语言处理论文速览Tue,5Mar2024(showingfirst100of175entries)Totally100papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersKey-Point-DrivenDataSynthesiswithitsEnhancementonMathematicalReasoningAut
每日荐书：《语言的魔力》在育儿的旅途中，建议一定要学习的一本书！殷老师认知心理教育说
每日荐书：《语言的魔力》在育儿的旅途中，建议一定要学习的一本书！本书作者：罗伯特•迪尔茨，NLP（神经语言程式学）大师，被公认为现今对NLP贡献最多的人。整理和开发了系统NLP、理解层次、重塑印记法、矛盾整合等许多著名的心理学技巧。NLP权威罗伯特•迪尔茨说：改变语言模式，就能转变信念，转变信念就能转变心情！作为实战心理学经典，本书讲解了很多技巧去破除限制性的语言框架，比如换框法、顺序法、替代法、
计算机设计大赛深度学习的智能中文对话问答机器人 iuerfee python
文章目录0简介1项目架构2项目的主要过程2.1数据清洗、预处理2.2分桶2.3训练3项目的整体结构4重要的API4.1LSTMcells部分：4.2损失函数：4.3搭建seq2seq框架：4.4测试部分：4.5评价NLP测试效果：4.6梯度截断，防止梯度爆炸4.7模型保存5重点和难点5.1函数5.2变量6相关参数7桶机制7.1处理数据集7.2词向量处理seq2seq7.3处理问答及答案权重7.4训
ChatGPT介绍程序媛9688 gpt
ChatGPT概述ChatGPT是一种前沿的大型语言模型（LargeLanguageModel,LLM），由人工智能研究组织OpenAI研发并推出。它基于Transformer架构，这是一种在自然语言处理（NLP）领域取得突破的深度学习方法。通过在海量的互联网文本数据上进行预训练，ChatGPT获得了强大的语言理解和生成能力。语言理解能力ChatGPT能够理解和分析复杂的自然语言文本。无论是用户提
基于ERNIR3.0文本分类的开发实践 wangqiaowq 人工智能
参考：基于ERNIR3.0文本分类：(KUAKE-QIC)意图识别多分类(单标签)-飞桨AIStudio星河社区(baidu.com)https://zhuanlan.zhihu.com/p/574666812?utm_id=0遇到的问题：如下采用paddleNLP下文本分类实例进行分类训练后发现生成的模型分类不准。打算自己开发脚本进行分类计算再进行服务化部署。基于ERNIR3.0文本分类任务模型
Python中的自然语言处理和文本挖掘 api77 电商api api python 自然语言处理 easyui 开发语言网络前端 java
在Python中，自然语言处理（NLP）和文本挖掘通常涉及对文本数据进行清洗、转换、分析和提取有用信息的过程。Python有许多库和工具可以帮助我们完成这些任务，其中最常用的包括nltk（自然语言处理工具包）、spaCy、gensim、textblob和scikit-learn等。以下是一个简单的例子，展示了如何使用Python和nltk库进行基本的自然语言处理和文本挖掘。安装必要的库首先，确保你
Transformer结构介绍和Pyotrch代码实现肆十二 Pytorch语法 transformer 深度学习人工智能
Transformer结构介绍和Pyotrch代码实现关注B站查看更多手把手教学：肆十二-的个人空间-肆十二-个人主页-哔哩哔哩视频(bilibili.com)基本结构介绍Transformer结构是近年来自然语言处理（NLP）领域的重要突破，它完全基于注意力机制（AttentionMechanism）来实现，克服了传统RNN模型无法并行计算以及容易丢失长距离依赖信息的问题。Transformer
【探索AI】四：AI（人工智能）自然语言处理（NLP）美少女战士1@ 学习笔记 AI 人工智能自然语言处理
自然语言处理（NLP）的概念自然语言处理（NaturalLanguageProcessing，NLP）是一门交叉学科，涉及人工智能、计算机科学和语言学等领域，旨在让计算机能够理解、分析、生成和处理人类语言。NLP技术致力于使计算机能够与人类以自然语言进行交流，从而实现更加智能、便捷的人机交互。在自然语言处理中，常见的任务包括但不限于：文本分类：将文本按照预定义的类别进行分类，如垃圾邮件分类、新闻分
NLP关键词提取:TF/IDF、TextRank、LSI和LDA分析 Chelseady NLP 机器学习
一.原理部分1.TF/IDF原理https://blog.csdn.net/asialee_bird/article/details/814867002.TextRank原理https://blog.csdn.net/qq_41664845/article/details/828695963.LSI原理https://blog.csdn.net/qq_16633405/article/detail
闵月的感恩日记Day147 邓闵月
我是闵月，左手养娃，右手赚钱的副业变现教练，美好的一天以感恩结束。1、感恩薛老师的国际NLP认证课程。两天的国际nlp教练认证课程结束了，又多了一个证书……我最大的收获就是意识到每个人一生中都需要一个教练教练，其实不需要懂被教练者的专业，只需要用有技巧的方式去提问，让被教练者自己去回答问题每一次上课学到了多少方法不是最重要的，而是最重要的这次课程有没有在你的人生当中留下痕迹。2、感恩和娟芝同睡一屋
掌握Python编程与ChatGPT的强强联手：开启人工智能助手新时代快乐非自愿 python chatgpt 人工智能
本文将介绍如何利用Python编程语言和ChatGPT技术实现强强联手，以打造功能强大的人工智能助手。我们将探讨Python编程在ChatGPT应用中的重要性，并展示如何利用Python与ChatGPT共同构建一个智能对话系统。最后，我们将探讨如何将这一技术应用于实际场景，为用户提供高效、实用的解决方案。随着人工智能技术的不断发展，自然语言处理（NLP）已经成为当今科技领域的热点。在众多NLP技术
DeepMind Q&A Dataset-那些著名的数据集 readilen
2015年Hermann等创立的两个非常棒的用于问答研究的数据集，分别包含90k和197k个文档，，每个文档平均有4个问题。每个问题都是一个带有一个缺失单词/短语的句子，可以从随附的文档/上下文中找到。原作者热心地发布了脚本和附带的文档来生成数据集,但是并不太好用。纽约大学整理了数据集。我们又在该数据集基础上利用斯坦福nlp实验的分词工具进一步加工。CNNQuestions:hereStories
合槽位填充技术的问答系统构建步骤及其所需的技术和工具 Komorebi_9999 知识图谱问答系统自然语言处理
下面是结合槽位填充技术的问答系统构建步骤及其所需的技术和工具：1.知识图谱构建技术/工具：Neo4j或ArangoDB（图数据库）RDF2Neo（将RDF数据导入Neo4j的工具）D2RQ（将关系型数据库转化为SPARQL端点）模型算法：资源描述框架（RDF）Web本体语言（OWL）2.自然语言处理（NLP）技术/工具：spaCy（用于文本处理、词性标注、命名实体识别等）NLTK或HuggingF
【无标题】 Komorebi_9999 知识图谱问答系统自然语言处理
要构建一个基于知识图谱的问答系统，你需要进行以下工作：知识图谱构建：数据采集：从各种来源（如公开数据库、API、网页等）收集与你的领域相关的数据。数据清洗和预处理：清洗数据，去除重复、错误或不相关的信息，对数据进行归一化、标准化处理。实体识别和关系抽取：从数据中识别出实体（如人、地点、概念等）和它们之间的关系。构建图谱：将实体和关系组织成图谱结构，通常使用图数据库来存储。自然语言处理（NLP）：分
openai chatGPT 原理通俗介绍后端java
引言近年来，随着深度学习技术的不断发展，自然语言处理（NLP）领域取得了长足的进步。ChatGPT（GenerativePre-trainedTransformer）作为一种先进的语言生成模型，在各类对话系统和智能助手中得到了广泛应用。然而，尽管这些模型在生成文本方面表现出色，但如何保证生成的文本在逻辑上合理仍然是一个挑战。本文将探讨在ChatGPT中如何实现逻辑，并探讨自然语言中逻辑的理解方式。
Python爬虫程序媛幂幂 python 爬虫开发语言
Python爬虫（WebScraping）在各个领域有着广泛的应用。通过自动化地从网站上抓取和解析数据，人们能够收集信息、进行数据分析、创建内容聚合、监控价格变动等。以下是一些Python爬虫的典型应用：数据分析和研究：抓取社交媒体上的用户数据，用于分析用户行为、趋势和舆论。从新闻网站或博客收集文章，用于内容分析、自然语言处理（NLP）或情感分析。抓取金融数据，如股票价格、货币汇率或经济指标，用于
Vis-TOP：视觉Transformer叠加处理器离欢论文 Transformer 人工智能机器学习 transformer 深度学习计算机视觉
摘要近年来，Transformer[23]在自然语言处理(NLP)领域取得了良好的效果，并开始向计算机视觉(CV)领域拓展。优秀的型号如VisionTransformer[5]和SwinTransformer[17]已经出现。同时，Transformer模型平台扩展到嵌入式设备，以满足一些对资源敏感的应用场景。但是，由于Transformer模型参数多、计算流程复杂、结构变体繁多，在硬件设计中存在
2021-02-03 NLP心理实操作线上课 day3（5讲）海洋7606
#人生三件事【学习内容】：第三讲：人生三件事一、人生三件事1、自己的事：对自己的人生负责任，自己的事情全力以赴，不把自己人生的钥匙交给他人。【例如：你要对我好。】自己事情自己做，但我们往往自己的事情却交给别人去做。一个人永远控制不了另外一个人，哪怕是以爱的名义，无论是男女之爱，父母与孩子之间的爱，我们都是无法控制的。我们不能代替孩子做决定，无论你有多爱他。只要有控制就会有失落，我们要把对别人的期待
《激发无限潜能》 29ec8587af65
通过正确的提问，便可轻松的是交流走向正轨，NLP比较倾向于以下几种目标提问:1我想怎么做呢？2我的目标是什么？3我到底是为了什么呢？4我该为自做些什么呢?这不是问题，框架吗？即选择怎样形式的问题代替因何为何形式的问题为何形式的问题得到的答案解释判断理由，但往往不包含有效的信息
shell脚本 curl 和 wget访问注册自启脚本定时任务开过光的猫 Linux linux 运维
curl检测项目是否启动脚本#!/bin/sh#获取中间件进程ID/opt/AAS/domainsAASService=$(netstat-nlp|grep16602|awk'{print$7}'|awk-F"/"'{print$1}')#中间件启动程序(中间件需要注意这里注意中间件实际安装的路径)StartAAS=/opt/AAS/domains/服务名/bin/startapusic#定义要监
60分钟吃掉ChatGLM2-6b微调范例~ 算法美食屋
干货预警：这可能是你能够找到的最容易懂的，最完整的，适用于各种NLP任务的开源LLM的finetune教程~ChatGLM2-6b是清华开源的小尺寸LLM，只需要一块普通的显卡(32G较稳妥)即可推理和微调，是目前社区非常活跃的一个开源LLM。本范例使用非常简单的，外卖评论数据集来实施微调，让ChatGLM2-6b来对一段外卖评论区分是好评还是差评。可以发现，经过微调后的模型，相比直接3-shot
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他