zipper112

BERT原理&Fine Tuning&Bert变种

文章目录

- BERT原理
- - 训练时的任务
  - - 任务一
    - 任务二
    - - 任务二的改进
  - 模型的输入
- BERT - Fine Tuning
- - 单个句子的预测类
  - 序列标注类
  - Q&A类
  - seq2seq？
- BERT 变种
- - Transformer-XL
  - XLNet
  - - Autoregressive Language Model
    - Denoising Auto-Encoder
    - 乱序
    - Two-Stream Attention
    - 与Transformer-XL结合
  - ALBert

BERT原理

BERT全称为Bidirectional Encoder Representation from Transformer，从名字可以知道，BERT是Transformer的Encoder部分。BERT的最大的改进是在模型的训练核数据的输入部分。

BERT是一个动态词向量模型，其主要功能就是抽取每个词在句子中的语义信息，并且表示出来。

训练时的任务

BERT在训练时，采用的多任务的方式，这样可以期待模型在多多种任务的情况下学到更好的抽取语义特征的能力。

任务一

在处理数据时，会有15%的概率把一些句子给替换成别的，然后要求模型对被替换的部分进行预测和还原，例如：

今天天气很好 -> 今天气很好

模型需要预测被MASK的部分究竟是什么。其操作很简单，只需要把MASK的位置拿出来，通过一个线性层变换到voc_size的维度，在进行预测就可以了。

由于微调时，不存在MASK的情况，所以可能会出现不一致的情况发生。例如模型认为句子中会经常出现一个叫MASK的token，但实际在下游任务中可能不会出现（看你做的啥任务）。

为了使模型能更好的应用于下游任务，所以对MASK的机制在进行改进：

这样就可以使模型不会学到一些奇怪的信息了。

任务二

除了单个句子，我们还期望模型能够对多个句子进行处理。例如比较两个句子是否有关等。此时我们就需要在预训练时加入多个句子处理的任务。

BERT加入的任务是句子的下一个句子预测:

今天天气真好。
我要出旅游。

这两个句子，明显第二个句子很可能是第一个句子的下一个句子，所以输出1。
BERT会对这两个句子进行处理，把其变成以下的格式：

[CLS] 今天天气真好。[SEP] 我要出旅游。 [SEP]

CLS是BERT用于分类句子的标记，如果需要对整个句子进行分类，则只需要把CLS的输出部分进行处理即可。而SEP则是用于分割句子的，用SEP来分开句子和句子之间。

这两我们就把两个句子表示成了一个句子，然后我们可以通过CLS的输出来进行判断两句是否有上下文关系。

任务二的改进

任务二在后续的很多论文中被证实对BERT的性能提升没啥太大帮助。其原因很可能是太简单了，所以有人对任务二进行了改进。

BERT不再要求判断两个句子是否是下一个关系。
而是要求判断两个句子的顺序是否正确。举例来说就是把两个相邻的句子随机打乱，让模型预测这两个句子顺序是否正确。
这显然比判断两个句子是否相邻要困难。从而逼迫模型学习到更多的有用特征。

模型的输入

回忆一下Transformer的输入部分，一共有两个Embedding。

一个是Position Embedding，一个是Word Embedding。而BERT又加入了一个Segment Embedding。

这是为了进一步的区分两个句子，举个例子：

可以看到第一个句子的部分（包括其结尾的Sep）都被表示成了EA，而第二个句子被表示成了EB。
最后三个EMbedding通过相加来融合信息。也就是说Segment Embedding的大小和d_model的大小一致，并且只有两个状态，0和1。0代表第一个句子，1代表第二个。

BERT - Fine Tuning

BERT的Fine Tuning有两种方式：
一种是固定住BERT不变，只训练一个分类器。此时BERT单纯只作为一种特征抽取器。这种方式得到的结果一般比较差，但训练速度比较快。
另一种是让BERT和分类器一块训练，得到一个结果，这种的效果一边比较好，但耗费的计算资源比较大。

BERT的微调，也就是Fine Tuning，所需要的训练数据仍然是比较大的，可能要上2k的大小。
所以对于很少的数据，例如只有几百，几十的数据量，Fine Tuning可能达到不了很好的效果。

单个句子的预测类

如果需要对句子分类，比如评价某个句子是正面的还是负面的，只需要取出CLS层进行分类即可。

如上图所所示，我们默认CLS输出的信息代表了整个句子的信息，对它通过一个线性层变换后进行分类，就可以得到最终的类别。

序列标注类

同样的道理，如果要做序列标注，我们只需要利用除了CLS，SEP之外的输出即可。我们这些输出进过一个线性层变换即可得到结果。

Q&A类

对于Q&A的问题，我们输入的是两个句子，一个是文章，一个是提问。
我们的答案在文章之中，也就说是文章(document)的某句话（这是一个有限制的Q&A问题）
此时我们可以有如下策略：

对于文章的每个输出，都与两个向量做点乘
文章的每个输出对Start向量做点乘，取最高的那个结果的位置作为答案的起点a
文章的每个输出对End向量做点乘，取最高的那个结果的位置作为答案的终点b
最后的答案就是document[a: b]

换而言之，就是我们需要学习得出答案在文章的起点和终点。而计算起点和终点需要依靠两个可以学习的向量Start和End

如上图所示，蓝色的end向量与每个document的输出做点乘，然后把结果扔给softmax，取最高的那个作为答案的终点。

seq2seq？

seq2seq任务对BERT来说是无法直接解决的，因为seq2seq任务有Encoder和Decoder。而BERT只含有Encoder。
所以无法直接解决这个问题，但也有人使用了一些方法让BERT能够解决这些问题，这里暂时先不写。

虽然BERT不能直接的为我们做seq2seq，但我们仍可以把其当做为Encoder的特征提取器，期待着他能够在Encode时提取更多的特征。

下面的代码，我作出了一些相关的尝试

BERT 变种

Transformer-XL

先来说一个Transformer的进阶版本，Transformer-XL。再来说后面的XLNet

普通Transformer的缺陷：
Transformer虽然没有长度限制，但一般的Transformer的上下文捕捉能力也是有有限的。
而且对于太长的句子，Transformer的计算难度会变的非常大，比如Bert中一般限制输入句子最长长度为512，再长可能效果就不好了。

此时我们一般的做法是截断，分别进行推理，然后再融合。这种做法固然可以解决文本过长的问题，但仍然难以避免在截断处的上下文语义缺失。

Transformer-XL就是为了解决这个问题而提出了，Transformer-XL又重新加入了类似于RNN的循环机制，不过是在Transformer原本的架构基础上改进的。

假设我们的Transformer每次都只计算的句子的某个固定长度区间，除此之外，还会像RNN一样看一下前面的序列的计算结果。

如上图所示，大括号的部分是本次要计算的一段序列，而阴影部分是我们上一次计算的序列。我们大致的计算思路如下：

灰色部分的每一层输出的值 $h_{t-1}$ 都保留
计算当前new segment时，前一层的 $h$ 也参与运算，不过只生成k，v，但不生成q。
new segment生成的q对所有的k做运算（包括灰色部分的），然后在作用于所有的v，最后生成本层的输出。
重复上面步骤

这样我们就计算出了new segment的输出，也就是说new segment的部分会对前面已经输出的元素的输出层做自注意力运算。
注意，前面已经输出的部分（灰色的部分）不会在计算梯度。

这样我们就可以像RNN一样的来循环的计算了。
如果每次我们选取的子句的长度为S，Transformer有N个层，那么我们每次最多可以捕捉到的上下文长度为 $N * S$ 。如图所示：

第一层，只能看到前S个长度
第二层，可以看到上一层的前S个长度，但由于上一层看到了再上一层的前S个长度，于是第二层我们可以看到2S的长度，以此类推。

除此之外，还有一个问题，如果每次我们只计算一个区间，就会出现一个问题。那就是原本的位置编码会变的失效。
我们先来看原来Transformer的注意力是怎么算的：
首先，每个token都有两个embedding，一个是位置一个是词向量，分别记为 $U, E$ 。假设Q和K的矩阵分别为 $W_q,W_k$ 。那么 $x_i,x_j$ 之间的注意力运算就是 $W_q(U_{x_i}+E_{x_i}))^TW_k(U_{x_j}+E_{x_j})$ 展开后得到：

Transformer-XL对上述的位置编码做了改变，首先把 $U_{j}$ 变成了 $R_{i-j}$ ，这个 $R_{i-j}$ 是一种相对位置编码，是不可学的。
然后为了更好地辅助学习到相对位置关系，Transformer-XL把 $c, d$ 中的 $U_i^TW_q^T$ 分别替换成了 $u^T$ 和 $v^T$ ，这两个参数是可以学习的。

XLNet

首先先来讲一下自回归语言模型。
先来回忆一下语言模型最初始的定义，给定一个句子S，求出S出现的可能性的大小 $P (S)$ 。由于S可以由多个token组成，于是就变成了计算 $P(w_1,w_2,...w_n)$ 出现的概率。
我们再由乘法公式对其进行拆解，得到计算 $P(w_1)P(w_2|w_1)P(w_3|w_1w_2)...P(w_n|w_1w_2...w_{n-1})$
于是我们建模语言模型，一般就是要根据前面的若干个词，来预测下一个词。

Autoregressive Language Model

上述的根于一个词预测下一个词的语言模型我们称之为自回归语言模型。
例如ngram，ELMo，GPT都是这一类的语言模型。他们通常具有强大的生成能力，因为他们是对整个句子进行建模的。
但是他们也有缺陷，那就是只能看到上文而不能看到下文。虽然ELMo可以看到下文，但是当句子过长时，就难以处理，比如中间的信息可能会被遗忘。

Denoising Auto-Encoder

类似BERT这种模型，我们称之为去噪自编码器（也有人称之为Mask Language Model，也就是MLM）。
这种模型通过做完形填空的方式来预测缺失部分的词汇，从而学习上下文的信息。
但是，这样做有一个致命的缺陷，那就是无法获取Mask和Mask之间的信息。也就是它假设每个Mask之间是相互独立的。

比如有一个句子是：“我喜欢吃梨，因为它水很多”。
我们进行随机的Mask，就可能会得到：“我喜欢吃[Mask]，因为它[Mask]很多。”

这样进行预测可能会效果并不好。因为前后两个Mask是有关系的，如果都Mask掉就难以预测。那么，我们能不能想GPT一样按照自回归的方式挨个的对他们进行预测呢？

乱序

XLNet基于上述的想法，然后对句子序列进行的乱序。其具体的思想如下：
如果我们要计算 $P (S)$ ，那没有必要我们非得从 $x_1$ 开始。具体的我们可以这么做分解

按照乘法公式，我们最后计算出来也是 $P (S)$ ，这样我们就相当于是先把序列打乱，然后再按照自回归的方式进行训练。
这样我们预测某一词，其前面的词可能是其上下文的词。例如 $P(x_2|x_1x_3x_4)$ 我们即看到了 $x_2$ 的上文信息，也看到了下文信息。这就解决了自回归语言模型的不足。
又由于我们是逐个进行预测的，所以又不会出现Mask之间没有注意到的情况。

那么，乱序之后会不会导致语义混乱呢？这不用担心，因为虽然顺序打乱，但是位置编码还是原序的编码，所以每个词的原本位置信息仍然是保留的了。

看似这种模型没有问题了，但是其实还存在一个很大的问题，我们看下面这两种状况：
假设有个句子 $S=(w_1,w_2,w_3,w_4)$
乱序两次之后分别得到:
$S=(w_2,w_1,w_3,w_4)和S=(w_2,w_1,w_4,w_3)$
现在问题就出现了，如果我们要预测第三个数，在知道 $w_2,w_1$ 的情况下，我们是预测到 $w_3$ 还是 $w_4$ ?
此时我们在同样的输入的情况下，可能得到不同的输出，这就导致模型性能可能变差。

于是为了解决这个问题，作者提出了双流注意力机制，这个机制就是为了解决上述的问题的。

作者把一个句子的输入和每层的计算都变成了两个部分，一个是 $h$ 称之为内容表示，一个是 $g$ 称之为查询表示。

Two-Stream Attention

然后双流注意力机制的机理如下：

其中 $h^{(0)}$ 是word embedding，而 $g^{(0)}$ 是一个可学习的参数。
每一次预测某个token，我们都会计算两个向量，一个是 $h$ 一个是 $g$
其中h的计算如上图所示：
首先被预测的位置的h会参加Q的计算，而剩余的部分计算K和V（这里被预测的位置也参加了）
然后是g的计算：
g的计算里我们可以看到，被预测的位置没有参加K和V的计算，这是为了防止泄露这个token的信息。

就按照这种方式我们不断地计算下去，最后把g的部分作为最终的输出

与Transformer-XL结合

XLNet加入了Transformer-XL的循环机制，使得模型能够处理更长的句子。

总结：

XLNet没有引入新的额外参数
XLNet在推理时不需要额外的计算
XLNet在训练时需要一些额外的计算量
XLNet融合了MLM和ALM的特点

ALBert

AlBert本身的创新点并不多，只对Bert做出了一些小的改进，其最重要作用是通过共享参数降低了模型的大小。

ALBert抛弃了NSP任务，不在判断两个句子是否相邻，而是给两个相邻的句子让其判断两者顺序是否正确。后续许多实验证明原本Bert的NSP任务作用不大
ALBert对Embedding做了因式分解，把原本 $V \times E$ 变成了 $V \times K + K \times E$ 。假设V是100，E是10，K是5。100*10=1000 > 100 * 5 + 5 * 10=550。从而降低了要学习的参数个数。
ALBert对模型的参数进行了共享，其具体有如下共享策略

可以看到，在共享Attention的参数时，其模型参数量减少，同时精度变化不大。需要注意的是，ALBert并没有减少计算量。

DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法你觉得205 人工智能机器学习大数据 ai 知识图谱 python 运维
导读INTRODUCTION今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek技术前沿与应用”的报告。本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务，本身也蕴含大量知识，如地理信息、语义理解和推理能力。随着技术的发展，尤其是trans
机器学习knnlearn1 XW-ABAP 机器学习机器学习人工智能
importmatplotlib.pyplotaspltimportnumpyasnpimportoperator#定义一个函数用于创建数据集defcreateDataSet():#定义特征矩阵，每个元素是一个二维坐标点，代表不同策略数据点的坐标group=np.array([[20,3],[15,5],[18,1],[5,17],[2,15],[3,20]])#定义每个数据点对应的标签，用于区分
基于 MySQL 和 Spring Boot 的在线论坛管理系统设计与实现城南|阿洋-计算机从小白到大神 mysql spring boot 数据库
markdownCopy✌全网粉丝20W+,csdn特邀作者、博客专家、CSDN[新星计划]导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、pyhton、机器学习技术领域和毕业项目实战✌哈喽兄弟们，好久不见哦～最近整理了一下之前写过的一些小项目/毕业设计。发现还是有很多存货的，想一想既然放在电脑里面也吃灰，那么还不如分享出去，没准还可以帮助到
零基础入门机器学习：用Scikit-learn实现鸢尾花分类藍海琴泉机器学习 scikit-learn 分类
适合人群：机器学习新手|数据分析爱好者|需快速展示案例的学生一、引言：为什么要学这个案例？目的：明确机器学习解决什么问题，建立学习信心。机器学习定义：让计算机从数据中自动学习规律（如分类鸢尾花品种）。为什么选鸢尾花数据集：数据量小、特征明确，适合教学演示。Scikit-learn优势：提供现成算法和工具，无需从头写数学公式。二、环境准备：5分钟快速上手目的：搭建可运行的代码环境，避免卡在工具安装环
机器学习--DBSCAN聚类算法详解 2201_75491841 机器学习算法聚类人工智能
目录引言1.什么是DBSCAN聚类？2.DBSCAN聚类算法的原理3.DBSCAN算法的核心概念3.1邻域（Neighborhood）3.2核心点（CorePoint）3.3直接密度可达（DirectlyDensity-Reachable）3.4密度可达（Density-Reachable）3.5密度相连（Density-Connected）4.DBSCAN算法的步骤5.DBSCAN算法的优缺点5
【机器学习】机器学习工程实战-第3章数据收集和准备腊肉芥末果机器学习工程实战机器学习人工智能
上一章：第2章项目开始前文章目录3.1关于数据的问题3.1.1数据是否可获得3.1.2数据是否相当大3.1.3数据是否可用3.1.4数据是否可理解3.1.5数据是否可靠3.2数据的常见问题3.2.1高成本3.2.2质量差3.2.3噪声（noise）3.2.4偏差（bias）3.2.5预测能力低（lowpredictivepower）3.2.6过时的样本3.2.7离群值3.2.8数据泄露/目标泄漏3
机器学习实战第一章机器学习基础 LuoY、 Machine Learning 机器学习算法人工智能
第一章机器学习1.1何谓机器学习1.2关键术语1.3机器学习的主要任务1.4如何选择合适的算法1.5开发机器学习应用程序的步骤1.6Python语言的优势1.1何谓机器学习 1、简单地说，机器学习就是把无序的数据转换成有用的信息； 2、机器学习能让我们自数据集中受启发，我们会利用计算机来彰显数据背后的真实含义； 3、机器学习横跨计算机科学、工程技术和统计学等多个学科，需要多学科的
数据挖掘实战-基于机器学习的垃圾邮件检测模型艾派森数据挖掘实战合集数据挖掘机器学习人工智能 python
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍
集成学习（随机森林） herry57 数学建模大数据随机森林集成学习
目录一、集成学习概念二、Bagging集成原理三、随机森林四、例子（商品分类）一、集成学习概念集成学习通过建⽴⼏个模型来解决单⼀预测问题。它的⼯作原理是⽣成多个分类器/模型，各⾃独⽴地学习和作出预测。这些预测最后结合成组合预测，因此优于任何⼀个单分类的做出预测。只要单分类器的表现不太差，集成学习的结果总是要好于单分类器的二、Bagging集成原理分类圆形和长方形三、随机森林在机器学习中，随机森林是
【机器学习】朴素贝叶斯入门：从零到垃圾邮件过滤实战吴师兄大模型 0基础实现机器学习入门到精通机器学习人工智能朴素贝叶斯深度学习 pytorch sklearn 开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
【机器学习】机器学习工程实战-第2章项目开始前腊肉芥末果机器学习工程实战机器学习人工智能
上一章：第1章概述文章目录2.1机器学习项目的优先级排序2.1.1机器学习的影响2.1.2机器学习的成本2.2估计机器学习项目的复杂度2.2.1未知因素2.2.2简化问题2.2.3非线性进展2.3确定机器学习项目的目标2.3.1模型能做什么2.3.2成功模型的属性2.4构建机器学习团队2.4.1两种文化2.4.2机器学习团队的成员2.5机器学习项目为何失败2.5.1缺乏有经验的人才2.5.2缺乏领
机器学习怎么做特征工程全栈你个大西瓜人工智能机器学习人工智能特征工程数据预处理特征变换特征降维特征构造
一、特征工程通俗解释特征工程就像厨师做菜前的食材处理：原始数据是“生肉和蔬菜”，特征工程是“切块、腌制、调料搭配”，目的是让机器学习模型（食客）更容易消化吸收，做出更好预测（品尝美味）。二、为什么要做特征工程？数据质量差：原始数据常有缺失、噪声、不一致问题（如年龄列混入“未知”）。模型限制：算法无法直接理解原始数据（如文本、日期需要数值化）。提升效果：好特征能显著提升模型性能（准确率提升10%~5
【机器学习】机器学习四大分类藓类少女机器学习机器学习分类人工智能
机器学习的方法主要可以分为四大类，根据学习方式和数据标注情况进行分类：1.监督学习（SupervisedLearning）特点：有标注数据（即训练数据有明确的输入(X)和输出(Y)）。学习目标是找到一个映射(f(X)\approxY)。适用于分类和回归问题。主要算法：分类（Classification）：逻辑回归（LogisticRegression）支持向量机（SVM）朴素贝叶斯（NaïveBa
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
机器学习——KNN超参数练习AI两年半机器学习人工智能深度学习
sklearn.model_selection.GridSearchCV是scikit-learn中用于超参数调优的核心工具，通过结合交叉验证和网格搜索实现模型参数的自动化优化。以下是详细介绍：一、功能概述GridSearchCV在指定参数网格上穷举所有可能的超参数组合，通过交叉验证评估每组参数的性能，最终选择最优参数组合。其核心价值在于：自动化调参：替代手动参数调试，提升效率3。交叉验证支持：通
大模型Agent 和 RAG 的关系大数据追光猿大模型语言模型人工智能学习方法 transformer
Agent和RAG（Retrieval-AugmentedGeneration）是两种在自然语言处理（NLP）和人工智能领域中广泛使用的技术，它们在功能、目标和实现方式上既有区别又有联系。以下是它们的关系及其协同作用的详细分析。1.Agent和RAG的定义（1）Agent定义：Agent是一种智能体，能够感知环境并采取行动以完成特定任务。在NLP领域，Agent通常指一个基于大语言模型（LLM）的
AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
重要重要！！fisher矩阵是怎么计算和更新的，以及计算过程中参数的物理含义 ZhangJiQun&MXP 教学 2021 论文 2024大模型以及算力矩阵概率论线性代数 windows 微信机器学习
fisher矩阵是怎么计算和更新的，以及计算过程中参数的物理含义Fisher信息矩阵（FisherInformationMatrix,FIM）用于衡量模型参数估计的不确定性，其计算和更新在统计学、机器学习和优化中具有重要作用。以下是其计算和更新的关键步骤：一、Fisher矩阵的计算定义Fisher矩阵的元素表示对数似然函数关于参数的二阶导数的期望值的负数，即：Fi,j=−
AI大模型训练教程 Small踢倒coffee_氕氘氚 python自学经验分享笔记
1.引言随着人工智能技术的快速发展，大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。训练一个大模型需要大量的计算资源、数据和专业知识。本教程将带你了解如何从零开始训练一个AI大模型。2.准备工作2.1硬件要求GPU：推荐使用NVIDIA的高性能GPU，如A100、V100等。内存：至少64GBRAM。存储：SSD存储，至少1TB。#2.2软件环境操作系统：Lin
使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
深度学习 Deep Learning 第8章深度学习优化 odoo中国 AI编程人工智能深度学习人工智能优化
深度学习第8章深度学习的优化章节概述本章深入探讨了深度学习中的优化技术，旨在解决模型训练过程中面临的各种挑战。优化是深度学习的核心环节，直接关系到模型的训练效率和最终性能。本章首先介绍了优化在深度学习中的特殊性，然后详细讨论了多种优化算法，包括随机梯度下降（SGD）、动量法、Nesterov动量法、AdaGrad、RMSProp和Adam等。此外，还探讨了参数初始化策略、自适应学习率方法以及二阶优
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
景联文科技：以高质量数据标注推动人工智能领域创新与发展景联文科技科技人工智能数据标注
在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。数据标注过程涉及对原始数据进行加工，通过标注特定对象的特征来生成能够被机器学习模型识别和使用的编码格式，从而使数据更具有意义和可解读性。数据标注的主要类型包括：图像标注：指在图片中标识出目标物体的位置、形状或类别等信息，如自动驾驶技术中的行人、车辆及交通标志的识别。文本
端到端的NLP框架（Haystack） deepdata_cn NLP 自然语言处理人工智能
Haystack是一个端到端的NLP框架，专门用于构建基于文档的问答系统，是实现RAG的理想选择。它提供了数据预处理、文档存储、检索和生成等一系列组件，支持多种语言模型和检索器。提供可视化界面，方便用户进行配置和调试；支持多模态数据，可处理文本、图像等多种类型的数据；具有可扩展性，可根据需求添加自定义组件。2020年在自然语言处理技术快速发展，对高效、易用且灵活的端到端NLP框架需求日益增长的背景
客服机器人怎么才能精准的回答用户问题？玩人工智能的辣条哥 AI面试机器人客服机器人
环境：客服机器人问题描述：客服机器人怎么才能精准的回答用户问题？解决方案：客服机器人要精准回答用户问题，需综合技术、数据和用户体验等多方面因素。以下是关键策略和步骤：1.精准理解用户意图自然语言处理（NLP）技术分词与实体识别：提取关键词（如“订单号”“退货”）和实体（如时间、地点）。意图分类：通过机器学习模型（如BERT、Transformer）将问题归类（如“售后”“支付”）。上下文理解记录对
深度学习篇---对角矩阵&矩阵的秩&奇异矩阵 Ronin-Lotus 程序代码篇深度学习篇深度学习矩阵人工智能线性代数
文章目录前言一、对角矩阵（DiagonalMatrix）1.1定义1.2特性行列式运算简化1.3应用领域深度学习信号处理量子力学经济学二、矩阵的秩（RankofaMatrix）2.1定义2.2特性满秩降秩影响2.3应用领域深度学习图像压缩推荐系统控制理论三、奇异矩阵（SingularMatrix）3.1定义3.2特性秩不足行列式为零3.3应用领域深度学习正则化损失函数结构工程统计学数值计算四、跨领
DeepSeek、Grok 与 ChatGPT 三巨头：技术架构与应用场景的全方位解析云策量化 Deepseek chatgpt deepseek grok
前言在当今人工智能领域，DeepSeek、Grok和ChatGPT作为语言模型的三巨头，各自凭借独特的技术架构和广泛的应用场景，在自然语言处理领域占据着重要地位。本文将对这三款模型的技术架构和应用场景进行全方位解析，以期为读者提供深入的了解和有价值的参考。一、技术架构（一）DeepSeekDeepSeek是由DeepSeek团队开发的一款大型语言模型，其技术架构基于深度学习中的Transforme
OpenCV 4.2.0与扩展模块安装与应用指南土城三富
本文还有配套的精品资源，点击获取简介：OpenCV4.2.0是一个先进的计算机视觉库，包含了图像处理、计算机视觉和机器学习算法。本压缩包包含OpenCV核心库和扩展模块（opencv_contrib），版本均为4.2.0。该版本引入了性能增强、API优化以及对深度学习框架和硬件加速技术的更新支持。扩展模块提供了额外的实验性算法和功能，有助于研究和开发新算法。指南详细介绍了如何安装和配置这些库，并提
OpenCV ML 模块使用指南 ice_junjun OpenCV opencv 人工智能计算机视觉
一、模块概述OpenCV的ML模块提供了丰富的机器学习算法，可用于解决各种计算机视觉和数据分析问题。本指南将详细介绍该模块中主要的机器学习算法，包括支持向量机（SVM）、K均值聚类（K-Means）和神经网络（ANN），并结合图像分类和聚类分析这两个典型应用场景进行代码实现与解释。二、主要函数及类详解（一）支持向量机（SVM）：cv.ml.SVM_create()功能支持向量机（SVM）是一种强大
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt