HAH-M

NLP算法岗面试知识点总结

1.梯度下降做线性回归求解；参数优化；参数都初始化为0时有啥问题；逻辑回归和线性回归的本质区别

参数都初始化为0的问题
w初始化全为0，使得在反向传播的过程中所有参数结点可能变得相同，进而很可能直接导致模型失效，无法收敛。因此应该把参数初始化为随机值。

逻辑回归和线性回归的本质区别

逻辑回归引入了sigmoid函数，这是一个非线性函数，增加了模型的表达能力
逻辑回归输出有限离散值，可以用来解决概率问题、分类问题等。
两者使用的成本函数不同，线性回归使用的平方差，逻辑回归使用的是对数损失函数（更本质来讲，线性回归使用最小二乘方法、或梯度下降方法进行成本函数的求解，而逻辑回归使用最大似然方法进行求解）

2.损失函数有哪些；多分类下softmax的损失函数；softmax交叉熵反向推到公式

2.1 损失函数有哪些

平方损失(预测)
交叉熵（分类问题）
hinge损失（SVM支持向量机）
CART回归树的残差损失

2.2 多分类下的softmax损失函数

$\sum{_{i}^{N}}\sum{_{k=1}^{C}}y^{(ik)}log(\hat{y}^{(ik)})$

2.3 softmax交叉熵反向推导公式

3.self-attention的公式；self-attention的作用；Attntion的作用；

self-attention的作用
自注意力（self-attention）层，这层帮助编码器在对每个单词编码时关注输入句子的其他单词。

4.梯度消失、梯度爆炸的原因和解决方案

4.1 梯度消失和梯度爆炸的原因

反向传播算法中要对激活函数进行求导，如果此部分大于1，那么神经网络层数增多的时候，最终的求出的梯度更新将以指数形式增加，即发生梯度爆炸，如果此部分小于1，那么随着神经网络层数增多，求出的梯度更新信息将会以指数形式衰减，即发生了梯度消失。梯度消失也和激活函数的选择有很大关系，如果激活函数选择不合适，在进行链式求导的时候其结果小于1，就非常容易发生梯度消失。

4.2 梯度消失和梯度爆炸的解决方案

预训练加微调
加入正则化
梯度修剪
选择合适的激活函数，relu、leakrelu、elu等激活函数
batchnorm

Batchnorm本质上是解决反向传播过程中的梯度问题。batchnorm全名是batch normalization，简称BN，即批规范化，通过规范化操作将输出信号x规范化保证网络的稳定性。
LSTM

LSTM全称是长短期记忆网络（long-short term memory networks），是不那么容易发生梯度消失的，主要原因在于LSTM内部复杂的“门”(gates)，如下图，LSTM通过它内部的“门”可以接下来更新的时候“记住”前几次训练的”残留记忆“，因此，经常用于生成文本中。

5.Word2vec，BERT，ELMo详细介绍；BERT微调；BERT如何使用transformer的encoding模块；BERT的输入和transformer有什么不同；BERT有什么缺点；transformer中attention和self-attention机制；BERT为什么只用Transformer的Encoder而不用Decoder；

一些关于BERT的问题整理记录
一些关于Transformer问题整理记录
一些关于ELMo问题整理记录

5.1 解读Transformer, 一篇文章解决

http://blog.itpub.net/31562039/viewspace-2375080/

5.2 解读BERT

上图中的Trm就对应Transformer结构中左侧的Transformer Block。其中的$T_{1}, T_{2},…, T_{N}对应的就是由BERT得到的词向量。

5.3 BERT的微调策略

预训练的长本文，因为Bert的最长文本序列是512
层数选择，每一层都会捕获不同的信息，因此我们需要选择最适合的层数
过拟合问题，因此需要考虑合适的学习率。Bert的底层会学习到更多的通用的信息，文中对Bert的不同层使用了不同的学习率。每一层的参数迭代可以如下所示：

$\theta_{t}^{l}=\theta_{t}^{l-1}-$

5.4 BERT如何使用transformer的encoding模块

5.5 BERT的输入和transformer有什么不同
与Transformer本身的Encoder端相比，BERT的Transformer Encoder端输入的向量表示，多了Segment Embeddings。

5.5.1 BERT的输入是包括三部分

wordpiece-token向量
位置向量：512个。训练
段向量：sentence A B两个向量。训练
一些符号：
- CLS：special classification embedding，用于分类的向量，会聚集所有的分类信息
- SEP：输入是QA或2个句子时，需添加SEP标记以示区别
- $E_{A}$ 和 $E_{B}$ ：输入是QA或2个句子时，标记的sentence向量。如只有一个句子，则是sentence A向量

5.5.2 Transformer的输入

Transformer的输入涉及到两个部分既word embedding 和position embedding。没有段向量以CLS和SEP标识符。

5.6 BERT的缺点

模型参数太多，而且模型太大，少量数据训练时，容易过拟合。
BERT在第一个预训练阶段，假设句子中多个单词被Mask掉，这些被Mask掉的单词之间没有任何关系，是条件独立的，然而有时候这些单词之间是有关系的。
BERT的在预训练时会出现特殊的[MASK]，但是它在下游的fine-tune中不会出现，这就出现了预训练阶段和fine-tune阶段不一致的问题。
另外还有一个缺点，是BERT在分词后做[MASK]会产生的一个问题，为了解决OOV的问题，我们通常会把一个词切分成更细粒度的WordPiece。

6.为什么使用交叉熵，不用平方差；手写交叉熵公式；手推Softmax交叉熵损失函数;

6.1 为什么使用交叉熵而不用平方差

在激活函数是sigmoid之类的函数的时候，用平方损失的话会导致误差比较小的时候梯度很小，这样就没法继续训练了，这时使用交叉熵损失就可以避免这种衰退

6.2 交叉熵公式(二分类)

单个样本的损失函数

$\hat{y} = P(y=1|x)$

$1-\hat{y} = P(y=0|x)$

从极大似然情况组合以上两个公式

$P(y|x)=\hat{y}^y \cdot (1-\hat{y})^{1-y}$

$log(\hat{y}^y \cdot (1-\hat{y})^{1-y}) = y log\hat{y} + (1-y) log(1-\hat{y})$

所有样本的损失函数

我们期望 $l o g (P (y ∣ x))$ 越大越好，所以既有下列损失函数，使得 $L$ 越小越好。

$L=\sum{-[y^{(i)} log\hat{y}^{(i)} + (1-y^{(i)}) log(1-\hat{y}^{(i)})]}$ （二分类的交叉熵损失函数）

$-\sum{_{i}^{N}\sum_{c=1}^{M}}y^{(i)}log(\hat{y}^{(i)})$ (多分类的交叉熵损失函数)

其他文章对交叉熵函数的一些解释

6.3 手推Softmax交叉熵损失函数

https://zhuanlan.zhihu.com/p/60042105

7.降维（PCA）的原理以及涉及的公式；

8.Bagging和Boosting的区别；XGBoot，LGB 和 GBDT的区别；LSTM各类门结构；GBDT和RF (随机森林) 的区别；

8.1 Bagging 和 Boosting的区别

Bagging和Boosting的简单了解

8.1.1 Bagging

Bagging 的核心思路是——民主。
Bagging 的思路是所有基础模型都一致对待，每个基础模型手里都只有一票。然后使用民主投票的方式得到最终的结果。

具体的过程：

从原始样本集中使用Bootstraping 方法随机抽取n个训练样本，共进行k轮抽取，得到k个训练集（k个训练集之间相互独立，元素可以有重复）。
对于k个训练集，我们训练k个模型，（这个模型可根据具体的情况而定，可以是决策树，knn等）
对于分类问题：由投票表决产生的分类结果；对于回归问题，由k个模型预测结果的均值作为最后预测的结果（所有模型的重要性相同）。

8.1.2 Boosting

Boosting 的核心思路是——挑选精英。
Boosting 和 bagging 最本质的差别在于他对基础模型不是一致对待的，而是经过不停的考验和筛选来挑选出「精英」，然后给精英更多的投票权，表现不好的基础模型则给较少的投票权，然后综合所有人的投票得到最终结果。

具体过程：

通过加法模型将基础模型进行线性的组合。
每一轮训练都提升那些错误率小的基础模型权重，同时减小错误率高的模型权重。
在每一轮改变训练数据的权值或概率分布，通过提高那些在前一轮被弱分类器分错样例的权值，减小前一轮分对样例的权值，来使得分类器对误分的数据有较好的效果。

8.1.3 Bagging 和 Boosting 的 4 点差别

样本选择上：

Bagging：训练集是在原始集中有放回选取的，从原始集中选出的各轮训练集之间是独立的。
Boosting：每一轮的训练集不变，只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。

样例权重：

Bagging：使用均匀取样，每个样例的权重相等
Boosting：根据错误率不断调整样例的权值，错误率越大则权重越大。

预测函数：

Bagging：所有预测函数的权重相等。
Boosting：每个弱分类器都有相应的权重，对于分类误差小的分类器会有更大的权重。

并行计算：

Bagging：各个预测函数可以并行生成
Boosting：各个预测函数只能顺序生成，因为后一个模型参数需要前一轮模型的结果。

8.2 XGBoot，LGB 和 GBDT的区别

9.SGD 和 min-SGD的区别

随机梯度下降 (SGD)：相对于梯度下降，可以看到多了随机两个字，随机也就是说我每次用样本中的一个例子来近似我所有的样本，用这一个例子来计算梯度并用这个梯度来更新 $\theta$ 。因为每次只用了一个样本因而容易陷入到局部最优解中。
批量随机梯度下降 (mini-SGD)：他用了一些小样本来近似全部的，其本质就是1个样本的近似不一定准，那就用更大的30个或50个样本来近似。将样本分成m个mini-batch，每个mini-batch包含n个样本；在每个mini-batch里计算每个样本的梯度，然后在这个mini-batch里求和取平均作为最终的梯度来更新参数；然后再用下一个mini-batch来计算梯度，如此循环下去直到m个mini-batch操作完就称为一个epoch结束。

10.CRF, HMM的细节

CRF和HMM并不是多么明白。
利用中文分词实例讲解HMM

http://yanyiwu.com/work/2014/04/07/hmm-segment-xiangjie.html

两者的区别

HMM是生成模型，CRF是判别模型
HMM是概率有向图，CRF是概率无向图
HMM求解过程可能是局部最优，CRF可以全局最优
CRF概率归一化较合理，HMM则会导致label bias 问题

11.优化器系统的讲一下

12.L1 L2正则化；

L1正则化指的是权值向量 $w$ 中各个元素的绝对值之和，通常表示为 $w||_{1}$
L2正则化指的是权值向量 $w$ 中各个元素的平方和然后再求平方根，通常表示为 $w||_{2}$
L1正则化可以产生稀疏权值矩阵，即产生一个稀疏模型，可以用于特征选择
L2正则化可以防止模型过拟合（overfitting）；一定程度上，L1也可以防止过拟合

13.SVM了解吗？有什么优点？优化方法？

14.什么是过拟合？产生的原因？如何解决？

产生原因：模型太复杂；训练数据不够；
解决方案：数据集扩增；加入正则；添加dropout；提前停止；batchnomalization；

15.精确率 § / 召回率 ® / F1值

16.反向传播算法的意义是什么？

17.各种优化算法

一文看懂各种神经网络优化算法：从梯度下降到Adam方法

18. K-Means算法流程

从数据集中随机选择K个聚类样本作为初始的聚类中心，然后计算数据集中每个样本到这K个聚类中心的距离，并将此样本分到距离最小的聚类中心所对应的类中。将所有样本归类后，对于每个类别重新计算每个类别的聚类中心既每个类中所有样本的质心，重复以上操作直到聚类中心不变为止。

RNN;LSTM;GRU;结构以及计算公式

深度学习 (一)

这里主要对牛客网的面经中不熟悉的点再手敲一遍，加深记忆。

1.Batchnormallization的作用
由于神经网络层数的加深，在反向传播时底层的神经网络可能发生梯度消失的问题，BatchNormalization的作用就是规范化输入，把不规范的分布拉到正态分布，使得数据能够分布在激活函数的敏感区域。进而可以使得梯度变大，加快学习的收敛速度，避免梯度消失的问题。
2.梯度消失
3.循环神经网络，为什么好
4.什么是Group Convolutional
若卷积神经网络的上一层有N个卷积核，则对应的通道数也为N。设群体数目为M，在进行卷积操作的时候，那么该群卷积层的操作就是，先将channel分成M份。每一个group对应N/M个channel，与之独立连接。然后各个group卷积完成后将输出叠在一起（concatenate），作为这一层的输出channel。
5.什么是RNN
6.训练过程中，如果一个模型不收敛，那么是否说明这个模型无效？导致模型不收敛的原因有哪些？
不能说明模型无效；导致不收敛的原因可能是数据分类的标注不准确，样本信息量太大导致模型不足以fit整个样本空间。学习率设置太大容易产生震荡，太小容易不收敛。数据没有进行归一化操作等
7.为什么用2个3*3的卷积核而不是5*5
因为两者有相同的感受野，但是前者的参数更少
8.ReLU比Sigmoid好在哪里
Sigmoid只在0的附近时有比较好的激活性，而在正负饱和区的梯度趋近于0，从而产生梯度消失问题；而relu在大于0的部分梯度为常数，所以不会有梯度消失。ReLU的导数计算更快。ReLu在负半导数区为0，所以神经元激活值为负时，梯度为0，此神经元不参与训练，具有稀疏性。
9.权值共享问题
10.激活函数
relu，sigmoid，tanh
11.在深度学习中，通常会finetuning已有的成熟模型，再基于新数据，修改最后几层神经网络权值，为什么？
实践中的数据集质量参差不齐，可以使用训练好的网络来进行特征提取。把训练好的网络当作特征提取器。

12.Attention的作用

减小处理高维输入数据的计算负担，通过结构化的选取输入的子集，降低数据维度。
“去伪存真”，让任务处理系统更专注于找到输入数据中显著的与当前输出相关的有用信息，从而提高输出的质量。

13.LSTM

14.LSTM和GRU的原理
15.什么是dropout
在神经网络的计算过程中，对于神经单元按照一定的概率将其随机从网络中丢弃，从而达到对于每个mini-batch都是在训练不同的网络的效果，防止过拟合。

深度学习 (二)

16.优化器Adam
Adam算法和传统的SGD不同。SGD保持单一的学习率更新所有权重，学习率在训练过程中不会改变。而Adam通过计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应学习率。
17.RNN梯度消失问题，为什么LSTM和GRU可以解决此问题
RNN由于网络比较深，后面层的输出误差很难影响到前面层的计算，RNN的某一单元主要受他附近单元的影响。而LSTM可以通过阀门记忆一些长期的信息，相应的保留了更多的梯度。而GRU也可以通过重置和更新两个阀门保留长期的记忆，进而相对解决梯度消失的问题。
18.1*1卷积的作用

实现跨通道的交互和信息整合
实现卷积核通道的降维和升维
可以实现多个feature map的线性组合而且可以实现与全连接等价的效果
19.如何提升模型泛化能力
数据：搜集更多数据；对数据做一些变化
算法：更好的权重初始化方式；调整学习率；调节batch和epoach的大小；添加正则；尝试其他优化器；使用early stopping。

20. RNN和LSTM的区别
21.如何防止过拟合

扩增数据集
加入dropout
加入正则
batchnomaliztaion
early stopping

22. 为什么需要神经元稀疏
更好的挖掘相关特征，拟合数据。而由于ReLU激活函数可以实现一半激活一半抑制，因而可以能够更好的实现神经元的稀疏。

深度学习 (三)

LSTM的正向推导和反向推导过程

二面

1.手写svm，

2.手写LR，

3.手推前向传播。

4.xgb详细讲解。

5.knn，k-mean。

6.旋转数组：用额外内存和不用。

7.判断是不是后续遍历中序二叉树。

8.python内存管理，内存池最大？

9.python可变不可变数据结构。

10 python lamba与def 定义函数的区别

三面：

1.redis和mongodb与mysql。。真不会。

2.加快搜索速度方法。

3.计算相似度方法。

4.bert微调。

5.研究生最大收获。

6.研究生与本科生区别。

问面试官的问题：

7有啥问题：1.你们干啥的，2.你看起来为啥像95后，不应该是总监么。3.多久能收到反馈。

AI 外呼产品架构解读：让智能外呼更精准高效 MARS_AI_ 人工智能架构自然语言处理信息与通信
在人工智能（AI）技术迅猛发展的今天，AI外呼系统已成为呼叫中心领域的新宠。本文将剖析AI外呼产品的基本架构，帮助读者理解其背后的技术逻辑和应用价值。一、支撑能力层：AI外呼的基石AI外呼系统的底层架构，即支撑能力层，为整个系统提供了坚实的技术基础。这一层主要包括以下三个核心组成部分：1.AI基础能力AI基础能力涵盖了语音识别（ASR）、自然语言处理（NLP）和语音合成（TTS）等技术。这些技术使
详解DeepSeek模型底层原理及和ChatGPT区别点瞬间动力语言模型机器学习 AI编程云计算阿里云
一、DeepSeek大模型原理架构基础DeepSeek基于Transformer架构，Transformer架构主要由编码器和解码器组成，在自然语言处理任务中，通常使用的是Transformer的解码器部分。它的核心是自注意力机制（Self-Attention），这个机制允许模型在处理输入序列时，关注序列中不同位置的信息。例如，在处理句子“Thecatchasedthemouse”时，自注意力机制
国内外优秀AI外呼产品推荐 MARS_AI_ 人工智能自然语言处理 sass nlp 信息与通信
在数字化转型浪潮中，AI外呼系统凭借其高效率、低成本、精准交互的特点，成为企业客户触达与服务的核心工具。本文基于行业实践与技术测评，推荐国内外表现突出的AI外呼产品，重点解析国内标杆企业云蝠智能，并对比其他代表性产品，助企业快速选型。一、云蝠智能：大模型驱动的“性价比之王”作为国内AI外呼领域的领军者，云蝠智能以神鹤AI对话大模型为核心技术，深度融合自然语言处理（NLP）、语音识别（ASR）与语音
spaCy 入门：自然语言处理的高效工具 zru_9602 人工智能自然语言处理人工智能
spaCy入门：自然语言处理的高效工具引言spaCy是一个功能强大的开源Python库，专注于工业级的自然语言处理（NLP）。它以其高效的性能、简洁的API和对多种语言的支持而闻名。无论是进行文本分析、信息提取还是构建智能聊天机器人，spaCy都是一个不可或缺的工具。本文将从零开始，介绍spaCy的基本功能和使用方法，并通过示例代码帮助你快速上手。1.安装spaCy在开始之前，首先需要安装spaC
Transformer架构简略：DeepSeek 的底层基石 windwant 人工智能人工智能 transformer 架构
2017年，一篇名为《AttentionisAllYouNeed》的论文横空出世，提出了Transformer架构，彻底改变了自然语言处理（NLP）领域的格局。它不仅在各种NLP任务上取得了突破性进展，更成为了当今人工智能领域最具影响力的架构之一。一、从RNN到Transformer：突破瓶颈，开创先河在Transformer出现之前，循环神经网络（RNN）及其变体（如LSTM、GRU）是处理序列
别只会用别人的模型了，自学Ai大模型，顺序千万不要搞反了！刚入门的小白必备！ ai大模型应用开发人工智能 pdf 机器学习面试 AI
在使用诸如DeepSeek、ChatGPT、豆包、文心一言等大模型之余，你是否知道这些大模型背后的技术原理是什么？假如让你从头开始学习大模型，你知道应该遵循什么样的路线嘛？今天给大家介绍一下Ai大模型的学习路线，顺序千万不要搞反了！，大家可以按照这个路线进行学习。一、前置阶段数学：线性代数、高等数学自然语言处理：Word2Vec、Seq2SeqPython：Pyotch、Tensorflow二、基
智能模型轻量化：知识蒸馏技术如何重塑AI部署格局人工智能
智能模型轻量化：知识蒸馏技术如何重塑AI部署格局前言在人工智能技术高速迭代的今天，模型优化领域正经历着静默的革命。当我们惊叹于DeepSeek在自然语言处理上的惊艳表现时，一个关键问题逐渐浮出水面：如何让这些"庞然大物"真正走入现实场景？知识蒸馏技术作为模型压缩领域的突破性方案，正在为AI技术的普惠化开辟新路径。一、技术本质的解构与重构知识蒸馏颠覆了传统模型训练的范式，构建了"师生传承"的新型学习
AI创业机遇：垂直领域无限可能 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
AI创业垂直领域机器学习深度学习自然语言处理计算机视觉无人驾驶1.背景介绍人工智能（AI）正在各行各业掀起一场革命，为创业者带来了前所未有的机遇。垂直领域，即特定行业或细分市场，正在成为AI创业的热门选择。本文将深入探讨AI在垂直领域的应用，并提供实用的指南，帮助读者把握AI创业机遇。2.核心概念与联系2.1AI与垂直领域AI在垂直领域的应用，需要理解AI与垂直领域的关系。AI可以为垂直领域提供智
Deepseek 不同版本有什么区别百态老人人工智能
嗯，我现在需要回答关于DeepSeek不同版本的区别的问题，我要仔细看一下我搜索到的资料，可能有些证据之间会有矛盾，需要小心处理。首先，我应该先梳理每个证据中提到的各个版本的信息，然后整理它们的发布时间、特点、优缺点以及对比情况。根据，DeepSeek的版本包括V1、V2、V2.5、R1-Lite、V3、R1系列。其中，V1在2024年1月发布，专注于自然语言处理和编码任务，但缺乏多模态支持和复杂
DeepSeek人工智能领域的创新先锋与变革力量 CodeJourney. 数据库算法人工智能
在科技飞速发展的时代，人工智能（AI）无疑是最具变革性的力量之一。DeepSeek作为人工智能领域的关键参与者，正以其独特的技术路径和创新理念，深刻影响着行业的发展格局。深入解读相关信息，能让我们更全面地认识DeepSeek在人工智能领域的重要贡献、技术优势、发展战略以及其带来的广泛影响。一、DeepSeek的技术突破与创新（一）核心技术成就DeepSeek在自然语言处理（NLP）和计算机视觉等人
词向量（Word Embedding）呵呵，不解释868 easyui 前端 javascript
词向量（WordEmbedding）是一种将自然语言中的单词映射到连续的向量空间的技术，使得语义相似的单词在向量空间中彼此接近。这种技术是现代自然语言处理（NLP）任务的基础之一，广泛应用于文本分类、机器翻译、问答系统等。###一、词向量的基本原理####1.离散表示vs连续表示传统的自然语言处理方法通常使用离散表示（如one-hot编码）来表示单词。然而，这种方法存在以下问题：-**维度灾难**
[自然语言处理基础]NumPy基本操作 Steve lu 自然语言处理NLP 自然语言处理 numpy python conda 人工智能机器学习深度学习
什么是NumPyNumPy是Python中科学计算的基本包。它是一个Python库，提供多维数组对象、各种派生对象（如掩码数组和矩阵）以及用于对数组进行快速操作的各种例程，包括数学、逻辑、形状操作、排序、选择、I/O、离散傅里叶变换、基本线性代数、基本统计运算、随机模拟等等。NumPy数组在创建时具有固定大小，这与Python列表（可以动态增长）不同。更改数组的大小ndarray将创建新数组并删除
SpringAI赋能Java开发打造智能应用 java技术小馆 java AI编程
一、SpringAI是什么？为什么你需要它？想象一下，你的Java应用能够：理解自然语言自动生成代码智能分析数据提供个性化推荐这就是SpringAI带来的变革！它是Spring官方推出的AI集成框架，让你的Java应用轻松获得AI能力。传统开发vsSpringAI开发对比：能力传统开发SpringAI开发自然语言处理需要集成第三方SDK开箱即用开发效率手动实现复杂逻辑自动生成代码维护成本高低可扩展
LLM OS 系统架构详细设计 AI天才研究院 AI大模型企业级应用开发实战系统架构
LLMOS系统架构详细设计1.背景介绍近年来，大型语言模型（LargeLanguageModel,LLM）取得了飞速发展，在自然语言处理、对话系统、文本生成等领域展现出卓越的性能。然而，现有的LLM系统架构仍然存在诸多局限性，例如可扩展性不足、资源利用率低下、缺乏灵活的应用开发支持等。为了充分发挥LLM的潜力，迫切需要一个高效、灵活、易用的LLM操作系统（OperatingSystem,OS）。本
语义向量模型全解：从基础到现在的deepseek中的语义向量主流模型来自于狂人人工智能语言模型
一、语义向量模型：自然语言处理的基石语义向量模型（SemanticVectorModel）是自然语言处理（NLP）的核心技术，它将词汇、句子或文档映射为高维向量，在数学空间中量化语义信息。通过向量距离（如余弦相似度）衡量语义的相似性，支撑了搜索引擎、情感分析、机器翻译等实际应用。1.1发展简史1980s~2000s：基于统计的浅层模型，如TF-IDF（直接表征词的重要性）、LSA（通过矩阵分解降维
python 正则表达式李昊哲小课大数据人工智能 python python 正则表达式数据分析人工智能大数据
#coding:utf-8importre常用函数代码3-1使用match函数匹配文本match函数，从字符串‌起始位置‌匹配正则表达式，返回Match对象（匹配失败返回None）。text1='自然语言处理是研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。'print('匹配的结果是：',re.match(r'自然语言处理
预训练模型微调与下游任务迁移学习技术 AGI大模型与大数据研究院计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍机器学习技术近年来在计算机视觉、自然语言处理等领域取得了飞速发展,这离不开大规模预训练模型的贡献。预训练模型通过在海量数据上的自监督学习,学习到了丰富的特征表示,为下游任务提供了强大的初始化。而对预训练模型进行有效的微调,可以充分利用预训练知识,在有限数据上快速达到出色的性能。此外,迁移学习技术也为模型在不同任务间的知识复用提供了有效途径。本文将详细介绍预训练模型微调与下游任务迁移学习
什么是预训练语言模型下游任务？衣衣困语言模型人工智能自然语言处理
问题：Word2Vec模型是预训练模型吗？由于训练的特性，word2Vec模型一定是与训练模型。给定一个词先使用独热编码然后使用预训练好的Q矩阵得到这个词的词向量。这里指的是词向量本身就是预训练的语言模型。什么是下游任务？在自然语言处理（NLP）和机器学习领域，下游任务（downstreamtasks）指的是使用已经训练好的模型或表示（如词向量、预训练的模型等）来解决的具体任务。这些任务通常依赖于
DeepSeek：大模型领域的创新力量 Kurbaneli 服务器
在人工智能大模型蓬勃发展的时代，DeepSeek以其独特的技术优势和广泛的应用潜力，迅速在市场中崭露头角。自年初发布以来，DeepSeek引发了行业内外的高度关注，对众多领域的发展产生了深远影响。一、技术优势剖析DeepSeek在技术层面展现出了诸多亮点。其核心的语言模型架构经过精心设计与优化，能够高效处理海量文本数据，实现精准的语义理解和生成。在自然语言处理任务中，无论是基础的文本翻译、问答系统
大语言模型原理与工程实践：大语言模型推理工程推理加速：算子优化 AI天才研究院计算 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍近年来，大语言模型（LargeLanguageModel，LLM）在自然语言处理（NLP）领域取得了显著的进展。其中，推理（Inference）过程是大语言模型的核心环节之一。然而，随着模型规模的不断扩大，推理过程中的计算复杂度和延时也逐渐成为制约模型应用的重要因素。因此，如何实现大语言模型推理工程的推理加速，成为研究者和工程师迫切需要解决的问题。2.核心概念与联系在本文中，我们将深入
微调（Fine-tuning）路野yue 人工智能深度学习
微调（Fine-tuning）是自然语言处理（NLP）和深度学习中的一种常见技术，用于将预训练模型（Pre-trainedModel）适配到特定任务上。它的核心思想是：在预训练模型的基础上，通过少量任务相关的数据进一步训练模型，使其更好地适应目标任务。1.微调的核心思想预训练模型：像BERT、GPT这样的模型，已经在大量通用文本数据上进行了预训练，学习到了丰富的语言知识（如语法、语义、上下文关系等
《DataWorks：为人工智能算法筑牢高质量数据根基》人工智能深度学习
在当今数字化时代，人工智能（AI）技术的迅猛发展深刻地改变着各个行业的面貌。从智能推荐系统到医疗影像诊断，从自动驾驶到自然语言处理，AI正以前所未有的速度渗透到我们生活和工作的方方面面。而在这一系列AI应用的背后，高质量的训练数据是其能够发挥强大效能的关键所在。就如同巧妇难为无米之炊，没有优质的数据，再先进的AI算法也难以施展拳脚。阿里巴巴的DataWorks，作为一款强大的大数据开发治理平台，在
医院信息科医疗语言大模型开发的风险洞察与避坑策略 Allen_LVyingbo 医疗高效编程研发健康医疗人工智能互联网医院 python 开源
一、引言1.1研究背景与意义在数字化医疗快速发展的当下，医疗AI技术已成为推动医疗行业变革的核心力量。其中，医疗语言大模型作为自然语言处理技术在医疗领域的深度应用，正逐渐改变着医疗服务的模式与效率。从辅助医生进行疾病诊断、提供临床决策支持，到助力医学文献分析、药物研发等，医疗语言大模型展现出了巨大的应用潜力。例如，在疾病诊断环节，大语言模型可以通过对患者症状、病史等文本信息的分析，快速给出可能的疾
Deepseek 使用指南与提问优化策略西瓜拍两瓣 ai 语言模型 python gpt
序言随着人工智能技术的迅猛发展，语义搜索已成为提升信息检索效率和用户体验的核心工具。DeepSeek作为一款先进的语义搜索引擎，通过自然语言处理（NLP）和机器学习技术，能够深入理解用户查询的语义意图，提供高度精准的搜索结果。本文将详细介绍DeepSeek的核心功能、集成方法，并深入探讨如何通过优化提问策略，最大化利用DeepSeek的语义搜索能力，从而提升信息检索的效率和准确性。访问DeepSe
AI大模型教程入门到精通，非常详细收藏我这一篇就够了！AI大模型零基础入门教程（适合小白） AGI大模型学习人工智能大模型应用大模型 AI产品经理学习 AI大模型大模型教程
什么是AI大模型？AI大模型是指使用大规模数据和强大的计算能力训练出来的人工智能模型。这些模型通常具有高度的准确性和泛化能力，可以应用于各种领域，如自然语言处理、图像识别、语音识别等。为什么要学AI大模型？2024人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于
【深度学习】Hopfield网络：模拟联想记忆 T-I-M 深度学习人工智能
Transformer优化，什么是稀疏注意力？Transformer模型自2017年被提出以来，已经成为自然语言处理（NLP）领域的核心架构，并在计算机视觉、语音处理等其他领域也取得了显著的成功。然而，随着模型规模的不断增大和任务复杂性的提升，Transformer的计算成本和内存需求也随之激增。为了解决这一问题，研究者们提出了多种优化方法，其中稀疏注意力（SparseAttention）是一种备
DeepSeek 1.5B 蒸馏模型的征程 6 部署（Llama 方式）自动驾驶算法
前言DeepSeek是一款基于人工智能的搜索引擎，旨在提升用户的搜索体验。它利用先进的自然语言处理技术，通过理解查询的上下文和意图，为用户提供更精确、相关的搜索结果。与传统的搜索引擎不同，DeepSeek不仅仅依赖于关键词匹配，还能通过深度学习分析用户的需求，呈现更加智能化的搜索结果。此外，DeepSeek还具备语义理解能力，能够处理复杂的查询，并在短时间内给出最符合用户需求的答案。DeepSee
探索vLLM Chat：作为OpenAI API替代方案的强大工具 qq_37836323 python
#探索vLLMChat：作为OpenAIAPI替代方案的强大工具##引言随着生成式AI技术的发展，许多应用都依赖于强大的语言模型API来提供自然语言处理任务的支持。vLLM是一款可以作为OpenAIAPI协议替代品的聊天模型服务器。它的设计允许您在应用中无缝替换OpenAIAPI，实现相似的功能和性能。本文将介绍如何使用vLLM，结合langchain-openai包，来快速部署和集成聊天模型。#
AI大语言模型概述：从GPT到BERT的技术演进 AI智能涌现深度研究 AI大模型应用入门实战与进阶 DeepSeek R1 &大数据AI人工智能计算大数据人工智能语言模型 AI 大模型 LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1什么是大语言模型大语言模型是一种基于深度学习的自然语言处理技术，它可以理解和生成人类语言。这些模型通过学习大量的文本数据，捕捉到语言的语法、语义和情感等信息，从而实现对自然语言的理解和生成。1.2为什么大语言模型如此重要大语言模型在近年来取得了显著的进展，它们在各种自然语言处理任务中都取得了最先进的性能。这些任务包括机器翻译、情感分析、文本摘要、问答系统等。大语言模型的成功在很大
完整指南：从基础到高级使用 Semantic Kernel 江沉晚呤时 Net core AI c#.netcore
SemanticKernel是微软推出的一款强大的开发框架，旨在帮助开发者通过语义理解和自然语言处理（NLP）构建智能应用。它为开发者提供了与OpenAI、AzureCognitiveServices等人工智能服务集成的简便接口，使得构建自然语言处理（NLP）应用变得更加直观和高效。在本文中，我们将从基础到高级全面讲解如何使用SemanticKernel，并提供详细的代码示例，帮助你快速掌握这个框
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出