Naruto_Q

斯坦福大学深度学习公开课cs231n学习笔记（2）线性分类器及最优化

图像分类

图像分类即是从已有的分类标签集中选择一个分配给一张图像。K近邻算法可以进行分裂，但存在不足之处：

（1）分类器必须记住所有训练数据并将其存储起来，以便于未来测试数据用于比较。这在存储空间上是低效的。
（2）对一个测试图像进行分类需要和所有训练图像作比较，算法计算资源耗费高。

针对不足，需要更强大的方法来解决图像分类问题，并可以自然延伸到神经网络和卷积神经网络。这种方法主要由两部分组成：

一是评分函数（score function），它是原始图像数据到类别分值的映射。

二是损失函数（loss function），它是用来量化预测分类标签的得分与真实标签之间一致性的。

该方法可转化为一个最优化问题，在最优化过程中，通过更新评分函数的参数来最小化损失函数值。

线性分类器

其映射函数为：

，

其中矩阵W和列向量b为该函数的参数（parameters），参数W称为权重（weights）；b称为偏差向量（bias vector），它影响输出数值，但不和原始数据xi产生关联。

说明：
1.通过矩阵乘法Wxi能并行评估不同的分类器（每个分类器对应一个分类），其中每个类的分类器就是W的一个行向量。
2.参数W和b是可以控制改变的。目标是通过设置这些参数，使计算出来的分类分值情况和训练集中图像数据的真实类别标签相符。
3.通过训练数据学习参数W和b，当训练完成后训练数据可以丢弃，只留下学习到的参数。
4.分类时只需要做矩阵乘法和矩阵加法就能对测试数据进行分类。

理解线性分类器

线性分类器计算图像中3个颜色通道中像素值与权重的矩阵乘积，得到分类分值。权重值对于图像中的某些位置的某些颜色，使得函数表现出喜好或者厌恶。就像“船”分类是被大量蓝色包围（对应的就是水），那么“船”分类器在蓝色通道上的权重就会有很多的正权重（从而提高“船”分类的分值），而在绿色和红色通道上的权重出现很多负值（从而降低“船”分类的分值）。

上面是图像映射分类的例子，为了便于可视化，假设图像只有4个像素（都是黑白像素，不考虑彩色通道），并且有3个分类（红色代表猫，绿色代表狗，蓝色代表船，这里的红、绿和蓝代表的是分类信息）。首先将图像像素拉伸成一个列向量，与W矩阵相乘，与b矩阵相加，然后可以得到各个分类的分值。当然这个W并不好，需要优化，因为猫分类的分值很低，狗的分值却很高，此时算法会判定输入图像是一只狗。

将图像看做高维度的点

既然图像被拉伸成一个高维度的列向量，那么我们可以把图像看成高维度空间中的一个点。此时，所有像素就是点的集合，并且每个点都有1个分类标签。分类器通过变换把高维度挤压到二维。

如上图所示，其中每张图像都是一个点，共有3个分类器。以红色汽车分类器为例，红线表示汽车分类分值为0的点的集合，红色箭头表示分值上升的方向，即红线右边的点的分值为正，且线性升高。红线左边的点分值为负，且线性降低。对应到分类器，W的每一行都是一个分类类别的分类器，如果改变其中一行的数字，分类器在空间中对应的直线会向着不同的方向旋转；偏差b则使得分类器对应的直线平移。

偏差和权重的合并技巧

下面的方法能够将参数W和b合二为一。因为分开处理权重参数W和偏差参数b有点笨拙，通常可以把两个参数放到同一个矩阵中，但需要x_i向量就要增加一个维度，这个维度的数值设为1，变化过程如下：

线性分类器看做模板匹配

权重W的另一个解释是它的每一行对应着一个分类的模板（也叫作原型）。每张图像通过内积运算得到一个分值，来比较图像和哪个模板最相似。这可以理解为在变相地高效使用KNN，区别是分类器没有使用所有的训练图像来比较，而是将每个类别用一张通过学习得到的图片表示，但它不是训练集中的某一张。然后使用内积计算向量间的距离，而不是使用L1或L2距离。

图像数据预处理

一般图像的像素值范围为0到255。在图像分类中，图像的每个像素看做一个特征，通常采取归一化操作，即对每个特征减去平均值来中心化数据。将训练集中所有的图像计算出一个平均值，然后每个图像都减去这个平均值，此时像素值范围为[-127, 127]，然后将所有数值分布的区间变为[-1, 1]。

损失函数

在对一只猫图像分类的例子中，通过权重参数分别计算出“猫”，“狗”，“船”三个类别的分数。例子中权重值非常差，因为猫分类的得分很低，而狗和船的分值却比较高。分类时使用损失函数（Loss Function）（也叫代价函数Cost Function或目标函数Objective Function）来衡量结果的不满意程度，当与真实结果差异越大时，损失函数输出越大，反之越小。

多类支持向量机损失函数

损失函数的形式有很多种，多类支持向量机损失函数是常用的一种。SVM损失函数是使得正确分类的得分比错误分类的得分高出一个边界值Δ。第i个数据中包含图像像素x_i和类别标签y_i。评分函数输入像素数据，然后通过公式f(xi,W)计算不同类别的分值。多类SVM的损失函数定义如下：

核心思想：SVM损失函数如果想要得到正确分类，类别y_i的分值比错误类别分值至少要高Δ，如果不满足，就计算损失值。

实例：假设有3个分类和对应的分值s=[13,-7,11]。其中第一个类别是正确类别，即y_i=0。同时假设Δ是10，上面的公式将所有不正确分类相加，得到：

其中，-7-13+10=-10，经过max(0,-)处理后结果为0，即第一部分类别分数和标签的损失值是0，因为正确分类的得分13与错误分类的得分-7的差为20，高于边界值10。而SVM只需要差距至少大于10，再大的差值损失值还是算作0。第二部分[11-13+10]=8。虽然正确分类分值比错误分类高（13>11），但是比分界值10小，分差为2，损失值等于8。
那么对于线性评分函数（f(xi,W)=W.xi），需将损失函数的公式改为如下：

其中wj是权重W的第j行，被改为列向量。

注：max(0,-)函数被称为折叶损失（hinge loss）。有时候也会使用平方折叶损失SVM（即L2-SVM），对应的是max(0,-)^2，即更强地惩罚过界的边界值。

正则化

假设有一个数据集和权重集W能够正确地分类数据（即所有L_i=0），但这个W并不唯一：可能有很多相似的W都能对数据进行正确地分类。例如，如果W能够正确分类所有数据，即对于每个数据，损失值=0，当λ>1时，任何数乘 λW 都使得损失值=0，这个变化将所有分值均等地扩大，所以绝对值也扩大了。
所以希望能对某些特定的权重W添加一些偏好，而对其他权重则不添加，以此来消除模糊性。实现方法是在损失函数基础上增加一个正则化惩罚（regularization penalty）R(W)。最常用的正则化惩罚是L2范式，它通过对所有参数进行逐元素的平方惩罚来抑制大数值的权重。

注意的是，正则化函数不是针对数据，它仅基于权重。完整的多类SVM损失函数由两个部分组成：数据损失（data loss），即所有数据样本的的平均损失Li，和正则化损失（regularization loss）。公式如下：

，详细张开为：

其中，N是训练集的数据量。将正则化惩罚添加到损失函数里面，并用超参数λ 计算权重。该超参数无法简单确定，需要通过交叉验证来获取。

其中最好的性质是对大数值权重进行惩罚，从而提升泛化能力，因为这使得单个维度不会对整体分值有过大的影响。

例如，假设有输入向量： x=[1,1,1,1]，两个权重向量： w1=[1,0,0,0]，w2=[0.25,0.25,0.25,0.25]。那么w1^Tx=w2^Tx=1，虽然两个权重向量得到同样的内积，但是从L2惩罚结果来看（w1的L2惩罚是1.0，而w2的L2惩罚是0.25）w2更好些，因为w2的权重值小且分散，这会鼓励分类器将所有维度上的特征都用起来，而不过度依赖于少数几个维度。

通常只对权重W正则化，而不对偏差b正则化。因为偏差并不控制输入维度上的影响强度。课里还给出了一个无正则化损失函数的Python实现，有非向量化和半向量化两个形式：

def L_i(x, y, W):
  """
  unvectorized version. Compute the multiclass svm loss for a single example (x,y)
  - x is a column vector representing an image (e.g. 3073 x 1 in CIFAR-10)
    with an appended bias dimension in the 3073-rd position (i.e. bias trick)
  - y is an integer giving index of correct class (e.g. between 0 and 9 in CIFAR-10)
  - W is the weight matrix (e.g. 10 x 3073 in CIFAR-10)
  """
  delta = 1.0 # see notes about delta later in this section
  scores = W.dot(x) # scores becomes of size 10 x 1, the scores for each class
  correct_class_score = scores[y]
  D = W.shape[0] # number of classes, e.g. 10
  loss_i = 0.0
  for j in xrange(D): # iterate over all wrong classes
    if j == y:
      # skip for the true class to only loop over incorrect classes
      continue
    # accumulate loss for the i-th example
    loss_i += max(0, scores[j] - correct_class_score + delta)
  return loss_i

def L_i_vectorized(x, y, W):
  """
  A faster half-vectorized implementation. half-vectorized
  refers to the fact that for a single example the implementation contains
  no for loops, but there is still one loop over the examples (outside this function)
  """
  delta = 1.0
  scores = W.dot(x)
  # compute the margins for all classes in one vector operation
  margins = np.maximum(0, scores - scores[y] + delta)
  # on y-th position scores[y] - scores[y] canceled and gave delta. We want
  # to ignore the y-th position and only consider margin on max wrong class
  margins[y] = 0
  loss_i = np.sum(margins)
  return loss_i

def L(X, y, W):
  """
  fully-vectorized implementation :
  - X holds all the training examples as columns (e.g. 3073 x 50,000 in CIFAR-10)
  - y is array of integers specifying correct class (e.g. 50,000-D array)
  - W are weights (e.g. 10 x 3073)
  """
  # evaluate loss over all examples in X without using any for loops
  # left as exercise to reader in the assignment

实际操作

设置Delta：你可能注意到上面的内容对超参数Δ及其设置是一笔带过，那么它应该被设置成什么值？需要通过交叉验证来求得吗？现在看来，该超参数在绝大多数情况下设为Δ=1.0都是安全的。超参数Δ和λ看起来是两个不同的超参数，但实际上他们一起控制同一个权衡：即损失函数中的数据损失和正则化损失之间的权衡。理解这一点的关键是要知道，权重W的大小对于分类分值有直接影响（当然对他们的差异也有直接影响）：当我们将W中值缩小，分类分值之间的差异也变小，反之亦然。因此，不同分类分值之间的边界的具体值（比如Δ=1或Δ=100）从某些角度来看是没意义的，因为权重自己就可以控制差异变大和缩小。也就是说，真正的权衡是我们允许权重能够变大到何种程度（通过正则化强度λ来控制）。

后面，公开课中还提到了SVM的二元情况，以及相关的一些概念，如核函数，对偶，SMO算法等。这些在吴恩达老师的机器学习课里有比较详细的介绍。

除了SVM分类器外，还一个最常用的就是Softmax分类器。

在Softmax分类器中，函数映射f(xi;W)=Wxi保持不变，但将评分值视为每个分类的未归一化的对数概率，还将折叶损失（hinge loss）改为交叉熵损失（cross-entropy loss）。公式如下：

或是

其中，fj表示分类评分向量f中的第j个元素。数据集的损失函数结果为所有样本数据的损失值Li的均值与正则化损失R(W)的和。

SVM和Softmax的比较

斯坦福大学深度学习公开课cs231n学习笔记（2）线性分类器及最优化_第4张图片

可以看出，两个分类器使用了同样的分值向量f，不同之处在于对f中分值的解释：SVM分类器将其看作分类评分，它的损失函数鼓励正确分类的分值比其他分类的分值高至少一个边界值。Softmax分类器将这些数值看作每个分类没有归一化的对数概率，鼓励正确分类的归一化的对数概率变高，其余的变低。

而且，Softmax分类器可以给出每个分类的概率。SVM的计算是无标定的，难以对所有分类的评分值给出直观解释。例如，针对给出的图像，SVM分类器可能给出[12.5, 0.6, -23.0]对应的分类“猫”，“狗”，“船”；而softmax分类器却能计算出这三个标签的”可能性“是[0.9, 0.09, 0.01]，让人能看出不同分类的准确性。

参考：

http://cs231n.github.io/linear-classify/

https://zhuanlan.zhihu.com/p/20918580?refer=intelligentunit

https://zhuanlan.zhihu.com/p/20945670?refer=intelligentunit

https://zhuanlan.zhihu.com/p/21102293?refer=intelligentunit

http://www.jianshu.com/p/0da9eb3fd06b

http://blog.csdn.net/zhili8866/article/details/53317127

如何使用DeepSeek编写测试用例？海姐软件测试 deepseek 大数据测试工具
一、DeepSeek在测试用例设计中的定位DeepSeek作为AI工具，并非直接替代测试设计，而是通过以下方式提升效率：快速生成基础用例框架（等价类、边界值等）智能补充易遗漏场景（如特殊字符、异常流）自动化脚本片段生成（Python/pytest/JUnit等）测试数据构造建议（符合业务规则的Mock数据）二、四步法实战：AI协作编写测试用例Step1：明确需求输入输入质量决定输出质量，需向Dee
测试工程师Ai应用实战指南简例prompt 进击的雷神 prompt
阅读原文以下是一个真实具体的案例，展示测试工程师如何在不同阶段结合DeepSeek提升效率。案例基于电商平台"订单超时自动关闭"功能测试：案例背景项目名称：电商平台订单系统V2.3测试目标：验证"用户下单后30分钟未支付，订单自动关闭并释放库存"功能技术栈：SpringBoot+MySQL+Redis延迟队列1.需求分析阶段痛点：需求文档仅描述业务逻辑，未明确异常场景（如服务器时间不同步、Redi
MiniMind：完全从 0 训练自己的大模型三花AI 三花AI 人工智能 LLM大模型
是B站UP主近在远方的远开源的一个微型语言模型，改进自DeepSeek-V2、Llama3结构，项目包含整个数据处理、pretrain、sft、dpo的全部阶段，包含混合专家(MoE)模型。其目标是把上手LLM的门槛无限降低，直接从0开始训练一个极其轻量的语言模型，最低仅需2G显卡即可推理训练！
【Python】 Stacking: 强大的集成学习方法音乐学家方大刚 Python python 集成学习开发语言
我们都找到天使了说好了心事不能偷藏着什么都一起做幸福得没话说把坏脾气变成了好沟通我们都找到天使了约好了负责对方的快乐阳光下的山坡你素描的以后怎么抄袭我脑袋想的薛凯琪《找到天使了》在机器学习中，单一模型的性能可能会受到其局限性和数据的影响。为了解决这个问题，我们可以使用集成学习（EnsembleLearning）方法。集成学习通过结合多个基模型的预测结果，来提高整体模型的准确性和稳健性。Stacki
DeepSpeed-Chat：Reward Model【奖励模型】 u013250861 #LLM/训练 RL/强化学习排序强化学习
第二阶段：奖励模型微调奖励模型(RM)微调类似于第一阶段有监督微调(SFT)。但是，RM和SFT微调之间存在几个关键差异：训练数据差异：对于SFT微调，数据是查询（query）和答案（answer）拼接在一起。然而，对于RM微调，每批数据由两个查询-答案对组成，即具有高分答案和低分答案的相同查询。这也导致了如下所述的第二个差异。训练目标差异：对于RW，训练目标是pairwiserankingsco
【二、DeepSeek应用场景与案例】10.农业智能化：DeepSeek如何助力精准种植与养殖？代码世界的浪客人工智能 DeepSeek
一、引言1.1农业智能化的时代背景在全球人口持续增长的大趋势下，粮食需求正以前所未有的速度攀升。据联合国相关预测，到2050年，全球人口有望突破90亿，这无疑给本就压力重重的农业生产带来了更为艰巨的挑战，保障充足的粮食供应成为了迫在眉睫的任务。与此同时，资源短缺问题日益尖锐，耕地面积因城市化进程、土地退化等因素不断缩减，水资源分布不均且浪费严重，进一步加剧了农业生产的困境。根据世界银行的数据，过去
【DeepThinking】人生反思洞察之「知行合一」（经验贴）碣石潇湘无限路经验分享笔记生活人生深度思考知行合一
引言最近，我深刻体会到一种焦虑：既有生活的现实压力，也有对人生方向的迷茫与无奈。回顾自身，我发现这并不是物质层面的匮乏或欲望驱动，而是对“我是谁”“我想要什么”“我能做什么”的追问。这种焦虑，常常让我想起人的出生：起初我们依赖父母和环境，被动地活着；成年后，我们凭借主动学习、工作和不断积累的信念，去实现自我价值。但终有一天，我们会停下来审视自己，看清一些本质问题，并且发觉自己需要对这一生负责：我应
【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践蒙娜丽宁 Python杂谈人工智能人工智能
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界大语言模型（LLM）的“幻觉”问题，即模型生成与事实不符或脱离上下文的内容，是限制其广泛应用的关键挑战之一。本文深入探讨了幻觉问题的成因，包括训练数据的偏差、推理过程中的过度泛化以及缺乏外部验证机制。以DeepSeek系列模型为研究对象，我们分析了其在解
Yolo系列之Yolo的基本理解是十一月末 YOLO python 开发语言 yolo
YOLO的基本理解目录YOLO的基本理解1YOLO1.1概念1.2算法2单、多阶段对比2.1FLOPs和FPS2.2one-stage单阶段2.3two-stage两阶段1YOLO1.1概念YOLO(YouOnlyLookOnce)是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位
黑客攻击deepseek服务原理解析大囚长大模型机器学习黑客帝国人工智能
黑客可通过操纵大模型的连续对话上下文回顾机制，构造恶意请求以触发模型进入无限思考循环或超长上下文处理，从而形成对对话服务的DoS攻击（拒绝服务攻击）。这一攻击方式的核心在于利用大模型对上下文处理机制的脆弱性，通过极低的攻击成本实现资源耗尽。一、攻击原理与实现路径无限推理循环攻击通过输入特定构造的提示词（如“树中两条路径之间的距离”），诱导模型陷入无限思考链（Chain-of-Thought,CoT
企业微信机器人与DeepSeek结合实现交互的应用案例老胖闲聊办公自动化企业微信机器人交互
以下是一个结合企业微信机器人与深度求索（Deepseek）AIGC模型的交互式应用实现示例，包含完整代码及逐行注释：1.实现架构用户消息->企业微信服务器->自建服务端->DeepseekAPI->处理响应->返回企业微信群2.完整实现代码（deepseek_wechat_bot.py）#-*-coding:utf-8-*-importosimportjsonimportrequestsfromf
大语言模型学习路线：从入门到实战大模型官方资料语言模型学习人工智能产品经理自然语言处理搜索引擎
大语言模型学习路线：从入门到实战在人工智能领域，大语言模型（LargeLanguageModels,LLMs）正迅速成为一个热点话题。本学习路线旨在为有基本Python编程和深度学习基础的学习者提供一个清晰、系统的大模型学习指南，帮助你在这一领域快速成长。本学习路线更新至2024年02月，后期部分内容或工具可能需要更新。适应人群已掌握Python基础具备基本的深度学习知识学习步骤本路线将通过四个核
深度学习与目标检测系列(六) 本文约(4.5万字) | 全面解读复现ResNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch 人工智能 ResNet 残差连接残差网络
文章目录解读Abstract—摘要翻译精读主要内容Introduction—介绍翻译精读背景RelatedWork—相关工作ResidualRepresentations—残差表达翻译精读主要内容ShortcutConnections—短路连接翻译精读主要内容DeepResidualLearning—深度残差学习ResidualLearning—残差学习翻译精读ResNet目的以前方法本文改进本质
深度学习与目标检测系列(三) 本文约(4万字) | 全面解读复现AlexNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch AlexNet 人工智能
文章目录解读Abstract-摘要翻译精读主要内容1.Introduction—前言翻译精读主要内容：本文主要贡献：2.TheDataset-数据集翻译精读主要内容：ImageNet简介：图像处理方法：3.TheArchitecture—网络结构3.1ReLUNonlinearity—非线性激活函数ReLU翻译精读传统方法及不足本文改进方法本文的改进结果3.2TrainingonMultipleG
量子位招聘 | DeepSeek帮我们改的招聘启事量子位
关注前沿科技量子位未来同事，你好~这是一则招聘帖。如果你与我们志同道合，对AI大模型、具身智能、终端硬件、AI新媒体编辑感兴趣，我们正在招聘这些领域的原创作者。以下岗位均为全职，工作地点：北京中关村。岗位面向：社招、应届毕业生，所有岗位均可实习——表现出色均可转正加分项：乐于探索AI新工具，善用AI新工具；拥有解读论文的能力，能深入浅出讲解原理；有写代码能力；量子位长期读者。加入我们，你可以获得：
Deepseek-R1-Distill-Llama-8B + Unsloth 中文医疗数据微调实战 LuckyAnJo LLM相关 llama python 自然语言处理人工智能
内容参考至博客与Bin_Nong1.环境搭建主要依赖的库(我的版本)：torch==2.5.1unsloth==2025.2.15trl==0.15.2transformers==4.49.0datasets=3.3.1wandb==0.19.62.数据准备-medical_o1_sft_Chinese经过gpt-o1的包含cot(思考过程)的中文医疗问答数据，格式与内容如下:"Question"
法律行业——合同审查与AI律师 zhouyaowei1983 人工智能人工智能
一、引言：AI技术重构法律行业新格局‌随着AI技术从实验室走向规模化应用，法律行业正经历从“经验驱动”向“数据驱动”的范式转变。这一变革的核心驱动力源于法律服务的两大根本矛盾：‌传统人工服务效率瓶颈‌与‌市场对高精度、低成本法律产品的迫切需求‌‌。‌1.法律行业数字化转型的底层逻辑‌‌技术革命推手‌：以DeepSeekR1大模型为代表的开源AI技术，让法律文本解析、案例推理等复杂任务实现平民化应用
【JavaScript】11-JS高阶技巧 beibeibeiooo JavaScript【已完结】javascript 前端 ecmascript es6
本文介绍JS中的一些高阶技巧。目录1.深浅拷贝1.1浅拷贝1.2深拷贝1.2.1通过递归实现1.2.2lodash/cloneDeep1.2.3JSON.stringify()2.异常处理2.1throw抛异常2.2try/catch捕获异常2.3debugger3.处理this3.1this指向3.1.1普通函数this3.1.2箭头函数的this3.2改变this3.2.1call方法改变3.
本地部署deepseek-r1:14b 批量调用 Python调用本地deepseek-r1:14b实现对本地数据库的AI管理朴拙Python交易猿 python 数据库开发语言
这篇文章主要为大家详细介绍了Python如何基于DeepSeek模型，调用本地deepseek-r1:14b实现对本地数据库的AI管理场景描述基于DeepSeek模型，实现对本地数据库的AI管理。实现思路1、本地python+flask搭建个WEB，配置数据源。2、通过DeepSeek模型根据用户输入的文字需求，自动生成SQL语句。3、通过SQL执行按钮，实现对数据库的增删改查。模型服务方法1启动
Qt for WebAssembly程序中文乱码问题处理过程 muren Qt c++qt wasm 开发语言
一、环境操作系统DeepinV23Qt版本6.8.2编程语言C++二、问题现象QtforWebAssembly应用在浏览器页面上英文字母显示正常，中文显示为乱码。经测试分析原因为默认字体不能正常显示汉字。三、处理过程1.准备中文字体文件从Windows下复制宋体简体字体文件。C:\Windows\Fonts\simsun.ttc2.添加资源文件resources.qrcsimsun.ttc3.Qt
Deepseek-r1:14b+ScraperAPI实现联网本地大模型回答 FuWen_Hao python 人工智能
文章目录前言一、Deekseek本地部署二、SerpAPI1.什么是SerpAPI？2.如何使用SerpAPI进行Web搜索三、实现Deepseek-r1:14b+ScraperAPI实现联网本地大模型回答1.Code前言我需要对本地的Deepseek-r1:14b进行提问，我发现它对于实时的问题，或者不知道的问题，会不回答或者乱回答。基于这点我想通过WebAPI传输更多的信息给到Deekseek
大模型最新面试题系列：微调篇之微调基础知识人肉推土机大模型最新面试题集锦大全面试人工智能 AI编程大模型微调 LLM
一、全参数微调（Full-Finetune）vs参数高效微调（PEFT）对比1.显存使用差异全参数微调：需存储所有参数的梯度（如GPT-3175B模型全量微调需约2.3TB显存）PEFT：以LoRA为例，仅需存储低秩矩阵参数（7B模型使用r=16的LoRA时显存占用减少98%）实战经验：在A10080GB显存下，全量微调LLaMA-7B需DeepSpeedZero3优化，而LoRA可直接单卡运行2
一步到位！7大模型部署框架深度测评：从理论到DeepSeek R1:7B落地实战人肉推土机人工智能 python
本文在掘金同步发布：文章地址更多优质文章，请关注本人掘金账号：人肉推土机的掘金账号随着大语言模型（LLM）的广泛应用，如何高效部署和推理模型成为开发者关注的核心问题。本文深入解析主流模型部署框架（Transformers、ModelScope、vLLM、LMDeploy、Ollama、SGLang、DeepSpeed），结合其技术原理、优缺点及适用场景，并提供DeepSeekR1:7B的详细部署实
DeepSeek-R1核心技术深度解密：动态专家网络与多维注意力融合的智能架构实现全解析 Coderabo DeepSeek R1模型企业级应用架构 DeepSeek-R1
DeepSeek-R1智能架构核心技术揭秘：从动态路由到分布式训练的完整实现指南一、DeepSeek-R1架构设计原理1.1动态专家混合系统DeepSeek-R1采用改进型MoE（MixtureofExperts）架构，核心公式表达为：y=∑i=1nG(x
计算机视觉技术探索：美颜SDK如何利用深度学习优化美颜、滤镜功能？美狐美颜sdk 美颜SDK 美颜API 直播美颜SDK 计算机视觉深度学习直播美颜SDK 美颜sdk 第三方美颜sdk 美颜api
时下，计算机视觉+深度学习正在重塑美颜技术，通过智能人脸检测、AI滤镜、深度美肤、实时优化等方式，让美颜效果更加自然、精准、个性化。那么，美颜SDK如何结合深度学习来优化美颜和滤镜功能？本文将深入解析AI在美颜技术中的应用，并探讨其未来发展趋势。一、深度学习如何赋能美颜SDK？1.AI人脸检测与关键点识别：精准捕捉五官在美颜过程中，首先需要精准检测人脸位置和五官特征点，确保美颜效果不会失真。深度学
GEO：在AI时代抢占DeepSeekC位？白雪讲堂人工智能
前言：当SEO遇见AGI——一场静默的流量革命在生成式AI日均处理53亿次查询的今天，传统SEO的「关键词-排名-点击」逻辑正在崩塌。DeepSeek、ChatGPT、豆包等大模型用动态生成的答案，悄然截流了68%的搜索需求。更残酷的是：当用户问"某个产品推荐"时，AI可能同时调用37个信源，却不会留下任何可追踪的搜索痕迹。这场革命迫使企业必须从「关键词优化」转向「场景占领」，从「流量争夺」进化到
深度学习模型性能全景评估与优化指南 niuTaylor 深度学习人工智能
深度学习模型性能全景评估与优化指南一、算力性能指标体系1.核心算力指标对比指标计算方式适用场景硬件限制TOPS(TeraOperationsPerSecond)每秒万亿次整数运算量化模型推理NVIDIAJetsonNano仅支持FP16/FP32TFLOPS(TeraFLoating-pointOPerationsperSecond)TFLOPS=Cores×FLOPs/Cycle×Frequen
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析快撑死的鱼 Python算法精解 python 深度学习开发语言
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析在人工智能的众多应用领域中，手写数字识别是一项经典且具有重要实际应用价值的任务。随着深度学习技术的飞速发展，通过构建和训练神经网络模型，手写数字识别的精度已经可以达到99%以上。本文将以Python为主要编程语言，结合深度学习的核心技术，详细解析手写数字识别的实现过程，并探讨如何进一步优化模型以提高
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
使用DeepEval进行LLM的单元测试 VYSAHF 单元测试 log4j python
在构建大语言模型（LLM）时，测试是确保模型行为和性能的关键步骤。ConfidentAI推出的DeepEval提供了一套完整的工具包，帮助开发者进行LLM的单元测试和集成测试。结合这些功能，你可以快速迭代，创建更健壮的语言模型。技术背景介绍DeepEval是ConfidentAI开发的一个包，用于语言模型的单元测试和集成测试。它的目标是让开发者能够通过合成数据创建、测试和优化模型，从而实现更高效的
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class