Hung武

【学习笔记】经典目标检测算法

定义

目标检测任务的目标是找到图像中的所有感兴趣区域，并确定这些区域的位置和类别。目标检测领域的深度学习方法主要分为两大类：两阶段式（Two-stage）目标检测算法和单阶段式（One-stage）目标检测算法。

两步模型有独立地、显式地提取候选区域提取过程，即先在输入图像上筛选出一些可能存在物体的候选区域，然后针对每个候选区域，判断其是否存在物体。典型的模型有R-CNN、SPPNet、Fast R-CNN、Faster R-CNN、R-FCN、Mask R-CNN等。
单步模型是指没有独立地、显式地提取候选区域，直接由输入图像得到其中存在的物体的类别和位置信息的模型。直接将目标边界定位问题转换成回归问题，图像会被缩放到同一尺寸，并以网格形式均等划分，模型仅需处理图像一次就能得到位置和分类结果。典型的模型有MultiBox、OverFeat、YOLO、SSD等。

一般来说，单步模型在计算效率上有优势，两步模型在检测精度上有优势。

多数单步模型是利用预设的锚框（anchor box）来捕捉可能存在于图像各个位置的物体，因此，单步模型会对数量庞大的锚框进行是否有物体及物体所属类别的密集分类。由于正负样本数极不均衡，会导致分类器训练效果不佳。而在两步模型中，由于含有独立的候选区域提取步骤，第一步就筛选掉大部分不含有待检测物体的区域（负样本），就不存在类似问题。
两步模型在候选区域提取的过程会对候选框的位置和大小进行修正，在进入第二步前，候选区域的特征已被对齐，有利于提供质量更高的特征。单步模型没有特征对齐步骤，各锚框的预测基于该层上每个特征点的感受野，定位和分类精度容易受到影响。
两步模型在第二步对候选区域进行分类和位置回归时，是针对每个候选区域独立进行的，因此该部分算法复杂度线性正比于预设的候选区域数目。

候选区域 Region Proposal

region在不同的论文中有不同的名字。传统滑窗检测算法中，它叫做windows；在RetinaNet等anchor-based的算法中，它的名字叫做anchor；而在FCOS等anchor-free的算法中，它又代表着anchor point。概括来说，region就是在图像上预设好不同大小、不同长宽比的参照框。region设置时需要其大小和长宽比与待检测物体尺度基本一致，才能让region与物体的IOU大于阈值，成为正样本；否则，正样本数会很少，导致漏检很多。
最直接的获得候选区域（Region Proposal）的方法是滑窗法，就是遍历图像的所有的区域，用不同大小的窗口在整个图像上滑动，那么就会产生所有的矩形区域，然后再后续排查，思路简单，但开销巨大。基于图像的颜色、纹理、面积、位置等合并相似的像素来得到得到一系列的候选矩阵区域的方法有Selective Search和EdgeBoxes，相比于滑窗法更高效。

Selective Search

假设现在图像上有 $n$ 个预分割的区域，计算每个区域与它相邻区域的相似度，得到一个 $n\times n$ 的相似度矩阵，从矩阵中找出最大相似度值对应的两个区域，将这两个区域合二为一；重复上面的过程直到最后只剩一个区域。

R-CNN

《Rich feature hierarchies for accurate object detection and semantic segmentation》 2014 CVPR

R-CNN先使用无监督的Selective Search算法将输入图像中具有相似颜色直方图特征的区域进行递归合并，得到2000个最有可能包含物体的候选区域。然后将这些不同大小的候选区域统一到相同的尺寸送入CNN中进行特征提取和分类。最后对检测结果进行NMS操作，得到最终的检测结果。多个候选区域对应的图像需要预先提取，占用较大的磁盘空间；Crop或者Warp操作会使得物体截断或拉伸，导致输入CNN的信息丢失；每一个候选区域都需要进入CNN网络计算，上千个Region存在大量的范围重叠，重复的特征提取带来巨大的计算浪费。

SPPNet

SPPNet中的SPP是指空间金字塔池化。由于RCNN中要对候选区域进行裁剪或缩放至固定尺寸，会破坏截取图像的长宽比，并损失一些信息。SPP被放置在CNN的末端，可以接受任意尺寸的特征图作为输入，输出固定尺寸的池化特征。此外，SPPNet只进行一次全图的特征提取，而后对每个候选区域对应的特征直接从全图特征中进行截取，然后送入到空间金字塔池化层进行尺寸的统一。

Fast R-CNN

《Fast R-CNN》 2015 ICCV

Fast R-CNN还是通过Selective Search得到候选框，但是将输入图像直接通过CNN模型得到特征图，将候选区域映射到特征图中得到映射Patch，然后不同大小的区域通过RoI Pooling层得到相同大小的特征向量，最后通过两个全连接层得到类别和边界框的预测。Fast R-CNN使用全连接层代替之前的SVM分类器和线性回归器来进行物体分类和检测框修正，大大增强了检测任务的一体性，提高了计算效率。

ROI Pooling 在映射Patch上划分成固定数目的网格，数目根据下一层希望的输入大小决定，最后在每个小的网格区域内进行Max Pooling，以得到固定大小的特征。

Faster R-CNN

《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》 2015 NIPS

Faster R-CNN提出了RPN网络用于在特征图上提取候选区域，将候选框提取合并到深度网络中，提高速度并保证了精度。RPN在最后一个卷积层输出的特征图上，先用3x3的卷积得到channel为 $d$ 的特征图，这样特征图上每个位置能构成一个 $d$ 维的特征向量，然后基于这个特征向量去回归9个不同大小和长宽比的窗口，把这些窗口按照置信度进行排序，然后取前 $n$ 个作为候选窗口。

Mask R-CNN

《Mask RCNN》
Mask-RCNN 大体框架还是 Faster-RCNN 的框架，分为两个阶段：
（1）backbone生成图像特征，RPN生成 proposal regions；
（2）预测类别和bbox回归。Mask R-CNN添加了一个全卷积网络的分支，对每个RoI预测了对应的二值掩膜(binary mask)，以说明给定像素是否是目标的一部分。
Mask-RCNN 将 RoI Pooling 层替换成了 RoI Align。
ROI Pooling 的作用是根据预选框的位置坐标在特征图中将相应区域池化为固定尺寸的特征图，以便进行后续的分类和包围框回归操作。由于预选框的位置通常是由模型回归得到的，一般来讲是浮点数，而池化后的特征图要求尺寸固定，所以ROI Pooling这一操作存在两次量化的过程，此时的候选框已经和最开始回归出来的位置有一定的偏差，这个偏差会影响检测或者分割的准确度。

ROI Align取消量化操作，使用双线性插值的方法获得坐标为浮点数的像素点上的图像数值，从而将整个特征聚集过程转化为一个连续的操作。整个过程中没有用到量化操作，没有引入误差，即原图中的像素和feature map中的像素是完全对齐的，没有偏差，这不仅会提高检测的精度，同时也会有利于实例分割。

SSD

《SSD: Single Shot MultiBox Detector》2016 ECCV

SSD能直接预测目标类别和Bounding Box。与Faster R-CNN相比，该算法不需要生成候选区域，这极大提高了检测速度。SSD对不同卷积层的特征图分别用两个不同的 3×3 的卷积核进行卷积，分别预测类别与边界框。对于宽高大的特征图，感受野小，锚框多，适合检测小的物体；而对于宽高小的特征图，感受野大，锚框少，则适合检测大的物体，这样能实现多尺度的目标检测。

YOLO

《YOLOv4: Optimal Speed and Accuracy of Object Detection》CVPR 2020

YOLOv1

YOLOv1把图像看成一个 $7\times7$ 的栅格，每个栅格预测2个边界框（包括位置、尺寸和置信度），总共输出98个边界框，通过非极大值抑制算法得到最后可靠的结果。

非极大值抑制算法大致分两步，（1）根据阈值去除那些置信度低的边界框，（2）挑选出最大置信度的边界框作为预测输出，去除与这个边界框的IoU超过0.5的其他候选框，如此确定了一个对象的边界框。重复此步直到没有剩余的边界框。

YOLOv1对相互靠的很近的物体，还有很小的群体检测效果不好，这是因为一个网格中只预测了两个框，并且只属于一类。同一类物体出现的新的不常见的长宽比和其他情况时，泛化能力偏弱。

YOLOv1对VGG最后几层进行了修改，最后的输出是 $7\times7\times30$ 的特征图。 $7\times7$ 代码49个栅格，30个channels中的前10个代表2个边界框的坐标(x, y, w, h)以及对象的置信度confidence，后20个代表VOC数据集的20个类别。

YOLOv2

YOLOv2借鉴了RPN网络，利用k-means聚类出 $k$ 种候选框的宽和高，在卷积特征图上进行滑窗操作，每一个中心可以预测 $k$ 种不同大小的候选框。在每一个卷积层后添加BN。添加了一个转移层，把浅层特征图连接到深层特征图，使特征图拥有更好的细粒度特征。YOLOv2使用了新的特征提取模型DarkNet19。使用不同尺寸的图像同时训练网络，增强模型的鲁棒性。

YOLOv3

YOLOv3对v2的改进主要有三点：（1）将置信度和坐标分开预测，坐标预测还是通过网络进行预测，而置信度则是单独通过逻辑回归进行预测。（2）使用新的特征提取模型DarkNet53。（3）借由FPN的思想，引用中间层的输出与后层输出进行融合，进行三个尺度预测，每个尺度预测3个Bounding Boxes，候选框大小的选择仍然使用聚类得到9种尺寸，将其按照大小均分给3个尺度。

YOLOv4

YOLOv4运用了非常多现有的实用技巧，例如：加权残差连接（WRC）、跨阶段部分连接（CSP)、跨小批量标准化（CmBN）、自对抗训练（SAT）、Mish激活、马赛克数据增强、CIoU Loss等，让精度也上了一个台阶。YOLOv4 = CSPDarknet53 + SPP + PANet + YOLOv3

YOLOv5

YOLOv5的模型架构是与v4非常相近，只是修改了部分参数。YOLOv4在性能上优于YOLOv5，但是在灵活性与速度上弱于YOLOv5。

FPN

《Feature Pyramid Networks for Object Detection》

FPN(特征金字塔)结构是自上而下的路径和横向连接去结合低层高分辨率的特征，把高层的特征传下来，补充低层的语义，可以获得高分辨率、强语义的特征，有利于小目标的检测。SSD只用网络中的最高层构建金字塔，放弃了低级特征，但这对于小目标分辨来说是非常重要的。FPN实现了从单尺度的单张输入图像，快速构建在所有尺度上都具有强语义信息的特征金字塔，同时损失不大。

CornerNet

《CornerNet: Detecting Objects as Paired Keypoints》2018 ECCV

CornerNet 是根据一对关键点来进行物体的检测的，即左上角坐标和右下角坐标，这种anchor-free的方法可以省去计算anchors花费的时间，提高了检测的速度和精度。CornerNet 为每个点分配一个embedding vector，属于同一物体的点的vector的距离较小，以匹配同一物体bounding box的左上角和右下角。

CornerNet使用了Corner Pooling，以建立点corner和目标的位置关系。当求解某一个点的 Top-left Corner Pooling时，就是以该点为起点，水平向右看遇到的最大值以及竖直向下看最大的值之和。

网络有两个分支，分别用于左上角和右下角。每个分支有三个输出（heatmaps、embeddings、offsets），共6个输出。heatmaps表示了不同类别的左上角和右下角的位置信息以及位置的置信度信息。embeddings用来衡量左上角和右下角的距离的，从而判断某一对角点是否属于同一个物体的两个角点。offsets用于调整预测角点和真实值的偏差，缓解heatmaps被降采样后，再升采样回去造成的精度损失。网络的backbone是Hourglass Network，是一种呈沙漏状的downsampling 和 upsampling组合，常被用在姿态估计任务中。

Neck

Neck是目标检测框架中承上启下的关键环节。它对Backbone提取到的重要特征，进行再加工及合理利用，有利于下一步head的具体任务学习，如分类、回归、keypoint、instance mask等常见的任务。

上下采样

该方法的特点是不具有特征层聚合性的操作，直接在多级特征图后接head。如果backbone输出的特征图在尺寸上是相同的，如DenseNet，则需要构造出各种大小的特征图来检测不同大小的物体。中间尺寸特征图直接使用，大尺寸特征图以尺寸变换层上采样获得，小尺寸特征图以池化获得。

路径聚合

由于深层特征图尺寸小，经过层层卷积下采样使得小物体的信息严重丢失，所以深层不利于小物体检测，就将小物体检测交给浅层来做。由于深层特征图具有非常丰富的语义信息，那么最好把深层特征再往浅层传，以增加浅层语义信息。这也是FPN是工作原理。
这类方法的共性就是反复利用各种上下采样、拼接、点和或点积，来设计聚合策略。

NAS搜索

这类方法利用神经网络搜索方法来搜索合适的聚合路径，但是搜索的时间成本极高，且数学可解释性低。最新的研究已表明，人工设计的路径聚合在精度上亦可超过NAS搜索出来的结构。

加权聚合

简单的聚合对所有参与的特征层都是一视同仁的，而实际上，这些来自不同层级的特征图对于单个物体而言，必然只有某一个是最适合检测它的，因此对聚合进行加权就显得尤为重要。ASFF就引入了可参与训练的加权因子来体现不同层级特征图的重要性。

非线性聚合

FPN以及其他的路径聚合法，都可视为是线性聚合。在《Deep Feature Pyramid Reconfiguration for Object Detection》一文中，作者建立了一种非线性聚合法。先把所有的层级特征图放在一起，然后学习多个非线性映射。非线性映射的学习模仿SENet的方法，带有注意力的味道。

增强小物体检测效果

采用特征金字塔、沙漏结构等网络子结构，来增强网络对多尺度尤其是小尺度特征的感知和处理能力；尽可能提升网络的感受野，使得网络能够更多地利用上下文信息来增强检测效果；减少网络总的下采样比例，使最后用于检测的特征分辨率更高。
提高小物体样本在总体样本中的比例；将图像缩小以生成小物体样本。
使用更大的输入图像尺寸。

常用损失函数

好的目标框回归损失应该考虑三个重要的几何因素：重叠面积，中心点距离，长宽比。

Smooth L1 Loss

L1 Loss 对 x 的导数为常数，在训练后期，x 很小时，若学习率不变，损失函数会在稳定值附近波动，很难收敛到更高的精度。
L2 Loss 对 x 的导数在 x 值很大时，其导数也很大，在训练初期不稳定。
Smooth L1 Loss 的公式为 $\text { smooth }_{L 1}(x)=\left\{\begin{array}{cc} 0.5 x^{2} & i f|x|<1 \\ |x|-0.5 & \text { otherswise } \end{array}\right.$ 结合了L1 Loss 和 L2 Loss 的优点，避开其缺点。缺点是计算损失时要独立求出4个点的 loss，然后相加得到最终的 bbox loss。没有考虑 box 的四个坐标之间的相关性。

IOU Loss

$\text { IoUloss }=-\ln \left(\operatorname{IoU}\left(b b o x_{g t}, b b o x_{\text {pred }}\right)\right)$
目标检测的常用评价方式是IoU，IOU Loss 可以反映预测框与目标框的相交情况。
缺点是：

当预测框与目标框不相交时，IOU 均为0，不能反映两个框距离的远近，此时损失函数不可导，IOU Loss 无法优化两个框不相交的情况。
当IoU值相同时，IoU值不能反映两个框是如何相交的。

GIOU Loss

$U-\frac{|C-| A \cup B \|}{C}， \operatorname{Loss}_{G I O U}=1-G I o U$

A 和 B 是预测框和目标框，C 是能够将 A 和 B 包围在内的最小封闭形状，计算 C 中没有覆盖 A 和 B 的面积占 C 总面积的比例。GIoU 的取值范围为[-1,1]，在两框重合时取最大值，在两框无限远时取最小值-1。GIoU不仅关注重叠区域，也关注非重叠区域，能更好反映两者的重合度。
缺点是当目标框完全包裹预测框时，IoU和GIoU相同，无法区分其相对位置。

DIOU Loss

$\operatorname{Loss}_{D I o U}=1-I o U+\frac{\rho^{2}\left(b, b^{g t}\right)}{c^{2}}$
其中 $\rho()$ 表示预测框和目标框中心点的欧式距离， $c$ 表示预测框和目标框最小外接矩形的对角线距离。

DIoU Loss在和目标框不重叠时，仍然可以为边界框提供移动方向；可以直接最小化两个目标框的距离。缺点是没有考虑长宽比。

CIOU Loss

$\operatorname{Loss}_{C I o U}=1-I o U+\frac{\rho^{2}\left(b, b^{k}\right)}{c^{2}}+\alpha v$
CIOU Loss 在 DIOU Loss 的基础上加了一个影响因子，其中 $\alpha=\frac{v}{(1-I o U)+v}$ ， $v=\frac{4}{\pi^{2}}\left(\arctan \frac{w^{g t}}{h^{\theta t}}-\arctan \frac{w}{h}\right)^{2}$

EIoU Loss

$\operatorname{Loss}_{E I O U}=1-I o U+\frac{\rho^{2}\left(b, b^{g t}\right)}{c^{2}}+\frac{\alpha^{2}\left(w, w^{g t}\right)}{C_{w}^{2}}+\frac{\rho^{2}\left(h, h^{g t}\right)}{C_{h}^{2}}$
EIoU Loss 将 CIoU Loss 中的 $\alpha v$ 替换成 $\frac{\alpha^{2}\left(w, w^{g t}\right)}{C_{w}^{2}}+\frac{\rho^{2}\left(h, h^{g t}\right)}{C_{h}^{2}}$

【人工智能基础2】Tramsformer架构、自然语言处理基础、计算机视觉总结 roman_日积跬步-终至千里人工智能习题人工智能自然语言处理计算机视觉
文章目录七、Transformer架构1.替代LSTM的原因2.Transformer架构：编码器-解码器架构3.Transformer架构原理八、自然语言处理基础1.语言模型基本概念2.向量语义3.预训练语言模型的基本原理与方法4.DeepSeek基本原理九、计算机视觉七、Transformer架构1.替代LSTM的原因处理极长序列时，效率下降：虽然LSTM设计的初衷是解决长期依赖问题，即让模型
MV-EB435i立体相机对垃圾分类开哥kg pytorch 深度学习卷积神经网络分类人工智能
最近在v社区发了一篇文章，懒得转移过来了链接：V社区-机器视觉技术交流社区-MV-EB435i立体相机对垃圾分类我觉得这篇文章对于刚入门深度学习想看点项目学点代码的刚刚好，因为我也是新手，嘻嘻嘻！希望这篇文章对大家有所帮助，如有错误请大家指正。
AI人工智能中的概率论与统计学原理与Python实战：Python实现概率模型 AI天才研究院 AI实战 AI大模型企业级应用开发实战大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能技术的不断发展，概率论与统计学在人工智能领域的应用越来越广泛。概率论与统计学是人工智能中的基础知识之一，它们在机器学习、深度学习、自然语言处理等领域都有着重要的作用。本文将介绍概率论与统计学的核心概念、算法原理、具体操作步骤以及Python实现方法，并通过具体代码实例进行详细解释。2.核心概念与联系2.1概率论与统计学的区别概率论是一门数学学科，它研究随机事件发生的可能性。
如何使用 Python 实现生成对抗网络 NoABug python 生成对抗网络 tensorflow
如何使用Python实现生成对抗网络生成对抗网络（GenerativeAdversarialNetwork，GAN）是一种能够生成高质量、逼真图像的深度学习模型。GAN模型由两个神经网络组成：一个生成器和一个判别器。生成器的任务是以噪声为输入，生成看似真实的图像；而判别器则需要根据输入的图像，判断该图像是真实的还是由生成器生成的。下面我们将通过Python代码来实现一个简单的GAN模型。首先，我们
GAN模型的Python应用——生成对抗网络代码编织匠人 python 生成对抗网络开发语言
GAN模型的Python应用——生成对抗网络生成对抗网络（GenerativeAdversarialNetwork，GAN）是深度学习中的一种重要模型，已经被广泛应用于图像、文本生成等领域。GAN模型由两个神经网络组成：生成器（Generator）和判别器（Discriminator）。生成器用于生成假样本，判别器用于评估真实性。两个神经网络相互博弈，通过一次次迭代训练，最终生成器可以生成足以骗过
如何使用Python实现生成对抗网络（GAN）「已注销」互联网前沿技术韩进的创作空间全栈开发知识库 python 生成对抗网络 tensorflow 深度学习数据分析
生成对抗网络（GAN）是一种深度学习模型，由两个部分组成：生成器和判别器。生成器负责生成与训练数据相似的新数据，而判别器负责判断输入数据是真实的还是由生成器生成的。这两个部分不断相互博弈，直到生成器能够生成非常逼真的数据，使判别器难以区分生成数据和真实数据。下面是一个简单的Python实现，使用TensorFlow和Keras库。在开始之前，请确保已经安装了TensorFlow和Keras。imp
【数学基础】线性代数#1向量和矩阵初步 -一杯为品- 数学线性代数矩阵
本系列内容介绍：主要参考资料：《深度学习》[美]伊恩·古德菲洛等著《机器人数学基础》吴福朝张铃著文章为自学笔记，仅供参考。目录标量、向量、矩阵和张量矩阵运算单位矩阵和逆矩阵线性相关和生成子空间范数特殊类型的矩阵和向量特征分解奇异值分解Moore-Penrose伪逆迹运算行列式标量、向量、矩阵和张量标量标量是一个单独的数。向量向量是一列有序排列的数：x=[x1x2⋮xn]\boldsymbolx=\
【北上广深杭大厂AI算法面试题】计算机视觉篇...详解目标检测中的多尺度训练和测试? 努力毕业的小土博^_^ AI算法题库人工智能计算机视觉算法深度学习神经网络目标检测
【北上广深杭大厂AI算法面试题】计算机视觉篇…详解目标检测中的多尺度训练和测试?【北上广深杭大厂AI算法面试题】计算机视觉篇…详解目标检测中的多尺度训练和测试?文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...详解目标检测中的多尺度训练和测试?前言多尺度训练核心思想：优点与注意点：多尺度测试核心思想：优点与注意点：综合作用参考示例总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上
【go从入门到精通】探秘struct结构体转json为什么需要首字母大写？前网易架构师-高司机 golang从入门到精通 golang json go 结构体首字母大写 golang从入门到精通 go从入门到精通
目录作者简介：问题抛出分析结论作者简介：高科，先后在IBMPlatformComputing从事网格计算，淘米网，网易从事游戏服务器开发，拥有丰富的C++，go等语言开发经验，mysql，mongo，redis等数据库，设计模式和网络库开发经验，对战棋类，回合制，moba类页游，手游有丰富的架构设计和开发经验。并且深耕深度学习和数据集训练，提供商业化的视觉人工智能检测和预警系统（煤矿，工厂，制造业
【动手学深度学习】#1PyTorch基础操作 -一杯为品- 机器学习深度学习人工智能
主要参考学习资料：《动手学深度学习》阿斯顿·张等著【动手学深度学习PyTorch版】哔哩哔哩@跟李牧学AI目录1.1数据操作1.1.1入门1.1.2运算符1.1.3广播机制1.1.4索引和切片1.1.5节省内存1.1.6转换为其他Python对象1.2数据预处理1.2.1读取数据集1.2.2处理缺失值1.2.3转换为张量格式1.3线性代数1.3.1标量1.3.2向量1.3.3矩阵1.3.4张量1.
AI 大模型应用数据中心建设：高性能计算与存储架构 AI智能涌现深度研究 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
AI大模型、数据中心、高性能计算、存储架构、分布式训练、GPU加速、数据管理1.背景介绍近年来，人工智能（AI）技术取得了飞速发展，特别是深度学习模型的突破性进展，催生了一系列基于大规模数据训练的强大AI模型，例如GPT-3、BERT、DALL-E等。这些AI大模型在自然语言处理、计算机视觉、语音识别等领域展现出强大的应用潜力，但也对计算资源和数据存储提出了极高的要求。传统的计算架构难以满足AI大
AI大模型学习路线：从入门到精通的完整指南【2025最新】 AI大模型-大飞人工智能学习大模型 LLM AI 程序员大模型学习
引言近年来，以GPT、BERT、LLaMA等为代表的AI大模型彻底改变了人工智能领域的技术格局。它们不仅在自然语言处理（NLP）任务中表现卓越，还在计算机视觉、多模态交互等领域展现出巨大潜力。本文旨在为开发者、研究者和技术爱好者提供一条清晰的学习路径，帮助读者逐步掌握大模型的核心技术并实现实际应用。一、基础阶段：构建知识体系数学与理论基础线性代数：矩阵运算、特征值与奇异值分解是大模型参数优化的基础
2025-03-15 学习记录--C/C++-PTA 练习3-4 统计字符小呀小萝卜儿学习-C/C++学习 c语言
合抱之木，生于毫末；九层之台，起于累土；千里之行，始于足下。一、题目描述⭐️练习3-4统计字符本题要求编写程序，输入10个字符，统计其中英文字母、空格或回车、数字字符和其他字符的个数。输入格式:输入为10个字符。最后一个回车表示输入结束，不算在内。输出格式:在一行内按照letter=英文字母个数,blank=空格或回车个数,digit=数字字符个数,other=其他字符个数的格式输出。输入样例:a
2025-03-13 学习记录--C/C++-PTA 练习2-9 整数四则运算小呀小萝卜儿学习-C/C++学习 c语言
合抱之木，生于毫末；九层之台，起于累土；千里之行，始于足下。一、题目描述⭐️练习2-9整数四则运算本题要求编写程序，计算2个正整数的和、差、积、商并输出。题目保证输入和输出全部在整型范围内。输入格式:输入在一行中给出2个正整数A和B。输出格式:在4行中按照格式“A运算符B=结果”顺序输出和、差、积、商。输入样例:32输出样例:3+2=53-2=13*2=63/2=1二、代码（C语言）⭐️#incl
从LLM出发：由浅入深探索AI开发的全流程与简单实践（全文3w字）码事漫谈 AI 人工智能
文章目录第一部分：AI开发的背景与历史1.1人工智能的起源与发展1.2神经网络与深度学习的崛起1.3Transformer架构与LLM的兴起1.4当前AI开发的现状与趋势第二部分：AI开发的核心技术2.1机器学习：AI的基础2.1.1机器学习的类型2.1.2机器学习的流程2.2深度学习：机器学习的进阶2.2.1神经网络基础2.2.2深度学习的关键架构2.3Transformer架构：现代LLM的核
java实现卷积神经网络CNN（附带源码） Katie。 Java 实战项目 java
Java实现卷积神经网络（CNN）项目详解目录项目概述1.1项目背景与意义1.2什么是卷积神经网络（CNN）1.3卷积神经网络的应用场景相关知识与理论基础2.1神经网络与深度学习概述2.2卷积操作与卷积层原理2.3激活函数与池化层2.4全连接层与损失函数2.5前向传播、反向传播与梯度下降项目需求与分析3.1项目目标3.2功能需求分析3.3性能与扩展性要求3.4异常处理与鲁棒性考虑系统设计与实现思路
从0到1构建AI深度学习视频分析系统--基于YOLO 目标检测的动作序列检查系统：（2）消息队列与消息中间件 shiter 人工智能系统解决方案与技术架构人工智能深度学习音视频
文章大纲原始视频队列Python内存视频缓存优化方案（4GB以内）一、核心参数设计二、内存管理实现三、性能优化策略四、内存占用验证五、高级优化技巧六、部署建议检测结果队列YOLO检测结果队列技术方案一、技术选型矩阵二、核心实现代码三、性能优化策略四、可视化方案对比五、部署建议逻辑判定队列时间片图论时间序列大模型引入参考文献原始视频队列想要在单机内存中缓存1-5分钟的视频片段，python技术栈的话
从零开始大模型开发与微调：PyCharm的下载与安装 AI天才研究院 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
从零开始大模型开发与微调：PyCharm的下载与安装1.背景介绍随着人工智能和深度学习技术的不断发展,大型语言模型(LargeLanguageModels,LLMs)已经成为当前最引人注目的研究热点之一。LLMs能够在各种自然语言处理任务上展现出惊人的性能,例如机器翻译、文本生成、问答系统等。PyTorch和TensorFlow等深度学习框架为训练和微调大型语言模型提供了强大的支持。PyCharm
遗传算法与深度学习实战（2）——生命模拟及其应用盼小辉丶遗传算法与深度学习实战深度学习人工智能遗传算法
遗传算法与深度学习实战（2）——生命模拟及其应用0.前言1.康威生命游戏1.1康威生命游戏的规则1.2实现康威生命游戏1.3空间生命和智能体模拟2.实现生命模拟3.生命模拟应用小结系列链接0.前言生命模拟是进化计算的一个特定子集，模拟了自然界中所观察到的自然过程，例如粒子或鸟群的聚集方式。生命模拟只是用来探索和优化问题的模拟形式之一，还有很多其他形式的模拟，可以更好地建模各种过程，但它们都源于康威
PyTorch从入门到精通：探索深度学习新境界 lmtealily 深度学习 pytorch 人工智能
引言PyTorch作为当前最受欢迎的深度学习框架之一，凭借其动态计算图的独特设计和与Python生态的无缝集成，正重塑着人工智能开发的新范式1。从NVIDIA的研究实践到Meta的产业应用，PyTorch的价值已渗透至学术研究、工业部署的每个角落。本文将带领您从张量操作基础开始，逐步探索GPU加速、动态图机制、框架生态集成等高级主题，最终实现理论与实战的双重突破。一、PyTorch核心基础构建1.
【Python】已解决：pip安装第三方模块（库）与PyCharm中不同步的问题（PyCharm添加本地python解释器）屿小夏 python pip pycharm
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
Linux 命令学习记录 hxung 面试学习使用 linux 学习运维
Linux命令详解与进阶指南Linux是一种广泛使用的开源操作系统，掌握Linux命令是开发者和系统管理员的必备技能。本文将详细介绍Linux的常用命令，并涵盖一些高级进阶技巧，帮助你更高效地使用Linux。目录基础命令文件与目录操作文本处理系统信息权限管理进阶命令进程管理网络操作磁盘管理Shell脚本高级技巧管道与重定向正则表达式任务调度性能监控案例实战日志分析自动化部署服务器监控基础命令文件与
YOLOv5+UI界面在车辆检测中的应用与实现深度学习&目标检测实战项目 YOLOv5实战项目 YOLO ui 分类数据挖掘目标跟踪人工智能
1.引言随着智能交通系统（ITS）的快速发展，车辆检测已成为计算机视觉领域的重要研究方向。车辆检测技术广泛应用于交通流量监控、车辆违章抓拍、无人驾驶等场景中。近年来，深度学习技术的突破，特别是卷积神经网络（CNN）的崛起，使得目标检测技术取得了显著进展。其中，YOLO（YouOnlyLookOnce）系列模型以其高效的实时检测能力和出色的性能成为车辆检测领域的首选方法之一。在本文中，我们将基于YO
DeepSeek：技术教育领域的AI变革者——从理论到实践的全面解析量子纠缠BUG DeepSeek DeepSeek部署 AI 人工智能 python
一、技术教育为何需要DeepSeek？在数字化转型的浪潮下，技术教育面临着知识更新快、实践门槛高、个性化需求强三大核心挑战。传统的教学模式难以满足开发者快速掌握前沿技术、构建复杂系统能力的需求。DeepSeek作为国产开源大模型的代表，凭借其推理能力、多模态支持与低成本部署的特性，正在为技术教育带来突破性解决方案。二、DeepSeek赋能技术教育的核心技术优势1.推理能力驱动深度学习思维链（CoT
【人工智能基础2】机器学习、深度学习总结 roman_日积跬步-终至千里人工智能习题人工智能机器学习深度学习
文章目录一、人工智能关键技术二、机器学习基础1.监督、无监督、半监督学习2.损失函数：四种损失函数3.泛化与交叉验证4.过拟合与欠拟合5.正则化6.支持向量机三、深度学习基础1、概念与原理2、学习方式3、多层神经网络训练方法一、人工智能关键技术领域基础原理与逻辑机器学习机器学习基于数据，研究从观测数据出发寻找规律，利用这些规律对未来数据进行预测。基于学习模式，机器学习可以分为监督、无监督、强化学习
一文搞懂 AI Agent 与 AI 大模型的区别 a小胡哦人工智能 Manus Ai agent
在人工智能蓬勃发展的当下，新术语和新技术层出不穷。AIAgent和AI大模型便是其中的“明星”，但不少人对它们的区别感到困惑。今天，我们就以Manus这类AIAgent为例，深入剖析AIAgent与一般AI大模型的不同之处。Manus：Manus定义与核心能力AI大模型AI大模型是基于深度学习架构，通过海量数据训练得到的复杂模型，像GPT-4、文心一言等。它们具备强大的知识储备和语言理解生成能力，
清华大学《DeepSeek赋能家庭教育》深度解析：AI如何重塑现代家庭教育模式硅基打工人 AI 人工智能经验分享大数据开源语言模型
引言：家庭教育的困境与AI的破局在数字化与智能化浪潮下，家庭教育面临多重挑战：家长教育能力不足、教育资源分配不均、亲子沟通效率低下、个性化需求难以满足等。清华大学发布的《DeepSeek赋能家庭教育》系列报告（共56页）提出了一种基于人工智能的解决方案，通过深度学习平台DeepSeek，为家庭教育注入科技动能。本文将从技术原理、核心功能、应用场景、伦理安全及未来展望等多维度展开分析。一、DeepS
# Manim学习记录（2）鼠鼠emo了捏 python numpy vscode 数学建模
第一个案例GraphingMovement这个开始再坐标轴上画函数图像以及移动frommanimimport*classGraphingMovement(Scene):defconstruct(self):axes=Axes(x_range=[0,5,1],#x轴范围：从0到5，刻度间隔为1y_range=[0,3,1],#y轴范围：从0到3，刻度间隔为1x_length=5,#x轴长度为5（单位
热门AI创作助手推荐【第一期】量子星澜文心一言 AI写作 chatgpt
星游AI创作助手人工智能在现代科技中的应用非常广泛，涵盖了诸多领域，包括但不限于以下几个方面：1.语音识别和自然语言处理：人工智能技术被广泛应用于语音识别和自然语言处理领域，例如智能助手、翻译系统、语音交互系统等。2.机器学习和数据分析：人工智能的机器学习算法被用于数据分析、预测建模、用户个性化推荐等领域，帮助企业做出更准确的商业决策。3.计算机视觉：人工智能在计算机视觉领域的应用包括图像识别、视
MySQL理论八股的学习记录不吃元西好记性不如烂笔头 mysql 学习数据库
什么是MySQLMySQL是一种关系型数据管理系统数据库三大范式是什么？第一范式（1NF）：要求数据库表的每一列都是不可分割的原子数据项。第二范式（2NF）：在1NF的基础上，非码属性必须完全依赖于候选码（在1NF基础上消除非主属性对主码的部分函数依赖）第二范式需要确保数据库表中的每一列都和主键相关，而不能只与主键的某一部分相关（主要针对联合主键而言）。第三范式（3NF）：在2NF基础上，任何非主
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod