Struart_R

目标检测（2）--YOLOV3、YOLOV3SPP

目录

（一）YOLOV3

一、导论

二、基本思想

1、backbone的改进

2、针对多尺度预测编辑

3、bounding box预测

4、正负样本的匹配

5、多标签分类

三、损失函数

（二）YOLOV3 SPP

一、导论

二、SPP模块

三、Mosaic图像增强

四、DIOU

五、Focal loss

（一）YOLOV3

一、导论

YOLOV3：An Incremental Improvement,是Joseph Redmon在2018年CVPR中发表的新一篇论文，对于从YOLOV2到YOLOV3来说，主要改进了原来darknet-19网络结构为darknet-53，使用逻辑回归代替了softmax，提高了目标检测的准确性。

YOLOV3相比于其他模型的准确率与反应时间的提升：

二、基本思想

1、backbone的改进

（1）将原来darknet-19网络结构改进为为darknet-53。

（2）convolutional和residual模块为：

（3）concatenate层将darknet-53中的中间层与up sampling上采样后进行张量拼接，达到多尺度特征融合的目的，会扩充张量的维度。而相比与残差层的add步骤，add是不会导致张量增加，只是直接的相加操作。

（4）相比与darknet-19来说，用卷积层进行下采样替代了maxpooling层，在每一个卷积层后都加入了BN层好Leaky ReLU激活函数以防过拟合，引入Residual残差网络以免梯度消失或爆炸。

2、针对多尺度预测

为了应对多尺度预测的目标，YOLOV3通过darknet-53中的中间层与网络外多次up sampling的输出进行拼接，并通过再卷积生成三个预测特征矩阵输出，以预测大中小三种不同尺寸的目标。由于YOLOV3选择三种不同的shape进行输入，则预测的anchors就有9种，原论文利用coco数据集并通过K-means聚类算法得出下面的anchors尺寸。

由原论文可知，每个边界框需要五个参数即x,y,w,h,confidence（置信度），类别总数为80类，对于N*N的特征矩阵，网络输出张量为N*N*(3*(4+1+80))

三个特征矩阵输出为[13,13,255]、[26,26,255]、[52,52,255]。

3、bounding box预测

boundingbox预测仍然遵循YOLOV2的目标边界框预测方式。

4、正负样本的匹配

针对每一个GT层都会分配一个正样本，与GT层重合程度最大的bounding box prior作为其正样本，如果bounding box与GT层重合但不是最大，但是又超过了某一阈值（threshold），则会丢弃这一样本。除了正样本以外均作为负样本，负样本只有目标损失，不存在置信度损失和分类损失。

5、多标签分类

YOLOV3将YOLOV2中单标签分类预测改进为多标签分类预测，使用逻辑回归（sigmoid函数）替代原来的softmax作为逻辑分类器。YOLOV2中，算法只认定某一目标从属于特定一个类别，根据网络输出类别得分最大值归属于该类，而在复杂场景下，某一目标可能从属于多个类别，甚至存在嵌套类别，即泛类，而通过sigmoid函数，可以将输出约束到0 to 1，当某一目标的输出经过函数处理后的值大于设定阈值，则认定该目标框所对应的目标所属于该类，完成多标签分类。

三、损失函数

YOLOV3损失函数=目标置信度损失+目标分类损失+目标定位偏移量损失

$L(o,c,O,C,l,g)=\lambda _{1}L_{conf}(o,c)+\lambda_{2}L_{cla}(O,C)+\lambda_{3}L_{loc}(l,g)$

置信度损失：

采用二值交叉熵损失，其中使用Sigmoid函数计算c^i，表示预测目标矩形框i内存在目标的sigmoid概率。O^i∈（0,1），0表示边界框i中不存在真实目标，1表示存在。

$L_{conf}(o,c)=-\Sigma(o_{i}ln(\hat{c}_{i}))+(1-o_{i})ln(1-\hat{c}_{i})$

$\hat{c}_{i}=Sigmoid(c_{i})$

目标分类损失：

采用二值交叉熵损失，将同一目标同时归为多类，来应对更复杂的场景。C^ij表示网络预测目标边界框i内存在第j类目标的Sigmoid概率，O^ij∈（0,1）表示预测目标边界框i中是否真实存在第j类目标。

$L_{cla}(O,C)=-\sum_{i\in Pos}\sum_{j\in cla}(O_{ij}ln(\hat{C}_{ij})+(1-O_{ij})ln(1-\hat{C}_{ij}))$

$\hat{C}_{i}=Sigmoid(C_{i})$

目标定位偏移量损失：

采用真实偏差值与与偏差值差值的平方和，其中l表示预测矩形框的坐标偏移量，g-hat表示GT box与默认框的坐标偏移量，g表示真实目标框参数，b表示bounding box与默认框的坐标偏移量，c和p表示默认矩形框参数。

$L_{loc}(l,g)=\sum_{i\in pos} \sum_{m\in {x,y,w,h}}(\hat{l}_{i}^{m}-\hat{g}_{i}^{m})^{2}$

$\hat{l}_{i}^{x}=b_{i}^{x}-c_{i}^{x},\hat{l}_{i}^{y}=b_{i}^{y}-c_{i}^{y}$

$\hat{l}_{i}^{w}=log(b_{i}^{w}/p_{i}^{w}),\hat{l}_{i}^{h}=log(b_{i}^{h}/p_{i}^{h})$

$\hat{g}_{i}^{x}=g_{i}^{x}-c_{i}^{x},\hat{g}_{i}^{y}=g_{i}^{y}-c_{i}^{y}$

$\hat{g}_{i}^{w}=log(g_{i}^{w}/p_{i}^{w}),\hat{g}_{i}^{h}=log(g_{i}^{h}/p_{i}^{h})$

参考视频：yolov3理论讲解_哔哩哔哩_bilibili

参考文献：https://pjreddie.com/media/files/papers/YOLOv3.pdf

（二）YOLOV3 SPP

一、导论

YOLOV3 SPP在YOLOV3基础上添加了若干trick模块，其中重要的改进有SPP模块，Mosaic图像增强，CIOU替代IOU来计算交并比。

二、SPP模块

SPP模块借鉴空间金字塔思想，实现局部特征和全局特征的融合。如图可知，SPP模块由四个分支组成，且SPP模块在下面三个输出特征层之上，而非在每一个上采样后都加入SPP模块（理论上这种方式可以优化，但是换来更长的响应时间），在经过SPP模块后，张量中channel应变为原来的4倍，B,H,W不变。

下图为使用不同的trick后的响应时间和识别效果的参数，其中SPP3为使用三个spp模块，上文提到的括号中的形式。

SPP空间金字塔网络：George Mason Federated Login Service

三、Mosaic图像增强

Mosaic图像增强方法来源于YOLOV4原论文中，主要思想通过将四张图片随机裁剪，再拼接到一张图片上作为训练数据，这种做法丰富了图片的背景，并且四张图片拼接在一起提高了batch_size，在进行batch normalization的时候也会计算四张图片，所以降低了对batch_size的依赖性。

四、DIOU

YOLOV3 SPP中使用了更为贴近目标框的DIOU损失函数计算方式

回归损失最重要的三个参数：重叠面积、中心点距离、长宽比，而CIOU做到了更为贴近真实情况的损失函数计算方法，但在YOLOV3 SPP中未达到明显效果，固使用DIOU。

IOU、GIOU、DIOU、CIOU损失函数：一文详解目标检测损失函数：IOU、GIOU、DIOU、CIOU_视学算法的博客-CSDN博客

五、Focal loss

由于一张图像中能够匹配到目标的候选框（正样本）个数一般只有十几个或者几十个，而未被匹配的候选框（负样本）大概有数万个，在这些负样本中，大部分都是简单易分的，对训练网络起不到作用，但由于数量太多会淹没掉少量但有助于训练的样本。

提出hard negative mining思想，通过预分类记录其对应特征和分类器得到的概率，对其重新训练，按概率值进行排序，再使用排序后的对应特征重新训练分类器，并多次迭代的方法，来实现样本选择。

在YOLOV3 SPP中，使用Focal Loss通过对损失函数计算中二值交叉熵损失添加因子γ来降低易分负样本的损失贡献。

$FL(p_{t})=-\alpha_{t}(1-p_{t})^{\gamma}log(p_{t})$

$p_t=\left\{\begin{matrix}p \qquad\quad if \quad y=1 \\ 1-p \quad otherwise \end{matrix}\right.$

六、利用YOLOV3模型实时目标检测

注意：该代码只能用权重文件后缀为weights的，后缀为pt或pth的需要转换。

import numpy
import cv2
import os
import time

yolo_dir = 'D:/PycharmProjects/Yolo3_spp'  # YOLO文件路径
weightsPath = os.path.join(yolo_dir, 'weights','yolov3.weights')  # 权重文件
configPath = os.path.join(yolo_dir, 'cfg','yolov3.cfg')  # 配置文件
labelsPath = os.path.join(yolo_dir, 'data','coco.names')  # label名称windows darknet python
imgPath = os.path.join(yolo_dir, 'test_1.jpeg')  # 测试图像
CONFIDENCE = 0.5  # 过滤弱检测的最小概率
THRESHOLD = 0.4  # 非最大值抑制阈值

net = cv2.dnn.readNet(configPath, weightsPath)
print("[INFO] loading YOLO from disk...")  # # 可以打印下信息

clicked = False


def onMouse(event, x, y, flags, param):
    global clicked
    if event == cv2.EVENT_LBUTTONUP:
        clicked = True

#cameraCapture=cv2.VideoCapture('video_2.m4s')   #检测所提供的视频
cameraCapture = cv2.VideoCapture(0)  # 打开编号为0的摄像头
cv2.namedWindow('detected image')  # 给视频框命名
cv2.setMouseCallback('detected image', onMouse)
print ('显示摄像头图像，点击鼠标左键或按任意键退出')
success, frame = cameraCapture.read()

while success and cv2.waitKey(1) == -1 and not clicked:  # 当循环没结束，并且剩余的帧数大于零时进行下面的程序
    # 加载图片、转为blob格式、送入网络输入层
    blobImg = cv2.dnn.blobFromImage(frame, 1.0 / 255.0, (416, 416), None, True,
                                False)  # # net需要的输入是blob格式的，用blobFromImage这个函数来转格式
    net.setInput(blobImg)  # # 调用setInput函数将图片送入输入层

    # 获取网络输出层信息（所有输出层的名字），设定并前向传播
    outInfo = net.getUnconnectedOutLayersNames()  # # 前面的yolov3架构也讲了，yolo在每个scale都有输出，outInfo是每个scale的名字信息，供net.forward使用
    start = time.time()
    layerOutputs = net.forward(outInfo)  # 得到各个输出层的、各个检测框等信息，是二维结构。
    end = time.time()
    print("[INFO] YOLO took {:.6f} seconds".format(end - start))  # # 可以打印下信息

    # 拿到图片尺寸
    (H, W) = frame.shape[:2]
    # 过滤layerOutputs
    # layerOutputs的第1维的元素内容: [center_x, center_y, width, height, objectness, N-class score data]
    # 过滤后的结果放入：
    boxes = []  # 所有边界框（各层结果放一起）
    confidences = []  # 所有置信度
    classIDs = []  # 所有分类ID

    # # 1）过滤掉置信度低的框框
    for out in layerOutputs:  # 各个输出层
        for detection in out:  # 各个框框
            # 拿到置信度
            scores = detection[5:]  # 各个类别的置信度
            classID = numpy.argmax(scores)  # 最高置信度的id即为分类id
            confidence = scores[classID]  # 拿到置信度

            # 根据置信度筛查
            if confidence > CONFIDENCE:
                box = detection[0:4] * numpy.array([W, H, W, H])  # 将边界框放会图片尺寸
                (centerX, centerY, width, height) = box.astype("int")
                x = int(centerX - (width / 2))
                y = int(centerY - (height / 2))
                boxes.append([x, y, int(width), int(height)])
                confidences.append(float(confidence))
                classIDs.append(classID)

    # # 2）应用非最大值抑制(non-maxima suppression，nms)进一步筛掉
    idxs = cv2.dnn.NMSBoxes(boxes, confidences, CONFIDENCE, THRESHOLD)  # boxes中，保留的box的索引index存入idxs
    # 得到labels列表
    with open(labelsPath, 'rt') as f:
        labels = f.read().rstrip('\n').split('\n')
    # 应用检测结果
    numpy.random.seed(42)
    COLORS = numpy.random.randint(0, 255, size=(len(labels), 3),
                                  dtype="uint8")  # 框框显示颜色，每一类有不同的颜色，每种颜色都是由RGB三个值组成的，所以size为(len(labels), 3)
    if len(idxs) > 0:
        for i in idxs.flatten():  # indxs是二维的，第0维是输出层，所以这里把它展平成1维
            (x, y) = (boxes[i][0], boxes[i][1])
            (w, h) = (boxes[i][2], boxes[i][3])

            color = [int(c) for c in COLORS[classIDs[i]]]
            cv2.rectangle(frame, (x, y), (x + w, y + h), color, 2)  # 线条粗细为2px
            text = "{}: {:.4f}".format(labels[classIDs[i]], confidences[i])
            cv2.putText(frame, text, (x, y - 5), cv2.FONT_HERSHEY_SIMPLEX, 0.5, color,
                        2)  # cv.FONT_HERSHEY_SIMPLEX字体风格、0.5字体大小、粗细2px
    cv2.imshow('detected image', frame)
    success, frame = cameraCapture.read()  # 摄像头获取下一帧
cv2.destroyWindow('detected image')
cameraCapture.release()

通过行人行走视频检测当前视频中的行人，但是由于YOLOV3的FPS较低，所以检测视频极其卡顿。

参考视频：yolov3spp理论讲解(包括CIoU以及Focal Loss)_哔哩哔哩_bilibili

你可能感兴趣的:(目标检测专栏,目标检测,计算机视觉,人工智能,深度学习,神经网络)

一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
AIOps：解决企业IT挑战的智能利器雅菲奥朗认证培训 AIOps SRE 可观测性
前言：在当今数字化的时代，企业IT基础设施和应用程序规模不断扩大，面临着日益复杂的挑战。在这种情况下，AIOps人工智能运维成为解决企业IT运维困境的智能利器。AIOps与可观测性密切相关，可观测性是实现AIOps的基础。通过收集、监视和理解系统数据，AIOps能够自动化运维任务、实时监控系统状态、预测潜在问题，从而提高效率和稳定性。AIOps尤其适用于IT运维部门，这是一个迫切需要此类技术的群体
Android端ReactNative环境搭建——上 hzulwy reactnative react native android react.js
前言最近一年，因为公司业务需要，部门引入了rn这门跨段技术来开发业务需求。从去年部门大佬调研rn这个框架到现在已有超过一年的时间了。而我从当时毕业不到1年的小白成长到现在负责维护项目的Android端代码的主力。同时，自己对rn相关的技术有了不少理解。因此，想要分享一些知识点，希望可以帮助到大家。我会以一个专栏的方式述说在这一年当中使用rn开发需求遇到的困难。大家可以借鉴参考下，共同进步！！！使用
使用AIOps进行更好的事件管理茵赛飞3D CAD数据转换软件 pagerduty devops 人工智能运维
DevOps为科技界带来了更加协作和高效的工作流程。随着AIOps的集成，自动化更进一步，使用人工智能为团队提供更快的根本原因分析和算法降噪。主要从采用AIOps中受益的主要领域之一是事件管理。AIOps可以帮助DevOps团队自动化工作流程，以实现更智能、更高效的事件管理，从而腾出时间让IT运营团队成员专注于创新以改善用户体验。在本文中，我们将了解AIOps如何从检测和识别到响应改进事件管理，以
AI大模型编程能力对比：Deepseek&Claude&Gemini 黑夜路人（heiyeluren） AI人工智能人工智能 ai AIGC 语言模型
在当今快速发展的技术领域，人工智能（AI）模型在编程和数据处理方面的应用越来越广泛。不同的AI模型因其独特的设计理念和技术优势，适用于不同的编程任务和场景。本文将对三种主流的AI模型——DeepSeekv3、GeminiFlash2.0和Claude3.5Sonnet的编程能力进行详细对比，帮助读者根据具体需求选择最合适的工具。同时对DeepSeekv3、GeminiFlash2.0和Claude
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法你觉得205 人工智能机器学习大数据 ai 知识图谱 python 运维
导读INTRODUCTION今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek技术前沿与应用”的报告。本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务，本身也蕴含大量知识，如地理信息、语义理解和推理能力。随着技术的发展，尤其是trans
计算机基础：编码01，无符号数编码水饺编程 MFC学习笔记 Win32学习笔记 mfc c++visual studio windows
专栏导航本节文章分别属于《Win32学习笔记》和《MFC学习笔记》两个专栏，故划分为两个专栏导航。读者可以自行选择前往哪个专栏。（一）WIn32专栏导航上一篇：计算机基础：二进制基础13，十六进制与二进制的相互转换回到目录下一篇：计算机基础：编码02，有符号数编码，原码（二）MFC专栏导航上一篇：计算机基础：二进制基础13，十六进制与二进制的相互转换回到目录下一篇：计算机基础：编码02，有符号数编
DeepSeek 如何处理多模态数据（如文本、图像、视频）？借雨醉东风人工智能
关注我，持续分享逻辑思维&管理思维&面试题；可提供大厂面试辅导、及定制化求职/在职/管理/架构辅导；推荐专栏《10天学会使用asp.net编程AI大模型》，目前已完成所有内容。一顿烧烤不到的费用，让人能紧跟时代的浪潮。从普通网站，到公众号、小程序，再到AI大模型网站。干货满满。学成后可接项目赚外快，绝对划算。不仅学会如何编程，还将学会如何将AI技术应用到实际问题中，为您的职业生涯增添一笔宝贵的财富
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
Python 爬虫实战：从知乎盐选专栏，爬取优质内容付费数据西攻城狮北 python 爬虫开发语言实战案例知乎
目录一、前言二、准备篇2.1确定目标2.2工具与库2.3法律与道德声明三、实战篇3.1分析知乎盐选专栏页面3.2模拟登录3.3获取文章列表3.4爬取更多文章数据3.5数据存储四、分析篇4.1数据清洗4.2热门文章分析4.3收藏数分析4.4评论数分析五、总结与展望六、注意事项一、前言知乎盐选专栏作为知乎平台上的优质内容付费板块，汇聚了众多创作者的高质量文章。了解这些文章的付费数据，如点赞数、收藏数、
编程内容简述！恶霸不委屈开发语言青少年编程汇编 java python
编程是指通过计算机语言来开发软件、程序和应用的过程，通常通过编写一系列的指令，来让计算机完成特定的任务。编程可以涉及多个领域和技术，以下是一些主要的编程内容：1.编程语言编程语言是程序员与计算机进行沟通的桥梁，不同的编程语言适用于不同的任务。常见的编程语言有：Python：简单易学，适用于数据分析、人工智能、网页开发等。JavaScript：网页开发中不可或缺的语言，用于动态网页和前端开发。Jav
【图像去噪】论文精读：CVPR 2025 | DnLUT: Ultra-Efficient Color Image Denoising via Channel-Aware Lookup Tables 十小大图像去噪深度学习计算机视觉人工智能图像处理论文阅读论文笔记
请先看【专栏介绍文章】：【图像去噪（ImageDenoising）】关于【图像去噪】专栏的相关说明，包含适配人群、专栏简介、专栏亮点、阅读方法、定价理由、品质承诺、关于更新、去噪概述、文章目录、资料汇总、问题汇总（更新中）文章目录前言Abstract1.Introduction2.Relatedworks2.1.ColorImagedenoising2.2.ReplacingCNNwithLUT3
《Solidity智能合约开发：从零到一实战指南》大纲白马区块Crypto100 智能合约
为什么要学Solidity智能合约？在过去几年，区块链从一种“投机工具”进化为一种全新的技术基础设施。无论是NFT、DeFi、GameFi还是DAO，它们的核心都是——智能合约。✨什么是智能合约？智能合约是运行在区块链上的“自动执行程序”，不用依赖中介或第三方，信任直接写进代码里。而Solidity是智能合约开发的“通用语言”。为什么要做这个专栏？做区块链项目的人越来越多，但真正从零系统学习Sol
大模型Agent 和 RAG 的关系大数据追光猿大模型语言模型人工智能学习方法 transformer
Agent和RAG（Retrieval-AugmentedGeneration）是两种在自然语言处理（NLP）和人工智能领域中广泛使用的技术，它们在功能、目标和实现方式上既有区别又有联系。以下是它们的关系及其协同作用的详细分析。1.Agent和RAG的定义（1）Agent定义：Agent是一种智能体，能够感知环境并采取行动以完成特定任务。在NLP领域，Agent通常指一个基于大语言模型（LLM）的
国产模型能否挑战 GPT-4？一文拆解 DeepSeek-V3 架构与实战应用 AI筑梦师人工智能学习框架架构深度学习 python agi 人工智能 tensorflow
✳️一、引言✅1.1DeepSeek-V3发布背景与定位随着大模型技术的快速演进，从GPT-3到GPT-4，全球在通用人工智能方向取得了长足进展。但与此同时，开源社区始终缺乏一个真正兼顾性能、效率、中文能力和实用性的高质量大模型。DeepSeek-V3的推出正是在这个背景下的一次关键突破。DeepSeek-V3是由中国团队DeepSeek开发的第三代大语言模型，它具备以下几个核心特性：开源可商用：
Agent、RAG、LangChain的概念及作用北极冰雨大模型人工智能
Agent：概念：在人工智能中，Agent通常指的是能够执行任务或做出决策的实体，可以是简单的程序，也可以是复杂的系统，如自动化客服助手、推荐系统等，甚至可以是软件代理、机器人或虚拟助手等各种形式。作用：它能利用内置的大语言模型来做出规划，决定执行哪些步骤，以及每个步骤需要调用哪些工具（如RAG），之后调用相应的工具，最终完成任务。例如，在客服问答场景中，Agent可以根据用户的问题，规划出需要查
AtCoder备赛冲刺必刷题（C++） | 洛谷 AT_abc396_a Triple Four 热爱编程的通信人 c++算法开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：AT_abc396_a[ABC396A]
AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
DeepSeek多语言AI高效应用实践智能计算研究中心其他
内容概要在人工智能技术快速迭代的背景下，DeepSeek系列模型凭借混合专家架构（MoE）与670亿参数规模，在多语言处理、视觉语言理解及复杂任务生成领域实现了突破性进展。本文系统性拆解其技术架构设计逻辑，聚焦论文写作、代码生成、SEO关键词拓展三大核心场景，分析模型在高生成质量、低使用成本维度的差异化优势。技术维度DeepSeekProver传统单模态模型多语言支持97种语言动态切换单一语种优化
LabVIEW实现LoRa通信不脱发的程序猿 LabVIEW物联网开发实战 labview
目录1、LoRa通信原理2、硬件环境部署3、程序架构4、前面板设计5、程序框图设计6、测试验证本专栏以LabVIEW为开发平台，讲解物联网通信组网原理与开发方法，覆盖RS232、TCP、MQTT、蓝牙、Wi-Fi、NB-IoT等协议。结合实际案例，展示如何利用LabVIEW和常用模块实现物联网系统的快速开发与原型设计，助你从基础到实战，全面掌握物联网开发技能。开源免费LabVIEW学习专栏分享：L
【第1章＞第6节】CMAC小脑模型神经网络的理论学习与MATLAB仿真 fpga和matlab #第1章·神经网络学习 matlab CMAC 小脑模型神经网络人工智能
目录1.使用软件和版本2.CMAC小脑模型神经网络概述2.1CMAC网络结构2.2CMAC地址映射2.3学习过程3.CMAC网络的MATLAB编程实现4.分辨率，重叠度，学习率对CMAC网络的训练性能影响分析4.1分辨率4.2重叠度4.3学习率5.视频操作步骤演示欢迎订阅FPGA/MATLAB/Simulink系列教程《★教程1:matlab入门100例》《★教程2:fpga入门100例》《★教程
AI大模型训练教程 Small踢倒coffee_氕氘氚 python自学经验分享笔记
1.引言随着人工智能技术的快速发展，大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。训练一个大模型需要大量的计算资源、数据和专业知识。本教程将带你了解如何从零开始训练一个AI大模型。2.准备工作2.1硬件要求GPU：推荐使用NVIDIA的高性能GPU，如A100、V100等。内存：至少64GBRAM。存储：SSD存储，至少1TB。#2.2软件环境操作系统：Lin
使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
Opencv之计算机视觉一闭月之泪舞计算机视觉计算机视觉 opencv python
一、环境准备使用opencv库来实现简单的计算机视觉。需要安装两个库：opencv-python和opencv-contrib-python，版本可以自行选择，注意不同版本的opencv中的某些函数名和用法可能不同pipinstallopencv-python==3.4.18.65-ihttps://pypi.tuna.tsinghua.edu.cn/simplepipinstallopencv-
计算机视觉总结 Trank-Lw 计算机视觉深度学习人工智能
以下是针对上述问题的详细解答，并结合代码示例进行说明：1.改进YOLOv5人脸检测模块，复杂光照场景准确率从98.2%提升至99.5%优化具体过程：光照补偿：在数据预处理阶段，采用自适应光照补偿算法，对图像进行实时增强，以减少光照变化对人脸检测的影响。数据增强：在训练数据中增加复杂光照场景下的样本，如强光、弱光、背光等，通过数据增强提高模型对不同光照条件的适应性。模型调整：对YOLOv5模型的网络
英伟达常用GPU参数速查表，含B300..... Ai17316391579 深度学习服务器人工智能机器学习服务器电脑计算机视觉深度学习神经网络
英伟达常用GPU参数速查表，收藏备用：含RTX5090、RTX4090D、L40、L20、A100、A800、H100、H800、H20、H200、B200、B300、GB300.....专注于高性能计算人工智能细分领域kyfwq001#5090##4090##英伟达“新核弹”B200发布##英伟达##英伟达B300##GPU##服务器##显卡##英伟达H800/A800芯片将禁售#
深度学习 Deep Learning 第8章深度学习优化 odoo中国 AI编程人工智能深度学习人工智能优化
深度学习第8章深度学习的优化章节概述本章深入探讨了深度学习中的优化技术，旨在解决模型训练过程中面临的各种挑战。优化是深度学习的核心环节，直接关系到模型的训练效率和最终性能。本章首先介绍了优化在深度学习中的特殊性，然后详细讨论了多种优化算法，包括随机梯度下降（SGD）、动量法、Nesterov动量法、AdaGrad、RMSProp和Adam等。此外，还探讨了参数初始化策略、自适应学习率方法以及二阶优
【零基础入门】一篇弄懂nn.Sequential以及ModuleList的使用（呕心沥血版）十二月的猫 PyTorch深度学习 pytorch 零基础入门
个人主页：十二月的猫-CSDN博客系列专栏：《PyTorch科研加速指南：即插即用式模块开发》CSDN博客十二月的寒冬阻挡不了春天的脚步，十二点的黑夜遮蔽不住黎明的曙光目录1.前言2.Sequential类的使用2.1序列容器简单注入2.2序列容器字典注入2.3序列容器函数注入2.4序列容器修改2.5序列容器删除3.nn.ModuleList()的使用3.1定义模型3.2使用模型4.总结1.前言《
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他