wa1tzy

DeepLearing—CV系列（十四）——YOLOv5理论详解+Pytorch源码解析

文章目录

一、前言——从YOLOv3到YOLOv5
二、代码解析

2.1 运行起来项目 detect.py
2.2 网络结构 models/yolo.py
2.3 配置文件 yolov5s.yaml
2.4 网络子结构 models/common.py

2.4.1 Conv与Focus
2.4.2 Bottleneck与BottleneckCSP

2.5 训练 train.py
2.6 打包成jit
2.7 打包成onnx

先放官网大图

YOLOv5官方Pytorch实现：https://github.com/ultralytics/yolov5
再放干货：YOLOv5的所有权重：
链接：https://pan.baidu.com/s/13ThlTOz-rmY7nhvgITgBYg
提取码：w8jq

一、前言——从YOLOv3到YOLOv5

YOLOv3
YOLO原项目darknet（官方）截止2020年5月31日，并没有更新添加这个"YOLOv5"的链接。最新的一次update还是上个月YOLOv4重磅出炉的那次，官方正式添加了YOLOv4项目链接。

"YOLOv5"的项目团队是Ultralytics LLC 公司，很多人应该没有听过这家公司。但提到他们公司的一个项目，很多人应该就知道了，因为不少同学用过。那就是基于PyTorch复现的YOLOv3，按目前github上star数来看，应该是基于PyTorch复现YOLOv3中的排名第一。Amusi 之前还分享过此项目。

附上Pytorch版的YOLOv3：https://github.com/ultralytics/yolov3

他们复现的YOLOv3版而且还有APP版本
YOLOv3 in PyTorch > ONNX > CoreML > iOS

其实这个公司团队在YOLOv3上花的功夫蛮多的，不仅有APP版，还对YOLOv3进行了改进，官方介绍的性能效果可以说相当炸裂！另外项目维护的也很牛逼，star数已达4.7 k，commits 都快逼近2500次！

可见Ultralytics LLC 公司在YOLO社区上的贡献还是有一定影响力的，这也是为什么他们刚推出"YOLOv5"，就得到不少人的关注。

YOLOv5
据官方称：“YOLOv5” 实际上还处于开发的阶段，预计2020年第2季度/第3季度将全部开发完成。目前放出来的版本，是集成了YOLOv3-SPP和YOLOv4部分特性。

那么"YOLOv5"的性能有多强呢，Ultralytics LLC给出的数据如下：
这里说一下，YOLOv5-x的性能已经达到：47.2 AP / 63 FPS，但项目是在 image size = 736的情况下测得。但Ultralytics LLC并没有给出"YOLOv5"的算法介绍（论文、博客其实都没有看到），所以我们只能通过代码查看"YOLOv5"的特性。只能说现在版本的"YOLOv5"集成了YOLOv3-SPP和YOLOv4的部分特性等。

二、代码解析

代码目录

2.1 运行起来项目 detect.py

代码目录：

1）拿到yolov5的代码，我们首先要把项目运行起来。在这里我们需要下载得到权重，在这里我下载了yolov5s.pt文件，把其放到weights文件夹下；然后找到detect.py运行，inference文件下推理得到output文件夹：
这样我们的第一步项目就跑通了，这是我们拿到源码首先要完成的任务。

2.2 网络结构 models/yolo.py

根据配置文件，models文件夹下选择yolov5s.yaml（根据选择的权重观察），在yolo.py文件里运行下面代码，使用netron可视化网络结构。（关于netron模型可视化，我们只需要在命令行安装pip install netron即可，然后进入netron，复制地址进入，打包我们需要的模型，即可使用可视化。这个工具有助于我们分析网络的整体架构）

model = Model(opt.cfg).to(device)
torch.save(model,"m.pt")

这个结构看起来比较简单，我们用torch.jit导出jit格式来看模型详细架构，运行以下代码：

	# Create model
    model = Model(opt.cfg).to(device)
    x = torch.randn(1,3,384,640)
    script_models = torch.jit.trace(model,x)
    script_models.save("m.jit")

导出m.jit格式后，将其重命名为m1.pt，再进行netron可视化分析，这里由于图片较长，我就展示一部分了。

2.3 配置文件 yolov5s.yaml

# parameters
nc: 80  # number of classes
depth_multiple: 0.33  # model depth multiple
width_multiple: 0.50  # layer channel multiple

# anchors
anchors:
  - [116,90, 156,198, 373,326]  # P5/32
  - [30,61, 62,45, 59,119]  # P4/16
  - [10,13, 16,30, 33,23]  # P3/8

# YOLOv5 backbone
backbone:
  # [from, number, module, args]
  [[-1, 1, Focus, [64, 3]],  # 0-P1/2
   [-1, 1, Conv, [128, 3, 2]],  # 1-P2/4
   [-1, 3, BottleneckCSP, [128]],
   [-1, 1, Conv, [256, 3, 2]],  # 3-P3/8
   [-1, 9, BottleneckCSP, [256]],
   [-1, 1, Conv, [512, 3, 2]],  # 5-P4/16
   [-1, 9, BottleneckCSP, [512]],
   [-1, 1, Conv, [1024, 3, 2]], # 7-P5/32
   [-1, 1, SPP, [1024, [5, 9, 13]]],
  ]

# YOLOv5 head
head:
  [[-1, 3, BottleneckCSP, [1024, False]],  # 9

   [-1, 1, Conv, [512, 1, 1]],
   [-1, 1, nn.Upsample, [None, 2, 'nearest']],
   [[-1, 6], 1, Concat, [1]],  # cat backbone P4
   [-1, 3, BottleneckCSP, [512, False]],  # 13

   [-1, 1, Conv, [256, 1, 1]],
   [-1, 1, nn.Upsample, [None, 2, 'nearest']],
   [[-1, 4], 1, Concat, [1]],  # cat backbone P3
   [-1, 3, BottleneckCSP, [256, False]],
   [-1, 1, nn.Conv2d, [na * (nc + 5), 1, 1]],  # 18 (P3/8-small)

   [-2, 1, Conv, [256, 3, 2]],
   [[-1, 14], 1, Concat, [1]],  # cat head P4
   [-1, 3, BottleneckCSP, [512, False]],
   [-1, 1, nn.Conv2d, [na * (nc + 5), 1, 1]],  # 22 (P4/16-medium)

   [-2, 1, Conv, [512, 3, 2]],
   [[-1, 10], 1, Concat, [1]],  # cat head P5
   [-1, 3, BottleneckCSP, [1024, False]],
   [-1, 1, nn.Conv2d, [na * (nc + 5), 1, 1]],  # 26 (P5/32-large)

   [[], 1, Detect, [nc, anchors]],  # Detect(P5, P4, P3)
  ]

解析：[-1, 1, Focus, [64, 3]] ， [[-1, 6], 1, Concat, [1]]

① -1代表动态计算上一层的通道数（-2代表计算上两层的通道数），设计的原因是一层一层下来的，但存在残差路由结构；[-1,6]代表把上一层与第六层cat起来。

② [64,3]：网络第一层输出是32个通道（把模型打印出来可以看到），但这里是64，这就与采样率有关：64乘以width_multiple=32，与网络第一层输出一致。
3代表这一层复制3次，3乘以depth_multiple等于1，即1层。最少也要有1层。

width_multiple: 0.50这个参数与网络设计有关，现在设计网络一般都不设计一个网络，如yolov3-tiny,yolov3-darknet53,yolov3-spp，但都是单独设计，不太好；如果我们设计几种网络，一般设计常规网络（不大不小），进行训练，效果不错我们再进行缩放，包含深度缩放depth_multiple和宽度缩放width_multiple（通道数），这样的网络被证明效果是不错的，所以可以得到n个网络，减轻了设计负担。

缩放规则：r^2βw<2，r（分辨率）β（深度即层数）w（通道数）,希望网络的这些参数变大1倍，但计算量小于2。

2.4 网络子结构 models/common.py

这部分我们需要根据 yolov5s.yaml 配置文件查看主干网backbone和侦测网head查看不同的子结构。

2.4.1 Conv与Focus

class Conv(nn.Module):# 自定义卷积块：卷积_BN_激活。类比yolov4里的CBL结构
    # Standard convolution
    def __init__(self, c1, c2, k=1, s=1, g=1, act=True):  # ch_in, ch_out, kernel, stride, groups
        super(Conv, self).__init__()
        p = k // 2 if isinstance(k, int) else [x // 2 for x in k]  # padding
        self.conv = nn.Conv2d(c1, c2, k, s, p, groups=g, bias=False)
        self.bn = nn.BatchNorm2d(c2)
        self.act = nn.LeakyReLU(0.1, inplace=True) if act else nn.Identity()
        
 	def forward(self, x):
        return self.act(self.bn(self.conv(x)))

    def fuseforward(self, x):
        return self.act(self.conv(x))
        
class Focus(nn.Module):# Focus模块：将W、H信息集中到通道空间
    # Focus wh information into c-space
    def __init__(self, c1, c2, k=1):
        super(Focus, self).__init__()
        self.conv = Conv(c1 * 4, c2, k, 1)

    def forward(self, x):  # x(b,c,w,h) -> y(b,4c,w/2,h/2)
        return self.conv(torch.cat([x[..., ::2, ::2], x[..., 1::2, ::2], x[..., ::2, 1::2], x[..., 1::2, 1::2]], 1))

Focus模块，输入通道扩充了4倍，作用是可以使信息不丢失的情况下提高计算力。具体操作为把一张图片每隔一个像素拿到一个值，类似于邻近下采样，这样我们就拿到了4张图，4张图片互补，长的差不多，但信息没有丢失，拼接起来相当于RGB模式下变为12个通道，通道多少对计算量影响不大，但图像缩小，大大减少了计算量。可以当成下图理解：

2.4.2 Bottleneck与BottleneckCSP

class BottleneckCSP(nn.Module):
    # CSP Bottleneck https://github.com/WongKinYiu/CrossStagePartialNetworks
    def __init__(self, c1, c2, n=1, shortcut=True, g=1, e=0.5):  # ch_in, ch_out, number, shortcut, groups, expansion
        super(BottleneckCSP, self).__init__()
        c_ = int(c2 * e)  # hidden channels
        self.cv1 = Conv(c1, c_, 1, 1)
        self.cv2 = nn.Conv2d(c1, c_, 1, 1, bias=False)
        self.cv3 = nn.Conv2d(c_, c_, 1, 1, bias=False)
        self.cv4 = Conv(c2, c2, 1, 1)
        self.bn = nn.BatchNorm2d(2 * c_)  # applied to cat(cv2, cv3)
        self.act = nn.LeakyReLU(0.1, inplace=True)
        self.m = nn.Sequential(*[Bottleneck(c_, c_, shortcut, g, e=1.0) for _ in range(n)])

    def forward(self, x):
        y1 = self.cv3(self.m(self.cv1(x)))
        y2 = self.cv2(x)
        return self.cv4(self.act(self.bn(torch.cat((y1, y2), dim=1))))

在这里我们可以画出其网络结构图如下图所示，其实我们还可以类比YOLOv4的子结构，我们发现其实他们大概类似，只不过YOLOv4第一个是CBM结构，其他的CBM结构换成了卷积，这也解释了我在前一篇博文提到的CBM结构换卷积会有更好的效果，有兴趣可以跳到这篇博文DeepLearing—CV系列（十三）——YOLOv4完整核心理论详解。

下图为YOLOv4类似的子结构图：

2.5 训练 train.py

模型下载的是模型和权重都在一起的，我们想把里面的模型单独提出来不方便，yolov5提供另外一种方式：
当有hubconf.py这个文件，我们就可以用pytorch默认的模型，通过这个方式去加载一些默认模型，如果有这个文件，说明已经上传到pytorch上去了，形成了pytorch默认的一个模型。新建test01.py，将以下代码复制进去：

import torch
model = torch.hub.load('ultralytics/yolov5', 'yolov5s', pretrained=True, channels=3, classes=80)

这样就去github上下载了，yolov5完整代码下载位置在：C盘\用户\admin.cache\torch\hub\ultralytics_yolov5_master。运行后会报错，因为我们缺少权重文件（注意这里的权重文件名也是yolov5s.pt，但与我们刚才拿到的不一样，这个只包含权重，刚才的是模型和权重都在一块），因为普通用户无法使用google（原链接https://drive.google.com/drive/folders/1Drs_Aiu7xx6S-ix95f9kNsA6ueKRpN2J）

，我把权重放出来供大家下载，链接：https://pan.baidu.com/s/17wYKcivyyYsVj4adHaZVgw
提取码：0f7v

下载后把权重yolov5s.pt放到根目录（与test01.py在同一级目录即可），再运行一下就不报错了。

但不方便用，下载后我们可以导出模型装载到我们自己的模型上去：

from models import  yolo
import torch
model = torch.hub.load('ultralytics/yolov5', 'yolov5s', pretrained=True, channels=3, classes=80)
model1 = yolo.Model("models/yolov5s.yaml")
model1.load_state_dict(model.state_dict())
torch.save(model1.state_dict(),"my_yolov5s.pt")

这样根目录下就有我们自己的权重“my_yolov5s.pt”，接下来就是使用了：

model = yolo.Model("models/yolov5s.yaml")
model.load_state_dict(torch.load("my_yolov5s.pt"))
model.eval()
from PIL import Image,ImageDraw
from torchvision import transforms
from utils import utils
import numpy as np
img = Image.open(r"inference/images/zidane.jpg")
w,h = img.size
print(w,h)
tf = transforms.Compose([
    transforms.Resize((512,640)),
    transforms.ToTensor()
])
img_tensor = tf(img)
pred = model(img_tensor[None])[0]
det = utils.non_max_suppression(pred, 0.5,0.5)
img = img.resize((640,512))
Imgdraw = ImageDraw.Draw(img)
for box in det[0]:
    b = box.cpu().detach().long().numpy()
    print(b)
    Imgdraw.rectangle((b[0],b[1],b[2],b[3]))

img.show()

显示后的图片如下（我做了缩放）：

2.6 打包成jit

打包成jit

from models import  yolo
import torch
from PIL import Image,ImageDraw
from torchvision import transforms
from utils import utils
import torch.jit

model = yolo.Model("models/yolov5s.yaml")
model.load_state_dict(torch.load("my_yolov5s.pt"))
model.eval()
img = Image.open(r"inference/images/zidane.jpg")
tf = transforms.Compose([
    transforms.Resize((512,640)),
    transforms.ToTensor()
])
img_tensor = tf(img)
pred = model(img_tensor[None])[0]
script_model = torch.jit.trace(model,img_tensor[None])
script_model.save("my_yolov5s.jit")

使用：

model = torch.jit.load("my_yolov5s.jit")
img = Image.open(r"inference/images/zidane.jpg")

tf = transforms.Compose([
    transforms.Resize((512,640)),
    transforms.ToTensor()
])
img_tensor = tf(img)
pred = model(img_tensor[None])[0]
det = utils.non_max_suppression(pred, 0.5,0.5)

img = img.resize((640,512))
Imgdraw = ImageDraw.Draw(img)
for box in det[0]:
    b = box.cpu().detach().long().numpy()
    print(b)
    Imgdraw.rectangle((b[0],b[1],b[2],b[3]))

img.show()

2.7 打包成onnx

可以查阅官网，看他怎么打包：进入pytorch官网：https://pytorch.org/，点击Tutorials，点击下图红色链接：找到相关打包代码

打包成onnx：

from models import  yolo
import torch
from PIL import Image,ImageDraw
from torchvision import transforms
from utils import utils

model = yolo.Model("models/yolov5s.yaml")
model.load_state_dict(torch.load("my_yolov5s.pt"))
model.eval()

img = Image.open(r"inference/images/zidane.jpg")
tf = transforms.Compose([
    transforms.Resize((512,640)),
    transforms.ToTensor()
])
img_tensor = tf(img)
pred = model(img_tensor[None])[0]
model.model[-1].export = True
torch.onnx.export(model, img_tensor[None], "my_yolov5s.onnx", verbose=True, opset_version=11, input_names=['images'],
                      output_names=['output1','output2','output3'])  # output_names=['classes', 'boxes']

同样我们可以使用netron可视化分析网络结构（安装使用在上面有介绍），这里图示过大，我就不展示了。

使用onnx：
先安装onnxruntime：打开控制台：pip install onnxruntime

import onnxruntime

ort_session = onnxruntime.InferenceSession("my_yolov5s.onnx")
print("Exported model has been tested with ONNXRuntime, and the result looks good!")

img = Image.open(r"inference/images/zidane.jpg")
tf = transforms.Compose([
    transforms.Resize((512,640)),
    transforms.ToTensor()
])
img_tensor = tf(img)
ort_inputs = {ort_session.get_inputs()[0].name: img_tensor[None].numpy()}
pred = torch.tensor(ort_session.run(None, ort_inputs)[0])
det = utils.non_max_suppression(pred, 0.5,0.5)
img = img.resize((640,512))
Imgdraw = ImageDraw.Draw(img)

for box in det[0]:
    b = box.cpu().detach().long().numpy()
    print(b)
    Imgdraw.rectangle((b[0],b[1],b[2],b[3]))

img.show()

知识蒸馏：让大模型“瘦身“而不失智慧的魔术一休哥助手人工智能人工智能
引言：当AI模型需要"减肥"在人工智能领域，一个有趣的悖论正在上演：大模型的参数规模每年以10倍速度增长，而移动设备的算力却始终受限。GPT-4的1750亿参数需要价值500万美元的GPU集群运行，但现实中的智能设备可能只有指甲盖大小。这种矛盾催生了一项神奇的技术——知识蒸馏（KnowledgeDistillation），它就像给AI模型进行"脑外科手术"，将庞然大物的智慧浓缩到轻量模型中。第一章
Zynq PL端IP核之AXI DMA Mazy.v fpga开发嵌入式硬件 arm开发单片机
1.AXIDMA简介Zynq提供了两种DMA，一种是PS中的DMA控制器，通过GP口与PL端连接，另一种是PL中的AXIDMAIP核（软核），通过HP口与PS端连接。Zynq有4个HP接口，每一个HP接口都包含控制和数据FIFO，这些FIFO为大数据量突发传输提供缓冲，让HP接口成为理想的高速数据传输接口。AXIDMAIP内核在AXI4内存映射和AXI4StreamIP接口之间提供高带宽直接储存访
解析稳定率达99.99%！合合信息“大模型加速器2.0”助力AI打破“幻觉” 算法大数据人工智能图表表格
随着大模型在社会应用中逐渐普及，人们在享受便利的同时，也面临着“AI幻觉”产生的风险。训练数据是影响大模型“认知能力”的关键要素，近期，上海合合信息科技股份有限公司（简称“合合信息”）TextIn“大模型加速器2.0”版本正式上线，基于领先的智能文档处理技术，对复杂文档的版式、布局和元素进行精准解析及结构化处理，从数据源头降低大模型“幻觉”风险，让大模型在与人类的沟通中“更靠谱”。“大模型加速器2
10.2 如何解决从复杂 PDF 文件中提取数据的问题？墨染辉大语言模型 pdf
10.2如何解决从复杂PDF文件中提取数据的问题？解决方案：嵌入式表格检索解释：嵌入式表格检索是一种专门针对从复杂PDF文件中的表格提取数据的技术。它结合了表格识别、解析和语义理解，使得从复杂结构的表格中检索信息成为可能。具体步骤：表格检测和识别：目标：在PDF页面中准确地定位和识别表格区域。方法：使用计算机视觉和深度学习技术，如卷积神经网络（CNN）或其他先进的图像处理算法。效果：能够检测出页面
收入突破 5 万，从大专生到大模型开发-第二篇（下）智码工坊 AI编程程序人生
第二篇下：实战案例拆解——我用AI干掉80%重复工作大家好，我是明聪，98年逆袭的大模型研发工程师，前Java转型幸存者，湖北荆州人，毕业武汉某职校。学习心得：突出“普通人破局”的真实挣扎深夜破防：我也想过放弃1：学RAG时，连续3天卡在向量数据库检索效果，甚至想“回去干Java算了”。直到发现LangChain-Chatchat开源项目，直接套用现成框架，才重拾信心。2：第一次面试被质疑“半路出
FIN41920 Sustainable Finance 后端
FIN41920SustainableFinanceGroupProject2025ThepurposeofthisprojectistoevaluatetheabilityofapplyingUStoxicemissiondataandaccountingdatatoanalysetheeffectoftoxicemissionsonfirms’financialperformance.Here
3090显卡Ktransformer本地部署deepseek R1:70B SIATdog ai
这里写自定义目录标题效果完成视频：配置参考依赖安装安装cuda配置环境下载deepseekR170B下载ktransoformer开始安装运行Web启动常见问题runtimeerrordon'tmatch更新cudaERROR:Failedtobuildinstallablewheelsforsomepyproject.tomlbasedprojects(ktransformers)效果完成视频：
GitHub霸榜神器！NextChat领衔DeepSeek全栈开发范式大禹智库《向量数据库指南》《实战AI智能体》机器学习 RAG AI智能体人工智能 Manus deepseek NextChat
一、项目概况与生态定位NextChat（原ChatGPT-Next-Web）是GitHub上斩获81.2K星标的现象级开源项目，定位为"轻量级AI助手终端"，支持DeepSeek、Claude、GPT-4、Gemini等20+主流大模型。其核心价值在于以5MB超小客户端实现跨平台（Windows/Mac/Linux/iOS/Android）无缝衔接，同时提供云端一键部署方案，成为个人用户与企业私有
nextjs 实现rag知识库检索增强的ai问答app *goliter * web开发学习人工智能
AI-Chat-一个基于LLM大语言模型的知识库问答系统项目源码：https://github.com/goliter/ai-chat项目简介AI-Chat是一个基于Next.js和React开发的现代化大语言模型的知识库问答系统。该平台提供了简易的对话界面，支持上传文件进行知识库的构建，让用户在与大语言模型进行问答时给与大模型知识库内的相关内容。主要功能上传文件构建属于自己的知识库支持doc,t
TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
剑指 Offer II 113. 课程顺序（中等图 bfs 拓扑排序数组哈希表）风雨中de宁静图搜索算法
剑指OfferII113.课程顺序现在总共有numCourses门课需要选，记为0到numCourses-1。给定一个数组prerequisites，它的每一个元素prerequisites[i]表示两门课程之间的先修顺序。例如prerequisites[i]=[ai,bi]表示想要学习课程ai，需要先完成课程bi。请根据给出的总课程数numCourses和表示先修顺序的prerequisites
一个完整的小项目案例，涉及到项目的规划，模块的设计功能的衔接等。 PyAIGCMaster 我的学习笔记学习
以下是一个基于分层架构和模块化设计的项目规划，使用Tkinter作为GUI框架，Playwright进行浏览器操作，SQLite作为数据库：项目结构```web_checker/├──__main__.py#程序入口├──config.py#配置管理├──gui/#图形界面模块│├──__init__.py│└──main_window.py├──services/#业务逻辑│├──__init_
使用大语言模型API在AI应用中的实现 qq_37836323 人工智能语言模型自然语言处理 python
随着人工智能技术的迅速发展，大语言模型（LLM）在自然语言处理（NLP）领域的应用越来越广泛。本文将介绍如何使用大语言模型API来实现一些基础的AI应用，并提供一个简单的demo代码，帮助大家更好地理解和使用这些技术。大语言模型API简介大语言模型（如GPT-4）能够理解和生成类似人类的文本。这些模型可以应用于各种任务，包括文本生成、语言翻译、情感分析、对话系统等。为了方便国内用户访问这些强大的模
AlphaFolding填补蛋白质动态结构预测空白！复旦大学等提出4D扩散模型，成果入选AAAI 2025 HyperAI超神经 ScienceAI 人工智能深度学习机器学习扩散模型蛋白质结构 AI4S 4D
蛋白质的功能很大程度上取决于其3D结构。19世纪中期，科学界普遍认为蛋白质结构是固定的、刚性的，类似「锁与钥匙」模型(lock-and-keymodel)，即蛋白质与配体的结合是由固定的三维结构决定的。然而，当DanielKoshland提出酶与底物结合时会发生构象变化的观点后，传统思维开始受到挑战。1980年代，分子动力学模拟(MolecularDynamics,MD)兴起，首次从计算角度揭示了
国外7个最佳大语言模型 (LLM) API推荐幂简集成 API新理念语言模型人工智能自然语言处理
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
【深度学习】DeepSeek模型介绍与部署 Nerous_ 深度学习深度学习人工智能
原文链接：DeepSeek-V31.介绍DeepSeek-V3，一个强大的混合专家(MoE)语言模型，拥有671B总参数，其中每个token激活37B参数。为了实现高效推理和成本效益的训练，DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构，这些架构在DeepSeek-V2中得到了充分验证。此外，DeepSeek-V3首次提出了无辅助损失的负载平衡策略，并设置了多to
【深度学习】 PyTorch一文详解 Nerous_ 深度学习深度学习 pytorch 人工智能机器学习 python
“PyTorchisadeeplearningframeworkthatprioritizessimplicityandflexibility,makingitthego-tochoiceforbothresearchersanddevelopers.”—Anonymous1.PyTorch简介1.1PyTorch的背景与发展PyTorch是由Facebook人工智能研究院（FAIR）开发的一个开
AI开发日记- Prompt Library篇 BillyXie23 AI探索 prompt 人工智能 github python AI编程
突发奇想想在git上host一个静态页面的promptlibrary，于是花了一天时间配合cursor硬是撸了出来Github地址：https://github.com/MrXie23/PromptLibrary页面地址PromptLibrary-探索AI提示的艺术目前代码结构有些混乱，有些失败的folder还没清理，不过基础功能都已经可以work了，接下来的开发roadmap是把一些没做的页面都
火山云未来能冲击国内第一梯队吗苹果企业签名分发服务器火山引擎
首先，得了解火山云目前的市场地位。火山云是字节跳动旗下的云服务，虽然字节在互联网领域很强，但云服务市场已经有阿里云、腾讯云、华为云这些巨头，还有百度云等。所以火山云现在可能还在第二梯队或者更后面。接下来要考虑市场竞争情况。国内云市场增长快，但竞争激烈。第一梯队的玩家有先发优势，技术积累和客户基础都很深厚。火山云作为后来者，可能需要通过差异化竞争来突破，比如结合字节的短视频、AI等技术优势，提供独特
【NLP】 API在大语言模型中的应用 Nerous_ 深度学习自然语言处理语言模型人工智能
大语言模型（LargeLanguageModels,LLMs）通过API（应用程序接口）为开发者提供了便捷的调用方式，使其能够快速集成自然语言处理能力到各类应用中。以下是API在LLM中的核心应用场景及技术实现细节：一、核心应用场景自然语言理解与生成应用示例：智能客服：解析用户问题并生成回复（如ChatGPTAPI）。内容创作：自动生成文章、广告文案或代码（如OpenAI的GPT-4）。技术实现：
Java运行jar包需要读取arguments配置文件好人静 Java java 配置argument
在项目中有时候要把一些代码打包成jar，只要运行jar就可以执行。同时为了方便设置代码执行的一些外部参数，通常会配置arguments。1、Intelidea配置arguments在菜单栏找到Run－>EditConfiguration弹出的窗口中选择配置文件所在的路径即可。2、Eclipse配置arguments在main函数，右击，在弹出的菜单中选择EditConfiguration，在弹出的
【DNN量化工具】QKeras 工具简介 kanhao100 笔记 dnn 人工智能神经网络
QKeras工具简介QKeras是一个用于量化深度学习模型的Keras扩展库，旨在使深度学习模型的量化（即将模型的浮点权重转换为低精度格式）变得简单而高效。QKeras主要目标是优化模型的存储和推理速度，特别适用于需要在资源受限的设备（如移动设备和嵌入式系统）上运行深度学习模型的场景。QKeras的主要特点量化支持：QKeras提供了对不同类型量化的支持，包括权重量化和激活量化。用户可以根据需求选
DeepSeek来袭！低代码+AI竟让程序员摸鱼接私单月入5W！工业甲酰苯胺低代码人工智能
目录一、引言：开启低代码+AI新时代二、DeepSeek与低代码、AI的关联（一）DeepSeek简介（二）低代码开发概述（三）AI赋能低代码三、低代码+AI开启私单赚钱大门（一）成功案例剖析（二）私单项目类型（三）赚钱模式解析四、实战：利用DeepSeek接私单（一）工具准备与环境搭建（二）需求分析与项目规划（三）低代码开发实战（四）AI技术融合应用（五）项目测试与交付五、挑战与应对策略（一）技
IncDec Sequence（洛谷P4552） GordenGhost java 算法开发语言洛谷差分模拟
importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intn=sc.nextInt();intw[]=newint[n+2],cnt[]=newint[n+2];for(inti=1;i=0)a+=cnt[i];elseb-=cnt[i]
【Q&A】Qt中直接渲染和离屏渲染效率哪个高？浅慕Antonio Q&A qt 信息可视化开发语言
直接渲染和离屏渲染的效率取决于具体场景和实现方式，以下是详细对比分析：一、直接渲染（On-screenRendering）原理直接将图形数据绘制到屏幕缓冲区（BackBuffer），完成后通过交换缓冲区显示到屏幕。通常在paintEvent等事件中通过QPainter直接绘制。优势减少数据复制：无需额外的缓冲区传输，直接写入屏幕缓冲区。实时性高：适合需要快速更新的场景（如动画、实时数据可视化）。简
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术 Mark White dnn 人工智能神经网络
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。今天，我们将探讨两个看似独立却本质相通的机制：生成模型中的温度参数与Transformer注意力机制中的缩放因子。这两个设计都围绕着同一个核心概念——softmax分布的平滑控制。Softmax函数：概率分布的催化剂在深入讨论之前，
cv2 orb 图像拼接_图像拼接Opencv源码重构是佐罗而非索隆 cv2 orb 图像拼接
请看赵春江https://me.csdn.net/zhaocj的主页，他已经对Opencv图像拼接流程中的代码做了很详细的解释。前人栽树，后人乘凉。一.本文所做的事1.重构了Opencv图像拼接的源代码，整个代码是面向过程的；2.在赵春江源码分析基础上，对一些细节部分进行说明。代码链接：https://github.com/mhhai/ImageStitch二.特征点检测一切起源于这段代码Ptrf
OpenCV图像拼接（2）基于羽化（feathering）技术的图像融合算法拼接类cv::detail::FeatherBlender 村北头的码农 OpenCV opencv 算法人工智能
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述cv::detail::FeatherBlender是OpenCV中用于图像拼接的一个类，它属于stitching模块的一部分。这个类实现了基于羽化（feathering）技术的图像融合算法，用于平滑地混合重叠区域中的图像，从而生成无缝的全景图。主要特点羽化技术：
OpenCV图像拼接（1）自动校准之校准旋转相机的函数calibrateRotatingCamera() 村北头的码农 OpenCV opencv 人工智能
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述cv::detail::calibrateRotatingCamera是OpenCV中用于校准旋转相机的函数。它特别适用于那种相机相对于一个固定的场景进行纯旋转运动的情况，比如在全景拼接过程中。此函数可以从一系列单应性矩阵（HomographyMatrices）中
在网页跑3D多人互动之渲染效能瓶颈微网兔子後端技術前端网络服务器 c++unity 架构 3d
累积到目前测试回馈给我们的心得，主要问题还是在前端显示的部分。所以就来聊聊在网页跑3D多人互动之渲染效能瓶颈!!!数万个3D角色与场景物件需即时渲染，导致GPU/CPU过载，低端设备卡顿。已经使用的解决方案：LOD（LevelofDetail）技术：根据距离动态调整模型细节，远距离使用低多边形模型。InstancedRendering：批次渲染相同模型（如重复的树木、建筑物）。Culling（剔除
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen