AI_ape

YOLO_V4 入手贴

1. YOLO_V4模型可视化
- 1.1 CSPDarknet-53与Darknet53的区别
- 1.2关于[PAN](https://arxiv.org/pdf/1803.01534.pdf)
- 1.3 激活函数Mish
2.图像增强 Mosaic
3.关于build_targets
- 3.1 初始化下输入变量
- 3.2 子函数主体部分
- 3.3 代码运行实例
- 3.4 对比 ultralytics yolo与YOLO_V4作者的`build_targets`部分
- - 3.4.1 获取mask
  - 3.4.2 获取更新后的target：`t_match`
  - 3.4.3 获取offsets
  - 3.4.4 与target_box对应的anchor index
4. CBAM块
参考文献

此blog主要参考YOLO_v4作者Chien-Yao Wang的pytorch实现。

由于此GitHub是在ultralytics的YOLO代码基础上完成的，因此还是免不了要对其实现细致了解下。

1. YOLO_V4模型可视化

详细图片可见本人csdn资源https://download.csdn.net/download/WANGWUSHAN/18473381。

使用框图简单示意如下：

这里，CSP-ResN(N=1,4,8,8,4) 表示当前CSP块中Resblock的个数。CSP块见1.1节图示。Resblock不再赘述。

1.1 CSPDarknet-53与Darknet53的区别

YOLO_V3采用Darknet53作为backbone，而YOLO_V4则采用了CSPDarknet53。

为了说明二者的异同，截取模型中input-下采样两倍这一段进行个简单的对比。

此结构来自YOLO_v4作者Chien-Yao Wang的pytorch实现，可见其只是在原先restnet block左侧增加1*1卷积进行concatenate，而并非像CSPNet¹中介绍的那样，将feature maps split 成2部分。

当然也可以理解为通过使用1*1的卷积起到了split的作用。

因此，CSPDarknet-53中的CSP块具有如下结构：

1.2关于PAN

我觉得PAN² 确实是一个比较富有创造性的模型。

其主要特点是使用了bottom-up path augmentation，可以 “shorten information path and enhance feature
pyramid with accurate localization signals existing in low-levels”，见下图绿线。

下面这一句也是摘自原文，意思也是low level的特征对定位也很有用~

Our framework further enhances the localization capability of the entire feature hierarchy by propagating strong responses of low-level patterns based on the fact that high response to edges or instance parts is a strong indicator to accurately localize instances.

此图来自PANet，YOLO_V4基础版只有两次上采样，三个检测头。

另外一个重要区别，正如YOLO_V4论文中所述，特征融合改add为concatenate。在上面完整的模型可视化图中，这一点也看的很清楚。

1.3 激活函数Mish

采用这个激活函数的原因，除了连续可微，论文中也只是实验了下CSPResNeXt-50 classifier采用Mish更优。

2.图像增强 Mosaic

Mosaic从实现效果来看比较轻松，就是将四张图片放到一张图上。但是ultralytics的代码实现看起来比较复杂。

因此这一段单独拎出来具体看下。

为了说明效果，抽出几张图片及其gt分别放在对应的文件，如下：

下面的代码进行了适当改编：

删除了代码中提到的cache功能。

这样Mosaic这段代码就非常容易理解了。通过cv2.resize()已经将各分图最长的一边调整到需要合成的图一半的大小，那么接下来的工作就是向往盘子里放东西一样把图片放进去; 再把gt box做适当平移就可以了。
此段代码中加入了个小功能：新选择的其他三张图片与当前图片不同。

完整代码：
1）先准备好需要使用的变量；

import os
import random
import numpy as np
from PIL import Image
import cv2
img_size=640

img_path=r"D:\mosaic\images"
label_path=r"D:\mosaic\labels"

img_files=[os.path.join(img_path,p) for p in os.listdir(img_path)]

label_files=[os.path.join(label_path,p) for p in os.listdir(label_path)]

labels=[]
for label_txt in label_files:
    with open(label_txt,"r") as f:
        # label=[]
        # for line in f.readlines():
        #     label.append([float (item) for item in line.split()])
        label=np.array([x.split() for x in f.read().splitlines()], dtype=np.float32)
    labels.append(label)

2）两个子函数load_image及load_mosaic。

load_image实现读入单张图片，并将其最大边放缩到合成图一半尺寸。
load_mosaic实现将四张图片合成一张图片，并修改label。

def load_image(index):
    # loads 1 image from dataset, returns img, original hw, resized hw
    path = img_files[index]
    img = np.array(Image.open(path).convert('RGB'), dtype=np.uint8)

    assert img is not None, 'Image Not Found ' + path
    h0, w0 = img.shape[:2]  # orig hw
    r = img_size / max(h0, w0)  # resize image to img_size
    if r != 1:  # always resize down, only resize up if training with augmentation
        img = cv2.resize(img, (int(w0 * r), int(h0 * r)), interpolation=cv2.INTER_LINEAR)
    return img, (h0, w0), img.shape[:2]  # img, hw_original, hw_resized


def load_mosaic(index,labels):
    # loads images in a mosaic

    labels4 = []
    s = img_size
    yc, xc = s, s  # mosaic center x, y
    #indices = [index] + [random.randint(0, len(labels) - 1) for _ in range(3)]  # 3 additional image indices
    indices=[index]
    
    while len(indices)<4:
        ind=random.randint(0, len(labels) - 1)
        if  ind not in indices:
            indices.append(ind)

    for i, index in enumerate(indices):
        # Load image
        img, _, (h, w) = load_image(index)
        # place img in img4
        if i == 0:  # top left
            img4 = np.full((s * 2, s * 2, img.shape[2]), 114, dtype=np.uint8)  # base image with 4 tiles
            x1a, y1a, x2a, y2a = xc - w, yc - h, xc, yc  # 在合成图中的绝对坐标（x1,y,1,x2,y2)
        elif i == 1:  # top right
            x1a, y1a, x2a, y2a = xc, yc - h,xc + w, yc
        elif i == 2:  # bottom left
            x1a, y1a, x2a, y2a = xc - w, yc, xc,  yc + h
        elif i == 3:  # bottom right
            x1a, y1a, x2a, y2a = xc, yc, xc + w, yc + h

        img4[y1a:y2a, x1a:x2a] = img[:h, :w]  # img4[ymin:ymax, xmin:xmax]

        # Labels
        x = np.array(labels[index])
        label = x.copy()
        
        if len(x) > 0:  # Normalized xywh to pixel xyxy format
            label[:, 1] = w * (x[:, 1] - x[:, 3] / 2) + x1a
            label[:, 2] = h * (x[:, 2] - x[:, 4] / 2) + y1a
            label[:, 3] = w * (x[:, 1] + x[:, 3] / 2) + x1a
            label[:, 4] = h * (x[:, 2] + x[:, 4] / 2) + y1a
        labels4.append(label)

    # Concat/clip labels
    if len(labels4):
        labels4 = np.concatenate(labels4, 0)
        # np.clip(labels4[:, 1:], 0, 2 * s, out=labels4[:, 1:])  # use with random_affine
    return img4, labels4

3）实现mosaic，并使用imgaug.augmentables.bbs工具查看效果：

if __name__=="__main__":
    img4, labels4=load_mosaic(1,labels)

    import imgaug as ia
    from imgaug.augmentables.bbs import BoundingBox, BoundingBoxesOnImage
    img = img4
    boxes=labels4
    bboxes = BoundingBoxesOnImage(
                [BoundingBox(*box[1:], label=int(box[0])) for box in boxes],
                shape=img.shape)
    ia.imshow(bboxes.draw_on_image(img, size=2))

效果如下（可以看到，四张图片有一角在合成图片的中心）：

3.关于build_targets

可能是ultralytics的yolov_v3实现近期更新过的原因，YOLO_V4作者实现的build_targets与ultralytics的yolov_v3实现稍微有点差异。

另外，可以看出ultralytics的yolov_v3实现与其YOLO_V5实现在这一部分是一致的。

这一段代码有点晦涩，可读性不是很好。eriklindernoren实现的PyTorch-YOLOv3对应代码读起来还是相对容易的，只是eriklindernoren github 中已把这部分更新成和ultralytics一样了。

参考csdn yolov4&v5训练代码理解和csdn yolov5代码详解，自己又把代码通读了一遍，现分享如下：

3.1 初始化下输入变量

import torch
anchors = torch.tensor([12, 16, 19, 36, 40, 28, 36, 75, 76,
                        55, 72, 146, 142, 110, 192, 243, 459, 401]).reshape(3, -1, 2)

stride = torch.tensor([8, 16, 32])
anchor_vec = anchors/(stride.view(3, 1, 1).repeat(1, 3, 2))

3.2 子函数主体部分

def build_targets(p, targets):

    nt = targets.shape[0]  # number of anchors, targets
    tcls, tbox, indices, anchor_ls = [], [], [], []
    gain = torch.ones(7, device=targets.device)  # normalized to gridspace gain
    g = 0.5  # offset
    off = torch.tensor([[0, 0], [1, 0], [0, 1], [-1, 0], [0, -1]],
                       device=targets.device).float()*g  # overlap offsets

    for i in range(1):
        # get number of grid points and anchor vec for this yolo layer
        anchors = anchor_vec[i]
        anchors = anchors.to(targets.device)
        gain[2:6] = torch.tensor(p.shape)[[3, 2, 3, 2]]  # xyxy gain
        #  e.g. ([1, 3, 80, 80, 7])[[3, 2, 3, 2]]=tensor([80, 80, 80, 80])
        # Match targets to anchors

        if nt:
            na = anchors.shape[0]  # number of anchors
            # anchor tensor, same as .repeat_interleave(nt)
            at = torch.arange(na).view(na, 1).repeat(1, nt)
            # append anchor indices
            targets = torch.cat((targets.repeat(na, 1, 1), at[:, :, None]), 2)
            t, offsets = targets * gain, 0

            ratio = t[:, :, 4:6] / anchors[:, None]  # wh ratio
            filt = torch.max(
                ratio, 1. / ratio).max(2)[0] < 4   # filter
            # choose the apropriate anchor(within the ratio range) for the target box

            t_match = t[filt]
            
            # anchor_ind:the anchor index filtered after j
            # t_match:the target box corrspoding to the anchor_ind  filtered after  j
            # overlaps
            gxy = t_match[:, 2:4]  # grid xy

            j, k = ((gxy % 1. < g) & (gxy > 1.)).T
            l, m = ((gxy % 1. > (1 - g)) & (gxy < (gain[[2, 3]] - 1.))).T

            Inds = torch.stack((torch.ones_like(j), j, k, l, m))

            # gxy = t_match[:, 2:4]  # grid xy
            # gxi = gain[[2, 3]] - gxy  # inverse
            # j1, k1 = ((gxy % 1. < g) & (gxy > 1.)).T
            # l1, m1 = ((gxi % 1. < g) & (gxi > 1.)).T
            # Inds1 = torch.stack((torch.ones_like(j1), j1, k1, l1, m1))
            # print(Inds==Inds1)

            # t_match = torch.cat(
            #     (t_match, t_match[j], t_match[k], t_match[l], t_match[m]), 0)
            t_match = t_match.repeat((off.shape[0], 1, 1))[Inds]

            offsets = (torch.zeros_like(gxy)[None] + off[:, None])[Inds]
            # z = torch.zeros_like(gxy)
            # offsets= torch.cat(
            #     (z+ off[0], z[j] + off[1], z[k] + off[2], z[l] + off[3], z[m] + off[4]), 0)

        # Define
        # img_index in one batch, class
        img_ind, tbox_class = t_match[:, :2].long().T
        gxy, gwh = t_match[:, 2:4], t_match[:, 4:6]  # grid xy,grid wh

        gij = (gxy - offsets).long()
        gi, gj = gij.T  # grid xy indices

        # anchor_ind = at[filt]
        # anchor_ind = torch.cat(
        #     (anchor_ind, anchor_ind[j], anchor_ind[k], anchor_ind[l], anchor_ind[m]), 0)

        anchor_ind = t_match[:, 6].long()

        indices.append(
            (img_ind, anchor_ind, gj.clamp_(0, gain[3] - 1), gi.clamp_(0, gain[2] - 1)))
        tbox.append(torch.cat((gxy - gij, gwh), 1))  # box
        anchor_ls.append(anchors[anchor_ind])  # anchors
        tcls.append(tbox_class)  # class

    return tcls, tbox, indices, anchor_ls

3.3 代码运行实例

torch.manual_seed(12345)
pred = torch.randn((1, 3, 80, 80, 7))
targets = torch.randn((4, 6))
targets[:, 0] = torch.zeros((1, 4))
targets[:, 1] = torch.randint(0, 3, (1, 4))
tcls, tbox, indices, anchor_ls = build_targets(pred, targets)

targets第0维是该batch中image的index，第1维是类别，后面的4维是xywh。

3.4 对比 ultralytics yolo与YOLO_V4作者的`build_targets`部分

3.4.1 获取mask

YOLO_V4：

gxy = t_match[:, 2:4]  # grid xy
gxi = gain[[2, 3]] - gxy  # inverse
j, k = ((gxy % 1. < g) & (gxy > 1.)).T
l, m = ((gxi % 1. < g) & (gxi > 1.)).T
Inds = torch.stack((torch.ones_like(j), j, k, l, m))

ultralytics YOLO：

gxy = t_match[:, 2:4]  # grid xy
j, k = ((gxy % 1. < g) & (gxy > 1.)).T
l, m = ((gxy % 1. > (1 - g)) & (gxy < (gain[[2, 3]] - 1.))).T

Inds = torch.stack((torch.ones_like(j), j, k, l, m))

3.4.2 获取更新后的target：`t_match`

YOLO_V4：

t_match = torch.cat(
    (t_match, t_match[j], t_match[k], t_match[l], t_match[m]), 0)

ultralytics YOLO：

t_match = t_match.repeat((off.shape[0], 1, 1))[Inds]

3.4.3 获取offsets

YOLO_V4：

z = torch.zeros_like(gxy)
offsets= torch.cat(
    (z+ off[0], z[j] + off[1], z[k] + off[2], z[l] + off[3], z[m] + off[4]), 0)

ultralytics YOLO：

offsets = (torch.zeros_like(gxy)[None] + off[:, None])[Inds]

3.4.4 与target_box对应的anchor index

YOLO_V4：

at = torch.arange(na).view(na, 1).repeat(1, nt)
anchor_ind = at[filt]
anchor_ind = torch.cat(
    (anchor_ind, anchor_ind[j], anchor_ind[k], anchor_ind[l], anchor_ind[m]), 0)

ultralytics YOLO中通过torch.cat将anchor_index与targets合成一个变量，直接通过t_match[:, 6]使用。

at = torch.arange(na).view(na, 1).repeat(1, nt)
targets = torch.cat((targets.repeat(na, 1, 1), at[:, :, None]), 2)

#通过代码再由targets得到t_match t

anchor_ind = t_match[:, 6].long()

因此，整体来看ultralytics YOLO此部分代码更简洁。通读过程中也发现了此部分代码有几个地方采用了广播机制，如3.4.3。

此部分实现原理csdn yolov5代码详解中介绍的比较清楚了，这里再简单叙述下：

1.过滤掉target box与anchors对应长/宽(都对应于当前feature map尺寸，如13*13)的比值不在合理区别部分，代码中使用了(1/4,4)；
2.获取target_box的x,y的offset：分别计算
x的余数部分小于g;
y的余数部分小于g;
x的余数部分大于1-g（或inverse后小于g）;
y的余数部分大于1-g的Mask（g取0.5）,并将这些Mask和通过1过滤后得到的所有target box，进行stack，即程序中的：

Inds = torch.stack((torch.ones_like(j), j, k, l, m))

3.获取offset信息，取整得到gij (grid坐标i,j)
用原x,y的值减去offset值，即:
x的余数部分小于g，x减去0.5;
y的余数部分小于g，y减去0.5;
x的余数部分大于1-g，x加上0.5;
y的余数部分大于1-g，y加上0.5.
然后取整。

offsets = (torch.zeros_like(gxy)[None] + off[:, None])[Inds]
gij = (gxy - offsets).long()

4.更新target_box信息
最后使用的target_box，即为原x,y坐标相对grid坐标i,j的偏移量。

tbox.append(torch.cat((gxy - gij, gwh), 1))

Github ultralytics/yolov5 issues中有个回复：the ground truth bbox would be matched with three grids (contains two neighbor grids)。

效果如下（图片来自网络），增加了两个gird：

参考8中解释这样可以增加正样本个数，来加快训练。

4. CBAM块

见本人blog CBAM简介及pytorch实现。

参考文献

https://github.com/ultralytics/yolov3/blob/master/utils/datasets.py
https://github.com/WongKinYiu/PyTorch_YOLOv4/
CSPNet: A New Backbone that can Enhance Learning Capability of CNN
http://kocw-n.xcache.kinxcdn.com/data/document/2020/edu1/cuk/leehongsub1113/9.pdf
PANet
csdn yolov4&v5训练代码理解
yolov5代码详解-build_targets
YOLOv5 深度可视化解析

CSPNet:Cross Stage Partial Network ↩︎
Path Aggregation Network ↩︎

Radiance Fields from VGGSfM和Mast3r:两种先进3D重建方法的比较与分析 2401_87458718 3d
VGGSfM和Mast3r:3D场景重建的新方向在计算机视觉和3D重建领域,如何从2D图像重建3D场景一直是一个充满挑战的研究课题。近年来,随着深度学习技术的发展,一些新的方法被提出并取得了显著的进展。本文将重点介绍两种最新的基于深度学习的3D重建方法:VGGSfM和Mast3r,并通过GaussianSplatting技术对它们的性能进行全面比较和分析。VGGSfM:基于视觉几何的深度结构运动恢
基于 PyTorch 的 MNIST 手写数字分类模型欣然～ pytorch 分类人工智能
一、概述本代码使用PyTorch框架构建了一个简单的神经网络模型，用于解决MNIST手写数字分类任务。代码主要包括数据的加载与预处理、神经网络模型的构建、损失函数和优化器的定义、模型的训练、评估以及最终模型的保存等步骤。二、依赖库torch：PyTorch深度学习框架的核心库，提供了张量操作、自动求导等功能。torch.nn：PyTorch的神经网络模块，包含了各种神经网络层、损失函数等。torc
高效快速教你DeepSeek如何进行本地部署并且可视化对话大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
科技文章：高效快速教你DeepSeek如何进行本地部署并且可视化对话摘要：随着自然语言处理（NLP）技术的进步，DeepSeek作为一款基于深度学习的语义搜索技术，广泛应用于文本理解、对话系统及信息检索等多个领域。本文将探讨如何高效快速地在本地部署DeepSeek，并结合可视化工具实现对话过程的监控与分析。通过详尽的步骤、案例分析与代码示例，帮助开发者更好地理解和应用DeepSeek技术。同时，本
Python基于深度学习的动物图片识别技术的研究与实现 Java老徐 Python 毕业设计 python 深度学习开发语言深度学习的动物图片识别技术 Python动物图片识别技术
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》感兴趣的可以先收藏起来，还有大家
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
深度学习 | pytorch + torchvision + python 版本对应及环境安装 zfgfdgbhs 深度学习 python pytorch
目录一、版本对应二、安装命令（pip）1.版本（1）v2.5.1~v2.0.0（2）v1.13.1~v1.11.0（3）v1.10.1~v1.7.02.安装全过程（1）选择版本（2）安装结果参考文章一、版本对应下表来自pytorch的github官方文档：pytorch/vision:Datasets,TransformsandModelsspecifictoComputerVisionpytor
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
深度学习 Deep Learning 第8章深度学习优化 odoo中国 AI编程人工智能深度学习人工智能优化
深度学习第8章深度学习的优化章节概述本章深入探讨了深度学习中的优化技术，旨在解决模型训练过程中面临的各种挑战。优化是深度学习的核心环节，直接关系到模型的训练效率和最终性能。本章首先介绍了优化在深度学习中的特殊性，然后详细讨论了多种优化算法，包括随机梯度下降（SGD）、动量法、Nesterov动量法、AdaGrad、RMSProp和Adam等。此外，还探讨了参数初始化策略、自适应学习率方法以及二阶优
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
深度学习篇---对角矩阵&矩阵的秩&奇异矩阵 Ronin-Lotus 程序代码篇深度学习篇深度学习矩阵人工智能线性代数
文章目录前言一、对角矩阵（DiagonalMatrix）1.1定义1.2特性行列式运算简化1.3应用领域深度学习信号处理量子力学经济学二、矩阵的秩（RankofaMatrix）2.1定义2.2特性满秩降秩影响2.3应用领域深度学习图像压缩推荐系统控制理论三、奇异矩阵（SingularMatrix）3.1定义3.2特性秩不足行列式为零3.3应用领域深度学习正则化损失函数结构工程统计学数值计算四、跨领
DeepSeek、Grok 与 ChatGPT 三巨头：技术架构与应用场景的全方位解析云策量化 Deepseek chatgpt deepseek grok
前言在当今人工智能领域，DeepSeek、Grok和ChatGPT作为语言模型的三巨头，各自凭借独特的技术架构和广泛的应用场景，在自然语言处理领域占据着重要地位。本文将对这三款模型的技术架构和应用场景进行全方位解析，以期为读者提供深入的了解和有价值的参考。一、技术架构（一）DeepSeekDeepSeek是由DeepSeek团队开发的一款大型语言模型，其技术架构基于深度学习中的Transforme
OpenCV 4.2.0与扩展模块安装与应用指南土城三富
本文还有配套的精品资源，点击获取简介：OpenCV4.2.0是一个先进的计算机视觉库，包含了图像处理、计算机视觉和机器学习算法。本压缩包包含OpenCV核心库和扩展模块（opencv_contrib），版本均为4.2.0。该版本引入了性能增强、API优化以及对深度学习框架和硬件加速技术的更新支持。扩展模块提供了额外的实验性算法和功能，有助于研究和开发新算法。指南详细介绍了如何安装和配置这些库，并提
介于YOLOv5的裂缝识别系统程序员～小强 YOLO
介于YOLOv5的裂缝识别系统在现代工业中，裂缝监测是的保障设施安全的重要环节。我们公司的新项目——基于YOLOv5的裂缝识别系统，将为您提供高效、精准的解决方案，助力各类工程项目的质量管理。系统优势我们的裂缝识别系统借助YOLOv5进行深度学习，经过精心训练，拥有强大的图像识别能力。只需简单的步骤，您就能将复杂的裂缝检测转化为轻松的操作，让分析变得更加简单、高效。核心功能图片上传与场景选择用户可
使用Dall-E生成图像：文本到图像的魔力 shuoac 计算机视觉人工智能 python
使用Dall-E生成图像：文本到图像的魔力技术背景介绍Dall-E是OpenAI开发的一个强大的文本到图像生成模型，它能够根据自然语言描述创造出全新的数字图像。这一技术基于深度学习的方法，使得创意与AI图像生成的结合更具可能性。本文将介绍如何调用Dall-EAPI来生成图像，从而使开发者能够将这一技术应用到自己的项目中。核心原理解析Dall-E利用大型语言模型（LLM）从用户提供的文本描述中提取详
【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。 985小水博一枚呀深度学习人工智能
【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。文章目录【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。1.滑坡灾害早期隐患的概念与特征概念主要特征2.通过光学
给普通人看的深度学习说明书：用快递系统理解AI如何思考嵌入式Jerry Python AI 人工智能深度学习
第一章：理解AI的思维方式（快递版）1.1快递分拣站的故事假设你管理一个快递分拣站：传统方法：手动制定规则（比如根据邮编分拣）机器学习：观察老员工的分拣记录，总结规律深度学习：搭建自动分拣流水线，自主发现隐藏规则1.2神经网络就像智能分拣机传送带（输入层）：接收包裹信息（图片像素/文字等）#就像扫描快递单input_data=[0.2,0.7,0.1]#归一化后的特征数据分拣工人（隐藏层）：每个工
解析大模型归一化：提升训练稳定性和性能的关键技术秋声studio 口语化解析深度学习人工智能大模型归一化
引言在深度学习领域，特别是在处理大型神经网络模型时，归一化（Normalization）是一项至关重要的技术。它可以提高模型的训练稳定性和性能，在加速收敛方面发挥了重要作用。本文将深入探讨大模型归一化的原理、常见方法及其应用场景，并结合实际案例和代码示例进行说明。一、归一化的作用与理论基础归一化的主要目的是为了提高模型的训练稳定性和性能。具体来说，归一化有以下几个关键作用：提高训练稳定性：在神经网
深入解析深度学习中的过拟合与欠拟合诊断、解决与工程实践古月居GYH 深度学习人工智能
一、引言：模型泛化能力的核心挑战在深度学习模型开发中，欠拟合与过拟合是影响泛化能力的两个核心矛盾。据GoogleBrain研究统计，工业级深度学习项目中有63%的失败案例与这两个问题直接相关。本文将从基础概念到工程实践，系统解析其本质特征、诊断方法及解决方案，并辅以可复现的代码案例。二、核心概念与通熟易懂解释简单而言，欠拟合是指模型不能在训练集上获得足够低的误差。换句换说，就是模型复杂度低，模型在
Umi-OCR 实践教程：离线、免费、高效的图像文字识别工具几道之旅人工智能智能体及数字员工 ocr 人工智能
一、工具简介Umi-OCR是一款开源、免费且支持离线运行的OCR（光学字符识别）工具，适用于Windows和Linux系统。它基于深度学习技术，能够高效提取图像中的文字，支持多语言识别、批量处理、截屏识别等功能，尤其适合对隐私敏感或网络受限的场景。核心亮点：离线运行：无需联网，保护隐私。多引擎支持：提供Paddle（高性能）和Rapid（低配兼容）两种引擎。批量处理：支持图片、PDF、电子书等多格
基于ChatGPT、GIS与Python机器学习的地质灾害风险评估、易发性分析、信息化建库及灾后重建高级实践 weixin_贾防洪评价风险评估滑坡泥石流地质灾害
第一章、ChatGPT、DeepSeek大语言模型提示词与地质灾害基础及平台介绍【基础实践篇】1、什么是大模型？大模型（LargeLanguageModel,LLM）是一种基于深度学习技术的大规模自然语言处理模型。代表性大模型：GPT-4、BERT、T5、ChatGPT等。特点：多任务能力：可以完成文本生成、分类、翻译、问答等任务。上下文理解：能理解复杂的上下文信息。广泛适配性：适合科研、教育、行
anythingLLM 使用教程惟贤箬溪穷玩Ai AIGC 人工智能
一、anythingLLM简介anythingLLM是一款灵活且功能强大的语言模型，它基于先进的深度学习架构构建，旨在为用户提供多样化的自然语言处理服务。其设计理念注重通用性和可扩展性，能够适应多种领域和任务，无论是文本生成、智能问答，还是翻译、摘要提取等，都能展现出出色的性能。与同类模型相比，anythingLLM具有训练数据丰富、模型优化程度高的优势，能够生成更符合逻辑、更具实用性的文本内容。
深度解析大模型推理框架：原理、应用与实践百度_开发者中心人工智能大模型自然语言处理
在当今数据驱动的时代，大模型推理框架已经成为人工智能领域的重要支柱。本文将通过简明扼要、清晰易懂的方式，带领读者深入了解大模型推理框架的原理、应用领域和实践经验，帮助读者更好地掌握这一技术，并在实际工作中发挥其价值。一、大模型推理框架简介大模型推理框架是指一种基于深度学习技术的推理框架，主要用于解决大规模数据集下的复杂问题。该框架通过对海量数据进行高效的训练和推理，能够快速地对各种复杂场景进行分析
大模型推理框架：从理论到实践的全面解析百度_开发者中心人工智能大模型自然语言处理
在数据驱动的时代，深度学习技术已经渗透到各个行业，从图像识别到自然语言处理，从推荐系统到智能客服，其应用无处不在。然而，深度学习模型的训练和推理过程往往涉及大量数据和复杂计算，传统的计算框架难以满足需求。因此，大模型推理框架应运而生，成为解决这一问题的关键。一、大模型推理框架基本概念大模型推理框架是一种基于深度学习技术的推理框架，它通过对海量数据进行高效的训练和推理，能够快速地对各种复杂场景进行分
Yolo系列之Yolo的基本理解是十一月末 YOLO python 开发语言 yolo
YOLO的基本理解目录YOLO的基本理解1YOLO1.1概念1.2算法2单、多阶段对比2.1FLOPs和FPS2.2one-stage单阶段2.3two-stage两阶段1YOLO1.1概念YOLO(YouOnlyLookOnce)是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位
大语言模型学习路线：从入门到实战大模型官方资料语言模型学习人工智能产品经理自然语言处理搜索引擎
大语言模型学习路线：从入门到实战在人工智能领域，大语言模型（LargeLanguageModels,LLMs）正迅速成为一个热点话题。本学习路线旨在为有基本Python编程和深度学习基础的学习者提供一个清晰、系统的大模型学习指南，帮助你在这一领域快速成长。本学习路线更新至2024年02月，后期部分内容或工具可能需要更新。适应人群已掌握Python基础具备基本的深度学习知识学习步骤本路线将通过四个核
深度学习与目标检测系列(六) 本文约(4.5万字) | 全面解读复现ResNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch 人工智能 ResNet 残差连接残差网络
文章目录解读Abstract—摘要翻译精读主要内容Introduction—介绍翻译精读背景RelatedWork—相关工作ResidualRepresentations—残差表达翻译精读主要内容ShortcutConnections—短路连接翻译精读主要内容DeepResidualLearning—深度残差学习ResidualLearning—残差学习翻译精读ResNet目的以前方法本文改进本质
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它

YOLO_V4 入手贴