EmoC001

YOLO NAS note 1

Git Hub: https://github.com/Deci-AI/super-gradients

Yolo-Nas 的代码比YOLO v8 还恐怖。之前的YOLO数据可以通过：
coco_detection_yolo_format_train，和 coco_detection_yolo_format_val 自动转。

这里写目录标题

Train
- 数据获取
- 数据增强
- 训练
- - criterion
  - params
  - EMA
  - self.training_params.batch_accumulate
  - model
  - QARepVGGBlock
- outputs = self.net(inputs)
Test
Deci
Architecture
- QARepVGG
- - reparameterizationbased models 有 quantization 困难
  - 问题1
  - 问题1的解决方案
  - 问题2
  - 问题2的解决方案
  - 总结

Train

YOLO-NAS 的使用和 YOLO v8 类似。以下是parameters:
https://docs.deci.ai/super-gradients/super_gradients.training.html

from roboflow import Roboflow
import super_gradients
from super_gradients.training import Trainer
from super_gradients.training import dataloaders
from super_gradients.training.dataloaders.dataloaders import coco_detection_yolo_format_train, coco_detection_yolo_format_val

from super_gradients.training.losses import PPYoloELoss
from super_gradients.training.metrics import DetectionMetrics_050
from super_gradients.training.models.detection_models.pp_yolo_e import PPYoloEPostPredictionCallback
from super_gradients.training import models


import os

super_gradients.setup_device(device='cuda')
CHECKPOINT_DIR = 'helmet_checkpoints'
trainer = Trainer(experiment_name='helmet', ckpt_root_dir=CHECKPOINT_DIR)



if not os.path.exists('EEP_Detection-1'):
    rf = Roboflow(api_key="IuYv6KOKs5p62rFSLvGa")
    project = rf.workspace("objet-detect-yolov5").project("eep_detection-u9bbd")
    dataset = project.version(1).download("yolov5")

# dataset_params = {
#     'data_dir':r'E:\data\alldata',
#     'train_images_dir': r'E:\data\alldata\train',
#     'train_labels_dir': r'E:\data\alldata\train',
#     'val_images_dir': r'E:\data\alldata\val',
#     'val_labels_dir': r'E:\data\alldata\val',
#     'test_images_dir': r'E:\data\alldata\val',
#     'test_labels_dir': r'E:\data\alldata\val',
#     'classes': ['helmet', 'normal']
# }

dataset_params = {
    'data_dir':r'E:\data\helmet_head_2labels',
    'train_images_dir': r'E:\data\helmet_head_2labels\train',
    'train_labels_dir': r'E:\data\helmet_head_2labels\train',
    'val_images_dir': r'E:\data\helmet_head_2labels\val',
    'val_labels_dir': r'E:\data\helmet_head_2labels\val',
    'test_images_dir': r'E:\data\helmet_head_2labels\val',
    'test_labels_dir': r'E:\data\helmet_head_2labels\val',
    'classes': ['helmet', 'normal']
}

mytransform = [{'DetectionStandardize': {'max_value': 255}},
               {'DetectionMosaic': {'input_dim': [640, 640], 'prob': 1.0}},
               {'DetectionRandomAffine': {'degrees': 10.0, 'translate': 0.1, 'scales': [0.1, 2], 'shear': 2.0, 'target_size': [640, 640], 'filter_box_candidates': True, 'wh_thr': 2, 'area_thr': 0.1, 'ar_thr': 20}},
               {'DetectionMixup': {'input_dim': [640, 640], 'mixup_scale': [0.5, 1.5], 'prob': 1.0, 'flip_prob': 0.5}},
               {'DetectionHSV': {'prob': 1.0, 'hgain': 5, 'sgain': 30, 'vgain': 30}},
               {'DetectionHorizontalFlip': {'prob': 0.5}},
               {'DetectionPaddedRescale': {'input_dim': [640, 640], 'max_targets': 120}},
               {'DetectionTargetsFormatTransform': {'input_dim': [640, 640], 'output_format': 'LABEL_CXCYWH'}}]

train_data = coco_detection_yolo_format_train(
    dataset_params={
        'data_dir': dataset_params['data_dir'],
        'images_dir': dataset_params['train_images_dir'],
        'labels_dir': dataset_params['train_labels_dir'],
        'classes': dataset_params['classes'],
        'transforms': mytransform
    },
    dataloader_params={
        'batch_size':8,
        'num_workers':2
    }
)

val_data = coco_detection_yolo_format_val(
    dataset_params={
        'data_dir': dataset_params['data_dir'],
        'images_dir': dataset_params['val_images_dir'],
        'labels_dir': dataset_params['val_labels_dir'],
        'classes': dataset_params['classes'],
        #'transforms': [{'DetectionStandardize': {'max_value': 255}},
          #             {'DetectionPaddedRescale':{'input_dim': [640, 640], 'max_targets': 120}},
              #         {'DetectionTargetsFormatTransform': {'input_dim': [640, 640], 'output_format': 'LABEL_CXCYWH'}}
                       ]
    },
    dataloader_params={
        'batch_size':8,
        'num_workers':2
    }
)

test_data = coco_detection_yolo_format_val(
    dataset_params={
        'data_dir': dataset_params['data_dir'],
        'images_dir': dataset_params['test_images_dir'],
        'labels_dir': dataset_params['test_labels_dir'],
        'classes': dataset_params['classes'],
        #'transforms': [{'DetectionStandardize': {'max_value': 255}},
                      # {'DetectionPaddedRescale':{'input_dim': [640, 640], 'max_targets': 120}},
                      # {'DetectionTargetsFormatTransform': {'input_dim': [640, 640], 'output_format': 'LABEL_CXCYWH'}}
                       ]
    },
    dataloader_params={
        'batch_size':8,
        'num_workers':2
    }
)
print(train_data.dataset.transforms)
print(train_data.dataset.dataset_params['transforms'][2])
train_data.dataset.dataset_params['transforms'][2]['DetectionRandomAffine']['degrees'] = 10.42
# train_data.dataset.plot()
model = models.get('yolo_nas_s', 
                   num_classes=len(dataset_params['classes']), 
                   pretrained_weights="coco"
                   )
train_params = {
    # ENABLING SILENT MODE
    'silent_mode': False,
    "average_best_models":True,
    "warmup_mode": "linear_epoch_step",
    "warmup_initial_lr": 1e-6,
    "lr_warmup_epochs": 3,
    "initial_lr": 5e-4,
    "lr_mode": "cosine",
    "cosine_final_lr_ratio": 0.1,
    "optimizer": "Adam",
    "optimizer_params": {"weight_decay": 0.0001},
    "zero_weight_decay_on_bias_and_bn": True,
    "ema": True,
    "ema_params": {"decay": 0.9, "decay_type": "threshold"},
    # ONLY TRAINING FOR 10 EPOCHS FOR THIS EXAMPLE NOTEBOOK
    "max_epochs": 3,
    "mixed_precision": False,
    "loss": PPYoloELoss(
        use_static_assigner=False,
        # NOTE: num_classes needs to be defined here
        num_classes=len(dataset_params['classes']),
        reg_max=16
    ),
    "valid_metrics_list": [
        DetectionMetrics_050(
            score_thres=0.1,
            top_k_predictions=30,
            # NOTE: num_classes needs to be defined here
            num_cls=len(dataset_params['classes']),
            normalize_targets=True,
            post_prediction_callback=PPYoloEPostPredictionCallback(
                score_threshold=0.01,
                nms_top_k=1000,
                max_predictions=30,
                nms_threshold=0.7
            )
        )
    ],
    "metric_to_watch": '[email protected]'
}
if __name__ == '__main__':
    trainer.train(model=model,
                training_params=train_params, 
                train_loader=train_data, 
                valid_loader=val_data)
    best_model = models.get('yolo_nas_s',
                            num_classes=len(dataset_params['classes']),
                            checkpoint_path="helmet_checkpoints/helmet/ckpt_best.pth")
    trainer.test(model=best_model,
                test_loader=test_data,
                test_metrics_list=DetectionMetrics_050(score_thres=0.1, 
                                                    top_k_predictions=300, 
                                                    num_cls=len(dataset_params['classes']), 
                                                    normalize_targets=True, 
                                                    post_prediction_callback=PPYoloEPostPredictionCallback(score_threshold=0.01, 
                                                                                                            nms_top_k=1000, 
                                                                                                            max_predictions=300,                                                                              
                                                                                                            nms_threshold=0.7)
                                                    ))

数据获取

YoloDarknetFormatDetectionDataset （super-gradients-master\src\super_gradients\training\datasets\detection_datasets）
- _setup_data_source:获取路径里的所有数据list

数据增强

增强的内容在transforms.py (super-gradients-master\src\super_gradients\training\transforms)
Nas 支持很多个大方向的内容，下面是例子：

DetectionMosaic('additional_samples_count': 3, 'non_empty_targets': False, 'prob': 1.0, 'input_dim': [640, 640], 'enable_mosaic': True, 'border_value': 114)

DetectionRandomAffine('additional_samples_count': 0, 'non_empty_targets': False, 'degrees': 10.0, 'translate': 0.1, 'scale': [0.1, 2], 'shear': 2.0, 'target_size': [640, 640], 'enable': True, 'filter_box_candidates': True, 'wh_thr': 2, 'ar_thr': 20, 'area_thr': 0.1, 'border_value': 114)

DetectionMixup('additional_samples_count': 1, 'non_empty_targets': True, 'input_dim': [640, 640], 'mixup_scale': [0.5, 1.5], 'prob': 1.0, 'enable_mixup': True, 'flip_prob': 0.5, 'border_value': 114)

DetectionHSV('additional_samples_count': 0, 'non_empty_targets': False, 'prob': 1.0, 'hgain': 5, 'sgain': 30, 'vgain': 30, 'bgr_channels': (0, 1, 2), '_additional_channels_warned': False)

DetectionHorizontalFlip('additional_samples_count': 0, 'non_empty_targets': False, 'prob': 0.5, 'max_targets': 120)

DetectionPaddedRescale('swap': (2, 0, 1), 'input_dim': [640, 640], 'max_targets': 120, 'pad_value': 114)

DetectionTargetsFormatTransform('additional_samples_count': 0, 'non_empty_targets': False, 'input_format': OrderedDict([('bboxes', name=bboxes length=4 format=<super_gradients.training.datasets.data_formats.bbox_formats.xyxy.XYXYCoordinateFormat object at 0x000001D80A2BE100>), ('labels', name=labels length=1)]), 'output_format': OrderedDict([('labels', name=labels length=1), ('bboxes', name=bboxes length=4 format=<super_gradients.training.datasets.data_formats.bbox_formats.cxcywh.CXCYWHCoordinateFormat object at 0x000001D80A2E92B0>)]), 'max_targets': 120, 'min_bbox_edge_size': 1, 'input_dim': [640, 640], 'targets_format_converter': <super_gradients.training.datasets.data_formats.format_converter.ConcatenatedTensorFormatConverter object at 0x000001D834D18C70>)

> * 比如我想要数据集做下 standardisation: 仅 ‘/255’, 那么在test，val里都得加上和train一样的standardisation, 让进model的数据值的分布一致（0-1之间）和yolo 之前操作一样，我需要一个letterbox, 辣么 train，val, test 的letterbox做法要一致（尺寸大小得一致，但是letterbox是居中还是如yolo nas 是放在上方，这几个过程要不要一致，其实看你啦）
*还有一个是格式转换:DetectionTargetsFormatTransform，这个在train里有的，在val, test 也必须加上。

训练

Trainer （super-gradients-master\src\super_gradients\training\sg_trainer）

criterion

这里的 DFL 从 YOLO v8 延续到NAS，但是 YOLO v8 使用 CIOU
DFL + GIOU
class loss 同 yolov8 支持 varifocal loss

params

{'silent_mode': True, 
 'average_best_models': True, 
 'warmup_mode': 'linear_epoch_step', 
 'warmup_initial_lr': 1e-06, 
 'lr_warmup_epochs': 3, 
 'initial_lr': 0.0005, 
 'lr_mode': 'cosine', 'cosine_final_lr_ratio': 0.1, 
 'optimizer': 'Adam', 'optimizer_params': {'weight_decay': 0.0001},     
 'zero_weight_decay_on_bias_and_bn': True,
 'ema': True, 'ema_params': {'decay': 0.9, 'decay_type': 'threshold'}, 
 'max_epochs': 3, 
 'mixed_precision': False, 
 'loss': PPYoloELoss((static_assigner): ATSSAssigner()(assigner): TaskAlignedAssigner()), 
 'valid_metrics_list': [DetectionMetrics_050((post_prediction_callback): PPYoloEPostPredictionCallback())], 
 'metric_to_watch': '[email protected]'}

EMA

Exponential Moving Average ，随时间移动而平滑函数让其接近真实值。越是近期的数据，权重越大。不单纯只是exponential （在这一点上比moving mean/sum 好）。SGD 里可以加入 EMA 帮助优化。
EMA 不适用于 non-stable function. 虽然模型在训练中，weight一直在变化，但它最终的期望还是使得model converge 到某个分布，所以针对weight，这个依然是可以用EMA的。
但是，训练中的changing gradients, loss values, and model performance 都是 non-stable 的。当然，EMA是给weight用的，和这些内容无关。

self.training_params.batch_accumulate

内存友好，积累到一定数量，统一更新

model

super-gradients-master\src\super_gradients\training\utils
wrappednet ⇒ CustomizableDetector

def forward(self, x):
     x = self.backbone(x)
     x = self.neck(x)
     return self.heads(x)

QARepVGGBlock

Make RepVGG Greater Again: A Quantization-aware Approach

outputs = self.net(inputs)

outputs总的6个值

> 0：pred_scores    	(8,8400,2)	:Tensor
> 1：pred_distri		(8,8400,68)	:Tensor
> 2：anchors			(8400,4)	: Tensor
> 3：anchor_points		(8400,2)    : Tensor
> 4：num_anchors_list   	3       :list => [6400，1600，400]
> 5：stride_tensor		(8400,1)    :Tensor

self._get_losses(outputs, targets) #target (138,6)

target 包含3个值

> 0：gt_class			(8,41,1)	:Tensor
> 1：gt_bbox            (8,41,4)	:Tensor
> 2：pad_gt_mask		(8,41,1）	:Tensor (bool)

Test

from roboflow import Roboflow
import super_gradients
from super_gradients.training import Trainer
from super_gradients.training import dataloaders
from super_gradients.training.dataloaders.dataloaders import coco_detection_yolo_format_train, coco_detection_yolo_format_val

from super_gradients.training.losses import PPYoloELoss
from super_gradients.training.metrics import DetectionMetrics_050
from super_gradients.training.models.detection_models.pp_yolo_e import PPYoloEPostPredictionCallback
from super_gradients.training import models

import glob
from pathlib import Path
import os
import torch

dataset_params = {
    'data_dir':r'E:\data\alldata',
    'train_images_dir': r'E:\data\alldata\train',
    'train_labels_dir': r'E:\data\alldata\train',
    'val_images_dir': r'E:\data\alldata\val',
    'val_labels_dir': r'E:\data\alldata\val',
    'test_images_dir': r'E:\data\alldata\val',
    'test_labels_dir': r'E:\data\alldata\val',
    'classes': ['helmet', 'normal']
}
super_gradients.setup_device(device='cuda')
CHECKPOINT_DIR = 'helmet_checkpoints'
trainer = Trainer(experiment_name='helmet', ckpt_root_dir=CHECKPOINT_DIR)

if __name__ == '__main__':
    best_model = models.get('yolo_nas_s',
                            num_classes=len(dataset_params['classes']),
                            checkpoint_path="helmet_checkpoints/helmet/ckpt_best.pth")
    device = 'cuda' if torch.cuda.is_available() else "cpu"
    import matplotlib
    matplotlib.use('TkAgg', force=True)
    imgfiles = glob.glob(str(Path('testImgs')/'*.*'),recursive=True)[13]
    outfolder = 'testresultss'
    os.makedirs(outfolder,exist_ok=True)
    predictions = best_model.predict(imgfiles)
    predictions.show()
    # predictions.save(output_folder="testresultss")  # Save in working directory
    # models.convert_to_onnx(model=best_model, input_shape=(3, 640, 640), out_path="yolo_nas_s.onnx")

Deci

不支持windows 和 MacOS

Architecture

yolo v8 与 yolo nas 主要的框架改编自YOLO v6, 大的框架不变，都是先backbone, 再Neck, 后Head.
可以说 v6开始，就和v5 有很大不同了. 在 v6 中：
改动最多的是backbone，虽然套路依然延续CSP时期的yolo v5, 但是内核已经从 CSP 变成了 RepVGG.
Top-Down 中的的 CSPPlayer 都替换成了 RepVGG.
Head 中，虽然依然贴心的分出3个分支做尺寸友好的检测增强，但是，比起v5, v6 有了更多的conv去继续提取特征。

QARepVGG

RepVGG 在 yolo v6 里用了。
yolo v6

reparameterizationbased models 有 quantization 困难

hmmmm… 之前的VAE，有使用reparameterization 做 Gaussian distribution 的latent space 表示。也有用reparameterization 中 SVD技术做matrix分解的。这些方法一定程度上缓解了计算效率和节省内存。RepVGG 类似的用了multi-branch的结构。这些方式更多注重在训练时候。而PTQ更加强调是训练后，也就是inference 时。
reparameterization 会牺牲一定精度换取计算效率。如果在reparameterization 基础上做 PTQ，那相当于在误差里做更误差的事情。在reparameterization 的基础上，至少按常理来说，数值精度越高越保险。

Post Training Quantization (PTQ) is a technique to reduce the required computational resources for inference while still preserving the accuracy of your model by mapping the traditional FP32 activation space to a reduced INT8 space.

针对 PTQ这一点，QARepVGG 好过 RepVGG. 而且这个模型也是 “INT８”的来源。

文中提到：our models are comparable to RepVGG in terms of FP32 accuracy
Weight & Activation 是主要优化的地方

问题1

作者发现 BN中的mean 没有什么影响（集中于0附近，约为0），但是variance不是。
(凡是斜杠的block都是BN，凡是实心的都是各种kernel)

M2 是第一层加法的结果。 Y3, Y1, Y0 分别代表上面 3x3, 1x1, Identity 的 kernels的BN后的结果。

以 kernels 3x3的为例子：

因为 $D(λX) = λ^2D(X)$ ，假设 $X (3) = M (1) W (3)$ , 代入式子， $D (λ X)$ = $D (Y (3))$ , $D (X)$ = $D (X (3))$ :

以上内容证明了variance影响巨大，除此之外，RepVGG 里的loss L2，放大了上面的部分来减少loss，也使得因改变variance of activation，让PTQ在这里失败。

问题1的解决方案

作者的解决方案很直接，把有影响的地方直接去除：

目前，去除分母的做法能够使得在INT8 精度下，改进的方式的model 成绩优于 RepVGG 里的。

问题2

作者发现based在问题1的做法上，导致了layers中有些格格不入的outliers.

将问题1中的两个公式融合在一起为上面的M2，作者认为，前半部分的 $\gamma / \sqrt { \epsilon + \sigma ^2}$ 如果本身值就大（特别是对于Y0, 因为它是identity的matrix，那么这个部分就会是1，即 1*W0），它会把这个巨大的值贡献给经过fusion后的同等 kernels。
作者后续，证明了 $\beta _1$ = $\beta _3$ ，为 Expectation。（虽然这是个很标准的inductive的过程，但是对于 $l^{k+1}*$ partial derivation 的部分有点懵）

作者还注意到RepVGG 使用的是 Relu, 但是基于常理： modern high-performance CNN models with BN often have zero means。因此，为了防止 dead Relu, 全部相加在一起：

addition of the three branches introduces the covariate shift issue

问题2的解决方案

根据outlier 的layer锁定问题还是在variance of activation上，想要放大variance，并且证明了branch 1 和 branch 3的期望结果一致，将三个branch的BN结果相加，来抵消dead Relu. 又因为考虑到直接相加BN会导致 BN 的方差位移，因此最终解决方案为在相加后的BN结果上再进行一次BN。

最终 S4 为整个 QARepVGG 的方案，并且达到了 PTQ！

总结

PTQ 是保障在FP32，INT8 上都要优于baseline model
BN 操作时，如果遇到Relu, 可以用文中技巧： $BN(\sum_0^n BN)$
BN 操作时，如果遇到模型不ok, 可以尝试去看一下每层layer BN的 mean 与 Variance
应该可以放弃RepVGG 了，直接上QARepVGG

计算机视觉中图像的基础认知全栈你个大西瓜人工智能计算机视觉人工智能图像基本属性 RGB 三通道彩色单通道灰度图像 OpenCV Matplotlib
第一章：计算机视觉中图像的基础认知第二章：计算机视觉：卷积神经网络(CNN)基本概念(一)第三章：计算机视觉：卷积神经网络(CNN)基本概念(二)第四章：搭建一个经典的LeNet5神经网络一、图像/视频的基本属性在计算机视觉中，图像和视频的本质是多维数值矩阵。图像或视频数据的一些基本属性。宽度（W）和高度（H）定义了图像的像素分辨率，单位通常是像素。例如，一张1920x1080的图像有1920列（
【深度学习】计算机视觉（CV）-图像分类-ResNet（Residual Network，残差网络） IT古董深度学习人工智能深度学习计算机视觉分类
ResNet（ResidualNetwork，残差网络）是一种深度卷积神经网络（CNN）架构，由何恺明（KaimingHe）等人在2015年提出，最初用于ImageNet竞赛，并在分类任务上取得了冠军。ResNet的核心思想是残差学习（ResidualLearning），它通过跳跃连接（SkipConnections）解决了深度神经网络训练中的梯度消失和梯度爆炸问题，使得非常深的网络（如50层、1
【深度学习基础】什么是注意力机制我的青春不太冷深度学习人工智能注意力机制
文章目录一、注意力机制的核心地位：从补充到主导二、技术突破：从Transformer到多模态融合三、跨领域应用：从NLP到通用人工智能四、未来挑战与趋势结语参考链接注意力机制：深度学习的核心革命与未来基石在深度学习的发展历程中，注意力机制（AttentionMechanism）的引入堪称一场革命。它不仅解决了传统模型的根本性缺陷，更通过动态聚焦关键信息的能力，重塑了人工智能处理复杂任务的范式。本文
【第15章：量子深度学习与未来趋势—15.3 量子深度学习在图像处理、自然语言处理等领域的应用潜力分析】再见孙悟空_ #【深度学习・探索智能核心奥秘】深度学习机器学习人工智能音视频自然语言处理量子深度学习量子学习未来
一、开篇：为什么我们需要关注这场"量子+AI"的世纪联姻？各位技术爱好者们，今天我们要聊的这个话题，可能是未来十年最值得押注的技术革命——量子深度学习。这不是简单的"1+1=2"的物理叠加，而是一场可能彻底改写AI发展轨迹的范式转移。想象这样一个场景：你现在训练一个GPT-5级别的模型，不需要耗费价值上亿美元的算力资源，不需要等待数周的训练时间，甚至不需要纠结于模型参数是否过拟合。这就是量子深度学
【第15章：量子深度学习与未来趋势—15.1 量子计算基础与量子机器学习的发展背景】再见孙悟空_ #【深度学习・探索智能核心奥秘】机器翻译自然语言处理计算机视觉量子计算人工智能深度学习机器学习
想象一下，你正在用ChatGPT生成一篇小说，突然它卡在"主角穿越虫洞"的情节上——这不是因为想象力枯竭，而是传统计算机的晶体管已经烧到冒烟。当前AI大模型的参数规模每4个月翻一番，但摩尔定律的终结让经典计算机的算力增长首次跟不上AI的进化速度。这时候，量子计算带着它的"超能力"登场了：1台50量子位的量子计算机，处理某些问题的速度可达超级计算机的1亿倍。这场算力革命，正在改写深度学习的游戏规则。
基于深度学习YOLOv10的PCB板缺陷检测系统（附完整资源+PySide6界面+训练代码）人工智能_SYBH 深度学习 YOLO 人工智能目标检测 python
引言：在现代制造业中，电子元件和PCB（印刷电路板）是非常重要的基础设施。PCB缺陷检测是生产过程中至关重要的一步。传统的缺陷检测方法主要依靠人工检查，这不仅效率低，而且容易受到人眼疲劳的影响。随着深度学习技术的不断发展，基于深度学习的自动化缺陷检测已成为研究的热点，尤其是在计算机视觉领域。YOLO（YouOnlyLookOnce）系列算法凭借其高速和高精度的优势，成为了目标检测领域的佼佼者。本文
【深度解析】ICLR：人工智能领域的顶级学术会议 | 顶会与SCI期刊的区别全攻略 X_taiyang18 人工智能
【深度解析】ICLR：人工智能领域的顶级学术会议|顶会与SCI期刊的区别全攻略简介在人工智能和机器学习领域，ICLR（InternationalConferenceonLearningRepresentations）被誉为“深度学习的顶级会议”。自2013年由深度学习三巨头中的YoshuaBengio和YannLeCun创办以来，ICLR迅速崛起，成为全球科研人员争相投稿的学术盛会。那么，ICLR
使用多模态大语言模型进行深度学习的图像、文本和语音数据增强数行天下人工智能语言模型深度学习人工智能自然语言处理
在过去的五年里，研究方向已从传统的机器学习（ML）和深度学习（DL）方法转向利用大语言模型（LLMs），包括多模态方法，用于数据增强，以提高泛化能力，并在训练深度卷积神经网络时防止过拟合。然而，现有的综述文章主要集中于机器学习和深度学习技术或有限的模态（如文本或图像），在涵盖LLM方法的最新进展和多模态应用方面仍存在空白。本文通过探索利用多模态LLMs进行图像、文本和语音数据增强的最新文献，填补了
《深入浅出LLM基础篇》（三）：大模型结构分类 GoAI 深入浅出LLM 深入浅出AI 自然语言处理NLP 大模型 LLM 人工智能 transformer chatgpt
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介
深入理解TensorFlow中的形状处理函数 SEVEN-YEARS tensorflow 人工智能 python
摘要在深度学习模型的构建过程中，张量（Tensor）的形状管理是一项至关重要的任务。特别是在使用TensorFlow等框架时，确保张量的形状符合预期是保证模型正确运行的基础。本文将详细介绍几个常用的形状处理函数，包括get_shape_list、reshape_to_matrix、reshape_from_matrix和assert_rank，并通过具体的代码示例来展示它们的使用方法。1.引言在深
数字内容体验未来趋势：五大平台横向对比与深度解析清风徐徐de来其他
内容概要当前，企业数字化转型的核心战场正逐步向数字内容体验的精细化运营转移。随着用户行为碎片化与需求多元化趋势加剧，AI驱动的智能推荐系统、基于数据决策的动态优化能力，以及跨渠道的品牌一致性维护，已成为衡量内容平台竞争力的三大核心维度。本文将围绕这三大支柱，通过横向对比主流平台的技术架构与落地实践，揭示未来数字内容体验的演进方向。首先，AI驱动不仅改变了内容分发的效率，更通过深度学习算法实现用户行
DeepSeek底层揭秘——多头潜在注意力MLA 9命怪猫 AI ai 人工智能大模型
目录1.多头潜在注意力（MLA）2.核心功能3.技术要素4.难点挑战暨含解决方案5.技术路径6.应用场景7.实际案例：DeepSeek8.最新研究与技术进展9.未来趋势猫哥说1.多头潜在注意力（MLA）(1)定义“多头潜在注意力（Multi-HeadLatentAttention,MLA）”是一种基于注意力机制的深度学习方法，旨在通过多个注意力头（Multi-HeadAttention）对潜在空间
第2节课：深度学习基础python代码 Lips611 李哥深度学习 python 深度学习神经网络
目录编译环境：代码：文件：ds_0.py小结：python声明不需要定义，整型和浮点型都是直接给予值，字符串的[-2]代表是列表倒数的某值;同一列表里面可以有各种类型的变量;哈希表的键值对在打印时是调用字典[key]，然后输出对应的value文件：judge_0.py小结：python相对于c语言，是将（）换成空格和“：”，与此同时判断语句if和else的缩进不同对应着不同层次的判定条件，约等于“
深度学习在蛋白质-蛋白质相互作用（PPI）领域的研究进展（2022-2025） AndrewHZ 深度学习人工智能 transformer 算法科技
一、蛋白质-蛋白质相互作用（PPI）的定义与生物学意义蛋白质-蛋白质相互作用（Protein-ProteinInteraction,PPI）是指两个或多个蛋白质通过物理结合形成复合物，进而调控细胞信号传导、代谢、免疫应答等生命活动的过程。PPI是生物体内复杂功能网络的核心，例如酶与底物的结合、抗体与抗原的识别、受体与配体的信号传递等均依赖于此。据估计，人类蛋白质组中约80%的功能通过PPI实现，其
DeepSeek 引领的 AI 范式转变与存储架构的演进星辰@Sea 人工智能其他人工智能
引言在过去的几十年中，人工智能（AI）技术经历了翻天覆地的变化，从最初的符号主义到连接主义，再到现在的深度学习，每一次技术革新都推动了AI能力的显著提升。而在这场变革中，DeepSeek作为一股不可忽视的力量，正在引领AI范式的转变，并深刻影响着存储架构的发展。在这篇博客中，我们将深入探讨DeepSeek如何推动AI范式的转变，以及这种转变对存储架构带来的深远影响。通过分析当前AI技术的发展趋势，
第N11周：seq2seq翻译实战-Pytorch复现计算机真好丸 pytorch 人工智能 python
文章目录一、前期准备1.搭建语言类2.文本处理函数3.文件读取函数二、Seq2Seq模型1.编码器（encoder）2.解码器（decoder）三、训练1.数据预处理2.训练函数3.评估四、评估与训练1.Loss图2.可视化注意力五、总结本文为365天深度学习训练营中的学习记录博客原作者：K同学啊一、前期准备from__future__importunicode_literals,print_fu
第N5周：Pytorch文本分类入门计算机真好丸 pytorch 分类人工智能
文章目录一、前期准备1.环境安装2.加载数据3.构建词典4.生成数据批次和迭代器二、准备模型1.定义模型2.定义实例三、训练模型1.拆分数据集并运行模型2.使用测试数据集评估模型本文为365天深度学习训练营中的学习记录博客原作者：K同学啊一、前期准备1.环境安装确保安装了torchtext与portalocker库2.加载数据importtorch#强制使用CPUdevice=torch.devi
第TR5周：Transformer实战：文本分类计算机真好丸 transformer 分类深度学习
文章目录1.准备环境1.1环境安装1.2加载数据2.数据预处理2.1构建词典2.2生成数据批次和迭代器2.3构建数据集3.模型构建3.1定义位置编码函数3.2定义Transformer模型3.3初始化模型3.4定义训练函数3.5定义评估函数4.训练模型4.1模型训练5.总结：本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.准备环境1.1环境安装这是一个使用PyTorch通过Tran
大数据知识图谱之深度学习——基于BERT+LSTM+CRF深度学习识别模型医疗知识图谱问答可视化系统_bert+lstm 2301_76348014 程序员深度学习大数据知识图谱
文章目录大数据知识图谱之深度学习——基于BERT+LSTM+CRF深度学习识别模型医疗知识图谱问答可视化系统一、项目概述二、系统实现基本流程三、项目工具所用的版本号四、所需要软件的安装和使用五、开发技术简介Django技术介绍Neo4j数据库Bootstrap4框架Echarts简介NavicatPremium15简介Layui简介Python语言介绍MySQL数据库深度学习六、核心理论贪心算法A
DeepSeek进阶开发与应用1：DeepSeek框架概述与基础应用 Evaporator Core #DeepSeek快速入门 DeepSeek进阶开发与应用 spring 自然语言处理
引言在当今的人工智能领域，深度学习技术已经成为了推动技术进步的核心动力之一。DeepSeek作为一个先进的深度学习框架，旨在为开发者和研究人员提供一个高效、灵活且易于扩展的平台，以便于他们能够快速地实现和部署各种深度学习模型。本文将深入探讨DeepSeek框架的核心架构、基础应用以及如何通过代码实现一个简单的深度学习模型。DeepSeek框架概述DeepSeek框架的设计理念是简洁而强大。它提供了
DeepSeek+WPS/Office手把手教你玩转智能办公 herosunly DeepSeek从入门到精通 deepseek 大模型人工智能 office wps 智能办公
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法Q大赛评委，编写微软OpenAI考试认证指导手册。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第名。授权多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。
使用Python实现深度学习模型：知识蒸馏与模型压缩 Echo_Wish Python 笔记从零开始学Python人工智能 Python算法 python 深度学习开发语言
在深度学习领域，模型的大小和计算复杂度常常是一个挑战。知识蒸馏（KnowledgeDistillation）和模型压缩（ModelCompression）是两种有效的技术，可以在保持模型性能的同时减少模型的大小和计算需求。本文将详细介绍如何使用Python实现这两种技术。目录引言知识蒸馏概述模型压缩概述实现步骤数据准备教师模型训练学生模型训练（知识蒸馏）模型压缩代码实现结论1.引言在实际应用中，深
深度学习框架探秘｜TensorFlow vs PyTorch：AI 框架的巅峰对决紫雾凌寒智启前沿：AI 洞察・创未来人工智能深度学习 tensorflow pytorch ai
在深度学习框架中，TensorFlow和PyTorch无疑是两大明星框架。前面两篇文章我们分别介绍了TensorFlow（点击查看）和PyTorch（点击查看）。它们引领着AI开发的潮流，吸引着无数开发者投身其中。但这两大框架究竟谁更胜一筹？是TensorFlow的全面与稳健，还是PyTorch的灵活与便捷？让我们一同深入剖析，探寻答案。在深度学习框架中，TensorFlow和PyTorch无疑是
景联文科技数据处理平台：支持高质量图像标注服务景联文科技人工智能科技计算机视觉
图像标注是计算机视觉领域中不可或缺的一环，它通过为图像添加标签来帮助机器学习算法理解图像内容。这一过程对于创建高质量的训练数据集至关重要，使得AI模型能够准确地识别和分类现实世界中的物体。常见的图像标注类型：边界框标注：这是最常用的标注方式之一，通常用于物体检测任务。通过绘制矩形框来确定图像中目标物体的位置，可以是二维或三维形式。分割标注：包括语义分割（同一类别的所有实例被视为整体）和实例分割（每
《深入浅出多模态》（五）：多模态经典模型ALBEF GoAI 深入浅出多模态多模态大模型 LLM 深度学习人工智能
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介绍：</
轻量级的注意力网络（LANMSFF）模型详解及代码复现清风AI 深度学习算法详解及代码复现深度学习人工智能神经网络 python 计算机视觉
定义与特点在深度学习领域，轻量化网络设计已成为一个重要的研究方向。LANMSFF模型作为一种新型的轻量级网络架构，在保持高性能的同时，显著降低了模型的复杂度。LANMSFF模型的核心特点可以概括为以下几个方面：轻量级设计：通过精心设计的网络结构和参数优化，在保持较高性能的同时，显著降低了模型的复杂度。注意力机制：引入了一种新的注意力机制，能够有效地捕捉图像中的关键特征，提高模型的表达能力。多尺度特
柑橘叶子病害检测数据集VOC+YOLO格900张3类别 FL1623863129 数据集 YOLO 深度学习机器学习
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：900标注数量(xml文件个数)：900标注数量(txt文件个数)：900标注类别数：3标注类别名称(注意yolo格式类别顺序不和这个对应，而以labels文件夹classes.txt为准):["canker","kar
三种方式实现人车流统计（yolov5+opencv+deepsort+bytetrack+iou） Jayson God 人工智能 c++yolov5 opencv 算法人工智能
一、运行环境1、项目运行环境如下2、CPU配置3、GPU配置如果没有GPUyolov5目标检测时间会比较久二、编程语言与使用库版本项目编程语言使用c++，使用的第三方库，onnxruntime-linux-x64-1.12.1，opencv-4.6.0opencv官方地址Releases-OpenCVopencvgithub地址https://github.com/opencv/opencv/tr
TPAMI 2024 | SSR-2D: 从2D图像进行语义3D场景重建小白学视觉论文解读 IEEE TPAMI 深度学习顶刊论文论文解读 TPAMI
论文信息题目：SSR-2D:Semantic3DSceneReconstructionFrom2DImagesSSR-2D:从2D图像进行语义3D场景重建作者：JunwenHuang,AlexeyArtemov,YujinChen,ShuaifengZhi,KaiXu,andMatthiasNießner论文创新点首次提出了一种基于深度学习的方法，能够在不使用任何3D标注的情况下，从不完整的RGB
从养殖场到科技前沿：YOLOv11+OpenCV精准计数鸡蛋与鸡星际编程喵 Python探索之旅 YOLO opencv 人工智能 python 目标检测计算机视觉
前言谁能想到，鸡蛋和鸡的计数居然能变成一项高科技活儿？想象一下，早上去市场，卖家把鸡蛋摔得稀巴烂，结果鸡蛋滚得到处都是——难道你就得一个个捡回来数？还得小心别弄错？可是，你又不是超人！别担心，科技来帮忙！今天的主角是YOLOv11和OpenCV，它们是计算机视觉领域的两位大佬，专门为你解决这一难题。无论是鸡蛋还是鸡，它们都能精准识别，数得清清楚楚。不信？那我们就一起去看看怎么用这对“黄金搭档”解决
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，