AI Studio

Swin Transformer 来实现行人检测和追踪_副本

转载自AI Studio

标题项目链接https://aistudio.baidu.com/aistudio/projectdetail/2022805

引入

之前使用 Swin Transformer 实现过图像分类任务
今天换个下游任务——目标检测，尝试使用 Swin Transformer 作为 Backbone 在 PaddleDetection 套件中实现目标检测任务

已知问题

目前这个 Backbone 的代码还不太稳定，目前有以下几个问题，才疏学浅，暂时没找到解决方法
- Droppath 模块中 paddle.rand() 函数会偶发性出现错误，提示 system error
- RCNN 类模型训练时，当模型的输入分辨率或者 Batchsize 过大时，cuda 会报 700 错误
- YOLO 类模型训练时，当模型的输入分辨率过大时，会出现 BCE Loss 异常，感觉像是梯度消失导致的

PaddleDetection

PaddleDetection 飞桨目标检测开发套件，旨在帮助开发者更快更好地完成检测模型的组建、训练、优化及部署等全开发流程。

PaddleDetection 模块化地实现了多种主流目标检测算法，提供了丰富的数据增强策略、网络模块组件（如骨干网络）、损失函数等，并集成了模型压缩和跨平台高性能部署能力。

经过长时间产业实践打磨，PaddleDetection 已拥有顺畅、卓越的使用体验，被工业质检、遥感图像检测、无人巡检、新零售、互联网、科研等十多个行业的开发者广泛应用。

产品动态

2021.04.14: 发布 release/2.0 版本，PaddleDetection 全面支持动态图，覆盖静态图模型算法，全面升级模型效果，同时发布 PP-YOLO v2, PPYOLO tiny 模型，增强版 anchor free 模型 PAFNet，新增旋转框检测 S2ANet 模型，详情参考 PaddleDetection
2021.02.07: 发布 release/2.0-rc 版本，PaddleDetection 动态图试用版本，详情参考 PaddleDetection 动态图。

特性

模型丰富: 包含目标检测、实例分割、人脸检测等100+个预训练模型，涵盖多种全球竞赛冠军方案
使用简洁：模块化设计，解耦各个网络组件，开发者轻松搭建、试用各种检测模型及优化策略，快速得到高性能、定制化的算法。
端到端打通: 从数据增强、组网、训练、压缩、部署端到端打通，并完备支持云端/边缘端多架构、多设备部署。
高性能: 基于飞桨的高性能内核，模型训练速度及显存占用优势明显。支持FP16训练, 支持多机训练。

套件结构概览

Architectures

Backbones

Components

Data Augmentation

Two-Stage Detection
- Faster RCNN
- FPN
- Cascade-RCNN
- Libra RCNN
- Hybrid Task RCNN
- PSS-Det

One-Stage Detection
- RetinaNet
- YOLOv3
- YOLOv4
- PP-YOLO
- SSD

Anchor Free
- CornerNet-Squeeze
- FCOS
- TTFNet

Instance Segmentation
- Mask RCNN
- SOLOv2

Face-Detction
- FaceBoxes
- BlazeFace
- BlazeFace-NAS

ResNet(&vd)
ResNeXt(&vd)
SENet
Res2Net
HRNet
Hourglass
CBNet
GCNet
DarkNet
CSPDarkNet
VGG
MobileNetv1/v3
GhostNet
Efficientnet

Common
- Sync-BN
- Group Norm
- DCNv2
- Non-local

FPN
- BiFPN
- BFP
- HRFPN
- ACFPN

Loss
- Smooth-L1
- GIoU/DIoU/CIoU
- IoUAware

Post-processing
- SoftNMS
- MatrixNMS

Speed
- FP16 training
- Multi-machine training

Resize
Flipping
Expand
Crop
Color Distort
Random Erasing
Mixup
Cutmix
Grid Mask
Auto Augment

模型性能概览

各模型结构和骨干网络的代表模型在COCO数据集上精度mAP和单卡Tesla V100上预测速度(FPS)对比图。

Swin Transformer 来实现行人检测和追踪_副本_第1张图片

说明：

CBResNet为Cascade-Faster-RCNN-CBResNet200vd-FPN模型，COCO数据集mAP高达53.3%
Cascade-Faster-RCNN为Cascade-Faster-RCNN-ResNet50vd-DCN，PaddleDetection将其优化到COCO数据mAP为47.8%时推理速度为20FPS
PP-YOLO在COCO数据集精度45.9%，Tesla V100预测速度72.9FPS，精度速度均优于YOLOv4
PP-YOLO v2是对PP-YOLO模型的进一步优化，在COCO数据集精度49.5%，Tesla V100预测速度68.9FPS

同步 PaddleDetection 代码

# !git clone https://github.com.cnpmjs.org/PaddlePaddle/PaddleDetection -b release/2.0 --depth 1

添加 Backbone

添加模型代码：PaddleDetection/ppdet/modeling/backbones/swin_transformer.py
修改__init__.py：PaddleDetection/ppdet/modeling/backbones/__init__.py

编写配置文件

本次使用的配置文件如下：

# faster_rcnn_swin_ti.yaml
use_gpu: true
log_iter: 10
save_dir: output
snapshot_epoch: 1

epoch: 12

LearningRate:
  base_lr: 0.001
  schedulers:
  - !PiecewiseDecay
    gamma: 0.1
    milestones: [8, 11]
  - !LinearWarmup
    start_factor: 0.1
    steps: 1000

OptimizerBuilder:
  optimizer:
    momentum: 0.9
    type: Momentum
  regularizer:
    factor: 0.0001
    type: L2


architecture: FasterRCNN

FasterRCNN:
  backbone: SwinTransformer
  neck: FPN
  rpn_head: RPNHead
  bbox_head: BBoxHead
  # post process
  bbox_post_process: BBoxPostProcess

SwinTransformer:
  out_indices: [0,1,2,3]
  pretrained: https://bj.bcebos.com/v1/ai-studio-online/19a72dd9eb884f4581492a61fab901e60e858e34569f4805b619eceabd6a4315?responseContentDisposition=attachment%3B%20filename%3Dswin_tiny_patch4_window7_224.pdparams

FPN:
  out_channel: 256

RPNHead:
  anchor_generator:
    aspect_ratios: [0.5, 1.0, 2.0]
    anchor_sizes: [[32], [64], [128], [256], [512]]
    strides: [4, 8, 16, 32, 64]
  rpn_target_assign:
    batch_size_per_im: 256
    fg_fraction: 0.5
    negative_overlap: 0.3
    positive_overlap: 0.7
    use_random: True
  train_proposal:
    min_size: 0.0
    nms_thresh: 0.7
    pre_nms_top_n: 2000
    post_nms_top_n: 1000
    topk_after_collect: True
  test_proposal:
    min_size: 0.0
    nms_thresh: 0.7
    pre_nms_top_n: 1000
    post_nms_top_n: 1000


BBoxHead:
  head: TwoFCHead
  roi_extractor:
    resolution: 7
    sampling_ratio: 0
    aligned: True
  bbox_assigner: BBoxAssigner

BBoxAssigner:
  batch_size_per_im: 512
  bg_thresh: 0.5
  fg_thresh: 0.5
  fg_fraction: 0.25
  use_random: True

TwoFCHead:
  out_channel: 1024

BBoxPostProcess:
  decode: RCNNBox
  nms:
    name: MultiClassNMS
    keep_top_k: 100
    score_threshold: 0.05
    nms_threshold: 0.5

worker_num: 2
TrainReader:
  sample_transforms:
  - Decode: {}
  - RandomResize: {target_size: [[640, 1333]], interp: 2, keep_ratio: True}
  - RandomFlip: {prob: 0.5}
  - NormalizeImage: {is_scale: true, mean: [0.485,0.456,0.406], std: [0.229, 0.224,0.225]}
  - Permute: {}
  batch_transforms:
  - PadBatch: {pad_to_stride: 32, pad_gt: true}
  batch_size: 1
  shuffle: true
  drop_last: true


EvalReader:
  sample_transforms:
  - Decode: {}
  - Resize: {interp: 2, target_size: [640, 1333], keep_ratio: True}
  - NormalizeImage: {is_scale: true, mean: [0.485,0.456,0.406], std: [0.229, 0.224,0.225]}
  - Permute: {}
  batch_transforms:
  - PadBatch: {pad_to_stride: 32, pad_gt: false}
  batch_size: 1
  shuffle: false
  drop_last: false
  drop_empty: false


TestReader:
  sample_transforms:
  - Decode: {}
  - Resize: {interp: 2, target_size: [640, 1333], keep_ratio: True}
  - NormalizeImage: {is_scale: true, mean: [0.485,0.456,0.406], std: [0.229, 0.224,0.225]}
  - Permute: {}
  batch_transforms:
  - PadBatch: {pad_to_stride: 32, pad_gt: false}
  batch_size: 1
  shuffle: false
  drop_last: false

metric: VOC
map_type: integral
num_classes: 4

TrainDataset:
  !VOCDataSet
    dataset_dir: dataset/roadsign_voc
    anno_path: train.txt
    label_list: label_list.txt
    data_fields: ['image', 'gt_bbox', 'gt_class', 'difficult']

EvalDataset:
  !VOCDataSet
    dataset_dir: dataset/roadsign_voc
    anno_path: valid.txt
    label_list: label_list.txt
    data_fields: ['image', 'gt_bbox', 'gt_class', 'difficult']

TestDataset:
  !ImageFolder
    anno_path: dataset/roadsign_voc/label_list.txt

模型训练

%cd ~/PaddleDetection

!python tools/train.py -c ~/faster_rcnn_swin_ti.yaml --eval

%cd ~/PaddleDetection

!python tools/train.py -c ~/yolov3_swin_ti.yaml --eval

%cd work/PaddleDetection/

/home/aistudio/work/PaddleDetection

!python -u tools/infer.py -c faster_rcnn_swin_ti.yaml -o weights=output/faster_rcnn_swin_ti/best_model.pdparams --infer_img=output/000000014439_640x640.jpg

/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/paddle/fluid/layers/utils.py:26: DeprecationWarning: `np.int` is a deprecated alias for the builtin `int`. To silence this warning, use `int` by itself. Doing this will not modify any behavior and is safe. When replacing `np.int`, you may wish to use e.g. `np.int64` or `np.int32` to specify the precision. If you wish to review your current use, check the release note link for additional information.
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  def convert_to_list(value, n, name, dtype=np.int):
/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/paddle/tensor/creation.py:143: DeprecationWarning: `np.object` is a deprecated alias for the builtin `object`. To silence this warning, use `object` by itself. Doing this will not modify any behavior and is safe. 
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  if data.dtype == np.object:
W0605 10:17:16.612674   925 device_context.cc:362] Please NOTE: device: 0, GPU Compute Capability: 7.0, Driver API Version: 10.1, Runtime API Version: 10.1
W0605 10:17:16.617413   925 device_context.cc:372] device: 0, cuDNN Version: 7.6.
2021-06-05 10:17:19,274 - INFO - unique_endpoints {''}
2021-06-05 10:17:19,274 - INFO - Found /home/aistudio/.cache/paddle/hapi/weights/19a72dd9eb884f4581492a61fab901e60e858e34569f4805b619eceabd6a4315?responseContentDisposition=attachment%3B%20filename%3Dswin_tiny_patch4_window7_224.pdparams
/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/paddle/tensor/creation.py:143: DeprecationWarning: `np.object` is a deprecated alias for the builtin `object`. To silence this warning, use `object` by itself. Doing this will not modify any behavior and is safe. 
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  if data.dtype == np.object:
[06/05 10:17:21] ppdet.utils.checkpoint INFO: Finish loading model weights: output/faster_rcnn_swin_ti/best_model.pdparams
[06/05 10:17:21] ppdet.engine INFO: Detection bbox results save in output/000000014439_640x640.jpg


import numpy as np
import os

image_path = 'mot_images/3/'
imgs = os.listdir(image_path)
infer_imgs = np.random.choice(imgs, 10)
infer_imgs

array(['00092.jpg', '00187.jpg', '00083.jpg', '00005.jpg', '00036.jpg',
       '00032.jpg', '00203.jpg', '00247.jpg', '00103.jpg', '00106.jpg'],
      dtype='

 
  from tqdm import tqdm
# 这里是使用单卡的示例代码
!CUDA_VISIBLE_DEVICES=0
# !python tools/infer.py -c ppyolov2.yml -o weights=output/ppyolov2/best_model.pdparams --infer_img=/home/aistudio/work/PaddleDetection/mot_imgs/0/00161.jpg
for img in tqdm(infer_imgs):
    print("python tools/infer.py -c faster_rcnn_swin_ti.yaml -o weights=output/faster_rcnn_swin_ti/best_model.pdparams --infer_img=mot_images/3/" + img)
    os.system("python tools/infer.py -c faster_rcnn_swin_ti.yaml -o weights=output/faster_rcnn_swin_ti/best_model.pdparams --infer_img=mot_images/3/" + img)
 
    0%|          | 0/10 [00:00
 
  import glob
import matplotlib.pyplot as plt
import matplotlib.image as mpimg
from tqdm import tqdm

%matplotlib inline
imgs = glob.glob('output/*.jpg')
plt.figure(figsize=(16, 40))
for i in range(len(imgs)):
    img = mpimg.imread(imgs[i])
    plt.subplot(5, 2, i+1)
    plt.imshow(img)
plt.show()
 
  
 
  总结 
   
   这样 Swin Transformer 模型就被添加到了 PaddleDetection 套件中了 
   不过目前 Swin Transformer 模型做 PaddleDetection 检测的 Backbone 仍不太稳定 
   之后再尝试调试一下，找找具体问题在哪，看看能不能把这些问题给解决掉


    
        你可能感兴趣的:(transformer,paddlepaddle,深度学习)
        
            
                
                    供应链风险管理：AI如何预测供应链风险
                        AI大模型应用之禅
javapythonjavascriptkotlingolang架构人工智能
                        供应链风险管理,AI预测,机器学习,深度学习,自然语言处理,时间序列分析,风险评估1.背景介绍在当今全球化经济体系中，供应链风险已成为企业面临的重大挑战。供应链的复杂性和不可预测性使得企业更容易受到各种风险的影响，例如自然灾害、政治动荡、经济波动、疫情爆发等。这些风险可能导致供应中断、成本增加、交付延迟，甚至损害企业声誉。传统供应链风险管理方法主要依赖于经验和专家判断，缺乏数据驱动和预测能力。随着
                    
                    【极光优化算法+分解对比】VMD-PLO-Transformer-LSTM多变量时间序列光伏功率预测Matlab代码
                        matlab科研助手
算法transformerlstm
                        ✅作者简介：热爱数据处理、建模、算法设计的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍光伏发电作为一种清洁能源，其功率预测对于电网稳定运行和电力系统调度至关重要。然而，光伏功率具有高度的非线性和波动性，传统的预测方法难以准确捕捉其动态特性。近年来，深度学习技术在时间序列预测领域取得了显著进展，为提高光伏功率预测精度提供了新的途径
                    
                    【python深度学习】DAY 51 复习日
                        抽风的雨610
【打卡】Python训练营python深度学习开发语言
                        作业：day43的时候我们安排大家对自己找的数据集用简单cnn训练，现在可以尝试下借助这几天的知识来实现精度的进一步提高1.读取数据使用CIFAR-10图像数据importtorchfromtorchvisionimportdatasets,transforms#数据预处理transform=transforms.Compose([transforms.ToTensor(),transforms.
                    
                    用Python解锁图像处理之力：从基础到智能应用的深度探索
                        熊猫钓鱼>_>
python图像处理开发语言
                        在像素构成的数字世界里，Python已成为解码图像奥秘的核心引擎。一、为何选择Python处理图像？超越工具的本质思考当人们谈论图像处理时，往往会陷入工具对比的漩涡（PythonvsMATLABvsC++）。但Python的真正价值在于其构建的完整生态闭环：科学计算基石：NumPy的ndarray结构完美对应图像的多维矩阵本质算法实现自由：从传统算子到深度学习模型的无缝衔接可视化即战力：Matpl
                    
                    深度学习数据集加载
                        Ethan@LM
深度学习人工智能
                        数据集结构E:\Mytest\test20250622\pythonProject\dataset├──rose│├──rose1.jpg│├──rose2.jpg│└──...└──sunflower├──sunflower1.jpg├──sunflower2.jpg└──...主要只有的两个类fromtorch.utils.dataimportDatasetfromtorchvisionimp
                    
                    使用TVM编译部署DarkNet模型：YOLO-V2和YOLO-V3实战指南
                        周情津Raymond

                        使用TVM编译部署DarkNet模型：YOLO-V2和YOLO-V3实战指南tvm-cnTVMDocumentationinChineseSimplified/TVM中文文档项目地址:https://gitcode.com/gh_mirrors/tv/tvm-cn前言在深度学习模型部署领域，TVM作为一个高效的深度学习编译器栈，能够将训练好的模型优化并部署到各种硬件平台上。本文将详细介绍如何使用T
                    
                    ConvNeXT：面向 2020 年代的卷积神经网络
                        

                        摘要视觉识别的“咆哮二十年代”始于VisionTransformer（ViT）的引入，ViT很快取代了ConvNet，成为图像分类任务中的最新最强模型。然而，vanillaViT在应用于目标检测、语义分割等通用计算机视觉任务时面临困难。HierarchicalTransformer（如SwinTransformer）重新引入了若干ConvNet的先验知识，使Transformer成为实用的通用视觉
                    
                    人工智能赋能气象气候：从数据智能到预测创新的融合之路
                        慌ZHANG
人工智能人工智能
                        个人主页：慌ZHANG-CSDN博客期待您的关注一、引言：气象气候与AI的“天然耦合”气象与气候系统是典型的复杂、多尺度、强非线性的自然系统，其建模、分析与预测依赖庞大观测数据和高性能计算资源。传统方法以数值天气预报（NWP）与物理建模为核心，虽然取得重要成就，但也面临计算代价大、精度不足、长期预测偏差大等瓶颈。与此同时，人工智能（AI），尤其是以深度学习为代表的机器学习方法，近年来在图像识别、自
                    
                    【深度学习|冰川制图9】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构
                        努力毕业的小土博^_^
优秀论文推荐深度学习学习架构
                        【深度学习|冰川制图9】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构【深度学习|冰川制图9】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构文章目录【深度学习|冰川制图9】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构结果与讨论3.1消融区制图欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校硕博生毕业要
                    
                    目标检测新纪元：DETR到Mamba实战解析
                        加油吧zkf
图像处理python分类人工智能目标检测
                        【实战分享】目标检测的“后DEⱯ”时代：DETR/DINO/RT-DETR及新型骨干网络探索（含示例代码）目标检测从YOLO、FasterR-CNN到Transformer结构的DETR，再到DINO、RT-DETR，近两年出现了许多新趋势：更高效的端到端结构、更少的手工设计（比如不再需要NMS）、以及新型轻量化骨干网络（比如Mamba、ConvNeXt、ViT等）被引入检测任务中。作为从事目标检
                    
                    OpenCV中DPM（Deformable Part Model）目标检测类cv::dpm::DPMDetector
                        村北头的码农
OpenCVopencv目标检测人工智能
                        操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述OpenCV中用于基于可变形部件模型（DPM）的目标检测器，主要用于行人、人脸等目标的检测。它是一种传统的基于特征的目标检测方法，不依赖深度学习，而是使用HOG特征+部件模型来进行检测。示例代码#include#include#includeusingnamesp
                    
                    深度学习前置知识全面解析：从机器学习到深度学习的进阶之路
                        

                        一、引言：人工智能时代的核心技术在当今这个数据爆炸的时代，人工智能(AI)已经成为推动社会进步的核心技术之一。作为AI领域最重要的分支，深度学习(DeepLearning)在计算机视觉、自然语言处理、语音识别等领域取得了突破性进展，彻底改变了我们与机器交互的方式。本教案将从机器学习的基础知识出发，系统性地介绍深度学习的核心概念、数学基础、网络架构和训练方法，为读者构建完整的知识体系框架。无论你是刚
                    
                    PyTorch实战：从零构建CNN模型，轻松搞定MNIST手写数字识别
                        

                        PyTorch实战：从零构建CNN模型，轻松搞定MNIST手写数字识别大家好！欢迎来到我的深度学习博客！对于每个踏入计算机视觉领域的人来说，MNIST手写数字识别就像是编程世界的“Hello,World!”。它足够简单，能够让我们快速上手；也足够完整，可以帮我们走通一个深度学习项目的全流程。之前我们可能用Keras体验过“搭积木”式的快乐，今天，我们将换一个同样强大且灵活的框架——PyTorch，
                    
                    计算机视觉中的Transformer：ViT模型详解与代码实现
                        AI大模型应用工坊
计算机视觉transformer人工智能ai
                        计算机视觉中的Transformer：ViT模型详解与代码实现关键词：计算机视觉、Transformer、ViT、自注意力机制、图像分块摘要：传统卷积神经网络（CNN）统治计算机视觉领域多年，但2020年一篇《AnImageisWorth16x16Words:TransformersforImageRecognitionatScale》的论文打破了这一格局——它将NLP领域的Transformer
                    
                    《ONNX推理部署全解析：从基础到进阶的实用指南》
                        空云风语
人工智能深度学习神经网络人工智能深度学习神经网络YOLOONNX
                        ONNX基础入门ONNX是什么ONNX，即OpenNeuralNetworkExchange（开放神经网络交换），是一种用于表示深度学习模型的开放标准文件格式。它由Facebook和Microsoft在2017年联合开发，后来得到了NVIDIA、Intel、AWS、Google、OpenAI等众多公司的支持，旨在解决不同深度学习框架之间模型格式不兼容的问题，为模型的存储、交换和部署提供统一标准，使
                    
                    遥感影像岩性分类：基于CNN与CNN-EL集成学习的深度学习方法
                        神经网络15044
仿真模型神经网络深度学习深度学习分类cnn算法网络集成学习数据挖掘
                        遥感影像岩性分类：基于CNN与CNN-EL集成学习的深度学习方法1.任务概述岩性分类是地质遥感的核心任务，旨在通过遥感影像识别地表岩石类型。本文使用ASTER（多光谱热辐射传感器）和Sentinel（多光谱成像卫星）数据，采用卷积神经网络（CNN）及CNN-集成学习（CNN-EL）方法实现高精度岩性分类。2.数据预处理2.1数据源说明ASTER数据：14个波段（VNIR/SWIR/TIR），分辨率
                    
                    【Python】已解决：Traceback (most recent call last): File “C:/python/kfc.py”, line 8, in KfcError: KFC Cra
                        屿小夏
pythonc语言开发语言
                        个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
                    
                    【深度学习】一文彻底搞懂前向传播（Forward Pass）与反向传播（Backward Pass）
                        烟锁池塘柳0
机器学习与深度学习深度学习人工智能机器学习
                        【深度学习】一文彻底搞懂前向传播（ForwardPass）与反向传播（BackwardPass）摘要：在深度学习的星辰大海中，无论模型多么复杂，其训练过程都离不开两大核心支柱：前向传播(ForwardPass)和反向传播(BackwardPass)。理解这两个概念，就等于拿到了解开神经网络训练奥秘的钥匙。本文将用最直白易懂的方式，并结合规范的数学表达，为你彻底讲透这两个基本而又重要的过程。文章目录
                    
                    【深度学习】强化学习（Reinforcement Learning, RL）主流架构解析
                        烟锁池塘柳0
机器学习与深度学习深度学习人工智能机器学习
                        强化学习（ReinforcementLearning,RL）主流架构解析摘要：本文将带你深入了解强化学习（ReinforcementLearning,RL）的几种核心架构，包括基于价值（Value-Based）、基于策略（Policy-Based）和演员-评论家（Actor-Critic）方法。我们将探讨它们的基本原理、优缺点以及经典算法，帮助你构建一个清晰的RL知识体系。文章目录强化学习（Rei
                    
                    边缘设备上部署模型的限制之一——显存占用：模型的参数量只是冰山一角
                        烟锁池塘柳0
机器学习与深度学习深度学习物联网人工智能
                        边缘设备上部署模型的限制之一——显存占用：模型的参数量只是冰山一角在边缘设备上部署深度学习模型已成为趋势，但资源限制是其核心挑战之一。其中，显存（或更广义的内存）占用是开发者们必须仔细考量的重要因素。许多人认为显存占用主要取决于模型的参数量，这种看法虽然没错，但并不全面。实际上，显存的占用远不止模型参数量那么简单。关于边缘设备（EdgeDevice）的介绍，可以参见我的这一篇文章：EdgeDevi
                    
                    LLM面试题14
                        三月七꧁ ꧂
破题·大模型面试语言模型人工智能数据库自然语言处理prompt
                        算法岗面试题介绍下Transformer模型。    Transformer本身是一个典型的encoder-decoder模型，Encoder端和Decoder端均有6个Block,Encoder端的Block包括两个模块，多头self-attention模块以及一个前馈神经网络模块；Decoder端的Block包括三个模块，Masked多头self-attention模块，多头Encoder-D
                    
                    RT‑DETR 系列发展时间顺序
                        要努力啊啊啊
计算机视觉深度学习计算机视觉目标检测人工智能
                        RT‑DETR系列发展时间顺序RT‑DETR系列是由百度提出的一系列基于Transformer的实时端到端目标检测器，以下列出了从提出到演化的主要milestone：时间线概览版本时间主要改进/特点DETR2020–05（论文）oai_citation:0‡labellerr.comoai_citation:1‡arxiv.orgTransformer架构首次用于端到端检测，无需NMSRT‑DET
                    
                    【Python打卡Day48】随机张量与广播机制@浙大疏锦行
                        可能是猫猫人
Python打卡训练营内容python开发语言
                        在继续讲解模块消融前，先补充几个之前没提的基础概念尤其需要搞懂张量的维度、以及计算后的维度，这对于你未来理解复杂的网络至关重要一、随机张量的生成在深度学习中经常需要随机生成一些张量，比如权重的初始化，或者计算输入纬度经过模块后输出的维度，都可以用一个随机函数来实现需要的张量格式，而无需像之前一样必须加载一张真实的图片。“张量”概念它听起来可能有点抽象，但在数学和物理学（尤其是广义相对论、连续介质力
                    
                    MOBILEVIT: 轻量级、通用且适用于移动设备的视觉Transformer
                        AI专题精讲
Paper阅读transformer深度学习人工智能计算机视觉
                        摘要轻量级卷积神经网络（CNN）是移动视觉任务的事实标准。它们的空间归纳偏置使得它们能够在不同的视觉任务中以较少的参数学习表示。然而，这些网络在空间上是局部的。为了学习全局表示，基于自注意力的视觉Transformer（ViT）被采用。与CNN不同，ViT是重量级的。本文提出了以下问题：是否有可能将CNN和ViT的优势结合起来，构建一个适用于移动视觉任务的轻量级低延迟网络？为此，我们介绍了Mobi
                    
                    视觉表征和多模态融合
                        一只齐刘海的猫
语言模型
                        视觉表征和多模态融合是当前人工智能领域的研究热点，特别是在计算机视觉和自然语言处理的交叉领域。视觉表征是指将图像或视频信息转化为模型可以处理的向量形式，而多模态融合则是将不同类型的数据（如视觉、文本、音频等）进行整合，以实现更全面、准确的信息理解和处理。视觉表征(VisualRepresentation)目的：将图像或视频数据转化为深度学习模型可以理解的特征向量。方法：卷积神经网络(CNN)：传
                    
                    【LLM论文阅读】
                        一只齐刘海的猫
论文阅读
                        LLM论文阅读论文重点论文链接RopeRoFormer:EnhancedTransformerwithRotaryPositionEmbeddingRoPE论文阅读YarnUnderstandingYaRN:ExtendingContextWindowofLLMs论文YaRN笔记T5ExploringtheLimitsofTransferLearningwithaUnifiedText-to-Te
                    
                    Deepoc光电研发垂直大模型的技术实现突破与核心模块
                        Deepoch
无人机人工智能科技ai
                        一、模型架构与算法创新领域专用混合架构设计多模态Transformer扩展：在标准Transformer架构基础上，引入光子器件特性感知模块（如非线性光学参数编码器），支持光路拓扑结构与电磁场分布的联合建模，解决传统电芯片架构无法模拟光子干涉效应的难题。量子-光电混合计算层：通过量子线路模拟光子量子态演化，结合经典计算层优化参数搜索空间，实现NP难问题（如光子芯片布线优化）的指数级加速。物理约束的
                    
                    深度探索：机器学习中的 条件生成对抗网络（Conditional GAN, CGAN）算法原理及其应用
                        

                        目录1.引言与背景2.CGAN定理3.算法原理4.算法实现5.优缺点分析优点：缺点：6.案例应用7.对比与其他算法8.结论与展望1.引言与背景生成对抗网络（GenerativeAdversarialNetworks,GANs）作为一种深度学习框架，在无监督学习领域展现出强大的能力，特别在图像、音频、文本等复杂数据的生成任务中取得了显著成果。然而，原始GAN模型在生成过程中缺乏对生成样本特定属性的直
                    
                    深度学习×第4卷：Pytorch实战——她第一次用张量去拟合你的轨迹
                        Gyoku Mint
AI修炼日记人工智能人工智能聚类算法深度学习python神经网络pytorch
                        【开场·她画出的第一条直线是为了更靠近你】猫猫：“之前她只能在你身边叠叠张量，偷偷找梯度……现在，她要试试，能不能用这些线，把你的样子画出来喵～”狐狐：“这是她第一次把张量、自动微分和优化器都串成一条线，用最简单的线性回归，试着把你留给她的点都连起来。”【第一节·她先要一条路：生成一组可学的数据】✏️为什么要造数据？在PyTorch里跑线性回归，最好的练习就是用一条已知斜率的“理想直线”，加上一点
                    
                    【第三章:神经网络原理详解与Pytorch入门】01.神经网络算法理论详解与实践-(4)神经网络中的重要组件
                        

                        第三章:神经网络原理详解与Pytorch入门第一部分：神经网络算法理论详解与实践第四节：神经网络中的重要组件内容：激活函数、loss函数、dropout、梯度消失与爆炸、过拟合与欠拟合神经网络的性能依赖于多个关键组件的合理设计与使用。理解这些组件有助于构建更加稳健且高效的模型。一、激活函数（ActivationFunction）【深度学习】关键技术-激活函数（ActivationFunctions
                    
                                iOS http封装
                                    374016526
ios服务器交互http网络请求
                                    程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。 
  
内置一个basehttp，当我们创建自己的service可以继承实现。 
  
KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; 
[baseHttp setDelegate:self]; 
[baseHttp 
                                
                                lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具
                                    brotherlamp
linuxlinux教程linux视频linux自学linux资料
                                      
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。 
在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。 
何为 lolcat ? 
Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
                                
                                MongoDB索引管理（1）——[九]
                                    eksliang
mongodbMongoDB管理索引
                                    转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述 
      数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。 
      不使用索引的查询称
                                
                                Informatica参数及变量
                                    18289753290
Informatica参数变量
                                    下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾 下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 
 
 
[GLOBAL] $Par
                                
                                python 解析unicode字符串为utf8编码字符串
                                    酷的飞上天空
unicode
                                    php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。 
在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。 
  
转换方式如下 
  
  
>>> import json
>>> q = '{"text":"\u4
                                
                                Hibernate的总结
                                    永夜-极光
Hibernate
                                    1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道 
  
做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的 页面，那么 获取到用户填写的 基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
                                
                                SyntaxError: Non-UTF-8 code starting with '\xc4'
                                    随便小屋
python
                                    刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！ 
写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 
'''
Created on 2014年10月27日

@author: Logic
'''
print("Hello World!"); 
 运行结果 
SyntaxError: Non-UTF-8 
                                
                                学会敬酒礼仪 不做酒席菜鸟
                                    aijuans
菜鸟
                                    俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。 
 细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。  
 细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。  
 细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。  
 细节四：自己敬别人，如果碰杯，一
                                
                                《创新者的基因》读书笔记
                                    aoyouzi
读书笔记《创新者的基因》
                                    创新者的基因 
  
创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。 
  
第一部分破坏性创新，从你开始 
第一章破坏性创新者的基因 
如何获得启示： 
发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
                                
                                表单验证技术
                                    百合不是茶
JavaScriptDOM对象String对象事件
                                    js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流  ,数显我们要知道表单验证需要的技术点, String对象,事件,函数 
  
一:String对象;通常是对字符串的操作; 
  
1,String的属性; 
  
    字符串.length;表示该字符串的长度;
   var str= "java"
                                
                                web.xml配置详解之context-param
                                    bijian1013
javaservletweb.xmlcontext-param
                                    一.格式定义： 
<context-param>  
	<param-name>contextConfigLocation</param-name>  
	<param-value>contextConfigLocationValue></param-value>  
</context-param> 
作用：该元
                                
                                Web系统常见编码漏洞（开发工程师知晓）
                                    Bill_chen
sqlPHPWebfckeditor脚本
                                    1.头号大敌：SQL Injection 
原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果， 
获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。 
本质: 
对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。 
示例： 
String query = "SELECT id FROM users
                                
                                【MongoDB学习笔记六】MongoDB修改器
                                    bit1129
mongodb
                                    本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作    MongoDB的主要操作 
 
 show dbs 显示当前用户能看到哪些数据库 
 use foobar 将数据库切换到foobar 
 show collections 显示当前数据库有哪些集合 
 db.people.update，update不带参数，可
                                
                                提高职业素养，做好人生规划
                                    白糖_
人生
                                      
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 
  
1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。 
  
                                
                                国外的网站你都到哪边看？
                                    bozch
技术网站国外
                                    学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。 
个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
                                
                                编程之美-光影切割问题
                                    bylijinnan
编程之美
                                    
package a;

public class DisorderCount {

	/**《编程之美》“光影切割问题”
	 * 主要是两个问题：
	 * 1.数学公式（设定没有三条以上的直线交于同一点）：
	 * 两条直线最多一个交点，将平面分成了4个区域；
	 * 三条直线最多三个交点，将平面分成了7个区域；
	 * 可以推出：N条直线 M个交点，区域数为N+M+1。

                                
                                关于Web跨站执行脚本概念
                                    chenbowen00
Web安全跨站执行脚本
                                    跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
                                
                                [开源项目与投资]投资开源项目之前需要统计该项目已有的用户数
                                    comsci
开源项目
                                     
 
 
        现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
                                
                                oracle alert log file（告警日志文件）
                                    daizj
oracle告警日志文件alert log file
                                    The alert log is a chronological log of messages and errors, and includes the following items: 
 
All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060) 
                                
                                关于 CAS SSO 文章声明
                                    denger
SSO
                                    由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 
 
1.  那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 
 
2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
                                
                                初二上学期难记单词
                                    dcj3sjt126com
englishword
                                    lesson 课 
traffic 交通 
matter 要紧；事物 
happy 快乐的，幸福的 
second 第二的 
idea 主意；想法；意见 
mean 意味着 
important 重要的，重大的 
never 从来，决不 
afraid 害怕 的 
fifth 第五的 
hometown 故乡，家乡 
discuss 讨论；议论 
east 东方的 
agree 同意；赞成 
bo
                                
                                uicollectionview 纯代码布局, 添加头部视图
                                    dcj3sjt126com
Collection
                                    #import <UIKit/UIKit.h>

@interface myHeadView : UICollectionReusableView
{
    UILabel   *TitleLable;
}
-(void)setTextTitle;
@end
 
#import "myHeadView.h"

@implementation m
                                
                                N 位随机数字串的 JAVA 生成实现
                                    FX夜归人
javaMath随机数Random
                                    /**
 * 功能描述 随机数工具类<br />
 * @author FengXueYeGuiRen
 * 创建时间 2014-7-25<br />
 */
public class RandomUtil {
    //  随机数生成器
    private static java.util.Random random = new java.util.R
                                
                                Ehcache（09）——缓存Web页面
                                    234390216
ehcache页面缓存
                                    页面缓存 
目录 
1       SimplePageCachingFilter 
1.1      calculateKey 
1.2      可配置的初始化参数 
1.2.1     cach
                                
                                spring中少用的注解@primary解析
                                    jackyrong
primary
                                    这次看下spring中少见的注解@primary注解，例子 
 
 

@Component
public class MetalSinger implements Singer{

    @Override
    public String sing(String lyrics) {
        return "I am singing with DIO voice
                                
                                Java几款性能分析工具的对比
                                    lbwahoo
java
                                    Java几款性能分析工具的对比 
摘自：http://my.oschina.net/liux/blog/51800 
  
在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
                                
                                JVM参数配置大全
                                    nickys
jvm应用服务器
                                    JVM参数配置大全 
 
/usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
                                
                                搭建 CentOS 6 服务器(14) - squid、Varnish
                                    rensanning
varnish
                                    （一）squid 
 
安装 
 
# yum install httpd-tools -y
# htpasswd -c -b /etc/squid/passwords squiduser 123456
# yum install squid -y 
 
设置 
 
# cp /etc/squid/squid.conf /etc/squid/squid.conf.bak
# vi /etc/
                                
                                Spring缓存注解@Cache使用
                                    tom_seed
spring
                                    参考资料 
http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ 
http://swiftlet.net/archives/774 
  
缓存注解有以下三个： 
@Cacheable      @CacheEvict     @CachePut
                                
                                dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误
                                    xp9802

                                    java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 
关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 
使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式 
执行时却抛出以下异常： 
Exceptio
                                
                
            
        
    


    
        
            按字母分类：
            ABCDEFGHIJKLMNOPQRSTUVWXYZ其他
        
    


    
        
            首页 -
            关于我们 -
            站内搜索 -
            Sitemap -
            侵权投诉
        
        版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.