长星照耀十三州府_

从RCNN、FastRCNN到FasterRCNN

文章目录

- RCNN
- - RCNN的步骤
  - RCNN的整体框架
  - RCNN 存在的问题：
- fast RCNN
- faster RCNN
- Faster RCNN
- - 环境配置
  - 文件结构
  - 预训练权重模型
  - 训练方法
- faster RCNN 源码解析
- - 训练过程 mobilenet
- 自定义数据集
- fastrcnn 框架
- - framework 部分
  - transform部分
  - transform部分

RCNN

RCNN的步骤

通过selective search生成建议框，2k个；
将2000个候选区域缩放到统一尺寸227*227，输入到图像分类CNN网络，获得一个2000*4096的特征矩阵；
将特征矩阵送进每一类的SVM分类器权值矩阵409620，得到200020的分类结果，然后对每一列进行非极大值抑制（NMS）以剔除重复目标，保留高质量候选框**。**
使用回归器精细修正候选框的位置，最小二乘法进行回归训练。

非极大值抑制提出重叠建议框的依据是两张图片的交并比，即IOU intersection over union, (A∩B)/(A∪B) ，具体步骤

寻找得分最高的目标
计算该目标和其他目标的iou值
删除所有iou值大于给定阈值的目标
重复步骤一

RCNN的整体框架

RCNN 存在的问题：

检测速度太慢了，仅仅是selective search提取候选框，一张图片需要花费2秒钟；
训练速度较慢；
训练所需空间也比较大。

fast RCNN

回顾：RCNN的算法流程

通过selective search 生成建议框 2k左右
通过cnn网络提取特征,backbone 一般为 resnet101，输入为每一个特征向量
通过svm进行分类处理
bounding box regression

fast rcnn 算法流程：

ss算法生成候选区域；
将整幅图像输入cnn网络得到特征图，并将ss算法生成的候选框投影到特征图上获得相应的特征矩阵
通过ROI pooling的操作，将每个特征矩阵缩放到7*7大小的特征图，展平后通过全连接层得到目标分类结果和边界框回归结果。

不同之处：

fast rcnn 是将整幅图像作为输入，而不是将每个投影框作为输入，大大减少了计算量，解决了rcnn的计算冗余的问题，此处参考的是sspnet；
用FC代替 svm分类

注意：

训练过程中的 正样本和负样本，例子：猫狗分类的数据不平衡的问题，原论文对2000个候选区域，根据IOU的大小，采集正负样本。

如何计算损失？

分类损失
边界框回归损失

分类损失交叉熵损失

$L_{loc}$ 由四部分组成，分别对应 $x_i^u、y_i^u、w_i^u、h_i^u$

[u>=1]=1,when u>=1 other =1

补充: 交叉熵损失

多分类问题 softmax $H=-\sum_{i}o_i^*log(o_i)$

此处的o指的是onehot,真实标签的输出的onehot为 [0,0,0,1,0] 而预测的softmax 的输出为 [0.1,0.2,0.1,0.5,0.1]，所以说交叉熵的外面是实际标签，不然会出现无穷大。

针对二分类问题，应该使用的是 sigmoid 输出，每个输出节点之间互不相关

$H=-\frac{1}{N}\sum_i{[o_i^*log(o_i)+(1-o_i^*)log(1-o_i)]}$

总结：

相当于将 classification&bounding-box regression 纳入到 cnn的网络

faster RCNN

作者： Ross Girshick

核心： RPN region proposal network

回顾 fastrcnn的算法流程：

通过selective search 方法获得2k候选区域；
将整张图片作为输入到cnn网络中，back bone一般为 resnet101，然后对应得到每个候选区域的特征矩阵；
通过ROI pooling的操作，将特征矩阵打平，输入到全连接层，输出 2k预测结果和 4k bounding box regression.

faster rcnn的算法流程：

将图像输入网络得到特征图；
使用rpn生成候选框，将候选框投影到特征图得到特征矩阵；
通过ROI pooling，得到统一尺寸的特征图，输入到全连接层，得到分类结果和bounding box regression.

相当于是 fast rcnn+RPN

这里的anchor 相当于只完成了 检测是否有目标，而不进行分类

anchor的面积有三种选择，128^2 , 256^2, 512^2，而三种比例，1：1，1：2，2：1，一共有九种anchor。

注意：作者阐明了通过较小的anchor也可以对较大的感受野进行判别。

这里反推之前的anchor坐标，就是卷积尺寸变化公式的逆式。

此处，应该舍弃掉一跨过边界的anchor，对于RPN生成的候选框的cls得分，采用非极大值抑制，舍弃掉很多的候选框。

定义正样本的两种方式：

IOU>=0.7
与grand truth 相交最大的anchor。

RPN的损失函数

pi*与艾弗森括号作用相同。

N_reg表示anchor位置的个数，不用×9。

分类损失

注意：这里虽然区分的是背景和前景，这是个二分类问题，但是用的是多分类的softmax.

如果使用二分类损失函数，则输出为k个分数，如下图所示（pytorch官方版本使用二分类损失函数）。

RPN 的边框回归损失，和fast rcnn完全一样。

faster rcnn 训练方法：

现在采用的是联合训练方法，原始论文是分步训练。

Faster RCNN

可以在 torchvision.models.detection.faster_rcnn查看

或者是官方仓库pytorch.vision.refrence.detection

环境配置

pytorch 3.6/3.7
pytorch 1.5 以上 cuda 10.1以上
pycocotools
linux环境下配置pip install pycocotools
windows pip install pycocotools-win 但是有一定几率报错，需要安装VS C++ 14
unbuntu centos 训练
最好使用 GPU

文件结构

backbone 主干特征提取网络 resnet50+FPN
train_utils 训练验证相关模块
my_dataset.py 自定义dataset，用于读取 VOC数据集
train_mobilenet.py , mobilenet v2 作为backbone,但是不经常使用，因为没有好用的预训练权重模型；
train_restnet50_fpn.py 以resnet50+FPN作为backbone 进行训练
train_multi_GPU.py 与4 5 不同，需要在并命令行使用
predict.py 简单的预测脚本
pascal_voc_classes.json 标签文件

预训练权重模型

训练方法

多GPU训练

若要使用多GPU训练，使用python -m torch.distributed.launch --nproc_per_node=8 --use_env train_multi_GPU.py指令,nproc_per_node参数为使用GPU数量

faster RCNN 源码解析

torchvision.models.detection.fasterrcnn

和训练相关的代码在 torch.refrence.detection

**配置： Python 3.6+ pytorch1.5+ **

pip install pycocotools-win

文件结构：

backbone
network_files
train_utils 训练相关模块
my_datasets 自定义dataset读取voc数据集
train_mobilenet backbone为mobilenet，只提供了backbone的预训练参数
train_resnet50_fpn backbone为resnet+fpn，有比较完整的预训练模型，fastrcnn+rpn
train_multi_GPU 针对多GPU的用户
predict 预测脚本
Pascal_voc_labels.json 每个目标对应的数字
split_data.py 生成类似于Pascal voc

数据集： Pascal_voc_2012数据集

split_data.py

训练过程 mobilenet

预训练权重初始化backbone,然后冻结backbone，只训练后面的rpn和后面的全连接层（classification和bounding box regression）

学习率的确定，每隔一顶步数降低学习率

自定义数据集

split_data.py

my_dataset.py

class VOC2012DataSet(Dataset)

注意继承自 torch.utils.data.Dataset 需要重写__len__和__getitem__方法，还可以实现

fastrcnn 框架

train_mobilenet.py 训练mobilenet网络

from math import gamma
import os
import datetime
import torch
from torch.nn import parameter
import torchvision
import transforms

from network_files import FasterRCNN,AnchorsGenerator
from backbone import MobileNetV2,vgg
from my_dataset import VOC2012DataSet
from train_utils import train_aval_utils as utils

def create_model(num_classes):
    # backbone
    backbone=MobileNetV2(weights_path='./backbone/mobilenet_v2.pth').features
    backbone.out_channels=1280
    # anchor_generator
    anchor_generator=AnchorsGenerator(
        sizes=((32,64,128,256,512),),
        aspect_ratios=((0.5,1.0,2.0),))
    # roi_poolling
    roi_pooler=torchvision.ops.MultiScaleRoIAlign(
        feature_names=['0'],
        output_size=[7,7],
        sampling_ratio=2)
    # model
    model=FasterRCNN(
        backbone=backbone,
        num_classes=num_classes,
        rpn_anchor_generator=anchor_generator,
        box_roi_pool=roi_pooler
    )
    # return
    return model


def main():
    # device
    device=torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')
    print('using {} device training.'.format(device.type))
    # results_file
    results_file='results{}.txt'.format(datetime.datetime.now().strftime("%Y%m%d-%H%M%S"))
    # weight_files
    if not os.path.exists("save_weights"):
        os.makedirs("save_weights")
    # data_trasnforms
    data_transform={
        'train':transforms.Compose(
            transforms.ToTensor(),
            transforms.RandomHorizontalFlip()
        ),
        'val':transforms.Compose(
            transforms.ToTensor()
        )
    }
    # dataset
    VOC_root='./'
    if os.path.exists(os.path.join(VOC_root,'VOCdevkit')) is False:
        raise FileNotFoundError("VOCdevkit dose not is path:'{}'.".format(VOC_root))
    # load train dataset
    train_data_set=VOC2012DataSet(VOC_root,data_transform['train'],'train.txt')
    batch_size=8
    nw=min([os.cpu_count(),batch_size if  batch_size>1 else 0,8])
    print('Using {%g} dataloader workers'.format(nw))
    train_data_loader=torch.utils.data.DataLoader(
        train_data_set,
        batch_size=batch_size,
        shuffle=True,
        num_worker=nw,
        collate_fn=train_data_set.collate_fn
    )
    # load validation dataset
    val_data_set=VOC2012DataSet(VOC_root,data_transform['val'],'val.txt')
    val_dat_loader=torch.utils.data.DataLoader(
        val_data_set,
        batch_size=batch_size,
        shuffle=False,
        pin_memory=True,
        num_workers=nw,
        collate_fn=train_data_set.collate_fn
    )
    # model
    model=create_model(num_classes=21)

    model.to(device)
    train_loss=[]
    learning_rate=[]
    val_map=[]

    # train step1: frozen backbone and train 5 epochs
    # 1. frozen backbone 
    for param in model.backbone.parameters():
        param.requires_grad=False
    # 2. define parameters
    params=[p for p in model.parameters() if p.requires_grad]
    optimizer=torch.optim.SGD(params,lr=0.005,momentum=0.9,weight_decay=0.0005)
    # 3. train
    init_epochs=5
    for epoch in range(init_epochs):
        # train for one epoch, printing every 10 iterations
        mean_loss,lr=utils.train_one_epoch(model,optimizer,train_data_set,device,epoch,print_freq=50,warmup=True)
        train_loss.append(mean_loss.item())
        learning_rate.append(lr)
        # evaluate on the validation dataset
        coco_info=utils.evaluate(model,val_dat_loader,device=device)
        # wirte into txt
        with open(results_file,'a') as f:
            result_info=[str(round(i,4)) for i in coco_info+[mean_loss.item()]] +[str(round(lr,6))]
            txt='epoch:{} {}'.format(epoch,' '.join(result_info))
            f.wirte(txt,'.\n')
        
        val_map.append(coco_info[1])
    torch.save(model.state_dict(),'./save_weights/pretrain.pth')

    # train step2: unfrozen backbone and train all network
    # 1. unfrozen some paramters
    for name,parameter in model.backbone.named_parameters():
        split_name=name.split('.')[0]
        if split_name in ['0','1','2','3']:
            parameter.requires_grad=False
        else:
            parameter.requires_grad=True
    # 2. define optimizer
    params=[p for p in model.parameters() if p.requires_grad]
    optimter=torch.optim.SGD(params,lr=0.005,momentum=0.9,weight_decay=0.0005)
    lr_scheduler=torch.optim.lr_scheduler.StepLR(
        optimizer,step_size=3,gamma=0.003
    )
    num_epochs=20
    for epoch in range(init_epochs,num_epochs+init_epochs,1):
        # train for one epoch, printing every 50 iterations
        mean_loss,lr=utils.train_one_epoch(model,optimizer,train_data_loader,device,epoch,print_freq=50)
        train_loss.append(mean_loss.item())
        learning_rate.append(lr)
        # updata the learning rate
        lr_scheduler.step()
        # evaluate o      n the test dataset
        coco_info=utils.evaluate(model,val_dat_loader,device=device)
        # write into txt
        with open(results_file,'a') as f:
            result_info=[str(round(i,4)) for i in coco_info+[mean_loss.item()]]+[str(round(lr,6))]
            txt='epoch:{} {}'.format(epoch,' '.join(results_file))
            f.wirte(txt+'.\n')
        val_map.append(coco_info[1])
        # save weights
        if epoch in range(num_epochs+init_epochs)[-5:]:
            save_files={
                'model':model.state_dict(),
                'optimizer':optimizer.state_dict(),
                'lr_scheduler':lr_scheduler.state_dict(),
                'epoch':epoch
            }
            torch.save(save_files,'./save_weights/mobile-model-{}.pth'.format(epoch))

    # plot loss and lr curve
    if len(train_loss) !=0 and len(learning_rate)!=0:
        from plot_curve import plot_loss_and_lr
        plot_loss_and_lr(train_loss,learning_rate)
    # plot mAP curve 
    if len(val_map)!=0:
        from plot_curve import plot_map
        plot_map(val_map)
    

if __name__=="__main__":
    main()

在resnet50的模型中，会自动冻结部分底层权重

使用混合精度，训练速度会翻倍

predict.py

import os
import time
import json

import torch
import torchvision
from PIL import Image
import matplotlib.pyplot as plt

from torchvision import transforms
from network_files import FasterRCNN, FastRCNNPredictor, AnchorsGenerator
from backbone import resnet50_fpn_backbone, MobileNetV2
from draw_box_utils import draw_box


def create_model(num_classes):
    # mobileNetv2+faster_RCNN
    # backbone = MobileNetV2().features
    # backbone.out_channels = 1280
    #
    # anchor_generator = AnchorsGenerator(sizes=((32, 64, 128, 256, 512),),
    #                                     aspect_ratios=((0.5, 1.0, 2.0),))
    #
    # roi_pooler = torchvision.ops.MultiScaleRoIAlign(featmap_names=['0'],
    #                                                 output_size=[7, 7],
    #                                                 sampling_ratio=2)
    #
    # model = FasterRCNN(backbone=backbone,
    #                    num_classes=num_classes,
    #                    rpn_anchor_generator=anchor_generator,
    #                    box_roi_pool=roi_pooler)

    # resNet50+fpn+faster_RCNN
    # 注意，这里的norm_layer要和训练脚本中保持一致
    backbone = resnet50_fpn_backbone(norm_layer=torch.nn.BatchNorm2d)
    model = FasterRCNN(backbone=backbone, num_classes=num_classes, rpn_score_thresh=0.5)

    return model


def time_synchronized():
    torch.cuda.synchronize() if torch.cuda.is_available() else None
    return time.time()


def main():
    # get devices
    device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
    print("using {} device.".format(device))

    # create model
    model = create_model(num_classes=21)

    # load train weights
    train_weights = "./save_weights/model.pth"
    assert os.path.exists(train_weights), "{} file dose not exist.".format(train_weights)
    model.load_state_dict(torch.load(train_weights, map_location=device)["model"])
    model.to(device)

    # read class_indict
    label_json_path = './pascal_voc_classes.json'
    assert os.path.exists(label_json_path), "json file {} dose not exist.".format(label_json_path)
    json_file = open(label_json_path, 'r')
    class_dict = json.load(json_file)
    category_index = {v: k for k, v in class_dict.items()}

    # load image
    original_img = Image.open("./test.jpg")

    # from pil image to tensor, do not normalize image
    data_transform = transforms.Compose([transforms.ToTensor()])
    img = data_transform(original_img)
    # expand batch dimension
    img = torch.unsqueeze(img, dim=0)

    model.eval()  # 进入验证模式
    with torch.no_grad():
        # init
        img_height, img_width = img.shape[-2:]
        init_img = torch.zeros((1, 3, img_height, img_width), device=device)
        model(init_img)

        t_start = time_synchronized()
        predictions = model(img.to(device))[0]
        t_end = time_synchronized()
        print("inference+NMS time: {}".format(t_end - t_start))

        predict_boxes = predictions["boxes"].to("cpu").numpy()
        predict_classes = predictions["labels"].to("cpu").numpy()
        predict_scores = predictions["scores"].to("cpu").numpy()

        if len(predict_boxes) == 0:
            print("没有检测到任何目标!")

        draw_box(original_img,
                 predict_boxes,
                 predict_classes,
                 predict_scores,
                 category_index,
                 thresh=0.5,
                 line_thickness=3)
        plt.imshow(original_img)
        plt.show()
        # 保存预测的图片结果
        original_img.save("test_result.jpg")


if __name__ == '__main__':
    main()

framework 部分

传入参数： backbone,rpnHead,roi_heads(ROI pooling & fast RCNNHeader & classification)
forward 方法，传入参数 images targets ，来源是 my_dataset.py
FasterRCNNBase 类：网络结构
FasterRCNN设置初始参数，是构造在FasterRCNNBase基础以上的
- 初始化参数的设置，backbone, num_classes(包括背景的class的个数)
- RPN参数设置，包括在非极大值抑制中的保留候选框的数量，注意训练和测试保留的数量不相同，以及在这个过程中的 iou数量

transform部分

对voc数据集进行标准化处理和 resize，transform.py

normalize 函数，标准化处理，注意将mean转化为三维的tensor
resize函数，缩放因子scale_factor, 通过 torch.nn.functional.interpolate(...)进行缩放，如果是验证模式直接返回图片，如果是train mode，则要将box也进行缩放。
batch_images函数，将一批大小不同的图片打包成一个batch，但是这里并不是进行resize，而是进行补零操作。

ROI pooling & fast RCNNHeader & classification)

forward 方法，传入参数 images targets ，来源是 my_dataset.py
FasterRCNNBase 类：网络结构
FasterRCNN设置初始参数，是构造在FasterRCNNBase基础以上的
- 初始化参数的设置，backbone, num_classes(包括背景的class的个数)
- RPN参数设置，包括在非极大值抑制中的保留候选框的数量，注意训练和测试保留的数量不相同，以及在这个过程中的 iou数量

transform部分

对voc数据集进行标准化处理和 resize，transform.py

normalize 函数，标准化处理，注意将mean转化为三维的tensor
resize函数，缩放因子scale_factor, 通过 torch.nn.functional.interpolate(...)进行缩放，如果是验证模式直接返回图片，如果是train mode，则要将box也进行缩放。
batch_images函数，将一批大小不同的图片打包成一个batch，但是这里并不是进行resize，而是进行补零操作。

AI人工智能领域知识图谱在深度学习中的应用拓展
AI人工智能领域知识图谱在深度学习中的应用拓展关键词：知识图谱、深度学习、神经网络、图嵌入、知识表示学习、推理机制、应用场景摘要：本文深入探讨了知识图谱与深度学习的融合应用，系统性地分析了知识图谱在深度学习中的关键技术路径和应用场景。文章首先介绍了知识图谱的基本概念和表示方法，然后详细阐述了知识图谱与深度学习结合的多种技术路线，包括图神经网络、知识嵌入和推理机制等。接着通过具体案例展示了知识图谱增
equine在神经网络中建立量化不确定性 struggle2025 神经网络人工智能深度学习
一、软件介绍文末提供程序和源码下载众所周知，用于监督标记问题的深度神经网络（DNN）可以在各种学习任务中产生准确的结果。但是，当准确性是唯一目标时，DNN经常会做出过于自信的预测，并且无论测试数据是否属于任何已知标签，它们也总是进行标签预测。EQUINEwascreatedtosimplifytwokindsofuncertaintyquantificationforsupervisedlabel
CARLsim开源程序是一个高效、易用、GPU 加速的软件框架，用于模拟具有高度生物细节的大规模脉冲神经网络（SNN）模型。 struggle2025 神经网络人工智能深度学习
一、软件介绍文末提供程序和源码下载CARLsim是一个高效、易用的GPU加速库，用于模拟具有高度生物学细节的大规模脉冲神经网络（SNN）模型。CARLsim允许在通用x86CPU和标准现成GPU上以逼真的突触动力学执行Izhikevich脉冲神经元网络。该模拟器在C/C++中提供了一个类似PyNN的编程接口，允许在突触、神经元和网络级别指定详细信息和参数。二、CARLsim6的新功能包括：CUDA
nnv开源神经网络验证软件工具
一、软件介绍文末提供程序和源码下载用于神经网络验证的Matlab工具箱，该工具箱实现了可访问性方法，用于分析自主信息物理系统（CPS）领域中带有神经网络控制器的神经网络和控制系统。二、相关工具和软件该工具箱利用神经网络模型转换工具（nnmt）和闭环系统分析、混合系统模型转换和转换工具（HyST）以及CONTINUOUSReachabilityAnalyzer（CORA）三、无需安装即可执行NNV可
鸿蒙应用AR开发：增强现实技术实现方案操作系统内核探秘操作系统内核揭秘 OS harmonyos ar 华为 ai
鸿蒙应用AR开发：增强现实技术实现方案关键词：鸿蒙系统、AR开发、增强现实、ARKit、ARCore、3D渲染、计算机视觉摘要：本文将深入探讨如何在鸿蒙操作系统上开发增强现实(AR)应用。我们将从AR技术的基本原理讲起，逐步深入到鸿蒙AR开发框架的具体实现，包括3D模型渲染、空间定位、手势识别等核心技术。文章将提供完整的代码示例和实战项目，帮助开发者快速掌握鸿蒙AR应用开发的核心技能。背景介绍目的
Ultralytics YOLO 库介绍与使用指南东北豆子哥人工智能/机器学习 YOLO
文章目录UltralyticsYOLO库介绍与使用指南主要特点安装基本使用1.使用预训练模型进行推理2.训练自定义模型3.验证模型4.导出模型高级功能1.使用不同任务模型2.使用自定义数据集3.跟踪对象(结合ByteTrack)常见问题解决性能优化技巧UltralyticsYOLO库介绍与使用指南UltralyticsYOLO是一个流行的计算机视觉库，专注于实现和优化YOLO(YouOnlyLoo
KITTI数据集可视化实用教程及源码解析国营窝窝乡蛮大人
本文还有配套的精品资源，点击获取简介：本文详细介绍如何使用源码实现KITTI数据集的可视化，强调数据集可视化在计算机视觉领域的关键作用。重点介绍如何加载、处理和融合KITTI数据集中的图像和激光雷达数据，并通过可视化手段分析结果，包括图像点云投影、坐标转换、颜色映射等技术。读者将通过学习源码深入理解数据结构、文件格式，并定制化工具以满足特定项目需求。1.计算机视觉数据集可视化的重要性在计算机视觉领
DiNA：扩张邻域注意力 Transformer AI专题精讲 Paper阅读 transformer 人工智能
摘要Transformer正迅速成为跨模态、跨领域和跨任务中应用最广泛的深度学习架构之一。在计算机视觉领域，除了持续发展的纯transformer架构，分层transformer也因其优越的性能和在现有框架中易于集成而受到广泛关注。这类模型通常采用局部化的注意力机制，如滑动窗口的NeighborhoodAttention（NA）或SwinTransformer的ShiftedWindowSelfA
解释神经网络的普适逼近定理（面试题200合集，中频、实用）快撑死的鱼算法工程师宝典（面试学习最新技术必备）深度学习人工智能
神经网络的普适逼近定理（UniversalApproximationTheorem,UAT）是理解为什么神经网络如此强大和灵活的理论基石之一。它为我们提供了信心，即在某些条件下，一个相对简单的神经网络结构原则上能够模拟出几乎任何复杂的函数。这个定理在深度学习领域中经常被提及，尤其是在讨论模型表达能力的时候。普适逼近定理（UniversalApproximationTheorem）概述普适逼近定理的
使用SQL-Ollama与自然语言交互SQL数据库的指南 antja_ 数据库 sql
#使用SQL-Ollama与自然语言交互SQL数据库的指南##技术背景介绍随着人工智能技术的发展，能够使用自然语言与SQL数据库交互的需求越来越大。这种技术可以帮助用户轻松访问和操作数据库，而无需深刻理解SQL语法。SQL-Ollama是一个专门设计的模板，利用Zephyr-7b模型，通过Ollama在本地运行推理，使这一过程变得简单而高效。##核心原理解析SQL-Ollama通过将自然语言转换为
文心大模型4.5及X1重磅上线，真实测评
2025年3月16日，人工智能领域迎来一场重要盛事——百度文心大模型4.5如期正式发布。与此同时，百度还惊喜推出了另一款全新模型——文心大模型X1。目前，文心大模型4.5和X1已在文心一言官网（https://yiyan.baidu.com/）正式上线，并免费向用户开放。其中，文心大模型4.5面向企业用户和开发者，用户可以通过登录百度智能云千帆大模型平台，轻松调用文心大模型4.5的API接口，快速
人工智能-基础篇-10-什么是卷积神经网络CNN（网格状数据处理：输入层，卷积层，激活函数，池化层，全连接层，输出层等） weisian151 人工智能人工智能 cnn 神经网络
卷积神经网络（ConvolutionalNeuralNetwork,CNN）是一种专为处理网格状数据（如图像、视频、音频）设计的深度学习模型。它通过模拟生物视觉机制，从原始数据中自动提取多层次的特征，最终实现高效的分类、检测或生成任务。1、核心概念与原理1、生物视觉启发局部感受野：模仿人类视觉皮层神经元仅响应局部区域刺激的特性，每个神经元关注输入数据的局部区域（如图像的一小块区域）。权值共享：同一
python系列教程246——多态人工智能AI技术 python系列教程 python 开发语言
朋友们，如需转载请标明出处：https://blog.csdn.net/jiangjunshow声明：在人工智能技术教学期间，不少学生向我提一些python相关的问题，所以为了让同学们掌握更多扩展知识更好地理解AI技术，我让助理负责分享这套python系列教程，希望能帮到大家！由于这套python教程不是由我所写（有时候有空也会参与编写），所以不如我的人工智能教程风趣幽默，学起来比较枯燥；但它的知
Python 解析 AI 在能源管理与智能电网中的应用头发在线失联 python 人工智能开发语言
```htmlPython解析AI在能源管理与智能电网中的应用Python解析AI在能源管理与智能电网中的应用随着全球对可持续发展的重视和能源需求的不断增长，能源管理与智能电网技术正在成为研究和实践的重要领域。在这个背景下，人工智能（AI）作为一项前沿技术，正被广泛应用于能源管理与智能电网中，以提高效率、优化资源分配并减少环境影响。本文将探讨Python如何在这一领域中发挥作用，并解析其具体应用场
如何实现聊天模型响应流式处理 yunwu12777 langchain
在现代人工智能应用中，流式处理聊天模型的响应成为一种常见需求，特别是在需要实时输出或大规模处理时。本文将详细介绍如何在Python中实现聊天模型的同步和异步流式处理，使用langchain库中提供的ChatAnthropic模型作为示例。技术背景介绍流式处理是指从模型逐步获取输出，而不是等待整个输出完成。这对于处理长文本生成或需要动态响应的应用场景特别有用。langchain库中的聊天模型实现了R
CNN-GRU混合模型学习笔记 weixin_54372988 cnn gru 学习
GRU学习笔记CNN：卷积神经网络GRU（GateRecurrentUnit），门控循环单元CNN：卷积神经网络3个组成部分：1.卷积层——提取图像局部特征2.池化层——降维（防止过拟合）3.全连接层——输出结果一个卷积核扫完整张图片，得到每个小区域的特征值具体应用中通常有多个卷积核CNN可能有多层结构，如LeNet-5：卷积层–池化层–卷积层–池化层–卷积层–全连接层处理时间序列（1D序列）：（
CPO-CNN-GRU-Attention、CNN-GRU-Attention、CPO-CNN-GRU、CNN-GRU四模型多变量时序预测对比 Matlab科研辅导帮 cnn gru 人工智能
✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。个人主页：Matlab科研工作室个人信条：格物致知，求助可私信。内容介绍多变量时序预测在诸多领域扮演着至关重要的角色，例如金融、气象和工业控制等。近年来，深度学习方法在时序预测任务中取得了显著的进展。本文旨在系统地比较四种基于卷积神经网络（CNN）和循环神经网络（GRU）的不同架构，包
AI人工智能助力空间智能领域提升运营效率 AI智能探索者 AI Agent 智能体开发实战人工智能网络 ai
AI人工智能助力空间智能领域提升运营效率关键词：AI人工智能、空间智能领域、运营效率、智能算法、数据驱动摘要：本文聚焦于AI人工智能在空间智能领域的应用，旨在探讨其如何助力该领域提升运营效率。首先介绍了空间智能领域的背景和相关概念，阐述了AI在其中的核心作用和原理。接着详细讲解了相关核心算法，并结合数学模型进行分析。通过项目实战案例展示了AI在空间智能领域的具体应用和实现方式。同时探讨了实际应用场
人工智能的发展历程与未来展望唐骁虎 ai
人工智能的发展历程与未来展望一、人工智能的起源与早期发展1.1人工智能的定义与概念起源人工智能（AI）的定义与概念起源可追溯至20世纪中叶，当时一群具有远见的科学家和工程师开始探索机器是否能够模拟人类智能行为。1956年，在达特茅斯会议上，约翰·麦卡锡首次提出了“人工智能”这一术语，标志着该领域的正式诞生。AI的定义涉及创建能够执行需要人类智能的任务的机器，如视觉感知、语音识别、决策和语言翻译等。
DeepSeek：AI驱动的效率革命与实战案例解 weixin_45788582 人工智能 ai DeepSeek
在人工智能技术的浪潮中，DeepSeek作为一款专注实现AGI（通用人工智能）的先锋工具，正通过其强大的自然语言处理（NLP）与分布式计算能力，重新定义高效办公的边界。以下通过技术解析与实战案例，展现DeepSeek如何赋能个人与企业，开启职场效率革命。一、技术革新：DeepSeek的核心竞争力深度学习赋能DeepSeek的技术架构基于BERT、Transformer等先进深度学习模型，通过构建复
如何让人工智能使你的工作效率一日千里南风过闲庭人工智能 ai python
1.自动化重复性任务1.1识别并自动化日常任务提高工作效率的首要步骤是识别日常工作中重复性高且耗时的任务。根据麦肯锡全球研究院的报告，知识工作者大约有40%的时间花费在此类任务上。通过自动化这些任务，员工可以将更多时间投入到需要创造性思维和复杂决策的工作上。数据支持：一项针对500名知识工作者的调查显示，通过自动化日常任务，平均每天可以节省2小时的工作时间。这些任务包括数据录入、文件整理、邮件分类
AI驱动的智能电网:平衡供需提高效率 AI智能应用 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
智能电网，AI，机器学习，预测模型，优化算法，供需平衡，能源效率1.背景介绍随着全球能源需求的不断增长和可再生能源的快速发展，传统电网面临着越来越多的挑战。传统的电网结构是集中式供电，难以适应分布式能源的接入和负荷需求的波动性。智能电网应运而生，它利用先进的通信技术、传感器网络和数据分析技术，实现电网的自动化、智能化和可视化，从而提高电网的可靠性、效率和安全性。人工智能（AI）作为一种新兴技术，在
RoomGPT: 人工智能驱动的室内设计革命 m0_56734068 人工智能
RoomGPT:用AI重新定义室内设计在当今数字化时代,人工智能正在改变各个行业的面貌,室内设计领域也不例外。RoomGPT作为一款革命性的AI驱动室内设计工具,正在彻底改变人们对室内空间进行创意和改造的方式。本文将深入探讨RoomGPT的工作原理、使用方法以及它为室内设计行业带来的变革。RoomGPT简介RoomGPT是一个开源项目,由GitHub用户Nutlope开发。它允许用户上传任何房间的
AI 技术&AI开发框架 34号树洞人工智能深度学习人工智能机器学习 NLP GAI
目录一、AI技术及其开发框架1.AI技术分类与代表方向2.主流AI开发框架3.AI应用开发流程简述4.补充：基础依赖与生态二、AI技术方向1.机器学习（MachineLearning,ML）✦核心概念：✦关键方法：✦应用案例：2.深度学习（DeepLearning,DL）✦核心概念：✦网络结构举例：✦技术趋势：3.自然语言处理（NLP）✦核心任务：✦代表模型：4.计算机视觉（ComputerVis
机器学习算法——神经网络1（神经元模型）
神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。神经网络中最基本的成分是神经元（neuron）模型。即上述定义中的“简单单元”。在生物神经网络中，每个神经元与其他申请元相连，当它“兴奋”时，就会向相连的神经元发送化学物质，从而改变这些神经元内的电位；如果某神经元的电位超过一个“阈值”，那么它就会被激活，即“兴奋”起来，向其他神经
MCP如何助力智能交通系统？从数据融合到精准决策 Echo_Wish Python 进阶 python 开发语言
MCP如何助力智能交通系统？从数据融合到精准决策近年来，智能交通系统（ITS）正在全球范围内快速发展，它结合人工智能（AI）、物联网（IoT）和数据分析，致力于提高交通效率、减少拥堵、增强安全性。而MCP（Multi-ConstraintPathfinding，多约束路径寻优）技术作为一种复杂路径优化算法，在智能交通系统中扮演着重要角色，尤其是在导航优化、公共交通调度、应急响应等场景。今天，我们就
AI如何提升个性化广告精准度——让投放更智能、更懂用户 Echo_Wish 前沿技术人工智能人工智能
AI如何提升个性化广告精准度——让投放更智能、更懂用户随着人工智能（AI）技术的发展，个性化广告已经从粗暴推送演变为智能匹配，广告主再也不想把预算砸给不感兴趣的人，而是精准触达有购买意向的用户。AI在广告投放中的核心优势在于深度数据分析、智能推荐、实时优化，让广告投放更精准、更有效。今天，我们就来聊聊AI如何提升个性化广告的精准度，并用Python代码演示其中的关键技术。1.为什么传统广告投放越来
NeRF-Pytorch：NeRF神经辐射场复现——Pytorch版全流程分析与测试【Ubuntu20.04】【2025最新版！！！】那就举个栗子！三维重建计算机视觉人工智能
一、引言在计算机视觉和计算机图形学的交叉领域中，视图合成（ViewSynthesis）一直是一个充满挑战的研究方向。传统的三维重建方法往往需要复杂的几何建模和纹理映射过程，而且在处理复杂光照和材质时效果有限。2020年，来自UCBerkeley的研究团队提出了NeuralRadianceFields（NeRF），这一革命性的方法彻底改变了我们对三维场景表示和渲染的理解。NeRF的核心思想是将三维场
道可云人工智能每日资讯｜江苏首个机器人训练中心在苏州吴江启动道可云道可云人工智能人工智能机器人 ar DeepSeek xr 百度
道可云人工智能&元宇宙每日简报（2025年6月26日）讯，今日人工智能&元宇宙新鲜事有：江苏首个机器人训练中心在苏州吴江启动近日，长三角一体化示范区智能机器人训练中心在东太湖度假区（太湖新城）正式启用，成为江苏省首个机器人智能训练中心。该中心占地1500平方米，设有8个训练场景和30个生产工位，涵盖智能制造、商业服务、特种应用三大领域，年产数据可超200万条，旨在加速机器人从实验室走向真实产业场景
道可云人工智能每日资讯｜《辽宁省促进人工智能创新发展实施方案》发布道可云道可云人工智能人工智能 ar DeepSeek xr
道可云人工智能&元宇宙每日简报（2025年6月13日）讯，今日人工智能&元宇宙新鲜事有：《辽宁省促进人工智能创新发展实施方案》发布近日，辽宁省人民政府办公厅印发《辽宁省促进人工智能创新发展实施方案》。根据《实施方案》可知，到2027年，实现以沈阳、大连“双核”牵引辐射带动，各地协同共进，千行百业深度赋能，打造人工智能创新发展和融合应用的新高地。人工智能赋能可持续发展论坛于成都市天府国际会议中心举办
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S

从RCNN、FastRCNN到FasterRCNN

文章目录

RCNN

RCNN的步骤

RCNN的整体框架

RCNN 存在的问题：

fast RCNN

faster RCNN

Faster RCNN

环境配置

文件结构

预训练权重模型

训练方法

faster RCNN 源码解析

训练过程 mobilenet

自定义数据集

fastrcnn 框架

framework 部分

transform部分

transform部分

你可能感兴趣的:(计算机视觉,cnn,人工智能,神经网络)