Vertira

如何利用PaddleDetection做一个完整的项目

转载CSDN博客：

系列文章：如何利用PaddleDetection做一个完整的项目（一）_yzl819819的博客-CSDN博客_paddledetection如何利用PaddleDetection做一个完整的项目（一）0PaddleDetection简介PaddleDetection 是PaddlePaddle推出的物体检测统一框架。支持现有的RCNN、SSD、YOLO等系列模型、支持 ResNet、ResNet-VD、ResNeXt、ResNeXt-VD、SENet、MobileNet、DarkNet等主干网络。针对不同的业务场景（性能、目标大小...https://blog.csdn.net/yzl819819/article/details/104336990

他写的非常详细，非常好。不过有些步骤和官网不一致。因为我是按照官网按照paddlepaddle和paddleDetection的。步骤和他的有差异。本博客主要参考他的博客。

现在开始；

PaddleDection简介

PaddleDetection 是PaddlePaddle推出的物体检测统一框架。支持现有的RCNN、SSD、YOLO等系列模型、支持 ResNet、ResNet-VD、ResNeXt、ResNeXt-VD、SENet、MobileNet、DarkNet等主干网络。针对不同的业务场景（性能、目标大小、准确率等）可以调用框架下的不同参数（或者是参数文件），实现任务。相比于tensorflow的Object_Detection,优势之一就是将YOLO这一目标检测的快速算法融合到了框架下。
文章将以一个例子为说明，来谈如何利用paddleDetection完成一个项目，本文介绍（1-6章节）
项目用到的工具硬件：Win10(RTX2060)笔记本、某品牌服务器（4*T4）工业相机（Hikvision）软件：pycharm、VS2019
1、环境部署
2、数据集准备
3、训练
4、训练过程可视化
5、模型导出
6、python进行单张/多张图片的预测
7、python+qt（给客户的演示demo）

8、C++进行单张预测（含编译简介）
9、C++预测代码封装成DLL、配合C#完成一个整体项目
10、扩展：关于PaddlePaddle代码数据读取的方式。

1.环境部署

1.1 安装paddle

利用anaconda创建一个名字叫做anaconda的paddle环境（备注：下文中命令提示窗口出现的（paddle）是指该项目环境的名称叫做paddle）具体安装方式见此链接。

paddlepaddle安装参考链接

paddlepaddle安装文档_Vertira的博客-CSDN博客该文档来源paddlepaddle的官网：日期2021/12/6进入虚拟环境，conda activate paddle_envhttps://blog.csdn.net/Vertira/article/details/121746401paddlepaddle 官网有详细的安装教程。建议以官网为准。

paddleDection安装参考链接：

PaddleDetection安装总结_Vertira的博客-CSDN博客安装PaddleDetection,必须先安装paddlepaddle，然后安装PaddleDetection。paddlepaddle安装的文档：paddlepaddle安装文档_Vertira的博客-CSDN博客该文档来源paddlepaddle的官网：日期2021/12/6进入虚拟环境，conda activate paddle_envhttps://blog.csdn.net/Vertira/article/details/121746401注意，安装完paddledection后..https://blog.csdn.net/Vertira/article/details/121746536

这里假设您已经配置好环境，安装好paddledetection

重点来了。

2.数据集准备

2.1 数据标注

目前项目使用的数据集格式是VOC数据格式，使用labelimg作为标注工具，标注工具的下载安装见链接。
特别说明：项目中使用的数据集是PaddleDetection提供的演示示例数据集，下文将通过使用该数据集来说明。
首先，下载该数据集，下载后如下图所示：下载链接提取码vw3b

标注如下：使用软件labelme ,labelimg等都可以

保存即可。标注完后。我们会得到一大堆的xml文件

打开其中一个xml文件，你可以看到内部的结构。

具体信息如下：

2.2创建VOC数据格式

其中Annotations存放标注生成的xml文件，JPEGImage存放图片，ImageSets存放对训练集和数据集的划分。ImageSet下有Main文件，Mian下需要建立一个label_list.txt。label_list.txt是指标注的目标的名称。其内容如下：

备注：train.txt、val.txt是根据下文中代码（该代码会命名为：get_list.py，放置在了数据集链接的文件里面）生成，分别是对训练集和验证集的划分：
接上文所述，是生成生成train.txt、val.txt的代码，该代码会将300张水果图片分成240张训练集和60张验证集。

```python
import os
import random

train_precent=0.7
xml="C:/Users/zhili/Desktop/fruit-detection/Annotations"
save="C:/Users/zhili/Desktop/fruit-detection/ImageSets/Main"
total_xml=os.listdir(xml)

num=len(total_xml)
tr=int(num*train_precent)
train=range(0,tr)

ftrain=open("C:/Users/zhili/Desktop/fruit-detection/ImageSets/Main/train.txt","w")
ftest=open("C:/Users/zhili/Desktop/fruit-detection/ImageSets/Main/test.txt","w")

for i in range(num):
    name=total_xml[i][:-4]+"\n"
    if i in train:
        ftrain.write(name)
    else:
        ftest.write(name)

ftrain.close()
ftest.close()

如下图是生成的train文件
 
备注：在Main文件夹中生成的train.txt文件和val.txt文件仅仅是对数据集的划分，还需要进一步的利用如下代码（create_list.py，该代码是paddle提供的）生成含有路径信息以及图像和xml文件一一对应的文件。

```python
import os
import os.path as osp
import re
import random

devkit_dir = './'
years = ['2007', '2012']


def get_dir(devkit_dir,  type):
    return osp.join(devkit_dir, type)


def walk_dir(devkit_dir):
    filelist_dir = get_dir(devkit_dir, 'ImageSets/Main')
    annotation_dir = get_dir(devkit_dir, 'Annotations')
    img_dir = get_dir(devkit_dir, 'JPEGImages')
    trainval_list = []
    test_list = []
    added = set()

    for _, _, files in os.walk(filelist_dir):
        for fname in files:
            img_ann_list = []
            if re.match('train\.txt', fname):
                img_ann_list = trainval_list
            elif re.match('val\.txt', fname):
                img_ann_list = test_list
            else:
                continue
            fpath = osp.join(filelist_dir, fname)
            for line in open(fpath):
                name_prefix = line.strip().split()[0]
                if name_prefix in added:
                    continue
                added.add(name_prefix)
                ann_path = osp.join(annotation_dir, name_prefix + '.xml')
                img_path = osp.join(img_dir, name_prefix + '.jpg')
                assert os.path.isfile(ann_path), 'file %s not found.' % ann_path
                assert os.path.isfile(img_path), 'file %s not found.' % img_path
                img_ann_list.append((img_path, ann_path))

    return trainval_list, test_list


def prepare_filelist(devkit_dir, output_dir):
    trainval_list = []
    test_list = []
    trainval, test = walk_dir(devkit_dir)
    trainval_list.extend(trainval)
    test_list.extend(test)
    random.shuffle(trainval_list)
    with open(osp.join(output_dir, 'train.txt'), 'w') as ftrainval:
        for item in trainval_list:
            ftrainval.write(item[0] + ' ' + item[1] + '\n')

    with open(osp.join(output_dir, 'val.txt'), 'w') as ftest:
        for item in test_list:
            ftest.write(item[0] + ' ' + item[1] + '\n')


if __name__ == '__main__':
    prepare_filelist(devkit_dir, '.')

这个时候的新生成的train.txt的内容如下：

{**************************************

更正第二部分程序

路径需要改成绝对路径才可以。

效果如下：

}

谨记：{ 环境部署、训练、导出的py文件里面都需要加一下路径 }

最终生成如下所示的数据集格式如下，其中label_list.txt和Mian中的label_list.txt一致。train.txt文件和val.txt是新生成的图像-xml的名称路径对应文件。
该完成后的数据集作者放置在了项目文件夹下：dataset/fruit下，并命名为该文件夹为fruit-detection，如下图所示。
数据集生成后就可以根据如下的命令进行训练。3.

3.训练

在训练之前，首先了解模型的配置文件，如文章开头所述：PaddleDetection 是PaddlePaddle推出的物体检测统一框架。支持现有的RCNN、SSD、YOLO等系列模型、支持 ResNet、ResNet-VD、ResNeXt、ResNeXt-VD、SENet、MobileNet、DarkNet等主干网络。而实现我们如何快速的完成不同模型的训练体验，就是需要依靠配置文件的切换。
如下所示就是该项目配置文件（config文件）的路径

如图下图就是我们选取的深度学习的配置文件，我们选取yolov3_mobilenet_v1_fruit.yml做为本项目的训练配置文件。该配置文件是使用yoloV3的框架，同时主干网络为mobilenet
这些参数可以根据我们自己的数据情况进行设计。
如设置：最大迭代步数：max_iters
预训练模型的来源：pretrain_weights
数据路径dataset_dir
Batch_size的大小 batch_size

需要着重关注点如下：需要根据自己的不同数据集进行训练。

在将config文件配置好了以后，就可以进行训练
set PYTHONPATH=$PYTHONPATH:. （这个命令可以不用。coda创建的虚拟环境，不需要这个命令）
set CUDA_VISIBLE_DEVICES=0（默认只有一个GPU）（这个命令是设置GPU的数量编号，从0开始，）

python -u tools/train.py -c configs/yolov3_mobilenet_v1_fruit.yml --use_tb=True --tb_log_dir=tb_fruit_dir/scalar --eval
运行如下命令，即可开始训练

出现如下图所示现象，可以表示为训练正常，可等待训练结束

关于训练命令的阐述：
-c configs/yolov3_mobilenet_v1_fruit.yml 用来指定配置文件
–use_tb 是否使用tb-paddle记录数据，进而在TensorBoard中显示，默认值是False
–tb_log_dir 指定 tb-paddle 记录数据的存储路径
–eval 是否边训练边测试

备注：
 关于–eval参数的使用
在训练中交替执行评估, 评估在每个snapshot_iter时开始。每次评估后还会评出最佳mAP模型保存到best_model文件夹下，建议训练时候使用该参数，可以使得完成训练后快速找到最好的模型。
 关于预训练模型的来源：
在本案例中，预训练模型是通过一个链接方式在训练开始时候加载进行下载的，其实paddle提供了丰富的预训练模型库，具体链接为：https://github.com/PaddlePaddle/PaddleDetection/blob/master/docs/MODEL_ZOO_cn.md

 训练过程出现的一个错误：
作者使用的电脑是笔记本，显卡型号是RTX2060 显存为6G。在训练过程中出现如下错误。

通过命令提示符中发现，竟然出现了(7184, 7184, 3)这样大的图片，而本身数据像素多数为1000*1000左右。出现这个原因是配置文件有一个参数ratio设置的太大。Paddle Detection中设置了数据增强功能：在RandomExpand这种数据增强里，首先新建一张(原图大小 * ratio)大小的空白图片，然后在这张空白图片上随机找个位置，把原图贴上去，之后再把这张新图片缩放成原图大小。原配置文件中ratio默认为4.作者将ratio设置成2以后，就可以正常训练了，当然如果显存足够大的话，也可以按照默认值来。

4.训练过程可视化
训练期间可以通过tensorboard实时观察loss和精度值，启动命令如下：
tensorboard --logdir tb_fruit_dir/scalar

paddle 有专门的可视化工具VisualDL

参考链接如下：

Paddle+Conda+VisualDL可视化的使用方法详细介绍（有图例）。_Vertira的博客-CSDN博客创作不易，如果我文章的介绍对您有用，请各位看官点赞，收藏，关注。谢谢。首先把ubuntu创建虚环境，paddlepaddle安装好，我用来做分割，所以我安装paddleseg。安装成功后。开始训练：输入命令：python ./PaddleSeg/dygraph/train.py --config ./PaddleSeg/dygraph/configs/unet/unet.yml --do_eval --use_vdl --save_interval 5 --log_iters 1 --save_https://blog.csdn.net/Vertira/article/details/121494492

5.模型导出

当我们训练完成后，在项目文件的output中可以看到我们生成的模型文件，在代码中我们设置模型每迭代200步保存一次，训练总共有20000步，因此会生成100个训练文件，由于我们使用 --eval参数进行边训练边测试，因此我们可以获得训练过程中最好的模型文件，我们将做好的模型进行导出

执行如下命令：
python tools/export_model.py -c configs/yolov3_mobilenet_v1_fruit.yml --output_dir=./inference_model -o weights=output/ yolov3_mobilenet_v1_fruit/best_model
最终导出如下所示

6.模型预测

PaddleDetection给出的模型预测代码是infer.py。该文件在项目文件夹tools里面。改代码提供了两种预测方式第一种是单张图片预测，第二种是以一个文件夹中的图片进行预测。通过设置不同的预测方式达到自己的目的。如下，使用–infer_img=demo/xxx.jpg为单张图片进行预测，使用–infer_dir=demo为用一个文件夹进行预测。其中demo是放置测试图片的地方。
6.1使用单张图片进行预测

测试的结果保存在infer_output这个文件夹中
python -u tools/infer.py -c configs/yolov3_mobilenet_v1_fruit.yml -o weights=inference_model\yolov3_mobilenet_v1_fruit --infer_img=demo/orange_71.jpg --output_dir=infer_output

6.2使用一个文件夹中图片进行预测

文章结尾说明：
1、该文章多数内容来源于PaddleDetection的文档，链接
https://github.com/PaddlePaddle/PaddleDetection

Python的未来 future模块 gftygff
分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.csdn.net/jiangjunshow也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！转载：http://omencathay.itpub.net/post/30163/414347简单介绍一下python未来将会支持的一些语言特点,虽然Ibm的网站上也有介绍.但是太凌乱了.而且中翻译过后,代码的
【Python高阶篇】探索人工智能：使用Python构建一个简单的聊天机器人码农必胜客 python 人工智能机器人
人工智能是计算机科学中一个非常热门的领域，近年来得到了越来越多的关注。它通过模拟人类思考过程和智能行为来实现对复杂任务的自主处理和学习，已经被广泛应用于许多领域，包括语音识别、自然语言处理、机器人技术、图像识别和推荐系统等。本文将介绍如何使用Python构建一个简单的聊天机器人，以展示人工智能的基本原理和应用。我们将使用Python语言和自然语言处理库来构建一个聊天机器人，该机器人可以接收用户的输
深入解析LangChain框架：使用Python开发LLM应用的全生命周期指南 m0_57781768 langchain python 网络
深入解析LangChain框架：使用Python开发LLM应用的全生命周期指南前言在当前的人工智能浪潮中，大型语言模型（LLM）已成为众多应用的核心。LangChain是一个专为开发大型语言模型应用而设计的框架，它简化了LLM应用的整个生命周期，包括开发、生产化和部署。本文将详细介绍LangChain框架的各个方面，涵盖其核心组件、第三方集成、开发教程、API参考等，并通过实际案例展示如何使用La
OpenCV中添加高斯噪声到彩色图像和点云 LpmShell opencv 人工智能计算机视觉点云
在计算机视觉和图像处理中，噪声是一种常见的现象，可以对图像和点云数据产生不良影响。高斯噪声是一种常见的噪声类型，它具有正态分布的特点。在本文中，我们将使用OpenCV库来添加高斯噪声到彩色图像和点云数据，并提供相应的源代码示例。添加高斯噪声到彩色图像首先，我们将介绍如何使用OpenCV库向彩色图像添加高斯噪声。以下是添加高斯噪声的步骤：步骤1:导入必要的库importnumpyasnpimport
智能推理的革命：DeepSeek-R1 深度解析其算法与实现步子哥算法人工智能
在人工智能（AI）领域，语言模型（LargeLanguageModels,LLMs）正以惊人的速度发展，变得越来越智能，能够理解和生成复杂的语言内容。然而，尽管现有的模型在许多任务上表现出色，它们在深度推理和逻辑思维方面仍有显著的提升空间。DeepSeek-R1的出现，正是为了解决这一问题，通过强化学习（ReinforcementLearning,RL）赋予语言模型更强大的推理能力，开创了LLMs
《从传统到智能：大模型交换机的变革之路》烁月_o9 数据库服务器运维 web安全安全
大模型交换机是一种专门为大规模人工智能模型提供网络和计算资源调度的硬件设备。以下是关于它的详细介绍：特点高带宽和低延迟：大模型的训练和推理通常需要处理大量的数据，高带宽可以确保数据在各个计算节点之间快速传输，低延迟则能减少数据传输过程中可能出现的瓶颈，提高训练和推理的效率。智能路由与数据调度：基于AI算法的调度机制，能够动态地调整数据传输路径，以应对不同网络条件和负载的变化，避免某些节点的拥塞，确
PaddleSeg 从配置文件和模型 URL 自动化运行预测任务如若123 自动化运维人工智能深度学习
gitclonehttps://github.com/PaddlePaddle/PaddleSeg.git#在ipynb里面运行cdPaddleSegimportsyssys.path.append('/home/aistudio/work/PaddleSeg')importos#配置文件夹路径folder_path="/home/aistudio/work/PaddleSeg/configs"#
『大模型笔记』AI自动化编程工具汇总[持续更新ING]！ AI大模型前沿研究大模型笔记大模型 AI自动化工具 bolt.new Cursor V0
『大模型笔记』AI自动化编程工具汇总！文章目录一.Bolt.new(开源AI驱动全栈Web开发工具)1.1.Bolt.new介绍1.2.编程小白如何打造自己的导航网站二.Cursor(人工智能代码编辑器)2.1.Cursor入门教程2.2.Cursor左侧布局设置和VSCode一样2.3.Cursor效率之道：Agent模式＋7大高级技巧详解三.Windsurf(颠覆Cursor的全新工具)3.1
Topaz Video AI——视频修复爱研究的小牛 AIGC—视频 AIGC
一、TopazVideoAI介绍及使用TopazVideoAI是一款基于人工智能的视频增强和修复软件，主要用于提升视频质量、去噪、插帧和分辨率提升。它利用深度学习技术对视频进行智能化处理，使得视频看起来更加清晰和流畅。TopazVideoAI特别适合那些需要修复旧视频、提升低分辨率视频质量的用户。二、TopazVideoAI的主要功能视频去噪：通过AI模型去除视频中的噪点，使画面更加干净。分辨率提
RPA真的是人工智能吗？微刻时光 RPA加油站 rpa 人工智能
1.RPA与AI的定义与区别1.1RPA的定义与特点机器人流程自动化（RoboticProcessAutomation，简称RPA）是一种软件技术，它通过模拟人类用户的操作行为来自动执行重复性、基于规则的任务。RPA的核心特点包括：非侵入性：RPA作为外挂工具部署在客户现有系统上，不影响原有IT基础架构。基于规则的操作：RPA流程必须有明确的、可被数字化的触发指令和输入，不允许出现无法提前定义的例
影刀 RPA：企业数字化转型的强大引擎 RPA李老师 rpa
一、影刀RPA是什么影刀RPA是一种基于机器学习和人工智能技术的自动化工具，它在当今数字化时代发挥着重要作用。影刀RPA是一款软件机器人，能模拟人的各种操作，在任何应用程式上进行鼠标点击、键盘输入、读取信息等自动化操作，释放人非主观决策、逻辑性高、规则性强的工作。在了解影刀RPA之前，我们先来认识一下RPA。RPA是RoboticProcessAutomation（机器人流程自动化）的简称，201
浅析AI大模型现状及其应用，零基础入门到精通，收藏这篇就够了程序员_大白互联网程序员大模型人工智能数据挖掘大模型
随着人工智能技术的迅猛发展，AI大模型已经成为全球科技竞争的焦点，展现出巨大的发展潜力和广阔的应用前景。AI大模型的应用落地正引发行业关注，技术进步正促使AI大模型的应用逐步从云端向终端设备延伸，从通用模型向针对特定行业的定制化解决方案转变，其商业潜力和对行业的影响不断增强。与此同时，国内外企业在大模型领域的竞争日趋激烈。AI大模型蓬勃发展AI大模型主要特征AI大模型具有泛化性(知识迁移到新领域)
【自然语言处理（NLP）】jieba分词的使用（分词模式、关键词提取）道友老李自然语言处理(NLP)自然语言处理人工智能
文章目录介绍jieba分词的使用1.安装2.jieba分词模式2.1精确模式2.2全模式2.3搜索引擎模式2.4词性标注2.5加载自己的分词文件3.查看词频4.关键词提取个人主页：道友老李欢迎加入社区：道友老李的学习社区介绍**自然语言处理（NaturalLanguageProcessing，NLP）**是计算机科学领域与人工智能领域中的一个重要方向。它研究的是人类（自然）语言与计算机之间的交互。
【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向努力学习的大大学术会议推荐人工智能大数据深度学习神经网络
【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向文章目录【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向2025
激光线扫标定和相机标定：中高级C++程序员与计算机视觉工程师的指南 m0_57781768 数码相机 c++计算机视觉
激光线扫标定和相机标定：中高级C++程序员与计算机视觉工程师的指南简介在计算机视觉和机器人领域，激光标定和相机标定是实现高精度测量和检测的关键技术。激光线扫标定和相机标定在许多应用中都是必不可少的，如自动驾驶、工业检测、三维重建等。本文将详细介绍激光线扫标定和相机标定的基本概念、实现细节以及常见问题的解决方案。目标读者为中高级C++程序员和计算机视觉工程师，文章将提供详细的技术细节和代码示例，确保
QT 笔记繁缕怀夕 QT 笔记
本文详述了QT的基础应用，其中包括基础控件应用、多线程等工具类使用、以及显示2D、3D图像等功能，适用于C++和计算机视觉领域的开发者。1、基础控件QLineEditQComboBoxQMenuQToolBar2、基础功能2.1、多线程线程QThread2.2、多语言静态显示动态切换3、QChart4、QGraphicsView5、PCL之VTK
2025年新出炉的MySQL面试题长风清留扬 150道MySQL高频面试题 mysql 数据库面试 sql
作者简介：CSDN\阿里云\腾讯云\华为云开发社区优质创作者，专注分享大数据、Python、数据库、人工智能等领域的优质内容个人主页：长风清留杨的博客形式准则：无论成就大小，都保持一颗谦逊的心，尊重他人，虚心学习。✨推荐专栏：Python入门到入魔，Mysql入门到入魔，Python入门基础大全，Flink入门到实战若缘分至此，无法再续相逢，愿你朝朝暮暮，皆有安好，晨曦微露道早安，日中炽热说午安，
精选了几道MySQL的大厂面试题，被提问的几率很高！长风清留扬 150道MySQL高频面试题 mysql android 数据库面试学习 MySQL面试
作者简介：CSDN\阿里云\腾讯云\华为云开发社区优质创作者，专注分享大数据、Python、数据库、人工智能等领域的优质内容个人主页：长风清留杨的博客形式准则：无论成就大小，都保持一颗谦逊的心，尊重他人，虚心学习。✨推荐专栏：Python入门到入魔，Mysql入门到入魔，Python入门基础大全，Flink入门到实战若缘分至此，无法再续相逢，愿你朝朝暮暮，皆有安好，晨曦微露道早安，日中炽热说午安，
智能运维分析决策系统：赋能数字化转型的智慧引擎我的运维人生运维运维开发技术共享
智能运维分析决策系统：赋能数字化转型的智慧引擎在数字化转型的大潮中，企业运维管理正经历着从传统手动运维向智能化、自动化运维的深刻转变。智能运维分析决策系统（AIOps，ArtificialIntelligenceforITOperations）作为这一转变的核心驱动力，通过融合大数据、机器学习、人工智能等先进技术，实现了对运维数据的深度洞察与智能决策，极大地提升了运维效率与质量，为企业数字业务的连
ChatGPT是强人工智能吗? 呵呵爱吃菜 chatgpt 人工智能
ChatGPT是强人工智能吗?本文从人工智能发展的三个阶段的角度,分析当前强大的AI大模型所处的阶段,并通过对比各阶段的定义,明确各阶段的特点和未来发展方向;NarrowAI（弱人工智能）、AGI（人工通用智能）和ASI（人工超级智能）代表了人工智能发展的三个不同阶段，它们在智能水平、任务范围和应用场景上存在显著差异。以下是它们的总结与对比：1.定义与特点类型NarrowAI（弱人工智能）AGI（
python机器学习方安乐 python python 机器学习人工智能
Python机器学习是当前最为热门的机器学习领域之一，其简洁、易用、高效的特点，让越来越多的开发者开始探索其应用。本文将从以下几个方面介绍Python机器学习的基础知识和实践案例，帮助读者更好地理解和应用机器学习技术。前提Python机器学习的应用领域A.图像识别和计算机视觉B.自然语言处理和文本分析C.数据挖掘和推荐系统深度学习A.神经网络的基本原理B.常用的深度学习框架和算法C.深度学习在图像
GPT-4、GPT-4O 和 GPT-4O-mini 的区别与联系 surfirst LLM ai 语言模型 chatgpt
简介近年来，人工智能技术飞速发展，特别是在自然语言处理领域。GPT-4是OpenAI推出的新一代大模型，而GPT-4O和GPT-4O-mini是其优化版本，专门为不同应用场景和计算资源需求进行调整。在这篇文章中，我们将详细比较GPT-4、GPT-4O和GPT-4O-mini的区别与联系，帮助开发者更好地选择适合的模型。GPT-4是OpenAI发布的第四代通用预训练模型，具备强大的生成和理解能力，适
讯飞绘镜（ai生成视频）技术浅析（一）爱研究的小牛 AIGC—视频 AIGC—技术综述人工智能 AIGC 深度学习
讯飞绘镜（也称为星火绘镜）是科大讯飞推出的一款基于人工智能技术的短视频创作平台，旨在通过先进的AI技术简化视频创作流程，让用户能够轻松将创意转化为高质量的视频内容。以下是对讯飞绘镜相关技术、工作原理及具体实现的详细介绍：一、核心技术讯飞绘镜的核心技术主要依托于科大讯飞的星火大模型，并结合了多种先进的AI技术，包括：1.大模型技术：基于讯飞星火大模型，为脚本生成、分镜生成等提供基础能力支持。该模型能
第72期 | GPTSecurity周报云起无垠 GPTSecurity 人工智能安全
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.从孤立指令到互动鼓
开发基于WebRTC和OpenAI实时API的AI语音助手框架：技术解析与最佳实践花生糖@ AIGC学习资料库 webrtc 人工智能
随着人工智能（AI）和实时通信技术的发展，构建一个能够提供即时响应、多语言支持以及个性化用户体验的AI语音助手变得越来越重要。本文将深入探讨如何使用现代Web技术和先进的AI工具开发这样一个语音助手框架，具体来说，我们将基于Next.js、WebRTC和OpenAIAPI创建一个高效且用户友好的解决方案。技术架构主框架-Next.js选择Next.js作为主框架不仅因为它提供的服务端渲染（SSR）
国外各领域专家学者的一些谏言：如何使AI代理架构变得成功强哥之神人工智能语言模型 AI代理智能体大模型 Agent
最近在研究AI代理架构为什么比较难落地，看到有一篇文章是关于各领域专家学者对AI代理架构的一些看法，值得关注。我将其整理成了中文，大家可一起细品各家观点，全文如下。代理型人工智能被寄予厚望，其潜力在于能够独立完成复杂任务。然而，目前该领域的炒作热潮远超实际成功案例，背后原因复杂多样。“2024年，AI代理已成为众多供应商的营销热词。但对于用户组织而言，代理技术还处于早期探索阶段，充满好奇心与实验性
计算机视觉：卷积核每天五分钟玩转人工智能计算机视觉计算机视觉深度学习人工智能机器学习卷积神经网络
本文重点卷积神经网络（ConvolutionalNeuralNetwork，CNN）是一种深度学习模型，广泛应用于图像识别、自然语言处理、语音识别等领域。在卷积神经网络中，卷积核是网络的核心组件之一。通过不断堆叠卷积层和池化层，可以逐渐提取出更高级别的特征，从而实现更复杂的任务。卷积神经网络中的卷积核可以通过反向传播算法进行训练和优化，使其能够自适应地学习输入数据中的特征。因此，卷积神经网络在图像
4-2 计算机视觉-卷积神经网络-基本网络组件沉睡的小卡比兽 AI基础知识 cnn 卷积核端到端训练计算机视觉卷积神经网络
1、为什么卷积核一般都是奇数？2、由哪些层组成了基本的卷积神经网络，作用分别是什么？3、卷积层和池化层有什么区别？4、什么是端到端学习end-to-end？1、为什么卷积核一般都是奇数？（1）保护位置信息：保证锚点刚好在中间，方便以模块中心为标准进行滑动卷积，避免了位置信息发生偏移（2）padding时的对称性：保证padding时图像的两边依然对齐（3）一些历史尝试的经验，如边缘检测等，还有pa
【人工智能时代】- 开源向量数据库比较：Chroma, Milvus, Faiss,Weaviate xiaoli8748_软件开发人工智能时代人工智能开源数据库
语义搜索和检索增强生成(RAG)正在彻底改变我们的在线交互方式。实现这些突破性进展的支柱就是向量数据库。选择正确的向量数据库能是一项艰巨的任务。本文为你提供四个重要的开源向量数据库之间的全面比较，希望你能够选择出最符合自己特定需求的数据库。什么是向量数据库?向量数据库是一种将数据存储为高维向量的数据库，高维向量是特征或属性的数学表示。每个向量都有一定数量的维度，根据数据的复杂性和粒度，可以从数十到
NVIDIA L40s、A10、A40、A100、A6000横评，哪个GPU 更适合 AI 推理任务？ DO_Community 技术科普商业建议人工智能 gpu算力 DigitalOcean ai AIGC
近年来，随着人工智能技术的发展，特别是深度学习模型的广泛应用，GPU（图形处理单元）作为加速计算的重要硬件，在AI领域扮演着越来越重要的角色。AI推理是指已经训练好的模型对新数据进行预测的过程。与训练阶段相比，推理通常对GPU的要求有所不同，更注重于能效比、延迟以及并发处理能力。本文将从这些角度出发，对比分析NVIDIA的L40s、A10、A40、A100、A6000五款GPU在AI推理任务中的表
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文

如何利用PaddleDetection做一个完整的项目

你可能感兴趣的:(计算机视觉,人工智能,paddleDetection,paddleX,paddlepaddle)