听障阿杨

基于PaddleOCR实现车牌识别

基于PaddleOCR的车牌识别

- 1.方案设计
- 2.数据处理
- - 2.1 车牌数据集介绍
  - 2.2 数据预处理
- 3.PaddleOCR模型介绍
- - 3.1 Paddle OCR算法列表
  - - 3.2 安装PaddleOCR
    - 3.3 下载预训练模型
  - 4.模型训练
  - - 4.1 训练检测模型
    - 4.2 CPU？GPU？
    - 4.3 训练识别模型
    - - GPU训练支持单卡，多卡训练
    - 4.4 问题及解决方案
  - 5.模型的评估
  - 6.模型导出
  - 7.模型推理
  - - 结果图

1.方案设计

车牌识别车牌识别就是使用OCR(Optical Character Recognition,光学字符识别)技术识别各类机动车车牌信息。目前，车牌识别已广泛应用在停车场、收费站、道路等交通设施中，提供高效便捷的车辆管理服务。OCR通常包含文本检测和文本识别两个子任务：
1.文字检测：检测图片中的文字位置
2. 文字识别： 对文字区域中的文字进行识别。
使用OCR来识别车牌流程如图1 所示，首先检测出车牌的位置(下图红色框区域)、然后对检测出来的车牌进行识别，即可得到右边的可编辑文本：

图1 车牌识别
我们使用飞桨PaddleOCR实现车牌识别，接下来就一起来看看实现原理及具体实现步骤吧~

2.数据处理

2.1 车牌数据集介绍

CCPD车牌数据集来源于Git里面。链接：https://github.com/detectRecog/CCPD
是采集人员在合肥停车场采集、手工标注得来，采集时间在早7:30到晚10:00之间。且拍摄车牌照片的环境复杂多变，包括雨天、雪天、倾斜、模糊等。CCPD数据集包含将近30万张图片、图片尺寸为720x1160x3，共包含8种类型图片，每种类型、数量及类型说明如下表：

类别	说明
ccpd_base	正常车牌
ccpd_db	光线较暗或较亮
ccpd_challenge	比较有挑战性的车牌
ccpd_fn	距离摄像头较远或较近
ccpd_np	没上牌的新车
ccpd_rotate	水平倾斜20%-50%，垂直倾斜-10%-10%
ccpd_tilt	水平倾斜15%-45%，垂直倾斜15%-45%
ccpd_weather	雨天、雪天或者雾天的车牌

注：图2来源于开源车牌数据集[CCPD介绍](https://blog.csdn.net/qianbin3200896/article/details/103009221)

CCPD数据集中每张图像的名称包含了标注信息，例如图片名称为"025-95_113-154&383_386&473-386&473_177&454_154&383_363&402-0_0_22_27_27_33_16-37-15.jpg"，每个名称可以通过分隔符’-'分为几部分，每部分解释:

1.025：车牌区域占整个画面的比例；
2.95_113：车牌水平和垂直角度, 水平95°, 竖直113°
3.154&383_386&473：标注框左上、右下坐标，左上(154, 383), 右下(386, 473)
4.386&473_177&454_154&383_363&402：标注框四个角点坐标，顺序为右下、左下、左上、右上
5.0_0_22_27_27_33_16：车牌号码映射关系如下: 第一个0为省份对应省份字典provinces中的’皖’,；第二个0是该车所在地的地市一级代码，对应地市一级代码字典alphabets的’A’；后5位为字母和文字, 查看车牌号ads字典，如22为Y，27为3，33为9，16为S，最终车牌号码为皖AY339S

provinces = ["皖", "沪", "津", "渝", "冀", "晋", "蒙", "辽", "吉", "黑", "苏", "浙", "京", "闽", "赣", "鲁", "豫", "鄂", "湘", "粤", "桂", "琼", "川", "贵", "云", "藏", "陕", "甘", "青", "宁", "新"]

alphabets = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'J', 'K', 'L', 'M', 'N', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W','X', 'Y', 'Z']

ads = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'J', 'K', 'L', 'M', 'N', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X','Y', 'Z', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

本实验我们只使用正常车牌即ccpd_base的数据进行训练。

2.2 数据预处理

1.先在项目下创建dataset文件夹
. …命令：mkdir dataset
2.解压ccpd数据集压缩包并放到dataset文件夹下
…命令：unzip -q data/CCPD2019.zip -d dataset/CCPD
3.项目结构树如同：

dataset:解压后放在dataset文件数据里
log:训练记录
output训练后的输出模型
Paddle OCR：文字识别模型
CCPD_test1.py :数据预处理的代码

3.将CCPD的数据格式转换PaddleOCR检测所需格式，创建CCPD_test1.py代码如下：

import os
import os.path as osp
import cv2
#创建字典列表
ads = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'J', 'K', 'L', 'M', 
              'N', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X','Y', 'Z', 
              '0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

provinces = ["皖", "沪", "津", "渝", "冀", "晋", "蒙", "辽", "吉", "黑", "苏", 
            "浙", "京", "闽", "赣", "鲁", "豫", "鄂", "湘", "粤", "桂", "琼", 
            "川", "贵", "云", "藏", "陕", "甘", "青", "宁", "新"]

该代码主要是创建字典列表

#转换检测数据
#获取原图片的路径+图片标注信息
train_det = open('dataset/train_det.txt', 'w', encoding='UTF-8')
dev_det = open('dataset/dev_det.txt', 'w', encoding='UTF-8')


#转换识别数据
#获取截取车牌图片的路径文件+提取车牌文字的信息
train_rec = open('dataset/train_rec.txt', 'w', encoding='UTF-8')
dev_rec = open('dataset/dev_rec.txt', 'w', encoding='UTF-8')

if not osp.exists('dataset/img'):
    os.mkdir("dataset/img")

该代码主要是创建检测数据的train和val的txt文件与识别数据的train和val的文件。

train_det和dev_det划分8：2 是获取原图片的路径+图片被标注信息。比如：dataset/CCPD/ccpd_db/0462-1_13-212&516_542&633-542&633_236&627_212&516_518&522-0_0_26_32_19_24_29-198-116.jpg [{“transcription”:“皖A28V05”, “points”:[[212, 516], [518, 522], [542, 633], [236, 627]]}]
train_rec和dev_rec划分8：2 ,是获取已经截取出车牌图片的路径+提取车牌文字的信息；比如：dataset/img/000536.jpg 皖A28V05
dataset/img:是用来保存截取车牌的图片。


count = 0
total_num = len(os.listdir("dataset/home/aistudio/dataset/CCPD/ccpd_db"))
#训练样本数
train_num = int(total_num * 0.8)
# print(total_num, train_num)
for item in os.listdir("dataset/home/aistudio/dataset/CCPD/ccpd_db"):
    path = "dataset/home/aistudio/dataset/CCPD/ccpd_db/" + item
    #print(path)
    #print(item.split("-"))
    a1,a2,bboxs, points, labels, a3,a4 = item.split("-")
    # print(a1, a2, bboxs, points, labels, a3,a4 )
    bboxs = bboxs.split('_')
    # print(bboxs)
    x1, y1 = bboxs[0].split('&')
    x2, y2 = bboxs[1].split('&')
    # print("x1:y1", x1,y1)
    # print("x2:y2", x2,y2)
       #提取bboxs的x坐标，y坐标
    bboxs_new = [int(coord) for coord in [x1, y1, x2, y2]]
    print(bboxs_new)

#同理points
    points = points.split("_")
    #print(points)
    points = [point.split('&') for point in points]
    points_ = points[2:]+points[:2]
    #print(points_)
    points = []
    for point in points_:
        points.append([int(_) for _ in point])
    #print(points)

#同理 label
    labels = labels.split('_')
    #print(labels)
    prov =provinces[int(labels[0])]  #获取车牌地区名称
    #print(prov)
    plate_number = [ads[int(label)] for label in labels[1:]]  #将数字转换化车牌的数字
    labels = prov + ''.join(plate_number)  #合并起来
    #print(labels)

    # 获取检测训练检测框位置
    line_det = path+'\t'+'[{"transcription":"%s", "points":%s}]' % (labels, str(points))
    line_det = line_det[:] + "\n"
    print(line_det)

    #获取识别训练图片及标签
    img = cv2.imread(path)
    #print(img)
    crop = img[bboxs_new[1]:bboxs_new[3], bboxs_new[0]:bboxs_new[2], :]
    cv2.imwrite('dataset/img/%06d.jpg' % count, crop)
    line_rec = 'dataset/img/%06d.jpg\t%s\n' % (count, labels)
    print(line_rec)

    # 写入txt文件
    if count <= train_num:
        train_det.write(line_det)
        train_rec.write(line_rec)
    else:
        dev_det.write(line_det)
        dev_rec.write(line_rec)
    count+=1
train_det.close()
dev_det.close()
train_rec.close()
dev_rec.close()


#创建字典文件

with open("dataset/dict.txt", "w") as f:
    for key in ads +provinces:
        f.write(key+"\n")

运行命令：python CCPD_test1.py后，项目结构里多了五个文件。如图下：

我来给大家详细介绍一下：

img文件夹：是保存截取车牌得图片。如同下：
train_det，dev_det文件：保存原始图片得路径和标注格式信息。如图下：
train_rec,dev_rec文件：是保存img文件夹下得截取车牌图片得路径和车牌文字信息。如图下：
dic.txt文件：是保存字典列表信息：如图下：
-

3.PaddleOCR模型介绍

3.1 Paddle OCR算法列表

PaddleOCR中提供了如下文本检测算法和文本识别算法列表，以及每个算法在英文公开数据集上的模型和指标，主要用于算法简介和算法性能对比。

文本检测算法：

文本识别算法：

考虑车牌识别中字符数量较少，而且长度也固定，且为标准的印刷字体，所以无需使用过于复杂的模型。我们选择DBNet检测算法和CRNN识别模型作，PaddleOCR的检测模型目前支持两种backbone，分别是MobileNetV3、ResNet_vd系列，本实验两个模型均使用MobileNetV3作为其主干网络(Backbone)。

3.2 安装PaddleOCR

1.安装命令：git clone clone https://github.com/PaddlePaddle/PaddleOCR
如果因为忘了问题无法pull成功，可以选用码云上的托管即可：
git clone !git clone https://gitee.com/paddlepaddle/PaddleOCR
2.安装依赖
pip install -r PaddleOCR/requirements.txt 下载并安装

3.3 下载预训练模型

1.下载mobileNetv3的检测预训练模型
wget -P ./pretrain_models/ https://paddle-imagenet-models-name.bj.bcebos.com/dygraph/MobileNetV3_large_x0_5_pretrained.pdparams
2.下载MobileNetV3.识别预训练模型
!wget -P ./pretrain_models/ https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/rec_mv3_none_bilstm_ctc_v2.0_train.tar
3.解压识别预训练模型压缩文件
tar -xvf pretrain_models/rec_mv3_none_bilstm_ctc_v2.0_train.tar
4.删掉压缩文件（以免占空间）
rm -rf pretrain_models/rec_mv3_none_bilstm_ctc_v2.0_train.tar

4.模型训练

4.1 训练检测模型

1.首先我们在configs/det/det_mv3_db.yml 文件中Train和Eval数据集得图片路径“data_dir"和标签路径”label_file_list".我自己修下是：

4.2 CPU？GPU？

如果你安装的是paddle-cpu版本，或者没有gpu显卡的话，需要将det_mv3_db.yml配置文件中的use_gpu字段修改为false.

如果你只有一个gpu显卡的话，单机单卡训练可以输入命令： python tools/train.py -c configs/det/det_mv3_db.yml -o Global.pretrained_model=./pretrain_models/MobileNetV3_large_x0_5_pretrained

如果你是土豪又很多gpu的话，单机多卡训练，需要通过–gpus 参数设置使用的gpu ID。输入命令： python -m paddle.distributed.launch --gpus ‘0,1,2,3’ tools/train.py -c configs/det/det_mv3_db.yml
-o Global.pretrained_model=./pretrain_models/MobileNetV3_large_x0_5_pretrained

  上述指令中，通过-c 选择训练使用configs/det/det_db_mv3.yml配置文件。 有关配置文件的详细解释，请参考链接。

  您也可以通过-o参数在不需要修改yml文件的情况下，改变训练的参数，比如，调整训练的学习率为0.0001

  python tools/train.py -c configs/det/det_mv3_db.yml -o Optimizer.base_lr=0.0001

4.3 训练识别模型

如果您是在自己的数据集上训练的模型，并且调整了中文字符的字典文件，请注意修改配置文件configs/rec/ch_ppocr_v2.0/rec_chinese_lite_train_v2.0.yml中的character_dict_path是否是所需要的字典文件。同时修改Train和Eval的图片路径data_dir和标签路径label_file_list。

同检测模型，如果您安装的是cpu版本，请将配置文件中的 use_gpu 字段修改为false

GPU训练支持单卡，多卡训练

#单卡训练（训练周期长，不建议）
python tools/train.py -c configs/rec/ch_ppocr_v2.0/rec_chinese_lite_train_v2.0.yml

#多卡训练，通过–gpus参数指定卡号
python -m paddle.distributed.launch --gpus ‘0,1,2,3’ tools/train.py -c configs/rec/ch_ppocr_v2.0/rec_chinese_lite_train_v2.0.yml

PaddleOCR支持训练和评估交替进行, 可以在rec_chinese_lite_train_v2.0.yml中修改 eval_batch_step 设置评估频率，
默认每500个iter评估一次。评估过程中默认将最佳acc模型，保存为 output/rec_CRNN/best_accuracy。如果验证集很
大，测试将会比较耗时，建议减少评估次数，或训练完再进行评估。

4.4 问题及解决方案

**1.**遇到问题：Config use_gpu cannot be set as true while you are using paddlepaddle cpu version !

解决方案：修改rec_chinese_lite_train_v2.0.yml 的use_gpu 字段为false

**2.**遇到问题：.No Images in train dataset, please ensure

解决方案：1.标注工具识别结果没有内容, 2.修改batch_size_per_card字段

3.遇到问题：ABORT!!! Out of all 4 trainers, the trainer process with rank=[0, 1, 2, 3] was aborted. Please check its log.

**解决方案：**1.选用单卡训练。2.在代码里加一行：paddle.set_device(“gpu”)

5.模型的评估

当文字检测模型和文字识别模型训练完成后需要查看评估结果。可以执行下面的代码进行评估：
1.输入命令并执行（这是文字检测模型的评估代码）：

python PaddleOCR/tools/eval.py -c PaddleOCR/configs/det/det_mv3_db.yml -o Global.checkpoints=output/db_mv3/best_accuracy.pdparams PostProcess.box_thresh=0.5 PostProcess.unclip_ratio=1.5

2.文字检测模型的评估结果如下：

同理，文字识别模型的评估代码可以自己执行

3.从上面的结果可以看出，精准度：92%，召回率96%，hmean:94%,fps：24
hmean是一个综合指标，从先的表达式可以看出其值介与精度和召回率自己，其表达式为：

6.模型导出

将训练好的模型转换成inference模型需要运行如下命令：

# 导出检测模型
python PaddleOCR/tools/export_model.py -c PaddleOCR/configs/det/det_mv3_db.yml -o Global.pretrained_model=output/db_mv3/best_accuracy Global.save_inference_dir=inference/db_mv3/

# 导出识别模型
python PaddleOCR/tools/export_model.py -c PaddleOCR/configs/det/det_mv3_db.yml -o Global.pretrained_model=output/db_mv3/best_accuracy Global.save_inference_dir=inference/db_mv3/

生成inference文件，如图下：

  其中：
  
  -c后面设置训练算法的yml配置文件
  -o配置可选参数
  Global.pretrained_model 参数设置待转换的训练模型地址，不用天津文件后缀。pdmodel,.pdopt或者。pdparams即可
  Global.save_inference_dir参数设置转换模型保存的地址

转inference模型时，使用的配置文件和训练时使用的配置文件相同。另外，还需要设置配置文件中的Global.pretrained_model参数，其指向训练中保存的模型参数文件。转换成功后，在模型保存目录下有三个文件：
/inference/*/
├── inference.pdiparams # inference模型的参数文件
├── inference.pdiparams.info # inference模型的参数信息，可忽略
└── inference.pdmodel # inference模型的program文件

7.模型推理

在执行预测时，需要通过参数image_dir指定单张图像或者图像集合的路径、参数det_model_dir,cls_model_dir和rec_model_dir分别指定检测，方向分类和识别的inference模型路径。参数use_angle_cls用于控制是否启用方向分类模型。如果训练时修改了文本的字典，在使用inference模型预测时，需要通过**–rec_char_dict_path**指定使用的字典路径，并且设置 rec_char_type=ch。可视化识别结果默认保存到 ./inference_results 文件夹里面。

python3 tools/infer/predict_system.py \
    --image_dir="./doc/imgs/00018069.jpg" \   #要预测图片的路径
    --det_model_dir="./inference/db_mv3/" \    #加入检测模型参数的路径
    --rec_model_dir="./inference/rec_chinese_lite_v2.0/" \    #加入识别模型参数的路径
    --rec_char_dict_path="../dict.txt" \                         #加入字典列表的路径
    --rec_char_type=ch \         #设置中文或者en
    --use_angle_cls=false \
    --output=../output/table \
    --vis_font_path=./doc/fonts/simfang.ttf    #加入字体

结果图

创作不易，求关注和点赞！！
我是一名听力障碍人士，热爱学习热爱健身，想学习怎么健身的欢迎关注哈。有图有真相！！！

大模型——什么是 Vibe Coding？从零开始学习 AI 辅助编程不二人生大模型学习人工智能大模型辅助编程
大模型——什么是VibeCoding？从零开始学习AI辅助编程VibeCoding：代码消失，直觉驱动的软件开发新浪潮？生成式人工智能的指数级增长正不断重塑各个行业，软件开发领域也不例外。大约在2025年初，一股源自美国硅谷的新思潮开始引起关注：开发者似乎可以借助AI工具，在几乎不直接编写代码的情况下构建产品。这种依赖直觉、跳脱传统编码苦役的开发方式，被赋予了一个颇具时代感的名字——VibeCod
【动手学深度学习】4.10 实战Kaggle比赛：预测房价 XiaoJ1234567 《动手学深度学习》深度学习人工智能
目录4.10实战Kaggle比赛：预测房价1）数据预处理2）模型定义与训练3）模型评估与预测4）模型训练与预测提交5）示例超参数（可调）4.10实战Kaggle比赛：预测房价数据来源：Kaggle房价预测比赛.1）数据预处理读取数据importpandasaspdtrain_data=pd.read_csv('../data/kaggle_house_pred_train.csv')test_da
【机器学习-08】参数调优宝典：网格搜索与贝叶斯搜索等攻略云天徽上机器学习机器学习人工智能
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
PyTorch 在 Python 自然语言处理中的运用 Python编程之道 Python编程之道 python pytorch 自然语言处理 ai
PyTorch在Python自然语言处理中的运用关键词：PyTorch，Python，自然语言处理，深度学习，文本分类，情感分析摘要：本文全面探讨了PyTorch在Python自然语言处理（NLP）领域的运用。首先介绍了相关背景知识，包括目的范围、预期读者等内容。接着详细阐述了核心概念，如词嵌入、循环神经网络等，并给出了相应的原理示意图和流程图。深入讲解了核心算法原理，结合Python代码进行详细
企业内网系统：从传统开发到智能赋能的进化之路飞算JavaAI开发助手科技人工智能大数据 java
在当今数字化浪潮中，企业内网系统作为支撑日常运营的核心基础设施，其开发效率与质量直接关系到企业的竞争力。传统开发模式下，程序员需要手动完成需求分析、架构设计、代码编写、测试调试等全流程工作，不仅耗时费力，还容易因人为疏忽导致质量隐患。而随着人工智能技术的突破性进展，以飞算JavaAI为代表的智能开发工具正在重塑企业内网系统的开发范式，为程序员提供从设计到落地的全链路智能支持。一、传统企业内网系统开
颠覆人机交互！多模态 AI Agents 大模型如何用 5 大模式开启智能新时代？
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】文章目录GPT多模态大模型与AIAgent智能体系列七颠覆人机交互！多模态AIAgents大模型如何用5大模式开启智能新时代？一、从“单一感知”到“多模态融合”：A
实操 SpringBoot+MCP！清风孤客 spring boot 后端 java 人工智能
引言随着人工智能的飞速发展，大语言模型(LLM)正在革命性地重塑用户与软件的交互范式。想象一下这样的场景：用户无需钻研复杂的API文档或者在繁琐的表单间来回切换，只需通过自然语言直接与系统对话——“帮我查找所有2023年出版的图书”、“创建一个新用户叫张三，邮箱是[email protected]”。这种直观、流畅的交互方式不仅能显著降低新用户的学习曲线，更能大幅削减B端系统的培训成本和实施
如何学习智能体搭建
如何学习智能体搭建前言随着人工智能的发展，智能体（Agent）成为自动化、交互式应用和自主决策系统中的核心角色。本书将从零基础出发，系统讲解智能体的基本原理、常见框架、实战搭建与进阶技巧，帮助你快速上手并应用于实际项目。目录智能体基础认知智能体的核心组成主流智能体开发框架本地智能体与云端智能体选型智能体的任务自动化与插件集成智能体的知识检索与上下文管理智能体的多模态扩展智能体安全与可控性智能体实战
异物检测的计算机视觉算法技术路线思绪漂移计算机视觉算法人工智能
异物检测的计算机视觉算法技术路线在现代智能监测系统中，异物检测有着其必要性和运维重要性，通过计算机视觉算法，可以实时识别各种异常物体，为设备安全运行提供有力保障。本文将介绍异物检测的主要技术路线。一、分类识别适应场景分类识别技术主要适用于已知目标类别的异物检测场景。在运维环境中，这类场景包括：固定区域内的障碍物监测（如轨道区域的石块、工具、动物等）关键部件的异物附着检测（如固定装置上的杂物）安全通
[特殊字符] AlphaGo：“神之一手”背后的智能革命与人机博弈新纪元大千AI助手人工智能 Python #OTHER 人工智能算法数据挖掘机器学习 alphago google 围棋
从围棋棋盘到科学前沿的通用人工智能范式突破本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心定义与历史意义AlphaGo是由谷歌DeepMind团队开发的围棋人工智能程序，其里程碑意义在于：首破人类围棋壁垒：2016年以4:1击败世界冠军李世石九段，成为首个在完整对局中战胜人类顶尖棋手的AI。
量化价值投资中的深度学习技术：TensorFlow实战
量化价值投资中的深度学习技术：TensorFlow实战关键词：量化价值投资,深度学习,TensorFlow,股票预测,因子模型,LSTM神经网络,量化策略摘要：本文将带你走进"量化价值投资"与"深度学习"的交叉地带，用小学生都能听懂的语言解释复杂概念，再通过手把手的TensorFlow实战案例，教你如何用AI技术挖掘股票市场中的价值宝藏。我们会从传统价值投资的痛点出发，揭示深度学习如何像"超级分析
【人工智能】Spring AI Alibaba，一个面向 Java 开发者的开源框架，它旨在简化将人工智能（AI）功能集成到应用程序中的过程。本本本添哥 A -AIGC 人工智能大模型人工智能 java spring
一、SpringAIAlibaba介绍SpringAIAlibaba是一个面向Java开发者的开源框架，它旨在简化将人工智能（AI）功能集成到应用程序中的过程。该项目基于SpringAI构建，并且是阿里云通义系列模型及服务在JavaAI应用开发领域的最佳实践。SpringAIAlibaba的目标是为开发者提供一套高层次的AIAPI抽象以及与云原生基础设施的深度集成方案，从而帮助他们快速构建智能应用
模型融合与人机协同：构建人机共生的智能未来 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍在科技日新月异的今天，人工智能（AI）已经成为了我们生活中不可或缺的一部分。从智能手机，到自动驾驶汽车，再到医疗诊断，AI的应用已经渗透到了我们生活的方方面面。然而，尽管AI的发展已经取得了显著的成就，但是我们仍然面临着一个重大的挑战：如何让AI系统更好地理解和适应人类的需求，以实现人机共生的智能未来。为了解决这个问题，越来越多的研究者开始探索模型融合和人机协同的方法。2.核心概念与联
vLLM 优化与调优：提升模型性能的关键策略强哥之神人工智能深度学习计算机视觉 deepseek 智能体 vllm
在当今人工智能领域，大语言模型（LLM）的应用日益广泛，而优化和调优这些模型的性能成为了至关重要的任务。vLLM作为一种高效的推理引擎，提供了多种策略来提升模型的性能。本文将深入探讨vLLMV1的优化与调优策略，帮助读者更好地理解和应用这些技术。抢占式调度（Preemption）由于Transformer架构的自回归特性，有时键值缓存（KVcache）空间不足以处理所有批量请求。在这种情况下，vL
Spring Data Neo4j 与后端人工智能算法的数据交互 AI大模型应用实战 spring neo4j 人工智能 ai
SpringDataNeo4j与后端人工智能算法的数据交互关键词：SpringDataNeo4j、图数据库、人工智能算法、数据交互、知识图谱、图神经网络、数据集成摘要：本文深入探讨了如何利用SpringDataNeo4j框架实现后端人工智能算法与图数据库的高效数据交互。文章首先介绍了图数据库和人工智能算法的基本概念，然后详细解析了SpringDataNeo4j的核心架构和原理。接着，通过实际代码示
ResNet：深度卷积神经网络的里程碑心想事“程” 小知识点 cnn 人工智能神经网络
一、引言在深度学习的发展历程中，深度卷积神经网络（CNN）不断演进，旨在提升对图像等数据的特征提取与分类能力。然而，随着网络层数的增加，传统CNN面临着梯度消失、梯度爆炸以及退化等棘手问题，训练变得愈发困难。2015年，由微软研究院提出的ResNet（ResidualNetworks，残差网络）横空出世，它以独特的残差学习思想，成功攻克了这些难题，在ImageNet竞赛中大放异彩，开创了深度神经网
视觉算法之卷积神经网络清风AI 深度学习算法详解及代码复现计算机视觉 cnn 神经网络深度学习 python 课程设计毕业设计
定义与特点卷积神经网络(ConvolutionalNeuralNetwork,CNN)是一种专为处理具有网格结构的数据而设计的深度学习模型。其独特的结构和功能使其在图像处理、语音识别等领域展现出卓越的性能:CNN的核心设计理念源于对生物视觉系统的模仿。通过模拟大脑皮层中视网膜和视觉皮层的层次化结构,CNN能够有效地捕捉图像中的局部特征并逐步抽象为高层语义信息。这种设计使得CNN特别擅长处理图像和音
卷积神经网络架构的演进：从AlexNet到EfficientNet t0_54manong 大数据与人工智能 cnn 架构人工智能个人开发
在过去的8.5年里，深度学习取得了飞速的进步。回溯到2012年，AlexNet在ImageNet上的Top-1准确率仅为63.3%，而如今，借助EfficientNet架构和师生训练法，我们已经能达到超过90%的准确率。本文将聚焦于卷积神经网络（CNN）架构的演变，深入探究其背后的基本原理。一些关键术语在深入了解各种架构之前，我们需要明确几个关键术语。更宽的网络意味着卷积层中有更多的特征图（滤波器
【AI大模型】深入解析预训练：大模型时代的核心引擎我爱一条柴ya 学习AI记录深度学习人工智能 ai python AI编程算法
预训练已成为现代人工智能，尤其是自然语言处理和计算机视觉领域的基石技术。它彻底改变了模型开发范式，催生了BERT、GPT等革命性模型。本文将系统阐述预训练的核心概念、原理、方法、应用及挑战。一、预训练的本质：为何需要它？核心问题：数据标注的瓶颈监督学习依赖海量高质量标注数据，获取成本极高（时间、金钱、专业知识）。对于复杂任务（如理解语义、生成文本），标注难度呈指数级上升。标注数据稀缺导致模型泛化能
广州曼顿2P数字微断：保护电力设备的安全守护者 mdkk678 安全
在现代社会，电力设备的安全运行对各行各业至关重要。然而，电力系统中存在各种电压波动、过载和短路等问题，可能对设备造成损害。为了保护电力设备免受这些问题的影响，广州曼顿推出了2P数字微断器。本文将介绍这一创新产品的特点和优势，以及它对电力设备的保护作用。广州曼顿科技有限公司专注用户侧智慧数字电气产品研制，以及智慧电能服务大数据云平台建设。基于人工智能技术，大幅提升人触电时的生命安全保障，以及电气火灾
Python通关秘籍之基础教程(一） Smile丶Life丶 Python 通关指南：从零基础到高手之路 python 开发语言后端
引言在编程的世界里，Python就像一位温和而强大的导师，它以简洁优雅的语法和强大的功能吸引着无数初学者和专业人士。无论你是想开发网站、分析数据、构建人工智能，还是仅仅想学习编程思维，Python都是你的理想选择。Python的魅力在于它的易读性和广泛的应用场景。它的代码就像英语句子一样自然，即使是完全没有编程经验的人也能快速上手。同时，Python拥有庞大的生态系统，从Web开发（Django、
多模态大模型发展全景：从架构创新到应用突破陈敬雷-充电了么-CEO兼CTO python 大模型多模态大模型 AIGC 机器学习深度学习 DeepSeek
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】《GPT多模态大模型与AIAgent智能体》新出书籍配套视频【陈敬雷】推荐算法系统实战全系列精品课【陈敬雷】文章目录GPT多模态大模型系列四多模态大模型发展全景：从架构创新到应用突破更多技术内容总结GPT多模态大模型系列四多模态大模型
一文搞懂 Cursor 内部工作原理~ zz_jesse
介绍了Cursor，一个结合了AI技术的代码编辑器，它通过深度学习和语义索引的方式，提升了开发者的工作效率。Cursor通过与VSCode相似的界面和功能，以及自己的AI特性，实现了代码的智能化编辑和错误检查。译文从这开始～～你可能已经看到新闻：OpenAI正以高达30亿美元的价格收购Windsurf！与此同时，Cursor的母公司Anysphere也正在以90亿美元估值融资9亿美元！这对于代码生
ollama v0.9.6版本发布详解：修复启动屏幕样式及新增工具名称参数支持福大大架构师每日一题文心一言vschatgpt ollama
作为近年来备受瞩目的开源对话式人工智能框架之一，ollama持续更新优化其产品，致力于为开发者带来更稳定、高效的使用体验。2025年7月8日，ollama发布了v0.9.6版本，这一版本在用户界面和API的可用性方面做出了重要改进，进一步增强了开发和集成的便捷性。本文将对ollamav0.9.6版本的更新内容进行全面解析，详细介绍新特性、修复的具体问题、应用示例及最佳实践，帮助开发者快速掌握和应用
AI人工智能与机器学习的大数据融合应用 AI智能探索者人工智能机器学习大数据 ai
AI人工智能与机器学习的大数据融合应用关键词：AI人工智能、机器学习、大数据、融合应用、数据挖掘摘要：本文深入探讨了AI人工智能与机器学习在大数据融合应用方面的相关内容。首先介绍了研究的背景、目的、预期读者和文档结构，对核心术语进行了清晰定义。接着阐述了AI、机器学习和大数据的核心概念及相互联系，给出了形象的文本示意图和Mermaid流程图。详细讲解了核心算法原理，并通过Python源代码进行说明
深入解读 Qwen3 技术报告（一）：引言小爷毛毛（卓寿杰）大模型AIGC 深度学习基础/原理人工智能自然语言处理 python 语言模型深度学习
重磅推荐专栏：《大模型AIGC》《课程大纲》《知识星球》本专栏致力于探索和讨论当今最前沿的技术趋势和应用领域，包括但不限于ChatGPT和StableDiffusion等。我们将深入研究大型模型的开发和应用，以及与之相关的人工智能生成内容（AIGC）技术。通过深入的技术解析和实践经验分享，旨在帮助读者更好地理解和应用这些领域的最新进展1.引言：迎接大型语言模型的新纪元我们正处在一个由人工智能（AI
目标检测YOLO实战应用案例100讲-基于深度学习的自动驾驶目标检测算法研究（续）林聪木目标检测 YOLO 深度学习
目录基于双蓝图卷积的轻量化自动驾驶目标检测算法5.1引言5.2DarkNet53网络冗余性分析5.3双蓝图卷积网络5.4实验结果及分析基于深度学习的自动驾驶目标检测算法研究与应用传统的目标检测算法目标检测基线算法性能对比与选择相关理论和算法基础2.1引言2.2人工神经网络2.3FCOS目标检测算法2.4复杂交通场景下的目标检测难点与FCOS改进方案基于FCOS的目标检测算法改进3.1引言3.2Re
AI人工智能遇上TensorFlow：技术融合新趋势 AI大模型应用之禅人工智能 tensorflow python ai
AI人工智能遇上TensorFlow：技术融合新趋势关键词：人工智能、TensorFlow、深度学习、神经网络、机器学习、技术融合、AI开发摘要：本文深入探讨了人工智能技术与TensorFlow框架的融合发展趋势。我们将从基础概念出发，详细分析TensorFlow在AI领域的核心优势，包括其架构设计、算法实现和实际应用。文章包含丰富的技术细节，如神经网络原理、TensorFlow核心算法实现、数学
边缘人工智能与医疗AI融合发展路径：技术融合与应用前景（上） Allen_Lyb 数智化医院2025 人工智能健康医疗算法
引言人工智能技术正以前所未有的速度改变着医疗保健领域，从辅助诊断到个性化治疗，AI应用的广度和深度不断拓展。在这一浪潮中，边缘人工智能（EdgeAI）作为一种新兴技术范式，正成为推动医疗AI创新的关键力量。边缘AI区别于传统的云计算模式，它将数据处理和AI模型部署在数据源头附近，实现快速响应和隐私保护。这种特性使其在医疗保健领域具有独特优势，特别是在实时监测、紧急响应和患者隐私保护等方面。边缘AI
OpenCvSharp 实现环形文字识别OCR实例（C#） XisVisual_Basic ocr c#计算机视觉 C#
近年来，随着计算机视觉和图像处理的不断发展，光学字符识别（OCR）技术也变得愈发成熟。OCR技术可以将图像中的文字转换为可编辑和可搜索的文本，为人们带来了极大的便利。在本篇文章中，我们将介绍如何使用OpenCvSharp库来实现环形文字的识别。首先，在使用OpenCvSharp之前，我们需要确保已经在项目中引用了该库，并添加相应的命名空间。usingOpenCvSharp;接下来，我们需要准备一张
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul