物质波波波

基于YOLO的谱面识别与检索【Python环境实现】

文章目录

一.YOLO模型结构学习与介绍
1.模型结构下载
2.模型结构介绍
二．YOLO模型包训练输出结果调试
三．YOLO模型乐谱识图训练过程
1.训练集路径设置

2.修改配置文件

3.数据集标注与导入

4.硬件环境

5.修改train.py并开始训练
四．调用detect函数并编写匹配程序输出结果
1.修改配置参数

2.运行并得到图片输出

3.修改detect.py得到字符化谱面

a.音符的字符化保存

b.自动扫描检索库的乐谱

4.随机乐谱与库进行匹配
五.结果分析
六.算法分析

前言

随着个人微机硬件性能的不断发展，机器学习这门技术也越来越成熟。在图像检测模型中，YOLO是一个相对来说比较成熟的模块。本文重在讲解训练YOLO模型，以及调用YOLO模型的训练成果输出检测结果和库匹配的过程。

项目背景

在现代社会的日常生活中，由于乐器的普及和五线谱的规范化，使用五线谱的人数日益增加，而谱面由于其在艺术上的灵活性：可以修改和旋，升降调，即兴创作等，即使是同一首乐曲，可能经过多次创作以后，谱面的区别是非常明显的。传统的图像识别存在一定的困难。

设计方案

由于实现乐谱的匹配，首先在于图像的检索。即要识别谱面上音符的坐标，并返回音符的坐标，再对输入的乐谱和检索库乐谱集的音符坐标按照某种算法进行匹配。故本文按这一思路进行分析讲解。

#本文重在记录和展示课题设计的过程，有不足之处欢迎指出，算法上有待进一步的改进。

一．YOLO模型结构学习与介绍

1.模型结构下载

YOLOv5的代码是开源的，因此我们可以从github上克隆其源码。yolov1-v3版本都是由原作者本人维护代码和更新，后续版本由他人制作。yolov5发布才一年左右的时间，YOLOv5就已经更新了5个分支了，分别是yolov5.1-yolov5.5分支。本小组实验项目就是利用的yolov5.0分支来作为模型。

首先打开yolov5的github的官网,网址https://github.com/ultralytics/yolov5/tree/v5.0打开的官网界面如下，这个就是大神glenn-jocher开源的yolov5的项目。可以提供完整的项目文件夹下载：

2.模型结构介绍

yolov5-master

├── data：主要是存放一些超参数的配置文件（yaml文件）这些文件是用来配置训练集和测试集还有验证集的路径的，其中还包括目标检测的种类数和种类的名称）；还有一些官方提供测试的图片。如果是训练自己的数据集的话，那么就需要修改其中的yaml文件。但是自己的数据集不放在这个路径下面，而是把数据集放到yolov5项目的同级目录下面，以保护原数据。

├── models：里面主要是一些网络构建的配置文件和函数，其中包含了该项目的四个不同的版本，分别为是s、m、l、x。从名字就可以看出，这几个版本的大小。他们的检测测度分别都是从快到慢，但是精确度分别是从低到高。这就是所谓的鱼和熊掌不可兼得。如果训练自己的数据集的话，就需要修改这里面相对应的yaml文件来训练自己模型。

├── utils：存放的是工具类的函数，里面有loss函数，metrics函数，plots函数等等。

├── weights：放置训练好的权重参数。

├── detect.py：利用训练好的权重参数进行目标检测，可以进行图像、摄像头的检测。

├── train.py：训练自己的数据集的函数。

├── test.py：测试训练的结果的函数。

├──requirements.txt：这是一个文本文件，里面写着使用yolov5项目的环境依赖包的一些版本，可以利用它导入相应版本的包。

二．YOLO模型包训练输出结果调试

YOLO下载完成后，原完成训练的模型可以直接输出，配置pt文件网址如下：

https://github.com/ultralytics/yolov5/releases

配置完成后运行detect.py函数，输出结果如下所示，为运行成功。

在根目录的\runs\detect\exp t（t为运行输出次数）目录下，保存输出结果

根据终端输出的文件路径，找到运行结果如下：

三．YOLO模型乐谱识图训练过程

1.训练集路径设置

为了不影响根目录下的文件选择单独建立一个文件夹，为其命名为node，当然改为其他名称也可以。但是其下的文件夹必须按照这样的结构来命名：其中images文件夹保存训练和输出的照片，分别对应文件夹train和test，而labels文件夹保存训练和输出的标注文件（YOLO只支持.txt文件格式的标注集）

而node_model.pt和node_model.yaml以及node_parameter.yaml都是训练数据集用的配置文件和pytorch模型文件。其来源为原YOLO模型的训练文件，只有node部分可以替换成任意名称，否则可能出现寻址失败，找不到文件等错误。

2.修改配置文件

a.将yolov5/data/coco128.yaml复制，粘贴至node目录下，改名为node_parameter.yaml，需要修改的参数是nc与names。nc是标签名个数，names就是标签的名字

且因为对乐谱而言，谱线和小节线都是标准的直线，可以使用霍夫直线检测来得到坐标，不需要训练。所以在此不标注。

其中path是在根目录绝对路径

train是在node文件夹下的相对路径

val是验证集，可以使用同一个路径

test可不填

而由于本文不深入讨论YOLO模型的结构和更深层次应用，故在此不讨论验证集的区别，详见如何正确使用机器学习中的训练集、验证集和测试集？_nkwshuyi的博客-CSDN博客

b.在yolov5/models/yolov5s.yaml（或yolo5x.yaml，yolo5l.yaml）复制，粘贴至node目录下，更名为node_model.yaml，只将如下的nc修改为训练集种类即可。由于在乐谱识别的例子中有不定量的标签，故设置音符数量的最大值如下：

一般为了缩短网络的训练时间，并达到更好的精度，我们一般加载预训练权重进行网络的训练。而yolov5的5.0版本给我们提供了几个预训练权重，我们可以对应我们不同的需求选择不同的版本的预训练权重。通过如下的图可以获得权重的名字和大小信息，可以预料的到，预训练权重越大，训练出来的精度就会相对来说越高，但是其检测的速度就会越慢。预训练权重可以通过这个网址进行下载：

https://github.com/ultralytics/yolov5/releases

yolov5有4种配置，不同配置的特性如下，我这里选择yolov5x，效果较好，但是训练时间长，也比较吃显存

3.数据集标注与导入

训练集可以采用公开数据集：DeepScores

网址为 https://tuggeluk.github.io/deepscores/，其中包括各种乐谱符号的标注json文件

数据集下载网址如下所示，其中包括完整版和精简版两种下载包。一般选择精简版就可以获得比较好的训练效果。

DeepScoresV2 | ZenodoThe DeepScoresV2 Dataset for Music Object Detection contains digitally rendered images of written sheet music, together with the corresponding ground truth to fit various types of machine learning models. A total of 151 Million different instances of music symbols, belonging to 135 different classes are annotated. The total Dataset contains 255,385 Images. For most researches, the dense version, containing 1714 of the most diverse and interesting images, is a good starting point. The dataset contains ground in the form of: Non-oriented bounding boxes Oriented bounding boxes Semantic segmentation Instance segmentation The accompaning paper The DeepScoresV2 Dataset and Benchmark for Music Object Detection published at ICPR2020 can be found here: https://digitalcollection.zhaw.ch/handle/11475/20647 A toolkit for convenient loading and inspection of the data can be found here: https://github.com/yvan674/obb_anns Code to train baseline models can be found here: https://github.com/tuggeluk/mmdetection/tree/DSV2_Baseline_FasterRCNN https://github.com/tuggeluk/DeepWatershedDetection/tree/dwd_old https://zenodo.org/record/4012193

若只标注音符的位置，则需要利用数据集自己标注TXT文件：

一般100张左右单行谱面的图片训练可以达到比较好的效果，这是YOLO的识别原理和图像分割相关导致的。而DeepScores数据集都是完整的谱面，这里就涉及到批量裁剪图片：这里直接给出批量裁剪的python源程序：

from PIL import Image
import os
import os.path
import numpy as np
import cv2

# 指明被遍历的文件夹
rootdir = r'C:/Users/16934/Desktop/images'
for parent, dirnames, filenames in os.walk(rootdir):  # 遍历每一张图片
    filenames.sort()
    for filename in filenames:
        # print('parent is :' + parent)#parent is :/home/mmediting/data/4K/valid/gt/000
        # print('filename is :' + filename)#filename is :00000084.png
        currentPath = os.path.join(parent, filename)
        print(
            'the fulll name of the file is :' + currentPath)  # the fulll name of the file is :/home/mmediting/data/4K/valid/gt/000/00000084.png

        img = Image.open(currentPath)
        # print (img.format, img.size, img.mode)#PNG (3840, 2160) RGB

        # 设置左、上、右、下的像素
        # gt
        # box1 = (0, 0, 1920, 1080)
        # box2 = (0, 1080, 1920, 2160)
        # box3 = (1920, 0, 3840, 1080)
        # box4 = (1920, 1080, 3840, 2160)
        # lr
        box1 = (0, 0, 960, 270)
        box2 = (0, 270, 960, 540)
        box3 = (120, 0, 1920, 270)
        box4 = (120, 270, 1920, 540)

        image1 = img.crop(box4)  # 图像裁剪
        ##存储裁剪得到的图像
        image1.save(r"C:/Users/16934/Desktop/train-ready" + '/' + filename)

人工标注：对于小数据量的训练，可以采用人工标注，使用labelme标注数据集。安装和使用的步骤详见

Labelme安装及使用教程_Marlowee的博客-CSDN博客_labelme安装

•半自动标注：可以使用半自动标注工具： PaddleOCR: 基于飞桨的OCR工具库，包含总模型仅8.6M的超轻量级中文OCR，单模型支持中英文数字组合识别、竖排文本识别、长文本识别。同时支持多种文本检测、文本识别的训练算法。

4.硬件环境

DELL G3 已升级到32G内存，2T机械硬盘，机带16G显存。在训练的时候内存占用率达到60%，16G的内存也可以胜任。

5.修改train.py并开始训练

在train.py中找到

def parse_opt(known=False):

训练模型文件，数据集参数文件

修改对应路径即可

 parser.add_argument('--weights', type=str, default='yolov5x.pt', help='initial weights path')
    parser.add_argument('--cfg', type=str, default=ROOT/'node/node_model.yaml', help='model.yaml path')
    parser.add_argument('--data', type=str, default=ROOT / 'node/node_parameter.yaml', help='dataset.yaml path')
    parser.add_argument('--hyp', type=str, default=ROOT / 'data/hyps/hyp.scratch-low.yaml', help='hyperparameters path')

训练轮数，决定了训练时间与训练效果。如果选择训练模型是yolov5x.yaml，那么大约200轮数值就稳定下来了（收敛）笔者设置了300轮训练。

parser.add_argument('--epochs', type=int, default=300, help='total training epochs')

device驱动 代表GPU加速，填0是电脑默认的CUDA，前提是电脑已经安装了CUDA才能GPU加速训练

    parser.add_argument('--device', default='', help='cuda device, i.e. 0 or 0,1,2,3 or cpu')

之后运行train.py即可开始训练：

如上即为训练正常。

在训练结束后，在根目录下的runs\train\exp t \weights内可以找到训练结果：

（t为训练轮数，训练结果会新建一个exp文件夹，笔者展示的结果是在\runs\train\exp16\weights）

其中best为最好的一次训练，last为最后一次训练的模型文件。

四．调用detect函数输出结果

1.修改配置参数

如上修改参数：

weights填刚刚训练好的权重文件路径，笔者使用的是best.pt

source待检测的文件，可以是图片、视频、摄像头。填0时为打开电脑默认摄像头

data为配置文件路径

conf-thres置信度，当检测出来的置信度大于该数值时才能显示出被检测到

2.运行并得到图片输出

在根目录的\runs\detect\exp t（t为运行输出次数）目录下，保存输出结果：

可以看到，训练结果不错。对YOLO的调试到此。接下来要修改detect.py，使他能够输出每个音符的坐标：

3.修改detect.py得到字符化谱面

由于检索的库有非常多的谱面数据，所以应该修改detect.py，使得其能循环检测某路径下的所有图片文件，并将扫描返回的坐标保存在与图片一一对应的TXT文件中

a.音符的字符化保存

在def run函数下的for *xyxy, conf, cls in reversed(det):循环下：

将if save_crop:

save_one_box两行注释，并补上如下代码，可以输出音符的y坐标：

由于YOLO模型以左上角为原点，向左为x轴，向下为y轴。故所有坐标都是正数，而y1，y2都是识别框的坐标，故利用长度平均：

$y=\frac{1}{2}(y1+y2)$

可以得到一个音符的纵坐标

                        x1 = int(xyxy[0].item())
                        y1 = int(xyxy[1].item())
                        x2 = int(xyxy[2].item())
                        y2 = int(xyxy[3].item())
                        class_index = cls  # 获取属性
                        object_name = names[int(cls)]
                        y=0.5*(y1+y2)
                        print('bounding box is', y)

但是得到的坐标值存在一定的误差，如果直接拿坐标进行匹配，在匹配时难以得到准确的匹配值。而两个音符点间最小的间隔是一个整音（由于笔者的训练模型未标记升降音符号，故最小间隔是一个整音。故可知音符在谱面上的位置是离散的，故可以通过一些对应规则将音符差转化为对应的字符存储（也行还有其他更好的匹配算法，详见后续算法分析）

对YOLO而言，相邻坐标相差1，在图像上仅相差一个像素点，故可以考虑以50像素点为区间，将差值转化为字符，代码如上：这是一种简单直接的分割方法。但是很明显不够精准。（精准的方法是利用opencv的霍夫直线检测返回的行间距作为基准，详见后续算法分析。）再循环内补上输出打印字符的函数open()，要注意的是：每次循环只能确定一个y值，所以open()函数的参数'a'不可以省略，否则后续字符只会覆盖前一次循环的字符。再运行detect.py，此时可以获得一个乐谱转化的TXT文件。

b.自动扫描检索库的乐谱

如前述，这里涉及到对检索库的所有乐谱进行字符化保存。将detect.py复制一份，重命名为node-scan.py。这是为了方便后续对单独的输入谱进行分析：detect.py用于扫描检索库，修改固定的路径为含变量路径，node-scan.py用于扫描输入文件。

但是一般检索库的文件名称没有规律。这就涉及到对文件批量改名的程序段：直接给出代码如下

import os
#设定文件路径
path='C:\\Users\\16934\\Desktop\\jpgs'
i=1
#对目录下的文件进行遍历
for file in os.listdir(path):
#判断是否是文件
    if os.path.isfile(os.path.join(path,file))==True:
#设置新文件名
        new_name=file.replace(file,"%d.png"%i)
#重命名
        os.rename(os.path.join(path,file),os.path.join(path,new_name))
        i+=1
#结束
print ("End")

转化结果如下：此时所有库中乐谱都是顺序命名的，只要修改detect.py中的两个路径，嵌入参数即可实现循环检测：应注意的是：修改路径名称的循环应该在整个detect.py的外层，这是由于一次扫描要整个程序才可以完成，不可以从中间拆断。(由于修改位置过于零散，故这里不粘贴代码，详见评论区下载地址)

运行修改后的detect程序，可以看到检索库中所有的乐谱都已经字符化了。

4.随机乐谱与库进行匹配

总的来说，不分小节的字符串匹配可以直接使用类似模式匹配的方法实现：即输入的随机乐谱可能不全，即只是某个库中乐谱的一部分。由于时间关系，笔者直接使用difflib库的文本相似度匹配SequenceMatcher类：库的详细介绍参考下述链接：

文本相似度-python之difflib库SequenceMatcher类_minosisterry的博客-CSDN博客

利用库函数，将匹配部分最长的乐谱名称从数组中筛选出来：由于之前命名是按顺序命名，故直接打印循环计数器的数值，即为乐谱名。代码如下：

count_search=1
p=1
with open("nodetxt/node.txt", "r") as f:  # 打开文件
    data1 = f.read()  # 读取文件
res={}
for count_search in range(1,152):
    path = "run/test" + str(count_search) + ".txt"
    with open(path, "r") as f:  # 打开文件
        data2 = f.read()  # 读取文件
    s = difflib.SequenceMatcher(None, data1, data2)
    m=s.find_longest_match(1, None, 1, None)

    count_search+=1
    p+=1
    print(m)
    print(count_search)
    res[count_search]=m#将每次循环的数据写入
res=sorted(res.items(),key=lambda item:item[1].size,reverse=True)
for i in range(10):
    print(res[i])

五.结果分析

笔者选择的最直接的将音符转化为字符串模式匹配的运行效果可以大概检测乐谱，若搜索原图，可以搜索出准确的结果：如下所示：

size=319的即为匹配结果

检索结果如下图所示：

分析可知：当输入的随机谱面越大，音符越多，第一长的匹配块会比后续的大很多很多，故识别是非常准确的。

但是如果图片被裁剪，效果并不太好，因为库中某文件的音1234可能和输入文件的2345非常相似。从而导致识别率低。

六.算法分析

精准的方法是利用opencv的霍夫直线检测返回的行间距作为基准，用相邻音符纵坐标差值除以五线谱行间距，从而得到准确的音符位置。

即设行间距为 $\Delta y$

则可以用 $a=\frac{\frac{1}{2}(y1+y2)}{\Delta y}$ 确定音符的对应字符：

霍夫直线检测代码实现如下：关于其原理，不在本文的讨论范围之内。且由于直线检测的准确度高，故没有必要用深度学习进行标注训练。而笔者由于时间关系暂时没有实现霍夫直线检测部分和主函数的拼接。

import cv2
import numpy as np

img = cv2.imread('node/datasets/images/test/node.png')
img1 = img.copy()
img2 = img.copy()
img = cv2.GaussianBlur(img, (3, 3), 0)
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
edges = cv2.Canny(gray, 50, 150, apertureSize=3)
lines = cv2.HoughLines(edges, 1, np.pi / 180, 110)

for line in lines:
    rho = line[0][0]
    theta = line[0][1]
    a = np.cos(theta)
    b = np.sin(theta)
    x0 = a * rho
    y0 = b * rho
    x1 = int(x0 + 1000 * (-b))
    y1 = int(y0 + 1000 * (a))
    x2 = int(x0 - 1000 * (-b))
    y2 = int(y0 - 1000 * (a))

    cv2.line(img1, (x1, y1), (x2, y2), (0, 0, 255), 2)

lines = cv2.HoughLinesP(edges, 1, np.pi / 180, 30, 500, 30)

for line in lines:
    x1 = line[0][0]
    y1 = line[0][1]
    x2 = line[0][2]
    y2 = line[0][3]
    cv2.line(img2, (x1, y1), (x2, y2), (0, 255, 0), 2)

cv2.imshow('houghlines3', img1)
cv2.imshow('edges', img2)
cv2.waitKey(0)
print(lines)

yline0=line[0][0]

更准确的方法也有待讨论：欢迎在评论区留下您的看法。程序的核心在于算法的构思，而不在于语言和语法。有思想碰撞才能集思广益，创造出新的数学化模型，新的匹配算法。

你可能感兴趣的:(yolo,python,开发语言,深度学习,目标检测,人工智能)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
【目标检测】机场内部目标检测数据集4106张YOLO+VOC格式
数据集格式：VOC格式+YOLO格式压缩包内含：3个文件夹，分别存储图片、xml、txt文件JPEGImages文件夹中jpg图片总计：4106Annotations文件夹中xml文件总计：4106labels文件夹中txt文件总计：4106标签种类数：7标签名称:["Ground_vehicles","Horizontal_sign","Runaway_limit","Taxiway","Ver
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">

基于YOLO的谱面识别与检索【Python环境实现】

文章目录

一.YOLO模型结构学习与介绍

1.模型结构下载

2.模型结构介绍

二．YOLO模型包训练输出结果调试

三．YOLO模型乐谱识图训练过程

1.训练集路径设置

2.修改配置文件

3.数据集标注与导入

4.硬件环境

5.修改train.py并开始训练

四．调用detect函数并编写匹配程序输出结果

1.修改配置参数

2.运行并得到图片输出

3.修改detect.py得到字符化谱面

4.随机乐谱与库进行匹配

五.结果分析

六.算法分析

前言

项目背景

设计方案

一．YOLO模型结构学习与介绍

1.模型结构下载

2.模型结构介绍

二．YOLO模型包训练输出结果调试

三．YOLO模型乐谱识图训练过程

1.训练集路径设置

2.修改配置文件

3.数据集标注与导入

4.硬件环境

5.修改train.py并开始训练

之后运行train.py即可开始训练：

在训练结束后，在根目录下的runs\train\exp t \weights内可以找到训练结果：

四．调用detect函数输出结果

1.修改配置参数

2.运行并得到图片输出

3.修改detect.py得到字符化谱面

a.音符的字符化保存

b.自动扫描检索库的乐谱

4.随机乐谱与库进行匹配

五.结果分析

六.算法分析

你可能感兴趣的:(yolo,python,开发语言,深度学习,目标检测,人工智能)