ID茉莉

VOC格式xml标签与YOLO格式txt标签相互转换

1、VOC标签格式说明

VOC数据格式，会直接把每张图片标注的标签信息保存到一个xml文件中。

例如我在做仓储托盘检测的时候，需要对图片中的托盘进行标注，标注的标签信息会保存到一个跟图片对应的xml文件中（每张图片与每个xml文件一一对应），xml中的信息如下：


	Images
	1.jpg
	/home/wangmj/pallet_data/Images/1.jpg
	
		Unknown
	
	
		1920
		1080
		3
	
	0

xml文件中的关键信息说明：

    1.jpg，这是图片名称，则xml文件名为1.xml；
    /home/wangmj/pallet_data/Images/1.jpg，这是存放该图片的绝对路径；
    1920 * 1080，这是图片分辨率，3代表三通道图片；
    forklift_pallet，这是类别名；
    xmin，ymin，xmax，ymax，定义了每个目标的标定框坐标：即左上角的坐标和右下角的坐标；

2、YOLO标签格式说明

YOLO标签格式，会直接把每张图片标注的标签信息保存到一个txt文件中。

我的图片名称为1.jpg，则对应的txt文件名称为1.txt。

同样例如我在做仓储托盘检测的时候，需要对图片中的托盘进行标注，标注的标签信息会保存到一个跟图片对应的txt文件中，txt中的信息如下：

0 0.433594 0.562037 0.409896 0.092593

txt文件中的关键信息说明：

    每一行代表标注的一个目标，我这张图中只标注了一个目标，所以只有一行；
    第一个数字0代表标注目标的类别；
    后面四个数字代表标注框的中心坐标和标注框的相对宽和高（进行了归一化处理）；
    五个数据从左到右依次为：class x_center y_center width height

同时还会生成一个classes.txt，里面内容如下：

forklift_pallet

注意这个是分类的类型，需要在后面的yolo转voc_xml时根据自己的类型种类进行更改

3、voc格式转化为yolo格式

标注好的voc格式的标签xml文件，主要信息为：

    1.jpg，这是图片名称；
    /home/wangmj/pallet_data/Images/1.jpg，这是存放该图片的绝对路径；
    1920 * 1080，这是图片分辨率，3代表三通道图片；
    forklift_pallet，这是类别名；
    xmin，ymin，xmax，ymax，定义了每个目标的标定框坐标：即左上角的坐标和右下角的坐标；

原图大小为1920 * 1080
紫色框代表标注物体的框，紫色框的左上角的坐标为（xmin，ymin）=（372，518），右下角的坐标为（xmax，ymax）=（1344，674）

voc_to_yolo.py的目的就是把voc数据格式转换为yolo格式：

voc格式标签：图片的实际宽高，标注框的左上角和右下角坐标；
yolo格式标签：标注框的中心坐标（归一化），标注框的宽和高（归一化）。

voc格式转换为yolo格式计算公式：

框中心的实际坐标（x，y），一般可能还会在后面减1

归一化以后的中心坐标（x，y）

框的高和宽（归一化后）

voc格式的xml标签文件转化yolo格式的txt标签文件代码：voc_to_yolo.py

import xml.etree.ElementTree as ET
import pickle
import os
from os import listdir, getcwd
from os.path import join
 
def convert(size, box):
    # size=(width, height)  b=(xmin, xmax, ymin, ymax)
    # x_center = (xmax+xmin)/2        y_center = (ymax+ymin)/2
    # x = x_center / width            y = y_center / height
    # w = (xmax-xmin) / width         h = (ymax-ymin) / height
    
    x_center = (box[0]+box[1])/2.0
    y_center = (box[2]+box[3])/2.0
    x = x_center / size[0]
    y = y_center / size[1]
 
    w = (box[1] - box[0]) / size[0]
    h = (box[3] - box[2]) / size[1]
 
    # print(x, y, w, h)
    return (x,y,w,h)
 
def convert_annotation(xml_files_path, save_txt_files_path, classes):  
    xml_files = os.listdir(xml_files_path)
    # print(xml_files)
    for xml_name in xml_files:
        # print(xml_name)
        xml_file = os.path.join(xml_files_path, xml_name)
        out_txt_path = os.path.join(save_txt_files_path, xml_name.split('.')[0] + '.txt')
        out_txt_f = open(out_txt_path, 'w')
        tree=ET.parse(xml_file)
        root = tree.getroot()
        size = root.find('size')
        w = int(size.find('width').text)
        h = int(size.find('height').text)
 
        for obj in root.iter('object'):
            difficult = obj.find('difficult').text
            cls = obj.find('name').text
            if cls not in classes or int(difficult) == 1:
                continue
            cls_id = classes.index(cls)
            xmlbox = obj.find('bndbox')
            b = (float(xmlbox.find('xmin').text), float(xmlbox.find('xmax').text), float(xmlbox.find('ymin').text), float(xmlbox.find('ymax').text))
            # b=(xmin, xmax, ymin, ymax)
            # print(w, h, b)
            bb = convert((w,h), b)
            out_txt_f.write(str(cls_id) + " " + " ".join([str(a) for a in bb]) + '\n')
 
 
if __name__ == "__main__":
    # 把forklift_pallet的voc的xml标签文件转化为yolo的txt标签文件
    # 1、需要转化的类别
    classes = ['forklift_pallet']#注意：这里根据自己的类别名称及种类自行更改
    # 2、voc格式的xml标签文件路径
    xml_files1 = r'/home/wangmj/pallet_data/Annotations'
    # 3、转化为yolo格式的txt标签文件存储路径
    save_txt_files1 = r'/home/wangmj/pallet_data/test'
 
    convert_annotation(xml_files1, save_txt_files1, classes)

4、yolo格式转化为voc格式

voc格式中保存的信息为：xmin，ymin，xmax，ymax，所以只要根据上面的公式，就可以推导出这四个值。

yolo格式的txt标签文件转化voc格式的xml标签文件代码：yolo_to_voc.py

import os
import xml.etree.ElementTree as ET
from xml.dom.minidom import Document
import cv2
 
'''
import xml
xml.dom.minidom.Document().writexml()
def writexml(self,
             writer: Any,
             indent: str = "",
             addindent: str = "",
             newl: str = "",
             encoding: Any = None) -> None
'''
 
class YOLO2VOCConvert:
    def __init__(self, txts_path, xmls_path, imgs_path):
        self.txts_path = txts_path   # 标注的yolo格式标签文件路径
        self.xmls_path = xmls_path   # 转化为voc格式标签之后保存路径
        self.imgs_path = imgs_path   # 读取读片的路径各图片名字，存储到xml标签文件中
        '''#注意：这里根据自己的类别名称及种类自行更改'''
        self.classes = ['forklift_pallet']#注意：这里根据自己的类别名称及种类自行更改
 
    # 从所有的txt文件中提取出所有的类别， yolo格式的标签格式类别为数字 0,1,...
    # writer为True时，把提取的类别保存到'./Annotations/classes.txt'文件中
    def search_all_classes(self, writer=False):
        # 读取每一个txt标签文件，取出每个目标的标注信息
        all_names = set()
        txts = os.listdir(self.txts_path)
        # 使用列表生成式过滤出只有后缀名为txt的标签文件
        txts = [txt for txt in txts if txt.split('.')[-1] == 'txt']
        print(len(txts), txts)
        # 11 ['0002030.txt', '0002031.txt', ... '0002039.txt', '0002040.txt']
        for txt in txts:
            txt_file = os.path.join(self.txts_path, txt)
            with open(txt_file, 'r') as f:
                objects = f.readlines()
                for object in objects:
                    object = object.strip().split(' ')
                    print(object)  # ['2', '0.506667', '0.553333', '0.490667', '0.658667']
                    all_names.add(int(object[0]))
            # print(objects)  # ['2 0.506667 0.553333 0.490667 0.658667\n', '0 0.496000 0.285333 0.133333 0.096000\n', '8 0.501333 0.412000 0.074667 0.237333\n']
 
        print("所有的类别标签：", all_names, "共标注数据集：%d张" % len(txts))
 
        return list(all_names)
 
    def yolo2voc(self):
        # 创建一个保存xml标签文件的文件夹
        if not os.path.exists(self.xmls_path):
            os.mkdir(self.xmls_path)
 
        # 把上面的两个循环改写成为一个循环：
        imgs = os.listdir(self.imgs_path)
        txts = os.listdir(self.txts_path)
        txts = [txt for txt in txts if not txt.split('.')[0] == "classes"]  # 过滤掉classes.txt文件
        print(txts)
        # 注意，这里保持图片的数量和标签txt文件数量相等，且要保证名字是一一对应的   (后面改进，通过判断txt文件名是否在imgs中即可)
        if len(imgs) == len(txts):   # 注意：./Annotation_txt 不要把classes.txt文件放进去
            map_imgs_txts = [(img, txt) for img, txt in zip(imgs, txts)]
            txts = [txt for txt in txts if txt.split('.')[-1] == 'txt']
            print(len(txts), txts)
            for img_name, txt_name in map_imgs_txts:
                # 读取图片的尺度信息
                print("读取图片：", img_name)
                img = cv2.imread(os.path.join(self.imgs_path, img_name))
                height_img, width_img, depth_img = img.shape
                print(height_img, width_img, depth_img)   # h 就是多少行（对应图片的高度）， w就是多少列（对应图片的宽度）
 
                # 获取标注文件txt中的标注信息
                all_objects = []
                txt_file = os.path.join(self.txts_path, txt_name)
                with open(txt_file, 'r') as f:
                    objects = f.readlines()
                    for object in objects:
                        object = object.strip().split(' ')
                        all_objects.append(object)
                        print(object)  # ['2', '0.506667', '0.553333', '0.490667', '0.658667']
 
                # 创建xml标签文件中的标签
                xmlBuilder = Document()
                # 创建annotation标签，也是根标签
                annotation = xmlBuilder.createElement("annotation")
 
                # 给标签annotation添加一个子标签
                xmlBuilder.appendChild(annotation)
 
                # 创建子标签folder
                folder = xmlBuilder.createElement("folder")
                # 给子标签folder中存入内容，folder标签中的内容是存放图片的文件夹，例如：JPEGImages
                folderContent = xmlBuilder.createTextNode(self.imgs_path.split('/')[-1])  # 标签内存
                folder.appendChild(folderContent)  # 把内容存入标签
                annotation.appendChild(folder)   # 把存好内容的folder标签放到 annotation根标签下
 
                # 创建子标签filename
                filename = xmlBuilder.createElement("filename")
                # 给子标签filename中存入内容，filename标签中的内容是图片的名字，例如：000250.jpg
                filenameContent = xmlBuilder.createTextNode(txt_name.split('.')[0] + '.jpg')  # 标签内容
                filename.appendChild(filenameContent)
                annotation.appendChild(filename)
 
                # 把图片的shape存入xml标签中
                size = xmlBuilder.createElement("size")
                # 给size标签创建子标签width
                width = xmlBuilder.createElement("width")  # size子标签width
                widthContent = xmlBuilder.createTextNode(str(width_img))
                width.appendChild(widthContent)
                size.appendChild(width)   # 把width添加为size的子标签
                # 给size标签创建子标签height
                height = xmlBuilder.createElement("height")  # size子标签height
                heightContent = xmlBuilder.createTextNode(str(height_img))  # xml标签中存入的内容都是字符串
                height.appendChild(heightContent)
                size.appendChild(height)  # 把width添加为size的子标签
                # 给size标签创建子标签depth
                depth = xmlBuilder.createElement("depth")  # size子标签width
                depthContent = xmlBuilder.createTextNode(str(depth_img))
                depth.appendChild(depthContent)
                size.appendChild(depth)  # 把width添加为size的子标签
                annotation.appendChild(size)   # 把size添加为annotation的子标签
 
                # 每一个object中存储的都是['2', '0.506667', '0.553333', '0.490667', '0.658667']一个标注目标
                for object_info in all_objects:
                    # 开始创建标注目标的label信息的标签
                    object = xmlBuilder.createElement("object")  # 创建object标签
                    # 创建label类别标签
                    # 创建name标签
                    imgName = xmlBuilder.createElement("name")  # 创建name标签
                    imgNameContent = xmlBuilder.createTextNode(self.classes[int(object_info[0])])
                    imgName.appendChild(imgNameContent)
                    object.appendChild(imgName)  # 把name添加为object的子标签
 
                    # 创建pose标签
                    pose = xmlBuilder.createElement("pose")
                    poseContent = xmlBuilder.createTextNode("Unspecified")
                    pose.appendChild(poseContent)
                    object.appendChild(pose)  # 把pose添加为object的标签
 
                    # 创建truncated标签
                    truncated = xmlBuilder.createElement("truncated")
                    truncatedContent = xmlBuilder.createTextNode("0")
                    truncated.appendChild(truncatedContent)
                    object.appendChild(truncated)
 
                    # 创建difficult标签
                    difficult = xmlBuilder.createElement("difficult")
                    difficultContent = xmlBuilder.createTextNode("0")
                    difficult.appendChild(difficultContent)
                    object.appendChild(difficult)
 
                    # 先转换一下坐标
                    # (objx_center, objy_center, obj_width, obj_height)->(xmin，ymin, xmax,ymax)
                    x_center = float(object_info[1])*width_img + 1
                    y_center = float(object_info[2])*height_img + 1
                    xminVal = int(x_center - 0.5*float(object_info[3])*width_img)   # object_info列表中的元素都是字符串类型
                    yminVal = int(y_center - 0.5*float(object_info[4])*height_img)
                    xmaxVal = int(x_center + 0.5*float(object_info[3])*width_img)
                    ymaxVal = int(y_center + 0.5*float(object_info[4])*height_img)
 
                    # 创建bndbox标签(三级标签)
                    bndbox = xmlBuilder.createElement("bndbox")
                    # 在bndbox标签下再创建四个子标签(xmin，ymin, xmax,ymax) 即标注物体的坐标和宽高信息
                    # 在voc格式中，标注信息：左上角坐标（xmin, ymin） （xmax, ymax）右下角坐标
                    # 1、创建xmin标签
                    xmin = xmlBuilder.createElement("xmin")  # 创建xmin标签（四级标签）
                    xminContent = xmlBuilder.createTextNode(str(xminVal))
                    xmin.appendChild(xminContent)
                    bndbox.appendChild(xmin)
                    # 2、创建ymin标签
                    ymin = xmlBuilder.createElement("ymin")  # 创建ymin标签（四级标签）
                    yminContent = xmlBuilder.createTextNode(str(yminVal))
                    ymin.appendChild(yminContent)
                    bndbox.appendChild(ymin)
                    # 3、创建xmax标签
                    xmax = xmlBuilder.createElement("xmax")  # 创建xmax标签（四级标签）
                    xmaxContent = xmlBuilder.createTextNode(str(xmaxVal))
                    xmax.appendChild(xmaxContent)
                    bndbox.appendChild(xmax)
                    # 4、创建ymax标签
                    ymax = xmlBuilder.createElement("ymax")  # 创建ymax标签（四级标签）
                    ymaxContent = xmlBuilder.createTextNode(str(ymaxVal))
                    ymax.appendChild(ymaxContent)
                    bndbox.appendChild(ymax)
 
                    object.appendChild(bndbox)
                    annotation.appendChild(object)  # 把object添加为annotation的子标签
                f = open(os.path.join(self.xmls_path, txt_name.split('.')[0]+'.xml'), 'w')
                xmlBuilder.writexml(f, indent='\t', newl='\n', addindent='\t', encoding='utf-8')
                f.close()
 
if __name__ == '__main__':
    # 把yolo的txt标签文件转化为voc格式的xml标签文件
    # yolo格式txt标签文件相对路径
    txts_path1 = './test_txt'
    # 转化为voc格式xml标签文件存储的相对路径
    xmls_path1 = './test_xml'
    # 存放图片的相对路径
    imgs_path1 = './Images'
 
    yolo2voc_obj1 = YOLO2VOCConvert(txts_path1, xmls_path1, imgs_path1)
    labels = yolo2voc_obj1.search_all_classes()
    print('labels: ', labels)
    yolo2voc_obj1.yolo2voc()

Python | Pytorch | Tensor知识点总结漂亮_大男孩 Python拾遗 python pytorch 深度学习人工智能
如是我闻：Tensor是我们接触Pytorch了解到的第一个概念，这里是一个关于PyTorchTensor主题的知识点总结，涵盖了Tensor的基本概念、创建方式、运算操作、梯度计算和GPU加速等内容。1.Tensor基本概念Tensor是PyTorch的核心数据结构，类似于NumPy的ndarray，但支持GPU加速和自动求导。PyTorch的Tensor具有动态计算图，可用于深度学习模型的前向
PyTorch 中结合迁移学习和强化学习的完整实现方案小赖同学啊人工智能 pytorch 迁移学习人工智能
结合迁移学习（TransferLearning）和强化学习（ReinforcementLearning,RL）是解决复杂任务的有效方法。迁移学习可以利用预训练模型的知识加速训练，而强化学习则通过与环境的交互优化策略。以下是如何在PyTorch中结合迁移学习和强化学习的完整实现方案。1.场景描述假设我们有一个任务：训练一个机器人手臂抓取物体。我们可以利用迁移学习从一个预训练的视觉模型（如ResNet
pytorch 模型测试小赖同学啊人工智能 pytorch 人工智能 python
在使用PyTorch进行模型测试时，一般包含加载测试数据、加载训练好的模型、进行推理以及评估模型性能等步骤。以下为你详细介绍每个步骤及对应的代码示例。1.导入必要的库importtorchimporttorch.nnasnnimporttorchvisionimporttorchvision.transformsastransforms2.加载测试数据假设我们使用的是CIFAR-10数据集作为示例
Python 学习与开发：高效编程技巧与实用案例壹屋安源知识分享 python 学习开发语言
Python学习与开发：高效编程技巧与实用案例Python是现代编程语言中最受欢迎的一种，它以简洁、易读的语法和强大的功能广泛应用于数据分析、人工智能、Web开发等多个领域。无论你是Python新手还是有经验的开发者，掌握一些高效编程技巧和实用案例，能让你的Python开发之旅更加顺畅。1.高效的函数式编程使用列表推导式列表推导式是Python中非常常用的功能，它不仅可以让代码更加简洁，还能提高执
Pytorch实现之基于相对平均生成对抗网络的人脸图像超分辨率这张生成的图像能检测吗优质GAN模型训练自己的数据集生成对抗网络人工智能神经网络计算机视觉深度学习 python pytorch
简介简介：改进SRGAN，并使用相对平均生成对抗网络的人脸图像超分辨率训练自己的数据集论文题目：FaceImageSuper-resolutionBasedOnRelativeAverageGenerativeAdversarialNetworks（基于相对平均生成对抗网络的人脸图像超分辨率）会议：20212ndAsiaSymposiumonSignalProcessing(ASSP)摘要：人脸图
AI时代，程序员如何提升竞争力：技术与软技能双修炼源码姑娘人工智能
人工智能技术的迅猛发展正在重塑软件开发行业的格局。从代码生成工具（如GitHubCopilot）到智能调试系统，AI已从辅助工具逐步演变为开发流程中不可或缺的伙伴。然而，这种变革既是机遇也是挑战：程序员若想在这场技术浪潮中保持竞争力，必须实现技术与软技能的双重修炼。本文将从技术深耕、AI工具驾驭、跨学科融合及软技能提升四个维度，探讨程序员的核心竞争力构建路径。一、技术修炼：从工具使用者到领域专家1
Self-Attentive Sequential Recommendation论文阅读笔记调包调参侠推荐系统学习深度学习机器学习神经网络算法
SASRec论文阅读笔记论文标题：Self-AttentiveSequentialRecommendation发表于：2018ICDM作者：Wang-ChengKang,JulianMcAuley论文代码：https://github.com/pmixer/SASRec.pytorch论文地址：https://arxiv.org/pdf/1808.09781v1.pdf摘要顺序动态是许多现代推荐系
AI大语言模型(LLM)：电商行业的搜索革命与未来趋势搞技术的妹子人工智能语言模型智能电视
大语言模型：电商行业的搜索革命与未来趋势一、大语言模型在电商搜索中的应用1.提升搜索精准度2.改善搜索召回率3.虚拟购物助手二、大语言模型与生成性AI的结合1.生成性AI：从搜索到对话式购物体验2.提升个性化推荐三、大语言模型的未来展望1.电商与LLM的深度融合2.面临的挑战与机遇随着人工智能的快速发展，电商行业正在经历一场深刻的变革。尤其是在搜索技术方面，大语言模型（LLM）正逐渐成为提升用户体
mac系统下安装pycharm 连小黑 python pycharm macos python
mac系统下安装pycharm前言Windows系统安装教程传送门链接:https://blog.csdn.net/lianxiaohei/article/details/121694126随着人工智能的不断发展，机器学习这门技术也越来越重要，也有很多人都因为做自动化，爬虫会学python，今天写的是pycharm编译器，在mac上如何安装,废话不多说，上步骤一、第一步下载示例：下载安装软件的第一
NCU使用指南及模型性能测试（pytorch2.5.1） Jakari cuda gpu ncu python docker 深度学习 pytorch
本项目在原项目的基础上增加了NsightCompute(ncu)测试的功能，并对相关脚本功能做了一些健硕性的增强，同时，对一些框架的代码进行了更改（主要是数据集的大小和epoch等），增加模型性能测试的效率，同时完善了模型LSTM的有关功能。OverviewNsightCompute(NCU)是NVIDIA提供的GPU内核级性能分析工具，专注于CUDA程序的优化。它提供详细的计算资源、内存带宽、指
基于Ubuntu+vLLM+NVIDIA T4高效部署DeepSeek大模型实战指南来自于狂人 python 人工智能 pytorch 语言模型
一、前言：拥抱vLLM与T4显卡的强强联合在探索人工智能的道路上，如何高效地部署和运行大型语言模型（LLMs）一直是一个核心挑战。尤其是当我们面对资源有限的环境时，这个问题变得更加突出。原始的DeepSeek-R1-32B模型虽然强大，但在T4显卡上遭遇了显存溢出的问题，这限制了其在实际应用中的潜力。为了解决这一难题，我们转向了官方提供的优化版本——DeepSeek-R1-Distill-Qwen
深度学习算法模型：从原理到未来 YDH_AlwaysRunning 深度学习
近年来，人工智能（AI）技术以前所未有的速度改变着人类生活，而深度学习的崛起无疑是这场技术革命的核心驱动力。从手机中的语音助手到医学影像的智能诊断，从自动驾驶汽车到生成式AI创作的诗歌和画作，深度学习算法模型正逐渐渗透到社会的每个角落。本文将从基本原理出发，解析典型模型的运作机制，探讨其应用现状与发展趋势，带您全面认识这一改变世界的技术。一、深度学习的基本原理：让机器学会"思考"1.1神经网络的生
AI 芯片全解析：定义、市场趋势与主流芯片对比嵌入式Jerry AI 人工智能物联网嵌入式硬件服务器运维
1.引言：什么是AI芯片？随着人工智能（AI）的快速发展，AI计算的需求不断增长，从云计算到边缘计算，AI芯片成为推动智能化时代的核心动力。那么，什么样的芯片才算AI芯片？与普通处理器（如CPU、GPU）相比，AI芯片有什么不同？本文将详细解析AI芯片的定义、核心特性、市场上的流行产品（国内外），以及AI芯片的定位与发展趋势。2.什么才算AI芯片？2.1AI芯片的核心特性AI芯片专为神经网络计算、
DeepSeek：大模型领域的创新力量 Kurbaneli 服务器
在人工智能大模型蓬勃发展的时代，DeepSeek以其独特的技术优势和广泛的应用潜力，迅速在市场中崭露头角。自年初发布以来，DeepSeek引发了行业内外的高度关注，对众多领域的发展产生了深远影响。一、技术优势剖析DeepSeek在技术层面展现出了诸多亮点。其核心的语言模型架构经过精心设计与优化，能够高效处理海量文本数据，实现精准的语义理解和生成。在自然语言处理任务中，无论是基础的文本翻译、问答系统
AI辅助的企业估值报告生成器 AI智能涌现深度研究 DeepSeek R1 &大数据AI人工智能人工智能 ai
AI辅助的企业估值报告生成器关键词AI辅助估值企业估值报告数据处理机器学习算法报告生成器摘要本文将探讨如何利用人工智能技术辅助企业估值报告的生成。通过分析估值报告的重要性、AI技术在估值报告中的应用场景、估值模型与数据处理方法，以及机器学习算法在估值中的应用，本文旨在为企业和投资者提供一个高效、准确、可视化的估值报告生成解决方案。同时，本文还将介绍一个估值报告生成器的实现过程，并通过实际案例进行分
全套DeepSeek使用手册分享【清华北大出品】咪咪360 pdf AI写作 AIGC 人工智能学习
资料链接：https://pan.quark.cn/s/517afdb4419c这两天，清华大学和北京大学的AI学习手册火了！随着人工智能的日益火爆，人们越来越重视AI的学习，而清华北大也顺应潮流，送出重磅福利。短短不到一个月，连续产出了多本高质量的DeepSeek学习手册。帮助普通人高效便捷的学习AI。完整版学习资料我已经帮大家整理好了，放在开头，大家自行领取学习。
AI Agent，大模型重要落地方向 IT猫仔人工智能语言模型架构搜索引擎机器学习
01什么是AIAgent？OpenAI将AIAgent定义为，以大语言模型为大脑驱动，具有自主理解感知、规划、记忆和使用工具的能力，能自动化执行完成复杂任务的系统。在计算机、人工智能专业技术领域，一般将agent译为“智能体”，即是在一定的环境中体现出自治性、反应性、社会性、预动性、思辨性（慎思性）、认知性等一种或多种智能特征的软件或硬件实体。它具有记忆、规划、行动和使用工具四个主要模块。通过四个
AI人工智能 Agent：对教育的影响 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能Agent：对教育的影响1.背景介绍1.1教育领域的转变随着科技的飞速发展,教育领域也在经历着前所未有的变革。传统的教学模式已经无法完全满足现代社会对人才培养的需求。在这种背景下,人工智能(AI)技术应运而生,为教育领域带来了全新的机遇和挑战。1.2人工智能在教育中的作用人工智能技术可以为教育提供个性化、智能化和高效的解决方案。AI智能代理(Agent)作为人工智能的重要组成部分,正在
项目开发实录（一）：基于RDK X5的智能垃圾分类垃圾桶一团乱毛线� RDK X5 地瓜机器人分类人工智能
文章目录项目简介硬件及材料列表整体架构流程技术细节后续开发安排-----------------------------分割线----------------------------------项目简介基于RDKX5开发板的智能垃圾分类垃圾桶项目，旨在利用人工智能技术实现垃圾的自动识别与分类。垃圾桶硬件装置应实现对行人投入垃圾的四分类投放(可回收垃圾、有害垃圾、厨余垃圾、其他垃圾)。该系统主要由摄
3 步低代码构建 AI 股票分析助手人工智能技术资讯低代码人工智能
在金融服务行业的数字化转型浪潮中，构建一个灵活、可扩展、高度可用的现代IT架构是金融机构面临的重中之重。在这一过程中，生成式人工智能（GenerativeAI）正成为助力金融从业者提高工作效率、优化决策过程的重要工具。在金融市场上，买方机构通常会努力发掘有关金融市场运作的信息，以期获得战胜市场的能力。他们通常需要发掘对投资组合风险有重大影响的风险因子，比如市场因子、行业因子、规模因子、价值因子等；
《DataWorks：为人工智能算法筑牢高质量数据根基》人工智能深度学习
在当今数字化时代，人工智能（AI）技术的迅猛发展深刻地改变着各个行业的面貌。从智能推荐系统到医疗影像诊断，从自动驾驶到自然语言处理，AI正以前所未有的速度渗透到我们生活和工作的方方面面。而在这一系列AI应用的背后，高质量的训练数据是其能够发挥强大效能的关键所在。就如同巧妇难为无米之炊，没有优质的数据，再先进的AI算法也难以施展拳脚。阿里巴巴的DataWorks，作为一款强大的大数据开发治理平台，在
基于Django的人脸识别考勤管理系统(源码+LW+部署讲解) 毕业程序员 python 计算机毕业设计 django python 后端
收藏关注不迷路文章目录前言一、项目介绍三、功能介绍四、核心代码五、效果图六、文章目录前言随着信息技术的快速发展和人工智能的广泛应用，人脸识别技术因其独特的识别优势和高效的处理能力，逐渐在考勤管理领域展现出巨大的应用潜力。本文首先回顾了人脸识别技术的发展历程，分析了其在考勤系统中的技术原理和实现方式。随后，文章详细介绍了人脸识别考勤系统的设计架构、核心算法及关键技术，包括图像采集、预处理、特征提取和
Claude 3.7 Sonnet上线，Anthropic向OpenAI和DeepSeek宣战！新加坡内哥谈技术人工智能自然语言处理语言模型深度学习学习
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/Anthropic最新发布的Claude3.7Sonnet正式加入AI智能体大战，不仅对
让AI团队来分析股票！一份可以参考的简单研报——基于Python的CrewAI库 Ra1n_Su ai 人工智能 python
引言在最近，一个更新的科技概念AIAgent（人工智能助手）引起了人们更为广泛的关注。比尔盖茨称其为“一个对科技行业的冲击波”。OpenAI将AIAgent定义为“以大语言模型为大脑驱动的系统，具备自主理解、感知、规划、记忆和使用工具的能力，能够自动化执行完成复杂任务的系统。”我们可以将其通俗地理解为一个“你提要求就行，任务我来做”的强大工具人。因此，本文要搭建一个扮演分析师角色的AIAgent。
ChatGPT-5：开创对话式AI的新纪元可有道？人工智能 AIGC
随着科技的飞速发展，人工智能（AI）正在迅速改变我们的生活方式。作为AI技术的前沿代表之一，ChatGPT自其初次发布以来，就以其强大的语言理解和生成能力受到了广泛关注和应用。如今，OpenAI推出最新版本——ChatGPT-5，（预计将于2024年下半年发布）这一版本在各个方面都进行了显著的升级和改进。这里详细介绍一下ChatGPT-5的技术基础、升级功能及其在日常生活中的应用。1.ChatGP
Spring AI：智能化的开发新趋势精神之祝 java 人工智能 spring java
SpringAI：智能化的开发新趋势在当今数字化时代，人工智能（AI）技术正在迅速渗透到各个行业和领域。作为Java开发者，掌握AI技术以及如何将其与现有的开发框架结合使用，已成为提升竞争力的重要途径。Spring生态系统的强大，使得开发者能够将AI集成到他们的应用程序中，今天将深入探讨SpringAI的各个方面，帮助你理解这一新兴技术。文章目录SpringAI：智能化的开发新趋势一、什么是Spr
Spring AI Alibaba：Java 开发者的 AI 应用开发新利器 ZnSoft〔100-1=0〕 java spring 人工智能
在当今这个由人工智能（AI）驱动的时代，AI技术正在以前所未有的速度改变着我们的工作和生活方式。对于Java开发者来说，将AI能力集成到他们的应用程序中，已经成为了一个迫切的需求。阿里云开源的SpringAIAlibaba框架，正是为了满足这一需求而生。本文将详细介绍SpringAIAlibaba的起源、核心特性，并通过一个示例展示其在AI应用开发中的便利性。一、SpringAIAlibaba的起
软件设计和软件架构之间的区别前网易架构师-高司机软件架构软件设计系统架构
作者简介：高科，先后在IBMPlatformComputing从事网格计算，淘米网，网易从事游戏服务器开发，拥有丰富的C++，go等语言开发经验，mysql，mongo，redis等数据库，设计模式和网络库开发经验，对战棋类，回合制，moba类页游，手游有丰富的架构设计和开发经验。并且深耕深度学习和数据集训练，提供商业化的视觉人工智能检测和预警系统（煤矿，工厂，制造业，消防等领域的工业化产品），合
基于PyTorch的深度学习2——Numpy与Tensor Wis4e 深度学习 pytorch numpy
Tensor自称为神经网络界的Numpy，它与Numpy相似，二者可以共享内存，且之间的转换非常方便和高效。不过它们也有不同之处，最大的区别就是Numpy会把ndarray放在CPU中进行加速运算，而由Torch产生的Tensor会放在GPU中进行加速运算。1.创建创建Tensor的方法有很多，可以从列表或ndarray等类型进行构建，也可根据指定的形状构建。importtorch#根据list数
图像识别技术与应用课后总结（12）一元钱面包人工智能
全局平均池化（GlobalAveragePooling）1.导入库和设备配置importtorch.nnasnnimporttorch.nn.functionalasFdevice=torch.device("cuda:0"iftorch.cuda.is_available()else"cpu")-importtorch.nnasnn：导入PyTorch的神经网络模块，用于构建神经网络层。-imp
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &

VOC格式xml标签与YOLO格式txt标签相互转换

1、VOC标签格式说明

4、yolo格式转化为voc格式

你可能感兴趣的:(pytorch,人工智能)