zoetu

【PyTorch】深度学习实践之加载数据集Dataset and Dataloader

本文目录

1. Dataset and DataLoader(加载数据的两个工具类)

2. Mini-batch 优点

3. Epoch，Batch-Size，Iterations

4. DataLoader使用

5. 定义数据集与加载

两种方法构造数据集：

应用实例:

加载已有的数据集

6. num_workers in Windows

课堂练习

完整代码：

结果：

练习：kaggle泰坦尼克数据集

实现代码：

学习资料

系列文章索引

1. Dataset and DataLoader(加载数据的两个工具类)

dataset：构造数据集（数据集应该支持索引，能够用下标操作快速把数据拿出来）
dataloader :主要目标用来拿出一个mini-batch来供训练时快速使用。

2. Mini-batch 优点

之前学过在进行梯度下降时，有两种选择：
①全部的数据都用（Batch）
②随机梯度下降：只用一个样本

只用一个样本可以得到比较好的随机性，可以帮助我们跨越在优化中所遇到的鞍点，而用Batch(所有数据)的优点是可以最大化地利用向量计算的优势提升计算速度。
都用一个样本的随机梯度下降训练出的模型效果可能会比其他模型都更好，但是会导致优化用的时间更长，因为每次一个样本没法使用cpu或gpu的并行能力，训练的时间会很长，而使用Batch计算速度快，但是在求得性能上会遇到一些问题，所以在深度学习中我们使用Mini-Batch来平衡训练时间和训练速度上的要求。

使用Mini-Batch之后训练循环要写成嵌套循环

外层是循环的次数，循环一次是一个epoch；每一次epoch中执行一次内层；内层每循环一次，执行一次Mini-batch。

3. Epoch，Batch-Size，Iterations

Epoch：所有的训练样本都进行了一次前向传播和反向传播的过程。
Batch-Size：每一个Mini_batch训练时所用的样本数量。
iterations：内层的迭代一共执行了多少次，即：total_batch中执行了多少次Mini_batch

4. DataLoader使用

shuffle：为了提高训练样本的随机性，设置为True可以随机打乱dataset，这样每一次生成的MiNi-batch数据集数据样本都是随机的。
dataset 需要支持索引，需要知道Dataset长度，这样DataLoader就可以对Dataset进行自动的小批量的数据集的生成。

5. 定义数据集与加载

Dataset 是个抽象类，不能实例化，只能被其他子类继承，所以我们将来要想定义Dataset，我们必须要由Dataset来继承，构造一个我们自己的自定义的类。
DataLoader 这个类用来加载数据，自动完成shuffle,batch-size

两种方法构造数据集：

第一种在init中把所有的数据都读到内存中，然后每次使用getitem时就把其中第i个样本传出去，适用于样本不大的情况。
第二种，如果读取的是较大(10g)图像数据集,在init中把数据都读进来不可能，我们就在init中定义一个列表，每一条数据的文件名放在列表中，标签读到内存中（输出是简单的分类回归数值）或文件名放在列表里，然后getitem读取第i个文件，那x，y的第i个元素去读出来，然后返回，来保证内存的高效使用。（读取文件名，根据文件名加载文件）

import torch
from torch.utils.data import Dataset
from torch.utils.data import DataLoader
 
class XXXDataset(Dataset):     # XXXDataset继承自Dataset  
        def __init__(self): 
                pass
 
    #将来实例化这个类之后，这个对象能够支持下标操作，可以通过一个索引，
    #把里面的dataset[index]的第index条数据给拿出来
    def __getitem__(self,index):
                pass
 
        # magic function ，把整个数据的数量取出来
        def __len__(self):
                pass
#用自定义的类把它实例化一个数据对象dataset，
#这个dataset最重要的功能是getitem()和len()
dataset = XXXDataset()
train_loader = DataLoader(dataset=dataset,batch_size=32,shuffle=True,num_workers=2)
# num_workers：要几个多线程并行读取数据

应用实例:

class DiabetesDataset(Dataset):
        def __init__(self,filepath):
                xy = np.loadtxt(filepath,delimiter=',',dtype=np.float32)
                self.len = xy.shape[0]
                self.x_data = torch.from_numpy(xy[:,:-1])
                self.y_data = torch.from_numpy(xy[:,[-1]])
 
        def __getitem__(self,index):
                return self.x_data[index],self.y_data[index]
 
        def __len__(self):
                return self.len
 
dataset = DiabetesDataset('diabetes.csv.gz')
train_loader = DataLoader(dataset=dataset,batch_size=32,shuffle=True,num_workers=2)
# num_workers=2表示使用2个并行进程来读取数据，Cpu核心数较多的话，可以加高
#(并行化可以提高读取效率)

其中：self.len = xy.shape[0]
表示 x，y N行9列，N是数据样本的数量，shape是（N,9)元组，通过取第0个元素，把N的值给取出来，这样就知道数据集有多少个了

加载已有的数据集

以MNIST为例：

import torch
from torch.utils.data import DataLoader
from torchvision import transforms
from torchvision import datasets
 
train_dataset = datasets.MNIST(root='../dataset/mnist',train=True,transform=transforms.ToTensor(),download=True)
test_dataset = datasets.MNIST(root='../dataset/mnist',train=False,transform=transforms.ToTensor(),download=True)
train_loader = DataLoader(dataset=train_dataset,batch_size=32,shuffle=True)
test_loader = DataLoader(dataset=test_dataset,batch_size=32,shuffle=False)
 
for batch_index,(inputs,target) in enumerate(train_loader):

6. num_workers in Windows

DataLoader是pytorch提供的加载器，初始化要设置：dataset=，bbatch-size=，shufflle=，num—_workers=（超线程，win直接使用会报错，用if main语句包起来即可）

多进程的库不一样，在Windows使用spawn代替fork

课堂练习

完整代码：

import torch
from torch.utils.data import Dataset    #Dataset是个抽象类
from torch.utils.data import DataLoader  #DataLoader是帮助我们在PyTorch中加载数据的类。
import numpy as np

#1.准备Mini_Batch数据集
class DiabetsDataset(Dataset):   #DiabetesDataset继承自抽象类Dataset
    def __init__(self,filepath): #filepath数据集路径
        xy = np.loadtxt(filepath,delimiter = ',',dtype = np.float32)
        self.len = xy.shape[0] #shape为（N,9）元组，取出N的值
        self.x_data = torch.from_numpy(xy[:,:-1])  # 第一个‘：’是指读取所有行，第二个‘：’是指从第一列开始，最后一列不要 
        self.y_data = torch.from_numpy(xy[:,[-1]]) # 要最后一列，且最后得到的是个矩阵，所以要加[]

    def __getitem__(self,index):  #支持下标操作，根据索引获取数据
        return self.x_data[index],self.y_data[index]

    def __len__(self):    #获取数据条数
        return self.len
       
dataset = DiabetsDataset('diabetes.csv.gz')  #构造DiabetesDataset对象,并将数据集的路径传入

#初始化DataLoader加载器
train_loader = DataLoader(dataset=dataset,  #处理的数据集
                          batch_size=32,    #每次处理的数据大小
                          shuffle=True,     #是否打乱
                          num_workers=0)    #多线程数量，在windows里需要设置为0， Linux可以大于0

#2.构建网络模型
class Model(torch.nn.Module):
    def __init__(self):
        super(Model,self).__init__()
        self.linear1 = torch.nn.Linear(8,6)
        self.linear2 = torch.nn.Linear(6,4)
        self.linear3 = torch.nn.Linear(4,1)
        self.sigmoid = torch.nn.Sigmoid()  #选择适合的激活函数
    def forward(self,x):
        x = self.sigmoid(self.linear1(x))
        x = self.sigmoid(self.linear2(x))
        x = self.sigmoid(self.linear3(x))
        return x
model = Model()

#3.构造损失函数和优化器
criterion = torch.nn.BCELoss(size_average=True)
optimizer = torch.optim.SGD(model.parameters(),lr=0.01)

#4.训练
epoch_list=[]
loss_list=[]
if __name__ == '__main__':
    # 对train_loader做迭代，用 enumerate是为了获得当前是第几次迭代
    # 把从train_loader拿出来的（x,y）元组放到data里面
    for epoch in range(1000):
        for i,data in enumerate(train_loader,0):
            #1.Prepare data
            # 在训练之前把x,y从data里面拿出来，inputs=x,labels=y，
            # 此时inputs,labels都已经被自动转换为张量（tensor）
            inputs,labels = data
            # print(inputs,labels)

            #2.Forward
            y_pred = model(inputs)
            loss = criterion(y_pred,labels)
            print(epoch,i,loss.item())

            #3.backward
            optimizer.zero_grad()
            loss.backward()

            #4.Update
            optimizer.step()
            
            epoch_list.append(epoch+1)
            loss_list.append(loss.item())

训练代码解析：
查看训练过程，train_loader是训练集数据的加载，把从train_loader拿出来的（x,y）元组放到data里面，其中inputs=x，labels=y。将inputs输入模型得到预测y_pred即预测标签。

结果：

查看100轮训练与loss变化，可以看到loss在0.7左右震荡，说明模型收敛不够，效果不够好。

练习：kaggle泰坦尼克数据集

数据集：https://www.kaggle.com/c/titanic/data

实现代码：

https://blog.csdn.net/weixin_42320758/article/details/113930316?spm=1001.2101.3001.6650.1&utm_medium=distribute.pc_relevant.none-task-blog-2_defaultCTRLIST_{default-1.pc_relevant_paycolumn_v2&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2}default_CTRLISTdefault-1.pc_relevant_paycolumn_v2&utm_relevant_index=2

https://blog.csdn.net/Learning_AI/article/details/122460458

import torch
from torch.utils.data import Dataset
import numpy as np
import pandas as pd

# 1. 准备数据集
class TitanicDataset(Dataset):
    def __init__(self,filepath):
        xy = pd.read_csv(filepath)
        self.len = xy.shape[0] #获取xy行列数
        # 选取相关的数据特征
        feature = ["Pclass","Sex","SibSp", "Parch", "Fare"]

        # data[features]的类型是DataFrame,先进行独热one hot表示，然后转成array,最后转成tensor用于进行矩阵计算。
        self.x_data = torch.from_numpy(np.array(pd.get_dummies(xy[feature]))) # np.array()将数据转换成矩阵，方便进行接下来的计算
        self.y_data = torch.from_numpy(np.array(xy["Survived"]))
    
    # 使用索引拿到数据
    def __getitem__(self, index):
        return self.x_data[index], self.y_data[index]
 
    # 返回数据的条数/长度
    def __len__(self):
        return self.len

# 建立数据集
dataset = TitanicDataset('./titanic/train.csv')

# 建立数据集加载器
from torch.utils.data import DataLoader
train_loader = DataLoader(dataset=dataset,batch_size=16,shuffle=True,num_workers=0)

# 2. 定义模型
class Model(torch.nn.Module):
    def __init__(self):
        super(Model,self).__init__()
        # 选取的五个特征经过onehot表示变成6维
        self.linear1 = torch.nn.Linear(6,3)
        self.linear2 = torch.nn.Linear(3,1)
        self.sigmoid = torch.nn.Sigmoid()
    
    #定义预测函数
    def forward(self,x):
        x = self.sigmoid(self.linear1(x))
        x = self.sigmoid(self.linear2(x))
        return x

    def predict(self,x):
        with torch.no_grad():
            x = self.sigmoid(self.linear1(x))
            x = self.sigmoid(self.linear2(x))
            y = []
            for i in x:
                if i>0.5:
                    y.append(1)
                else:
                    y.append(0)
            return y

model = Model()

# 3 定义损失和优化器
criterion =torch.nn.BCELoss(reduction='mean')
optimizer = torch.optim.SGD(model.parameters(),lr=0.05)

# 4 训练
epoch_list = []
loss_list = []

if __name__ ==  '__main__':
    for epoch in range(100):
        for i,data in enumerate(train_loader,0):
            inputs,labels = data
            inputs = inputs.float()
            labels = labels.float()

            y_pred = model(inputs)
            y_pred = y_pred.squeeze(-1) # 将维度压缩至1维。

            loss = criterion(y_pred,labels)
            print(epoch,i,loss.item())

            optimizer.zero_grad()
            loss.backward()

            optimizer.step()
            
            epoch_list.append(epoch+1)
            loss_list.append(loss.item())
           
# 5 测试
test_data = pd.read_csv("./titanic/test.csv")
features = ["Pclass", "Sex", "SibSp", "Parch", "Fare"]
test = torch.from_numpy(np.array(pd.get_dummies(test_data[features])))

y = model.predict(test.float())

output = pd.DataFrame({'PassengerId': test_data.PassengerId, 'Survived': y})
output.to_csv('./titanic/my_predict1.csv', index=False)

结果：

提交到kaggle，评分0.7，很垃圾，可以看看其他kaggler的notebook。

学习资料

https://blog.csdn.net/qq_42585108/article/details/108195343
https://blog.csdn.net/m0_60152377/article/details/121435898?spm=1001.2101.3001.6650.4&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-4-121435898-blog-125717732.pc_relevant_multi_platform_featuressortv2removedup&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-4-121435898-blog-125717732.pc_relevant_multi_platform_featuressortv2removedup&utm_relevant_index=9

系列文章索引

教程指路：【《PyTorch深度学习实践》完结合集】 https://www.bilibili.com/video/BV1Y7411d7Ys?share_source=copy_web&vd_source=3d4224b4fa4af57813fe954f52f8fbe7

线性模型 Linear Model

梯度下降 Gradient Descent

反向传播 Back Propagation

用PyTorch实现线性回归 Linear Regression with Pytorch

逻辑斯蒂回归 Logistic Regression

多维度输入 Multiple Dimension Input

加载数据集Dataset and Dataloader

用Softmax和CrossEntroyLoss解决多分类问题（Minst数据集）

CNN基础篇——卷积神经网络跑Minst数据集

CNN高级篇——实现复杂网络

RNN基础篇——实现RNN

RNN高级篇—实现分类

【Python爬虫进阶】从网页抓取到数据清洗与存储——完整实战教程 Python爬虫项目 python 爬虫开发语言 javascript 自然语言处理 selenium
1.为什么网页抓取后需要数据清洗？在实际项目中，抓取的原始数据往往是杂乱的、不完整的、格式各异的。如果不清洗，直接用来建模、分析，会导致：脏数据干扰（如乱码、重复数据）异常值影响结果（如薪资异常高）格式不统一（比如地点有中文名和英文名混杂）所以，抓取数据后，必须进行系统清洗与标准化，才能用于后续的：数据分析可视化展示机器学习建模2.项目概览：从抓取到存储的完整流程本项目流程如下：确定抓取目标（某招
验证码破解的可能与不可能：用Python处理图片验证码的原理与限制程序员威哥 python 开发语言
前言验证码（CAPTCHA）是当前互联网防护机制中的重要组成部分，用于区分真人与自动程序。近年来，随着自动化技术发展，验证码破解成为自动化测试、爬虫及安全研究领域的热点。然而，从技术层面来看，验证码破解既有可行之处，也存在根本限制。本文将结合Python图像处理与机器学习技术，深度剖析图片验证码破解的原理、实践与瓶颈。一、验证码的分类及破解难点1.验证码类型字符型验证码纯数字、字母或混合，最常见。
深度学习数据集加载 Ethan@LM 深度学习人工智能
数据集结构E:\Mytest\test20250622\pythonProject\dataset├──rose│├──rose1.jpg│├──rose2.jpg│└──...└──sunflower├──sunflower1.jpg├──sunflower2.jpg└──...主要只有的两个类fromtorch.utils.dataimportDatasetfromtorchvisionimp
Pytorch实现DenseNet，腾讯T3大牛手把手教你
print("TorchvisionVersion:",torchvision.version)all=[‘DenseNet121’,‘DenseNet169’,‘DenseNet201’,‘DenseNet264’]defConv1(in_planes,places,stride=2):returnnn.Sequential(nn.Conv2d(in_channels=in_planes,out
Pytorch实现DenseNet，先收藏了
classDenseNet(nn.Module):definit(self,init_channels=64,growth_rate=32,blocks=[6,12,24,16],num_classes=1000):super(DenseNet,self).init()bn_size=4drop_rate=0self.conv1=Conv1(in_planes=3,places=init_chan
使用TVM编译部署DarkNet模型：YOLO-V2和YOLO-V3实战指南周情津Raymond
使用TVM编译部署DarkNet模型：YOLO-V2和YOLO-V3实战指南tvm-cnTVMDocumentationinChineseSimplified/TVM中文文档项目地址:https://gitcode.com/gh_mirrors/tv/tvm-cn前言在深度学习模型部署领域，TVM作为一个高效的深度学习编译器栈，能够将训练好的模型优化并部署到各种硬件平台上。本文将详细介绍如何使用T
flask部署机器学习_如何开发端到端机器学习项目并使用Flask将其部署到Heroku cumichun6193 大数据 python 机器学习人工智能深度学习
flask部署机器学习There'sonequestionIalwaysgetaskedregardingDataScience:关于数据科学，我经常被问到一个问题：WhatisthebestwaytomasterDataScience?Whatwillgetmehired?掌握数据科学的最佳方法是什么？什么会雇用我？Myanswerremainsconstant:Thereisnoalterna
人工智能赋能气象气候：从数据智能到预测创新的融合之路慌ZHANG 人工智能人工智能
个人主页：慌ZHANG-CSDN博客期待您的关注一、引言：气象气候与AI的“天然耦合”气象与气候系统是典型的复杂、多尺度、强非线性的自然系统，其建模、分析与预测依赖庞大观测数据和高性能计算资源。传统方法以数值天气预报（NWP）与物理建模为核心，虽然取得重要成就，但也面临计算代价大、精度不足、长期预测偏差大等瓶颈。与此同时，人工智能（AI），尤其是以深度学习为代表的机器学习方法，近年来在图像识别、自
【机器学习|学习笔记】类别特征（Categorical Features）处理方法，附代码。努力毕业的小土博^_^ 机器学习学习笔记机器学习学习笔记神经网络人工智能深度学习
【机器学习|学习笔记】类别特征（CategoricalFeatures）处理方法，附代码。【机器学习|学习笔记】类别特征（CategoricalFeatures）处理方法，附代码。文章目录【机器学习|学习笔记】类别特征（CategoricalFeatures）处理方法，附代码。前言✅为什么要处理类别特征？原因1：大多数模型不能处理字符串原因2：避免“错误的顺序假设”原因3：方便模型泛化与特征交互✅
Python中使用Graphviz绘制决策树图解黃昱儒
本文还有配套的精品资源，点击获取简介：Graphviz是一款用于数据可视化和算法流程展示的图形绘制软件，特别适用于Python中绘制决策树和其他图形类型。本安装包包含Graphviz安装程序和配置指南，以及如何在Python中利用pydot库等第三方库进行图形绘制的详细步骤。通过配置环境变量和利用DOT语言，用户可以将决策树模型转换为可视化图形，加深对机器学习模型的理解和调试。1.Graphviz
【深度学习|冰川制图9】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构努力毕业的小土博^_^ 优秀论文推荐深度学习学习架构
【深度学习|冰川制图9】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构【深度学习|冰川制图9】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构文章目录【深度学习|冰川制图9】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构结果与讨论3.1消融区制图欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校硕博生毕业要
OpenCV中DPM（Deformable Part Model）目标检测类cv::dpm::DPMDetector 村北头的码农 OpenCV opencv 目标检测人工智能
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述OpenCV中用于基于可变形部件模型（DPM）的目标检测器，主要用于行人、人脸等目标的检测。它是一种传统的基于特征的目标检测方法，不依赖深度学习，而是使用HOG特征+部件模型来进行检测。示例代码#include#include#includeusingnamesp
深度学习前置知识全面解析：从机器学习到深度学习的进阶之路
一、引言：人工智能时代的核心技术在当今这个数据爆炸的时代，人工智能(AI)已经成为推动社会进步的核心技术之一。作为AI领域最重要的分支，深度学习(DeepLearning)在计算机视觉、自然语言处理、语音识别等领域取得了突破性进展，彻底改变了我们与机器交互的方式。本教案将从机器学习的基础知识出发，系统性地介绍深度学习的核心概念、数学基础、网络架构和训练方法，为读者构建完整的知识体系框架。无论你是刚
Pytorch 之torch.nn初探 torch.nn.Module与线性--Linear layers 十有久诚人工智能机器学习 pytorch
初探torch.nn.Module神经网络可以使用torch.nn包构建。它提供了几乎所有与神经网络相关的功能，例如：线性图层nn.Linear，nn.Bilinear卷积层nn.Conv1d，nn.Conv2d，nn.Conv3d，nn.ConvTranspose2d非线性nn.Sigmoid，nn.Tanh，nn.ReLU，nn.LeakyReLU池化层nn.MaxPool1d，nn.Aver
深入解析VAE：从理论到PyTorch实战，一步步构建你的AI“艺术家” 电脑能手人工智能深度学习 python
摘要：你是否好奇AI如何“凭空”创造出从未见过的人脸或画作？变分自编码器（VAE）就是解开这一谜题的关键钥匙之一。本文将带你从零开始，深入浅出地剖析VAE的迷人世界。我们将用生动的比喻解释其核心思想，拆解其背后的数学原理（KL散度与重参数技巧），并最终用PyTorch代码手把手地构建、训练和可视化一个完整的VAE模型。无论你是初学者还是有一定经验的开发者，相信这篇文章都能让你对生成模型有一个全新的
PyTorch实战：从零构建CNN模型，轻松搞定MNIST手写数字识别
PyTorch实战：从零构建CNN模型，轻松搞定MNIST手写数字识别大家好！欢迎来到我的深度学习博客！对于每个踏入计算机视觉领域的人来说，MNIST手写数字识别就像是编程世界的“Hello,World!”。它足够简单，能够让我们快速上手；也足够完整，可以帮我们走通一个深度学习项目的全流程。之前我们可能用Keras体验过“搭积木”式的快乐，今天，我们将换一个同样强大且灵活的框架——PyTorch，
Pytorch：nn.Linear中是否自动应用softmax函数浩瀚之水_csdn 深度学习目标检测 #Pytorch框架 pytorch 人工智能 python
在本文中，我们将介绍Pytorch中的nn.Linear模块以及它是否自动应用softmax函数。nn.Linear是Pytorch中用于定义线性转换的模块，常用于神经网络的全连接层。一、什么是nn.Linearnn.Linear是PyTorch中的一个类，它是实现线性变换的模块。nn.Linear的主要作用是将输入张量和权重矩阵相乘，再添加偏置，生成输出张量。我们来看一个简单的示例，展示如何使用
《ONNX推理部署全解析：从基础到进阶的实用指南》空云风语人工智能深度学习神经网络人工智能深度学习神经网络 YOLO ONNX
ONNX基础入门ONNX是什么ONNX，即OpenNeuralNetworkExchange（开放神经网络交换），是一种用于表示深度学习模型的开放标准文件格式。它由Facebook和Microsoft在2017年联合开发，后来得到了NVIDIA、Intel、AWS、Google、OpenAI等众多公司的支持，旨在解决不同深度学习框架之间模型格式不兼容的问题，为模型的存储、交换和部署提供统一标准，使
遥感影像岩性分类：基于CNN与CNN-EL集成学习的深度学习方法神经网络15044 仿真模型神经网络深度学习深度学习分类 cnn 算法网络集成学习数据挖掘
遥感影像岩性分类：基于CNN与CNN-EL集成学习的深度学习方法1.任务概述岩性分类是地质遥感的核心任务，旨在通过遥感影像识别地表岩石类型。本文使用ASTER（多光谱热辐射传感器）和Sentinel（多光谱成像卫星）数据，采用卷积神经网络（CNN）及CNN-集成学习（CNN-EL）方法实现高精度岩性分类。2.数据预处理2.1数据源说明ASTER数据：14个波段（VNIR/SWIR/TIR），分辨率
大数据开发高频面试题：Spark与MapReduce解析
被招网约司机的盯上了好几天实习了六个月，到期被通知不能转正。外包裁员让我去友商我该去吗？offer比较华为状态码浏览器插件嵌入式项目推荐2019秋招总结+云从语音算法面经+银行群面面经科大讯飞语音算法面经语音算法美团一面已挂科大讯飞智能语音方向值得去吗？语音算法oc科大讯飞语音算法二面荣耀一面语音算法面经，已挂荣耀_语音算法工程一面科大讯飞语音一面凉经8.18携程机器学习（语音方向）一面【vivo
Python与Dlib库实现人脸技术实战西域情歌
本文还有配套的精品资源，点击获取简介：本项目详细说明了如何使用Python结合Dlib库实现人脸检测、识别、数量检测和距离检测。利用Dlib提供的机器学习算法和计算机视觉功能，包括HOG特征检测、级联分类器、面部特征向量模型和关键点预测等，项目能够快速准确地在图像中检测和识别人脸。此外，还介绍了如何统计图像中的人脸数量以及如何计算人脸之间的距离。通过实际代码资源，开发者能够掌握实时人脸技术的应用，
【Python】已解决：Traceback (most recent call last): File “C:/python/kfc.py”, line 8, in KfcError: KFC Cra 屿小夏 python c语言开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
【深度学习】一文彻底搞懂前向传播（Forward Pass）与反向传播（Backward Pass）烟锁池塘柳0 机器学习与深度学习深度学习人工智能机器学习
【深度学习】一文彻底搞懂前向传播（ForwardPass）与反向传播（BackwardPass）摘要：在深度学习的星辰大海中，无论模型多么复杂，其训练过程都离不开两大核心支柱：前向传播(ForwardPass)和反向传播(BackwardPass)。理解这两个概念，就等于拿到了解开神经网络训练奥秘的钥匙。本文将用最直白易懂的方式，并结合规范的数学表达，为你彻底讲透这两个基本而又重要的过程。文章目录
【深度学习】强化学习（Reinforcement Learning, RL）主流架构解析烟锁池塘柳0 机器学习与深度学习深度学习人工智能机器学习
强化学习（ReinforcementLearning,RL）主流架构解析摘要：本文将带你深入了解强化学习（ReinforcementLearning,RL）的几种核心架构，包括基于价值（Value-Based）、基于策略（Policy-Based）和演员-评论家（Actor-Critic）方法。我们将探讨它们的基本原理、优缺点以及经典算法，帮助你构建一个清晰的RL知识体系。文章目录强化学习（Rei
边缘设备上部署模型的限制之一——显存占用：模型的参数量只是冰山一角烟锁池塘柳0 机器学习与深度学习深度学习物联网人工智能
边缘设备上部署模型的限制之一——显存占用：模型的参数量只是冰山一角在边缘设备上部署深度学习模型已成为趋势，但资源限制是其核心挑战之一。其中，显存（或更广义的内存）占用是开发者们必须仔细考量的重要因素。许多人认为显存占用主要取决于模型的参数量，这种看法虽然没错，但并不全面。实际上，显存的占用远不止模型参数量那么简单。关于边缘设备（EdgeDevice）的介绍，可以参见我的这一篇文章：EdgeDevi
【Pytorch学习笔记（三）】张量的运算（2）
一、引言在《张量的运算(1)》中我们已经学习了几种张量中常用的非算数运算如张量的索引与切片，张量的拼接等。本节我们继续学习张量的算术运算。二、张量的算术运算（一）对应元素的加减乘除在PyTorch中，张量的对应元素的算术运算包括加法、减法、乘法、除法等常见的数学运算。这些运算可以对张量进行逐元素操作（element-wise），也可以进行张量之间的广播运算（broadcasting）。1.逐元素操
【零基础学AI】第22讲：PyTorch入门 - 动态图计算与图像分类器实战 1989 0基础学AI 人工智能 pytorch python 机器学习 sklearn 深度学习
本节课你将学到理解PyTorch的核心概念和优势掌握张量(Tensor)的基本操作学会使用动态计算图构建神经网络实现一个完整的图像分类器项目训练模型并进行预测开始之前环境要求Python3.8+建议使用GPU（可选，CPU也能运行）内存：至少4GB需要安装的包#CPU版本（推荐新手）pipinstalltorchtorchvisionmatplotlibpillow#GPU版本（如果有NVIDIA
Orange3机器学习建模和可视化分析数据预处理、特征工程、算法训练维度软件库测试工具开源软件电脑
各位数据挖掘爱好者们！今天给你们介绍一款超厉害的开源软件——Orange3。它就像一个神奇的工具箱，你只要通过拖放组件就能完成机器学习建模和可视化分析，软件下载地址安装包它支持数据预处理、特征工程、算法训练和评估整个流程，就像一个贴心的管家，把数据挖掘的事儿全给你安排得明明白白！它还内置了箱线图、决策树这些可视化工具，能直观地把数据分布和模型结构展示出来，就像给你开了个透视眼，让数据一目了然！这软
KNN（K-近邻算法)(上)--day05 扫把星133 机器学习 python 人工智能近邻算法算法
KNN（K-NearestNeighbors，K近邻算法）是一种用于分类和回归的非参数化方法。其基本思想是通过找出与新样本最接近的已标记数据中的K个最近邻居来进行预测或分类。注释：非参数化方法是指在统计学和机器学习中，不对数据分布做出严格假设（这些假设通常包括
YOLO 推理部署全方案」：一文掌握部署方式与性能对比！要努力啊啊啊计算机视觉 YOLO 目标跟踪计算机视觉目标检测人工智能
YOLO的推理部署方法全景指南YOLO系列模型经过训练后，通常需要部署到线上环境中进行推理（inference）。下面是常见的YOLO推理部署方式：1️⃣PyTorch原生部署使用原始PyTorch模型.pt文件直接调用model(input)进行推理✅优点：简单、灵活、易于调试❌缺点：推理速度较慢，不适合生产环境2️⃣ONNX导出+推理将YOLO模型导出为.onnx格式使用ONNXRuntime
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR

【PyTorch】深度学习实践之 加载数据集Dataset and Dataloader

本文目录