WHSINE

Code of Deep Learning （Based on pytorch)

0. 机器学习数据预处理基础

One-Hot编码

使用Pandas中的value_counts()函数，查看data中的特征User continent的取值类型，并打印输出的内容；
使用pandas中的get_dummies()函数对data中的特征User continent进行One-Hot编码，参数prefix为User continent_；
将编码后的结果保存在encode_uc中，并输出变量的前5行内容

import pandas as pd 
data = pd.read_csv('user_review.csv')
# 请在下方作答 #
user_continent_counts = data['User continent'].value_counts()
print(user_continent_counts)
encoded_uc = pd.get_dummies(data['User continent'], prefix='User continent_')
print(encoded_uc.head())

缺失值填补

使用pandas中的value_counts()函数打印输出data中的特征Traveler type的取值统计信息，并查看其是否含有缺失值；
如果存在缺失值，将特征Traveler type在其他样本中取值频数最多的值保存在变量freq_v中，并使用freq_v进行缺失值填充；
再次打印输出特征Traveler type的取值统计信息

# dropna=True：是否删除缺失值na默认删除
print(data['Traveler type'].value_counts(dropna=False)) 

# idxmax()函数用于沿索引轴查找最大值的索引。
freq_v = data['Traveler type'].value_counts(dropna=False).idxmax() 
### 缺失值填充
#
data['Traveler type'] = data['Traveler type'].fillna(freq_v)

### 打印
print('')
print(u'缺失值填充完之后：')
print( '')
print(data['Traveler type'].value_counts(dropna=False))

值得注意的是freq_v当中保存的是最大值，而不是其索引。然后在fillna()当中用该值对NaN进行填充。

特征标准化

使用sklearn中preprocessing模块下的StandardScaler()函数对data的特征Score进行Z-score标准化；
将特征取值的均值保存在变量score_mean中，并打印；
将特征取值的方差保存在变量score_var中，并打印。

std_scaler = StandardScaler() #注意需要将将其进行实例化

## Score特征标准化，使用fit_transform()方法
normal_df =std_scaler.fit_transform(data[['Score']])

## 均值
score_mean = normal_df.mean()

## 方差
score_var = normal_df.var()

## 打印
print (score_mean)
print (score_var)

## 打印前五行内容
normal_df[:5]

自定义函数min_max()实现MinMax标准化，输入参数data为要进行标准化的数据，输出为标准化后的数据。
使自定义的min_max()函数对data的特征Score进行MinMax标准化，输出结果保存在score_transformed中，并打印变量的前5行内容

def min_max(data):
    
    ## 最小值
    data_min = data.min()
    ## 最大值
    data_max = data.max()
    ## 最大值与最小值之间的差值
    dv=data_max-data_min
    ## 根据MinMax标准化的定义实现
    new_data = (data-data_min)/dv
    
    ## 返回结果
    return new_data

## 调用min_max()函数
score_transformed = min_max(data['Score'])

## 打印变量的前5行内容
score_transformed.head()

自定义logistic()函数，输入参数为要进行标准化的数据，输出结果为经过标准化后的数据；
使用自定义函数对data的特征Member years进行Logsitic标准化，结果保存在member_transformed中，并输出变量的前5行内容

def logistic(data):
    
    import numpy as np
    import warnings
    warnings.filterwarnings("ignore")
    
    ## 计算 1 + e^(-x)
    denominator =(1 + np.exp(-data))
    
    ## 实现logistic标准化
    new_data = 1/denominator
    ## 返回结果
    return new_data

## 对特征Member years进行logsitic标准化
member_transformed = logistic(data['Member years'])
## 打印内容
member_transformed.head()

特征离散化

使用Pandas的qcut()函数对data中的特征Member years进行等频离散化，结果保存在bins中；
使用pd.value_counts()函数统计categorical对象bins的取值信息。

离散化 (Discretization) (有些时候叫量化(quantization) 或装箱(binning)) 提供了将连续特征划分为离散特征值的方法。某些具有连续特征的数据集会受益于离散化，因为离散化可以把具有连续属性的数据集变换成只有名义属性(nominal attributes)的数据集。

chatgpt给出的例子

feature_to_discretize = 'Member years'
num_bins = 4

## 返回bins
bins,_ = pd.qcut(data[feature_to_discretize], q=num_bins, labels=None, retbins=True, duplicates='drop')

## 统计取值信息
print(bins.value_counts())

离群值检测

使用拉依达准则对data的特征Member years进行离群值检测；
如果存在离群值，输出离群值的个数outlier_num，并将包含离群值的数据记录保存在变量outeliers中，并打印变量内容。

import pandas as pd 
import numpy as np
data = pd.read_csv('user_review.csv')
member_data = data[['Member years']]

# 请在下方作答 #
## Z-score标准化
std_scaler = StandardScaler()
new_data = std_scaler.fit_transform(member_data)


feature_to_detect_outliers = 'Member years'

# 计算四分位数
Q1 = data[feature_to_detect_outliers].quantile(0.25)
Q3 = data[feature_to_detect_outliers].quantile(0.75)
IQR = Q3 - Q1
inner_fence = 1.5 * IQR  # 内限
outer_fence = 3.0 * IQR  # 外限

## 写出过滤条件
outlier_judge = data[(data[feature_to_detect_outliers] < (Q1 - outer_fence)) | (data[feature_to_detect_outliers] > (Q3 + outer_fence))]

## 统计离群值的个数
outlier_num = len(outlier_judge)

## 包含离群值的数据样本记录
outliers = outlier_judge

## 打印
print(outliers)

1. 简单实现一个深度学习网络

参考：PyTorch深度学习快速入门教程（绝对通俗易懂！）【小土堆】_哔哩哔哩_bilibili

from  torch import  nn
from  torch.nn import Conv2d,MaxPool2d,Flatten,Linear,Sequential


import torchvision
from torch.utils.data import DataLoader


# 准备测试数据集
test_data = torchvision.datasets.CIFAR10("./dataCIT",train=False,transform=torchvision.transforms.ToTensor())


test_loader = DataLoader(dataset=test_data,batch_size=64,shuffle=True,num_workers=0,drop_last=False)

class Tudui(nn.Module):
    def __init__(self):
        super(Tudui,self).__init__()
        # self.conv1 =Conv2d(3,32,5,padding=2)
        # self.maxpool1=MaxPool2d(2)
        # self.conv2 = Conv2d(32, 32, 5, padding=2)
        # self.maxpool2 = MaxPool2d(2)
        # self.conv3 = Conv2d(32, 64, 5, padding=2)
        # self.maxpool3 = MaxPool2d(2)
        # self.flatten = Flatten()
        # self.linear1 =Linear(1024,64)
        # self.linear2 = Linear(64,10)

        # 利用Sequential改写
        self.model1 =Sequential(Conv2d(3,32,5,padding=2),
                                MaxPool2d(2),
                                Conv2d(32, 32, 5, padding=2),
                                MaxPool2d(2),
                                Conv2d(32, 64, 5, padding=2),
                                MaxPool2d(2),
                                Flatten(),
                                Linear(1024, 64),
                                Linear(64, 10),
                                )

    def forward(self,x):
        # x = self.conv1(x)
        # x = self.maxpool1(x)
        # x = self.conv2(x)
        # x = self.maxpool2(x)
        # x = self.conv3(x)
        # x = self.maxpool3(x)
        # x = self.flatten(x)
        # x = self.linear1(x)
        # x = self.linear2(x)

        x =self.model1(x)
        return x

# 定义loss
loss =nn.CrossEntropyLoss()

#搭建网络
tudui =Tudui()

# 选择随机梯度下降作为优化器

optim = torch.optim.SGD(tudui.parameters(),lr=0.01)

for epoch in range(20):
    running_loss=0.0
    for data in test_loader:
        img, targets = data
        outputs = tudui(img)
        result_loss = loss(outputs, targets)  # 计算loss
        optim.zero_grad()  # 对之前的梯度参数进行清零
        result_loss.backward()  # 反向传播
        optim.step()  # 使用优化器对于参数进行调优
        running_loss = running_loss+result_loss
    print(running_loss) # 相当于计算每轮的总loss

输出：

较为完整的训练过程

参考：PyTorch深度学习快速入门教程（绝对通俗易懂！）【小土堆】_哔哩哔哩_bilibili

import  torchvision
from torch.utils.data import  DataLoader
import torch
from torch import nn
from torch.nn import Conv2d,MaxPool2d,Flatten,Linear,Sequential


import torchvision
from torch.utils.data import DataLoader

class Tudui(nn.Module):
    def __init__(self):
        super(Tudui,self).__init__()
        # 不使用Sequential
        # self.conv1 =Conv2d(3,32,5,padding=2)
        # self.maxpool1=MaxPool2d(2)
        # self.conv2 = Conv2d(32, 32, 5, padding=2)
        # self.maxpool2 = MaxPool2d(2)
        # self.conv3 = Conv2d(32, 64, 5, padding=2)
        # self.maxpool3 = MaxPool2d(2)
        # self.flatten = Flatten()
        # self.linear1 =Linear(1024,64)
        # self.linear2 = Linear(64,10)

        # 利用Sequential改写
        self.model1 =Sequential(Conv2d(3,32,5,padding=2),
                                MaxPool2d(2),
                                Conv2d(32, 32, 5, padding=2),
                                MaxPool2d(2),
                                Conv2d(32, 64, 5, padding=2),
                                MaxPool2d(2),
                                Flatten(),
                                Linear(1024, 64),
                                Linear(64, 10),
                                )

    def forward(self,x):
        # x = self.conv1(x)
        # x = self.maxpool1(x)
        # x = self.conv2(x)
        # x = self.maxpool2(x)
        # x = self.conv3(x)
        # x = self.maxpool3(x)
        # x = self.flatten(x)
        # x = self.linear1(x)
        # x = self.linear2(x)

        x = self.model1(x)
        return x

if __name__ == '__main__':
    tudui =Tudui()
    input =torch.ones((64,3,32,32))
    output =tudui(input)
    print(output.shape)

import  torchvision
from torch.utils.data import  DataLoader
import torch
from  torch import  nn
from  torch.nn import Conv2d,MaxPool2d,Flatten,Linear,Sequential


import torchvision
from torch.utils.data import DataLoader
from TuduiModel import *

# 准备数据集
train_data = torchvision.datasets.CIFAR10("./dataCIT",train=True,transform=torchvision.transforms.ToTensor())
test_data = torchvision.datasets.CIFAR10("./dataCIT",train=False,transform=torchvision.transforms.ToTensor())

# len长度
train_data_size = len(train_data)
test_data_size = len(test_data)

# 利用Dataloader来加载数据集
train_dataloader = DataLoader(dataset=train_data,batch_size=64,shuffle=True,num_workers=0,drop_last=False)
test_dataloader = DataLoader(dataset=test_data,batch_size=64,shuffle=True,num_workers=0,drop_last=False)


# 搭建神经网络
tudui = Tudui()

# 定义损失函数 这里由于是分类问题，所以使用了交叉熵作为损失函数
loss_fn =nn.CrossEntropyLoss()

# 定义优化器
learning_rate = 1e-2
optimizer = torch.optim.SGD(tudui.parameters(),lr=learning_rate)

#设置训练网络当中的一些参数

total_train_step =0 # 记录训练从次数
total_test_step =0 #记录测试的次数
epoch = 10 #训练的轮数

for i in range (epoch):
    print("-------------第{}轮训练开始-------------".format(i+1))
    for data in train_dataloader:
        imgs,targets =data
        outputs = tudui(imgs)
        loss = loss_fn(outputs,targets)
        #优化器优化模型
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        total_train_step =total_train_step+1
        if total_train_step% 100 ==0:
            print("训练次数：{},Loss{}".format(total_train_step,loss.item()))

    # 测试步骤
    total_test_loss = 0
    with torch.no_grad(): # 相当于不再对于梯度进行调优
        for data in test_dataloader:
            imgs,targets = data
            output = tudui(imgs)
            loss = loss_fn(output,targets)
            total_test_loss =total_test_loss+loss
    print("整体测试集上的loss：{}".format(total_test_loss))

增加accuracy后

import  torchvision
from torch.utils.data import  DataLoader
import torch
from  torch import  nn
from  torch.nn import Conv2d,MaxPool2d,Flatten,Linear,Sequential


import torchvision
from torch.utils.data import DataLoader
from TuduiModel import *

# 准备数据集
train_data = torchvision.datasets.CIFAR10("./dataCIT",train=True,transform=torchvision.transforms.ToTensor())
test_data = torchvision.datasets.CIFAR10("./dataCIT",train=False,transform=torchvision.transforms.ToTensor())

# len长度
train_data_size = len(train_data)
test_data_size = len(test_data)

# 利用Dataloader来加载数据集
train_dataloader = DataLoader(dataset=train_data,batch_size=64,shuffle=True,num_workers=0,drop_last=False)
test_dataloader = DataLoader(dataset=test_data,batch_size=64,shuffle=True,num_workers=0,drop_last=False)


# 搭建神经网络
tudui = Tudui()

# 定义损失函数 这里由于是分类问题，所以使用了交叉熵作为损失函数
loss_fn =nn.CrossEntropyLoss()

# 定义优化器
learning_rate = 1e-2
optimizer = torch.optim.SGD(tudui.parameters(),lr=learning_rate)

#设置训练网络当中的一些参数

total_train_step =0 # 记录训练从次数
total_test_step =0 #记录测试的次数
epoch = 10 #训练的轮数

# 开始训练

for i in range (epoch):
    print("-------------第{}轮训练开始-------------".format(i+1))
    tudui.train() #让网络进入训练状态
    for data in train_dataloader:
        imgs,targets =data
        outputs = tudui(imgs)
        loss = loss_fn(outputs,targets)
        #优化器优化模型
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        total_train_step =total_train_step+1
        if total_train_step% 100 ==0:
            print("训练次数：{},Loss{}".format(total_train_step,loss.item()))

    # 测试步骤
    tudui.eval() #让网络进入测试状态
    total_test_loss = 0
    total_accuracy =0
    with torch.no_grad(): # 相当于不再对于梯度进行调优
        for data in test_dataloader:
            imgs,targets = data
            output = tudui(imgs)
            loss = loss_fn(output,targets)
            total_test_loss =total_test_loss+loss
            accuracy = (output.argmax(1)== targets).sum()
            total_accuracy =total_accuracy+accuracy
    print("整体测试集上的loss：{}".format(total_test_loss))
    print("整体测试集上的正确率：{}".format(total_accuracy/test_data_size))

使用GPU进行训练版本：

import  torchvision
from torch.utils.data import  DataLoader
import torch
from  torch import  nn
from  torch.nn import Conv2d,MaxPool2d,Flatten,Linear,Sequential


import torchvision
from torch.utils.data import DataLoader
from TuduiModel import *

# 准备数据集
train_data = torchvision.datasets.CIFAR10("./dataCIT",train=True,transform=torchvision.transforms.ToTensor())
test_data = torchvision.datasets.CIFAR10("./dataCIT",train=False,transform=torchvision.transforms.ToTensor())

# len长度
train_data_size = len(train_data)
test_data_size = len(test_data)

# 利用Dataloader来加载数据集
train_dataloader = DataLoader(dataset=train_data,batch_size=64,shuffle=True,num_workers=0,drop_last=False)
test_dataloader = DataLoader(dataset=test_data,batch_size=64,shuffle=True,num_workers=0,drop_last=False)


# 搭建神经网络
tudui = Tudui()
# if torch.cuda.is_available(): 如果未知是否有GPU，可以先进行判断
tudui=tudui.cuda()  # 将模型的训练转移到GPU上

# 定义损失函数 这里由于是分类问题，所以使用了交叉熵作为损失函数
loss_fn =nn.CrossEntropyLoss()
loss_fn = loss_fn.cuda() #将Loss的计算放到GPU当中

# 定义优化器
learning_rate = 1e-2
optimizer = torch.optim.SGD(tudui.parameters(),lr=learning_rate)


#设置训练网络当中的一些参数

total_train_step =0 # 记录训练从次数
total_test_step =0 #记录测试的次数
epoch = 10 #训练的轮数

# 开始训练

for i in range (epoch):
    print("-------------第{}轮训练开始-------------".format(i+1))
    tudui.train() #让网络进入训练状态
    for data in train_dataloader:
        imgs,targets =data
        imgs = imgs.cuda()
        targets = targets.cuda()
        outputs = tudui(imgs)
        loss = loss_fn(outputs,targets)
        #优化器优化模型
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        total_train_step =total_train_step+1
        if total_train_step% 100 ==0:
            print("训练次数：{},Loss{}".format(total_train_step,loss.item()))

    # 测试步骤
    tudui.eval() #让网络进入测试状态
    total_test_loss = 0
    total_accuracy =0
    with torch.no_grad(): # 相当于不再对于梯度进行调优
        for data in test_dataloader:
            imgs,targets = data
            imgs =imgs.cuda()
            targets =targets.cuda()
            output = tudui(imgs)
            loss = loss_fn(output,targets)
            total_test_loss =total_test_loss+loss
            accuracy = (output.argmax(1)== targets).sum()
            total_accuracy =total_accuracy+accuracy
    print("整体测试集上的loss：{}".format(total_test_loss))
    print("整体测试集上的正确率：{}".format(total_accuracy/test_data_size))

2. 使用CIFAR10实现图像识别

CIFAR-10 数据集包括 60000 张 32x32 的彩色图像，分为 10 个类别，每个类别包含 6000 张图像。其中，50000 张图像用于训练，10000 张图像用于测试。

模型训练

import  torchvision
from torch.utils.data import  DataLoader
import torch
from  torch import  nn
from  torch.nn import Conv2d,MaxPool2d,Flatten,Linear,Sequential


import torchvision
from torch.utils.data import DataLoader
from TuduiModel import *

# 准备数据集
train_data = torchvision.datasets.CIFAR10("./dataCIT",train=True,transform=torchvision.transforms.ToTensor())
test_data = torchvision.datasets.CIFAR10("./dataCIT",train=False,transform=torchvision.transforms.ToTensor())

# len长度
train_data_size = len(train_data)
test_data_size = len(test_data)

# 利用Dataloader来加载数据集
train_dataloader = DataLoader(dataset=train_data,batch_size=64,shuffle=True,num_workers=0,drop_last=False)
test_dataloader = DataLoader(dataset=test_data,batch_size=64,shuffle=True,num_workers=0,drop_last=False)


# 搭建神经网络
tudui = Tudui()
# if torch.cuda.is_available(): 如果未知是否有GPU，可以先进行判断
tudui=tudui.cuda()  # 将模型的训练转移到GPU上

# 定义损失函数 这里由于是分类问题，所以使用了交叉熵作为损失函数
loss_fn =nn.CrossEntropyLoss()
loss_fn = loss_fn.cuda() #将Loss的计算放到GPU当中

# 定义优化器
learning_rate = 1e-2
optimizer = torch.optim.SGD(tudui.parameters(),lr=learning_rate)


#设置训练网络当中的一些参数

total_train_step =0 # 记录训练从次数
total_test_step =0 #记录测试的次数
epoch = 60 #训练的轮数

# 开始训练

for i in range (epoch):
    print("-------------第{}轮训练开始-------------".format(i+1))
    tudui.train() #让网络进入训练状态
    for data in train_dataloader:
        imgs,targets =data
        imgs = imgs.cuda()
        targets = targets.cuda()
        outputs = tudui(imgs)
        loss = loss_fn(outputs,targets)
        #优化器优化模型
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        total_train_step =total_train_step+1
        if total_train_step% 100 ==0:
            print("训练次数：{},Loss{}".format(total_train_step,loss.item()))

    # 测试步骤
    tudui.eval() #让网络进入测试状态
    total_test_loss = 0
    total_accuracy =0
    with torch.no_grad(): # 相当于不再对于梯度进行调优
        for data in test_dataloader:
            imgs,targets = data
            imgs =imgs.cuda()
            targets =targets.cuda()
            output = tudui(imgs)
            loss = loss_fn(output,targets)
            total_test_loss =total_test_loss+loss
            accuracy = (output.argmax(1)== targets).sum()
            total_accuracy =total_accuracy+accuracy
    print("整体测试集上的loss：{}".format(total_test_loss))
    print("整体测试集上的正确率：{}".format(total_accuracy/test_data_size))

torch.save(tudui,"tudui_{}.pth".format(60))
print("模型已保存")

模型预测

import  torchvision
from torch.utils.data import  DataLoader
import torch
from torch import nn
from torch.nn import Conv2d,MaxPool2d,Flatten,Linear,Sequential
from  PIL import  Image


import torchvision
from torch.utils.data import DataLoader
image_path = "testPic/img_5.png"
image = Image.open(image_path)
image = image.convert('RGB')
transform = torchvision.transforms.Compose([torchvision.transforms.Resize((32, 32)),
                                            torchvision.transforms.ToTensor()])
image = transform(image)
image = image.cuda()

#
# class Tudui(nn.Module):
#     def __init__(self):
#         super(Tudui, self).__init__()
#         self.model = nn.Sequential(
#             nn.Conv2d(3, 32, 5, 1, 2),
#             nn.MaxPool2d(2),
#             nn.Conv2d(32, 32, 5, 1, 2),
#             nn.MaxPool2d(2),
#             nn.Conv2d(32, 64, 5, 1, 2),
#             nn.MaxPool2d(2),
#             nn.Flatten(),
#             nn.Linear(64*4*4, 64),
#             nn.Linear(64, 10)
#         )
#
#     def forward(self, x):
#         x = self.model(x)
#         return x

model =torch.load("tudui_60.pth",)
image =torch.reshape(image,(1,3,32,32))
model.eval()
with torch.no_grad():
    output = model(image)
    Max_Value = torch.max(output)
    max_index = torch.argmax(output)
    max_index_item = max_index.item()
# if max_index_item == 0:
#     print("此图片当中的物体是飞机")
# elif max_index_item ==1:
#     print("此图片当中的物体是汽车")
# elif max_index_item ==2:
#     print("此图片当中的物体是鸟")
# elif max_index_item ==3:
#     print("此图片当中的物体是猫")
# elif max_index_item ==4:
#     print("此图片当中的物体是鹿")
# elif max_index_item ==5:
#     print("此图片当中的物体是狗")
# elif max_index_item ==6:
#     print("此图片当中的物体是青蛙")
# elif max_index_item ==7:
#     print("此图片当中的物体是马")
# elif max_index_item ==8:
#     print("此图片当中的物体是船")
# elif max_index_item ==9:
#     print("此图片当中的物体卡车")

# 创建一个字典，将索引值映射到对应的物体名称
class_map = {
    0: "飞机",
    1: "汽车",
    2: "鸟",
    3: "猫",
    4: "鹿",
    5: "狗",
    6: "青蛙",
    7: "马",
    8: "船",
    9: "卡车"
}

# 使用字典查找索引对应的物体名称
if max_index_item in class_map:
    object_name = class_map[max_index_item]
    print(f"此图片当中的物体是{object_name}")
else:
    print("未知物体")

训练效果：

以该图片为例，当设置模型训练epoch为40时，无法成功识别：（

当设置模型训练epoch为60时，成功识别柯基：）

预测模型改进空间：

可以使用更大的训练数据集；

可以使用效果更好的训练模型；

现有只可以对CIFAR-10当中标注的10个类别进行预测，难以对更多的物体类别进行预测。

3. Pytorch当中Dataset和Dataloader类的使用

# 首先想要构建自己的Dataset类 需要继承pytorch官方的Dataset类，同时自定义的Dataset类必须实现__init__, _len_, 和__getitem__
#A custom Dataset class must implement three functions: __init__, __len__, and __getitem__.

# Dataset
# Pytorch 官方Dataset示例代码
import os
import pandas as pd
from torch.utils.data import Dataset
from torch.utils.data import DataLoader
from torchvision.io import read_image

class CustomImageDataset(Dataset):
    # The __init__ function is run once when instantiating the Dataset object.
    def __init__(self, annotations_file, img_dir, transform=None, target_transform=None):
        self.img_labels = pd.read_csv(annotations_file) # annotations_file 这个文件当中相当于存储着图片的名称信息和其对应的label信息
        self.img_dir = img_dir # 存储图片的文件夹
        self.transform = transform # 可以自定义一个对于图像进行预处理的函数
        self.target_transform = target_transform # 可以自定义一个对于标签进行预处理的函数

    # The __len__ function returns the number of samples in our dataset.

    def __len__(self):
        return len(self.img_labels)

    # The __getitem__ function loads and returns a sample from the dataset at the given index idx
    def __getitem__(self, idx):
        # 对图片的地址进行拼接
        img_path = os.path.join(self.img_dir, self.img_labels.iloc[idx, 0]) # Pandas DataFrame对象上的一种索引和访问方式，用于从DataFrame中获取特定位置的数据。是Pandas DataFrame对象上的索引器，它用于通过行和列的整数位置来访问数据
        image = read_image(img_path)
        label = self.img_labels.iloc[idx, 1]
        if self.transform:
            image = self.transform(image)
        if self.target_transform:
            label = self.target_transform(label)
        return image, label

training_data = CustomImageDataset()
test_data =CustomImageDataset()



# Dataloader
# reparing your data for training with DataLoaders
# The Dataset retrieves our dataset’s features and labels one sample at a time. While training a model, we typically want to pass samples in “minibatches”, reshuffle the data at every epoch to reduce model overfitting, and use Python’s multiprocessing to speed up data retriev
# 数据集（Dataset）一次获取我们数据集的一个样本的特征和标签。
# 在训练模型时，通常希望以“小批量”（minibatches）的方式传递样本，每个时期重新洗牌数据以减少模型过拟合，并使用Python的多进程（multiprocessing）加速数据获取。

# 示例代码
train_dataloader = DataLoader(training_data, batch_size=64, shuffle=True)
test_dataloader = DataLoader(test_data, batch_size=64, shuffle=True)

import torch
from torchvision import datasets
from torchvision.transforms import ToTensor, Lambda
from  torchvision import transforms
from PIL import Image


# Data does not always come in its final processed form that is required for training machine learning algorithms.
# We use transforms to perform some manipulation of the data and make it suitable for training.
# All TorchVision datasets have two parameters -transform to modify the features
# and target_transform to modify the label

# transform类似一个工具箱
# 使用transform需要关注输入和输出，需要关注方法需要什么参数

# transform.Totensor Totensor的使用是将一个PIL Image或者numpy.ndarray转变为tensor

img_path = "hymenoptera_data/train/ants/0013035.jpg"
img =Image.open(img_path)

# 将图片转化为张量
tensor_trans = transforms.ToTensor()# 相当于利用transform这个工具箱创建了一个自己的工具
tensor_img =tensor_trans(img)
#print(tensor_img)


# Normalize  Normalize a tensor image with mean and stand deviation
trans_norm = transforms.Normalize([0.5,0.5,0.5],[0.5,0.5,0.5]) #  是PyTorch中的一个图像转换函数，它用于对图像的每个通道进行标准化（normalize）。这个函数通常用于在深度学习模型的训练中对输入数据进行预处理，以便提高模型的训练效果
img_norm =trans_norm(tensor_img)


# Resize Resize the input PIL Image to the given size

print(img.size)
trans_resize = transforms.Resize((512,512))
img_resize =trans_resize(img)
img_resize =tensor_trans(img_resize)
print(img_resize)

# Compose
#使用transforms.Compose创建了一个组合的图像变换。transforms.Compose 允许你将多个图像变换按顺序组合在一起，以便在一次操作中应用它们。在这个例子中，首先应用了trans_resize_2来将图像调整为512x512像素的大小，然后应用了tensor_trans来将其转换为PyTorch张量。
trans_resize_2 = transforms.Resize(512)
trans_compose = transforms.Compose([trans_resize_2,tensor_trans])
img_resize_2 = trans_compose(img)

# pytorch官方示例
ds = datasets.FashionMNIST(
    root="data",
    train=True,
    download=True,
    transform=ToTensor(),
    target_transform=Lambda(lambda y: torch.zeros(10, dtype=torch.float).scatter_(0, torch.tensor(y), value=1))
)

# target_transform=Lambda(lambda y: torch.zeros(10, dtype=torch.float).scatter_(0, torch.tensor(y), value=1))含义：
# 这段代码似乎是为了将标签数据从一个类别索引的形式转换为独热编码（one-hot encoding）的形式。一般情况下，神经网络在训练过程中常用独热编码来表示类别标签，其中每个类别都被编码为一个二进制向量，只有对应类别的位置为1，其他位置为0。

# 这里使用了PyTorch的张量操作来执行这个转换。让我们分解代码的不同部分：

# target_transform=：这是一个参数，通常用于数据集对象，以指定如何转换标签数据。

# Lambda(lambda y: ...)：这部分使用Python的lambda函数创建一个匿名函数，该函数接受一个参数y，即原始的类别标签。

# torch.zeros(10, dtype=torch.float)：这个部分创建了一个包含10个零的张量，数据类型为浮点型。

#.scatter_(0, torch.tensor(y), value=1)：这是一个张量操作，它将1的值散布到张量的特定位置。具体地说，它将标签y处的位置设置为1，而其他位置保持为0。0参数表示维度0，torch.tensor(y)表示要在哪个位置设置1，value=1表示要设置的值为1。

# 综合起来，这段代码的目的是将原始的类别标签 y 转换为一个长度为10的独热编码张量，其中对应类别的位置为1，其他位置为0。这个转换通常用于多类别分类问题，其中有10个类别，每个类别由一个索引标识，而模型需要以独热编码的形式来处理这些标签。

4. Pytorch当中的transforms的使用

import torch
from torchvision import datasets
from torchvision.transforms import ToTensor, Lambda
from  torchvision import transforms
from PIL import Image


# Data does not always come in its final processed form that is required for training machine learning algorithms.
# We use transforms to perform some manipulation of the data and make it suitable for training.
# All TorchVision datasets have two parameters -transform to modify the features
# and target_transform to modify the label

# transform类似一个工具箱
# 使用transform需要关注输入和输出，需要关注方法需要什么参数

# transform.Totensor Totensor的使用是将一个PIL Image或者numpy.ndarray转变为tensor

img_path = "hymenoptera_data/train/ants/0013035.jpg"
img =Image.open(img_path)

# 将图片转化为张量
tensor_trans = transforms.ToTensor()# 相当于利用transform这个工具箱创建了一个自己的工具
tensor_img =tensor_trans(img)
#print(tensor_img)


# Normalize  Normalize a tensor image with mean and stand deviation
trans_norm = transforms.Normalize([0.5,0.5,0.5],[0.5,0.5,0.5]) #  是PyTorch中的一个图像转换函数，它用于对图像的每个通道进行标准化（normalize）。这个函数通常用于在深度学习模型的训练中对输入数据进行预处理，以便提高模型的训练效果
img_norm =trans_norm(tensor_img)


# Resize Resize the input PIL Image to the given size

print(img.size)
trans_resize = transforms.Resize((512,512))
img_resize =trans_resize(img)
img_resize =tensor_trans(img_resize)
print(img_resize)

# Compose
#使用transforms.Compose创建了一个组合的图像变换。transforms.Compose 允许你将多个图像变换按顺序组合在一起，以便在一次操作中应用它们。在这个例子中，首先应用了trans_resize_2来将图像调整为512x512像素的大小，然后应用了tensor_trans来将其转换为PyTorch张量。
trans_resize_2 = transforms.Resize(512)
trans_compose = transforms.Compose([trans_resize_2,tensor_trans])
img_resize_2 = trans_compose(img)

# pytorch官方示例
ds = datasets.FashionMNIST(
    root="data",
    train=True,
    download=True,
    transform=ToTensor(),
    target_transform=Lambda(lambda y: torch.zeros(10, dtype=torch.float).scatter_(0, torch.tensor(y), value=1))
)

# target_transform=Lambda(lambda y: torch.zeros(10, dtype=torch.float).scatter_(0, torch.tensor(y), value=1))含义：
# 这段代码似乎是为了将标签数据从一个类别索引的形式转换为独热编码（one-hot encoding）的形式。一般情况下，神经网络在训练过程中常用独热编码来表示类别标签，其中每个类别都被编码为一个二进制向量，只有对应类别的位置为1，其他位置为0。

# 这里使用了PyTorch的张量操作来执行这个转换。让我们分解代码的不同部分：

# target_transform=：这是一个参数，通常用于数据集对象，以指定如何转换标签数据。

# Lambda(lambda y: ...)：这部分使用Python的lambda函数创建一个匿名函数，该函数接受一个参数y，即原始的类别标签。

# torch.zeros(10, dtype=torch.float)：这个部分创建了一个包含10个零的张量，数据类型为浮点型。

#.scatter_(0, torch.tensor(y), value=1)：这是一个张量操作，它将1的值散布到张量的特定位置。具体地说，它将标签y处的位置设置为1，而其他位置保持为0。0参数表示维度0，torch.tensor(y)表示要在哪个位置设置1，value=1表示要设置的值为1。

# 综合起来，这段代码的目的是将原始的类别标签 y 转换为一个长度为10的独热编码张量，其中对应类别的位置为1，其他位置为0。这个转换通常用于多类别分类问题，其中有10个类别，每个类别由一个索引标识，而模型需要以独热编码的形式来处理这些标签。

5. Pytorch 当中的nn.Module 类

# Neural networks comprise of layers/modules that perform operations on data.
# The torch.nn namespace provides all the building blocks you need to build your own neural network.
# Every module in PyTorch subclasses the nn.Module.
# A neural network is a module itself that consists of other modules (layers).
# #This nested structure allows for building and managing complex architectures easily

# 神经网络由对数据执行操作的层/模块组成。
# torch.nn 命名空间提供了构建自己的神经网络所需的所有基本组件。
# PyTorch 中的每个模块都是 nn.Module 的子类。
# 神经网络本身也是一个模块，它由其他模块（层）组成。
# 这种嵌套结构使得轻松构建和管理复杂的体系结构成为可能

import os
import torch
from torch import nn
from torch.utils.data import DataLoader
from torchvision import datasets, transforms

# Get Device for training
# We want to be able to train our model on a hardware accelerator like the GPU or MPS, if available.
# Let’s check to see if torch.cuda or torch.backends.mps are available, otherwise we use the CPU.

device = (
    "cuda"
    if torch.cuda.is_available()
    else "mps"
    if torch.backends.mps.is_available()
    else "cpu"
)

# 定义了一个类
# 值得注意的是，这个类继承于nn.Module
class NeuralNetwork(nn.Module):
    def __init__(self):
        super().__init__() # 表示调用了父类的方法
        self.flatten = nn.Flatten()

        # nn.Sequential相当于可以将括号当中的层进行自动的串联
        self.linear_relu_stack = nn.Sequential(
            nn.Linear(28*28, 512), # 第一个参数表示输入层的特征维度，第二个参数表示隐藏层的大小
            nn.ReLU(),   # 非线性层激活函数
            nn.Linear(512, 512),
            nn.ReLU(),
            nn.Linear(512, 10),
        )

    # forward 函数不需要去进行显示的调用

    def forward(self, x):
        x = self.flatten(x)
        logits = self.linear_relu_stack(x)
        return logits
# To use the model, we pass it the input data.
# This executes the model’s forward, along with some background operations. Do not call model.forward() directly!

# We create an instance of NeuralNetwork, and move it to the device, and print its structure.
model = NeuralNetwork().to(device)
print(model)

X = torch.rand(1, 28, 28, device=device)
logits = model(X)
pred_probab = nn.Softmax(dim=1)(logits) # 对 logits 进行 softmax 操作，将其转换为概率分布。Softmax 操作使得每个类别的输出变为0到1之间的概率，使得它们的总和等于1。
y_pred = pred_probab.argmax(1) # 这一行代码找到具有最高概率的类别索引，即对每个样本找到最有可能的类别
print(f"Predicted class: {y_pred}")

# nn.Flatten的用法
input_image = torch.rand(3,28,28)
flatten = nn.Flatten()
flat_image = flatten(input_image)
print(flat_image.size())

nn.Flatten的用法

第一个参数是开始flatten的维度，第二个参数是结束flatten的维度

import torch
from torch import nn
input_image = torch.rand(8,8,28,28)
flatten = nn.Flatten(1,2)
flat_image = flatten(input_image)
print(flat_image.size())

import torch
from torch import nn
input_image = torch.rand(8,8,28,28)
flatten = nn.Flatten()
flat_image = flatten(input_image)
print(flat_image.size())

nn.linear的用法

import torch
from torch import nn
# The linear layer is a module that applies a linear transformation on the input using its stored weights and biases.
# 第一个参数表示线性层接受的输入特征的维度，
# 第二个参数表示输出特征特征的维度
m = nn.Linear(20, 30)
input = torch.randn(99, 20)# 表示有99个样本，每个样本包含20维的特征
output = m(input)
print(output.size())

值得注意的是：输入的input的特征维度需要等于线性层一个参数

nn.RELU的用法

print(f"Before ReLU: {hidden1}\n\n")
hidden1 = nn.ReLU()(hidden1) # 注意。在使用是需要对RELU（）类进行实例化
print(f"After ReLU: {hidden1}")

nn.Sequential的用法

import torch
from torch import nn
# nn.Sequential is an ordered container of modules. The data is passed through all the modules in the same order as defined. 
# You can use sequential containers to put together a quick network like seq_modules.
seq_modules = nn.Sequential(
    flatten,
    layer1,
    nn.ReLU(),
    nn.Linear(20, 10)
)
input_image = torch.rand(3,28,28)
logits = seq_modules(input_image)

nn.Sequential相当于是一个容器

6. 深度学习当中的线性回归

import torch
import random




# 构建训练数据集
def Dataset(w,b,num_examples):
    X = torch.normal(0,1,(num_examples,len(w))) # 随机生成满足正态分布的数据
    y = torch.matmul(X,w)+b
    y += torch.normal(0,0.01,y.shape)
    return X,y.reshape((-1,1))


true_w =torch.tensor([2,-3.4])
true_b = 4.2
features, labels = Dataset(true_w,true_b,1000)


# 定义dataloader
def data_iter(batch_size,features,labels):
     num_examples = len(features)
     indices = list(range(num_examples))
     random.shuffle(indices)
     for i in range(0,num_examples,batch_size):
         batch_index = torch.tensor(indices[i:min(i+batch_size,num_examples)])
         # yield 是用于定义生成器（generator）的关键字，用于创建一个特殊的迭代器。
         # 生成器是一种能够生成一系列值的函数，但与普通函数不同，它可以保存函数的状态并在需要时按需生成值，
         # 而不是一次性生成所有值并将它们存储在内存中。
         yield features[batch_index],labels[batch_index]

# 初始化模型参数
w = torch.normal(0,0.01,size=(2,1),requires_grad=True)
b = torch.zeros(1,requires_grad=True)



# 定义模型
def linreg(x,w,b):
    return torch.matmul(x,w)+b
#定义损失函数
def squared_loss(y_hat, y):  #@save
    """均方损失"""
    return (y_hat - y.reshape(y_hat.shape)) ** 2
#定义优化器
def sgd(params, lr, batch_size):  #@save
    """小批量随机梯度下降"""
    with torch.no_grad(): # 上下文管理器的作用是将其内部的操作标记为不需要梯度信息
        for param in params:
            param -= lr * param.grad / batch_size
            param.grad.zero_()

lr = 0.03
num_epochs = 3
net = linreg
loss = squared_loss
batch_size = 10

for epoch in range(num_epochs):
    for X, y in data_iter(batch_size, features, labels):
        l = loss(net(X, w, b), y)  # X和y的小批量损失
        # 因为l形状是(batch_size,1)，而不是一个标量。l中的所有元素被加到一起，
        # 并以此计算关于[w,b]的梯度
        l.sum().backward()
        sgd([w, b], lr, batch_size)  # 使用参数的梯度更新参数
    with torch.no_grad():
        train_l = loss(net(features, w, b), labels)
        print(f'epoch {epoch + 1}, loss {float(train_l.mean()):f}')

7. 分类问题当中的分类精度


import torch
from IPython import display
from d2l import torch as d2l
import matplotlib.pyplot as plt

import os

y = torch.tensor([0, 2])
y_hat = torch.tensor([[0.1, 0.3, 0.6], [0.3, 0.2, 0.5]])
# y_hat_max = y_hat.argmax(axis=1)
# print(y_hat_max)
# print(y_hat_max.type)




# 分类精度
def accuracy(y_hat, y):  #@save
    """计算预测正确的数量"""
    # 如果y_hat是矩阵，那么假定第二个维度存储每个类的预测分数。
    # 我们使用argmax获得每行中最大元素的索引来获得预测类别。
    # 然后我们将预测类别与真实y元素进行比较。
    if len(y_hat.shape) > 1 and y_hat.shape[1] > 1:
        # .argmax() 是一个张量方法，用于找到张量中具有最大值的元素的索引
        y_hat = y_hat.argmax(axis=1)

        #由于等式运算符“ == ”对数据类型很敏感，
        # 因此我们将y_hat的数据类型转换为与y的数据类型一致。
        # 结果是一个包含0（错）和1（对）的张量
    cmp = y_hat.type(y.dtype) == y

    return float(cmp.type(y.dtype).sum())

print(accuracy(y_hat, y) / len(y))

8. SoftMax

# 定义softmax计算方法
def softmax(X):
    X_exp = torch.exp(X)
    partition = X_exp.sum(1, keepdim=True)
    return X_exp / partition  # 这里应用了广播机制

X = torch.normal(0, 1, (2, 5))
X_prob = softmax(X)
X_prob, X_prob.sum(1)

你可能感兴趣的:(Pytorch,深度学习,python)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
苦练Python第9天：if-else分支九剑 python后端前端人工智能
苦练Python第9天：if-else分支九剑前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众号：倔强青铜三。欢迎点赞、收藏、关注，一键三连！！！欢迎来到100天Python挑战第9天！今天我们不练循环，改磨“分支剑法”——ifelse三式：单分支、双分支、多分支，以及嵌套和三元运算符，全部实战演练，让
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分