静静喜欢大白

Python-20分钟入门torch

回归问题

数据生成(包含数据集划分）

梯度下降

步骤一：计算损失

步骤二：计算梯度

步骤三：更新参数

步骤四：重复上述步骤（针对不同情况的每个epoch的参数更新量N/一次训练传入的数据集大小）

线性回归的Numpy实现（手动计算梯度+手动更新参数+手动定义损失函数）

PyTorch

Tensor（张量）

数据载入、设备和CUDA

创建参数

Autograd（自动计算梯度包）

动态计算图

Optimizer（自动更新参数）

损失（自动调用损失函数）

模型定义(init定义操作+foward计算输出)

嵌套模型

序贯模型

单步训练函数（fullbatch）

Dataset（元组列表：特征，标签；方便进行数据划分dataloader-minibatch；在CPU上的处理）

DataLoader(训练集/验证集数据切片-minibatch;元组：特征，标签）

验证（设定验证模式；不需要计算梯度）

完整的代码实现

转载

本文翻译自towardsdatascience上非常火爆的PyTorch介绍

https://towardsdatascience.com/understanding-pytorch-with-an-example-a-step-by-step-tutorial-81fc5f8c4e8etowardsdatascience.com

作者同时也正在出书

Deep Learning with PyTorch Step-by-Step: A Beginner’s Guideleanpub.com

希望能帮助到有需要的人。

本篇文章主要涉及以下方面内容：

一个简单的回归问题
梯度下降
线性回归的Numpy实现
PyTorch
Autograd
Dynamic Computation Graph 动态计算图
Optimizer 优化器
Loss 损失
Model 模型
Dataset 数据集
DataLoader 数据加载器
Evaluation 评估

回归问题

考虑一个只有一个特征 x 的回归问题

数据生成(包含数据集划分）

假设模型参数的真实值为 a=1,b=2 ，噪声为高斯白噪声，生成 100个样本数据

np.random.seed(42)
x = np.random.rand(100,1)
y = 1 + 2*x + .1*np.random.rand(100,1)

将数据集分为训练集和验证集，将次序打乱并将前 80 个样本用于训练

# 打乱次序
idx = np.arange(100)
np.random.shuffle(idx)
# 前80个样本用于训练
train_idx = idx[:80]
val_idx = idx[80:]
# 创建训练集和验证集
x_train, y_train = x[train_idx], y[train_idx]
x_val, y_val = x[val_idx], y[val_idx]

接下来我们来看看如果利用梯度下降法来学习模型参数。

梯度下降

步骤一：计算损失

需要注意：如果我们将所有( N个)训练数据都用于计算损失，则是批(batch)梯度下降；如果只用一个点来计算损失，则是随机梯度下降(SGD)；如果数据点介于 1 到N 则是最小(mini-batch)梯度下降。

带入模型后

步骤二：计算梯度

一个梯度就是关于一个参数的偏导数，因为我们这里有两个参数 a和 b，因此需要计算两个偏导数。这里需要利用到链式法则

其中x_i和y_i就是真实的x_train和y_train值
x_hat和y_ha就是模型计算预测的值

步骤三：更新参数

我们利用梯度来更新参数，由于我们要最小化损失，所以参数的更新方向需要往负梯度方向进行。

其中 n 为学习率。

步骤四：重复上述步骤（针对不同情况的每个epoch的参数更新量N/一次训练传入的数据集大小）

采用更新后的参数并回到步骤一重复以上过程。

一个epoch完成指的是所有样本点都已经被用来计算损失了。比如批梯度下降，一次参数的更新就是一个epoch；
对于随机梯度下降，一个epoch对应 N次参数更新；
而最小批梯度下降，一个epoch对应 N/n 次更新。

线性回归的Numpy实现（手动计算梯度+手动更新参数+手动定义损失函数）

首先随机初始化参数 a,b

np.random.seed(42)
a = np.random.randn(1)
b = np.random.randn(1)

设置学习率和epoch数目

lr = 1e-1
n_epochs = 1000 # 全部数据需要用来训练几次

在每个epoch中执行

for epoch in range(n_epochs):
    # 计算模型的预测
    yhat = a + b * x_train
    
    # 计算模型的预测误差 
    error = (y_train - yhat)
    # 计算损失(MSE)，对应公式（3）
    loss = (error ** 2).mean()
    
    # 计算梯度，对应公式（4）
    a_grad = -2 * error.mean()
    b_grad = -2 * (x_train * error).mean()
    
    # 更新模型参数，对应公式（5）
    a = a - lr * a_grad
    b = b - lr * b_grad

我们也可以调用 Scikit-Learn 的线性回归来拟合模型然后比较我们梯度下降得到的参数和 Scikit-Learn 得到的是否一致

将真实值x_i和y_i传入即可
也就是传入x_train, y_train

from sklearn.linear_model import LinearRegression
linr = LinearRegression()
linr.fit(x_train, y_train)
print(a, b)
print(linr.intercept_, linr.coef_[0])

是时候进入PyTorch了！

PyTorch

首先我们要熟悉一些基础的概念，比如说

Tensor（张量）

张量其实就是任意维度的矩阵，比如标量就是零维张量，向量就是一维张量，矩阵就是二维张量。

数据载入、设备和CUDA

我们可以直接将numpy中的array转化为张量，并定义为是GPU中的张量，还是CPU中的张量（这里的设备指的是CPU或GPU）

import torch
import torch.optim as optim
import torch.nn as nn
from torchviz import make_dot

# 如果有GPU则用GPU，没有则用CPU
device = 'cuda' if torch.cuda.is_available() else 'cpu'

# 将Numpy的array转化为tensor并指定设备
x_train_tensor = torch.from_numpy(x_train).float().to(device)
y_train_tensor = torch.from_numpy(y_train).float().to(device)

# 观察它们类别的不同
print(type(x_train), type(x_train_tensor), x_train_tensor.type())

可以看到第一个的类别是numpy.ndarray，第二个的类别是torch.Tensor。

同样也可以将张量转化为Numpy中的array，使用指令x_train_tensor.numpy()即可，需要注意的是如果是GPU中的张量需要先（用"cpu()"）转为CPU型张量再进一步转化。

创建参数

了解张量后我们需要将需要学习的参数创建成张量的形式，并声明是否需要计算梯度，同时也可以声明设备。

# 随机初始化参数，并声明需要计算梯度：REQUIRES_GRAD = TRUE，tensor的位置。
torch.manual_seed(42)
a = torch.randn(1, requires_grad=True, dtype=torch.float, device=device)
b = torch.randn(1, requires_grad=True, dtype=torch.float, device=device)
print(a, b)

Autograd（自动计算梯度包）

Autograd 是 PyTorch 的自动微分包，可以帮我们自动计算出所有梯度。

使用 bachward() 指令告诉PyTorch计算梯度，由于我们计算梯度都是从损失函数计算的，因此我们需要在对应的变量调用backward()指令，比如：loss.backward()
通过张量的 grad 属性可以知道梯度的具体数值。
由于梯度的计算是累积的，每次更新完参数后我们需要将梯度清零：zero_()
由于 PyTorch默认使用的是动态图，如果要对梯度进行常规 Python 操作，需要使用：torch.no_grad()

lr = 1e-1
n_epochs = 1000

torch.manual_seed(42)
a = torch.randn(1, requires_grad=True, dtype=torch.float, device=device)
b = torch.randn(1, requires_grad=True, dtype=torch.float, device=device)

for epoch in range(n_epochs):
    yhat = a + b * x_train_tensor
    error = y_train_tensor - yhat
    loss = (error ** 2).mean()

    # 不需要再手动计算梯度了 
    # a_grad = -2 * error.mean()
    # b_grad = -2 * (x_tensor * error).mean()
    
    # 直接在loss后调用计算梯度指令
    loss.backward()
    # 计算出来的梯度
    print(a.grad)
    print(b.grad)
    
    # 参数的更新 
    # 需要声明不需要涉及动态图的运算
    with torch.no_grad():
        a -= lr * a.grad
        b -= lr * b.grad
    
    # 将梯度清空
    a.grad.zero_()
    b.grad.zero_()
    
print(a, b)

动态计算图

PyTorchViz 工具包的 make_dot(variable) 方法能够让我们看到相应变量的计算图。

torch.manual_seed(42)
a = torch.randn(1, requires_grad=True, dtype=torch.float, device=device)
b = torch.randn(1, requires_grad=True, dtype=torch.float, device=device)

yhat = a + b * x_train_tensor
error = y_train_tensor - yhat
loss = (error ** 2).mean()

如果我们调用 make_dot(yhat)，可以看到

其中

蓝色方框表示的是我们需要计算梯度的那些参数
灰色方框表示的是 Python 涉及梯度计算的操作
绿色方框表示的和灰色方框一样，并声明了梯度计算的起点（backward()作用的对象）
由于我们不对 x 计算梯度，因此并没有和 x对应的框。no gradients, no graph.

动态图的一个优点是我们可以根据自己的需求设计梯度的计算方向，比如

yhat = a + b * x_train_tensor
error = y_train_tensor - yhat
loss = (error ** 2).mean()
# 有两个分叉
if loss > 0:
    yhat2 = b * x_train_tensor
    error2 = y_train_tensor - yhat2

loss += error2.mean()

对应的计算图为

Optimizer（自动更新参数）

现在你能够利用 PyTorch 自动计算出来梯度并手动更新参数了，但是如果有一堆的参数，我们可以利用 PyTorch 的优化器，比如 SGD 或者 Adam，来更加高效地更新参数。

定义随机梯度下降优化器用来优化参数
使用 step() 更新参数
不需要逐个清零梯度，只需要调用优化器的 zero_grad()

torch.manual_seed(42)
a = torch.randn(1, requires_grad=True, dtype=torch.float, device=device)
b = torch.randn(1, requires_grad=True, dtype=torch.float, device=device)
print(a, b)

lr = 1e-1
n_epochs = 1000

# 定义随机梯度下降优化器用来优化参数
optimizer = optim.SGD([a, b], lr=lr)

for epoch in range(n_epochs):
    yhat = a + b * x_train_tensor
    error = y_train_tensor - yhat
    loss = (error ** 2).mean()

    loss.backward()    
    
    # 不需要再手动更新了
    # with torch.no_grad():
    #     a -= lr * a.grad
    #     b -= lr * b.grad
    optimizer.step()
    
    # 不需要再清零梯度
    # a.grad.zero_()
    # b.grad.zero_()
    optimizer.zero_grad()
    
print(a, b)

损失（自动调用损失函数）

PyTorch覆盖了大部分我们可能用到的损失函数，对于回归问题我们采用的是MSE，定义了损失函数我们就没必要自己计算损失了。

直接调用torch自带的MSE损失函数

torch.manual_seed(42)
a = torch.randn(1, requires_grad=True, dtype=torch.float, device=device)
b = torch.randn(1, requires_grad=True, dtype=torch.float, device=device)
print(a, b)

lr = 1e-1
n_epochs = 1000

# 定义MSE损失函数
loss_fn = nn.MSELoss(reduction='mean')

optimizer = optim.SGD([a, b], lr=lr)

for epoch in range(n_epochs):
    yhat = a + b * x_train_tensor
    
    # 不需要自己计算损失了
    # error = y_tensor - yhat
    # loss = (error ** 2).mean()
    loss = loss_fn(y_train_tensor, yhat)

    loss.backward()    
    optimizer.step()
    optimizer.zero_grad()
    
print(a, b)

接下来我们再看看如何利用模型进行预测。

模型定义(init定义操作+foward计算输出)

在 PyTorch 中模型用 python 中的类（class）表示

最基本的方法是

__init__(self)：它定义了模型的组成部分，在回归例子里是两个参数a,b
- 在模型里需要将参数包装为 nn.Parameter
forward(self, x): 它根据输入x 计算输出

class ManualLinearRegression(nn.Module):
    def __init__(self):
        super().__init__()
        # 在模型里我们将参数包装为 nn.Parameter
        self.a = nn.Parameter(torch.randn(1, requires_grad=True, dtype=torch.float))
        self.b = nn.Parameter(torch.randn(1, requires_grad=True, dtype=torch.float))
        
    def forward(self, x):
        # 计算预测
        return self.a + self.b * x

注意：我们需要将模型和数据放在同一设备中（GPU或CPU）。

torch.manual_seed(42)

# 创建模型并指定设备
model = ManualLinearRegression().to(device)
# 使用 state_dict 看参数
print(model.state_dict())

lr = 1e-1
n_epochs = 1000

loss_fn = nn.MSELoss(reduction='mean')
optimizer = optim.SGD(model.parameters(), lr=lr)

for epoch in range(n_epochs):
    # 将模型设置为训练模式！
    model.train()

    # 不需要人工进行预测
    # yhat = a + b * x_tensor
    yhat = model(x_train_tensor)
    
    loss = loss_fn(y_train_tensor, yhat)
    loss.backward()    
    optimizer.step()
    optimizer.zero_grad()
    
print(model.state_dict())

注意：上面的 model.train() 并不是用来训练模型的，它只是将模型设置为训练模式。因为有的模型在训练和评价阶段采用的机制不一样，比如训练过程有 Dropout 操作。

嵌套模型

上面的模型中我们自己定义了两个参数作为线性回归的参数，我们也可以使用 PyTorch 的 Linear 模型作为我们模型的属性。在 __init__ 方法中我们需要增加一个属性来表示线性模型

class LayerLinearRegression(nn.Module):
    def __init__(self):
        super().__init__()
        # 创建一个单入单出的线性层
        self.linear = nn.Linear(1, 1)
                
    def forward(self, x):
        # 计算输出时只需要调用这一层，不需要用forward
        return self.linear(x)

序贯模型

对于一些深度模型，一层的输出作为下一层的输入，我们可以采用序贯 Sequential 模型，比如线性模型可以看作只有一个模型组成的序贯模型

model = nn.Sequential(nn.Linear(1, 1)).to(device)

单步训练函数（fullbatch）

目前为止我们定义了优化器、损失函数和模型。可以将它们整合成一个函数进行一步训练。

一个函数 make_train_step 的输入是优化器、损失函数和模型，输出是另一个函数 train_step
函数 train_step 用于单步训练：输入是数据样本，输出是损失。

def make_train_step(model, loss_fn, optimizer):
    # 定义单步训练函数
    def train_step(x, y):
        # 将模型设置为训练模式
        model.train()
        # 进行预测
        yhat = model(x)
        # 计算损失
        loss = loss_fn(y, yhat)
        # 计算梯度
        loss.backward()
        # 更新参数并清零梯度
        optimizer.step()
        optimizer.zero_grad()
        # 返回损失
        return loss.item()
    
    # 返回单步训练函数
    return train_step

# 根据模型、损失函数和优化器创建单步训练函数
train_step = make_train_step(model, loss_fn, optimizer)
losses = []

# For each epoch...
for epoch in range(n_epochs):
    # 单步训练并返回损失
    loss = train_step(x_train_tensor, y_train_tensor)
    losses.append(loss)
    
# 检验模型参数
print(model.state_dict())

到目前为止我们使用的数据是从 Numpy 的数组转化过来的张量，其实在 PyTorch 中我们可以使用 Dataset 这个类。

Dataset（元组列表：特征，标签；方便进行数据划分dataloader-minibatch；在CPU上的处理）

可以将其视为一种 Python 元组列表，每个元组对应一个点（特征，标签）。最基本的方法是

__init__(self): 它包含构建元组列表所需的任何参数-它可能是将被加载和处理的CSV文件的名称；它可能是两个张量，一个用于特征，另一个用于标签；或其他任何东西，取决于待解决的任务。
__get_item__(self, index):它允许数据集索引
__len__(self):返回数据集的大小

from torch.utils.data import Dataset, TensorDataset

class CustomDataset(Dataset):
    def __init__(self, x_tensor, y_tensor):
        self.x = x_tensor
        self.y = y_tensor
        
    def __getitem__(self, index):
        return (self.x[index], self.y[index])

    def __len__(self):
        return len(self.x)

# 这里的张量是在CPU中的，不占用GPU
x_train_tensor = torch.from_numpy(x_train).float()
y_train_tensor = torch.from_numpy(y_train).float()

train_data = CustomDataset(x_train_tensor, y_train_tensor)
print(train_data[0])

# 如果数据集里只是一些张量可以直接使用自带的TensorDataset类
train_data = TensorDataset(x_train_tensor, y_train_tensor)
print(train_data[0])

使用 Dataset 的好处在于它可以使用数据加载器 DataLoader，从而对数据进行划分训练。

DataLoader(训练集/验证集数据切片-minibatch;元组：特征，标签）

目前为止我们单步训练使用的是全部数据，即批梯度下降。当数据样本很多时通常采用小批次梯度下降，也就是单步训练只采用部分数据。使用 DataLoader 能够帮我们对数据进行切片！

函数的输入为：训练数据集dataset、批次数量batch_size、是否打乱次序

from torch.utils.data import DataLoader
# 函数的输入为：训练数据集、批次数量、是否打乱次序
train_loader = DataLoader(dataset=train_data, batch_size=16, shuffle=True)

如果想要得到一个批次的数据可以使用 next(iter(train_loader))，它会返回两个张量，一个是特征、一个是标签。
多了一个for循环来循环for x_batch, y_batch in train_loader: #注意将x_batch, y_batch也放到设备中

使用 DataLoader 后我们的代码变为

losses = []
train_step = make_train_step(model, loss_fn, optimizer)

for epoch in range(n_epochs):
    for x_batch, y_batch in train_loader:
        # 由于数据是存在CPU的，因此我们需要将训练数据送到模型所在位置
        x_batch = x_batch.to(device)
        y_batch = y_batch.to(device)
        
        loss = train_step(x_batch, y_batch)
        losses.append(loss)
        
print(model.state_dict())

注意：使用 DataLoader 后有两点不同的地方，

一是多了个内部循环每次使用一个批次数据进行训练，
二是每次仅将一个批次的数据送入设备（降低GPU的内存占用且进一步可以使用多卡训练）。

同理我们需要对验证数据建立一个 DataLoader

from torch.utils.data.dataset import random_split

x_tensor = torch.from_numpy(x).float()
y_tensor = torch.from_numpy(y).float()

dataset = TensorDataset(x_tensor, y_tensor)
# 数据集划分
train_dataset, val_dataset = random_split(dataset, [80, 20])

train_loader = DataLoader(dataset=train_dataset, batch_size=16)
val_loader = DataLoader(dataset=val_dataset, batch_size=20)

验证（设定验证模式；不需要计算梯度）

接下来我们来看看验证部分，有两点需要注意的：

验证时不涉及梯度的计算
需要将模型设置为验证模式

losses = []
val_losses = []
train_step = make_train_step(model, loss_fn, optimizer)

for epoch in range(n_epochs):
    for x_batch, y_batch in train_loader:
        x_batch = x_batch.to(device)
        y_batch = y_batch.to(device)

        loss = train_step(x_batch, y_batch)
        losses.append(loss)
        
    with torch.no_grad():
        for x_val, y_val in val_loader:
            x_val = x_val.to(device)
            y_val = y_val.to(device)
            # 验证模式
            model.eval()

            yhat = model(x_val)
            val_loss = loss_fn(y_val, yhat)
            val_losses.append(val_loss.item())

print(model.state_dict())

完整的代码实现

import numpy as np
import torch
import torch.optim as optim
import torch.nn as nn
from torchviz import make_dot
from torch.utils.data import Dataset, TensorDataset, DataLoader
from torch.utils.data.dataset import random_split

device = 'cuda' if torch.cuda.is_available() else 'cpu'

# 数据的生成
np.random.seed(42)
x = np.random.rand(100, 1)
true_a, true_b = 1, 2
y = true_a + true_b*x + 0.1*np.random.randn(100, 1)

# 将Numpy数据转为张量
x_tensor = torch.from_numpy(x).float()
y_tensor = torch.from_numpy(y).float()

# 自定义Dataset
class CustomDataset(Dataset):
    def __init__(self, x_tensor, y_tensor):
        self.x = x_tensor
        self.y = y_tensor

    def __getitem__(self, index):
        return (self.x[index], self.y[index])

    def __len__(self):
        return len(self.x)

# 创建 Dataset
dataset = TensorDataset(x_tensor, y_tensor) # dataset = CustomDataset(x_tensor, y_tensor)

# 划分训练数据和测试数据8:2
train_dataset, val_dataset = random_split(dataset, [80, 20])

# 创建数据加载器
train_loader = DataLoader(dataset=train_dataset, batch_size=16)
val_loader = DataLoader(dataset=val_dataset, batch_size=20)

# 定义模型
class ManualLinearRegression(nn.Module):
    def __init__(self):
        super().__init__()
        self.linear = nn.Linear(1, 1)

    def forward(self, x):
        return self.linear(x)

# 定义单步训练函数
def make_train_step(model, loss_fn, optimizer):
    def train_step(x, y):
        model.train() #训练模式
        yhat = model(x) #计算输出
        loss = loss_fn(y, yhat) #计算损失
        loss.backward() #计算梯度
        optimizer.step() #更新参数
        optimizer.zero_grad() #清零梯度
        return loss.item()
    return train_step

# Estimate a and b
torch.manual_seed(42)

# 模型、损失函数、优化器
model = ManualLinearRegression().to(device) # model = nn.Sequential(nn.Linear(1, 1)).to(device)
loss_fn = nn.MSELoss(reduction='mean')
optimizer = optim.SGD(model.parameters(), lr=1e-1)
# 创建单步训练函数
train_step = make_train_step(model, loss_fn, optimizer)

n_epochs = 100
training_losses = []
validation_losses = []
print(model.state_dict())

for epoch in range(n_epochs):
    batch_losses = []
    for x_batch, y_batch in train_loader:
        x_batch = x_batch.to(device)
        y_batch = y_batch.to(device)
        loss = train_step(x_batch, y_batch)
        batch_losses.append(loss)
    training_loss = np.mean(batch_losses)
    training_losses.append(training_loss)

    with torch.no_grad():
        val_losses = []
        for x_val, y_val in val_loader:
            x_val = x_val.to(device)
            y_val = y_val.to(device)
            model.eval()
            yhat = model(x_val)
            val_loss = loss_fn(y_val, yhat).item()
            val_losses.append(val_loss)
        validation_loss = np.mean(val_losses)
        validation_losses.append(validation_loss)

    print(f"[{epoch+1}] Training loss: {training_loss:.3f}\t Validation loss: {validation_loss:.3f}")

print(model.state_dict())

Python数据处理入门教程！

开源项目地址：https://github.com/datawhalechina/powerful-numpy

你可能感兴趣的:(pyg,python,pytorch,深度学习)

Python 正则表达式小结1 大收藏家 Python 正则表达式 python
[声明]：本文参考了白夜黑雨老师的网页讲解。如有侵权，请与我联系！！！Python正则表达式小结11.正则表达式验证2.特殊元字符及含义3匹配某种字符类型4.正则表达式举例大收藏家说1.正则表达式验证提供两个网站用于正则表达式的验证，可以敲入文本与正则表达式。通过该网站，验证正则表达式的正确性。非常好用！英文网站中文网站2.特殊元字符及含义元字符含义.表示要匹配除了换行符之外的任何单个字符*星号-
python离线语音转文本_使用Python将语音转换为文本的方法 weixin_39760619 python离线语音转文本
使用Python将语音转换为文本的方法,语音,转换为,文本,您的,麦克风使用Python将语音转换为文本的方法易采站长站，站长之家为您整理了使用Python将语音转换为文本的方法的相关内容。语音识别是计算机软件识别口语中的单词和短语，并将其转换为可读文本的能力。那么如何在Python中将语音转换为文本？如何使用SpeechRecognition库在Python中将语音转换为文本？我们不需要从头开始
Hugging Face预训练GPT微调ChatGPT（微调入门！新手友好！） y江江江江机器学习大模型 gpt chatgpt
HuggingFace预训练GPT微调ChatGPT（微调入门！新手友好！）在实战中，⼤多数情况下都不需要从0开始训练模型，⽽是使⽤“⼤⼚”或者其他研究者开源的已经训练好的⼤模型。在各种⼤模型开源库中，最具代表性的就是HuggingFace。HuggingFace是⼀家专注于NLP领域的AI公司，开发了⼀个名为Transformers的开源库，该开源库拥有许多预训练后的深度学习模型，如BERT、G
Open-Sora - 为所有人实现高效的视频制作大众化小众AI AI开源音视频人工智能 AI编程
GitHub：https://github.com/hpcaitech/Open-Sora更多AI开源软件：发现分享好用的AI工具、AI开源软件、AI模型、AI变现-小众AI这是一款开源的SOTA（State-of-the-Art）视频生成模型，仅用20万美元（224张GPU）就能训练出商业级11B参数的视频生成大模型。它采用Python语言和PyTorch深度学习框架开发，具有生成速度快、资源消
8、Python 字符串处理与正则表达式实战指南 wolf犭良 python python 正则表达式
Python字符串处理与正则表达式实战指南文章概述本文深入探讨Python字符串处理核心方法与正则表达式实战技巧，涵盖字符串编码转换、分割替换、正则表达式语法精髓，并通过日志解析、数据清洗等真实场景案例展示高阶应用。最后提供10道阶梯式练习题（附完整答案代码），助你从基础到进阶全面掌握文本处理技能。一、字符串处理核心三剑客1.1编码转换（encode/decode）text="中文文本"utf8_
deepseek api参数详解孽小倩大语言模型 python java 前端人工智能 deepseek
deepseek的参数与openai保持兼容，所以openai能用的参数deepseek都可以使用，以下是常用的参数介绍。在使用Deepseek/OpenAI的PythonAPI时，最常用的API端点是chat/completions，用于调用deepseek生成文本对话内容。以下是openai.ChatCompletion.create()方法的主要参数及其作用：1.model作用：指定使用的模
算法基础——蓝桥杯（python实现，实际上大多数用c++更明白易懂）（第一部分，共12个小题） New_Teen 算法蓝桥杯 python
1.成绩统计问题描述:编写一个程序，建立一个字典，每个字典包含姓名、学号、英语成绩、数学成绩和C++成绩，并通过字典操作平均分最高的学生和平均分最低的学生并且输出。输入格式：输入n+1行，第一行输入一个正整数n，表示学生数量；接下来的n行每行输入5个数据，分别表示姓名、学号、英语成绩、数学成绩和C++成绩。注意成绩有可能会有小数。输出格式：输出两行，第一行输出平均成绩最高的学生姓名。第二行输出平均
Python（正则表达式）羡江007 Python进阶 python 正则表达式开发语言
re模块#在Python中需要通过正则表达式对字符串进行匹配的时候，可以使用一个re模块'''re模块三步走#第一步：导入re模块importre#第二步：使用match方法进行匹配操作result=re.match(pattern正则表达式,string要匹配的字符串,flags=0)#第三步：如果数据匹配成功，使用group方法来提取数据result.group()re.match(patte
Ubuntu20.04安装并配置Pycharm2020.2.5 搬砖的打工人!!! ubuntu pycharm python
一.下载pycharm社区版1.下载地址：PyCharm:thePythonIDEfordatascienceandwebdevelopmentThePythonIDEfordatascienceandwebdevelopmentwithintelligentcodecompletion,on-the-flyerrorchecking,quick-fixes,andmuchmore.https:/
使用python中you-get库实现下载网抑云瞎老弟 python python 音视频爬虫
WYY音乐下载前言代码实现使用说明前言前几天，我做了b站视频的下载，有好兄弟表示，只下载视频，不能够让人满足，我还希望能够下载网易云的音乐。上一次在我发布的b站视频下载中，使用了you-get库作为下载方式，但是实际上，这个库也可以下载网易云音乐，因此，我们只需要参考我们上次的b站视频下载，简单的进行一下修改，就可以完成音乐的下载了。为了能够更加方便的批量下载音乐，这里采用了“按艺术家“的下载方式
Python用Pyqt5制作音乐播放器 Aix959 python 开发语言
具体效果如下需要实现的功能主要的几个有：1、搜索结果更新至当前音乐的列表，这样播放下一首是搜素结果的下一首2、自动播放3、滚动音乐文本4、音乐进度条5、根据实际情况生成音乐列表。我这里的是下面的情况，音乐文件的格式是歌名_歌手.mp3所以根据需求修改find_mp3_files方法，我这里返回的是[{"path":音乐文件路径,"music":歌名,"singer":歌手},{"path":音乐文
使用vscode远程连接linux运行项目报错解决方案大数据lsy 笔记 vscode linux python
报错：subprocess.CalledProcessError:Command'['/xxx/anaconda3/envs/graphinvent/bin/python','./graphinvent/main.py','--job-dir','/xxx/GraphINVENT/output_gdb13_1K/example/job_0/']'returnednon-zeroexitstatus
代码管理工具——SVN weixin_33728708 git 开发工具 python
2019独角兽企业重金招聘Python工程师标准>>>SVN版本控制的作用：记录若干文件内容变化，以便将来查阅特定版本修订情况。版本管理工具发展简史，cvs-->svn-->Git（参考：http://luckypoem14.github.io/test/2012/04/24/scm-history/）。svn全称subversion，是一个开源版本控制系统（C/S架构），始于2000年；git（
jieba库词频统计_jieba分词器（应用及字典的补充）及文档高频词提取实战袁圆园建建 jieba库词频统计
jieba分词器是Python中最好的中文分词组件，本文讲解一下jieba分词器及其应用。1、jieba分词器的分词模式jieba分词器提供了三种常用的分词模式1、精确模式：将句子按照最精确的方法进行切分，适合用于进行文本分析；2、全模式：将句子当中所有可以成词的词语都扫描出来，分词速度很快但容易产生歧义；3、搜索引擎模式：在精确模式分词的基础上，将长的句子再次进行切分，提高召回率，适用于搜索引擎
【LeetCode 热题 100】3. 无重复字符的最长子串 | python 【中等】一只小白跳起来 leetcode java 算法开发语言
美美超过管解题目：3.无重复字符的最长子串给定一个字符串s，请你找出其中不含有重复字符的最长的长度。示例1:输入:s="abcabcbb"输出:3解释:因为无重复字符的最长子串是"abc"，所以其长度为3。注意：考虑空字符串问题有重复之后要在重复的那个后面新建序列，减少时间，故需要列表储存（标准做法里用的集合捏）标准做法：把重复的set.remove（），a指针步进，没有重复的话，b指针一直步进怎
并发爬虫实战：多线程高效抓取王者荣耀全英雄皮肤 YiFoEr_Liu 爬虫案例实操爬虫部署 python 爬虫 python 大数据
一、场景与挑战在网络爬虫开发中，我们常常面临以下挑战：需要处理成百上千个页面的数据抓取目标服务器存在反爬机制和请求频率限制单线程模式下载效率低下，难以充分利用带宽本文以王者荣耀英雄皮肤下载为例（日访问量超过1亿的热门游戏），演示如何通过Python并发编程实现高效数据抓取。二、技术选型分析2.1为什么选择并发线程？I/O密集型场景：网络请求占比90%以上GIL限制：Python线程适合I/O密集型
Adam-mini：深度学习内存效率新突破 XianxinMao 人工智能深度学习人工智能
标题：Adam-mini：深度学习内存效率新突破文章信息摘要：Adam-mini优化器在深度学习领域展现出突破性潜力，尤其在内存效率和计算性能上表现卓越。相比AdamW，Adam-mini将内存效率提升了一倍，并通过减少学习率数量显著降低了内存消耗，同时保持了与AdamW相当甚至更好的性能。在训练十亿参数级别的大语言模型（LLM）时，Adam-mini实现了49.6%的吞吐量提升，并减少了33%的
使用提示词进行信息抽取的实用方法 scaFHIO windows python
在大规模语言模型（LLM）中进行信息抽取时，我们不一定需要工具调用功能。通过精心设计的提示词（prompt）可以指导模型输出特定格式的信息，然后对其进行解析以生成结构化数据。这种方法依赖于创建良好的提示词，并将LLM的输出解析为所需的Python对象。技术背景介绍大规模语言模型可以根据提示词生成特定格式的文本。例如，我们可以要求模型以JSON格式输出所需的信息。在信息抽取的场景中，设计良好的提示词
深入解析Python测试框架pytest 一休哥助手 python python pytest 开发语言
目录引言pytest简介安装与配置安装pytest配置pytest基础用法编写测试用例运行测试用例测试结果报告
怎么进入python 的venv文件夹_python虚拟环境模块venv使用及示例 weixin_39796140 怎么进入python 的venv文件夹
相信只要学习python的同学对于虚拟环境这个概念肯定不会太陌生，虚拟环境指的是一个个单独隔离的python开发环境。各个虚拟环境之间互不干扰，都有自己独立的开发包。就像是在电脑上装了很多个虚拟机，每个虚拟机里面你随便折腾，不会影响到物理机，也不会影响到其他虚拟机。既然这么有用，那么Python里面用来创建虚拟环境的模块virtualenv是怎么使用的呢？我们一起来看一下。virtualenv基本
python的离线安装包下载 Lake说科技 python 服务器 linux 开发语言运维
Python,安装相关视频讲解：python的or运算赋值用法用python编程Excel有没有用处？011_编程到底好玩在哪？查看python文件_输出py文件_cat_运行python文件_shel如何实现Python的离线安装包下载一、流程：步骤说明1确定需要下载的Python安装包版本2下载对应版本的离线安装包3将下载好的安装包传输至目标机器4在目标机器上进行安装二、具体步骤及代码：步骤1
Transformer与图神经网络的融合与应用 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Transformer与图神经网络的融合与应用关键词：Transformer,图神经网络,注意力机制,图结构数据,图表示学习,图分类,图生成1.背景介绍近年来，深度学习技术在各个领域取得了显著的进展。其中，Transformer模型和图神经网络（GraphNeuralNetworks,GNNs）是两个备受关注的研究方向。Transformer最初应用于自然语言处理领域，通过自注意力机制实现了并行计
深度学习的颠覆性发展：从卷积神经网络到Transformer AI天才研究院 AI大模型应用入门实战与进阶 ChatGPT 大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh
python3+ffmpeg下载B站视频，附代码才华横溢吴道简爬虫 python windows
最近要去外面玩，旅途漫长，于是乎，就写了个代码，从B站上下载纪录片看，代码附后，请自取，如果觉得有用，麻烦点个赞，鼓励一下。感谢~~一、下载安装ffmpegFfmpeg是一款自由软件，用于视频和音频文件的处理，在本例中，我使用它进行视频文件和音频文件的合并。合并代码写在python脚本中，你只需下载好ffmpeg即可，而且因为合并代码中使用ffmpeg的绝对路径，所以也不用设置环境配置。Ffmpe
学习Python如何高效处理CSV文件的技巧！程序员总部 python python json
在Python中，处理CSV文件是一项非常常见的任务，特别是在数据分析和数据科学领域。CSV文件的全称是Comma-SeparatedValues，顾名思义，它以逗号为分隔符来存储表格数据。这种格式简单易读，也很方便进行数据的存储和交换。接下来就让我们一起探讨一下如何在Python中读取和写入CSV文件吧！CSV模块简介Python内置了一个非常强大的库，名为csv，这个库专门用于处理各种CSV文
PyCharm如何有效地添加源与库？程序员总部 python pycharm ide python
在使用PyCharm进行Python开发的时候，很多时候我们需要添加库或者设置源。这些操作可以帮助我们更方便地管理项目依赖，提升开发效率。接下来我会详细介绍如何在PyCharm中添加源和库，让你的开发环境更加灵活！第一步：安装PyCharm在开始之前，你得确保自己已经安装了PyCharm！如果还没有，可以前往JetBrains官网进行下载和安装。有个小贴士，最好选择社区版或者专业版，根据自己的需要
如何使用 Python 和 FFmpeg 下载 B站视频木觞清 7天熟练Python python ffmpeg 音视频
在这篇文章中，我们将讨论如何使用Python脚本结合FFmpeg下载并合并B站视频的流，生成一个完整的视频文件。具体来说，我们将通过B站的API获取视频的音频和视频流，然后使用FFmpeg下载并将它们合并成一个.mp4文件。前提条件Python：你需要安装Python，推荐使用Python3.6或更高版本。FFmpeg：确保你已经安装并配置好了FFmpeg。如果尚未安装，可以参考FFmpeg官方网
使用Python下载抖音短视频：完整教程与代码解析 cnh6070 短视频 python 音视频开发语言
抖音作为全球领先的短视频平台，拥有海量的优质内容。然而，抖音官方并未提供直接下载视频的功能，这给一些用户带来了不便。幸运的是，通过Python编程，我们可以实现抖音视频的下载。本文将详细介绍如何使用Python下载抖音短视频，并解析一个完整的代码示例。一、准备工作在开始之前，你需要确保已经安装了Python环境，并且安装了以下必要的Python库：requests：用于发送网络请求，获取网页内容或
python构造函数 yimaoyingbi python学习 python 构造函数
classEmployee:def__init__(self,name,age):self.name=nameself.__age=ageprint("您好")def__work(self):print("疫情严重，在家学习")print("年龄：{0}".format(self.__age))e=Employee("gaoqi",18)e._Employee__work()构造函数和普通函数的区
chatgpt赋能python：Python构造函数详解 www_xuhss_com ChatGpt chatgpt 计算机
Python构造函数详解在Python中，构造函数是一种特殊的函数，用于创建类的实例并初始化其属性。Python构造函数的名称为__init__，它在创建类的实例时自动调用。本篇文章将全面介绍Python构造函数的重要性及其使用方法。为什么需要构造函数？当我们创建一个类的实例时，通常需要初始化它的一些属性。如果没有构造函数，我们必须手动初始化每一个属性变量，这显然会很麻烦，并且容易出现错误。所以，
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s