真不想再学了

NNDL 实验三线性回归、多元线性回归、Runner类的封装和基于线性回归的波士顿房价预测

使用pytorch实现

2.2 线性回归

2.2.1 数据集构建

用到的库

import random
import matplotlib.pyplot as plt
import torch
import torch.nn
from torch import optim
import numpy as np

构造一个小的回归数据集：

生成 150 个带噪音的样本，其中 100 个训练样本，50 个测试样本，并打印出训练数据的可视化分布。

def add_gauss(data,mu,sigma):
    '''添加高斯模糊'''
    for i in range(len(data)):
        data[i][0]+=random.gauss(mu,sigma=sigma)
        data[i][1] += random.gauss(mu,sigma=sigma)
    return data

def init_data(len,rate,t_w,t_b):
    '''数据集数目，训练集占比、真实的w，真实的b '''
    data = []
    for i in range(len):
        x = random.uniform(0, 50)
        y = t_w * x + t_b
        if [x, y] not in data:
            data.append([x, y])
    data = add_gauss(data, 0, 0.5)
    train_data = random.sample(data, int(rate*len))
    test_data = []
    for i in data:
        if i not in train_data:
            test_data.append(i)
    for i in data:
        if i not in train_data:
            test_data.append(i)
    plt.figure()
    '''转换为tensor'''
    train_data = torch.Tensor(train_data)
    test_data = torch.Tensor(test_data)
    datax = []
    datay = []
    for i in train_data:
        datax.append([i[0]])
        datay.append([i[1]])
    train_data = [datax, datay]
    datax = []
    datay = []
    for i in test_data:
        datax.append([i[0]])
        datay.append([i[1]])
    test_data= [datax, datay]
    return torch.tensor(train_data),torch.tensor(test_data)
    
if __name__=='__main__':
    train_data,test_data=init_data(150,2/3,0.5,1)

2.2.2 模型构建

class LM(torch.nn.Module):
    '''线性模型'''
    def __init__(self):
        super(LM,self).__init__()
        self.linear=torch.nn.Linear(1,1)#输入和输出数目

    def forward(self,x):
        y_pred=self.linear(x)
        return y_pred

2.2.3 损失函数

回归任务中常用的评估指标是均方误差

均方误差（mean-square error, MSE）是反映估计量与被估计量之间差异程度的一种度量。

    loss=torch.nn.MSELoss()

【注意：代码实现中没有除2】思考：没有除2合理么？谈谈自己的看法，写到实验报告。
是合理的，除二与不除二的唯一区别在于精确度，不除二时数量级偏大，反而更容易比较损失的大小。

2.2.4 模型优化

经验风险（ Empirical Risk ），即在训练集上的平均损失。

optimizer = optim.SGD(model.parameters(), lr=0.001,weight_decay=1e-5)
'''其中model.parameters()初始化随机的参数w，b
	lr学习率
	weight_decay 是L2正则化系数，为防止过拟合'''

思考1. 为什么省略了1/N不影响效果？
和上一问一样，都是数量级的问题，去掉不去掉只影响了数据的灵敏度，不影响数值的比较的结果。
思考 2. 什么是最小二乘法（ Least Square Method ， LSM ）
回答以上问题，写到实验报告。
就是对LSM的损失函数的各个w和b求偏导，零偏导等于零，所得到的解就是下一次迭代需要的的可行解，用于更新数据。
2.2.5 模型训练
在准备了数据、模型、损失函数和参数学习的实现之后，开始模型的训练。

在回归任务中，模型的评价指标和损失函数一致，都为均方误差。

通过上文实现的线性回归类来拟合训练数据，并输出模型在训练集上的损失。

if __name__=='__main__':
    train_data,test_data=init_data(150,2/3,0.5,1)
    model=LM()
    loss=torch.nn.MSELoss()
    optimizer = optim.SGD(model.parameters(), lr=0.001,weight_decay=1e-5)
    X=train_data[0]
    y=train_data[1]
    num_epochs = 20
    for epoch in range(num_epochs):
        pre_y = model(X)
        l = loss(pre_y, y)
        optimizer.zero_grad()  # 梯度清零
        l.backward()
        optimizer.step()
        # 输出权重和偏置
        print('w = ', model.linear.weight.item())
        print('b = ', model.linear.bias.item())
        print('epoch %d, loss: %f' % (epoch, l.item()))

w = 1.2275058031082153
b = 1.0194733142852783
epoch 0, loss: 783.282349
w = -0.06824445724487305
b = 0.9822576642036438
epoch 1, loss: 473.114380
…
w = 0.4923485517501831
b = 0.9970325827598572
epoch 19, loss: 0.382204

2.2.6 模型评估

用训练好的模型预测一下测试集的标签，并计算在测试集上的损失。

 x=test_data[0]
    y=test_data[1]
    l=loss(model(x),y)
    print('测试集loss:',l.item())

测试集loss: 0.4034019112586975

2.2.7 样本数量 & 正则化系数

（1）调整训练数据的样本数量，由 100 调整到 5000，观察对模型性能的影响。

if __name__=='__main__':
    train_data,test_data=init_data(5000,2/3,0.5,1)

w = 0.6784240007400513
b = -0.625267744064331
epoch 0, loss: 37.602818
w = 0.47063958644866943
b = -0.6307486295700073
epoch 1, loss: 14.453145
…
w = 0.548579216003418
b = -0.6132088899612427
epoch 19, loss: 0.991307
测试集loss: 1.0176087617874146
数据量不是越大越好，这种情况下，图像是一条巨粗的线，很难拟合出原本的直线。当然这是高斯模糊的结果，数据量巨大的同时图像也展示出了高斯模糊的大致范围。

（2）调整正则化系数，观察对模型性能的影响。

对主函数略作调整

if __name__=='__main__':
    train_data,test_data=init_data(150,2/3,0.5,1)
    for i in [1e-8,1e-4,1e-2,1]:
        model = LM()
        loss = torch.nn.MSELoss()
        optimizer = optim.SGD(model.parameters(), lr=0.001,weight_decay=i)
        X=train_data[0]
        y=train_data[1]
        num_epochs = 20
        for epoch in range(num_epochs):
            pre_y = model(X)
            l = loss(pre_y, y)
            optimizer.zero_grad()  # 梯度清零
            l.backward()
            optimizer.step()
            # 输出权重和偏置
            '''print('w = ', model.linear.weight.item())
            print('b = ', model.linear.bias.item())'''
        print('epoch %d, loss: %f' % (epoch, l.item()))


        x=test_data[0]
        y=test_data[1]
        l=loss(model(x),y)
        print('测试集loss:',l.item())

        x=np.linspace(0,50,10)
        plt.plot(x,x*model.linear.weight.item()+model.linear.bias.item(),label='weight_decay='+str(i))
    plt.legend()
    plt.show()

数据创建函数也有所调整，为了作图。

def init_data(len,rate,t_w,t_b):
    data = []
    for i in range(len):
        x = random.uniform(0, 50)
        y = t_w * x + t_b
        if [x, y] not in data:
            data.append([x, y])
    data = add_gauss(data, 0, 0.5)
    train_data = random.sample(data, int(rate*len))
    test_data = []
    for i in data:
        if i not in train_data:
            test_data.append(i)
    plt.figure()
    for i in train_data:
       plt.scatter(i[0],i[1],c='r')
    for i in test_data:
        plt.scatter(i[0], i[1], c='g')
    '''转换为tensor'''
    train_data = torch.Tensor(train_data)
    test_data = torch.Tensor(test_data)
    datax = []
    datay = []
    for i in train_data:
        datax.append([i[0]])
        datay.append([i[1]])
    train_data = [datax, datay]
    datax = []
    datay = []
    for i in test_data:
        datax.append([i[0]])
        datay.append([i[1]])
    test_data= [datax, datay]
    return torch.tensor(train_data),torch.tensor(test_data)

epoch 19, loss: 0.793325
测试集loss: 0.7044939994812012
epoch 19, loss: 0.805041
测试集loss: 0.7179186940193176
epoch 19, loss: 1.028256
测试集loss: 0.9195249676704407
epoch 19, loss: 0.320158

其中红色圆点为训练集，测试圆点为测试集。
学到这里不得不回忆起第一次做一元LSM回归，当时是直接套用了一次LSM的w、b的公式，直接算出来了。但是要改成二元的就很麻烦，直接加了一个维度，代码得从头到尾的改。而这次用的torch就把模型改一下就行了。

2.3 多项式回归

2.3.1 数据集构建

构建训练和测试数据，其中：

训练数样本 15 个，测试样本 10 个，高斯噪声标准差为 0.1，自变量范围为 (0,1)。

def init_data(begin,stop,num,rate,t_w,t_b,mu,sigma):
    '''begin:数据起点,
    stop：数据集终点,
    num：生成数目,
    rate：训练集占比,
    t_w：真实的w,
    t_b：真实的b,
    mu,sigma：高斯模糊的均值和方差'''
    data = []
    for i in range(num):
        x = [random.uniform(begin, stop)+random.gauss(mu,sigma=sigma),random.uniform(begin, stop)+random.gauss(mu,sigma=sigma),random.uniform(begin, stop)+random.gauss(mu,sigma=sigma)]
        y = x[0]*t_w[0]+x[1]*t_w[1]+x[2]*t_w[2]+t_b+random.gauss(mu,sigma=sigma)
        data.append([x, y])
    train_data = random.sample(data, int(rate*num))
    test_data = []
    for i in data:
        if i not in train_data:
            test_data.append(i)

    '''转换为tensor'''
    datax = []
    datay = []
    for i in train_data:
        datax.append(i[0])
        datay.append([i[1]])
    train_data = [torch.tensor(datax), torch.tensor(datay)]
    datax = []
    datay = []
    for i in test_data:
        datax.append(i[0])
        datay.append([i[1]])
    test_data= [torch.tensor(datax), torch.tensor(datay)]
    return train_data,test_data

2.3.2 模型构建

套用求解线性回归参数的方法来求解多项式回归参数

class PolyLM(torch.nn.Module):
    '''线性模型'''
    def __init__(self):
        super(PolyLM,self).__init__()
        self.linear=torch.nn.Linear(3,1)#输入和输出数目

    def forward(self,x):
        y_pred=self.linear(x)
        return y_pred

2.3.3 模型训练

对于多项式回归，我们可以同样使用前面线性回归中定义的LinearRegression算子、训练函数train、均方误差函数mean_squared_error。

if __name__=='__main__':
    train_data,test_data=init_data(0,1,25,3/5,[0.5,0.4,0.3],2,0,0.1)
    model = PolyLM()
    loss = torch.nn.MSELoss()
    optimizer = optim.SGD(model.parameters(), lr=0.01,weight_decay=1e-3)
    X=train_data[0]
    y=train_data[1]
    num_epochs = 30
    for epoch in range(num_epochs):
        pre_y = model(X)
        l = loss(pre_y, y)
        optimizer.zero_grad()  # 梯度清零
        l.backward()
        optimizer.step()
        # 输出权重和偏置
        '''print('w = ', model.linear.weight.item())
        print('b = ', model.linear.bias.item())'''
        print('num_epoch %d, train_loss: %f' % (epoch, l.item()))

num_epoch 0, train_loss: 4.053303
num_epoch 1, train_loss: 3.736230
num_epoch 2, train_loss: 3.444098
…
num_epoch 26, train_loss: 0.501111
num_epoch 27, train_loss: 0.463407
num_epoch 28, train_loss: 0.428665
num_epoch 29, train_loss: 0.396653

2.3.4 模型评估

通过均方误差来衡量训练误差、测试误差以及在没有噪音的加入下sin函数值与多项式回归值之间的误差，更加真实地反映拟合结果。多项式分布阶数从0到8进行遍历。

'''测试模型'''
    x=test_data[0]
    y=test_data[1]
    l=loss(model(x),y)
    print('测试集loss:',l.item())

测试集loss: 0.37486714124679565

对于模型过拟合的情况，可以引入正则化方法，通过向误差函数中添加一个惩罚项来避免系数倾向于较大的取值。

if __name__=='__main__':
    train_data,test_data=init_data(0,1,25,3/5,[0.5,0.4,0.3],2,0,0.1)
    for i in [1e-8, 1e-4, 1e-2, 1]:
        model = LM()
        loss = torch.nn.MSELoss()
        optimizer = optim.SGD(model.parameters(), lr=0.01,weight_decay=i)
        X=train_data[0]
        y=train_data[1]
        num_epochs = 30
        for epoch in range(num_epochs):
            pre_y = model(X)
            l = loss(pre_y, y)
            optimizer.zero_grad()  # 梯度清零
            l.backward()
            optimizer.step()
            # 输出权重和偏置
            '''print('w = ', model.linear.weight.item())
            print('b = ', model.linear.bias.item())'''
        print('weight_decay:{}, train_loss: {}'.format(i, l.item()))

        '''测试模型'''
        x=test_data[0]
        y=test_data[1]
        l=loss(model(x),y)
        print('测试集loss:',l.item())

weight_decay:1e-08, train_loss: 0.5947156548500061
测试集loss: 0.6567635536193848
weight_decay:0.0001, train_loss: 1.588309407234192
测试集loss: 1.6525604724884033
weight_decay:0.01, train_loss: 0.9914471507072449
测试集loss: 1.1179535388946533
weight_decay:1, train_loss: 1.3105849027633667
测试集loss: 1.3865985870361328

2.4 Runner类介绍

机器学习方法流程包括数据集构建、模型构建、损失函数定义、优化器、模型训练、模型评价、模型预测等环节。

为了更方便地将上述环节规范化，我们将机器学习模型的基本要素封装成一个Runner类。

除上述提到的要素外，再加上模型保存、模型加载等功能。

Runner类的成员函数定义如下：

__init__函数：实例化Runner类，需要传入模型、损失函数、优化器和评价指标等；
train函数：模型训练，指定模型训练需要的训练集和验证集；
evaluate函数：通过对训练好的模型进行评价，在验证集或测试集上查看模型训练效果；
predict函数：选取一条数据对训练好的模型进行预测；
save_model函数：模型在训练过程和训练结束后需要进行保存；
load_model函数：调用加载之前保存的模型。


import torch
import torch.nn
from torch import optim

class Runner():
    '''
    Runner类的成员函数定义如下：
    __init__函数：实例化Runner类，需要传入模型、损失函数、优化器和评价指标等；
    train函数：模型训练，指定模型训练需要的训练集和验证集；
    evaluate函数：通过对训练好的模型进行评价，在验证集或测试集上查看模型训练效果；
    predict函数：选取一条数据对训练好的模型进行预测；
    save_model函数：模型在训练过程和训练结束后需要进行保存；
    load_model函数：调用加载之前保存的模型。
    '''
    def __init__(self,model,loss,optim,eval_loss):
        '''传入模型、损失函数、优化器和评价指标'''
        self.model=model
        self.loss=loss
        self.optim=optim
        self.eval_loss=eval_loss
    
    def train(self,train_data):
        '''train_data:列表类型，两个元素为tensor类型，第一个是x，第二个是y'''
        model=self.model
        loss = torch.nn.MSELoss()
        optimizer = optim.SGD(model.parameters(), lr=0.01, weight_decay=1e-3)
        X = train_data[0]
        y = train_data[1]
        num_epochs = 30
        for epoch in range(num_epochs):
            pre_y = model(X)
            l = loss(pre_y, y)
            optimizer.zero_grad()  # 梯度清零
            l.backward()
            optimizer.step()
            print('epoch %d, loss: %f' % (epoch, l.item()))
        self.__save_model(model)
        
    def evaluate(self,test_data):
        '''测试模型
        test_data:列表类型，两个元素为tensor类型，第一个是x，第二个是y'''
        x = test_data[0]
        y = test_data[1]
        l = self.loss(self.model(x), y)
        print('测试集loss:', l.item())
        
    def predict(self,X):
        '''预测数据'''
        return self.model(X)

    def __save_model(self,model):
        '''内部调用，保存模型'''
        self.model=model
    
    def load_model(self,model):
        '''外部调用，读取模型'''
        self.model=model

封装好Runner类后，直接调用类函数就行了，十分的简洁。
这里的__save_model()是内部隐藏类，外部是看不到的，也无法调用，就算添了’__'再调用也不行。

主函数如下：

if __name__=='__main__':
    model = PolyLM()
    loss = torch.nn.MSELoss()
    optimizer = optim.SGD(model.parameters(), lr=0.01, weight_decay=1e-3)
    runner=Runner(model=model,loss=loss,optim=optimizer,eval_loss=loss)
    train_data, test_data = init_data(0, 1, 25, 3 / 5, [0.5, 0.4, 0.3], 2, 0, 0.1)
    runner.train(train_data)
    runner.evaluate(test_data)

运行结果：
epoch 0, loss: 7.497038
epoch 1, loss: 6.954211
epoch 2, loss: 6.450910
…
epoch 27, loss: 1.009143
epoch 28, loss: 0.938562
epoch 29, loss: 0.873111
测试集loss: 1.039759635925293

2.5 基于线性回归的波士顿房价预测

使用线性回归来对马萨诸塞州波士顿郊区的房屋进行预测。

实验流程主要包含如下5个步骤：

数据处理：包括数据清洗（缺失值和异常值处理）、数据集划分，以便数据可以被模型正常读取，并具有良好的泛化性;
模型构建：定义线性回归模型类；
训练配置：训练相关的一些配置，如：优化算法、评价指标等；
组装训练框架Runner：Runner用于管理模型训练和测试过程；
模型训练和测试：利用Runner进行模型训练和测试。

2.5.1 数据处理

2.5.1.2 数据清洗

本次实验不需要数据清晰

2.5.1.3 数据集划分

用到的库


import numpy as np
import pandas as pd
import torch.nn
import torch.nn as nn
from Runner import *
import torch

def init_boston(path,rate):
    #波士顿标签
    labels = ["CRIM", "ZN", "INDUS", "CHAS", "NOX", "RM", "AGE", "DIS", "RAD", "TAX", "PTRATIO", "B", "LSTAT", "MEDV"]
    #读取csv
    boston = pd.read_csv(path,dtype=float)
    #数据集划分
    train_df = boston.sample(int(len(labels) * rate))
    test_df = boston.drop(index=train_df.index)
    #转化为tensor
    train_X= torch.from_numpy(train_df.drop('MEDV', axis=1).to_numpy().astype(np.float32))
    train_y=torch.from_numpy(train_df['MEDV'].to_numpy().astype(np.float32)*1000).reshape(len(train_df['MEDV']),1)
    test_X= torch.from_numpy(test_df.drop('MEDV', axis=1).to_numpy().astype(np.float32))
    test_y= torch.from_numpy(test_df['MEDV'].to_numpy().astype(np.float32)*1000).reshape(len(test_df['MEDV'].to_numpy()),1)
    return train_X,train_y,test_X,test_y

2.5.1.4 特征工程

2.5.2 模型构建


class BostonLM(nn.Module):
    def __init__(self):
        super(BostonLM, self).__init__()
        self.linear = torch.nn.Linear(13, 100)  # 输入和输出数目
        self.hide=torch.nn.Linear(100,1)

    def forward(self,X):
        y = self.linear(X)
        y2=self.hide(y)
        return y2

2.5.3 完善Runner类

# coding:utf-8

import torch
import torch.nn as nn
from torch import optim
import random

class Runner():

    def __init__(self,model,loss,optim):
        '''传入模型、损失函数、优化器和评价指标'''
        self.model=model
        self.loss=loss
        self.optim=optim

    def LSM_train(self,X,y,epoches=300):
        '''train_data:列表类型，两个元素为tensor类型，第一个是x，第二个是y'''
        print('start training....')
        loss = self.loss
        optimizer = self.optim
        train_X, train_y,  = X,y
        for i in range(epoches):
            pre_y =self.model(train_X)
            l = loss(pre_y, train_y)
            optimizer.zero_grad()
            l.backward()
            optimizer.step()
            if i % 100 == 0:
                print("epoch:{}, loss in train data:{}".format(i, l))
        print('training ended.')

    def LSM_evaluate(self,x,y):
        '''测试模型
        test_data:列表类型，两个元素为tensor类型，第一个是x，第二个是y'''
        l = self.loss(self.model(x), y)
        print('loss in test data:', l.item())

    def predict(self,X):
        '''预测数据'''
        return self.model(X)

    def save_model(self, save_path):
        ''''.pt'文件'''
        torch.save(self, save_path)

    def read_model(self, path):
        ''''.pt'文件'''
        torch.load(path)

2.5.4 模型训练

if __name__=='__main__':
    net = BostonLM()  # 初始化网络模型
    loss = torch.nn.MSELoss()  # 均方损失
    optimizer = torch.optim.Adam(net.parameters(), lr=0.01)
    train_X, train_y, test_X, test_y = init_boston('boston_house_prices.csv', rate=4 / 5)
    runner=Runner(net,loss=loss,optim=optimizer)
    runner.LSM_train(train_X,train_y,epoches=30000)
    test_loss=runner.LSM_evaluate(test_X,test_y)

2.5.5 模型测试

     test_loss=runner.LSM_evaluate(test_X,test_y)

2.5.6 模型预测

prey=runner.predict(input)
    print('24 predicted:',prey.item())

运行结果：
…
epoch:29600, loss in train data:0.7043233513832092
epoch:29700, loss in train data:14840.9619140625
epoch:29800, loss in train data:1.225315809249878
epoch:29900, loss in train data:0.6267527937889099
training ended.
loss in test data: 184685824.0
24 predicted:43825.0977

【注意】例程2.5中有：
from nndl.op import Linear

from nndl.opitimizer import optimizer_lsm

这两个python文件位置如下：

文件使用了paddle，改写成pytorch，并在后续工作中使用即可。

问题1：使用类实现机器学习模型的基本要素有什么优点？
调用函数更方便，代码更简洁，减少不必要的重复代码。
问题2：算子op、优化器opitimizer放在单独的文件中，主程序在使用时调用该文件。这样做有什么优点？
避免重复编写相同的代码。
问题3：线性回归通常使用平方损失函数，能否使用交叉熵损失函数？为什么？
交叉熵损失函数多用于线性分类问题，用于表示类别之间的相关性，进而判断分类的效果。

总结：花了大量时间查阅相关资料，编代码的过程中也遇到了很多错误，真的让人很崩溃，但是最后程序运行起来的时候心情会大好，看大自己努力的结果是一件让人开心的事。这次实验学习了线性回归、多元线性回归的相关知识，同时尝试了Runner类的封装和基于线性回归的波士顿房价预测，其中波士顿预测还不太通透，需要进一步学习。总的来说工程量不小，收获也是蛮大的。

python：构造函数听海边涛声 python 开发语言
Python构造函数是类中的一个实例方法，每当创建该类的新对象时，它都会被自动调用。构造函数的作用是在对象被声明时立即为实例变量赋值。Python使用一个特殊的方法__init__()来初始化对象实例变量，该方法在对象被声明时立即调用。创建构造函数__init__()方法充当构造函数。它需要一个强制性的参数，名为self，这是对对象的引用，其格式为：def__init__(self,参数,参数,.
python 读取内存_python内存读写 weixin_39981360 python 读取内存
广告关闭腾讯云11.11云上盛惠，精选热门产品助力上云，云服务器首年88元起，买的越多返的越多，最高返5000元！也就是说，所有的解释器可以同时读写数据，在一个解释器中对数据做出的修改会自动反映到其他解释器上。虽然还需要一些额外的步骤来处理同步问题，但是有时候可以使用这种方法作为通过管道或者socket传输数据的替代方案。以上这篇python内存映射文件读写方式就是小编分享给大家的全部内容了，希望
基于Python的智能决策支持系统：实现智能化决策的关键要素 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
文章目录基于Python的智能决策支持系统：实现智能化决策的关键要素11.背景介绍2.核心概念与联系数据收集与预处理模型构建与训练决策规则生成与优化决策结果评估与反馈3.核心算法原理具体操作步骤数据挖掘算法机器学习算法优化算法4.数学模型和公式详细讲解举例说明线性回归模型最小二乘法5.项目实践：代码实例和详细解释说明6.实际应用场景金融领域医疗领域供应链管理智能制造7.工具和资源推荐编程语言和开发
python 读取配置文件 Pure Ven python 编程语言 python
Python读取配置文件并打印文件信息配置文件field_len.conf内容为：[ddl_max_len]NUMBER_MAX_LEN=10VARCHAR2_MAX_LEN=1024[dml_max_len]NUMBER_MAX_LEN=10VARCHAR2_MAX_LEN=1024BLOB_MAX_LEN=500MFLOAT_MAX_LEN=P20S8DATE=12TIMESTAMP(6)=1
python爬虫之scrapy框架入门，万字教学，从零开始到实战演练，超详细！！！（21）盲敲代码的阿豪 python之爬虫系统教学 python 爬虫 scrapy
文章目录前言1、scrapy的概念和流程1.1学习目标1.2scrapy的概念1.3scrapy框架的作用1.4scrapy的工作流程1.5总结2、scrapy的入门使用2.1学习目标2.2安装scrapy框架2.3scrapy项目开发流程2.4创建项目2.5创建爬虫文件2.6scrapy项目文件说明2.7案例演示2.8实战案例（抓取链家租房信息，存入本地）2.8.1修改items.py文件，在这
【ai】mocap：conda 安装python3.8+ cuda+ pytorch+torchaudio、torchvision 等风来不如迎风去 AI入门与实战人工智能 ubuntu conda
MotionCapubuntu18.04不知道为啥会依赖于ffmpeg、xorg渲染？安装pytorch就是会带上cudacudnn啥的pytorch【ai】tx2nx：安装torch、torchvisionforyolov5这里就发现pytorch和torchvision有依赖关系的，还涉及到rapidjson所以python的环境隔离很重要。核心库-cudatoolkit=11.3-pytor
python 数据可视化matplotib库安装与使用范哥来了信息可视化 python 开发语言
要使用matplotlib库进行数据可视化，首先你需要确保已经安装了该库。如果你还没有安装，可以通过Python的包管理器pip来安装它。在你的命令行工具中运行以下命令来安装matplotlib：pipinstallmatplotlib安装完成后，你就可以开始使用matplotlib来创建图表了。下面是一个简单的例子，演示如何使用matplotlib绘制一个基本的折线图。这个例子可以被添加到你当前
python读取配置参数的多种方式 WYRM_GOLD python
使用多个配置文件：根据不同的环境（如开发、测试、生产）使用不同的配置文件。使用环境变量：利用操作系统的环境变量来获取参数。使用命令行参数：根据传入的命令行参数选择配置。使用JSON或YAML文件：配置文件可以使用JSON或YAML格式，支持多种环境的变量。方法1、使用多个配置文件假设有两个配置文件：config_dev.ini和config_prod.ini。config_dev.ini:[DEF
python 数据可视化TVTK库安装与使用范哥来了信息可视化 python 开发语言
TVTK（Traits-basedVisualizationToolKit）是一个基于Python的可视化库，它为VTK（VisualizationToolkit）提供了一个更易于使用的接口。VTK本身是非常强大的可视化工具，但使用起来可能稍微复杂一些，而TVTK通过简化API来提高易用性。下面我将指导您如何安装TVTK以及一个简单的示例来展示其基本用法。安装TVTKTVTK可以通过pip轻松安装
python web开发flask库安装与使用范哥来了 python 前端 flask
要在Python中使用Flask进行Web开发，首先需要安装Flask库。Flask是一个轻量级的Web框架，它使开发者能够快速构建网站或web服务。下面是安装Flask和创建一个简单的Flask应用程序的基本步骤。安装Flask确保您的环境中已经安装了Python（推荐版本3.7或更高）。接着，您可以通过pip来安装Flask。打开命令行工具（如终端或命令提示符），然后执行以下命令：pipins
Pytorch使用手册—扩展 TorchScript 使用自定义 C++ 操作符（专题五十三） AI专题精讲 Pytorch入门到精通 pytorch c++人工智能
提示本教程自PyTorch2.4起已弃用。有关PyTorch自定义操作符的最新指南，请参阅PyTorch自定义操作符。PyTorch1.0版本引入了一种名为TorchScript的新编程模型。TorchScript是Python编程语言的一个子集，可以被TorchScript编译器解析、编译和优化。此外，编译后的TorchScript模型可以选择序列化为磁盘文件格式，随后你可以从纯C++（以及Py
Pybind11教程：从零开始打造 Python 的 C++ 小帮手 Yc9801 c++开发语言
参考官网文档：https://pybind11.readthedocs.io/en/stable/index.html一、Pybind11是什么？想象你在Python里写了个计算器，但跑得太慢，想用C++提速，又不想完全抛弃Python。Pybind11就像一座桥，把C++的高性能代码“嫁接”到Python里。你可以用Python调用C++函数，就像请了个跑得飞快的帮手来干活。主要功能：绑定函数：
python自定义函数的参数有多种类型_python自定义函数的参数之四种表现形式 weixin_39860755
(1)defa(x,y):printx,y这是最常见的定义方式，调用该函数，a(1,2)则x取1，y取2，形参与实参相对应，如果a(1)或者a(1,2,3)则会报错(2)defa(x,y=3):printx,y提供了默认值，调用该函数，a(1,2)同样还是x取1，y取2，但是如果a(1)，则不会报错了。上面这俩种方式，还可以更换参数位置，比如a(y=4,x=3)用这种形式也是可以的如果是defa(
Python文件操作红虾程序员 Python python
在Python中文件操作是一项基础且重要的功能，它主要包括打开、读写、关闭等操作。1.打开文件使用open()函数来打开文件，其基本语法如下： f=open(file_path,mode,encoding=None)f：是open函数的文件对象，拥有属性和方法。file_path：文件的路径，可以是相对路径或绝对路径。mode：打开文件的模式，常见的模式有：r：以只读模式打开文件，文件指针会放在文
Windows使用Browser Use笔记人工智能ai开发
相关文档：https://docs.browser-use.com/quickstart首先安装UV命令行cmdpowershell-ExecutionPolicyByPass-c"irmhttps://astral.sh/uv/install.ps1|iex"设置环境变量setPath=C:\xx\.local\bin;%Path%查看版本uv-V查看可用和已安装的Python版本uvpytho
查看 CUDA cudnn 版本查看Navicat GPU版本 FergusJ 备份 python 开发语言
查看显卡型号：lspci|grepVGA（lspci是linux查看硬件信息的命令），屏幕会打印出主机的集显几独显信息python中查看显卡型号fromtensorflow.python.clientimportdevice_libdevice_lib.list_local_devices()
python函数的多种参数使用形式红虾程序员 Python python 开发语言 pycharm
目录1.位置参数（PositionalArguments）2.关键字参数（KeywordArguments）3.默认参数（DefaultArguments）4.可变参数（VariablePositionalArguments）5.关键字可变参数（VariableKeywordArguments）6.特殊用法：传递列表或字典作为参数Python中函数的参数使用形式非常灵活，主要包括以下几种类型：位置
【附JS、Python、C++题解】Leetcode面试150题（7） moz与京 leetcode整理 javascript python c++
一、题目167.两数之和II-输入有序数组给你一个下标从1开始的整数数组numbers，该数组已按非递减顺序排列，请你从数组中找出满足相加之和等于目标数target的两个数。如果设这两个数分别是numbers[index1]和numbers[index2]，则1targetIndex(vectornums,inttarget){intlength=nums.size();if(length<2){
量化交易api有哪些类型？如何选择适合自己的量化交易api？股票程序化交易接口量化交易股票API接口 Python股票量化交易区块链量化交易 api类型选择数据获取股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>量化交易API的主要类型量化交易依赖大量数据，数据获取型API就显得尤为重要。这种类型的API能够连接到各种数据源，如股票市场数据、期货数据等。它可以为交易者提供实时价格数据、历史数据等。一些API能从各大证券交易所获取股票的最新成交
python读取excel数据和提取图片我就是全世界 python excel 开发语言
1.引言1.1日常工作中Excel的使用在现代办公环境中，Excel（电子表格软件）是数据管理和分析的重要工具之一。无论是财务报表、销售数据、项目管理还是日常报告，Excel都扮演着不可或缺的角色。其强大的数据处理能力、灵活的格式设置以及丰富的图表功能，使得Excel成为各行各业专业人士的首选工具。Excel的主要功能包括：数据录入与管理：用户可以轻松输入、编辑和管理大量数据。数据分析：通过内置的
从 0 开始使用 cursor 开发一个移动端跨平台应用程序沐怡旸 react native
1.安装必要的工具和环境在开始之前，确保你的开发环境已经安装了以下工具：a.安装Node.js和npmReactNative依赖Node.js和npm（NodePackageManager）。你可以从Node.js官网下载并安装最新版本。b.安装PythonReactNative的Android开发需要Python。确保你已经安装了Python2.7或Python3.x。c.安装Java环境Rea
2020年第十一届蓝桥杯python组省赛 Ruoki~ 蓝桥杯python真题蓝桥杯职场和发展
前言：python最简单的一套题了，适合小白入门练手目录填空题门牌制作寻找2020跑步锻炼蛇形填数排序编程大题成绩统计单词分析数字三角形平面切分装饰珠填空题门牌制作题目：小蓝要为一条街的住户制作门牌号。这条街一共有2020位住户，门牌号从1到2020编号。小蓝制作门牌的方法是先制作0到9这几个数字字符，最后根据需要将字符粘贴到门牌上，例如门牌1017需要依次粘贴字符1、0、1、7，即需要1个字符0
错误moduleNotFoundError: No module named 'matplotlib' 逆着tensor tensorflow2.0学习 tensorflow
错误ModuleNotFoundError:Nomodulenamed‘matplotlib’问题tensorflow2.0中jupyternotebook编写线性回归例子，出现ModuleNotFoundError:Nomodulenamed'matplotlib’错误解决办法好了，重新加载程序，已经可以用了。
下一代模型技术演进与场景应用突破智能计算研究中心其他
内容概要当前模型技术正经历多维度的范式跃迁，可解释性模型与自动化机器学习（AutoML）成为突破传统黑箱困境的核心路径。在底层架构层面，边缘计算与量子计算的融合重构了算力分配模式，联邦学习技术则为跨域数据协作提供了安全可信的解决方案。主流框架如TensorFlow和PyTorch持续迭代优化能力，通过动态参数压缩与自适应超参数调优策略，显著提升模型部署效率。应用层创新呈现垂直化特征，医疗诊断模型通
详解如何通过Python的BeautifulSoup爬虫+NLP标签提取+Dijkstra规划路径和KMeans聚类分析帮助用户规划旅行路线 mosquito_lover1 python beautifulsoup 爬虫 kmeans 自然语言处理
系统模块：数据采集模块（爬虫）：负责从目标网站抓取地点数据（如名称、经纬度、描述等）数据预处理模块（标签算法）：对抓取到的地点数据进行清洗和分类。根据地点特征（如经纬度、描述文本）打上标签（如“适合家庭”、“适合冒险”）。地理数据处理模块（地图API）：使用地图API获取地点的详细信息（如地址、距离、路径等）。计算地点之间的距离或路径。路径规划模块：根据用户输入的起点和终点，规划最优路径。支持多种
TypeScript语言的计算机视觉苏墨瀚包罗万象 golang 开发语言后端
使用TypeScript进行计算机视觉：一个现代化的探索引言随着人工智能和机器学习的快速发展，计算机视觉（ComputerVision）成为了一个极具活力的研究领域。计算机视觉旨在使计算机能够“看”和“理解”数字图像或视频中的内容。近年来，TypeScript作为一种现代化的编程语言，因其类型安全和更好的开发体验，逐渐在前端和后端开发中得到了广泛应用。本文将探讨如何使用TypeScript进行计算
Python 问题：ModuleNotFoundError: No module named ‘matplotlib‘ 我命由我12345 Python -问题清单 python matplotlib 开发语言 c++c#后端
问题与处理策略1、问题描述importmatplotlib.pyplotaspltfig,ax=plt.subplots()ax.plot([1,2,3,4],[1,4,2,3])plt.show()执行上述代码，报如下错误ModuleNotFoundError:Nomodulenamed'matplotlib'#翻译ModuleNotFoundation错误：没有名为matplotlib的模块2
Python函数专题：引用传参圣逸从入门到精通Python语言 python 开发语言 Python入门精通python 数据结构
在Python编程中，函数是一个非常重要的概念。函数不仅能提高代码的可重用性，还能够使代码结构更加清晰。在函数的设计和使用中，参数的传递方式是一个关键的因素。Python中的参数传递有两种主要形式：值传递和引用传递。虽然Python的参数传递机制有时被称为"引用传递"，但实际上它更接近于"对象引用传递"。本文将深入探讨Python中的引用传参及其相关概念。一、基本概念在讨论引用传参之前，首先要理解
python函数支持哪些参数类型_Python函数的几种参数类型 weixin_39965283
以下代码均以Python3为基础理解。初识Python函数大部分常见的语言如C、Java、PHP、C#、JavaScript等属于C系语言，Python不属于他们中的一员（ruby亦然）。在这些语言中，Python也属于比较新奇的一派，就函数来说，它没有大括号，用def关键字定义一个函数，定义后用:然后换行tab指定函数函数的范围，当然也不存在什么分号。作为一个函数，那个它肯定是有参数的，Pyth
python自定义函数的参数有多种类型_Python实现自定义函数的5种常见形式分析 weixin_39632728
Python自定义函数是以def开头，空一格之后是这个自定义函数的名称，名称后面是一对括号，括号里放置形参列表，结束括号后面一定要有冒号“：”，函数的执行体程序代码也要有适当的缩排。Python自定义函数的通用语法是：def函数名称(形参列表)：执行体程序代码Python自定义函数的5种常见形式：1、标准自定义函数：形参列表是标准的tuple数据类型>>>defabvedu_add(x,y):pr
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl

NNDL 实验三 线性回归、多元线性回归、Runner类的封装和基于线性回归的波士顿房价预测