刘先生TT

NNDL 实验三线性模型

- 2.2 实现一个简单的线性模型
- - 引言
  - 2.2.1 数据集构建
  - 2.2.2模型构建
  - 2.2.3损失函数
  - 2.2.4 模型优化
  - 2.2.5模型训练
  - 2.2.6模型评估
- 2.3多项式回归
- - 2.3.1数据集构建
  - 2.3.2模型构建与训练
  - 2.3.3模型评估
- Runner类介绍
- 2.5 基于线性回归的波士顿房价预测
- - 2.5.1数据清洗
  - - 2.5.1.1 数据清洗
    - 2.5.1.2 数据集划分
    - 2.5.1.2 特征工程
  - 2.5.2 模型构建
  - 2.5.3完善Runner类
  - 2.5.4模型训练
  - 2.5.5模型测试
  - 2.5.6模型预测
- 收获

2.2 实现一个简单的线性模型

引言

下面列举的代码，是本人为了理解基础的同时温故机器学习中线性模型的知识，没有引入现成的函数，是从底层一步一步写起的。,而多项式回归中,我就直接用引用pytorch中的方,有点懒，所以只把一维线性模型的底层代码写了。
这篇博客pytorch实现线性模型中是我的比认为较简单torch实现线性模型。.大家可以看看。下面开始正题

2.2.1 数据集构建

使用 $y=wx+b+\epsilon$ 构造一维的数据集合。其中 $\epsilon$ 是高斯误差项。 $x 、 b$ 为使用高斯分布生成的自变量张量， $w$ 为给定的参数， $y$ 为生成的含噪声的变量。
构造一个小的回归数据集：生成 150 个带噪音的样本，其中 100 个训练样本，50 个测试样本，并打印出训练数据的可视化分布。如下图

代码如下

import torch
import matplotlib.pyplot as plt
'''
input:w,b,num---->给定权重w，偏移量b,num样本数目
            type：tensor,int...float,int
output:x,y
    生成的自变量x，因变量y
target:creat a data about linear model
'''
def create_data(w,b,num):
    #生成自变量x
    x = torch.normal(0,1,(num,len(w)))
    #生成标准的线性模型
    y = torch.matmul(x,w)+b
    #添加噪声
    y = y+torch.normal(0,0.001,y.shape)
    return x,y
#创建数据集
data_x,data_y = create_data(torch.tensor([2.0,3.0,5.0]),2,150)
#分割训练集和测试集
data_x_train,data_y_train = data_x[0:100],data_y[0:100]
data_x_test,data_y_test = data_x[100:150],data_y[100:150]
'''生成图像'''

#生成图形1
plt.figure(1)
#描绘数据
plt.plot(data_x_train,data_y_train,'.r',data_x_test,data_y_test,'.g')
plt.show()

2.2.2模型构建

线性模型的定义为(就是一个普通的线性函数，不过是向量形式的： $y=w^{T}x+b$ (其中 $x$ 为输入的n维向量， $w$ 为给定的参数)

'''
线性模型w,b为给定的参数
target:create the date of the linear model
返回值为x,y
'''
def create_data(w,b,num):
    #生成自变量x
    x = torch.normal(0,1,(num,len(w)))
    #生成标准的线性模型
    y = torch.matmul(x,w)+b
    #添加噪声
    y = y+torch.normal(0,0.001,y.shape)
    return x,y

2.2.3损失函数

$\zeta(y,\hat{y})=\frac{1}{2N}||y-\hat{y}||^{2}=\frac{1}{2N}||Xw+b-y||^{2}$

$y$ 为实际的数据值 $\hat{y}$ 为预测的数据值

为什么使用二次方？答：为了防止误差计算中正负相抵。
既然为了防止正负相抵，为什么不使用绝对值？ 答:因为绝对值数学性质较差，不易求导。
代码中为什么没有除2合理吗？答：在机器学习中除2，是因为了求导约去2,为了计算方便，现在计算机计算速度飞快，不除2得到的才是更加准确的结果

'''
input:y_real,y_predict---->真实值集合,预测值集合
                    type：list,list
output:error---->误差
tatget:calc the error betweeen the real and prdiction
'''
def loss(y_real,y_predict):
    return np.sum(np.pow(np.subtract(y_real-y_predict),2))/2*len(y_real)
 '''
    error: tensor(124983.3594)
 '''

损失函数可不仅仅只有均方误差，还有0-1损失函数，对数损失函数等等好多，要多做测试。

2.2.4 模型优化

经验风险最小化 拟合参数θ的一个方法是求解目标函数使训练误差最小。这个过程被称作经验风险最小化（ERM-empirical risk minimization），它是简化的机器学习模型，逻辑回归和支持向量机可以看作为这个非凸优化问题的凸性近似。

理论是枯燥的，下面举一个即将要用到的具体的例子，开开胃。
损失函数为最小二乘法，通过常识来说，模型优化就是使得误差最小，而在数学上面，对于下凸函数，只需要导数等于0即可，你说巧不巧，均方误差正好是下凸函数，所以我们需要仅仅需要求的梯度，使梯度等于0，便得到的回归参数 $\hat{w},\hat{b}$ 的解析解，是不是很棒。

看代码看累了，就来了解下上凸函数和下凸函数吧。数学的魅力是无穷的

这里我们对 $w, b$ 求导使其等于0，得出 $w, b$ 的解析解。
求线性回归模型a的算法

对w求导
$\frac{\partial\zeta(y,\hat{y})}{\partial{w}}=(X-\overline{x}^{T})^{T}((X-\overline{x})w-(y-\overline{y}))(2)$
令式(2)等于0
得出 $w^{*}=((X-\overline{x})(X-\overline{x})^{-1})((X-x^{-T})w-(y-\overline{y}))$

求线性回归b的算法

$\frac{\partial\zeta(y,\hat{y})}{\partial{b}}=1^{T}(Xw+b-y) (1)$
令式(1)等于0
得 $\hat{b}=\overline{y}-\overline{x}^{T}w$


#求得最优解析解进行优化,输入lambda参数，和x,y进行迭代求解
def optimizer(x,y,r_lambda):
    x_mean = torch.mean(x)
    tmp = (x-x_mean.T)
    y_mean = torch.mean(y)
    w = torch.matmul(torch.matmul(torch.inverse(torch.matmul(tmp.T,tmp)),tmp.T),(y-y_mean))
    b = y_mean-torch.matmul(x_mean.unsqueeze(0),w)
    return w,b

测试利用经验误差最小化模拟参数 $w, b$ 得到的图形。

1.问：为什么省略了 $\frac{1}{N}$ 不影响效果？
　　因为 $\frac{1}{N}$ 是一个常数，常数会影响数值的大小，不会影响数值的方向，因此更不会影响数值的相关性，这点数值的大小可以通过认为的学习率设置进行调整。所以不会影响效果。
2.2. 什么是最小二乘法（ Least Square Method ， LSM ）
　　所谓的最小二乘法（generalized least squares）是一种数学优化技术，它通过最小化误差的平方和找到一组数据的最佳函数匹配。最小二乘法是用最简的方法求得一些绝对不可知的真值，而令误差平方之和为最小。最小二乘法通常用于曲线拟合。很多其他的优化问题也可通过最小化能量或最大化熵用最小二乘形式表达。
　　比如从最简单的一次函数 $y = k x + b$ 讲起已知坐标轴上有些点(1.1,2.0),(2.1,3.2),(3,4.0),(4,6),(5.1,6.0),求经过这些点的图象的一次函数关系式。当然这条直线不可能经过每一个点,我们只要做到5个点到这条直线的距离的平方和最小即可,这这就需要用到最小二乘法的思想.然后就用线性拟合来求。

拓展：当放松一下，最小二乘法的历史
　　　1801年，意大利天文学家朱赛普·皮亚齐发现了第一颗小行星谷神星。经过40天的跟踪观测后，由于谷神星运行至太阳背后，使得皮亚齐失去了谷神星的位置。随后全世界的科学家利用皮亚齐的观测数据开始寻找谷神星，但是根据大多数人计算的结果来寻找谷神星都没有结果。时年24岁的高斯也计算了谷神星的轨道。奥地利天文学家海因里希·奥尔伯斯根据高斯计算出来的轨道重新发现了谷神星。
高斯使用的最小二乘法的方法发表于1809年他的著作《天体运动论》中。
法国科学家勒让德于1806年独立发现“最小二乘法”。但因不为时人所知而默默无闻。

2.2.5模型训练

小黑板：模型训练的步骤

生成数据集

模型构建

模型训练

模型评估

通过生成的数据集，损失函数，和优化器计算出线性模型中的参数

import torch
import numpy as np
import matplotlib.pyplot as plt
'''
input:w,b,num---->给定权重w，偏移量b,num样本数目
            type：tensor,int...float,int
output:x,y
    生成的自变量x，因变量y
target:creat a data about linear model
'''
def create_data(w,b,num):
    #生成自变量x
    x = torch.normal(0,1,(num,len(w)))
    #生成标准的线性模型
    y = torch.matmul(x,w)+b
    #添加噪声
    y = y+torch.normal(0,1,y.shape)
    return x,y
'''

input:y_real,y_predict---->真实值集合,预测值集合
                    type：list,list
output:error---->误差
tatget:calc the error betweeen the real and prdiction using the min 2 cheng
'''
def loss(y_real,y_predict):
    return torch.sum(torch.subtract(y_real,y_predict)*torch.subtract(y_real,y_predict)/2*len(y_real))
'''
求得最优解析解进行优化
'''
def optimizer(x,y,r_lambda):
    x_mean = torch.mean(x)
    tmp = (x-x_mean.T)
    y_mean = torch.mean(y)
    w = torch.matmul(torch.matmul(torch.inverse(torch.matmul(tmp.T,tmp)),tmp.T),(y-y_mean))
    b = y_mean-torch.matmul(x_mean.unsqueeze(0),w)
    return w,b

if __name__ =="__main__":
	#数据集的数目,正则化系数
	n = 150;
	z = 1;
    # 创建数据集
    data_x, data_y = create_data(torch.tensor([4.0]), 3, n)
    # 分割训练集和测试集
    data_x_train, data_y_train = data_x[0:round((2/3)*n)], data_y[0:round((2/3)*n)]
    data_x_test, data_y_test = data_x[round((2/3)*n):n], data_y[round((2/3)*n):n]
    # 构造一个简单的样例进行测试
    w = torch.tensor([2.0])
    b = 2;
    w,b = optimizer(data_x_train,data_y_train,1);
    '''生成图像'''
    # 生成图形1
    plt.figure(1)
    # 描绘数据
    plt.plot(data_x_train, data_y_train, '.r', data_x_test, data_y_test, '.g')
    x = torch.linspace(-4,4,100)
    y = x*w+b
    plt.plot(x,y)
    plt.xlabel("x")
    plt.ylabel("y")
    plt.legend(["train","test","line"])
    plt.show()
    print("==========训练完成============")
    print("估计出来的参数w:{0},b:{1}".format(w,b))
    print("训练集上的误差{0}".format(loss(data_y_train,torch.matmul(data_x_train,w)+b)))
    print("测试集上的误差{0}".format(loss(data_y_test,torch.matmul(data_x_test,w)+b)))
'''==========训练完成============
估计出来的参数w:tensor([4.1229]),b:3.0065484046936035
训练集上的误差5113.0166015625
测试集上的误差1234.0970458984375'''

2.2.6模型评估

调整模型的数目到1000，


  #数据集的数目,正则化系数
  n = 5000;	'''<====这里发生了变化'''
  z = 1;
  # 创建数据集
  data_x, data_y = create_data(torch.tensor([4.0]), 3, n)
  # 分割训练集和测试集
  data_x_train, data_y_train = data_x[0:round((2/3)*n)], data_y[0:round((2/3)*n)]
  data_x_test, data_y_test = data_x[round((2/3)*n):n], data_y[round((2/3)*n):n]
  '''
  ''
 ==========训练完成============
估计出来的参数w:tensor([3.9826]),b:3.052729845046997
训练集上的误差256413.53125
测试集上的误差48983.78515625
  '''

解释一下误差为什么会变大，是因为整体数据变多了，但是误差均值和方差均会变小，测试样本增多，会更加准确，所以单个个体的误差会减小

调整正则化系数

	#数据集的数目,正则化系数
   n = 5000;
   z = 0.5;	'''<====这里发生了变化'''
   # 创建数据集
   data_x, data_y = create_data(torch.tensor([4.0]), 3, n)
   # 分割训练集和测试集
   data_x_train, data_y_train = data_x[0:round((2/3)*n)], data_y[0:round((2/3)*n)]
   data_x_test, data_y_test = data_x[round((2/3)*n):n], data_y[round((2/3)*n):n]
   '''
      ==========训练完成============
估计出来的参数w:tensor([3.9153]),b:3.0420732498168945
训练集上的误差5004.54296875
测试集上的误差1536.957763671875
   '''

正则化系数是为了防止过拟合，由图可知，改变正则化系数拟合出的直线变化不是很大，可知拟合效果良好

2.3多项式回归

$f(x;w)=w_{1}x^{2}+w_{2}x^{2}+...+w_{M}x^{M}+b=w^{T}\phi(x)+b$
其中 $M$ 为多项式的阶数， $w$ 为多项式的系数。
$\phi$ 为多项式基函数，将原始特征 $x$ 映射为M维向量。当 $M$ =0时， $f (x; w) = b$

2.3.1数据集构建

构建训练和测试数据，其中：
训练数样本 15 个，测试样本 10 个，高斯噪声标准差为 0.1，自变量范围为 (0,1)。

def creatData(num,w,b):
    data_x = torch.rand((num,2))
    for i in range(0,len(data_x)):
        data_x[:,1] = data_x[:,0]*data_x[:,0]
    data_y = torch.matmul(data_x,w)+b
    data_y = data_y
    return data_x,data_y
    # 生成数据
func = sin
interval = (0,1)
train_num = 15
test_num = 10
noise = 0.5 #0.1 
X_train, y_train = create_toy_data(func=func, interval=interval, sample_num=train_num, noise = noise)
X_test, y_test = create_toy_data(func=func, interval=interval, sample_num=test_num, noise = noise)

X_underlying = paddle.linspace(interval[0],interval[1],num=100)
y_underlying = sin(X_underlying)

# 绘制图像
plt.rcParams['figure.figsize'] = (8.0, 6.0)
plt.scatter(X_train, y_train, facecolor="none", edgecolor='#e4007f', s=50, label="train data")
#plt.scatter(X_test, y_test, facecolor="none", edgecolor="r", s=50, label="test data")
plt.plot(X_underlying, y_underlying, c='#000000', label=r"$\sin(2\pi x)$")
plt.legend(fontsize='x-large')
plt.savefig('ml-vis2.pdf')
plt.show()

数据集可视化

2.3.2模型构建与训练

构建如下模型 $y = w_{1}x_{1}^{1}+....w_{n}x_{1}^{n}+b$ ,通过观察可知是由线性模型进行转变得到的,所以我们可以使用pytorch线性模型拟合的函数torch.nn.linear进行拟合.构建模型，通过均方误差来衡量训练误差、测试误差以及在没有噪音的加入下sin函数值与多项式回归值之间的误差，更加真实地反映拟合结果。多项式分布阶数从0到8进行遍历。


'''多项式回归'''
import torch
import numpy as np
import matplotlib.pyplot as plt
'''
    画图
'''
def draw_tarin(x_train,y_train):
    plt.figure(1)
    plt.plot(x_train[:,0], y_train, "r.")
    plt.xlabel("x")
    plt.ylabel("y")
    plt.legend(['train'])
def draw_pred(x_pred,y_pred):
    plt.figure(1)
    plt.plot(x_pred, y_pred, "g.")
    plt.xlabel("x")
    plt.ylabel("y")
    plt.legend(['pred'])

def draw(isPred=False,x_train=None,y_train=None,x_pred=None,y_pred=None):
    draw_tarin(x_train,y_train)
    if(isPred):
        draw_pred(x_pred,y_pred)
        plt.legend(['train','pred'])
    plt.show()
'''
构造数据集
input:
 -num:数据集的个数
 -w:权重
 -b:为常系数
output:
 -data_x:数据集，自变量 
 _data_y:数据集，因变量
'''
def creatData(num,w,b):
    data_x = torch.rand((num,2))
    for i in range(0,len(data_x)):
        data_x[:,1] = data_x[:,0]*data_x[:,0]
    data_y = torch.matmul(data_x,w)+b
    data_y = data_y
    return data_x,data_y


'''
    建立线性模型
    input:
     -N表示多项式的阶数
'''
class Classification(torch.nn.Module):
    def __init__(self):
        super(Classification,self).__init__()
        self.poly = torch.nn.Linear(2,1)
        """
        输入矩阵               weight     bias     target
        ------------------------------------------------
        [[x₁²  x₁]                            y₁
         [x₂²  x₂]      [[w₁]                 y₂
         [x₃²  x₃]   x   [w₂]]  +  [b]   =    y3
       ------------------------------------------------
        """
    def forward(self,x):

        return self.poly(x)

if __name__ == '__main__':
    #训练次数
    epoch = 50
    # 定义一个函数
    w_target = torch.tensor([-2.0,1.0])
    b_target = torch.tensor([0.21])
    func = 'f(x) = {:.2f} + {:.2f} * x + {:.2f} * x^2'.format(b_target[0], w_target[0], w_target[1])
    print("生成的多项式函数为:", func)
    data_x,data_y = creatData(25,w_target,b_target)
    print(data_x[0,0])
    data_x_train,data_y_train = data_x[0:15,:],data_y[0:15];
    data_x_target,data_y_target = data_x[15:25,:],data_y[15:25];
    model = Classification();
    #均方误差
    loss = torch.nn.MSELoss()
    #优化器选用随机梯度下降的方法
    optimizer = torch.optim.SGD(model.parameters(),0.05)
    #初始化迭代器
    optimizer.zero_grad()
    #反向传播
    for i in range(0,epoch):
        if(epoch%10==0):
            output = model(data_x_train);
            lossNum = loss(output,data_y_train)
            lossNum.backward()
            optimizer.step()
            optimizer.zero_grad()
            print('[---------{}/{}--------------]  Loss = {}'.format(i+1,epoch,lossNum.data))

2.3.3模型评估

# 训练误差和测试误差
training_errors = []
test_errors = []
distribution_errors = []

# 遍历多项式阶数
for i in range(9):
    model = Linear(i)

    X_train_transformed = polynomial_basis_function(X_train.reshape([-1,1]), i) 
    X_test_transformed = polynomial_basis_function(X_test.reshape([-1,1]), i) 
    X_underlying_transformed = polynomial_basis_function(X_underlying.reshape([-1,1]), i)
    
    optimizer_lsm(model,X_train_transformed,y_train.reshape([-1,1]))
    
    y_train_pred = model(X_train_transformed).squeeze()
    y_test_pred = model(X_test_transformed).squeeze()
    y_underlying_pred = model(X_underlying_transformed).squeeze()

    train_mse = mean_squared_error(y_true=y_train, y_pred=y_train_pred).item()
    training_errors.append(train_mse)

    test_mse = mean_squared_error(y_true=y_test, y_pred=y_test_pred).item()
    test_errors.append(test_mse)

    #distribution_mse = mean_squared_error(y_true=y_underlying, y_pred=y_underlying_pred).item()
    #distribution_errors.append(distribution_mse)

print ("train errors: \n",training_errors)
print ("test errors: \n",test_errors)
#print ("distribution errors: \n", distribution_errors)

# 绘制图片
plt.rcParams['figure.figsize'] = (8.0, 6.0)
plt.plot(training_errors, '-.', mfc="none", mec='#e4007f', ms=10, c='#e4007f', label="Training")
plt.plot(test_errors, '--', mfc="none", mec='#f19ec2', ms=10, c='#f19ec2', label="Test")
#plt.plot(distribution_errors, '-', mfc="none", mec="#3D3D3F", ms=10, c="#3D3D3F", label="Distribution")
plt.legend(fontsize='x-large')
plt.xlabel("degree")
plt.ylabel("MSE")
plt.savefig('ml-mse-error.pdf')
plt.show()

观察可视化结果：

当阶数较低的时候，模型的表示能力有限，训练误差和测试误差都很高，代表模型欠拟合；
当阶数较高的时候，模型表示能力强，但将训练数据中的噪声也作为特征进行学习，一般情况下训练误差继续降低而测试误差显著升高，代表模型过拟合。
此处多项式阶数大于等于5时，训练误差并没有下降，尤其是在多项式阶数为7时，训练误差变得非常大，请思考原因？提示：请从幂函数特性角度思考。

对于模型过拟合的情况，可以引入正则化方法，通过向误差函数中添加一个惩罚项来避免系数倾向于较大的取值。下面加入l2正则化项，查看拟合结果

degree = 8 # 多项式阶数
reg_lambda = 0.0001 # 正则化系数

X_train_transformed = polynomial_basis_function(X_train.reshape([-1,1]), degree)
X_test_transformed = polynomial_basis_function(X_test.reshape([-1,1]), degree)
X_underlying_transformed = polynomial_basis_function(X_underlying.reshape([-1,1]), degree)

model = Linear(degree) 

optimizer_lsm(model,X_train_transformed,y_train.reshape([-1,1]))

y_test_pred=model(X_test_transformed).squeeze()
y_underlying_pred=model(X_underlying_transformed).squeeze()

model_reg = Linear(degree) 

optimizer_lsm(model_reg,X_train_transformed,y_train.reshape([-1,1]),reg_lambda=reg_lambda)

y_test_pred_reg=model_reg(X_test_transformed).squeeze()
y_underlying_pred_reg=model_reg(X_underlying_transformed).squeeze()

mse = mean_squared_error(y_true = y_test, y_pred = y_test_pred).item()
print("mse:",mse)
mes_reg = mean_squared_error(y_true = y_test, y_pred = y_test_pred_reg).item()
print("mse_with_l2_reg:",mes_reg)

# 绘制图像
plt.scatter(X_train, y_train, facecolor="none", edgecolor="#e4007f", s=50, label="train data")
plt.plot(X_underlying, y_underlying, c='#000000', label=r"$\sin(2\pi x)$")
plt.plot(X_underlying, y_underlying_pred, c='#e4007f', linestyle="--", label="$deg. = 8$")
plt.plot(X_underlying, y_underlying_pred_reg, c='#f19ec2', linestyle="-.", label="$deg. = 8, \ell_2 reg$")
plt.ylim(-1.5, 1.5)
plt.annotate("lambda={}".format(reg_lambda), xy=(0.82, -1.4))
plt.legend(fontsize='large')
plt.savefig('ml-vis4.pdf')
plt.show()

要用其他的损失函数和优化器计算一下效果哦

Runner类介绍

根据模型的产生流程,Runner类的成员函数定义如下：

init 函数：实例化Runner类时默认调用，需要传入模型、损失函数、优化器和评价指标等；
train函数：完成模型训练，指定模型训练需要的训练集和验证集；
evaluate函数：通过对训练好的模型进行评价，在验证集或测试集上查看模型训练效果；
predict函数：选取一条数据对训练好的模型进行预测；
save_model函数：模型在训练过程和训练结束后需要进行保存；
load_model函数：调用加载之前保存的模型。

class Runner(object):
    def __init__(self, model, optimizer, loss_fn, metric):
        self.model = model         # 模型
        self.optimizer = optimizer # 优化器
        self.loss_fn = loss_fn     # 损失函数   
        self.metric = metric       # 评估指标

    # 模型训练
    def train(self, train_dataset, dev_dataset=None, **kwargs):
        pass

    # 模型评价
    def evaluate(self, data_set, **kwargs):
        pass

    # 模型预测
    def predict(self, x, **kwargs):
        pass

    # 模型保存
    def save_model(self, save_path):
        pass

    # 模型加载
    def load_model(self, model_path):
        pass

Runner类的流程如图2.8所示，可以分为 4 个阶段：

初始化阶段：传入模型、损失函数、优化器和评价指标。
模型训练阶段：基于训练集调用train()函数训练模型，基于验证集通过evaluate()函数验证模型。通过save_model()函数保存模型。
模型评价阶段：基于测试集通过evaluate()函数得到指标性能。
模型预测阶段：给定样本，通过predict()函数得到该样本标签。

2.5 基于线性回归的波士顿房价预测

目的:使用线性回归来对马萨诸塞州波士顿郊区的房屋进行预测。

2.5.1数据清洗

2.5.1.1 数据清洗

读取数据

#读取数据集
data_boston_house_prices = pd.read_csv('boston_house_prices.csv')

检查是否存在异常值

data_boston_house_prices .isna().sum()

可知不存在异常值,如果异常值,参考实验一
使用数据的均值处理离散值

#使用均值处理缺失值
input = input.fillna(input.mean())

处理异常值

output = pd.get_dummies(output,dummy_na=True)

总代码

import pandas as pd
import torch
#读取数据集
data_boston_house_prices = pd.read_csv('boston_house_prices.csv')
#读取输出
input_boston_house_prices,output_boston_house_prices = data_boston_house_prices.iloc[:,0:12],data_boston_house_prices.iloc[:,12]
#处理缺失值
input_boston_house_prices,output_boston_house_prices = input_boston_house_prices.fillna(input_boston_house_prices.mean()),output_boston_house_prices.fillna(output_boston_house_prices.mean())

另一种检测

import matplotlib.pyplot as plt # 可视化工具

# 箱线图查看异常值分布
def boxplot(data, fig_name):
    # 绘制每个属性的箱线图
    data_col = list(data.columns)
    
    # 连续画几个图片
    plt.figure(figsize=(5, 5), dpi=300)
    # 子图调整
    plt.subplots_adjust(wspace=0.6)
    # 每个特征画一个箱线图
    for i, col_name in enumerate(data_col):
        plt.subplot(3, 5, i+1)
        # 画箱线图
        plt.boxplot(data[col_name], 
                    showmeans=True, 
                    meanprops={"markersize":1,"marker":"D","markeredgecolor":'#f19ec2'}, # 均值的属性
                    medianprops={"color":'#e4007f'}, # 中位数线的属性
                    whiskerprops={"color":'#e4007f', "linewidth":0.4, 'linestyle':"--"},
                    flierprops={"markersize":0.4},
                    ) 
        # 图名
        plt.title(col_name, fontdict={"size":5}, pad=2)
        # y方向刻度
        plt.yticks(fontsize=4, rotation=90)
        plt.tick_params(pad=0.5)
        # x方向刻度
        plt.xticks([])
    plt.savefig(fig_name)
    plt.show()

boxplot(data, 'ml-vis5.pdf')

通过箱线图我们可以得出大部分数据良好均在上下边缘内,但例如RM这种变量仍存在大量的异常值,使用临界值将这些异常值替换.

data = data_price_boston
# 四分位处理异常值
num_features=data.select_dtypes(exclude=['object','bool']).columns.tolist()

for feature in num_features:
    if feature =='CHAS':
        continue
    
    Q1  = data[feature].quantile(q=0.25) # 下四分位
    Q3  = data[feature].quantile(q=0.75) # 上四分位
    
    IQR = Q3-Q1 
    top = Q3+1.5*IQR # 最大估计值
    bot = Q1-1.5*IQR # 最小估计值
    values=data[feature].values
    values[values > top] = top # 临界值取代噪声
    values[values < bot] = bot # 临界值取代噪声
    data[feature] = values.astype(data[feature].dtypes)

# 再次查看箱线图，异常值已被临界值替换（数据量较多或本身异常值较少时，箱线图展示会不容易体现出来）
boxplot(data, 'ml-vis6.pdf')

观察图形可知,各个变量均不存在异常值

2.5.1.2 数据集划分

最后一列为房价,前面为放假影响因素,据此分割数据集,并将数据集分为训练集和测试集合,由于模型简单,不考虑验证集

# 划分训练集和测试集
def train_test_split(X, y, train_percent=0.8):
    n = len(X)
    shuffled_indices = paddle.randperm(n) # 返回一个数值在0到n-1、随机排列的1-D Tensor
    train_set_size = int(n*train_percent)
    train_indices = shuffled_indices[:train_set_size]
    test_indices = shuffled_indices[train_set_size:]

    X = X.values
    y = y.values

    X_train=X[train_indices]
    y_train = y[train_indices]
    
    X_test = X[test_indices]
    y_test = y[test_indices]

    return X_train, X_test, y_train, y_test 


X = data.drop(['MEDV'], axis=1)
y = data['MEDV']

X_train, X_test, y_train, y_test = train_test_split(X,y)# X_train每一行是个样本，shape[N,D]

2.5.1.2 特征工程

房价影响因素中有些数据可能是相关性比较大,对房价的影响程度相同,这时候可以整合到一个影响因素中.这时候我们可以使用Spss软件进行分析,这里为了简便.我就不引入了.具体流程可以看使用spss做各种相关性分析的方法和步骤
由于不同单位的量纲不同,这里我们进行归一化来去量纲处理

#转换为张量
X_train = torch.as_tensor(X_train,dtype=torch.float32)
X_test = torch.as_tensor(X_test,dtype=torch.float32)
y_train = torch.as_tensor(y_train,dtype=torch.float32)
y_test = torch.as_tensor(y_test,dtype=torch.float32)

X_min = torch.min(X_train,axis=0)
X_max = torch.max(X_train,axis=0)
#进行去量纲操作
X_train = (X_train-X_min.values)/(X_max.values-X_min.values)
X_test  = (X_test-X_min.values)/(X_max.values-X_min.values)

# 训练集构造
train_dataset=(X_train,y_train)
# 测试集构造
test_dataset=(X_test,y_test)

2.5.2 模型构建

因为有12变量影响房价,所以我们需要12个权重w和一个偏移量b来进行预测.
模型: $y=w_{1}x_{1}+....w_{12}x^{12}+b$

from op impoer Linear
# 模型实例化
input_size = 12
model=Linear(input_size)

2.5.3完善Runner类

误差函数使用均方误差

from torch.nn import MSELoss
mse_loss = MSELoss()

Runner类的完善

import  os
class Runner(object):
    class Runner(object):
        def __init__(self, model, optimizer, loss_fn, metric):
            # 优化器和损失函数为None,不再关注

            # 模型
            self.model = model
            # 评估指标
            self.metric = metric
            # 优化器
            self.optimizer = optimizer

        def train(self, dataset, reg_lambda, model_dir):
            X, y = dataset
            self.optimizer(self.model, X, y, reg_lambda)

            # 保存模型
            self.save_model(model_dir)

        def evaluate(self, dataset, **kwargs):
            X, y = dataset

            y_pred = self.model(X)
            result = self.metric(y_pred, y)

            return result

        def predict(self, X, **kwargs):
            return self.model(X)

        def save_model(self, model_dir):
            if not os.path.exists(model_dir):
                os.makedirs(model_dir)

            params_saved_path = os.path.join(model_dir, 'params.pdtensor')
            torch.save(model.params, params_saved_path)

        def load_model(self, model_dir):
            params_saved_path = os.path.join(model_dir, 'params.pdtensor')
            self.model.params = torch.load(params_saved_path)

    optimizer = optimizer_lsm

    # 实例化Runner
    runner = Runner(model, optimizer=optimizer, loss_fn=None, metric=mse_loss)

2.5.4模型训练

# 模型保存文件夹
saved_dir = models'

# 启动训练
runner.train(train_dataset,reg_lambda=0,model_dir=saved_dir)

打印出权重


# 实例化Runner
runner = Runner(model, optimizer=optimizer, loss_fn=None, metric=mse_loss)
# 模型保存文件夹
saved_dir = '/models'
# 启动训练
runner.train(train_dataset, reg_lambda=0, model_dir=saved_dir)
columns_list = data.columns.to_list()
weights = runner.model.params['w'].tolist()
b = runner.model.params['b'].item()

for i in range(len(weights)):
    print(columns_list[i],"weight:",weights[i])

print("b:",b)

结果分析:从输出结果看，CRIM、PTRATIO等的权重为负数，表示该镇的人均犯罪率与房价负相关，学生与教师比例越大，房价越低。RAD和CHAS等为正，表示到径向公路的可达性指数越高，房价越高；临近Charles River房价高。

2.5.5模型测试

# 加载模型权重
runner.load_model(saved_dir)
mse = runner.evaluate(test_dataset)
print('MSE:', mse.item())

2.5.6模型预测

runner.load_model(saved_dir)
pred = runner.predict(X_test[:1])
print("真实房价：",y_test[:1].item())
print("预测的房价：",pred.item())

问题1：使用类实现机器学习模型的基本要素有什么优点？

将代码封装成类，接近人的思维，更容易使人理解。
可以复用，如果代码出错，只需更改类中的代码即可
提高效率，不用写冗余代码
可以装牛，体现python面向对象编程的特点

问题2：算子op、优化器opitimizer放在单独的文件中，主程序在使用时调用该文件。这样做有什么优点？
算法中的分而治之思想，将不同代码存放到单独文件，便于归纳整理，同时处理起来方便，如果都放到一起，不仅查找不方便，而且代码过长，容易引起烦躁。
调用算子的时候就不用每次再写代码了，直接Import一下就好了。修改也方便。
问题3：线性回归通常使用平方损失函数，能否使用交叉熵损失函数？为什么？
在回答这道问题之前，我真不是很懂这两个损失函数之前的具体区别，还好现在是大数据时代，去网上搜了搜。所以说学习东西，不在乎数量，在于质量。
交叉熵损失中有激活函数sigmoid，最后得出来是判断某一个样本训练成功的概率，而不是与实际值之间的举例，所以交叉熵更适合分类任务，不适合回归。平方损失函数是实际值与目标值之间的误差，更关注得是二者之间得距离，所以更适合线性回归。均方误差求解比交叉熵求解更方便。

收获

这次实验写了半天，难度增加了，第一次用类进行编程，体会到了类的好处，自己写了一维的线性回归底层代码，就写了好多，而pytorch就仅仅用了几行代码就训练好了，且兼容性更强。了解到了不同损失函数之间的异同，为自己以后训练网络的选择准则多增一份知识，积少成多。同时在计算一维线性函数求导的时候温习了数学知识，所谓温故而知新，学过的不忘，才能更好的了解到新知识，不会丢了西瓜捡芝麻。除了第一个代码是自己从头到尾写下来的，其余的还是要借鉴老师的代码，共同努力，一起进步！！

你可能感兴趣的:(python,机器学习,深度学习)

python汇率_用Python抓取汇率
抓取的是中行的数据:网址代码#-*-coding:utf-8-*-importreimporturllib.requesturl='http://www.boc.cn/sourcedb/whpj/index.html'#网址req=urllib.request.Request(url)response=urllib.request.urlopen(req)the_page=response.rea
python抓取汇率_09 使用Python爬取中国银行网站选择汇率最坑的一天
爬取2018年8月27日~9月2日的欧元汇率。先说结论：如果是现汇卖出价，可以选择2018-08-3109:19:26，现钞卖出价805.28。我刚问了报销过的人她说任选都行，可以不是中行折算价。最近出差，学校可以以人民币的形式报销路费、住宿费，汇率，可以任选出差期间的任何一天任何时候的中国银行的汇率，中国银行网站上的汇率长这样：如果想要合理利用规则，多回一点本，不妨选择汇率最坑的一天(默默给财务
爬虫小结 Crescent_P python小项目 python 数据分析
python爬虫小组作业上周布置了python的小组作业,每一组要求爬取老师指定的信息,本组抽到的题目如下:从中国银行网址：http://www.boc.cn/sourcedb/whpj/获取主要外汇（美元、欧元、英镑、加拿大元、澳大利亚元、日元、韩元、新台币、澳门元和港币）的牌价信息，计算出它们的每天平均价。要求把今年5月份每天平均价格保存到Excel文件中，每种外汇的数据保存在一个工作表中，并
Python 爬虫实战：抓取华尔街日报付费文章摘要的全方位指南 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
引言在全球化的信息时代，获取高质量的新闻内容对于研究、投资和决策具有重要意义。《华尔街日报》（TheWallStreetJournal，简称WSJ）作为国际知名的财经媒体，其文章内容备受关注。然而，WSJ的大部分内容属于付费订阅，普通用户无法直接访问。本文将深入探讨如何使用Python爬虫技术，结合最新的工具和方法，抓取WSJ的付费文章摘要。一、了解目标网站结构1.1WSJ网站结构分析WSJ的官方
Python爬虫实战：使用最新技术爬取头条新闻数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 音视频
一、前言：Python爬虫在现代数据获取中的重要性在当今信息爆炸的时代，数据已经成为最宝贵的资源之一。作为数据获取的重要手段，网络爬虫技术在各个领域发挥着越来越重要的作用。Python凭借其简洁的语法、丰富的库生态系统和强大的社区支持，已经成为网络爬虫开发的首选语言。本文将详细介绍如何使用Python及其最新的爬虫技术来爬取头条新闻数据。我们将从基础概念讲起，逐步深入到高级技巧，最后给出完整的爬虫
Python爬虫实战：爬取ETF基金持仓变化 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
1.项目背景ETF（Exchange-TradedFund，交易型开放式指数基金）作为一种在交易所上市交易的基金，其持仓信息对于投资者具有重要参考价值。了解ETF的持仓变化，可以帮助投资者判断市场趋势和资金流向。本文将通过Python爬虫技术，自动化地获取ETF基金的持仓变化数据，进行存储和分析。2.技术选型与环境准备2.1技术选型编程语言：Python3.8+爬虫框架：Scrapy数据解析：Be
【Python】（一）面试题和Py基础题戏精亿点点菜 python 开发语言
1.技术面试题（1）TCP与UDP的区别是什么？答：TCP（TransmissionControlProtocol，传输控制协议）提供的是面向连接，可靠的字节流服务。即客户和服务器交换数据前，必须现在双方之间建立一个TCP连接，之后才能传输数据。并且提供超时重发，丢弃重复数据，检验数据，流量控制等功能，保证数据能从一端传到另一端。UDP（UserDataProtocol，用户数据报协议）是一个简单
Python 爬虫实战：实时采集外汇汇率数据的全方位指南 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
引言在全球化的金融市场中，外汇汇率的实时数据对于投资者、企业和研究人员来说至关重要。通过自动化的方式获取这些数据，不仅可以提高效率，还能为决策提供及时的支持。本文将深入探讨如何使用Python爬虫技术，结合最新的工具和方法，实时采集外汇汇率数据。一、外汇汇率数据的获取途径1.1使用官方API接口许多金融机构和数据提供商提供了官方的API接口，供开发者获取外汇汇率数据。例如：AlphaVantage
ResNet：深度卷积神经网络的里程碑心想事“程” 小知识点 cnn 人工智能神经网络
一、引言在深度学习的发展历程中，深度卷积神经网络（CNN）不断演进，旨在提升对图像等数据的特征提取与分类能力。然而，随着网络层数的增加，传统CNN面临着梯度消失、梯度爆炸以及退化等棘手问题，训练变得愈发困难。2015年，由微软研究院提出的ResNet（ResidualNetworks，残差网络）横空出世，它以独特的残差学习思想，成功攻克了这些难题，在ImageNet竞赛中大放异彩，开创了深度神经网
从零构建智能ai语音助手：ESP32s3+Python+大语言模型实战指南
从零构建智能ai语音助手：ESP32s3+Python+大语言模型实战指南一、项目概述大家好！今天给大家带来一个干货满满的实战项目——基于ESP32S3硬件和Python后端的智能语音助手系统。这个项目将物联网技术与AI技术完美结合，打造一个可以实时对话、意图识别的智能语音交互系统。相比传统的离线语音系统只能识别固定命令词，我们这套系统可以：实现自然语言理解，支持多种表达方式无需预设固定命令词，更
视觉算法之卷积神经网络清风AI 深度学习算法详解及代码复现计算机视觉 cnn 神经网络深度学习 python 课程设计毕业设计
定义与特点卷积神经网络(ConvolutionalNeuralNetwork,CNN)是一种专为处理具有网格结构的数据而设计的深度学习模型。其独特的结构和功能使其在图像处理、语音识别等领域展现出卓越的性能:CNN的核心设计理念源于对生物视觉系统的模仿。通过模拟大脑皮层中视网膜和视觉皮层的层次化结构,CNN能够有效地捕捉图像中的局部特征并逐步抽象为高层语义信息。这种设计使得CNN特别擅长处理图像和音
卷积神经网络架构的演进：从AlexNet到EfficientNet t0_54manong 大数据与人工智能 cnn 架构人工智能个人开发
在过去的8.5年里，深度学习取得了飞速的进步。回溯到2012年，AlexNet在ImageNet上的Top-1准确率仅为63.3%，而如今，借助EfficientNet架构和师生训练法，我们已经能达到超过90%的准确率。本文将聚焦于卷积神经网络（CNN）架构的演变，深入探究其背后的基本原理。一些关键术语在深入了解各种架构之前，我们需要明确几个关键术语。更宽的网络意味着卷积层中有更多的特征图（滤波器
Python 领域 pytest 的测试用例的可维护性设计
Python领域pytest的测试用例的可维护性设计关键词：pytest、测试用例、可维护性、测试框架、自动化测试、测试设计模式、重构摘要：本文深入探讨了如何在Python测试框架pytest中设计可维护的测试用例。我们将从测试用例可维护性的核心原则出发，分析pytest的特性和最佳实践，介绍多种提高测试代码可维护性的设计模式和技巧。文章包含实际代码示例、项目实战案例以及可维护性评估指标，帮助开发
Python爬虫小白入门指南，成为大牛必须经历的三个阶段
学习任何一门技术，都应该带着目标去学习，目标就像一座灯塔，指引你前进，很多人学着学着就学放弃了，很大部分原因是没有明确目标，所以，一定要明确学习目的，在你准备学爬虫前，先问问自己为什么要学习爬虫。有些人是为了一份工作，有些人是为了好玩，也有些人是为了实现某个黑科技功能。不过可以肯定的是，学会了爬虫能给你的工作提供很多便利。小白入门必读作为零基础小白，大体上可分为三个阶段去实现。第一阶段是入门，掌握
python 包管理工具uv
uv--versionuvpythonfinduvpythonlistexportUV_DEFAULT_INDEX="https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple"#换成私有的repoexportUV_HTTP_TIMEOUT=120uvpythoninstall3.12uvvenvmyenv--python3.12--seeduvhtt
Python通关秘籍之基础教程(一） Smile丶Life丶 Python 通关指南：从零基础到高手之路 python 开发语言后端
引言在编程的世界里，Python就像一位温和而强大的导师，它以简洁优雅的语法和强大的功能吸引着无数初学者和专业人士。无论你是想开发网站、分析数据、构建人工智能，还是仅仅想学习编程思维，Python都是你的理想选择。Python的魅力在于它的易读性和广泛的应用场景。它的代码就像英语句子一样自然，即使是完全没有编程经验的人也能快速上手。同时，Python拥有庞大的生态系统，从Web开发（Django、
Python 包管理工具（uv） cliffordl python python uv 开发语言
Python虚拟环境（conda）Python虚拟环境（venv）Python包管理工具（uv）文章目录1.uv的特点2.安装uv2.1.使用官方推荐方式2.2.使用pip安装（Python>=3.8）2.3.使用conda/mamba安装3.基本使用方法3.1.初始化项目并创建虚拟环境3.1.1.CMD运行结果3.1.2.VScode运行结果3.2.安装依赖3.3.生成依赖文件3.4.使用pyp
Python协程从入门到精通：9个案例解析yield、gevent与asyncio实战 python_chai Python python 开发语言协程并发 yield生成器 gerrnlet gevent
引言痛点分析：传统多线程在高并发场景下的性能瓶颈。协程优势：轻量级、高并发、低资源消耗。本文目标：通过9个代码案例，系统讲解协程的核心技术和应用场景。目录引言1.协程基础：理解yield生成器1.1yield的暂停与恢复机制1.2生产者-消费者模型实战1.3双向通信：send()方法详解2.手动协程控制：greenlet进阶2.1greenlet的显式切换原理2.2多任务协作案例3.自动化协程：g
Python爬虫在社交平台数据挖掘中的应用：深入探索用户互动程序员威哥 python 爬虫数据挖掘
引言社交媒体已经成为全球用户互动的主要平台，每天都有大量的信息生成，用户之间的互动行为如点赞、评论、分享、转发等构成了宝贵的数据资源。如何利用这些互动数据为商业决策、用户行为分析以及产品优化提供支持，已经成为数据科学与大数据分析领域的一个重要课题。Python作为一款强大的编程语言，凭借其丰富的爬虫库和数据分析工具，已经成为挖掘社交平台数据的重要工具。在本文中，我们将通过Python爬虫技术，深入
Python 爬虫实战：精准抓取母婴电商平台数据，深入分析用户评价洞察市场趋势程序员威哥最新爬虫实战项目 python 爬虫开发语言
前言随着生活水平的提高，越来越多的年轻父母开始关注母婴产品的质量和品牌。而母婴电商平台成为了他们选择和购买产品的主要渠道之一。母婴产品市场也因此变得异常活跃且充满竞争。在这样的市场环境下，用户评价不仅反映了产品的实际质量，也揭示了消费者的需求和偏好，成为品牌决策的核心依据之一。Python爬虫是获取电商平台用户评价数据、产品详情、价格等关键信息的强大工具。通过抓取和分析这些数据，品牌商可以实时了解
*Python爬虫应用：从社交媒体数据中提取有价值的用户行为洞察程序员威哥 python 爬虫媒体
引言在现代数字化时代，社交媒体已成为获取用户行为数据的重要来源。每秒钟，数百万条信息在平台上传播，用户的互动行为——点赞、评论、分享、关注等，构成了大量宝贵的行为数据。企业和个人通过分析这些数据，不仅可以理解用户需求、改进产品，还能精准制定营销策略。然而，如何高效地抓取、分析并从中提取有价值的用户行为洞察？这正是Python爬虫和数据分析技术的优势所在。本文将介绍如何利用Python爬虫从社交媒体
Python异步编程终极指南：用协程与事件循环重构你的高并发系统
title:Python异步编程终极指南：用协程与事件循环重构你的高并发系统date:2025/2/24updated:2025/2/24author:cmdragonexcerpt:深入剖析Python异步编程的核心机制。你将掌握：\n事件循环的底层实现原理与调度算法\nasync/await协程的6种高级用法模式\n异步HTTP请求的性能优化技巧（速度提升15倍+）\n常见异步陷阱的26种解决
python 异步编程：协程与 asyncio 花_城 Python 开发语言后端异步协程
文章目录一、协程（coroutine）1.1协程的概念1.2实现协程的方式二、asyncio异步编程2.1事件循环2.2快速上手2.3运行协程2.4await关键字2.5可等待对象2.5.1协程2.5.2任务（Task）2.5.3asyncio.Future三、concurrent.futures.Future（补充）3.1爬虫案例（asyncio+不支持异步的模块）四、asyncio异步迭代器五
突破性能瓶颈，几个高性能Python网络框架，高效实现网络应用
引言随着互联网和大数据时代的到来，高性能网络应用的需求日益增加。Python作为一种流行的编程语言，在高性能网络编程领域也具有广泛的应用。本文将深入探讨基于Python的几种高性能网络框架，分析它们各自的优势和适用场景，帮助开发者选择最适合自己需求的网络框架这里插播一条粉丝福利，如果你正在学习Python或者有计划学习Python，想要突破自我，对未来十分迷茫的，可以点击这里获取最新的Python
Python面试题：Python中的异步编程：详细讲解asyncio库的使用超哥同学 Python系列 python 开发语言面试编程
Python的异步编程是实现高效并发处理的一种方法，它使得程序能够在等待I/O操作时继续执行其他任务。在Python中，asyncio库是实现异步编程的主要工具。asyncio提供了一种机制来编写可以在单线程内并发执行的代码，适用于I/O密集型任务。以下是对asyncio库的详细讲解，包括基本概念、用法、示例以及注意事项。1.基本概念1.1协程（Coroutines）协程是一个特殊的函数，它可以被
Python 爬虫实战：如何搭建高效的分布式爬虫架构，突破数据抓取极限程序员威哥 python 爬虫分布式
随着互联网数据量的飞速增长，单一爬虫在抓取大量数据时的效率和稳定性往往无法满足需求。在这种情况下，分布式爬虫架构应运而生。分布式爬虫通过多节点并行工作，可以大大提高数据抓取的速度，同时减少单点故障的风险。本文将深入探讨如何使用Python构建一个高效的分布式爬虫架构，从架构设计到技术实现，帮助你突破数据抓取的极限。一、什么是分布式爬虫？分布式爬虫系统将爬虫任务拆分为多个子任务，分布到不同的服务器或
一文搞懂 Cursor 内部工作原理~ zz_jesse
介绍了Cursor，一个结合了AI技术的代码编辑器，它通过深度学习和语义索引的方式，提升了开发者的工作效率。Cursor通过与VSCode相似的界面和功能，以及自己的AI特性，实现了代码的智能化编辑和错误检查。译文从这开始～～你可能已经看到新闻：OpenAI正以高达30亿美元的价格收购Windsurf！与此同时，Cursor的母公司Anysphere也正在以90亿美元估值融资9亿美元！这对于代码生
python程序基本架构_Python 程序基本架构尤尔小喵喵 python程序基本架构
Python的一般程序基本架构为：输入，处理，输出，这三块。输入：包括两个内容，变量赋值与输入语句处理：包括算术运算，逻辑运算，算法处理这三方面输出：包括打印输出，写入文件，写入数据库这三块下面举两个例子具体了解一下Python的程序基本架构1输入：变量赋值处理：算术运算输出：打印输出x=12#变量赋值x=12y=13#变量赋值y=13z=x+y#算术运算print(z)#打印输出252输入：输入
如何让AI真正理解你的意图（自适应Prompt实战指南） nine是个工程师大语言模型人工智能 prompt
目前的LLM模型，在理解用户意图方面，正在使用自适应Prompt技术，来提升模型的理解能力。目前使用deepseek推理模型能明显看到自适应的一个过程。前言：为什么你的AI总是"答非所问"？相信很多人都遇到过这样的情况：你问：“帮我写一个Python爬虫”AI答：给你一堆理论知识和完整教程（你只想要简单代码）你问：“推荐一部电影”AI答：推荐了《教父》（你想看轻松喜剧）你问：“解释一下机器学习”A
如何创建Python工程目录九月恒心 Python python 自动测试
如何创建一个简单但是比较规范的python工程目录，本文是学习了LearnPythontheHardWay相关内容后做的一些笔记。安装python第三方包1.pipfromhttp://pypi.python.org/pypi/pip用于安装python第三方包的工具2.distributefromhttp://pypi.python.org/pypi/distribute已被弃用，是SetupT
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/

NNDL 实验三 线性模型

目录