cx-young

【吴恩达老师《机器学习》】课后习题5之【偏差与方差】

在本练习中，您将实现正则化线性回归，并使用它来研究具有不同偏差-方差特性的模型。

在练习的前半部分，您将实现正则化线性回归，利用水库水位的变化来预测从大坝流出的水量。
在后半部分中，您将对调试学习算法进行一些诊断，并检查偏差和偏差的影响。
这次练习将会了解如何改进机器学习算法，包括过拟合、欠拟合的状态判断以及学习曲线的绘制。

一些概念

偏差Bias：
预测值与真实值的差距，表示算法本身的拟合能力
方差Variance：
预测值的变化范围，表示数据扰动所造成的影响
如图所示（图片来自网络偏差与方差）
训练集：训练模型，类似课后练习小题
验证集：模型选择，模型的最终优化，类似于模拟卷
测试集：利用训练好的模型测试其泛化能力，类似于高考验证
之前的练习中，仅用到了训练集，实际开发者，一般使用训练集进行模型训练出几个模型，验证集验证哪个模型最优并进行优化，再使用测试集进行验证模型的泛化能力
损失函数和梯度见下图

案例

案例描述与数据集

案例：利用水库水位变化预测大坝出水量
数据集：ex5data1.mat【吴恩达老师】机器学习、深度学习课后习题所有的数据集】
在本练习中，您将实现正则化线性回归，并使用它来研究具有不同偏差-方差特性的模型。
在练习的前半部分，您将实现正则化线性回归，利用水库水位的变化来预测从大坝流出的水量。
在后半部分中，您将对调试学习算法进行一些诊断，并检查偏差和偏差的影响。

1.导包

import numpy as np
import matplotlib.pyplot as plt
from scipy.io import loadmat
from scipy.optimize import minimize

2.读取数据

# 导入数据集
data = loadmat('ex5data1.mat')

# 打印data字典里的键  1. X和y训练集数据  2. Xtest和ytest是测试集数据  3.Xval和yval是验证集数据
print('打印data字典里的键：', data.keys())# 打印data字典里的键： dict_keys(['__header__', '__version__', '__globals__', 'X', 'y', 'Xtest', 'ytest', 'Xval', 'yval'])

# 训练集
X_train, y_train = data['X'], data['y']
print('打印训练集维度：', X_train.shape, y_train.shape)  # (12, 1) (12, 1) 表明有12个样本，1个特征

# 验证集
X_val, y_val = data['Xval'], data['yval']
print('打印验证集维度：', X_val.shape, y_val.shape)  # (21, 1) (21, 1)表明有21个样本，1个特征

# 测试集
X_test, y_test = data['Xtest'], data['ytest']
print('打印测试集维度：', X_test.shape, y_test.shape)  # (21, 1) (21, 1) 表明有21个样本，1个特征

3.对训练集、验证集、测试集数据进行处理

# 添加偏置项：每行的开头插入一个值为1的列
X_train = np.insert(X_train, 0, 1, axis=1)
X_val = np.insert(y_val, 0, 1, axis=1)
X_test = np.insert(X_test, 0, 1, axis=1)

4.数据可视化

4.1先进行线性回归，看一下效果

4.1.1绘制散点图查看数据

'''绘制散点图的函数 plot_data()。
它使用训练数据集的特征和标签来创建一个散点图，以可视化特征与标签之间的关系。'''


def plot_data():
    fig, ax = plt.subplots()  # 创建图形对象(fig)和一个坐标轴对象(ax)
    # 使用scatter函数绘制散点图，      X_train[:, 1]表示   使用训练数据集中第二列特征作为X轴坐标  水位的变化
    #                              y_train表示        使用训练数据集中的标签作为Y轴坐标      出水量
    # 按照每个样本的特征和标签的取值，在散点图显示它们之间的关系
    ax.scatter(X_train[:, 1], y_train)
    ax.set(xlabel='change in water level(x)',
           ylabel='water flowing out the dam(y)')


# 调用plot_data函数,看原始数据分布散点图
plot_data()
# 显示图形
plt.show()

运行结果：

4.1.2构造损失函数（带正则化）和梯度

# 损失函数
def reg_cost(theta, X, y, lamda):
    cost = np.sum(np.power((X @ theta - y.flatten()), 2))
    reg = theta[1:] @ theta[1:] * lamda  # 第一项不参与正则化
    return (cost + reg) / (2 * len(X))


# 测试 损失函数
# X_train.shape[1]表示训练数据集X_train的列数，也就是特征的个数。
# 然后，使用np.ones()函数创建了一个元素均为1的数组，并赋值给theta变量
# 模型参数初始化或迭代优化过程中的初始点。
theta = np.ones(X_train.shape[1])
lamda = 1
result_cost = reg_cost(theta, X_train, y_train, lamda)

print(result_cost)  # 303.9931922202643

# 梯度
def reg_gradient(theta, X, y, lamda):
    grad = (X @ theta - y.flatten()) @ X
    reg = lamda * theta
    reg[0] = 0  # 不改变维度，直接赋值为0第一行不参与运算
    return (grad + reg) / (len(X))


# 测试梯度
result_gradient = reg_gradient(theta, X_train, y_train, lamda)
print(result_gradient)  # [-15.30301567 598.25074417]

4.1.3绘制线性模型

# 这个训练过程可以用来训练各种不同的机器学习模型，如线性回归、逻辑回归等
'''参数特征矩阵 X、目标变量 y 和正则化参数 lambda 作为输入，并返回通过最小化代价函数得到的模型参数 theta
theta = np.ones(X.shape[1]): 初始化模型参数theta，将其设置为全1数组，X.shape[1]表示 X列数 即特征的数量
res = minimize...:使用优化算法minimize()最小化损失函数fun，并得到最优的模型参数'''


def train_model(X, y, lamda):
    theta = np.ones(X.shape[1])
    res = minimize(fun=reg_cost,  # 损失函数
                   x0=theta,  # 初始参数值
                   args=(X, y, lamda),  # 附加参数
                   method='TNC',  # 使用TNC算法进行优化
                   jac=reg_gradient)  # 表示损失函数的梯度函数
    return res.x  # 返回通过优化算法得到的最优模型参数theta


# lamda目前不使用，因为是线性模型不会过拟合
theta_final = train_model(X_train, y_train, lamda=0)

# 使用线性回归拟合数据
# 调用plot_data函数
plot_data()
# x轴只取第2列
plt.plot(X_train[:, 1], X_train @ theta_final, c='r')
plt.show()  # 查看会发现，偏差非常大，处于欠拟合的状态

5.绘制样本个数VS误差

# 任务：训练样本从1开始递增进行训练，比较训练集和验证集上的损失函数的变化情况，观察一下误差的变化情况
# 定义一个函数展现整个学习过程，即随着样本数量的增加，巡礼那几成本和验证集成本的学习误差的曲线
def plot_learning_curve(X_train, y_train, X_val, y_val, lamda):
    # 使用列表x存放训练样本的个数
    x = range(1, len(X_train) + 1)
    # 再定义两个空列表分别存放：验证集和训练集损失函数
    training_cost = []
    cv_cost = []
    # 遍历x中的每个元素，表述不断增加训练样本的数量来计算学习曲线
    for i in x:
        # 调用train_model()函数，输入前i个训练样本和相应的目标值，以及正则化参数lamda，返回模型的参数结果res
        # X_train[:i, :]将返回训练数据集中的前 i 行的所有列
        res = train_model(X_train[:i, :], y_train[:i, :], lamda)
        # 调用reg_cost()函数，计算使用前i个训练样本拟合得到的模型在训练集上的损失函数值
        train_cost_i = reg_cost(res, X_train[:i, :], y_train[:i, :], lamda)
        # 调用reg_cost()函数，计算使用前i个训练样本拟合得到的模型在验证集上的损失函数值
        cv_cost_i = reg_cost(res, X_val, y_val, lamda)
        # 将训练集和验证集的损失函数值分别添加到两个列表中
        training_cost.append(train_cost_i)
        cv_cost.append(cv_cost_i)
    # 横轴为训练样本的数量 x，纵轴为对应的训练集和验证集的损失函数值。
    plt.plot(x, training_cost, label='training cost')
    plt.plot(x, cv_cost, label='cv cost')
    # 显示图例，标明不同曲线的含义
    plt.legend()
    # 设置横轴和纵轴的标签
    plt.xlabel('number of training examples')
    plt.ylabel('error')
    # 显示绘制的学习曲线图
    plt.show()


# 传入相应的训练集、验证集以及正则化参数，可以绘制出学习曲线来评估模型的性能和训练集大小对模型的影响
plot_learning_curve(X_train, y_train, X_val, y_val, lamda=0)

由图可知，随着样本数量的增加，训练集成本的误差逐渐上升，而验证集成本误差逐渐下降。最终，训练集和验证集的误差都比较大，属于高偏差，即模型是欠拟合的，那么如何改进呢？

6.多项式特征、归一化

已经知道简单的线性模型造成了欠拟合，那么如何解决呢？
我们可以计算Jtrain(θ)和Jcv(θ)

如果两者同时很大，则是存在高偏差问题，欠拟合
如果Jcv(θ)比Jtrain(θ)大很多，则存在高方差问题，过拟合

高方差的解决方案
1.采集更多样本数据
2.减少特征数量，去除非主要的特征
3.增加正则化参数λ
高偏差的解决方案
1.引入更多的相关特征
2.采用多项式特征
3.减小正则化参数λ

为解决高偏差问题，由于我们未使用λ，也只有水位一个特征，所以还剩下第2个解决方案，即采取多项式特征

# 任务：构造多项式特征（将原本只有一列的特征x通过生成高阶次项创造多个特征），进行多项式回归
'''多项式特征生成函数
X：传入特征矩阵X和多项式阶数power
用于生成具有不同阶数多项式特征的新特征矩阵，帮助模型更好拟合非线性关系'''


def poly_feature(X, power):
    for i in range(2, power + 1):  # 循环从2到给定的多项式阶数power+1
        # 在输入特征矩阵X 的最后一列插入一列
        # 首先使用 np.power() 函数计算原始特征矩阵 X 的第二列（索引为 1）的 i 次方。X[:, 1] 表示取出矩阵 X 的所有行的第二列。
        # 然后，使用 np.insert() 函数将得到的新特征插入到矩阵 X 的最后一列。具体而言，X.shape[1] 返回 X 的列数，即特征的数量，axis=1 表示按列方向插入数据。
        # 通过这样的操作，我们将生成新的特征矩阵 X，其中包含了原始特征的不同次幂的组合。
        X = np.insert(X, X.shape[1], np.power(X[:, 1], i), axis=1)
    return X

'''计算特征矩阵 X 的每个特征的均值和方差
这些统计信息在数据处理中经常被用来进行特征缩放、归一化等操作，以提高模型训练的效果
计算均值和方差时应使用训练集的统计信息'''


def get_means_stds(X):
    # 使用 np.mean() 函数计算特征矩阵 X 沿着轴 0（列）的均值。
    # 这意味着函数将对特征矩阵 X 的每列进行均值和标准差的计算，也就是计算每个特征的均值和标准差。
    # 返回一个包含每个特征的均值的数组 means
    means = np.mean(X, axis=0)
    # 方差
    stds = np.std(X, axis=0)
    return means, stds


'''
特征归一化函数，接收特征矩阵X，均值数组means、方差数组stds作为输入
并返回归一化后的特征矩阵X
注：特征归一化是一种常见的数据预处理操作，可以提高模型训练效果，并确保不同特征之间的尺度差异不会对模型产生不良影响
通常情况下，归一化处理使用训练集进行'''


def feature_normalize(X, means, stds):
    # 第一列假设为常数项或类别信息，不需要进行归一化操作
    X[:, 1:] = (X[:, 1:] - means[1:]) / stds[1:]
    return X


# 测试
power = 6
# 对训练集、验证集、测试集分别调用 多项式特征生成函数
X_train_poly = poly_feature(X_train, power)
X_val_poly = poly_feature(X_val, power)
X_test_poly = poly_feature(X_test, power)
# 获取训练集的均值和方差
train_means, train_stds = get_means_stds(X_train_poly)
# 对训练集、验证集、测试集进行归一化处理
X_train_norm = feature_normalize(X_train_poly, train_means, train_stds)
X_val_norm = feature_normalize(X_val_poly, train_means, train_stds)
X_test_norm = feature_normalize(X_test_poly, train_means, train_stds)
# 获取最优的theta参数
theta_fit = train_model(X_train_norm, y_train, lamda=0)

'''绘制多项式拟合曲线的函数 plot_poly_fit()。
首先调用了之前定义的 plot_data() 函数，将训练数据集的散点图显示在图形界面中。然后使用训练得到的最优模型参数 theta_fit，在图形界面中绘制多项式拟合曲线'''


def plot_poly_fit():
    # 调用其可以在图形界面中显示训练集的散点图，帮助我们观察特征和标签之间的关系
    # 对于理解数据集、探索数据、以及选择适当的模型都非常有帮助
    plot_data()

    x = np.linspace(-60, 60, 100)  # 生成一个包含100个等间距数值的数组，范围从-60到60。这个数组将作为 X 轴的取值范围
    xx = x.reshape(100, 1)  # 将数组 x 进行形状变换，改为一个100行1列的二维数组。这样做是为了满足多项式特征的输入格式要求
    xx = np.insert(xx, 0, 1, axis=1)  # 在数组 xx 的第一列插入全1的列向量。这是为了与之前的训练数据集保持一致，添加了一个截距项
    xx = poly_feature(xx, power)  # 将原始特征矩阵 xx 转化为多项式特征矩阵。这样可以根据多项式的阶数 power 扩展特征
    xx = feature_normalize(xx, train_means,
                           train_stds)  # 对多项式特征矩阵 xx 进行归一化处理。这里使用训练数据集的均值 train_means和方差train_stds 进行归一化，保证与之前的训练数据集保持一致
    plt.plot(x, xx @ theta_fit,
             'r--')  # 绘制多项式拟合曲线，x为 X 轴，xx @ theta_fit 表示通过最优模型参数 theta_fit 对多项式特征矩阵 xx 进行预测得到的 Y 轴坐标。'r--' 表示以红色虚线的形式进行绘制
    plt.show()


# 通过调用 plot_poly_fit() 函数，可以在图形界面中显示训练数据集的散点图，并绘制多项式拟合曲线。这有助于直观地观察拟合效果，并评估模型的性能。
plot_poly_fit()

7.lamda正则化参数的选取对模型的影响

7.1不使用lamda，将其设置为0

# 正则化影响 lamda设为0，因为正则化只在训练时才有
# 通过绘制学习曲线的误差函数，来看出它在训练集和验证集上表现为过拟合
plot_learning_curve(X_train_norm, y_train, X_val_norm, y_val, lamda=0)  # 高方差，过拟合

由上图可以看出训练集的误差几乎为0，而验证集的误差还比较高，这表示目前模型状态为高方差，表现为过拟合。

7.2将lamda设置为1

使用正则化是解决过拟合的好办法。通过使用lamda,将它从0变成1，即为开启正则化。

# 使用正则化解决过拟合，通过设置lamda参数，此处设置为1
plot_learning_curve(X_train_norm, y_train, X_val_norm, y_val, lamda=1)  # 绘制使用lamda之后的学习曲线误差图像

画出使用正则化之后的学习曲线误差函数。可以看出，此时训练集的误差仍然很低，但不是0了，而验证集的误差也降低到一个很低的状态

7.3将lamda设置为很大很大

# 将lamda调整为100，此时lamda过大，导致欠拟合
plot_learning_curve(X_train_norm, y_train, X_val_norm, y_val, lamda=100)  # 欠拟合

把lamda调整为很大时，这时训练集和验证集的误差会很接近，但是都会很大，此时是欠拟合

7.4设置一组lamda

那lamda应该要取多少合适？下面进行正则化参数lamda的选取

# 设定存储lamda参数的列表，进行正则化参数lamda的选取
lamdas = [0, 0.001, 0.003, 0.01, 0.03, 0.1, 0.3, 1, 3, 10]
training_cost = []
cv_cost = []
for lamda in lamdas:
    res = train_model(X_train_norm, y_train, lamda)

    tc = reg_cost(res, X_train_norm, y_train, lamda=0)  # lamda设置为0，因为reg_cost这一步还未进行正则化
    cv = reg_cost(res, X_val_norm, y_val, lamda=0)
    training_cost.append(tc)
    cv_cost.append(cv)
plt.plot(lamdas, training_cost, label='training cost')
plt.plot(lamdas, cv_cost, label='cv cost')
plt.legend()
# 设置横轴和纵轴的标签
plt.xlabel('lamdas')
plt.ylabel('cost')
plt.show()

从图中可以看出lamda在2~4之间时的cv cost最小

7.5找出最小的cv_cost对应的lamda

# 找出最小的cv_cost对应的lamda
# 通过执行 np.argmin(cv_cost)，我们会得到最小成本值cv_cost的索引。然后，我们可以使用这个索引来访问 lamdas 列表，找到对应的正则化参数 lamda。
min_cost_cv = lamdas[np.argmin(cv_cost)]
print(min_cost_cv)  # 3

7.6将训练得到的参数应用到测试集上

res = train_model(X_train_norm, y_train, lamda=3)
test_cost = reg_cost(res, X_test_norm, y_test, lamda=0)
print(test_cost)  # 4.3976161577441975

完整代码

import numpy as np
import matplotlib.pyplot as plt
from scipy.io import loadmat
from scipy.optimize import minimize

'''在本练习中，您将实现正则化线性回归，并使用它来研究具有不同偏差-方差特性的模型。
在练习的前半部分，您将实现正则化线性回归，利用水库水位的变化来预测从大坝流出的水量。
在后半部分中，您将对调试学习算法进行一些诊断，并检查偏差和偏差的影响。'''
# 导入数据集
data = loadmat('ex5data1.mat')

# 打印data字典里的键  1. X和y训练集数据  2. Xtest和ytest是测试集数据  3.Xval和yval是验证集数据
# dict_keys(['__header__', '__version__', '__globals__', 'X', 'y', 'Xtest', 'ytest', 'Xval', 'yval'])
print('打印data字典里的键：',
      data.keys())  # 打印data字典里的键： dict_keys(['__header__', '__version__', '__globals__', 'X', 'y', 'Xtest', 'ytest', 'Xval', 'yval'])

# 训练集
X_train, y_train = data['X'], data['y']
print('打印训练集维度：', X_train.shape, y_train.shape)  # (12, 1) (12, 1) 表明有12个样本，1个特征

# 验证集
X_val, y_val = data['Xval'], data['yval']
print('打印验证集维度：', X_val.shape, y_val.shape)  # (21, 1) (21, 1)表明有21个样本，1个特征

# 测试集
X_test, y_test = data['Xtest'], data['ytest']
print('打印测试集维度：', X_test.shape, y_test.shape)  # (21, 1) (21, 1) 表明有21个样本，1个特征

# 插入一列，添加偏置项
X_train = np.insert(X_train, 0, 1, axis=1)
X_val = np.insert(X_val, 0, 1, axis=1)
X_test = np.insert(X_test, 0, 1, axis=1)

'''绘制散点图的函数 plot_data()。
它使用训练数据集的特征和标签来创建一个散点图，以可视化特征与标签之间的关系。'''


def plot_data():
    fig, ax = plt.subplots()  # 创建图形对象(fig)和一个坐标轴对象(ax)
    # 使用scatter函数绘制散点图，      X_train[:, 1]表示   使用训练数据集中第二列特征作为X轴坐标  水位的变化
    #                              y_train表示        使用训练数据集中的标签作为Y轴坐标      出水量
    # 按照每个样本的特征和标签的取值，在散点图显示它们之间的关系
    ax.scatter(X_train[:, 1], y_train)
    ax.set(xlabel='change in water level(x)',
           ylabel='water flowing out the dam(y)')


# 调用plot_data函数,看原始数据分布散点图
plot_data()

# 显示图形
plt.show()


# 损失函数
def reg_cost(theta, X, y, lamda):
    cost = np.sum(np.power((X @ theta - y.flatten()), 2))
    reg = theta[1:] @ theta[1:] * lamda  # 第一项不参与正则化
    return (cost + reg) / (2 * len(X))


# 测试 损失函数
# X_train.shape[1]表示训练数据集X_train的列数，也就是特征的个数。
# 然后，使用np.ones()函数创建了一个元素均为1的数组，并赋值给theta变量
# 模型参数初始化或迭代优化过程中的初始点。
theta = np.ones(X_train.shape[1])
lamda = 1
result_cost = reg_cost(theta, X_train, y_train, lamda)

print(result_cost)  # 303.9931922202643


# 梯度
def reg_gradient(theta, X, y, lamda):
    grad = (X @ theta - y.flatten()) @ X
    reg = lamda * theta
    reg[0] = 0  # 不改变维度，直接赋值为0第一行不参与运算
    return (grad + reg) / (len(X))


# 测试梯度
result_gradient = reg_gradient(theta, X_train, y_train, lamda)

print(result_gradient)  # [-15.30301567 598.25074417]

# 这个训练过程可以用来训练各种不同的机器学习模型，如线性回归、逻辑回归等
'''参数特征矩阵 X、目标变量 y 和正则化参数 lambda 作为输入，并返回通过最小化代价函数得到的模型参数 theta
theta = np.ones(X.shape[1]): 初始化模型参数theta，将其设置为全1数组，X.shape[1]表示 X列数 即特征的数量
res = minimize...:使用优化算法minimize()最小化损失函数fun，并得到最优的模型参数'''


def train_model(X, y, lamda):
    theta = np.ones(X.shape[1])
    res = minimize(fun=reg_cost,  # 损失函数
                   x0=theta,  # 初始参数值
                   args=(X, y, lamda),  # 附加参数
                   method='TNC',  # 使用TNC算法进行优化
                   jac=reg_gradient)  # 表示损失函数的梯度函数
    return res.x  # 返回通过优化算法得到的最优模型参数theta


# lamda目前不使用，因为是线性模型不会过拟合
theta_final = train_model(X_train, y_train, lamda=0)

# 使用线性回归拟合数据
# 调用plot_data函数
plot_data()
# x轴只取第2列
plt.plot(X_train[:, 1], X_train @ theta_final, c='r')
plt.show()  # 查看会发现，偏差非常大，处于欠拟合的状态


# 任务：训练样本从1开始递增进行训练，比较训练集和验证集上的损失函数的变化情况，观察一下误差的变化情况
# 定义一个函数展现整个学习过程，即随着样本数量的增加，巡礼那几成本和验证集成本的学习误差的曲线
def plot_learning_curve(X_train, y_train, X_val, y_val, lamda):
    # 使用列表x存放训练样本的个数
    x = range(1, len(X_train) + 1)
    # 再定义两个空列表分别存放：验证集和训练集损失函数
    training_cost = []
    cv_cost = []
    # 遍历x中的每个元素，表述不断增加训练样本的数量来计算学习曲线
    for i in x:
        # 调用train_model()函数，输入前i个训练样本和相应的目标值，以及正则化参数lamda，返回模型的参数结果res
        # X_train[:i, :]将返回训练数据集中的前 i 行的所有列
        res = train_model(X_train[:i, :], y_train[:i, :], lamda)
        # 调用reg_cost()函数，计算使用前i个训练样本拟合得到的模型在训练集上的损失函数值
        train_cost_i = reg_cost(res, X_train[:i, :], y_train[:i, :], lamda)
        # 调用reg_cost()函数，计算使用前i个训练样本拟合得到的模型在验证集上的损失函数值
        cv_cost_i = reg_cost(res, X_val, y_val, lamda)
        # 将训练集和验证集的损失函数值分别添加到两个列表中
        training_cost.append(train_cost_i)
        cv_cost.append(cv_cost_i)
    # 横轴为训练样本的数量 x，纵轴为对应的训练集和验证集的损失函数值。
    plt.plot(x, training_cost, label='training cost')
    plt.plot(x, cv_cost, label='cv cost')
    # 显示图例，标明不同曲线的含义
    plt.legend()
    # 设置横轴和纵轴的标签
    plt.xlabel('number of training examples')
    plt.ylabel('error')
    # 显示绘制的学习曲线图
    plt.show()


# 传入相应的训练集、验证集以及正则化参数，可以绘制出学习曲线来评估模型的性能和训练集大小对模型的影响
plot_learning_curve(X_train, y_train, X_val, y_val, lamda=0)
# 由图可知，随着样本数量的增加，训练集成本的误差逐渐上升，而验证集成本误差逐渐下降。
# 目前训练集和验证集的误差都比较高，表示模型欠拟合

# 上述简单的线性模型导致了欠拟合，存在高偏差如何解决？
# 任务：构造多项式特征（将原本只有一列的特征x通过生成高阶次项创造多个特征），进行多项式回归
'''多项式特征生成函数
X：传入特征矩阵X和多项式阶数power
用于生成具有不同阶数多项式特征的新特征矩阵，帮助模型更好拟合非线性关系'''


def poly_feature(X, power):
    for i in range(2, power + 1):  # 循环从2到给定的多项式阶数power+1
        # 在输入特征矩阵X 的最后一列插入一列
        # 首先使用 np.power() 函数计算原始特征矩阵 X 的第二列（索引为 1）的 i 次方。X[:, 1] 表示取出矩阵 X 的所有行的第二列。
        # 然后，使用 np.insert() 函数将得到的新特征插入到矩阵 X 的最后一列。具体而言，X.shape[1] 返回 X 的列数，即特征的数量，axis=1 表示按列方向插入数据。
        # 通过这样的操作，我们将生成新的特征矩阵 X，其中包含了原始特征的不同次幂的组合。
        X = np.insert(X, X.shape[1], np.power(X[:, 1], i), axis=1)
    return X


'''计算特征矩阵 X 的每个特征的均值和方差
这些统计信息在数据处理中经常被用来进行特征缩放、归一化等操作，以提高模型训练的效果
计算均值和方差时应使用训练集的统计信息'''


def get_means_stds(X):
    # 使用 np.mean() 函数计算特征矩阵 X 沿着轴 0（列）的均值。
    # 这意味着函数将对特征矩阵 X 的每列进行均值和标准差的计算，也就是计算每个特征的均值和标准差。
    # 返回一个包含每个特征的均值的数组 means
    means = np.mean(X, axis=0)
    # 方差
    stds = np.std(X, axis=0)
    return means, stds


'''
特征归一化函数，接收特征矩阵X，均值数组means、方差数组stds作为输入
并返回归一化后的特征矩阵X
注：特征归一化是一种常见的数据预处理操作，可以提高模型训练效果，并确保不同特征之间的尺度差异不会对模型产生不良影响
通常情况下，归一化处理使用训练集进行'''


def feature_normalize(X, means, stds):
    # 第一列假设为常数项或类别信息，不需要进行归一化操作
    X[:, 1:] = (X[:, 1:] - means[1:]) / stds[1:]
    return X


# 测试
power = 6
# 对训练集、验证集、测试集分别调用 多项式特征生成函数
X_train_poly = poly_feature(X_train, power)
X_val_poly = poly_feature(X_val, power)
X_test_poly = poly_feature(X_test, power)
# 获取训练集的均值和方差
train_means, train_stds = get_means_stds(X_train_poly)
# 对训练集、验证集、测试集进行归一化处理
X_train_norm = feature_normalize(X_train_poly, train_means, train_stds)
X_val_norm = feature_normalize(X_val_poly, train_means, train_stds)
X_test_norm = feature_normalize(X_test_poly, train_means, train_stds)
# 获取最优的theta参数
theta_fit = train_model(X_train_norm, y_train, lamda=0)

'''绘制多项式拟合曲线的函数 plot_poly_fit()。
首先调用了之前定义的 plot_data() 函数，将训练数据集的散点图显示在图形界面中。然后使用训练得到的最优模型参数 theta_fit，在图形界面中绘制多项式拟合曲线'''


def plot_poly_fit():
    # 调用其可以在图形界面中显示训练集的散点图，帮助我们观察特征和标签之间的关系
    # 对于理解数据集、探索数据、以及选择适当的模型都非常有帮助
    plot_data()

    x = np.linspace(-60, 60, 100)  # 生成一个包含100个等间距数值的数组，范围从-60到60。这个数组将作为 X 轴的取值范围
    xx = x.reshape(100, 1)  # 将数组 x 进行形状变换，改为一个100行1列的二维数组。这样做是为了满足多项式特征的输入格式要求
    xx = np.insert(xx, 0, 1, axis=1)  # 在数组 xx 的第一列插入全1的列向量。这是为了与之前的训练数据集保持一致，添加了一个截距项
    xx = poly_feature(xx, power)  # 将原始特征矩阵 xx 转化为多项式特征矩阵。这样可以根据多项式的阶数 power 扩展特征
    xx = feature_normalize(xx, train_means,
                           train_stds)  # 对多项式特征矩阵 xx 进行归一化处理。这里使用训练数据集的均值 train_means和方差train_stds 进行归一化，保证与之前的训练数据集保持一致
    plt.plot(x, xx @ theta_fit,
             'r--')  # 绘制多项式拟合曲线，x为 X 轴，xx @ theta_fit 表示通过最优模型参数 theta_fit 对多项式特征矩阵 xx 进行预测得到的 Y 轴坐标。'r--' 表示以红色虚线的形式进行绘制
    plt.show()


# 通过调用 plot_poly_fit() 函数，可以在图形界面中显示训练数据集的散点图，并绘制多项式拟合曲线。这有助于直观地观察拟合效果，并评估模型的性能。
plot_poly_fit()

# 正则化影响 lamda设为0，因为正则化只在训练时才有
# 通过绘制学习曲线的误差函数，来看出它在训练集和验证集上表现为过拟合
plot_learning_curve(X_train_norm, y_train, X_val_norm, y_val, lamda=0)  # 高方差，过拟合

# 使用正则化解决过拟合，通过设置lamda参数，此处设置为1
plot_learning_curve(X_train_norm, y_train, X_val_norm, y_val, lamda=1)  # 绘制使用lamda之后的学习曲线误差图像

# 将lamda调整为100，此时lamda过大，导致欠拟合
plot_learning_curve(X_train_norm, y_train, X_val_norm, y_val, lamda=100)  # 欠拟合

# 设定存储lamda参数的列表，进行正则化参数lamda的选取
lamdas = [0, 0.001, 0.003, 0.01, 0.03, 0.1, 0.3, 1, 3, 10]
training_cost = []
cv_cost = []
for lamda in lamdas:
    res = train_model(X_train_norm, y_train, lamda)

    tc = reg_cost(res, X_train_norm, y_train, lamda=0)  # lamda设置为0，因为reg_cost这一步还未进行正则化
    cv = reg_cost(res, X_val_norm, y_val, lamda=0)
    training_cost.append(tc)
    cv_cost.append(cv)
plt.plot(lamdas, training_cost, label='training cost')
plt.plot(lamdas, cv_cost, label='cv cost')
plt.legend()
# 设置横轴和纵轴的标签
plt.xlabel('lamdas')
plt.ylabel('cost')
plt.show()
# 找出最小的cv_cost对应的lamda
# 通过执行 np.argmin(cv_cost)，我们会得到最小成本值cv_cost的索引。然后，我们可以使用这个索引来访问 lamdas 列表，找到对应的正则化参数 lamda。
min_cost_cv = lamdas[np.argmin(cv_cost)]
print(min_cost_cv)  # 3
res = train_model(X_train_norm, y_train, lamda=3)
test_cost = reg_cost(res, X_test_norm, y_test, lamda=0)
print(test_cost)  # 4.3976161577441975

参考链接：https://www.bilibili.com/video/BV1p4411o7sq/?p=6&spm_id_from=pageDriver&vd_source=b3d1b016bccb61f5e11858b0407cc54e

你可能感兴趣的:(机器学习,机器学习,人工智能)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL