HeShangXTYMT

机器学习——回归实践（预测某一时间点在下一时刻的PM2.5）

前言

在看完《机器学习实战》这本书的第八章之后，相对之前入门的时候，学习的李宏毅老师的机器学习的回归部分进行总结（那已经是去年的事了…）。
当时作业一是预测某一时间点在下一时刻的PM2.5，我怎么着都对代码不熟悉，以至于我去学习了一遍Python基础，回过头还是挺懵，我估计是我不适合从李宏毅老师的视频入门，所以我推荐基础不大好的同类们从《机器学习实战》这本书入门机器学习，里面不会有太多数学推导过程，非常实用，我认为学习机器学习得先理解其运行流程与使用，至于数学推导等细节方面，还是等做项目需要的时候再回头学习，这样对算法会有更深刻的印象与理解。

注：本文是以三个步骤对本次实例进行分析，整体可运行代码会在最后一个部分给出，中间部分代码可能不能单独运行，还望的耐心看下去。(*^▽^*)

1.数据集分离

我们的目的是要预测某一时间点在下一时刻的PM2.5

测试资料里，每个时间点以一个ID表示，共240笔测试资料，也就是240个时间点。
评比标准：预测值和实际值的平方误差平均值。
预测根据：前九个小时的所有观测数据。
数据集下载：由于github在我这边又进不去了，所以只能通过CSDN下载，网址如下：https://download.csdn.net/download/qq_42263553/12574125
里面包含了李宏毅老师机器学习这门课的所有代码，如果没有C币请在评论区留下你的163邮箱我私发给你。

读取与解析训练集

首先我们第一步就是要解析数据，之前我所学的是对txt文件的数据集进行解析，在这里，训练集数据量庞大，采用.csv文件进行存储。我们第一步就是要将训练集与对应的预测值用数组进行保存并返回。
代码如下所示：

"""
函数说明：读取训练数据，用传入的列表进行保存
参数：
data - 用以保存整个训练集的数据的空列表，这个列表内部又包含18个列表，代表18项污染物指标
返回值：
data - 读取完训练集数据返回的列表，这个内部有18个列表，也就是十八行
每一行代表一个污染指标，每一行存储的是训练集中属于这个污染指标的所有的数据
"""
def Read_TrainData(data):
    #read data
    #读取训练数据，把训练数据都取出来用一个data列表，训练数据是每个月前20天每个小时的气象资料（每小时有18种测资）
    #列表中有18个小列表，小列表就是一个小项。代表有十八行
    #每个小列表里面有24*240=5760个数据，因为每18个项目后，下一个24列又从data[0]开始存
    n_row = 0
    text = open('data/train.csv', 'r', encoding='big5')
    row = csv.reader(text, delimiter=',')#使用csv读取表格
    for r in row: #row是一个迭代器，每次迭代一行
        if n_row != 0: #过滤第一行，因为都是名称，从第二行一直到最后一行
            for i in range(3,27):#从第二行的三列数据逐行读取，抛弃前面的无用项目
                if r[i] != "NR":#第二行的第三个数据，往data列表的第一个列表也就是data[0]添加数据
                    data[(n_row-1)%18].append(float(r[i]))
                else:
                    data[(n_row-1)%18].append(float(0))
        n_row = n_row + 1
    text.close
    return data
    
"""
函数说明：
    解析保存好的训练数据集
参数：
    data - 训练集中所有数据，按污染物类别分为18个列表，都存储在data列表中
    每一行代表一个污染指标，每一行存储的是训练集中属于这个污染指标的所有的数据
返回值：
    trainX：
        trainX中的每一个列表（每一行）也就是存储的是data矩阵中的前9列，比如第一行是0~8列的所有data矩阵的数据，然
        后递推下去，第二行也是data矩阵中的前九列，但是初始索引不同而已变成了1~9
    trainY：
        #trainY中的每一个列表（每一行）存储的是data矩阵中的第9行，也就是PM2.5数据，
        但只存储第十个时刻，也就是从第九列开始的PM2.5的值，也就是存储的下一时刻的类推实际PM2.5的值，然后一直递推
"""
def Resolver_TrainData(data):
    # parse data to trainX and trainY。将列表数据解析为trainX和trainY
    x = []
    y = []
    for i in range(12):
        for j in range(471):
            x.append([])
            for t in range(18):
                for s in range(9):
                    x[471 * i + j].append(data[t][480 * i + j + s])  # 他只要前九列， 把data列表的1~18行0~8列，1~9，2~10.....，15-23,16-24....，分别存到他的x[0],x[1]...中.

            y.append(data[9][480 * i + j + 9])  # y存储的是data[9]也就是都是PM2.5的值，把第10行第10列，也就是存储的下一时刻的类推实际PM2.5的值
    trainX = np.array(x)  # 每一行有9*18个数 每9个代表9天的某一种污染物
    trainY = np.array(y)
    return trainX,trainY
    # print(len(x))#5652行
    # print(len(x[0]))#162列，他只要前九列，所以18*9=162
    # print(len(x[1]))#所以x存储的是data列表（也就是训练数据）的某九列的数据，把1~18行0~9列，1~10，2~11分别存到他的x[0],x[1]...中
    # print(len(y))#5652个数据，单行,存储的是训练数据中下一时刻的类推实际PM2.5的值
    # print(len(trainY))#在循环时，他会过掉10次，i=0时，9~479，i=1时479直接跳到489，差10，
    # 循环11次就差了10*10=100，然后减去第一次过掉的8个，所以就是5652

显然，在这里我们将csv中的所有数据集进行读取并以data数组进行保存，内有十八行，每行存储的都是每个污染指标的所有训练集。
然后通过Resolver_TrainData函数将训练集进行解析，对训练数据与相应训练集的预测值进行分离，通过trainX与trainY保存。

读取与解析测试集

读取测试集和读取训练集都是差不多意思，将我们要测试的数据与对应测试数据的测试值进行分离，最后用数组保存起来。但在我们这里，测试集数据与测试值是分开的.csv文件保存的，所以要再对其测试值的文件进行读取。
代码如下所示：

"""
函数说明：
    该函数用来分析测试数据
参数：
    空
返回值：
    test_x：
        test_x把每18行（也就是一个时间点）的数据全部加到test_x中的一行，
        然后再创另一行再加另外18行，也就是说test_x的每一行存储的是每一天的所有污染指标的前9个小时的数据
说明：
    test.csv内保存的是某一天前九个小时的18项污染指标的数据
    id_...表示第几天，每个id_...有18行，代表18项污染指标
    9个列代表测试用的前九个时刻
"""
def Read_TestingData():
    # parse test data分析测试数据
    # test_x把每18行（也就是一个时间点）的数据全部加到test_x中的一行，然后再创另一行再加另外18行，也就是说test_x的每一行存储的是每一天的所有污染指标的前9个小时的数据
    test_x = []
    n_row = 0
    text = open('data/test.csv', "r")
    row = csv.reader(text, delimiter=",")

    for r in row:
        if n_row % 18 == 0:
            test_x.append([])
            for i in range(2, 11):
                test_x[n_row // 18].append(float(r[i]))#//表示整数除法
        else:
            for i in range(2, 11):
                if r[i] != "NR":
                    test_x[n_row // 18].append(float(r[i]))
                else:
                    test_x[n_row // 18].append(0)
        n_row = n_row + 1
    text.close()
    test_x = np.array(test_x)
    return test_x

"""
函数说明：
    读取测试集测试的真实答案，也就是测试集中给出的每一天前九个小时的所有污染指标数据，所预测出的下一时刻PM2.5值
参数：
    空
返回值：
    存储某天这个时间点的PM2.5值    
"""
def Read_TestAnswer():
    #parse answer分析答案
    ans_y = []
    n_row = 0
    text = open('data/ans.csv', "r")
    row = csv.reader(text, delimiter=",")

    for r in row:
        ans_y.append(r[1])

    ans_y = ans_y[1:]
    ans_y = np.array(list(map(int, ans_y)))
    #print(ans_y[1])
    return ans_y

这就完美的将训练集与测试集读取出来了。

2.训练模型

在将数据集分离之后，就可以通过算法来训练模型啦，在这里我们将测试Adagrad自适应梯度算法与随机梯度下降算法对模型进行训练，并对比这两种算法，选择最好的那一种。如果对算法有不了解的，请回头看我的这两篇博文：

https://blog.csdn.net/qq_42263553/article/details/103367986
https://blog.csdn.net/qq_42263553/article/details/103367986

如果你明白梯度下降算法的回归，那么请直接看第二篇博文。
废话不多说，看看两种算法的代码：

#trainX:是x转换的数组然后与一个240行，1列的数组拼接后的数组, trainY：就是训练数据从第一天第九时刻开始的PM2.5值,
#w就是一个163个元素的全0数组（163是因为是复制的trainX数组的形式，
#而trainX数组是与一个240行1列的数组组合后的数组他默认有个1，所以拼接就是163），他就是实际的参数，初始状态默认参数为0进行梯度下降
#eta=1学习频率
#iteration=20000循环次数
#lambdaL2=0是规则化用的λ
"""
函数说明：
    Adagrad自适应梯度算法
    每隔一段时间就把学习速度降低一些。
    一开始，我们离目的地很远，所以我们使用更大的learning rates
    经过了一段时间，我们离目的地越来越近了，所以我们的learning rates要变小
    让每一个不同的参数都给他不同的learning rates。
    公式：η^t=η∕√(t+1)，用每次梯度下降求解的点所对应的的参数的learning rates除以之前算出来的偏微分值的均方根。
    
    问题：学习频率没调好可能会导致梯度下降找不到最低点
    好处：初始学习频率很大，经过一段时间快要到最低点的时候，学习频率会越来越变小。
"""
def ada(X, Y, w, eta, iteration, lambdaL2):
    s_grad = np.zeros(len(X[0]))#zeros数组：全零数组，元素全为零。
    list_cost = []
    for i in range(iteration):#20000次循环
        hypo = np.dot(X,w)#dot()返回的是两个数组的点积，w是一个163个元素的全零数组，对应公式看
        #print(hypo[0])初始为0
        loss = hypo - Y #用训练数据实际值与预测值数组相减，得到新数组，大小为5652，得到loss funcion，初始为一个负的Y数组。
        cost = np.sum(loss**2)/len(X)#sum方法：对参数求和。首先对Loss数组内的元素都进行平方，求和，再取平均值
        #对应Loss function的公式，得到Loss的值
        list_cost.append(cost)
        grad = np.dot(X.T, loss)/len(X) + lambdaL2*w
        s_grad += grad**2#对gt的求平方再累加
        ada = np.sqrt(s_grad)#ot
        w = w - eta*grad/ada#参数更新
    return w, list_cost#返回参数已经迭代的数组，返回已经迭代过的Loss列表

"""
函数说明：
    使用随机梯度下降法训练模型，随机梯度下降法功能是可以加快训练速度
    每次取一个xn出来，然后估测Loss function误差函数，更新w
"""
def SGD(X, Y, w, eta, iteration, lambdaL2):
    list_cost = []
    for i in range(iteration):
        hypo = np.dot(X,w)
        loss = hypo - Y
        cost = np.sum(loss**2)/len(X) #LossFunction的值
        list_cost.append(cost)

        rand = np.random.randint(0, len(X))
        grad = X[rand]*loss[rand]/len(X) + lambdaL2*w
        w = w - eta*grad
    return w, list_cost

"""
函数说明：
    使用普通梯度下降法训练模型
"""
def GD(X, Y, w, eta, iteration, lambdaL2):
    list_cost = []
    for i in range(iteration):
        hypo = np.dot(X,w)#点积
        loss = hypo - Y #Loss funcion内部解算
        cost = np.sum(loss**2)/len(X) #求出Loss funcion，平方然后再取平均值，因为训练数据有len(X)个
        list_cost.append(cost)
        #规则化操作
        grad = np.dot(X.T, loss)/len(X) + lambdaL2 * w #（修改Loss function：加入所有参数的平方和乘上λ）
        w = w - eta*grad
    return w, list_cost

在训练好模型之后，也就是得到最优参数解集w之后，我们可以用测试数据，对两种算法进行测试。

3.测试模型

接下来直接使用我们的测试数据与对应的最优参数解集相乘，看看测试集所对应的两种算法得出来的解。
代码如下：


#output testdata输出测试数据
y_ada = np.dot(test_x, w_ada)#ada方法：用测试数据和已经迭代完毕的参数进行演算测试数据y的值的集合。
y_sgd = np.dot(test_x, w_sgd)#sgd方法的
y_cf = np.dot(test_x, w_cf)#正确数据，#加入偏差之后的真实值

Save_Test_Result(w_ada)#选择测试效果最好的算法，将数据进行保存

def Save_Test_Result(w):
    # csv format  csv格式保存
    ans = []
    for i in range(len(test_x)):  # test_x是240行的对应240天
        ans.append(["id_" + str(i)])
        a = np.dot(w, test_x[i])  # 用训练数据得出的最好funcion的参数集合与测试数据做点积
        # 就是测试数据的结果
        ans[i].append(a)

    # 下面这几行是写入文件
    filename = "result/predict.csv"
    text = open(filename, "w+")
    s = csv.writer(text, delimiter=',', lineterminator='\n')
    s.writerow(["id", "value"])
    for i in range(len(ans)):
        s.writerow(ans[i])
    text.close()

可见，我们选择了ada算法，并对其测试集进行保存.csv文件，接下来我们要对比一下两个算法与真实值之间的差距，以此来判断哪种算法更好。
代码如下所示：

    #显示波形
    #plot training data with different gradiant method用不同梯度法绘制训练数据
    #plot第一个参数是x轴的数据，第二个参数是y轴数据，第三个是颜色，第四个是控制曲线的格式字符串
    """
    这部分是对自适应梯度下降算法与随机梯度下降算法中，训练过程的迭代次数与误差之间的关系曲线
    """
    plt.plot(np.arange(len(cost_list_ada[3:])), cost_list_ada[3:], 'b', label="ada")
    plt.plot(np.arange(len(cost_list_sgd[3:])), cost_list_sgd[3:], 'g', label='sgd')
    # plt.plot(np.arange(len(cost_list_sgd50[3:])), cost_list_sgd50[3:], 'c', label='sgd50')
    # plt.plot(np.arange(len(cost_list_gd[3:])), cost_list_gd[3:], 'r', label='gd')
    plt.plot(np.arange(len(cost_list_ada[3:])), hori, 'y--', label='close-form')
    plt.title('Training Process')
    plt.xlabel('Iteration')
    plt.ylabel('Loss function (quadratic)')
    plt.legend()
    plt.savefig(os.path.join(os.path.dirname(__file__), "figures/TrainProcess"))
    plt.show()

    #plot fianl answer
    plt.figure()#绘图
    plt.subplot(131)
    plt.title('CloseForm')
    plt.xlabel('dataset')
    plt.ylabel('pm2.5')
    plt.plot(np.arange((len(ans_y))), ans_y, 'r,')
    plt.plot(np.arange(240), y_cf, 'b')

    plt.subplot(132)
    plt.title('ada')
    plt.xlabel('dataset')
    plt.ylabel('pm2.5')
    plt.plot(np.arange((len(ans_y))), ans_y, 'r,')
    plt.plot(np.arange(240), y_ada, 'g')

    plt.subplot(133)
    plt.title('sgd')
    plt.xlabel('dataset')
    plt.ylabel('pm2.5')
    plt.plot(np.arange((len(ans_y))), ans_y, 'r,')
    plt.plot(np.arange(240), y_sgd, 'b')
    plt.tight_layout()
    plt.savefig(os.path.join(os.path.dirname(__file__), "figures/Compare"))
    plt.show()

好了，这三个步骤都做完了，也就完成了我们的预测目的。
想必上面的内容大家会看得头昏眼花，因为部分代码看不到效果，所以我将所有的代码进行了整理。

整体代码

import csv, os #导入系统库和csv库
import numpy as np #导入numpy库
import matplotlib.pyplot as plt
from numpy.linalg import inv
import random
import math
import sys

#trainX:是x转换的数组然后与一个240行，1列的数组拼接后的数组, trainY：就是训练数据从第一天第九时刻开始的PM2.5值,
#w就是一个163个元素的全0数组（163是因为是复制的trainX数组的形式，
#而trainX数组是与一个240行1列的数组组合后的数组他默认有个1，所以拼接就是163），他就是实际的参数，初始状态默认参数为0进行梯度下降
#eta=1学习频率
#iteration=20000循环次数
#lambdaL2=0是规则化用的λ
"""
函数说明：
    Adagrad自适应梯度算法
    每隔一段时间就把学习速度降低一些。
    一开始，我们离目的地很远，所以我们使用更大的learning rates
    经过了一段时间，我们离目的地越来越近了，所以我们的learning rates要变小
    让每一个不同的参数都给他不同的learning rates。
    公式：η^t=η∕√(t+1)，用每次梯度下降求解的点所对应的的参数的learning rates除以之前算出来的偏微分值的均方根。
    
    问题：学习频率没调好可能会导致梯度下降找不到最低点
    好处：初始学习频率很大，经过一段时间快要到最低点的时候，学习频率会越来越变小。
"""
def ada(X, Y, w, eta, iteration, lambdaL2):
    s_grad = np.zeros(len(X[0]))#zeros数组：全零数组，元素全为零。
    list_cost = []
    for i in range(iteration):#20000次循环
        hypo = np.dot(X,w)#dot()返回的是两个数组的点积，w是一个163个元素的全零数组，对应公式看
        #print(hypo[0])初始为0
        loss = hypo - Y #用训练数据实际值与预测值数组相减，得到新数组，大小为5652，得到loss funcion，初始为一个负的Y数组。
        cost = np.sum(loss**2)/len(X)#sum方法：对参数求和。首先对Loss数组内的元素都进行平方，求和，再取平均值
        #对应Loss function的公式，得到Loss的值
        list_cost.append(cost)
        grad = np.dot(X.T, loss)/len(X) + lambdaL2*w
        s_grad += grad**2#对gt的求平方再累加
        ada = np.sqrt(s_grad)#ot
        w = w - eta*grad/ada#参数更新
    return w, list_cost#返回参数已经迭代的数组，返回已经迭代过的Loss列表

"""
函数说明：
    使用随机梯度下降法训练模型，随机梯度下降法功能是可以加快训练速度
    每次取一个xn出来，然后估测Loss function误差函数，更新w
"""
def SGD(X, Y, w, eta, iteration, lambdaL2):
    list_cost = []
    for i in range(iteration):
        hypo = np.dot(X,w)
        loss = hypo - Y
        cost = np.sum(loss**2)/len(X) #LossFunction的值
        list_cost.append(cost)

        rand = np.random.randint(0, len(X))
        grad = X[rand]*loss[rand]/len(X) + lambdaL2*w
        w = w - eta*grad
    return w, list_cost

"""
函数说明：
    使用普通梯度下降法训练模型
"""
def GD(X, Y, w, eta, iteration, lambdaL2):
    list_cost = []
    for i in range(iteration):
        hypo = np.dot(X,w)#点积
        loss = hypo - Y #Loss funcion内部解算
        cost = np.sum(loss**2)/len(X) #求出Loss funcion，平方然后再取平均值，因为训练数据有len(X)个
        list_cost.append(cost)
        #规则化操作
        grad = np.dot(X.T, loss)/len(X) + lambdaL2 * w #（修改Loss function：加入所有参数的平方和乘上λ）
        w = w - eta*grad
    return w, list_cost

"""
函数说明：读取训练数据，用传入的列表进行保存
参数：
data - 用以保存整个训练集的数据的空列表，这个列表内部又包含18个列表，代表18项污染物指标
返回值：
data - 读取完训练集数据返回的列表，这个内部有18个列表，也就是十八行
每一行代表一个污染指标，每一行存储的是训练集中属于这个污染指标的所有的数据
"""
def Read_TrainData(data):
    #read data
    #读取训练数据，把训练数据都取出来用一个data列表，训练数据是每个月前20天每个小时的气象资料（每小时有18种测资）
    #列表中有18个小列表，小列表就是一个小项。代表有十八行
    #每个小列表里面有24*240=5760个数据，因为每18个项目后，下一个24列又从data[0]开始存
    n_row = 0
    text = open('data/train.csv', 'r', encoding='big5')
    row = csv.reader(text, delimiter=',')#使用csv读取表格
    for r in row: #row是一个迭代器，每次迭代一行
        if n_row != 0: #过滤第一行，因为都是名称，从第二行一直到最后一行
            for i in range(3,27):#从第二行的三列数据逐行读取，抛弃前面的无用项目
                if r[i] != "NR":#第二行的第三个数据，往data列表的第一个列表也就是data[0]添加数据
                    data[(n_row-1)%18].append(float(r[i]))
                else:
                    data[(n_row-1)%18].append(float(0))
        n_row = n_row + 1
    text.close
    return data

"""
函数说明：
    解析保存好的训练数据集
参数：
    data - 训练集中所有数据，按污染物类别分为18个列表，都存储在data列表中
    每一行代表一个污染指标，每一行存储的是训练集中属于这个污染指标的所有的数据
返回值：
    trainX：
        trainX中的每一个列表（每一行）也就是存储的是data矩阵中的前9列，比如第一行是0~8列的所有data矩阵的数据，然
        后递推下去，第二行也是data矩阵中的前九列，但是初始索引不同而已变成了1~9
    trainY：
        #trainY中的每一个列表（每一行）存储的是data矩阵中的第9行，也就是PM2.5数据，
        但只存储第十个时刻，也就是从第九列开始的PM2.5的值，也就是存储的下一时刻的类推实际PM2.5的值，然后一直递推
"""
def Resolver_TrainData(data):
    # parse data to trainX and trainY。将列表数据解析为trainX和trainY
    x = []
    y = []
    for i in range(12):
        for j in range(471):
            x.append([])
            for t in range(18):
                for s in range(9):
                    x[471 * i + j].append(data[t][480 * i + j + s])  # 他只要前九列， 把data列表的1~18行0~8列，1~9，2~10.....，15-23,16-24....，分别存到他的x[0],x[1]...中.

            y.append(data[9][480 * i + j + 9])  # y存储的是data[9]也就是都是PM2.5的值，把第10行第10列，也就是存储的下一时刻的类推实际PM2.5的值
    trainX = np.array(x)  # 每一行有9*18个数 每9个代表9天的某一种污染物
    trainY = np.array(y)
    return trainX,trainY
    # print(len(x))#5652行
    # print(len(x[0]))#162列，他只要前九列，所以18*9=162
    # print(len(x[1]))#所以x存储的是data列表（也就是训练数据）的某九列的数据，把1~18行0~9列，1~10，2~11分别存到他的x[0],x[1]...中
    # print(len(y))#5652个数据，单行,存储的是训练数据中下一时刻的类推实际PM2.5的值
    # print(len(trainY))#在循环时，他会过掉10次，i=0时，9~479，i=1时479直接跳到489，差10，
    # 循环11次就差了10*10=100，然后减去第一次过掉的8个，所以就是5652

"""
函数说明：
    该函数用来分析测试数据
参数：
    空
返回值：
    test_x：
        test_x把每18行（也就是一个时间点）的数据全部加到test_x中的一行，
        然后再创另一行再加另外18行，也就是说test_x的每一行存储的是每一天的所有污染指标的前9个小时的数据
说明：
    test.csv内保存的是某一天前九个小时的18项污染指标的数据
    id_...表示第几天，每个id_...有18行，代表18项污染指标
    9个列代表测试用的前九个时刻
"""
def Read_TestingData():
    # parse test data分析测试数据
    # test_x把每18行（也就是一个时间点）的数据全部加到test_x中的一行，然后再创另一行再加另外18行，也就是说test_x的每一行存储的是每一天的所有污染指标的前9个小时的数据
    test_x = []
    n_row = 0
    text = open('data/test.csv', "r")
    row = csv.reader(text, delimiter=",")

    for r in row:
        if n_row % 18 == 0:
            test_x.append([])
            for i in range(2, 11):
                test_x[n_row // 18].append(float(r[i]))#//表示整数除法
        else:
            for i in range(2, 11):
                if r[i] != "NR":
                    test_x[n_row // 18].append(float(r[i]))
                else:
                    test_x[n_row // 18].append(0)
        n_row = n_row + 1
    text.close()
    test_x = np.array(test_x)
    return test_x

"""
函数说明：
    读取测试集测试的真实答案，也就是测试集中给出的每一天前九个小时的所有污染指标数据，所预测出的下一时刻PM2.5值
参数：
    空
返回值：
    存储某天这个时间点的PM2.5值    
"""
def Read_TestAnswer():
    #parse answer分析答案
    ans_y = []
    n_row = 0
    text = open('data/ans.csv', "r")
    row = csv.reader(text, delimiter=",")

    for r in row:
        ans_y.append(r[1])

    ans_y = ans_y[1:]
    ans_y = np.array(list(map(int, ans_y)))
    #print(ans_y[1])
    return ans_y

def AddBias(trainX,test_x):
    # add bias 添加bias
    test_x = np.concatenate((np.ones((test_x.shape[0],1)),test_x), axis=1)#创建一个240行，1列的数组，与将test_x对应行进行拼接
    #concatenate能够一次完成多个数组的拼接。其中a1,a2,...是数组类型的参数,axis=1表示对应行的数组进行拼接
    #ones方法是创建一个全为1的数组，参数是一个元组，元组的第一个元素就是创建数组的行，第二个元素就是创建的数组的列
    trainX = np.concatenate((np.ones((trainX.shape[0],1)), trainX), axis=1)
    return trainX,test_x

def TrainModel(trainX,trainY):
    # train data 训练数据
    w = np.zeros(len(trainX[0]))  # 获取训练集的列数163列，w：1行，163列的0矩阵

    w_sgd, cost_list_sgd = SGD(trainX, trainY, w, eta=0.0001, iteration=20000, lambdaL2=0)#cost_list_sgd是每次迭代时保存的LossFunction值的列表
    # w_sgd50, cost_list_sgd50 = SGD(trainX, trainY, w, eta=0.0001, iteration=20000, lambdaL2=50)
    w_ada, cost_list_ada = ada(trainX, trainY, w, eta=1, iteration=20000, lambdaL2=0)
    # w_gd, cost_list_gd = SGD(trainX, trainY, w, eta=0.0001, iteration=20000, lambdaL2=0)

    # close form，closed form solution检查结果，标准答案
    w_cf = inv(trainX.T.dot(trainX)).dot(trainX.T).dot(trainY)#标准答案
    cost_wcf = np.sum((trainX.dot(w_cf) - trainY) ** 2) / len(trainX)
    hori = [cost_wcf for i in range(20000 - 3)]

    return w_sgd,cost_list_sgd,w_ada,cost_list_ada,w_cf,cost_wcf,hori

def Save_Test_Result(w):
    # csv format  csv格式保存
    ans = []
    for i in range(len(test_x)):  # test_x是240行的对应240天
        ans.append(["id_" + str(i)])
        a = np.dot(w, test_x[i])  # 用训练数据得出的最好funcion的参数集合与测试数据做点积
        # 就是测试数据的结果
        ans[i].append(a)

    # 下面这几行是写入文件
    filename = "result/predict.csv"
    text = open(filename, "w+")
    s = csv.writer(text, delimiter=',', lineterminator='\n')
    s.writerow(["id", "value"])
    for i in range(len(ans)):
        s.writerow(ans[i])
    text.close()

if __name__ == "__main__":
    # 每一个维度储存一种污染物的咨询，一共十八项污染物数据
    data = []
    #for循环18个列表添加到data列表中
    for i in range(18):
        data.append([])

    Traindata = Read_TrainData(data)

    trainX,trainY = Resolver_TrainData(Traindata)#trainX:5652行，162列 trainY:1行，5652列

    test_x = Read_TestingData()#240行、162列

    ans_y = Read_TestAnswer()#1行，240列

    trainX,test_x = AddBias(trainX,test_x)#加入偏差bias

    w_sgd,cost_list_sgd,w_ada,cost_list_ada,w_cf,cost_wcf,hori = TrainModel(trainX,trainY)

    #output testdata输出测试数据
    y_ada = np.dot(test_x, w_ada)#ada方法：用测试数据和已经迭代完毕的参数进行演算测试数据y的值的集合。
    y_sgd = np.dot(test_x, w_sgd)#sgd方法的
    y_cf = np.dot(test_x, w_cf)#正确数据，#加入偏差之后的真实值

    Save_Test_Result(w_ada)#选择测试效果最好的算法，将数据进行保存

    #print(len(cost_list_ada))#因为循环了20000次，所以有20000个Loss的结果都保存了起来
    #显示波形
    #plot training data with different gradiant method用不同梯度法绘制训练数据
    #plot第一个参数是x轴的数据，第二个参数是y轴数据，第三个是颜色，第四个是控制曲线的格式字符串
    """
    这部分是对自适应梯度下降算法与随机梯度下降算法中，训练过程的迭代次数与误差之间的关系曲线
    """
    plt.plot(np.arange(len(cost_list_ada[3:])), cost_list_ada[3:], 'b', label="ada")
    plt.plot(np.arange(len(cost_list_sgd[3:])), cost_list_sgd[3:], 'g', label='sgd')
    # plt.plot(np.arange(len(cost_list_sgd50[3:])), cost_list_sgd50[3:], 'c', label='sgd50')
    # plt.plot(np.arange(len(cost_list_gd[3:])), cost_list_gd[3:], 'r', label='gd')
    plt.plot(np.arange(len(cost_list_ada[3:])), hori, 'y--', label='close-form')
    plt.title('Training Process')
    plt.xlabel('Iteration')
    plt.ylabel('Loss function (quadratic)')
    plt.legend()
    plt.savefig(os.path.join(os.path.dirname(__file__), "figures/TrainProcess"))
    plt.show()

    #plot fianl answer
    plt.figure()#绘图
    plt.subplot(131)
    plt.title('CloseForm')
    plt.xlabel('dataset')
    plt.ylabel('pm2.5')
    plt.plot(np.arange((len(ans_y))), ans_y, 'r,')
    plt.plot(np.arange(240), y_cf, 'b')

    plt.subplot(132)
    plt.title('ada')
    plt.xlabel('dataset')
    plt.ylabel('pm2.5')
    plt.plot(np.arange((len(ans_y))), ans_y, 'r,')
    plt.plot(np.arange(240), y_ada, 'g')

    plt.subplot(133)
    plt.title('sgd')
    plt.xlabel('dataset')
    plt.ylabel('pm2.5')
    plt.plot(np.arange((len(ans_y))), ans_y, 'r,')
    plt.plot(np.arange(240), y_sgd, 'b')
    plt.tight_layout()
    plt.savefig(os.path.join(os.path.dirname(__file__), "figures/Compare"))
    plt.show()

抱歉有些地方也可以封装成一个独立的函数，但是我没有做了，大家可以整理一下。
接下来看一下效果，运行代码结果如下：

这是第一张图，从第一张图我们可以看出迭代次数和均方差（测试集的预测值与测试集的真实值的均方差）之间的关系，蓝色代表的是自适应梯度下降算法，绿色的代表的是随机梯度下降算法，而那根虚线close-form表示测试集真实值。

我们从图中可以看出自适应梯度下降算法效果明显要比随机梯度下降算法要好，从迭代次数可以知道，自适应梯度下降在迭代2500次左右就趋近与真实值，而随机梯度下降算法在迭代将近10000后才趋于平稳但与真实值还存在一定差距。另外从误差方面看，自适应梯度下降算法在迭代以后接近真实值，而随机梯度下降算法在迭代之后还存在一定误差，从这张图我们可以看出自适应梯度下降算法在这个数据集上要比随机梯度下降算法要好，但不能说自适应梯度下降算法就一定是最好，这要依据你的数据集来判别的。

除此之外，我们还将测试集真实值通过散点的形式在第二张图中展示，如下图所示：

红色的点代表测试集的真实值，最左边那个图CloseForm，是加入bias偏差后的测试集的真实值，以这个作为标准，我们看中间的图，是使用自适应梯度下降算法对模型进行训练，然后对测试集进行预测的结果，是不是和最左边的很接近？答案是肯定的，然后最右边的图，也就是使用随机梯度下降算法对测试集预测的结果，与第一张图进行对比，差远了…
由此我们也可得出，使用自适应梯度下降算法对本实例的数据集所建立的模型进行预测，效果是最好的。

本人大三小白，因为疫情在家呆了半年，大半年前学的李宏毅老师的回归课程，这么久了难免会有知识点忘了，如果本文有错误或者不清楚的地方，还望大家原谅，指出我的错误之处，谢谢！我会继续改正与学习！

你可能感兴趣的:(机器学习,AI)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
每日一题——第八十一题互联网打工人no1 C语言程序设计每日一练 c语言
打印如下图案:#includeintmain(){inti,j;charch='A';for(i=1;i<5;i++,ch++){for(j=0;j<5-i;j++){printf("");//控制空格输出}for(j=1;j<2*i;j++)//条件j<2*i{printf("%c",ch);//控制字符输出}printf("\n");}return0;}
每日一题——第八十二题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将一个控制台输入的字符串中的所有元音字母复制到另一字符串中#include#include#include#include#defineMAX_INPUT1024boolisVowel(charp);intmain(){charinput[MAX_INPUT];charoutput[MAX_INPUT];printf("请输入一串字符串：\n");fgets(input,sizeof(inp
每日一题——第八十三题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将输入的整形数字输出,输出1990，输出"1990"#include#defineMAX_INPUT1024intmain(){intarrr_num[MAX_INPUT];intnum,i=0;printf("请输入一个数字：");scanf_s("%d",&num);while(num!=0){arrr_num[i++]=num%10;num/=10;}printf("\"");for(
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
每日一题——第八十八题互联网打工人no1 C语言程序设计每日一练 c语言
题目：输入一个9位的无符号整数，判断其是否有重复数字#include#include#includeintmain(){charnum_str[10];printf("请输入一个9位数的无符号数：");scanf_s("%9d",&num_str);if(strlen(num_str)!=9){printf("输入的不是一个9位无符号整数，请重新输入");}else{if(hasDuplicate
mac电脑命令行获取电量小米人er 我的博客 macos 命令行
在macOS上，有几个命令行工具可以用来获取电量信息，最常用的是pmset命令。你可以通过以下方式来查看电池状态和电量信息：查看电池状态：pmset-gbatt这个命令会返回类似下面的输出：Nowdrawingfrom'BatteryPower'-InternalBattery-0(id=1234567)95%;discharging;4:02remainingpresent:true输出中包括电
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
OPENAIGC开发者大赛企业组AI黑马奖 | AIGC数智传媒解决方案 RPA中国人工智能 AIGC 传媒
在第二届拯救者杯OPENAIGC开发者大赛中，涌现出一批技术突出、创意卓越的作品。为了让这些优秀项目被更多人看到，我们特意开设了优秀作品报道专栏，旨在展示其独特之处和开发者的精彩故事。无论您是技术专家还是爱好者，希望能带给您不一样的知识和启发。让我们一起探索AIGC的无限可能，见证科技与创意的完美融合！创未来AI应用赛-企业组AI黑马奖作品名称：AIGC数智传媒解决方案参赛团队：深圳市三象智能技术
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
你可能遗漏的一些C#/.NET/.NET Core知识点追逐时光者 C#.NET DotNetGuide编程指南 c#.net .netcore microsoft
前言在这个快速发展的技术世界中，时常会有一些重要的知识点、信息或细节被忽略或遗漏。《C#/.NET/.NETCore拾遗补漏》专栏我们将探讨一些可能被忽略或遗漏的重要知识点、信息或细节，以帮助大家更全面地了解这些技术栈的特性和发展方向。拾遗补漏GitHub开源地址https://github.com/YSGStudyHards/DotNetGuide/blob/main/docs/DotNet/D
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》