iteapoy

⭐ 李宏毅2020机器学习作业1-Linear Regression：预测PM2.5

更多作业，请查看⭐ 李宏毅2020机器学习资料汇总

文章目录

0 作业链接
1 作业说明
- 环境
- 任务说明
- 数据说明
- 作业概述
2 原始代码（baseline）
- 载入train.csv
- 预处理
- 提取特征
- 标准化（Normalization）
- 训练
- 测试
- 把预测值保存为CSV文件
- 结果评测
3 修改代码
- 版本1
- 版本2

0 作业链接

直接在李宏毅课程主页可以找到作业：

李宏毅的课程网页：点击此处跳转

如果你打不开colab，下方是搬运的jupyter notebook文件和助教的说明ppt：

2020版课后作业范例和作业说明：点击此处跳转
数据链接：https://pan.baidu.com/s/1xWVKnm4P6bBawASzLYskaw 提取码：akti

上述链接中jupyter notebook文件的图片来源也是colab，如果你无法加载图片，博主已经将图片下载好，放在本文中了。

1 作业说明

环境

jupyter notebook
python3

任务说明

采集了台湾环境监测所的数据。

要求：根据前9小时的数据，用线性回归来预测第10个小时的PM2.5的数值。

数据说明

本次作业使用了某个检测站一年的观测数据，数据中每个小时有18个观测指标，将其作为特征。将数据分为train.csv和test.csv，train.csv是该检测站每个月前20天的所有数据，test.csv是从该检测站剩余数据中取样出的部分数据。

train.csv：每个月前20天的完整数据
test.csv：从剩下的数据中取样连续的10小时为一组，前9小时所有观测数据当做feature，第10小时的PM2.5当做answer。一共取出240组不重复的test data，请根据feature预测这240组的PM2.5.

所有的数据含有18个观测数据（特征）：AMB_TEMP, CH4, CO, NHMC, NO, NO2, NOx, O3, PM10, PM2.5, RAINFALL, RH, SO2, THC, WD_HR, WIND_DIREC, WIND_SPEED, WS_HR。

train.csv：

test.csv：

作业概述

输入：9个小时的数据，共18项特征（AMB_TEMP, CH4, CO, NHMC, NO, NO2, NOx, O3, PM10, PM2.5, RAINFALL, RH, SO2, THC, WD_HR, WIND_DIREC, WIND_SPEED, WS_HR）

输出：第10小时的PM2.5数值

模型：线性回归

2 原始代码（baseline）

载入train.csv

import sys
import pandas as pd
import numpy as np
# 读入train.csv，繁体字以big5编码
data = pd.read_csv('./train.csv', encoding = 'big5')
# 显示前10行
data.head(10)

第1列是日期，第2列是观测站所在地，第3列是观测指标，第4列-第27列是0-23共24小时。

data.shape

Out:
(4320, 27)

数据规格为：4320行，27列

预处理

可以看到降雨（rainfall）都是字符“NR”，将它变成数值0；从第3列开始是数值数据，提取出这些数值。

说明：下述代码中的.to_numpy()函数需要pandas版本>=0.24.0，否则会报错

# 丢弃前两列，需要的是从第三列开始的数值
data = data.iloc[:, 3:]
# 把降雨的NR字符变成数值0
data[data == 'NR'] = 0
# 把dataframe转换成numpy的数组
raw_data = data.to_numpy()
raw_data

Out:
array([['14', '14', '14', ..., '15', '15', '15'],
       ['1.8', '1.8', '1.8', ..., '1.8', '1.8', '1.8'],
       ['0.51', '0.41', '0.39', ..., '0.35', '0.36', '0.32'],
       ...,
       ['36', '55', '72', ..., '118', '100', '105'],
       ['1.9', '2.4', '1.9', ..., '1.5', '2', '2'],
       ['0.7', '0.8', '1.8', ..., '1.6', '1.8', '2']], dtype=object)

此时，数据变成（4320行，24列）

提取特征

4320行中，每18行（18个观测指标）是一天的数据，将18行作为一天，4320/18=240天（一年12个月，每个月20天），根据每个月将4320行×24列的数据分成12 组18 行(features) × 480 列(hours) 的数据：

month_data = {
     }
for month in range(12):
    sample = np.empty([18, 480])
    for day in range(20):
        sample[:, day * 24 : (day + 1) * 24] = raw_data[18 * (20 * month + day) : 18 * (20 * month + day + 1), :]
    month_data[month] = sample

分成了12个月，每个月有18行×480列的数据。

对于每个月，每10个小时分成一组，由前9个小时的数据来预测第10个小时的PM2.5，把前9小时的数据放入x，把第10个小时的数据放入y。窗口的大小为10，从第1个小时开始向右滑动，每次滑动1小时。因此，每个月都有471组这样的数据。

把一组18×9的数据平铺成一行向量，然后放入x的一行中，每个月有471组，共有12×471组向量，因此x有12×471行，18×9列。

将预测值放入y中，y有12（月）×471（组）行，1列。

x = np.empty([12 * 471, 18 * 9], dtype = float)
y = np.empty([12 * 471, 1], dtype = float)
for month in range(12):
    for day in range(20):
        for hour in range(24):
            if day == 19 and hour > 14:
                continue
            x[month * 471 + day * 24 + hour, :] = month_data[month][:,day * 24 + hour : day * 24 + hour + 9].reshape(1, -1) #vector dim:18*9 (9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9)
            y[month * 471 + day * 24 + hour, 0] = month_data[month][9, day * 24 + hour + 9] #value
print(x)
print(y)

Out:
[[14.  14.  14.  ...  2.   2.   0.5]
 [14.  14.  13.  ...  2.   0.5  0.3]
 [14.  13.  12.  ...  0.5  0.3  0.8]
 ...
 [17.  18.  19.  ...  1.1  1.4  1.3]
 [18.  19.  18.  ...  1.4  1.3  1.6]
 [19.  18.  17.  ...  1.3  1.6  1.8]]
[[30.]
 [41.]
 [44.]
 ...
 [17.]
 [24.]
 [29.]]

标准化（Normalization）

Normalization和Standardization分别被翻译成归一化和标准化，其实是有问题的，很容易被混淆。实际上，两者可以统称为标准化（Normalization）， $x=\frac{x-\mu}{\sigma}$ 叫做z-score normalization，而 $x=\frac{x-x_{min}}{x_{max}-x_{min}}$ 又叫做min-max normalization，网上的某些资料有点问题。

$x=\frac{x-\mu}{\sigma}$ ， $\mu$ 是 $x$ 的均值， $\sigma$ 是 $x$ 的标准差。

通过标准化，可以：

将有量纲的表达式，经过变换，化为无量纲的表达式，成为标量
使得数据更加符合独立同分布条件

这个转换使得x的均值为0，标准差为1，而不是像网上说的变成(-1,1)之间的数据。从下方的out中，可以看到有部分数据是小于-1的。

这里每一列是一个观测指标，按列进行标准化。

mean_x = np.mean(x, axis = 0) #18 * 9 
std_x = np.std(x, axis = 0) #18 * 9 
for i in range(len(x)): #12 * 471
    for j in range(len(x[0])): #18 * 9 
        if std_x[j] != 0:
            x[i][j] = (x[i][j] - mean_x[j]) / std_x[j]
x

Out:
array([[-1.35825331, -1.35883937, -1.359222  , ...,  0.26650729,
         0.2656797 , -1.14082131],
       [-1.35825331, -1.35883937, -1.51819928, ...,  0.26650729,
        -1.13963133, -1.32832904],
       [-1.35825331, -1.51789368, -1.67717656, ..., -1.13923451,
        -1.32700613, -0.85955971],
       ...,
       [-0.88092053, -0.72262212, -0.56433559, ..., -0.57693779,
        -0.29644471, -0.39079039],
       [-0.7218096 , -0.56356781, -0.72331287, ..., -0.29578943,
        -0.39013211, -0.1095288 ],
       [-0.56269867, -0.72262212, -0.88229015, ..., -0.38950555,
        -0.10906991,  0.07797893]])

把训练数据分成训练集train_set和验证集validation，其中train_set用于训练，而validation不会参与训练，仅用于验证。（在baseline中并没有用）

import math
x_train_set = x[: math.floor(len(x) * 0.8), :]
y_train_set = y[: math.floor(len(y) * 0.8), :]
x_validation = x[math.floor(len(x) * 0.8): , :]
y_validation = y[math.floor(len(y) * 0.8): , :]
print(x_train_set)
print(y_train_set)
print(x_validation)
print(y_validation)
print(len(x_train_set))
print(len(y_train_set))
print(len(x_validation))
print(len(y_validation))

Out:
[[-1.35825331 -1.35883937 -1.359222   ...  0.26650729  0.2656797
  -1.14082131]
 [-1.35825331 -1.35883937 -1.51819928 ...  0.26650729 -1.13963133
  -1.32832904]
 [-1.35825331 -1.51789368 -1.67717656 ... -1.13923451 -1.32700613
  -0.85955971]
 ...
 [ 0.86929969  0.70886668  0.38952809 ...  1.39110073  0.2656797
  -0.39079039]
 [ 0.71018876  0.39075806  0.07157353 ...  0.26650729 -0.39013211
  -0.39079039]
 [ 0.3919669   0.07264944  0.07157353 ... -0.38950555 -0.39013211
  -0.85955971]]
[[30.]
 [41.]
 [44.]
 ...
 [ 7.]
 [ 5.]
 [14.]]
[[ 0.07374504  0.07264944  0.07157353 ... -0.38950555 -0.85856912
  -0.57829812]
 [ 0.07374504  0.07264944  0.23055081 ... -0.85808615 -0.57750692
   0.54674825]
 [ 0.07374504  0.23170375  0.23055081 ... -0.57693779  0.54674191
  -0.1095288 ]
 ...
 [-0.88092053 -0.72262212 -0.56433559 ... -0.57693779 -0.29644471
  -0.39079039]
 [-0.7218096  -0.56356781 -0.72331287 ... -0.29578943 -0.39013211
  -0.1095288 ]
 [-0.56269867 -0.72262212 -0.88229015 ... -0.38950555 -0.10906991
   0.07797893]]
[[13.]
 [24.]
 [22.]
 ...
 [17.]
 [24.]
 [29.]]
4521
4521
1131
1131

训练

和上图不同处: 下面Loss的代码用到的是 Root Mean Square Error

因为存在常数项b，所以维度（dim）需要多加一列；eps项是极小值，避免adagrad的分母为0.

每一个维度（dim）会对应到各自的gradient和权重w，通过一次次的迭代（iter_time）学习。最终，将训练得到的模型（权重w）存储为.npy格式的文件。

dim = 18 * 9 + 1
w = np.zeros([dim, 1])
x = np.concatenate((np.ones([12 * 471, 1]), x), axis = 1).astype(float)
learning_rate = 100
iter_time = 1000
adagrad = np.zeros([dim, 1])
eps = 0.0000000001
for t in range(iter_time):
    loss = np.sqrt(np.sum(np.power(np.dot(x, w) - y, 2))/471/12)#rmse
    if(t%100==0):
        print(str(t) + ":" + str(loss))
    gradient = 2 * np.dot(x.transpose(), np.dot(x, w) - y) #dim*1
    adagrad += gradient ** 2
    w = w - learning_rate * gradient / np.sqrt(adagrad + eps)
np.save('weight.npy', w)
w

Out:
0:27.071214829194115
100:33.78905859777454
200:19.91375129819709
300:13.531068193689686
400:10.645466158446165
500:9.27735345547506
600:8.518042045956497
700:8.014061987588416
800:7.636756824775686
900:7.33656374037112
array([[ 2.13740269e+01],
       [ 3.58888909e+00],
       [ 4.56386323e+00],
       [ 2.16307023e+00],
       [-6.58545223e+00],
       [-3.38885580e+01],
       [ 3.22235518e+01],
      ...
       [-5.57512471e-01],
       [ 8.76239582e-02],
       [ 3.02594902e-01],
       [-4.23463160e-01],
       [ 4.89922051e-01]])

测试

# 读入测试数据test.csv
testdata = pd.read_csv('./test.csv', header = None, encoding = 'big5')
# 丢弃前两列，需要的是从第3列开始的数据
test_data = testdata.iloc[:, 2:]
# 把降雨为NR字符变成数字0
test_data[test_data == 'NR'] = 0
# 将dataframe变成numpy数组
test_data = test_data.to_numpy()
# 将test数据也变成 240 个维度为 18 * 9 + 1 的数据。
test_x = np.empty([240, 18*9], dtype = float)
for i in range(240):
    test_x[i, :] = test_data[18 * i: 18* (i + 1), :].reshape(1, -1)
for i in range(len(test_x)):
    for j in range(len(test_x[0])):
        if std_x[j] != 0:
            test_x[i][j] = (test_x[i][j] - mean_x[j]) / std_x[j]
test_x = np.concatenate((np.ones([240, 1]), test_x), axis = 1).astype(float)
test_x

Out:
array([[
 1.        , -0.24447681, -0.24545919, ..., -0.67065391,
        -1.04594393,  0.07797893],
       [ 1.        , -1.35825331, -1.51789368, ...,  0.17279117,
        -0.10906991, -0.48454426],
       [ 1.        ,  1.5057434 ,  1.34508393, ..., -1.32666675,
        -1.04594393, -0.57829812],
       ...,
       [ 1.        ,  0.3919669 ,  0.54981237, ...,  0.26650729,
        -0.20275731,  1.20302531],
       [ 1.        , -1.8355861 , -1.8360023 , ..., -1.04551839,
        -1.13963133, -1.14082131],
       [ 1.        , -1.35825331, -1.35883937, ...,  2.98427476,
         3.26367657,  1.76554849]])

载入模型即可对test数据进行预测，得到预测值ans_y。

w = np.load('weight.npy')
ans_y = np.dot(test_x, w)
ans_y

Out:
array([[ 5.17496040e+00],
       [ 1.83062143e+01],
       [ 2.04912181e+01],
       [ 1.15239429e+01],
       [ 2.66160568e+01],
	   ...,
       [ 4.12665445e+01],
       [ 6.90278920e+01],
       [ 4.03462492e+01],
       [ 1.43137440e+01],
       [ 1.57707266e+01]])

把预测值保存为CSV文件

import csv
with open('submit.csv', mode='w', newline='') as submit_file:
    csv_writer = csv.writer(submit_file)
    header = ['id', 'value']
    print(header)
    csv_writer.writerow(header)
    for i in range(240):
        row = ['id_' + str(i), ans_y[i][0]]
        csv_writer.writerow(row)
        print(row)

Out:
['id', 'value']
['id_0', 5.17496039898473]
['id_1', 18.306214253527884]
['id_2', 20.491218094180553]
['id_3', 11.523942869805396]
...
['id_237', 40.346249244122404]
['id_238', 14.313743982871117]
['id_239', 15.770726634219777]

结果评测

将240组testing data 中的 PM2.5 值存为submit.csv文件。将submit.csv提交至kaggle平台进行测试，submit.csv内的格式为：

第一行必须是 id,value
第二行开始，每行分别为 id 值及预测 PM2.5 的数值，以逗号隔开。

直接将生成的submit.csv提交至kaggle测试结果如下：

Private Score为8.73773，Public Score为6.55912

接下来，需要在此baseline的基础上优化模型，目标是降低Score。

3 修改代码

助教提示：可以修改学习率、迭代次数、提取的特征，甚至修改模型。

不过，毕竟是线性回归作业，博主并不打算修改模型。

版本1

博主尝试了修改成adam，然而效果并不好，最后还是改回了Adagrad。

Adagrad更新公式：
$\begin{aligned} r_t&=r_t+g_t^2\\ \theta_{t+1} &=\theta_{t}-\frac{\eta}{\sqrt{r_{t}}+\epsilon} \hat{m}_{t} \end{aligned}$
Adam更新公式：
$\begin{aligned} m_{t} &=\beta_{1} m_{t-1}+\left(1-\beta_{1}\right) g_{t} \\ v_{t} &=\beta_{2} v_{t-1}+\left(1-\beta_{2}\right) g_{t}^{2} \\ \hat{m}_{t} &=\frac{m_{t}}{1-\beta_{1}^{t}} \\ \hat{v}_{t} &=\frac{v_{t}}{1-\beta_{2}^{t}} \\ \theta_{t+1} &=\theta_{t}-\frac{\eta}{\sqrt{\hat{v}_{t}}+\epsilon} \hat{m}_{t} \end{aligned}$

在 Adam 原论文以及一些深度学习框架中，初始值 $m_0=0$ ， $v_0=0$ ，默认值为 $\eta=0.001$ , $\beta_{1}=0.9$ , $\beta_{2}=0.999$ , $\epsilon=1 e-8$ ，其中 $\beta_{1}$ 和 $\beta_{2}$ 都是接近 1 的数， $\epsilon$ 是为了防止除以 0。 $g_t$ 表示梯度， $g_t^2$ 表示梯度的平方， $\beta_{1}^{t}$ 表示 $\beta_{1}$ 的 $t$ 次方。

最后，博主调整学习率为2，迭代6000次（多次炼丹的结果）。

除此之外，观察PM2.5的值，可以发现没有负数，都是整数，因此对预测值进行了微调，小于0的数都归为0，而对所有的浮点数四舍五入为整数。

完整代码如下：

# 导入相关库
import sys
import pandas as pd
import numpy as np

# 读入数据
data = pd.read_csv('./train.csv', encoding = 'big5')

# 数据预处理
data = data.iloc[:, 3:]
data[data == 'NR'] = 0
raw_data = data.to_numpy()

# 按月分割数据
month_data = {
     }
for month in range(12):
    sample = np.empty([18, 480])
    for day in range(20):
        sample[:, day * 24 : (day + 1) * 24] = raw_data[18 * (20 * month + day) : 18 * (20 * month + day + 1), :]
    month_data[month] = sample

# 分割x和y
x = np.empty([12 * 471, 18 * 9], dtype = float)
y = np.empty([12 * 471, 1], dtype = float)
for month in range(12):
    for day in range(20):
        for hour in range(24):
            if day == 19 and hour > 14:
                continue
            x[month * 471 + day * 24 + hour, :] = month_data[month][:,day * 24 + hour : day * 24 + hour + 9].reshape(1, -1) #vector dim:18*9 (9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9)
            y[month * 471 + day * 24 + hour, 0] = month_data[month][9, day * 24 + hour + 9] #value
print(x)
print(y)

# 对x标准化
mean_x = np.mean(x, axis = 0) #18 * 9 
std_x = np.std(x, axis = 0) #18 * 9 
for i in range(len(x)): #12 * 471
    for j in range(len(x[0])): #18 * 9 
        if std_x[j] != 0:
            x[i][j] = (x[i][j] - mean_x[j]) / std_x[j]

# 训练模型并保存权重
dim = 18 * 9 + 1
w = np.zeros([dim, 1])
x2 = np.concatenate((np.ones([12 * 471, 1]), x), axis = 1).astype(float)
learning_rate = 2
iter_time = 10000
adagrad = np.zeros([dim, 1])
eps = 1e-7
for t in range(iter_time):
    loss = np.sqrt(np.sum(np.power(np.dot(x2, w) - y, 2))/471/12)#rmse
    if(t%100==0):
        print(str(t) + ":" + str(loss))
    gradient = 2 * np.dot(x2.transpose(), np.dot(x2, w) - y) #dim*1
    adagrad += gradient ** 2
    w = w - learning_rate * gradient / (np.sqrt(adagrad) + eps)
  
np.save('weight.npy', w)

# 导入测试数据test.csv
testdata = pd.read_csv('./test.csv', header = None, encoding = 'big5')
test_data = testdata.iloc[:, 2:]
test_data[test_data == 'NR'] = 0
test_data = test_data.to_numpy()
test_x = np.empty([240, 18*9], dtype = float)
for i in range(240):
    test_x[i, :] = test_data[18 * i: 18* (i + 1), :].reshape(1, -1)
for i in range(len(test_x)):
    for j in range(len(test_x[0])):
        if std_x[j] != 0:
            test_x[i][j] = (test_x[i][j] - mean_x[j]) / std_x[j]
test_x = np.concatenate((np.ones([240, 1]), test_x), axis = 1).astype(float)

# 对test的x进行预测，得到预测值ans_y
w = np.load('weight.npy')
ans_y = np.dot(test_x, w)
# 加一个预处理<0的都变成0
for i in range(240):
    if(ans_y[i][0]<0):
        ans_y[i][0]=0
    else:
        ans_y[i][0]=np.round(ans_y[i][0])

# 保存为csv文件，并提交到kaggle：https://www.kaggle.com/c/ml2020spring-hw1/submissions
import csv
with open('submit.csv', mode='w', newline='') as submit_file:
    csv_writer = csv.writer(submit_file)
    header = ['id', 'value']
    print(header)
    csv_writer.writerow(header)
    for i in range(240):
        row = ['id_' + str(i), ans_y[i][0]]
        csv_writer.writerow(row)
        print(row)

最终，博主的测试结果（100名开外）：

版本2

之后，博主又尝试了加入x的平方项，private score的分数下降了很多，不过public score的分数上升了。
主要的修改部分为：

# 训练集
for month in range(12):
    for day in range(20):
        for hour in range(24):
            if day == 19 and hour > 14:
                continue
            x1 = month_data[month][:, day * 24 + hour: day * 24 + hour + 9].reshape(1,-1)  # vector dim:18*9 (9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9)
            x[month * 471 + day * 24 + hour, :18 * 9] = x1
            # 在这里加入了x的二次项
            x[month * 471 + day * 24 + hour, 18 * 9: 18 * 9 * 2] = np.power(x1, 2)
            y[month * 471 + day * 24 + hour, 0] = month_data[month][9, day * 24 + hour + 9]  # value

# 测试集
testdata = pd.read_csv('./test.csv', header = None, encoding = 'big5')
test_data = testdata.iloc[:, 2:]
test_data[test_data == 'NR'] = 0
test_data = test_data.to_numpy()
test_x1 = np.empty([240, 18*9], dtype = float)
test_x = np.empty([240, 18*9*2], dtype = float)
for i in range(240):
    test_x1 = test_data[18 * i: 18 * (i + 1), :].reshape(1, -1).astype(float)
    # 同样在这里加入test x的二次项
    test_x[i, : 18 * 9] = test_x1
    test_x[i, 18 * 9:] = np.power(test_x1 , 2)
for i in range(len(test_x)):
    for j in range(len(test_x[0])):
        if std_x[j] != 0:
            test_x[i][j] = (test_x[i][j] - mean_x[j]) / std_x[j]
test_x = np.concatenate((np.ones([240, 1]), test_x), axis = 1).astype(float)

完整代码如下：

import sys
import pandas as pd
import numpy as np

# 读入数据
data = pd.read_csv('./train.csv', encoding='big5')

# 数据预处理
data = data.iloc[:, 3:]
data[data == 'NR'] = 0
raw_data = data.to_numpy()

# 按月分割数据
month_data = {
     }
for month in range(12):
    sample = np.empty([18, 480])
    for day in range(20):
        sample[:, day * 24: (day + 1) * 24] = raw_data[18 * (20 * month + day): 18 * (20 * month + day + 1), :]
    month_data[month] = sample

# 分割x和y
x = np.empty([12 * 471, 18 * 9 * 2], dtype=float)
y = np.empty([12 * 471, 1], dtype=float)
for month in range(12):
    for day in range(20):
        for hour in range(24):
            if day == 19 and hour > 14:
                continue
            x1 = month_data[month][:, day * 24 + hour: day * 24 + hour + 9].reshape(1,-1)  # vector dim:18*9 (9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9)
            x[month * 471 + day * 24 + hour, :18 * 9] = x1
            # 在这里加入了x的二次项
            x[month * 471 + day * 24 + hour, 18 * 9: 18 * 9 * 2] = np.power(x1, 2)
            y[month * 471 + day * 24 + hour, 0] = month_data[month][9, day * 24 + hour + 9]  # value

# 对x标准化
mean_x = np.mean(x, axis=0)  # 18 * 9 * 2
std_x = np.std(x, axis=0)  # 18 * 9 * 2
for i in range(len(x)):  # 12 * 471
    for j in range(len(x[0])):  # 18 * 9 * 2
        if std_x[j] != 0:
            x[i][j] = (x[i][j] - mean_x[j]) / std_x[j]


# 随机打散X和Y
def _shuffle(X, Y):
    randomize = np.arange(len(X))
    np.random.shuffle(randomize)
    return (X[randomize], Y[randomize])

# 训练模型并保存权重
dim = 18 * 9 * 2 + 1
w = np.ones([dim, 1])
learning_rate = 2
iter_time = 5000
adagrad = np.zeros([dim, 1])
eps = 1e-7

for t in range(iter_time):
    x, y = _shuffle(x, y)
    x2 = np.concatenate((np.ones([len(x), 1]), x), axis=1).astype(float)
    gradient = 2 * np.dot(x2.transpose(), np.dot(x2, w) - y)  # dim*1
    adagrad += gradient ** 2
    w = w - learning_rate * gradient / (np.sqrt(adagrad) + eps)

    loss = np.sqrt(np.sum(np.power(np.dot(x2, w) - y, 2)) / len(x))  # rmse
    if (t % 100 == 0):
        print(str(t) + ":" + str(loss))

np.save('weight.npy', w)

# 导入测试数据test.csv
testdata = pd.read_csv('./test.csv', header = None, encoding = 'big5')
test_data = testdata.iloc[:, 2:]
test_data[test_data == 'NR'] = 0
test_data = test_data.to_numpy()
test_x1 = np.empty([240, 18*9], dtype = float)
test_x = np.empty([240, 18*9*2], dtype = float)
for i in range(240):
    test_x1 = test_data[18 * i: 18 * (i + 1), :].reshape(1, -1).astype(float)
    # 同样在这里加入test x的二次项
    test_x[i, : 18 * 9] = test_x1
    test_x[i, 18 * 9:] = np.power(test_x1 , 2)
for i in range(len(test_x)):
    for j in range(len(test_x[0])):
        if std_x[j] != 0:
            test_x[i][j] = (test_x[i][j] - mean_x[j]) / std_x[j]
test_x = np.concatenate((np.ones([240, 1]), test_x), axis = 1).astype(float)

# 对test的x进行预测，得到预测值ans_y
w = np.load('weight.npy')
ans_y = np.dot(test_x, w)
# 加一个预处理<0的都变成0
for i in range(240):
    if(ans_y[i][0]<0):
        ans_y[i][0]=0
    else:
        ans_y[i][0]=np.round(ans_y[i][0])

# 保存为csv文件，并提交到kaggle：https://www.kaggle.com/c/ml2020spring-hw1/submissions
import csv
with open('submit.csv', mode='w', newline='') as submit_file:
    csv_writer = csv.writer(submit_file)
    header = ['id', 'value']
    print(header)
    csv_writer.writerow(header)
    for i in range(240):
        row = ['id_' + str(i), ans_y[i][0]]
        csv_writer.writerow(row)

结果如下：

Private Score：6.65144
Public Score：5.69502

你可能感兴趣的:(#,李宏毅机器学习)

李宏毅机器学习31——GAN（3） zeng-233
摘要：这节课学习条件生成下GAN的应用(CGAN)。conditionalGAN是指在有生成条件的前提下，通过对抗生成网络的方法，进行图像的生成。首先文字生成图片为例，加入GAN的方法，将文字和生成图片联系起来，输入到生成式中。这样解决了传统方法下，生成的图片不够真实的问题。之后又对这个方法进行了改进，将生成式的输入和输出同时输入到判别式，使文字和图片作为一对数据联系起来。之后又提出了一种新的判别
李宏毅机器学习笔记——反向传播算法小陈phd 机器学习机器学习算法神经网络
反向传播算法反向传播（Backpropagation）是一种用于训练人工神经网络的算法，它通过计算损失函数相对于网络中每个参数的梯度来更新这些参数，从而最小化损失函数。反向传播是深度学习中最重要的算法之一，通常与梯度下降等优化算法结合使用。反向传播的基本原理反向传播的核心思想是利用链式法则（ChainRule）来高效地计算损失函数相对于每个参数的梯度。以下是反向传播的基本步骤：前向传播（Forwa
机器学习第二十五周周报 ConvLSTM 沽漓酒江机器学习人工智能
文章目录week25ConvLSTM摘要Abstract一、李宏毅机器学习二、文献阅读1.题目2.abstract3.网络架构3.1降水预报问题的建模3.2ConvolutionalLSTM3.3编码-预测结构4.文献解读4.1Introduction4.2创新点4.3实验过程4.3.1Moving-MNISTDataset4.3.2雷达回波数据集4.4结论三、基于pytorch实现ConvLST
李宏毅机器学习——回归实验 migugu
importnumpyasnpimportmatplotlib.pyplotaspltfrompylabimportmpl#matplotlib没有中文字体，动态解决plt.rcParams['font.sans-serif']=['Simhei']#显示中文mpl.rcParams['axes.unicode_minus']=False#解决保存图像是负号'-'显示为方块的问题x_data=[3
李宏毅机器学习笔记 2.回归 Simone Zeng 机器学习机器学习
最近在跟着Datawhale组队学习打卡，学习李宏毅的机器学习/深度学习的课程。课程视频：https://www.bilibili.com/video/BV1Ht411g7Ef开源内容：https://github.com/datawhalechina/leeml-notes本篇文章对应视频中的P3。另外，最近我也在学习邱锡鹏教授的《神经网络与深度学习》，会补充书上的一点内容。通过上一次课1.机器
李宏毅机器学习（二十）无监督学习Neighbor Embedding近邻嵌入 ca8519be679b
ManifoldLearning我们有时候的特征其实是低维度的放到高纬度上去，比如地球表面是2维的，但是被放到了3维空间，比如左下的S曲面，其实可以展开到2维平面上去，接下来就方便我们进一步计算分类等等插图1我们有如下几个降维方法LocallyLinearEmedding(LLE)局部线性嵌入具体是是怎么做的呢，我们点x和周围的点xj，给xj每个点加权wij求和，使其和xi最接近，然后投影到向量z
李宏毅pm2.5作业【转载】言糙 python numpy 机器学习
李宏毅机器学习PM2.5作业使用pyCharm2022.2.1版本，python10.0python也不会，计算机也不会，啥都不会，只带了个脑子考了计算机研究生。研究生选了人工智能方向。看来注定是漫长的学习之旅。PM2.5作业，我是一个字都看不懂。所以我采用了直接看答案的方案。把答案看懂也是一种本事。把答案CV上来。文章目录前言一、pandas是什么？二、使用步骤1.引入库2.提取TEST数据集3
Python 学习工具及资源 Lanlan_78d1
小甲鱼Python基础学习到P19（函数）之前image.png菜鸟语法查询Anaconda安装教学Jupyter教学*李宏毅机器学习
Transformer 代码补充 Karen_Yu_ python 深度学习 pytorch transformer
本文是对Transformer-Attentionisallyouneed论文阅读-CSDN博客以及【李宏毅机器学习】Transformer内容补充-CSDN博客的补充，是对相关代码的理解。先说个题外话，在之前李宏毅老师的课程中提到multi-headattention是把得到的qkv分别乘上不同的矩阵，得到更多的qkv。实际上，这里采用的方法是直接截取，比如这里有两个头，那么q^i就被分成两部分
【李宏毅机器学习】Transformer 内容补充 Karen_Yu_ 自然语言处理人工智能 transformer
视频来源：10.【李宏毅机器学习2021】自注意力机制(Self-attention)(上)_哔哩哔哩_bilibili发现一个奇怪的地方，如果直接看ML/DL的课程的话，有很多都是不完整的。开始思考是不是要科学上网。本文用作Transformer-Attentionisallyouneed论文阅读-CSDN博客的补充内容，因为发现如果实操还是有不能理解的地方，所以准备看看宝可梦老师怎么说×Sel
【LLM | 基础知识】自注意力机制 Self-attention [李宏毅机器学习] XMUJason 大语言模型LLM chatgpt 笔记 nlp
⭐引言本文主要参考李宏毅老师对于自注意力机制的讲解内容，但在此基础之上进行了一定的补充和删减，文中大部分插图来源于李宏毅老师的课件。本文的主要目的是梳理清楚自注意力机制的基本原理，理解什么是自注意力机制，不关注代码实现和具体的数学运算。本文尽可能把内容只控制在自注意力机制的基本框架上，不进行过多的相关概念的扩展，以免被其他相关内容转移注意力。1.从“单向量输入”到“多向量输入”在之前的机器学习方法
李宏毅机器学习（二十三）无监督学习Deep Generative Model(二) ca8519be679b
内容衔接上一讲，上节我们讲到VAE，我们为什么用VAE而不用auto-encoder呢，直觉上的原因是如果是auto-encoder，我们期待的是输入满月解码后还是满月，输入半月输出还是半月，但是我们能保证中间状态时候我们的输出是3/4月吗，结果往往不是；如果是VAE，我们就会引入一定的噪声，使得一定范围内输出都是满月，一定范围内输出都是半月，中间的公共部分由于我们要Minimize2者的误差，所
李宏毅机器学习——深度学习训练的技巧 migugu
神经网络训练的技巧优化失败的原因:局部最小值或鞍点，可以通过对H矩阵特征值正负性进行判断batch：加快梯度的计算，更新参数的速度比较快momentum:越过局部最小值或鞍点learningrate:自动调整学习率如RMSProp等normalizationdropout
李宏毅机器学习——初识深度学习 migugu
深度学习简介深度学习的历史1958:Perceptron(linearmodel)1969:Perceptronhaslimitation1980s:Multi-layerperceptronDonothavesignificantdifferencefromDNNtoday1986:BackpropagationUsuallymorethan3hiddenlayersisnothelpful19
李宏毅机器学习第一周_初识机器学习 Nyctophiliaa 机器学习人工智能深度学习
目录摘要一、机器学习基本概念1、MachineLearning≈LookingforFunction2、认识一些专有名词二、预测YouTube某天的浏览量一、利用Linearmodel二、定义更复杂的函数表达式三、ReLU函数四、Sigmoid函数与ReLU函数的对比三、反向传播(Backpropagation)一、反向传播的基本思想(正向计算-误差计算-梯度计算-参数更新)二、计算过程总结摘要在
李宏毅机器学习_卷积神经网络(CNN) Nyctophiliaa 机器学习 cnn 深度学习
目录摘要Abstract一、什么是CNN二、ImageClassification三、Observation1一、Simplification1四、Observation2五、BenefitofConvolutionalLayer六、ConvolutionalLayer七、MultipleConvolutionalLayers八、ComparisonofTwoStories九、Observatio
李宏毅机器学习第十六周周报NAT&HW5 沽漓酒江机器学习人工智能
文章目录week16Non-autoregressiveSequenceGeneration摘要Abstract一、李宏毅机器学习Non-autoregressiveSequenceGeneration1.问题阐述1.1Autoregressivemodel1.2Non-autoregressivemodel(mostlybyTransformer)2.Solution2.1VanillaNAT(
2023春季李宏毅机器学习笔记 02 ：机器学习基本概念女王の专属领地机器学习深度学习 #李宏毅2023机器学习机器学习笔记人工智能
资料课程主页：https://speech.ee.ntu.edu.tw/~hylee/ml/2023-spring.phpGithub：https://github.com/Fafa-DL/Lhy_Machine_LearningB站课程：https://space.bilibili.com/253734135/channel/collectiondetail?sid=2014800一、機器學習基
2023春季李宏毅机器学习笔记 03 ：机器如何生成文句女王の专属领地 #李宏毅2023机器学习机器学习深度学习笔记机器学习人工智能深度学习
资料课程主页：https://speech.ee.ntu.edu.tw/~hylee/ml/2023-spring.phpGithub：https://github.com/Fafa-DL/Lhy_Machine_LearningB站课程：https://space.bilibili.com/253734135/channel/collectiondetail?sid=2014800一、大语言模型
Chat GPT4来了，它和3.5区别在哪？李宏毅机器学习笔记抱抱小杠杠机器学习人工智能笔记
听说GPT4模型更大、参数更多，功能更强，具体它好在哪里？GPT4真的能看懂图片吗？官方回答：不太能~~下面这张图片是将两个不存在的网址输入进GPT4，问它看到了什么，结果发现GPT真的会胡言乱语，它会根据网址中出现了“man”这个单词，就说他看到了“一个拿着手枪的男人。。。巴拉巴拉”明显就是在胡编乱造！而如果网址中出现了“girl”这个单词，GPT又会说他看到了“一个穿着校服的女孩子。。。巴拉巴
李宏毅机器学习-PCA Zhuanshan_ 机器学习人工智能
视频链接：李宏毅2020机器学习深度学习(完整版)国语用最直观的方式告诉你：什么是主成分分析PCA【中字】主成分分析法（PCA）|分步步骤解析看完你就懂了！无监督学习做什么无监督学习主要做两件事情：聚类&降维：比如说下图的树木，只有输入图片，没有标签，我们希望通过一个函数抽象的表达他们，于是抽出一个更抽象的表述生成器：也就是无中生有，我们有很多图片，但不知道是怎么生成的，于是需要一个好的函数，将刚
2023春季李宏毅机器学习笔记 05 ：机器如何生成图像女王の专属领地 #李宏毅2023机器学习机器学习笔记人工智能机器学习李宏毅 AI产品
资料课程主页：https://speech.ee.ntu.edu.tw/~hylee/ml/2023-spring.phpGithub：https://github.com/Fafa-DL/Lhy_Machine_LearningB站课程：https://space.bilibili.com/253734135/channel/collectiondetail?sid=2014800一、图像生成常
李宏毅机器学习第二十二周周报GAN理论2 沽漓酒江机器学习生成对抗网络人工智能
文章目录week22TheorybehindGAN2摘要Abstract一、李宏毅机器学习0.上周内容概述1.GAN的训练过程2.生成器与分辨器的算法细节3.整体算法描述4.原文中生成器目标函数的实现方式二、文献阅读1.题目2.abstract3.网络架构3.1无数据生成方法3.2Data-EnrichingGAN(DeGAN)4.文献解读4.1Introduction4.2创新点4.3实验过程4
李宏毅机器学习第二十周周报GAN4 沽漓酒江机器学习人工智能
文章目录week20GAN4摘要Abstract一、李宏毅机器学习——GAN41.LearningfromUnpairedData2.CycleGAN3.Application二、文献阅读1.题目2.abstract3.网络架构3.1损失函数3.1.1对抗性损失3.1.2循环一致性损失3.1.3整体目标3.1.4identityloss3.2网络结构3.3训练细节3.4网络架构3.4.1生成器部分
李宏毅机器学习第二十一周周报GAN理论沽漓酒江机器学习生成对抗网络人工智能
文章目录week21TheorybehindGAN摘要Abstract一、李宏毅机器学习——TheorybehindGAN1.Generation2.最大似然估计3.Generator3.Discriminator二、文献阅读1.题目2.abstract3.网络架构3.1SequenceGenerativeAdversarialNets3.2SeqGANviaPolicyGradient3.3Th
李宏毅机器学习第十八周周报GAN2 沽漓酒江机器学习人工智能
文章目录week18GAN2摘要Abstract一、TheorybehindGAN1.训练目的2.Wassersteindistance二、文献阅读1.题目2.abstract3.网络架构3.1WassersteinDistance3.2WasserteinGANs3.3Gradientpenalty4.文献解读4.1Introduction4.2创新点4.3实验过程4.3.1Difficulti
李宏毅机器学习第十九周周报GAN3 沽漓酒江机器学习人工智能 gan
文章目录week19GAN3摘要Abstract一、李宏毅机器学习——GAN31.Introduce2.DifficultyinGANtraining3.EvaluationofGeneration4.ConditionalGeneration二、文献阅读1.题目2.abstract3.文章主要内容3.1基于GANs的双时间尺度更新规则3.2Adam确保TTUR收敛3.2.1使用Adam以降低收敛
李宏毅机器学习第二十三周周报 Flow-based model 沽漓酒江机器学习人工智能生成对抗网络
文章目录week23Flow-basedmodel摘要Abstract一、李宏毅机器学习1.引言2.数学背景2.1Jacobian2.2Determinant2.3ChangeofVariableTheorem3.Flow-basedModel4.GLOW二、文献阅读1.题目2.abstract3.网络架构3.1changeofvariableformula3.2Couplinglayers3.3
李宏毅机器学习（十八）无监督学习-线性模型 ca8519be679b
UnsupervisedLearning-LinearModel无监督学习我们大致分为2种情况，聚类和无中生有化繁为简，比如呢，我们有许多个树的图片，我们经过函数输出为一个结果，另一种是我们已知一个数据code，根据不同的code输入，通过函数实现输出不同的图片插图1聚类很容易理解，比如我们有猫狗鸟3种图片，通过分析相似性，将图片分为K种，但问题常常就是K取多少，比如我们有9个图片，我们分9种和分
2023春季李宏毅机器学习笔记01 ：正确认识 ChatGPT 女王の专属领地深度学习机器学习机器学习李宏毅人工智能 AI产品
资料课程主页：https://speech.ee.ntu.edu.tw/~hylee/ml/2023-spring.phpGithub：https://github.com/Fafa-DL/Lhy_Machine_LearningB站课程：https://space.bilibili.com/253734135/channel/collectiondetail?sid=2014800一、对Chat
knob UI插件使用换个号韩国红果果 JavaScript jsonp knob
图形是用canvas绘制的 js代码 var paras = { max:800, min:100, skin:'tron',//button type thickness:.3,//button width width:'200',//define canvas width.,canvas height displayInput:'tr
Android+Jquery Mobile学习系列(5)-SQLite数据库白糖_ JQuery Mobile
目录导航 SQLite是轻量级的、嵌入式的、关系型数据库，目前已经在iPhone、Android等手机系统中使用,SQLite可移植性好，很容易使用，很小，高效而且可靠。因为Android已经集成了SQLite，所以开发人员无需引入任何JAR包，而且Android也针对SQLite封装了专属的API，调用起来非常快捷方便。我也是第一次接触S
impala-2.1.2-CDH5.3.2 dayutianfei impala
最近在整理impala编译的东西，简单记录几个要点：根据官网的信息（https://github.com/cloudera/Impala/wiki/How-to-build-Impala）： 1. 首次编译impala，推荐使用命令： ${IMPALA_HOME}/buildall.sh -skiptests -build_shared_libs -format 2.仅编译BE ${I
求二进制数中1的个数周凡杨 java 算法二进制
解法一：对于一个正整数如果是偶数，该数的二进制数的最后一位是 0 ，反之若是奇数，则该数的二进制数的最后一位是 1 。因此，可以考虑利用位移、判断奇偶来实现。 public int bitCount(int x){ int count = 0; while(x!=0){ if(x%2!=0){ /
spring中hibernate及事务配置 g21121 Hibernate
hibernate的sessionFactory配置：  <bean id="sessionFactory" class="org.springframework.orm.hibernate3.LocalSessionFactoryBean"> <
log4j.properties 使用 510888780 log4j
log4j.properties 使用一.参数意义说明输出级别的种类 ERROR、WARN、INFO、DEBUG ERROR 为严重错误主要是程序的错误 WARN 为一般警告，比如session丢失 INFO 为一般要显示的信息，比如登录登出 DEBUG 为程序的调试信息配置日志信息输出目的地 log4j.appender.appenderName = fully.qua
Spring mvc-jfreeChart柱图（2）布衣凌宇 jfreechart
上一篇中生成的图是静态的，这篇将按条件进行搜索，并统计成图表，左面为统计图，右面显示搜索出的结果。第一步：导包第二步；配置web.xml(上一篇有代码) 建BarRenderer类用于柱子颜色 import java.awt.Color; import java.awt.Paint; import org.jfree.chart.renderer.category.BarR
我的spring学习笔记14-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。 PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java
maven 之 cobertura 简单使用 antlove maven test unit cobertura report
1. 创建一个maven项目 2. 创建com.CoberturaStart.java package com; public class CoberturaStart { public void helloEveryone(){ System.out.println("=================================================
程序的执行顺序百合不是茶 JAVA执行顺序
刚在看java核心技术时发现对java的执行顺序不是很明白了,百度一下也没有找到适合自己的资料,所以就简单的回顾一下吧代码如下; 经典的程序执行面试题 //关于程序执行的顺序 //例如： //定义一个基类 public class A(){ public A(
设置session失效的几种方法 bijian1013 web.xml session失效监听器
在系统登录后，都会设置一个当前session失效的时间，以确保在用户长时间不与服务器交互，自动退出登录，销毁session。具体设置很简单，方法有三种：（1）在主页面或者公共页面中加入：session.setMaxInactiveInterval(900);参数900单位是秒，即在没有活动15分钟后，session将失效。这里要注意这个session设置的时间是根据服务器来计算的，而不是客户端。所
java jvm常用命令工具 bijian1013 java jvm
一.概述程序运行中经常会遇到各种问题，定位问题时通常需要综合各种信息，如系统日志、堆dump文件、线程dump文件、GC日志等。通过虚拟机监控和诊断工具可以帮忙我们快速获取、分析需要的数据，进而提高问题解决速度。本文将介绍虚拟机常用监控和问题诊断命令工具的使用方法，主要包含以下工具: &nbs
【Spring框架一】Spring常用注解之Autowired和Resource注解 bit1129 Spring常用注解
Spring自从2.0引入注解的方式取代XML配置的方式来做IOC之后，对Spring一些常用注解的含义行为一直处于比较模糊的状态，写几篇总结下Spring常用的注解。本篇包含的注解有如下几个： Autowired Resource Component Service Controller Transactional 根据它们的功能、目的，可以分为三组，Autow
mysql 操作遇到safe update mode问题 bitray update
我并不知道出现这个问题的实际原理,只是通过其他朋友的博客,文章得知的一个解决方案,目前先记录一个解决方法,未来要是真了解以后,还会继续补全. 在mysql5中有一个safe update mode,这个模式让sql操作更加安全,据说要求有where条件,防止全表更新操作.如果必须要进行全表操作,我们可以执行 SET
nginx_perl试用 ronin47 nginx_perl试用
因为空闲时间比较多，所以在CPAN上乱翻，看到了nginx_perl这个项目(原名Nginx::Engine)，现在托管在github.com上。地址见：https://github.com/zzzcpan/nginx-perl 这个模块的目的，是在nginx内置官方perl模块的基础上，实现一系列异步非阻塞的api。用connector/writer/reader完成类似proxy的功能（这里
java-63-在字符串中删除特定的字符 bylijinnan java
public class DeleteSpecificChars { /** * Q 63 在字符串中删除特定的字符 * 输入两个字符串，从第一字符串中删除第二个字符串中所有的字符。 * 例如，输入”They are students.”和”aeiou”，则删除之后的第一个字符串变成”Thy r stdnts.” */ public static voi
EffectiveJava--创建和销毁对象 ccii 创建和销毁对象
本章内容： 1. 考虑用静态工厂方法代替构造器 2. 遇到多个构造器参数时要考虑用构建器（Builder模式） 3. 用私有构造器或者枚举类型强化Singleton属性 4. 通过私有构造器强化不可实例化的能力 5. 避免创建不必要的对象 6. 消除过期的对象引用 7. 避免使用终结方法 1. 考虑用静态工厂方法代替构造器类可以通过
[宇宙时代]四边形理论与光速飞行 comsci
从四边形理论来推论为什么光子飞船必须获得星光信号才能够进行光速飞行？一组星体组成星座向空间辐射一组由复杂星光信号组成的辐射频带，按照四边形-频率假说一组频率就代表一个时空的入口那么这种由星光信号组成的辐射频带就代表由这些星体所控制的时空通道，该时空通道在三维空间的投影是一
ubuntu server下python脚本迁移数据 cywhoyi python Kettle pymysql cx_Oracle ubuntu server
因为是在Ubuntu下，所以安装python、pip、pymysql等都极其方便，sudo apt-get install pymysql，但是在安装cx_Oracle（连接oracle的模块）出现许多问题，查阅相关资料，发现这边文章能够帮我解决，希望大家少走点弯路。http://www.tbdazhe.com/archives/602 1.安装python 2.安装pip、pymysql
Ajax正确但是请求不到值解决方案 dashuaifu Ajax async
Ajax正确但是请求不到值解决方案解决方案：1 . async: false , 2. 设置延时执行js里的ajax或者延时后台java方法！！！！！！！例如： $.ajax({ &
windows安装配置php+memcached dcj3sjt126com PHP Install memcache
Windows下Memcached的安装配置方法 1、将第一个包解压放某个盘下面，比如在c:\memcached。 2、在终端（也即cmd命令界面）下输入 'c:\memcached\memcached.exe -d install' 安装。 3、再输入： 'c:\memcached\memcached.exe -d start' 启动。（需要注意的: 以后memcached将作为windo
iOS开发学习路径的一些建议 dcj3sjt126com ios
iOS论坛里有朋友要求回答帖子，帖子的标题是：想学IOS开发高阶一点的东西，从何开始，然后我吧啦吧啦回答写了很多。既然敲了那么多字，我就把我写的回复也贴到博客里来分享，希望能对大家有帮助。欢迎大家也到帖子里讨论和分享，地址：http://bbs.csdn.net/topics/390920759 下面是我回复的内容：结合自己情况聊下iOS学习建议，
Javascript闭包概念 fanfanlovey JavaScript 闭包
1.参考资料 http://www.jb51.net/article/24101.htm http://blog.csdn.net/yn49782026/article/details/8549462 2.内容概述要理解闭包，首先需要理解变量作用域问题内部函数可以饮用外面全局变量 var n=999; 　　functio
yum安装mysql5.6 haisheng mysql
1、安装http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm 2、yum install mysql 3、yum install mysql-server 4、vi /etc/my.cnf 添加character_set_server=utf8
po/bo/vo/dao/pojo的详介 IT_zhlp80 java BO VO DAO POJO po
JAVA几种对象的解释 PO:persistant object持久对象,可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作. VO:value object值对象。通常用于业务层之间的数据传递，和PO一样也是仅仅包含数据而已。但应是抽象出的业务对象,可
java设计模式 kerryg java 设计模式
设计模式的分类：一、设计模式总体分为三大类： 1、创建型模式（5种）：工厂方法模式，抽象工厂模式，单例模式，建造者模式，原型模式。 2、结构型模式（7种）：适配器模式，装饰器模式，代理模式，外观模式，桥接模式，组合模式，享元模式。 3、行为型模式（11种）：策略模式，模版方法模式，观察者模式，迭代子模式，责任链模式，命令模式，备忘录模式，状态模式，访问者
[1]CXF3.1整合Spring开发webservice——helloworld篇木头.java spring webservice CXF
Spring 版本3.2.10 CXF 版本3.1.1 项目采用MAVEN组织依赖jar 我这里是有parent的pom，为了简洁明了，我直接把所有的依赖都列一起了，所以都没version，反正上面已经写了版本 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="ht
Google 工程师亲授：菜鸟开发者一定要投资的十大目标 qindongliang1922 工作感悟人生
身为软件开发者，有什么是一定得投资的？ Google 软件工程师 Emanuel Saringan 整理了十项他认为必要的投资，第一项就是身体健康，英文与数学也都是必备能力吗？来看看他怎么说。（以下文字以作者第一人称撰写））你的健康无疑地，软件开发者是世界上最久坐不动的职业之一。每天连坐八到十六小时，休息时间只有一点点，绝对会让你的鲔鱼肚肆无忌惮的生长。肥胖容易扩大罹患其他疾病的风险，
linux打开最大文件数量1,048,576 tianzhihehe c linux
File descriptors are represented by the C int type. Not using a special type is often considered odd, but is, historically, the Unix way. Each Linux process has a maximum number of files th
java语言中PO、VO、DAO、BO、POJO几种对象的解释衞酆夼 java VO BO POJO po
PO:persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作。 BO:business object业务对象封装业务逻辑的java对象