iteapoy

⭐ 李宏毅2020机器学习作业2-Classification：年收入二分类

更多作业，请查看⭐ 李宏毅2020机器学习资料汇总

文章目录

0 作业链接
1 作业说明

环境
任务说明
数据说明
作业概述

2 原始代码

2.0 数据准备

导入数据
标准化（Normalization）
分割测试集与验证集
一些有用的函数定义

2.1 Logistic Regression

损失函数（Loss Function）
梯度（Gradient）
训练
画出loss和accuracy的曲线
测试（test）
提交结果

2.2 概率生成模型（Porbabilistic generative model）

数据预处理
均值和协方差
计算权重和偏差
测试
提交结果

2.3 总结

3 修改代码

0 作业链接

直接在李宏毅课程主页可以找到作业：

李宏毅的课程网页：点击此处跳转

如果你打不开colab，下方是搬运的jupyter notebook文件和助教的说明ppt：

2020版课后作业范例和作业说明：点击此处跳转
数据链接：https://pan.baidu.com/s/1xWVKnm4P6bBawASzLYskaw 提取码：akti
kaggle平台数据：点击此处跳转

1 作业说明

环境

jupyter notebook
python3

任务说明

二元分类是机器学习中最基础的问题之一。在本次作业中，需要写一个线性二元分类器，根据人们的个人信息，判断其年收入是否高于 50,000 美元。作业将用 logistic regression 与 generative model两种模型来实现目标，模型差异可见李宏毅老师的课程视频与ppt。

数据说明

从百度网盘下载data.tar.gz文件，解压。
文件目录树如下：

│  hw2_classification.ipynb
│  
└─data
        sample_submission.csv
        test_no_label.csv
        train.csv
        X_test
        X_train
        Y_train

这份数据集来自UCI Machine Learning Repository 的 Census-Income (KDD) Data Set，train.csv、test_no_label.csv、sample_submission.csv是数据集中原有的数据。本次作业只需要X_test、X_train、Y_train这三个文件。

本课程助教对原数据进行了清洗：

移除了一些不必要的数据
对离散值进行了one-hot编码

离散特征进行one-hot编码后，编码后的特征，其实每一维度的特征都可以看做是连续的特征。就可以跟对连续型特征的归一化方法一样，对每一维特征进行归一化。比如归一化到[-1,1]，或者归一化到均值为0,方差为1。
——————————————————————————
摘自特征工程——连续特征与离散特征处理方法

稍微平衡了正负标记的数据的比例

打开X_train与X_test格式相同，以Notepad++打开X_train查看文件格式：

是一个类似csv格式的文件，第一行是表头，从第二行开始是具体数据。表头是人们的个人信息，比如年龄、性别、学历、婚姻状况、孩子个数等等。

再用Notepad++打开Y_train文件，进行查看：

只有两列，第一列是人的编号（ID），第二列是一个label——如果年收入＞50K美元，label就是1；如果年收入≤50K美元，label就是0.

最终，预测结果的保存格式为：第一行表头，总共两列，第一列是id，第二列是label.

作业概述

输入：人们的个人信息

输出：0（年收入≤50K）或1（年收入＞50K）

模型： logistic regression 或者 generative model

2 原始代码

2.0 数据准备

导入数据

读入X_train、Y_train、X_test三个文件，输出文件命名为output_{}.csv

import numpy as np

np.random.seed(0)
X_train_fpath = './data/X_train'
Y_train_fpath = './data/Y_train'
X_test_fpath = './data/X_test'
output_fpath = './output_{}.csv'

# 把csv文件转换成numpy的数组
with open(X_train_fpath) as f:
    next(f)
    X_train = np.array([line.strip('\n').split(',')[1:] for line in f], dtype = float)
with open(Y_train_fpath) as f:
    next(f)
    Y_train = np.array([line.strip('\n').split(',')[1] for line in f], dtype = float)
with open(X_test_fpath) as f:
    next(f)
    X_test = np.array([line.strip('\n').split(',')[1:] for line in f], dtype = float)

标准化（Normalization）

Normalization和Standardization分别被翻译成归一化和标准化，其实是有问题的，很容易被混淆。实际上，两者可以统称为标准化（Normalization）， $x=\frac{x-\mu}{\sigma}$ 叫做z-score normalization，而 $x=\frac{x-x_{min}}{x_{max}-x_{min}}$ 又叫做min-max normalization，网上的某些资料有点问题。

定义一个标准化函数_normalize()：

train：bool变量，标记输入的X是否是训练集。
specified_column：定义了需要被标准化的列。如果输入为None，则表示所有列都需要被标准化。
X_mean：训练集中每一列的均值。
X_std：训练集中每一列的方差。

然后，对X_train和X_test分别调用该函数，完成标准化。

def _normalize(X, train = True, specified_column = None, X_mean = None, X_std = None):
    # This function normalizes specific columns of X.
    # The mean and standard variance of training data will be reused when processing testing data.
    #
    # Arguments:
    #     X: data to be processed
    #     train: 'True' when processing training data, 'False' for testing data
    #     specific_column: indexes of the columns that will be normalized. If 'None', all columns
    #         will be normalized.
    #     X_mean: mean value of training data, used when train = 'False'
    #     X_std: standard deviation of training data, used when train = 'False'
    # Outputs:
    #     X: normalized data
    #     X_mean: computed mean value of training data
    #     X_std: computed standard deviation of training data

    if specified_column == None:
        specified_column = np.arange(X.shape[1])
        # print(specified_column)
        # 输出列的ID：
        #[  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
        #  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35
        # ...
        # 504 505 506 507 508 509]
    if train:
        X_mean = np.mean(X[:, specified_column] ,0).reshape(1, -1)
        X_std  = np.std(X[:, specified_column], 0).reshape(1, -1)

    X[:,specified_column] = (X[:, specified_column] - X_mean) / (X_std + 1e-8) #1e-8防止除零
     
    return X, X_mean, X_std


# 标准化训练数据和测试数据
X_train, X_mean, X_std = _normalize(X_train, train = True)
X_test, _, _= _normalize(X_test, train = False, specified_column = None, X_mean = X_mean, X_std = X_std)
# 用 _ 这个变量来存储函数返回的无用值

分割测试集与验证集

Development set is also called development set or sometimes called hold out cross validation set. ——摘自吴恩达的解释
这里的Development set即为验证集。
——————————————————
详情可见：deeplearning中的train set（训练集），development set（开发集），test set（测试集）的区别

对原来的X_train进行分割，分割比例为train:dev = 9:1。这里没有shuffle，是固定分割。

def _train_dev_split(X, Y, dev_ratio = 0.25):
    # This function spilts data into training set and development set.
    train_size = int(len(X) * (1 - dev_ratio))
    return X[:train_size], Y[:train_size], X[train_size:], Y[train_size:]
 
# 把数据分成训练集和验证集
dev_ratio = 0.1
X_train, Y_train, X_dev, Y_dev = _train_dev_split(X_train, Y_train, dev_ratio = dev_ratio)

train_size = X_train.shape[0]
dev_size = X_dev.shape[0]
test_size = X_test.shape[0]
data_dim = X_train.shape[1]
print('Size of training set: {}'.format(train_size))
print('Size of development set: {}'.format(dev_size))
print('Size of testing set: {}'.format(test_size))
print('Dimension of data: {}'.format(data_dim))

Out：
Size of training set: 48830
Size of development set: 5426
Size of testing set: 27622
Dimension of data: 510

一些有用的函数定义

_shuffle(X,Y)：X和Y是两个数组，如果分别随机打乱X和Y，那么X和Y的对应关系就会被破坏。所以，这里生成行的编号，对行的编号进行打乱，就可以获得一一对应的打乱后的X和Y.
_sigmoid(z)： $\sigma(z)$ 函数
关于np.clip(a,x1,x2)，其中a是一个数组，后面两个参数x1和x2分别表示最小和最大值。比如：
```
x = np.array([1,2,3,5,6,7,8,9])
np.clip(x,3,8)
# Out:
# array([3, 3, 3, 5, 6, 7, 8, 8])
```
_f(X,w,b)：Logistic Regression的函数 $f_{w,b}(X)=\sigma(\boldsymbol w·X+b)$ ，参数是权重 $w$ 和偏差 $b$ .
_predict(X,w,b)：根据 $X$ , $w$ , $b$ 的值，计算预测值 $y=f_{w,b}(X)$ 。因为 $f_{w,b}(X)=\sigma(\boldsymbol w·X+b)=\frac{1}{1+e^{-(\boldsymbol w·X+b)}}$ 计算后，得到的值是一个(0,1)之间的数值，而预测值 $y$ 应该是一个标签，0或者1。因此，需要np.round()函数：当 $y\ge0.5$ 时，令 $y = 1$ ；当 $y < 0.5$ 时，令 $y = 0$ .
_accuracy(Y_pred,Y_label)：评价预测值Y_pred和真实值Y_label差距的指标：
- Y_label=0，Y_pred=0，正确预测， $1-|Y_{pred}-Y_{label}|=1$
- Y_label=0，Y_pred=1，错误预测， $1-|Y_{pred}-Y_{label}|=0$
- Y_label=1，Y_pred=0，错误预测， $1-|Y_{pred}-Y_{label}|=0$
- Y_label=1，Y_pred=1，正确预测， $1-|Y_{pred}-Y_{label}|=1$
  $acc=1-|Y_{pred}-Y_{label}|$ ，acc越大，表示正确率越高。

def _shuffle(X, Y):
    # This function shuffles two equal-length list/array, X and Y, together.
    randomize = np.arange(len(X))
    np.random.shuffle(randomize)
    return (X[randomize], Y[randomize])

def _sigmoid(z):
    # Sigmoid function can be used to calculate probability.
    # To avoid overflow, minimum/maximum output value is set.
    return np.clip(1 / (1.0 + np.exp(-z)), 1e-8, 1 - (1e-8))

def _f(X, w, b):
    # This is the logistic regression function, parameterized by w and b
    #
    # Arguements:
    #     X: input data, shape = [batch_size, data_dimension]
    #     w: weight vector, shape = [data_dimension, ]
    #     b: bias, scalar
    # Output:
    #     predicted probability of each row of X being positively labeled, shape = [batch_size, ]
    return _sigmoid(np.matmul(X, w) + b)

def _predict(X, w, b):
    # This function returns a truth value prediction for each row of X 
    # by rounding the result of logistic regression function.
    return np.round(_f(X, w, b)).astype(np.int)
    
def _accuracy(Y_pred, Y_label):
    # This function calculates prediction accuracy
    acc = 1 - np.mean(np.abs(Y_pred - Y_label))
    return acc

2.1 Logistic Regression

第n个训练数据为 $(x^n,\hat{y}^n)$ ， $x^n=[x^n_1,x^n_2,...,x^n_i,...]$ （ $x^n$ 并不是n次方，而是指第n个训练数据），真值 $\hat{y}^n$ 是0或1。

预测值 $y^n=f_{w,b}(x^n)=\sigma(\boldsymbol w·x^n+b)=\frac{1}{1+e^{-(\boldsymbol w·x^n+b)}}=\frac{1}{1+e^{-(\sum w_ix^n_i+b)}}$

令 $z=\boldsymbol w·x^n+b=\sum w_ix^n_i+b$ ，则 $y^n=f_{w,b}(x^n)=\sigma(z)=\frac{1}{1+e^{-z}}$

损失函数（Loss Function）

$w^*,b^*=\arg\max\limits_{w,b}L(w,b)=\arg\min_{w,b}(-\ln L(w,b))$

对Logistic Regression的损失函数 $L (f)$ 取对数 $\ln$ 并乘以-1。最优参数 $w^*$ 、 $b^*$ 从最大化 $L (w, b)$ 变成了最小化 $-\ln L(w,b)$ 。 $C(f_{w,b}(x^n),\hat{y}^{n})$ 是交叉熵：

$\begin{aligned} -\ln L(f)&=-\ln L(w,b)\\ &=\sum_n{C(f_{w,b}(x^n),\hat{y}^{n})}\\ &=\sum_n{\left(-\hat{y}^{n} \ln f_{w, b}\left(x^{n}\right)-\left(1-\hat{y}^{n}\right) \ln \left(1-f_{w, b}\left(x^{n}\right)\right)\right)}\\ &=-\sum_n{\left(\hat{y}^{n} \ln f_{w, b}\left(x^{n}\right)+\left(1-\hat{y}^{n}\right) \ln \left(1-f_{w, b}\left(x^{n}\right)\right)\right)} \end{aligned}$

函数中的y_pred即 $f_{w, b}(x^{n})$ ，Y_label即 $\hat{y}^{n}$

def _cross_entropy_loss(y_pred, Y_label):
    # This function computes the cross entropy.
    #
    # Arguements:
    #     y_pred: probabilistic predictions, float vector
    #     Y_label: ground truth labels, bool vector
    # Output:
    #     cross entropy, scalar
    cross_entropy = -np.dot(Y_label, np.log(y_pred)) - np.dot((1 - Y_label), np.log(1 - y_pred))
    return cross_entropy

梯度（Gradient）

$\begin{aligned} \frac{\partial (-\ln L(w,b))}{\partial w_i}&=-\sum_n{\left(\hat{y}^{n} \frac{\partial \ln f_{w, b}\left(x^{n}\right)}{\partial w_i}+\left(1-\hat{y}^{n}\right) \frac{\partial \ln \left(1-f_{w, b}\left(x^{n}\right)\right)}{\partial w_i}\right)}\\ \end{aligned}$
因为 $\begin{aligned} \frac{\partial \ln f_{w, b}\left(x^{n}\right)}{\partial w_i}&=\frac{\partial \ln f_{w, b}\left(x^{n}\right)}{\partial z}\cdot\frac{\partial z}{\partial w_i}\\ &=\frac{\partial \ln \sigma(z)}{\partial z}\cdot\frac{\partial z}{\partial w_i}\\ &=\frac{1}{\sigma(z)}\cdot\frac{\partial \sigma(z)}{\partial z}\cdot\frac{\partial z}{\partial w_i}\\ &=\frac{1}{\sigma(z)}\cdot\sigma(z)\cdot(1-\sigma(z))\cdot\frac{\sum w_ix^n_i+b}{\partial w_i}\\ &=(1-\sigma(z))\cdot x^n_i \\ &=(1-f_{w, b}\left(x^{n}\right))\cdot x^n_i \end{aligned}$

$\begin{aligned} \frac{\partial \ln \left(1-f_{w, b}\left(x^{n}\right)\right)}{\partial w_i}&= \frac{\partial \ln \left(1-f_{w, b}\left(x^{n}\right)\right)}{\partial z}\cdot\frac{\partial z}{\partial w_i}\\ &=\frac{\partial \ln(1- \sigma(z))}{\partial z}\cdot\frac{\partial z}{\partial w_i}\\ &=\frac{1}{1-\sigma(z)}\cdot(-1)\cdot\frac{\partial \sigma(z)}{\partial z}\cdot\frac{\partial z}{\partial w_i}\\ &=\frac{1}{1-\sigma(z)}\cdot(-1)\cdot\sigma(z)\cdot(1-\sigma(z))\cdot\frac{\sum w_ix^n_i+b}{\partial w_i}\\ &=-\sigma(z)\cdot x^n_i\\ &=-f_{w, b}(x^{n})\cdot x^n_i \end{aligned}$
所以
$\begin{aligned} \frac{\partial (-\ln L(w,b))}{\partial w_i}&= -\sum_n{\left(\hat{y}^{n} \frac{\partial \ln f_{w, b}\left(x^{n}\right)}{\partial w_i}+\left(1-\hat{y}^{n}\right) \frac{\partial \ln \left(1-f_{w, b}\left(x^{n}\right)\right)}{\partial w_i}\right)}\\ &=-\sum_n{\left(\hat{y}^{n} \cdot(1-f_{w, b}\left(x^{n}\right))\cdot x^n_i+\left(1-\hat{y}^{n}\right) \cdot(-f_{w, b}(x^{n})\cdot x^n_i)\right)}\\ &=-\sum\limits_{n}\left(\hat{y}^{n}-f_{w, b}\left(x^{n}\right)\right) x_{i}^{n}\end{aligned}$
$\frac{\partial (-\ln L(w,b))}{\partial b}$ 与 $\frac{\partial (-\ln L(w,b))}{\partial w_i}$ 类似，将 $x_{i}^{n}$ 变为常数 $1$ 即可：
$\begin{aligned} \frac{\partial (-\ln L(w,b))}{\partial b}&=-\sum\limits_{n}\left(\hat{y}^{n}-f_{w, b}\left(x^{n}\right)\right) \end{aligned}$
参数更新公式为：
$w_i=w_i-\eta \frac{\partial (-\ln L(w,b))}{\partial w_i}=w_i-\eta \left(-\sum\limits_{n}\left(\hat{y}^{n}-f_{w, b}\left(x^{n}\right)\right) x_{i}^{n}\right)$
因为后面用到了batch（小批次处理，一次同时训练多个数据 $x^j$ 来更新参数），所以函数中输入的X和Y_lable都是1×N（N是批次大小）的一维数组，每一批次的w_grad是N个数据的梯度累加的和。

def _gradient(X, Y_label, w, b):
    # This function computes the gradient of cross entropy loss with respect to weight w and bias b.
    y_pred = _f(X, w, b)
    pred_error = Y_label - y_pred
    w_grad = -np.sum(pred_error * X.T, 1)
    b_grad = -np.sum(pred_error)
    return w_grad, b_grad

训练

使用小批次（mini-batch）的梯度下降法来训练。训练数据被分为许多小批次，针对每一个小批次，我们分别计算其梯度以及损失，并根据该批次来更新模型的参数。当一次循环（iteration）完成，也就是整个训练集的所有小批次都被使用过一次以后，我们将所有训练数据打散并且重新分成新的小批次，进行下一个循环，直到事先设定的循环数量（iteration）达成为止。

GD（Gradient Descent）：就是没有利用Batch Size，用基于整个数据库得到梯度，梯度准确，但数据量大时，计算非常耗时，同时神经网络常是非凸的，网络最终可能收敛到初始点附近的局部最优点。

SGD（Stochastic Gradient Descent）：就是Batch Size=1，每次计算一个样本，梯度不准确，所以学习率要降低。

mini-batch SGD：就是选着合适Batch Size的SGD算法，mini-batch利用噪声梯度，一定程度上缓解了GD算法直接掉进初始点附近的局部最优值。同时梯度准确了，学习率要加大。
————————————————
详情请见：神经网络中Batch Size的理解

这里权重 $w$ 用了全0初始化，logistic regression 中可以用0初始化，原因如下：

逻辑回归的权重可以初始化为0的原因：
Logistic回归没有隐藏层。如果将权重初始化为零，则Logistic回归中的第一个示例x将输出零，但Logistic回归的导数取决于不是零的输入x（因为没有隐藏层）。因此，在第二次迭代（迭代发生在w和b值的更新中，即梯度下降）中，如果x不是常量向量，则权值遵循x的分布并且彼此不同。
————————————————
详情请见：逻辑回归和神经网络权重初始化为0的问题

# 初始化权重w和b，令它们都为0
w = np.zeros((data_dim,))	#[0,0,0,...,0]
b = np.zeros((1,))		 	#[0]

# 训练时的超参数
max_iter = 10
batch_size = 8
learning_rate = 0.2

# 保存每个iteration的loss和accuracy，以便后续画图
train_loss = []
dev_loss = []
train_acc = []
dev_acc = []

# 累计参数更新的次数
step = 1

# 迭代训练
for epoch in range(max_iter):
    # 在每个epoch开始时，随机打散训练数据
    X_train, Y_train = _shuffle(X_train, Y_train)
        
    # Mini-batch训练
    for idx in range(int(np.floor(train_size / batch_size))):
        X = X_train[idx*batch_size:(idx+1)*batch_size]
        Y = Y_train[idx*batch_size:(idx+1)*batch_size]

        # 计算梯度
        w_grad, b_grad = _gradient(X, Y, w, b)
            
        # 梯度下降法更新
        # 学习率随时间衰减
        w = w - learning_rate/np.sqrt(step) * w_grad
        b = b - learning_rate/np.sqrt(step) * b_grad

        step = step + 1
            
    # 计算训练集和验证集的loss和accuracy
    y_train_pred = _f(X_train, w, b)
    Y_train_pred = np.round(y_train_pred)
    train_acc.append(_accuracy(Y_train_pred, Y_train))
    train_loss.append(_cross_entropy_loss(y_train_pred, Y_train) / train_size)

    y_dev_pred = _f(X_dev, w, b)
    Y_dev_pred = np.round(y_dev_pred)
    dev_acc.append(_accuracy(Y_dev_pred, Y_dev))
    dev_loss.append(_cross_entropy_loss(y_dev_pred, Y_dev) / dev_size)

print('Training loss: {}'.format(train_loss[-1]))
print('Development loss: {}'.format(dev_loss[-1]))
print('Training accuracy: {}'.format(train_acc[-1]))
print('Development accuracy: {}'.format(dev_acc[-1]))

Out:
Training loss: 0.27186254652383707
Development loss: 0.29249918772983036
Training accuracy: 0.8839852549662093
Development accuracy: 0.8767047548838923

画出loss和accuracy的曲线

import matplotlib.pyplot as plt

# Loss曲线
plt.plot(train_loss)
plt.plot(dev_loss)
plt.title('Loss')
plt.legend(['train', 'dev'])
plt.savefig('loss.png')
plt.show()

# Accuracy曲线
plt.plot(train_acc)
plt.plot(dev_acc)
plt.title('Accuracy')
plt.legend(['train', 'dev'])
plt.savefig('acc.png')
plt.show()

测试（test）

测试集中共有27622个测试数据。预测测试集的标签，并保存在 output_logistic.csv 中。

保存格式为：第一行表头，总共两列，第一列是id，第二列是label：

# 预测测试集标签
predictions = _predict(X_test, w, b)
# 保存到output_logistic.csv
with open(output_fpath.format('logistic'), 'w') as f:
    f.write('id,label\n')
    for i, label in  enumerate(predictions):
        f.write('{},{}\n'.format(i, label))

# 输出最重要的特征和权重
# 对w的绝对值从大到小排序，输出对应的ID
ind = np.argsort(np.abs(w))[::-1]
with open(X_test_fpath) as f:
	# 读入表头（特征名）
    content = f.readline().strip('\n').split(',')
features = np.array(content)
for i in ind[0:10]:
    print(features[i], w[i])

Out:
Child <18 never marr not in subfamily -2.1583234422797783
 Unemployed full-time 1.142333082859196
 Philippines -1.0115599938948558
 Grandchild <18 never marr not in subfamily -0.9152892007169311
 1 0.8262256250590363
 Not in universe -0.7952475906445426
dividends from stocks -0.7026973895755972
 2 -0.6946992686020286
 High school graduate -0.6928617955365588
capital losses 0.6582145807985178

提交结果

在kaggle平台提交output_generative.csv，结果：

Private Score=0.88914
Public Score=0.88755

2.2 概率生成模型（Porbabilistic generative model）

数据预处理

训练集与测试集的处理方法跟 logistic regression 一模一样，然而因为 generative model 有可解析的最佳解，因此不必使用到验证集（development set）

# 把CSV文件转换为numpy
with open(X_train_fpath) as f:
    next(f)
    X_train = np.array([line.strip('\n').split(',')[1:] for line in f], dtype = float)
with open(Y_train_fpath) as f:
    next(f)
    Y_train = np.array([line.strip('\n').split(',')[1] for line in f], dtype = float)
with open(X_test_fpath) as f:
    next(f)
    X_test = np.array([line.strip('\n').split(',')[1:] for line in f], dtype = float)

# 标准化训练集和测试集
X_train, X_mean, X_std = _normalize(X_train, train = True)
X_test, _, _= _normalize(X_test, train = False, specified_column = None, X_mean = X_mean, X_std = X_std)

均值和协方差

在 generative model 中，我们需要分别计算两个类别内的数据的均值和协方差。

类别0（y=0）：年收入不超过50,000美元
$\mu_{0}^{*}=\frac{1}{n_{0}} \sum_{i=0}^{n_{0}} x^{i}，\Sigma_{0}^{*}=\frac{1}{n_{0}} \sum_{i=0}^{n_{0}}\left(x^{i}-\mu_{0}^{*}\right)\left(x^{i}-\mu_{0}^{*}\right)^{T}$
类别1（y=1）：年收入超过50,000美元
$\mu_{1}^{*}=\frac{1}{n_{1}} \sum_{i=0}^{n_{1}} x^{i}，\Sigma_{1}^{*}=\frac{1}{n_{1}} \sum_{i=0}^{n_{1}}\left(x^{i}-\mu_{1}^{*}\right)\left(x^{i}-\mu_{1}^{*}\right)^{T}$
其中， $n_0$ 是类别0的个数， $n_1$ 是类别1的个数。

最终，模型共享的协方差矩阵为所有协方差的加权平均值： $\Sigma^*=\frac{n_0}{n_0+n_1}\Sigma_{0}^{*}+\frac{n_1}{n_0+n_1}\Sigma_{1}^{*}$

这段代码运行时间较长。

# 分别计算类别0和类别1的均值
X_train_0 = np.array([x for x, y in zip(X_train, Y_train) if y == 0]) 
X_train_1 = np.array([x for x, y in zip(X_train, Y_train) if y == 1])

mean_0 = np.mean(X_train_0, axis = 0)
mean_1 = np.mean(X_train_1, axis = 0)  

# 分别计算类别0和类别1的协方差
cov_0 = np.zeros((data_dim, data_dim))
cov_1 = np.zeros((data_dim, data_dim))

for x in X_train_0:
    cov_0 += np.dot(np.transpose([x - mean_0]), [x - mean_0]) / X_train_0.shape[0]
for x in X_train_1:
    cov_1 += np.dot(np.transpose([x - mean_1]), [x - mean_1]) / X_train_1.shape[0]

# 共享协方差 = 独立的协方差的加权求和
cov = (cov_0 * X_train_0.shape[0] + cov_1 * X_train_1.shape[0]) / (X_train_0.shape[0] + X_train_1.shape[0])

计算权重和偏差

权重矩阵与偏差向量可以直接被计算出来，详情可见视频P10 Classification：
$w^T=\left(\mu^{0}-\mu^{1}\right)^{T} \Sigma^{-1}$

$b=-\frac{1}{2}\left(\mu^{0}\right)^{T} \Sigma^{-1} \mu^{0}+\frac{1}{2}\left(\mu^{1}\right)^{T} \Sigma^{-1} \mu^{1}+\ln \frac{n_{0}}{n_{1}}$

# 计算协方差矩阵的逆
# 协方差矩阵可能是奇异矩阵, 直接使用np.linalg.inv() 可能会产生错误
# 通过SVD矩阵分解，可以快速准确地获得方差矩阵的逆
u, s, v = np.linalg.svd(cov, full_matrices=False)
inv = np.matmul(v.T * 1 / s, u.T)

# 计算w和b
w = np.dot(inv, mean_0 - mean_1)
b =  (-0.5) * np.dot(mean_0, np.dot(inv, mean_0)) + 0.5 * np.dot(mean_1, np.dot(inv, mean_1))\
    + np.log(float(X_train_0.shape[0]) / X_train_1.shape[0]) 

# 计算训练集上的准确率
Y_train_pred = 1 - _predict(X_train, w, b)
print('Training accuracy: {}'.format(_accuracy(Y_train_pred, Y_train)))

Out:
Training accuracy: 0.8725302270716603

测试

预测测试集的标签，并保存在 output_generative.csv 中。

# 预测测试集的label
predictions = 1 - _predict(X_test, w, b)
with open(output_fpath.format('generative'), 'w') as f:
    f.write('id,label\n')
    for i, label in  enumerate(predictions):
        f.write('{},{}\n'.format(i, label))

# 输出最重要的9个特征
ind = np.argsort(np.abs(w))[::-1]
with open(X_test_fpath) as f:
    content = f.readline().strip('\n').split(',')
features = np.array(content)
for i in ind[0:10]:
    print(features[i], w[i])

Out:
Retail trade 8.3359375
 Not in universe -6.703125
 34 -6.33203125
 37 -5.80859375
 Different county same state -5.65625
 Other service -5.42578125
 Abroad 4.625
 Finance insurance and real estate 4.0
 Same county 4.0
 Other Rel 18+ never marr RP of subfamily 3.9375

提交结果

在kaggle平台提交output_generative.csv，结果：

Private Score=0.87690
Public Score=0.88067

2.3 总结

两种方法在kaggle上的评分不同：

方法	Private Score	Public Score
Logistic Regression	0.88914	0.88755
Generative Model	0.87690	0.88067

两种方法虽然都是计算权重 $w$ 和偏差 $b$ ，但是最终获得的 $w$ 和 $b$ 是不同的，这和视频上李宏毅所说的一致。

3 修改代码

首先，将学习率的衰减改成了adagrad。其次，加了一个特征的二次项（见函数_add_feature(X)），提升也比较显著。

想通过其它方法得到更好的结果，可以继续修改学习率、batch size等等，提升效果在0.01左右上下浮动，然而博主缺乏调参经验，花的时间太多（调参调了两天），目前结果还算看得过去，就暂时贴上自己的代码。

import numpy as np

np.random.seed(0)
X_train_fpath = './data/X_train'
Y_train_fpath = './data/Y_train'
X_test_fpath = './data/X_test'
output_fpath = './output_{}.csv'

# 把csv文件转换成numpy的数组
with open(X_train_fpath) as f:
    next(f)
    X_train = np.array([line.strip('\n').split(',')[1:] for line in f], dtype = float)
with open(Y_train_fpath) as f:
    next(f)
    Y_train = np.array([line.strip('\n').split(',')[1] for line in f], dtype = float)
with open(X_test_fpath) as f:
    next(f)
    X_test = np.array([line.strip('\n').split(',')[1:] for line in f], dtype = float)

def _normalize(X, train=True, specified_column=None, X_mean=None, X_std=None):
    if specified_column == None:
        specified_column = np.arange(X.shape[1])
    if train:
        X_mean = np.mean(X[:, specified_column], 0).reshape(1, -1)
        X_std = np.std(X[:, specified_column], 0).reshape(1, -1)

    X[:, specified_column] = (X[:, specified_column] - X_mean) / (X_std + 1e-8)  # 1e-8防止除零

    return X, X_mean, X_std

def _add_feature(X):
    X_2 = np.power(X,2)
    X = np.concatenate([X,X_2], axis=1)
    return X

# 引入二次项
X_train = _add_feature(X_train)
X_test = _add_feature(X_test)

# 标准化训练数据和测试数据
X_train, X_mean, X_std = _normalize(X_train, train=True)
X_test, _, _ = _normalize(X_test, train=False, specified_column=None, X_mean=X_mean, X_std=X_std)

def _train_dev_split(X, Y, dev_ratio=0.25):
    # This function spilts data into training set and development set.
    train_size = int(len(X) * (1 - dev_ratio))
    return X[:train_size], Y[:train_size], X[train_size:], Y[train_size:]

# 把数据分成训练集和验证集
dev_ratio = 0.1
X_train, Y_train, X_dev, Y_dev = _train_dev_split(X_train, Y_train, dev_ratio=dev_ratio)

train_size = X_train.shape[0]
dev_size = X_dev.shape[0]
test_size = X_test.shape[0]
data_dim = X_train.shape[1]
print('Size of training set: {}'.format(train_size))
print('Size of development set: {}'.format(dev_size))
print('Size of testing set: {}'.format(test_size))
print('Dimension of data: {}'.format(data_dim))

def _shuffle(X, Y):
    # This function shuffles two equal-length list/array, X and Y, together.
    randomize = np.arange(len(X))
    np.random.shuffle(randomize)
    return (X[randomize], Y[randomize])

def _sigmoid(z):
    # Sigmoid function can be used to calculate probability.
    # To avoid overflow, minimum/maximum output value is set.
    return np.clip(1 / (1.0 + np.exp(-z)), 1e-8, 1 - (1e-8))

def _f(X, w, b):
    # This is the logistic regression function, parameterized by w and b
    #
    # Arguements:
    #     X: input data, shape = [batch_size, data_dimension]
    #     w: weight vector, shape = [data_dimension, ]
    #     b: bias, scalar
    # Output:
    #     predicted probability of each row of X being positively labeled, shape = [batch_size, ]
    return _sigmoid(np.matmul(X, w) + b)

def _predict(X, w, b):
    # This function returns a truth value prediction for each row of X
    # by rounding the result of logistic regression function.
    return np.round(_f(X, w, b)).astype(np.int)

def _accuracy(Y_pred, Y_label):
    # This function calculates prediction accuracy
    acc = 1 - np.mean(np.abs(Y_pred - Y_label))
    return acc

def _cross_entropy_loss(y_pred, Y_label):
    # This function computes the cross entropy.
    #
    # Arguements:
    #     y_pred: probabilistic predictions, float vector
    #     Y_label: ground truth labels, bool vector
    # Output:
    #     cross entropy, scalar
    cross_entropy = -np.dot(Y_label, np.log(y_pred)) - np.dot((1 - Y_label), np.log(1 - y_pred))
    return cross_entropy

def _gradient(X, Y_label, w, b):
    # This function computes the gradient of cross entropy loss with respect to weight w and bias b.
    y_pred = _f(X, w, b)
    pred_error = Y_label - y_pred
    w_grad = -np.sum(pred_error * X.T, 1)
    b_grad = -np.sum(pred_error)
    return w_grad, b_grad

# 初始化权重w和b，令它们都为0
w = np.zeros((data_dim,))  # [0,0,0,...,0]
b = np.zeros((1,))  # [0]

# 训练时的超参数
max_iter = 272
batch_size = 128
learning_rate = 0.1

# 保存每个iteration的loss和accuracy，以便后续画图
train_loss = []
dev_loss = []
train_acc = []
dev_acc = []

# adagrad所需的累加和
adagrad_w = 0
adagrad_b = 0
# 防止adagrad除零
eps = 1e-8

# 迭代训练
for epoch in range(max_iter):
    # 在每个epoch开始时，随机打散训练数据
    X_train, Y_train = _shuffle(X_train, Y_train)

    # Mini-batch训练
    for idx in range(int(np.floor(train_size / batch_size))):
        X = X_train[idx * batch_size:(idx + 1) * batch_size]
        Y = Y_train[idx * batch_size:(idx + 1) * batch_size]

        # 计算梯度
        w_grad, b_grad = _gradient(X, Y, w, b)
        adagrad_w += w_grad**2
        adagrad_b += b_grad**2

        # 梯度下降法adagrad更新w和b
        w = w - learning_rate / (np.sqrt(adagrad_w + eps)) * w_grad
        b = b - learning_rate / (np.sqrt(adagrad_b + eps)) * b_grad

    # 计算训练集和验证集的loss和accuracy
    y_train_pred = _f(X_train, w, b)
    Y_train_pred = np.round(y_train_pred)
    train_acc.append(_accuracy(Y_train_pred, Y_train))
    train_loss.append(_cross_entropy_loss(y_train_pred, Y_train) / train_size)

    y_dev_pred = _f(X_dev, w, b)
    Y_dev_pred = np.round(y_dev_pred)
    dev_acc.append(_accuracy(Y_dev_pred, Y_dev))
    dev_loss.append(_cross_entropy_loss(y_dev_pred, Y_dev) / dev_size)

print('Training loss: {}'.format(train_loss[-1]))
print('Development loss: {}'.format(dev_loss[-1]))
print('Training accuracy: {}'.format(train_acc[-1]))
print('Development accuracy: {}'.format(dev_acc[-1]))

# 绘制曲线
import matplotlib.pyplot as plt

# Loss曲线
plt.plot(train_loss)
plt.plot(dev_loss)
plt.title('Loss')
plt.legend(['train', 'dev'])
plt.savefig('loss.png')
plt.show()

# Accuracy曲线
plt.plot(train_acc)
plt.plot(dev_acc)
plt.title('Accuracy')
plt.legend(['train', 'dev'])
plt.savefig('acc.png')
plt.show()

# 预测测试集标签
predictions = _predict(X_test, w, b)
# 保存到output_logistic.csv
with open(output_fpath.format('logistic'), 'w') as f:
    f.write('id,label\n')
    for i, label in enumerate(predictions):
        f.write('{},{}\n'.format(i, label))

结果如下：

Private Score：0.89124
Public Score：0.89095

你可能感兴趣的:(#,李宏毅机器学习)

李宏毅机器学习笔记——反向传播算法小陈phd 机器学习机器学习算法神经网络
反向传播算法反向传播（Backpropagation）是一种用于训练人工神经网络的算法，它通过计算损失函数相对于网络中每个参数的梯度来更新这些参数，从而最小化损失函数。反向传播是深度学习中最重要的算法之一，通常与梯度下降等优化算法结合使用。反向传播的基本原理反向传播的核心思想是利用链式法则（ChainRule）来高效地计算损失函数相对于每个参数的梯度。以下是反向传播的基本步骤：前向传播（Forwa
机器学习第二十五周周报 ConvLSTM 沽漓酒江机器学习人工智能
文章目录week25ConvLSTM摘要Abstract一、李宏毅机器学习二、文献阅读1.题目2.abstract3.网络架构3.1降水预报问题的建模3.2ConvolutionalLSTM3.3编码-预测结构4.文献解读4.1Introduction4.2创新点4.3实验过程4.3.1Moving-MNISTDataset4.3.2雷达回波数据集4.4结论三、基于pytorch实现ConvLST
李宏毅机器学习——回归实验 migugu
importnumpyasnpimportmatplotlib.pyplotaspltfrompylabimportmpl#matplotlib没有中文字体，动态解决plt.rcParams['font.sans-serif']=['Simhei']#显示中文mpl.rcParams['axes.unicode_minus']=False#解决保存图像是负号'-'显示为方块的问题x_data=[3
李宏毅机器学习笔记 2.回归 Simone Zeng 机器学习机器学习
最近在跟着Datawhale组队学习打卡，学习李宏毅的机器学习/深度学习的课程。课程视频：https://www.bilibili.com/video/BV1Ht411g7Ef开源内容：https://github.com/datawhalechina/leeml-notes本篇文章对应视频中的P3。另外，最近我也在学习邱锡鹏教授的《神经网络与深度学习》，会补充书上的一点内容。通过上一次课1.机器
李宏毅机器学习（二十）无监督学习Neighbor Embedding近邻嵌入 ca8519be679b
ManifoldLearning我们有时候的特征其实是低维度的放到高纬度上去，比如地球表面是2维的，但是被放到了3维空间，比如左下的S曲面，其实可以展开到2维平面上去，接下来就方便我们进一步计算分类等等插图1我们有如下几个降维方法LocallyLinearEmedding(LLE)局部线性嵌入具体是是怎么做的呢，我们点x和周围的点xj，给xj每个点加权wij求和，使其和xi最接近，然后投影到向量z
李宏毅pm2.5作业【转载】言糙 python numpy 机器学习
李宏毅机器学习PM2.5作业使用pyCharm2022.2.1版本，python10.0python也不会，计算机也不会，啥都不会，只带了个脑子考了计算机研究生。研究生选了人工智能方向。看来注定是漫长的学习之旅。PM2.5作业，我是一个字都看不懂。所以我采用了直接看答案的方案。把答案看懂也是一种本事。把答案CV上来。文章目录前言一、pandas是什么？二、使用步骤1.引入库2.提取TEST数据集3
Python 学习工具及资源 Lanlan_78d1
小甲鱼Python基础学习到P19（函数）之前image.png菜鸟语法查询Anaconda安装教学Jupyter教学*李宏毅机器学习
Transformer 代码补充 Karen_Yu_ python 深度学习 pytorch transformer
本文是对Transformer-Attentionisallyouneed论文阅读-CSDN博客以及【李宏毅机器学习】Transformer内容补充-CSDN博客的补充，是对相关代码的理解。先说个题外话，在之前李宏毅老师的课程中提到multi-headattention是把得到的qkv分别乘上不同的矩阵，得到更多的qkv。实际上，这里采用的方法是直接截取，比如这里有两个头，那么q^i就被分成两部分
【李宏毅机器学习】Transformer 内容补充 Karen_Yu_ 自然语言处理人工智能 transformer
视频来源：10.【李宏毅机器学习2021】自注意力机制(Self-attention)(上)_哔哩哔哩_bilibili发现一个奇怪的地方，如果直接看ML/DL的课程的话，有很多都是不完整的。开始思考是不是要科学上网。本文用作Transformer-Attentionisallyouneed论文阅读-CSDN博客的补充内容，因为发现如果实操还是有不能理解的地方，所以准备看看宝可梦老师怎么说×Sel
【LLM | 基础知识】自注意力机制 Self-attention [李宏毅机器学习] XMUJason 大语言模型LLM chatgpt 笔记 nlp
⭐引言本文主要参考李宏毅老师对于自注意力机制的讲解内容，但在此基础之上进行了一定的补充和删减，文中大部分插图来源于李宏毅老师的课件。本文的主要目的是梳理清楚自注意力机制的基本原理，理解什么是自注意力机制，不关注代码实现和具体的数学运算。本文尽可能把内容只控制在自注意力机制的基本框架上，不进行过多的相关概念的扩展，以免被其他相关内容转移注意力。1.从“单向量输入”到“多向量输入”在之前的机器学习方法
李宏毅机器学习（二十三）无监督学习Deep Generative Model(二) ca8519be679b
内容衔接上一讲，上节我们讲到VAE，我们为什么用VAE而不用auto-encoder呢，直觉上的原因是如果是auto-encoder，我们期待的是输入满月解码后还是满月，输入半月输出还是半月，但是我们能保证中间状态时候我们的输出是3/4月吗，结果往往不是；如果是VAE，我们就会引入一定的噪声，使得一定范围内输出都是满月，一定范围内输出都是半月，中间的公共部分由于我们要Minimize2者的误差，所
李宏毅机器学习——深度学习训练的技巧 migugu
神经网络训练的技巧优化失败的原因:局部最小值或鞍点，可以通过对H矩阵特征值正负性进行判断batch：加快梯度的计算，更新参数的速度比较快momentum:越过局部最小值或鞍点learningrate:自动调整学习率如RMSProp等normalizationdropout
李宏毅机器学习——初识深度学习 migugu
深度学习简介深度学习的历史1958:Perceptron(linearmodel)1969:Perceptronhaslimitation1980s:Multi-layerperceptronDonothavesignificantdifferencefromDNNtoday1986:BackpropagationUsuallymorethan3hiddenlayersisnothelpful19
李宏毅机器学习第一周_初识机器学习 Nyctophiliaa 机器学习人工智能深度学习
目录摘要一、机器学习基本概念1、MachineLearning≈LookingforFunction2、认识一些专有名词二、预测YouTube某天的浏览量一、利用Linearmodel二、定义更复杂的函数表达式三、ReLU函数四、Sigmoid函数与ReLU函数的对比三、反向传播(Backpropagation)一、反向传播的基本思想(正向计算-误差计算-梯度计算-参数更新)二、计算过程总结摘要在
李宏毅机器学习_卷积神经网络(CNN) Nyctophiliaa 机器学习 cnn 深度学习
目录摘要Abstract一、什么是CNN二、ImageClassification三、Observation1一、Simplification1四、Observation2五、BenefitofConvolutionalLayer六、ConvolutionalLayer七、MultipleConvolutionalLayers八、ComparisonofTwoStories九、Observatio
李宏毅机器学习第十六周周报NAT&HW5 沽漓酒江机器学习人工智能
文章目录week16Non-autoregressiveSequenceGeneration摘要Abstract一、李宏毅机器学习Non-autoregressiveSequenceGeneration1.问题阐述1.1Autoregressivemodel1.2Non-autoregressivemodel(mostlybyTransformer)2.Solution2.1VanillaNAT(
2023春季李宏毅机器学习笔记 02 ：机器学习基本概念女王の专属领地机器学习深度学习 #李宏毅2023机器学习机器学习笔记人工智能
资料课程主页：https://speech.ee.ntu.edu.tw/~hylee/ml/2023-spring.phpGithub：https://github.com/Fafa-DL/Lhy_Machine_LearningB站课程：https://space.bilibili.com/253734135/channel/collectiondetail?sid=2014800一、機器學習基
2023春季李宏毅机器学习笔记 03 ：机器如何生成文句女王の专属领地 #李宏毅2023机器学习机器学习深度学习笔记机器学习人工智能深度学习
资料课程主页：https://speech.ee.ntu.edu.tw/~hylee/ml/2023-spring.phpGithub：https://github.com/Fafa-DL/Lhy_Machine_LearningB站课程：https://space.bilibili.com/253734135/channel/collectiondetail?sid=2014800一、大语言模型
Chat GPT4来了，它和3.5区别在哪？李宏毅机器学习笔记抱抱小杠杠机器学习人工智能笔记
听说GPT4模型更大、参数更多，功能更强，具体它好在哪里？GPT4真的能看懂图片吗？官方回答：不太能~~下面这张图片是将两个不存在的网址输入进GPT4，问它看到了什么，结果发现GPT真的会胡言乱语，它会根据网址中出现了“man”这个单词，就说他看到了“一个拿着手枪的男人。。。巴拉巴拉”明显就是在胡编乱造！而如果网址中出现了“girl”这个单词，GPT又会说他看到了“一个穿着校服的女孩子。。。巴拉巴
李宏毅机器学习-PCA Zhuanshan_ 机器学习人工智能
视频链接：李宏毅2020机器学习深度学习(完整版)国语用最直观的方式告诉你：什么是主成分分析PCA【中字】主成分分析法（PCA）|分步步骤解析看完你就懂了！无监督学习做什么无监督学习主要做两件事情：聚类&降维：比如说下图的树木，只有输入图片，没有标签，我们希望通过一个函数抽象的表达他们，于是抽出一个更抽象的表述生成器：也就是无中生有，我们有很多图片，但不知道是怎么生成的，于是需要一个好的函数，将刚
2023春季李宏毅机器学习笔记 05 ：机器如何生成图像女王の专属领地 #李宏毅2023机器学习机器学习笔记人工智能机器学习李宏毅 AI产品
资料课程主页：https://speech.ee.ntu.edu.tw/~hylee/ml/2023-spring.phpGithub：https://github.com/Fafa-DL/Lhy_Machine_LearningB站课程：https://space.bilibili.com/253734135/channel/collectiondetail?sid=2014800一、图像生成常
李宏毅机器学习第二十二周周报GAN理论2 沽漓酒江机器学习生成对抗网络人工智能
文章目录week22TheorybehindGAN2摘要Abstract一、李宏毅机器学习0.上周内容概述1.GAN的训练过程2.生成器与分辨器的算法细节3.整体算法描述4.原文中生成器目标函数的实现方式二、文献阅读1.题目2.abstract3.网络架构3.1无数据生成方法3.2Data-EnrichingGAN(DeGAN)4.文献解读4.1Introduction4.2创新点4.3实验过程4
李宏毅机器学习第二十周周报GAN4 沽漓酒江机器学习人工智能
文章目录week20GAN4摘要Abstract一、李宏毅机器学习——GAN41.LearningfromUnpairedData2.CycleGAN3.Application二、文献阅读1.题目2.abstract3.网络架构3.1损失函数3.1.1对抗性损失3.1.2循环一致性损失3.1.3整体目标3.1.4identityloss3.2网络结构3.3训练细节3.4网络架构3.4.1生成器部分
李宏毅机器学习第二十一周周报GAN理论沽漓酒江机器学习生成对抗网络人工智能
文章目录week21TheorybehindGAN摘要Abstract一、李宏毅机器学习——TheorybehindGAN1.Generation2.最大似然估计3.Generator3.Discriminator二、文献阅读1.题目2.abstract3.网络架构3.1SequenceGenerativeAdversarialNets3.2SeqGANviaPolicyGradient3.3Th
李宏毅机器学习第十八周周报GAN2 沽漓酒江机器学习人工智能
文章目录week18GAN2摘要Abstract一、TheorybehindGAN1.训练目的2.Wassersteindistance二、文献阅读1.题目2.abstract3.网络架构3.1WassersteinDistance3.2WasserteinGANs3.3Gradientpenalty4.文献解读4.1Introduction4.2创新点4.3实验过程4.3.1Difficulti
李宏毅机器学习第十九周周报GAN3 沽漓酒江机器学习人工智能 gan
文章目录week19GAN3摘要Abstract一、李宏毅机器学习——GAN31.Introduce2.DifficultyinGANtraining3.EvaluationofGeneration4.ConditionalGeneration二、文献阅读1.题目2.abstract3.文章主要内容3.1基于GANs的双时间尺度更新规则3.2Adam确保TTUR收敛3.2.1使用Adam以降低收敛
李宏毅机器学习第二十三周周报 Flow-based model 沽漓酒江机器学习人工智能生成对抗网络
文章目录week23Flow-basedmodel摘要Abstract一、李宏毅机器学习1.引言2.数学背景2.1Jacobian2.2Determinant2.3ChangeofVariableTheorem3.Flow-basedModel4.GLOW二、文献阅读1.题目2.abstract3.网络架构3.1changeofvariableformula3.2Couplinglayers3.3
李宏毅机器学习（十八）无监督学习-线性模型 ca8519be679b
UnsupervisedLearning-LinearModel无监督学习我们大致分为2种情况，聚类和无中生有化繁为简，比如呢，我们有许多个树的图片，我们经过函数输出为一个结果，另一种是我们已知一个数据code，根据不同的code输入，通过函数实现输出不同的图片插图1聚类很容易理解，比如我们有猫狗鸟3种图片，通过分析相似性，将图片分为K种，但问题常常就是K取多少，比如我们有9个图片，我们分9种和分
2023春季李宏毅机器学习笔记01 ：正确认识 ChatGPT 女王の专属领地深度学习机器学习机器学习李宏毅人工智能 AI产品
资料课程主页：https://speech.ee.ntu.edu.tw/~hylee/ml/2023-spring.phpGithub：https://github.com/Fafa-DL/Lhy_Machine_LearningB站课程：https://space.bilibili.com/253734135/channel/collectiondetail?sid=2014800一、对Chat
Self-attention学习笔记（Self Attention、multi-head self attention） shuyeah 学习笔记
李宏毅机器学习TransformerSelfAttention学习笔记记录一下几个方面的内容1、SelfAttention解决了什么问题2、SelfAttention的实现方法以及网络结构Multi-headSelfAttentionpositionalencoding3、SelfAttention方法的应用4、SelfAttention与CNN以及RNN对比1、SelfAttention解决了什
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号