lanchunhui

python 机器学习——从感知机算法到各种最优化方法的应用（python）

一准备
- 1 数据集
- 2 基本工具
  - 21 pandasread in data
  - 22 numpyprocess data
  - 23 matplotlibvisualize data
二基本概念与定义
三感知机学习算法的原始形式以误分数为损失函数
四基于最优化方法的变体梯度下降随机梯度下降
五 python实战
- 1 类接口设计
- 2 感知机的基本形式以误分数为损失函数
- 3 平方误差之和损失函数下的感知机的梯度下降解
  - 31 考察learning rate的影响
  - 32 feature 标准化
- 4 感知机的随机梯度下降解
六总结

感知机算法的基本形式及一些基于最优化方法的感知机算法的变体具有机器学习的典型处理框架，且理论较为简单，实现并不复杂。同时作为单层神经网络的感知机，也是支持向量机和神经网络的基础。

本文的主要内容包括：

为什么说通过感知机算法的推导和实践便迈进了机器学习的大门？
感知机算法的学习策略是怎样的？
不同感知机算法之间的真正区别是什么？
关于感知机算法都有哪些损失函数和权重更新的形式？
为什么需要对数据进行标准化或者叫特征缩放？
如何对数据进行标准化？
如何利用python实现感知机算法及其不同的变体？
如何利用python（matplotlib）实现对数据的可视化工作？

一、准备

本文算法的任务是通过应用感知机算法及其不同最优化方法下（GD：梯度下降，SGD：随机梯度下降）的版本实现对一个线性可分的二维（也可应用到多维，无非是np.dot(x, w[1:]), x和w维度的不同，对算法的实现没有任何影响，只是出于可视化的需要）二类别样本的分类，这中间涉及一些简单的数据处理（比如standardized，标准化，或者叫特征缩放，feature scaling，又比如数据shuffle），以及更为重要的通过matplotlib实现数据可视化，来一窥机器学习算法的全貌。

1.1 数据集

本文待分类的数据集(iris.data)是一种CSV（逗号分隔符，Comma-Separated Value）文件。
点击这里可查看对数据集的介绍，这里对其中的属性介绍如下：

sepal length in cm
sepal width in cm
petal length in cm
petal width in cm
class:
– Iris Setosa
– Iris Versicolour
– Iris Virginica

为了说明问题的方便，本文只涉及二分类问题，考虑前100个样本，即Iris-setosa和Iris-versicolor类的样本各占一半，为了低维数据可视化的需要，考虑第一和第三个属性，即sepal length和petal length。

import matplotlib.pyplot as plt
plt.scatter(X[y==1, 0], X[y==1, 1], color='red', 
                marker='o', label='setosa')
plt.scatter(X[y==-1, 0], X[y==-1, 1], color='blue', 
                marker='x', label='versicolor')

这100个样本的散列图如下：

注：iris，鸢尾花。鸢尾花张啥样（这才是真正的可视化呀）？

python 机器学习——从感知机算法到各种最优化方法的应用（python）_第1张图片

1.2 基本工具

1.2.1 pandas——read in data

import pandas as pd

pandas文件读取函数

df = pd.read_csv('https://archive.ics.uci.edu/ml/'
                'machine-learning-databases/iris/iris.data', header=None)   
                                    # 返回一种DataFrame结构文件
print(df.tail())                    # 验证是否读取正确

DataFrame，pandas中的一种数据结构

通过pd.read_csv()读取到待处理的数据集并保存到DataFrame后，便可通过DataFrame强大的切片和索引能力，生成机器学习算法所需要的数据格式。

# 只考虑第一和第三个属性值，为了可视化的的需要
# 此时X的类型是numpy.ndarray
X = df.iloc[[0:100, [0, 2]].values()    
y = df.iloc[[0:100], 4].values # 将string类型的类别标签转化为二分类标签 y = np.where(y == 'Iris-seosta', -1, 1)

1.2.2 numpy——process data

1.2.3 matplotlib——visualize data

二、基本概念与定义

感知机是二分类的线性模型，以实例的特征向量（不同于线性代数的特征向量，其实线代里的特征向量更准确的叫法应该是本征向量）作为输入，以 ±1 类别标签作为输出。

输入空间（input space 或者叫 feature space） X⊆Rn ，输出空间（output space） Y=+1,−1 。
我们定义激励函数（activation function， ϕ(z) ），它以输入x与权重w的内积作为输入， z=wTx=w0x0+w1x1+w2x2+…+wdxd ，也就是所谓的net_input（或者叫score），以最终的预测类别作为输出.

感知机算法中， ϕ(⋅) 是一个简单的单位阶跃函数（有时也称作heaviside step function）：

ϕ (z) = {+ 1, - 1, z \geq 0 o t h e r w i s e

注：关于bias的两种解释，解释1： w1x1+w2x2+…+wdxd+w0∗1 ，如下图（三层神经网络）示，这里的偏置用来表征与输入无关的一些系统自身的因素，更具数学意味的说法是将数据的输入空间提升了一维。

python 机器学习——从感知机算法到各种最优化方法的应用（python）_第2张图片

解释之二，在激励函数（activation function）中，对输进行了加权求和之后的net_input(或者叫score)，如果大于指定的阈值

θ ，则输出为1，否则为-1

z = w 1 x 1 + w 2 x 2 + \dots + w d x d ϕ (z) = {+ 1, - 1, z \geq θ o t h e r w i s e

转化为如下的形式：

z = w 0 x 0 + w 1 x 1 + w 2 x 2 + \dots + w d x d = w T x ϕ (z) = {+ 1, - 1, z \geq 0 o t h e r w i s e

其中

w0=−θ ，

x0=1 。

殊途同归，两中不同的解释得到相同的形式。

三、感知机学习算法的原始形式（以误分数为损失函数）

以误分数作为损失函数的形式如下：

J = \sum i = 1 N 1 y (i) \neq ϕ (w T x (i))

其权重更新方式如下：

w : = w + Δ w Δ = η (y (i) - y^(i)) x (i)

其中， η 表示学习率，是一个介于0-1之间的常量，控制更新的步长，在classifier构造时定义。

以二维数据集为例：

Δ w 0 = Δ w 1 = Δ w 2 = η (y (i) - y^(i)) η (y (i) - y^(i)) x (i) 1 η (y (i) - y^(i)) x (i) 2

注意，这里的

Δwj 是按照向量化的做法同步得到的，也即：

self.w_[0] += self.eta * (y - self.predict(x))
self.w_[1:] += self.eta * (y-self.predict(x)) * x
# 这里的self.w_[1:]以及x表示的均是向量

在我们进入python实战之前不妨，先对这一权值更新方式的合理性做一个直观的解释，为什么这样的权值更新是可行的。
监督学习的过程中，真实值和估计值之间差值( y(i)−y^(i) )一共四种情况，
Δw=η(1−1)x(i)=0
Δw=η(−1−−1)x(i)=0
Δw=η(1−−1)x(i)=η(2)x(i)
Δw=η(−1−1)x(i)=η(−2)x(i)

在误分的情况下，所进行的权值更新，以 Δw=η(1−−1)x(i)=η(2)x(i) 为例（将正的估计成了负的），根据上述的权值更新公式得到的更新的方向（+2），恰代表真实值所在的方向。

四、基于最优化方法的变体（梯度下降、随机梯度下降）

这一节，我们将介绍单层神经网络的另一种实现方法：自适应线性神经元（ADAptive LInear NEuron，AdaLine）。
AdaLine与Rosenblatt’s 基本感知机的关键不同在于，两个具有不同的损失函数及相关的权值更新公式。后者是基于单位阶跃函数( y(i)−y^(i) )，而前者是基于线性激励函数（ yi−ϕ(wTx) ）。在AdaLine中，线性激励函数 ϕ(wTx) 是简单的证同函数，即 ϕ(wTx)=wTx 。

监督学习算法的一大关键在于目标函数（objective function）的定义与设计，目标函数是学习或者训练的过程（learning process）中进行优化的对象。目标函数常常是我们需要最小化的损失函数。在AdaLine算法中，我们可以通过将损失函数 J 定义为平方误差和（sum-squared-error，SSE）的方式来进行对权值的更新，

J = = 1 2 \sum i = 1 N (y (i) - ϕ (z (i))) 2 1 2 ∥ y - X w ∥ 2

12 是为了求导的方便。与单位阶跃函数相比，这种线性激励函数的最大优势在于，损失函数变成了可导的，而且是凸函数，因此我们可以利用梯度下降法找到权值更新的方向来最小化损失函数，即：

w : = Δ w = w + Δ w - η Δ J (w)

因为是找使损失函数最小的方向，故权值更新的方向是负梯度方向（ −ηΔJ(w) ）
由损失函数的矩阵形式，我们很容易求出它的梯度：

\partial J \partial w = - X T (y - X w)

所以新的权值更新方式：

w = w + η X T (y - X w)

五、 python实战

5.1 类接口设计

根据机器学习清晰的两相处理流程（学习或者叫训练，以及预测），再加之面向对象的思想，可对分类器设计如下的接口。

fit(X, y)

接受样本集X，及样本类别标签y，返回分类器实例

net_input(X)

接受样本集X，返回样本集与权重的内积 X⋅w （X列代表属性feature，行代表一个观察值observation，w是列向量），但这里要考虑bias的作用，也就是如果X和w都不是增广的话， X⋅w[1:]+w[0] 。

activation(X)

如：

ϕ (z) = {+ 1, - 1, z \geq θ o t h e r w i s e

predict(X)

接受样本集X，返回预测的类别标签 ±1 。如果判别函数是 y=sign(wtx) ，则其python实现形式如下：

return np.where(self.net_predict(X) >= 0., 1, -1)

5.2 感知机的基本形式——以误分数为损失函数

class Perceptron(object):
    def __init__(self, eta=0.01, n_iter=10):
        self.eta = eta
        self.n_iter = n_iter

    def fit(self, X, y):
        self.w_ = np.zeros(1 + X.shape[1])
        self.J_ = []        # 记录每次迭代的误分数
        for _ in range(self.n_iter):
            J = 0
            for xi, yi in zip(X, y):
                delta = yi - self.activation(xi)                
                self.w_[0] += self.eta * delta
                self.w_[1:] += self.eta * delta * xi
                J += int(delta != 0.)
            self.J_.append(J)
        return self
    def net_input(self, X):
        return X.dot(self.w_[1:]) + self.w_[0]
    def activation(self, X):
        # python中的三目运算符
        return np.where(self.net_input(X) >= 0.0, 1, -1)    
    def predict(self, X):
        return np.where(self.net_input(X) >= 0.0, 1, -1)

客户端程序，并显示随着迭代的进行，误分数的变化情况：

ppn = Perceptron(eta=0.1, n_iter=10)
ppn.fit(X, y)
plt.plot(range(1, 1 + len(ppn.J_), ppn.J_, marker='o')
plt.xlabel('epochs')
plt.ylabel('# of iterations')
plt.show()

收敛效果图：

可视化：

from matplotlib.colors import ListedColormap

def plot_decision_regions(X, y, classifier, res=0.02):
    markers = ('s', 'o', 'x', '^', 'v')
    colors = ('red', 'blue', 'lightgreen', 'gray', 'cyan')
    colormap = ListedColormap(colors[:len(np.unique(y))])

    x1_min, x1_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    x2_min, x2_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx1, xx2 = np.meshgrid(np.arange(x1_min, x1_max, res), 
                        np.arange(x2_min, x2_max, res))
    Z = classifier.predict(np.array([xx1.ravel(), xx2.ravel()]).T)
    # xx1.ravel() 将xx1从numpy.narray类型的多维素组转换为一位数组
    Z = Z.reshpae(xx1.shape())
    np.contourf(xx1, xx2, Z, alpha=.4, cmap=colormap)
    plt.xlim(x1_min, x1_max)
    plt.ylim(x2_max, x2_max)

    for idx, cl in enumerate(np.unique(y)):
        plt.scatter(x=X[y==cl, 0], y=X[y==cl, 1], marker=markers[idx],
                    alpha=.8, cmap=colormap(idx), 
                    label=np.where(cl==1, 'versicolor', 'setosa'))
ppn = Perceptron(eta=0.1, n_iter=10).fit(X, y)
plot(X, y, ppn, res=0.02)
plt.xlabel('sepal length [cm]')
plt.ylabel('petal length [cm]')
plt.legend(loc='upper right')
plt.show()

5.3 平方误差之和损失函数下的感知机的梯度下降解

class AdaLine(object):
    def __init__(self, eta=0.01, n_iter=10):
        self.eta = eta
        self.n_iter = n_iter

    def fit(self, X, y):
        self.w_ = np.zeros(1+X.shape[1])        
        self.J_ = []
        for _ in range(self.n_iter):
            errors = y - self.activation(X)
            self.w_[0] += self.eta * errors.sum()
            self.w_[1:] += self.eta * X.T.dot(errors)
            J = errors.dot(errors)/2.
            self.J_.append(J)

    def net_input(self, X):
        return X.dot(self.w_[1:]) + self.w_[0]
    def activation(self, X):
        return net_input(X)
    def predict(self, X):
        return np.where(self.net_input(X) >= 0., 1, -1)

5.3.1 考察learning rate的影响

我们来考虑两个不同学习率下（ η=0.01,η=0.0001 ）的损失函数收敛情况：

fig, ax = plt.subplots(nrows=1, ncols=2, figsize=(8, 4))    # 一行两列的子图分布
ada1 = AdaLine(eta=0.01, n_iter=10).fit(X, y)
ax[0].plot(range(1, 1+len(ada1.J_)), np.log10(ada1.J_)), marker='o')
ax[0].set_xlabel('epochs')
ax[0].set_ylabel('sse')
ax[0].set_title('learning rate: 0.01')
ada2 = AdaLine(eta=0.0001, n_iter=10)
ax[1].plot(range(1, 1+len(ada2.J_)), ada2.J_, marker='o')
ax[1].set_xlabel('epochs')
ax[1].set_ylabel('sse')
ax[1].set_title('learning rate: 0.0001')
plt.show()

5.3.2 feature 标准化

在以上的两图中我们可以明显的看出，因为学习率选择的过大，损失函数错过了全局最小值，发生了发散，不再收敛（对应于左图），而学习率选择的过小，导致收敛速度很慢。

这里我们需要对输入特征进行缩放（feature scaling），或者叫标准化（standardization）：

x' j = x j - μ j σ j

特征的标准化工作大量地用在包括梯度下降在内的很多机器学习算法中。经标准化后的算法的执行结果如下：

5.4 感知机的随机梯度下降解

5.3节的算法因为进行梯度更新时考虑的是一次性的将整个样本集都计算在内，

w = w + η X T (y - X T w)

故有时也称作块梯度下降（batch gradient descent）。试想我们要处理的是一个更大规模的数据集，处理大规模数据集是机器学习算法所要面对的普遍状况。块梯度下降算法将会十分的耗时，因为每次迭代都要对整个数据集做计算。
块梯度算法的一种流行的替代方案是随机梯度下降（stochastic gradient descent），有时也叫iterative 或者 on-line gradient descent。

随机梯度下降与块梯度算法的不同在于，后者更新梯度时基于的是全部样本的加权和：

Δ w = η X T (y - X w)

前者则是针对每一个样本，进行增量式地更新权值，即：

Δ w = η (y (i) - ϕ (w T x (i))) x (i)

from numpy.random import seed

class AdaLineSGD(object):

    def __init__(self, eta=0.01, n_iter=10, shuffle=True, random_state=None):
        self.eta = eta
        self.n_iter = n_iter
        self.shuffle = shuffle
        self.w_initilized = False
        if self.shuffle:
            seed(random_state)

    def fit(self, X, y)
        self.w_ = self._initilized_weights(X.shpae[1])      
        self.J_ = []
        for _ in range(self.n_iter):
            if self.shuffle:
                X, y = self._shuffle(X, y)
            J = 0
            for xi, yi in zip(X, y):
                error = yi - self.activation(xi)
                self.w_[1:] += self.eta * error * xi
                self.w_[0] += self.eta * error
                J += error**2
            self.J_.append(J/2./len(y))
        return self 

    def net_input(self, X):
        return X.dot(self.w_[1:]) + self.w_[0]
    def activation(self, X):
        return self.net_input(X)

    def _initilized_weights(self, d):
        self.w_initilized = True
        return np.zeros(1 + d)
    def _shuffle(self, X, y):
        r = np.random.permulation(X.shape[0])
        return X[r, :], y[r]
    def predict(self, X):
        return self.net_input(X)

应用SGD算法的分类情况及损失函数的收敛情况如下：

六、总结

algorithm	代价函数	权值更新
感知机基本形式	J=∑Ni=11y(i)≠ϕ(wTx(i))	Δw=η(y(i)−y^(i))x(i)
梯度下降	J=12∥y−Xw∥2	Δw=ηXT(y−Xw)
随机梯度下降	J=12∥y−Xw∥2	Δw=η(y(i)−ϕ(wTx(i)))x(i)

探索深度学习的奥秘：从理论到实践的奇幻之旅小周不想卷深度学习
目录引言：穿越智能的迷雾一、深度学习的奇幻起源：从感知机到神经网络1.1感知机的启蒙1.2神经网络的诞生与演进1.3深度学习的崛起二、深度学习的核心魔法：神经网络架构2.1前馈神经网络（FeedforwardNeuralNetwork,FNN）2.2卷积神经网络（CNN）2.3循环神经网络（RNN）及其变体（LSTM,GRU）2.4生成对抗网络（GAN）三、深度学习的魔法秘籍：算法与训练3.1损失
(感知机-Perceptron)—有监督学习方法、非概率模型、判别模型、线性模型、参数化模型、批量学习、核方法剑海风云 Artificial Intelligence 机器学习人工智能感知机 Perceptron
定义假设输入空间（特征空间）是χ\chiχ⊆Rn\subseteqR^n⊆Rn,输出空间是y={+1,−1}=\{+1,-1\}={+1,−1}。输入x∈χx\in\chix∈χ表示实例的特征向量，对应于输入空间（特征空间）的点；输出y∈y\iny∈y表示实例的类别。由输入空间到输出空间的如下函数：f(x)=sign(ω⋅x+b)f(x)=sign(\omega\cdotx+b)f(x)=sign
【统计学习方法】感知机 jyyym ml苦手机器学习
一、前言感知机是FrankRosenblatt在1957年就职于康奈尔航空实验室时所发明的一种人工神经网络。它可以被视为一种最简单的前馈神经网络，是一种二元线性分类器。Seemoredetailsinwikipdia感知机.本篇blog将从统计学习方法三要素即模型、策略、算法三个方面介绍感知机，并给出相应代码实现。二、模型假设输入空间是x∈Rnx\in{R^n}x∈Rn，输出空间是y∈{−1,+1
人工智能与机器学习原理精解【1】叶绿先锋基础数学与应用数学神经网络人工智能深度学习
文章目录Rosenblatt感知器感知器基础收敛算法算法概述算法步骤关键点说明总结C++实现要点代码参考文献Rosenblatt感知器感知器基础感知器，也可翻译为感知机，是一种人工神经网络。它可以被视为一种最简单形式的前馈式人工神经网络，是一种二元线性分类器。Rosenblatt感知器建立在一个非线性神经元上，但是它只能完成线性分类硬限幅与超平面局部诱导域v=∑i=1mwixi+b从上面公式看来，
点云从入门到精通技术详解100篇-点云特征学习模型及其在配准中的应用格图素书学习
目录前言应用前景国内外研究现状点云特征提取算法研究现状点云配准算法研究现状相关理论基础2.1深度学习2.1.1深度学习概述2.1.2自编码器2.1.3稀疏编码2.1.4受限玻尔兹曼机2.2多层感知机2.2.1多层感知机概述2.2.2感知器与多层感知机2.2.3多层感知机的训练2.3点云配准方法2.3.1无点对应关系的点云配准方法2.3.2基于对应关系的点云配准方法2.4评价指标2.4.1点云配准评
人人都能懂的机器学习——用Keras搭建人工神经网络02 苏小菁在编程
感知机1957年，FrankRosenblatt发明了感知机，它是最简单的人工神经网络之一。感知机是基于一个稍稍有些不同的人工神经元——阈值逻辑元（TLU）（见图1.4），有时也被称为线性阈值元（LTU）。这种神经元的输入和输出不再是二进制的布尔值，而是数字。每一个输入连接都与权重值相关联，TLU将各个输入加权取和然后将其带入一个阶跃函数，并输出结果：上述计算过程如下图1.4所示图1.4阈值逻辑单
爆改YOLOv8 | yolov8添加GAM注意力机制不想敲代码！！！爆改yolov8 即插即用 YOLO yolov8 目标检测人工智能计算机视觉
1，本文介绍GAM（GlobalAttentionMechanism）旨在改进传统注意力机制的不足，特别是在通道和空间维度上的信息保留问题。它通过顺序的通道-空间注意力机制来解决这些问题。以下是GAM的关键设计和实现细节：通道注意力子模块：3D排列：使用3D排列来在三个维度上保留信息，这种方法有助于捕捉更多维度的特征。两层MLP：通过一个两层的多层感知机（MLP）增强跨维度的通道-空间依赖性，提升
用keras对电影评论进行情感分析 Phoenix Studio 深度学习 keras 人工智能深度学习
文章目录下载IMDb数据读取IMDb数据建立分词器将评论数据转化为数字列表让转换后的数字长度相同加入嵌入层建立多层感知机模型加入平坦层加入隐藏层加入输出层查看模型摘要训练模型评估模型准确率进行预测查看测试数据预测结果完整函数用RNN模型进行IMDb情感分析用LSTM模型进行IMDb情感分析GITHUB地址https://github.com/fz861062923/Keras下载IMDb数据#下载
TenorFlow多层感知机识别手写体 Phoenix Studio 深度学习 opencv 数据挖掘语音识别机器学习神经网络
文章目录数据准备建立模型建立输入层x建立隐藏层h1建立隐藏层h2建立输出层定义训练方式建立训练数据label真实值placeholder定义lossfunction选择optimizer定义评估模型的准确率计算每一项数据是否正确预测将计算预测正确结果，加总平均开始训练画出误差执行结果画出准确率执行结果评估模型的准确率进行预测找出预测错误GITHUB地址https://github.com/fz86
GAN生成对抗性网络 Dirschs 深度学习 GAN 生成对抗网络人工智能神经网络
一、GAN原理出发点：机器学习中生成模型的问题无监督学习是机器学习和未来人工智能的突破点，生成模型是无监督学习的关键部分特点：不需要MCMC或者变分贝叶斯等复杂的手段，只需要在G和D中对应的多层感知机中运行反向传播或者梯度下降算法模型通常使用神经网络，其拟合能力最好G(Generator)：用于捕获数据分布的生成模型(生成图像的网络)；接收到随机的噪声z，通过噪声z生成图像。尽可能多地模拟、建模和
【机器学习笔记】10 人工神经网络 RIKI_1 机器学习机器学习笔记人工智能
人工神经网络发展史1943年，心理学家McCulloch和逻辑学家Pitts建立神经网络的数学模型，MP模型每个神经元都可以抽象为一个圆圈，每个圆圈都附带特定的函数称之为激活函数，每两个神经元之间的连接的大小的加权值即为权重。1960年代，人工网络得到了进一步地发展感知机和自适应线性元件等被提出。M.Minsky仔细分析了以感知机为代表的神经网络的局限性，指出了感知机不能解决非线性问题，这极大影响
Matlab DNN多层感知机进行图像分类——附源码分享我是狮子搏兔 Prediction matlab matlab dnn python
提示：麻烦点赞，拒绝白嫖文章目录前言一、数据来源二、训练+预测_一步到位源码1.DNN.m总结前言Python不香吗？非得用matlab来搞机器学习的东西？不是不是，matlab也有集成了许多机器学习算法，当然，都是一些非常基础的机器学习算法。深度学习还是得向python看齐。今天试用了一下matlab自带的DNN模型，封装在newff函数里，寥寥几行代码，非常简洁。提示：以下是本篇文章正文内容，
机器学习入门--多层感知机原理与实践 Dr.Cup 机器学习入门机器学习人工智能
神经网络与多层感知机神经网络是一种模仿生物神经系统结构和功能的计算模型。它由许多个节点（或称为神经元）组成，这些节点通过连接权重相互连接。神经网络的输入经过一系列的加权求和和激活函数变换后，得到输出结果。神经网络的训练过程主要包括前向传播和反向传播两个阶段。前向传播是指数据从输入层逐层传递到输出层的过程，每一层的节点都会根据输入值和连接权重计算输出值。反向传播是指通过计算损失函数对网络参数进行梯度
统计学习方法（李航）--第二章感知机（比较基础）人間煙火Just
感知机是二分类的线性分类模型，属于判别模型，包括原始形式和对偶形式。（一）感知机模型公式为：f是输出，x是输入，w和b是参数，sign是符号函数（大于0为1，小于0为-1）几何解释：对于特征空间Rn中的一个超平面S，w是S的法向量，b是截距，将超平面空间划分为两个部分，完成2分类任务。（二）学习策略1.数据集的线性可分性：若存在wx+b的超平面可以将数据集完全分割，则称为线性可分。2.学习策略（以
Pytorch 复习总结 1 ScienceLi1125 python pytorch python
Pytorch复习总结，仅供笔者使用，参考教材：《动手学深度学习》本文主要内容为：Pytorch张量的常见运算、线性代数、高等数学、概率论。Pytorch张量的常见运算、线性代数、高等数学、概率论部分见Pytorch复习总结1；Pytorch线性神经网络部分见Pytorch复习总结2；Pytorch多层感知机部分见Pytorch复习总结3；Pytorch深度学习计算部分见Pytorch复习总结4；
【深度学习】: MNIST手写数字识别 X.AI666 深度学习深度学习人工智能机器学习
清华大学驭风计划课程链接学堂在线-精品在线课程学习平台(xuetangx.com)代码和报告均为本人自己实现（实验满分），只展示主要任务实验结果，如果需要详细的实验报告或者代码可以私聊博主,可接实验指导1对1有任何疑问或者问题，也欢迎私信博主，大家可以相互讨论交流哟~~案例2：构建自己的多层感知机:MNIST手写数字识别相关知识点:numpy科学计算包，如向量化操作，广播机制等1数据集简介MNIS
机器学习算法之支持向量机（SVM）浅白Coder 支持向量机算法机器学习
SVM恐怕大家即使不熟悉，也听说过这个大名吧，这一节我们就介绍这相爱相杀一段内容。前言：在介绍一个新内容之SVM前，我们不觉映入眼帘的问题是为什么要引入SVM？吃的香，睡的着的情况下，肯定不会是没事干吧~首先，SVM是一个二分类模型【图1】，实质是定义在特征空间的判别模型，其实我们大家应该比较熟悉感知机算法了（我们前面有讲过），也就是找一个超平面来划分特征空间，可是满足该条件的超平面有无穷无尽呀！
【神经网络】单层感知器 Loong_DQX 感知器神经网络机器学习深度学习
在了解感知机之前的先知道1943年Mccilloch和Pitts所提出的M-P模型。M-P模型其实就是现在的神经网络中的一个神经元，但是与之不同的点在于它没有非线性激活函数激活，也不能这么说，就是没有类似sigmoid或者tanh函数激活，而它用的仅仅是一个阈值去激活。所以它的数学表达式为：此处的f函数就是阈值函数。但是这里的权重w和偏置b都是人为设定的，并不存在学习一说，这就是M-P模型与单层感
06-20201012 感知机-1从感知机到神经网络野山羊骑士
转载https://www.jianshu.com/p/7de24ee4a196转载https://www.jianshu.com/p/7de24ee4a196为什么？为什么学习神经网络都要学习感知机呢？通过一系列资料学习，感知机最大的贡献还是提供了在链接主义的智能计算中的一种求解思路（智能计算的三大流派之一），加之后来的非线性激活函数与反向传播，渐渐发展到现在的深度学习。从概念上，感知机可以认为
李沐《动手学深度学习》注意力机制丁希希哇李沐《动手学深度学习》学习笔记深度学习人工智能算法 pytorch
系列文章李沐《动手学深度学习》预备知识张量操作及数据处理李沐《动手学深度学习》预备知识线性代数及微积分李沐《动手学深度学习》线性神经网络线性回归李沐《动手学深度学习》线性神经网络softmax回归李沐《动手学深度学习》多层感知机模型概念和代码实现李沐《动手学深度学习》多层感知机深度学习相关概念李沐《动手学深度学习》深度学习计算李沐《动手学深度学习》卷积神经网络相关基础概念李沐《动手学深度学习》卷积
《统计学习方法：李航》笔记从原理到实现（基于python）-- 第6章逻辑斯谛回归与最大熵模型（2）6.2 最大熵模型北方骑马的萝卜机器学习笔记学习方法笔记 python
文章目录6.2最大熵模型6.2.1最大熵原理6.2.3最大熵模型的学习6.2.4极大似然估计《统计学习方法：李航》笔记从原理到实现（基于python）--第3章k邻近邻法《统计学习方法：李航》笔记从原理到实现（基于python）--第1章统计学习方法概论《统计学习方法：李航》笔记从原理到实现（基于python）--第2章感知机《统计学习方法：李航》笔记从原理到实现（基于python）--第3章k邻
深度学习入门（鱼书） weixin_42963026 深度学习人工智能
学习笔记第3章神经网络3.1从感知机到神经网络3.1.1神经网络的例子图3-1中的网络一共由3层神经元构成，但实质上只有2层神经元有权重，因此将其称为“2层网络”。请注意，有的书也会根据构成网络的层数，把图3-1的网络称为“3层网络”。本书将根据实质上拥有权重的层数（输入层、隐藏层、输出层的总数减去1后的数量）来表示网络的名称。3.1.2复习感知机3.1.3激活函数登场刚才登场的h（x）函数会将输
《深度学习入门》学习笔记 YY_oot 机器学习深度学习 python 神经网络人工智能
原书：《深度学习入门：基于Python的理论与实现》文章目录前言第一章python入门列表字典类numpy广播第二章感知机第三章神经网络激活函数第四章神经网络的学习损失函数求梯度第五章误差反向传播法第六章与学习相关的技巧6.1寻找最优参数6.3权重的初始值6.4正则化6.4超参数的验证第七章卷积神经网络卷积池化CNN的可视化代表性的CNN第八章深度学习提高识别精度VGGGoogLeNetResNe
深度学习入门笔记：第二章感知机维持好习惯深度学习深度学习笔记人工智能
深度学习入门笔记：第二章感知机笔记来源书籍：《深度学习入门：基于+Python+的理论与实现》文章目录深度学习入门笔记：第二章感知机前言为什么学习感知机2.1感知机是什么2.2简单逻辑电路2.2.1与门2.2.2与非门和或门2.3感知机实现2.3.1简单的实现2.3.2导入权重和偏置2.3.3使用权重和偏置的实现2.4感知机的局限性2.4.1异或门2.4.2线性和非线性2.5多层感知机2.5.1已
深度学习入门学习笔记之——神经网络前丨尘忆·梦 tensorflow深度学习神经网络深度学习
神经网络上一章我们学习了感知机。关于感知机，既有好消息，也有坏消息。好消息是，即便对于复杂的函数，感知机也隐含着能够表示它的可能性。上一章已经介绍过，即便是计算机进行的复杂处理，感知机（理论上）也可以将其表示出来。坏消息是，设定权重的工作，即确定合适的、能符合预期的输入与输出的权重，现在还是由人工进行的。上一章中，我们结合与门、或门的真值表人工决定了合适的权重。神经网络的出现就是为了解决刚才的坏消
2021-11-06《深度学习入门》笔记（二）新手小嵩深度学习系列笔记深度学习神经网络人工智能
第二章感知机感知机也是作为神经网络（深度学习）的起源的算法。因此，学习感知机的构造也就是学习通向神经网络和深度学习的一种重要思想。首先，感知机是什么？感知机接收多个输入信号，输出一个信号。上图是一个接收两个输入信号的感知机的例子。x1、x2是输入信号，y是输出信号，w1、w2是权重（w是weight的首字母）。图中的⚪称为“神经元”或者“节点”。输入信号被送往神经元时，会被分别乘以固定的权重（w1
李沐《动手学深度学习》循环神经网络经典网络模型丁希希哇李沐《动手学深度学习》学习笔记深度学习人工智能 pytorch 神经网络
系列文章李沐《动手学深度学习》预备知识张量操作及数据处理李沐《动手学深度学习》预备知识线性代数及微积分李沐《动手学深度学习》线性神经网络线性回归李沐《动手学深度学习》线性神经网络softmax回归李沐《动手学深度学习》多层感知机模型概念和代码实现李沐《动手学深度学习》多层感知机深度学习相关概念李沐《动手学深度学习》深度学习计算李沐《动手学深度学习》卷积神经网络相关基础概念李沐《动手学深度学习》卷积
李沐《动手学深度学习》卷积神经网络经典网络模型丁希希哇李沐《动手学深度学习》学习笔记深度学习 cnn 神经网络算法 pytorch
系列文章李沐《动手学深度学习》预备知识张量操作及数据处理李沐《动手学深度学习》预备知识线性代数及微积分李沐《动手学深度学习》线性神经网络线性回归李沐《动手学深度学习》线性神经网络softmax回归李沐《动手学深度学习》多层感知机模型概念和代码实现李沐《动手学深度学习》多层感知机深度学习相关概念李沐《动手学深度学习》深度学习计算李沐《动手学深度学习》卷积神经网络相关基础概念目录系列文章一、LeNet
01神经网络的理论及实现我闻如是神经网络人工智能算法
感知机的缺点就是需要设置合适的权重，而权重的设置都是人工操作的。1、从感知机到神经网络重新画出感知机的模型，在图上加上偏置，由于偏置始终为1，所以颜色加深。图1-1感知机模型引入新函数(激活函数）：(1-1)将感知机表达式改为：(1-2)也可以分开写为：(1-3)(1-4)根据公式（1-3）和（1-4）可以将图1-1更改为图1-2模型。图1-2加入激活函数的感知机图2、激活函数激活函数会将输入信号
【机器学习300问】21、什么是激活函数？常见激活函数都有哪些？小oo呆【机器学习】机器学习人工智能
在我写的上一篇文章中介绍了感知机（单个神经元）的构成，其中就谈到了神经元会计算传送过来的信号的总和，只有当这个总和超过了某个界限值时，才会输出值。这也称为“神经元被激活”。如果想对神经网络是什么有更多了解的小伙伴可以去看看我上一篇文章，链接我发在下面啦！【机器学习300问】20、什么是神经网络？和深度学习什么关系？http://t.csdnimg.cn/47Sgq承接上文中谈到的“神经元被激活”，
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出