DouglasLikeToCode

统计学习方法笔记第二章感知机(包含Python代码)

统计学习方法笔记第二章感知机

1. 感知机模型
2. 感知机学习策略

2.1 数据集的线性可分性
2.2 感知机学习策略

3. 感知机的学习算法

3.1 原始形式学习算法
3.2 算法的收敛性
3.3 对偶算法

4. python实现
5. 参考资料

1. 感知机模型

感知机是用于二分类的线性分类模型，目标是求出将实例划分正负的超平面，属于判别式模型。
感知机的形式如下：

$f(x)=sign(w\cdot{x}+b)$

其中 $w$ 称为权值向量， $b$ 称为偏置， $w\cdot{x}$ 表示内积， $s i g n$ 是符号函数，表示：

$sign(x)=\begin{cases} +1, & x>0 \\[2ex] -1, & x<0 \end{cases}$

2. 感知机学习策略

2.1 数据集的线性可分性

如果存在一个超平面可以将二分类数据集的正负实例完全正确的划分到两边，那么称数据集是线性可分的。

2.2 感知机学习策略

学习策略等价于定义一个损失函数并且将损失函数极小化。感知机的损失函数定义为误分类点到超平面的总距离：

$-\frac{1}{||w||}\sum_{x_i\in{M}}y_i(w\cdot{x_i}+b)$

由于只考虑分类正误，那么损失函数可以定义为：

$L(x,b)=-\sum_{x_i\in{M}}y_i(w\cdot{x_i}+b)$

感知机的学习策略是再假设空间选取使损失函数最小的模型参数 $w$ ， $b$ 。

$$

3. 感知机的学习算法

3.1 原始形式学习算法

感知机的学习算法的目标是极小化损失函数的解：

$\min_{w,b}{L(w,b)}=-\sum_{x_i\in{M}}y_i(w\cdot{x_i}+b)$

感知机的学习算法是误分类驱动的，采用随机梯度下降算法，即每次从误分类的点中选择一个，进行梯度下降。

$\bigtriangledown_{w}L(w,b)=-\sum_{x_i\in{M}}y_i\cdot{x_i}$
$\bigtriangledown_{b}L(w,b)=-\sum_{x_i\in{M}}y_i$

从误分类点中随机选取一个，对 $w$ , $b$ ,进行更新：

$w\leftarrow w+\eta{y_ix_i}$
$b\leftarrow b+\eta{y_i}$

其中 $\eta$ 是每一步更新的步长也成为学习率。

算法1:原始形式

(1) 选取初值 $w_0$ $b_0$
(2) 在训练集中选取数据 $x_i,y_i)$
(3) 如果 $y_i(w\cdot{x_i}+b)\leq0$
$w\leftarrow w+\eta{y_ix_i}$
$b\leftarrow b+\eta{y_i}$
(4) 转至(2)，直到训练集中没有误分类点

当一个实例点被误分类的时候，调整 $w$ 和 $b$ 的值，使超平面向误分类点一边移动，以减小误分类点和超平面的距离，直到超平面越过误分类点使其被正确分类。感知机算法由于采用了不同的初值，解可以有不同的结果。

3.2 算法的收敛性

Novikoff定理

存在满足条件 $||\hat{w}_{opt}||=1$ 的超平面 $\hat{w}_{opt}\cdot{\hat{x}}=w_{opt}\cdot{x}+b_{opt}=0$ 将训练集完全分开。(线性可分)
误分类次数 $k$ 满足不等式： $k\leq(\frac{R}{\gamma})^2$ (有限迭代)

表明误分类的次数是有上界的，通过有限次的搜索可以找到分开的超平面，当训练集线性不可分时，感知机算法不收敛。

3.3 对偶算法

对偶形式的基本思路是：将 $w$ 和 $b$ 表示为实例 $x_i$ 和标记 $y_i$ 的线性组合的形式，通过求解其系数求 $w$ 和 $b$ .当 $w$ 和 $b$ 初始值被设置为0的时候，可以得到最后学习的 $w$ 和 $b$ 分别是：
$w=\sum_{i=1}^N\alpha_iy_ix_i$
$b=\sum_{i=1}^N\alpha_iy_i$
其中 $\alpha_i=n_i\eta$ ，当 $\eta=1$ ，表示第 $i$ 个实例点由于误分类而进行更新的次数，实例点更新的越多，表示误分类的次数越多，表示距离超平面越近，越难正确分类。

算法2:对偶形式

感知机模型变成 $f(x)=sign(\sum_{j=1}^N\alpha_jy_jx_j\cdot{x}+b)$

$\alpha\leftarrow0,b\leftarrow0$
在训练集中选取数据
如果 $y_if(x)\leq0$ ,
$\alpha_i\leftarrow \alpha_i+\eta$
$b\leftarrow b+\eta{y_i}$
转到步骤2直到没有误分类数据

可以先把训练实例以Gram矩阵存起来。和原始形式一样，感知机的对偶形式迭代也是收敛的，且存在多个解。

4. python实现

import numpy as np
 
class Perceptron(object):
    """Perceptron classifier.
    Parameters
    ------------
    eta:float,Learning rate (between 0.0 and 1.0)
    n_iter:int,Passes over the training dataset.
     
    Attributes
    -------------
    w_: 1d-array,Weights after fitting.
    errors_: list,Numebr of misclassifications in every epoch.
    """
    def __init__(self,eta=0.01,n_iter=10):
        self.eta = eta
        self.n_iter = n_iter
    def fit(self,X,y):
        """Fit training data.先对权重参数初始化，然后对训练集中每一个样本循环，根据感知机算法学习规则对权重进行更新
        Parameters
        ------------
        X: {array-like}, shape=[n_samples, n_features]
            Training vectors, where n_samples is the number of samples and n_featuers is the number of features.
        y: array-like, shape=[n_smaples]
            Target values.
        Returns
        ----------
        self: object
        """
        self.w_ = np.zeros(1 + X.shape[1]) # add w_0　　　　　#初始化权重。数据集特征维数+1。
        self.errors_ = []#用于记录每一轮中误分类的样本数
         
        for _ in range(self.n_iter):
            errors = 0
            for xi, target in zip(X,y):
                update = self.eta * (target - self.predict(xi))#调用了predict()函数
                self.w_[1:] += update * xi
                self.w_[0] += update
                errors += int(update != 0.0)
            self.errors_.append(errors)
        return self
     
    def net_input(self,X):
        """calculate net input"""
        return np.dot(X,self.w_[1:]) + self.w_[0]#计算向量点乘
     
    def predict(self,X):#预测类别标记
        """return class label after unit step"""
        return np.where(self.net_input(X) >= 0.0,1,-1)

import pandas as pd#用pandas读取数据
import matplotlib.pyplot as plt
import numpy as np
from matplotlib.colors import ListedColormap
 
df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data',header=None)#读取数据还可以用request这个包
print(df.tail())#输出最后五行数据，看一下Iris数据集格式
 

"""抽取出前100条样本，这正好是Setosa和Versicolor对应的样本，我们将Versicolor
对应的数据作为类别1，Setosa对应的作为-1。对于特征，我们抽取出sepal length和petal
length两维度特征，然后用散点图对数据进行可视化"""  
 
y = df.iloc[0:100,4].values
y = np.where(y == 'Iris-setosa',-1,1)
X = df.iloc[0:100,[0,2]].values
plt.scatter(X[:50,0],X[:50,1],color = 'red',marker='o',label='setosa')
plt.scatter(X[50:100,0],X[50:100,1],color='blue',marker='x',label='versicolor')
plt.xlabel('petal length')
plt.ylabel('sepal lenght')
plt.legend(loc='upper left')
plt.show()
 
#train our perceptron model now
#为了更好地了解感知机训练过程，我们将每一轮的误分类
#数目可视化出来，检查算法是否收敛和找到分界线
ppn=Perceptron(eta=0.1,n_iter=10)
ppn.fit(X,y)
plt.plot(range(1,len(ppn.errors_)+1),ppn.errors_,marker='o')
plt.xlabel('Epoches')
plt.ylabel('Number of misclassifications')
plt.show()
 
#画分界线超平面
def plot_decision_region(X,y,classifier,resolution=0.02):
    #setup marker generator and color map
    markers=('s','x','o','^','v')
    colors=('red','blue','lightgreen','gray','cyan')
    cmap=ListedColormap(colors[:len(np.unique(y))])
     
    #plot the desicion surface
    x1_min,x1_max=X[:,0].min()-1,X[:,0].max()+1
    x2_min,x2_max=X[:,1].min()-1,X[:,1].max()+1              
     
    xx1,xx2=np.meshgrid(np.arange(x1_min,x1_max,resolution),
                        np.arange(x2_min,x2_max,resolution))
    Z=classifier.predict(np.array([xx1.ravel(),xx2.ravel()]).T)
    Z=Z.reshape(xx1.shape)
     
    plt.contour(xx1,xx2,Z,alpha=0.4,cmap=cmap)
    plt.xlim(xx1.min(),xx1.max())
    plt.ylim(xx2.min(),xx2.max())
     
    #plot class samples
    for idx,cl in enumerate(np.unique(y)):
        plt.scatter(x=X[y==cl,0],y=X[y==cl,1],alpha=0.8,c=cmap(idx), marker=markers[idx],label=cl)
 
plot_decision_region(X,y,classifier=ppn)
plt.xlabel('sepal length [cm]')
plt.ylabel('petal length [cm]')
plt.legend(loc='upperleft')
plt.show()

5. 参考资料

The Perception：A Probabilistic model for information storage and organization in the Brain

你可能感兴趣的:(统计学习方法)

【统计学习方法读书笔记】（四）朴素贝叶斯法 Y.G Bingo 统计学习方法人工智能统计学习概率概率论
终于到了贝叶斯估计这章了，贝叶斯估计在我心中一直是很重要的地位，不过发现书中只用了不到10页介绍这一章，深度内容后，发现贝叶斯估计的基础公式确实不多，但是由于正态分布在生活中的普遍性，贝叶斯估计才应用的非常多吧！默认输入变量用XXX表示，输出变量用YYY表示概率公式描述：P(X=x)P(X=x)P(X=x)：表示当X=xX=xX=x时的概率P(X=x∣Y=ck)P(X=x|Y=c_k)P(X=x∣
【统计学习方法】感知机 jyyym ml苦手机器学习
一、前言感知机是FrankRosenblatt在1957年就职于康奈尔航空实验室时所发明的一种人工神经网络。它可以被视为一种最简单的前馈神经网络，是一种二元线性分类器。Seemoredetailsinwikipdia感知机.本篇blog将从统计学习方法三要素即模型、策略、算法三个方面介绍感知机，并给出相应代码实现。二、模型假设输入空间是x∈Rnx\in{R^n}x∈Rn，输出空间是y∈{−1,+1
赠书 | 李航老师的蓝皮书茗创科技
赠书活动统计学习方法“统计机器学习方法是实现智能化目标的最有效的手段，统计机器学习是各种智能性处理研究领域中的核心技术，并且在这些领域的发展及应用中起着决定性的作用。”作者简介李航，日本京都大学电气电子工程系毕业，日本东京大学计算机科学博士。北京大学、南京大学客座教授，IEEE会士，ACM杰出科学家，CCF高级会员。研究方向包括信息检索，自然语言处理，统计机器学习，及数据挖掘。曾出版过三部学术专著
统计学习方法（李航）--第二章感知机（比较基础）人間煙火Just
感知机是二分类的线性分类模型，属于判别模型，包括原始形式和对偶形式。（一）感知机模型公式为：f是输出，x是输入，w和b是参数，sign是符号函数（大于0为1，小于0为-1）几何解释：对于特征空间Rn中的一个超平面S，w是S的法向量，b是截距，将超平面空间划分为两个部分，完成2分类任务。（二）学习策略1.数据集的线性可分性：若存在wx+b的超平面可以将数据集完全分割，则称为线性可分。2.学习策略（以
统计学习方法笔记之决策树 Aengus_Sun
更多文章可以访问我的博客Aengus|Blog决策树的概念比较简单，可以将决策树看做一个if-then集合：如果“条件1”，那么...。决策树学习的损失函数通常是正则化后极大似然函数，学习的算法通常是一个递归的选择最优特征，并根据该特征对训练数据进行分割，使得对各个子数据集有一个最好的分类的过程。可以看出，决策树算法一般包含特征选择，决策树的生成与决策树的剪枝过程。特征选择信息增益熵和条件熵在了解
《统计学习方法：李航》笔记从原理到实现（基于python）-- 第6章逻辑斯谛回归与最大熵模型（2）6.2 最大熵模型北方骑马的萝卜机器学习笔记学习方法笔记 python
文章目录6.2最大熵模型6.2.1最大熵原理6.2.3最大熵模型的学习6.2.4极大似然估计《统计学习方法：李航》笔记从原理到实现（基于python）--第3章k邻近邻法《统计学习方法：李航》笔记从原理到实现（基于python）--第1章统计学习方法概论《统计学习方法：李航》笔记从原理到实现（基于python）--第2章感知机《统计学习方法：李航》笔记从原理到实现（基于python）--第3章k邻
贝叶斯的缺点人机与认知实验室机器学习人工智能
贝叶斯方法是一种统计学习方法，通过利用贝叶斯定理来计算给定先验概率的情况下，后验概率的条件概率。虽然贝叶斯方法在许多领域中应用广泛且有效，但也存在一些缺点。以下是一些贝叶斯方法的缺点的例子：1、先验概率的选择贝叶斯方法依赖于先验概率的选择，先验概率的不准确性可能导致后验概率的不准确性。选择先验概率是非常困难的，特别是在没有明确领域知识或可靠数据支持的情况下。2、计算复杂度在贝叶斯方法中，计算后验概
机器学习知识体系总结 qq_36661243 机器学习算法
机器学习知识体系总结什么是机器学习？机器学习体系概括监督学习（SupervisedLearning）十种监督学习方法统计学习方法：模型+策略+学习方法模型策略学习算法无监督学习（UnsupervisedLearning）半监督学习参考所有的知识，无论过去，当下和未来，都可以利用某个单一，通用的学习算法中从数据中获取。–《终极算法》什么是机器学习？机器学习（MachineLearning,ML）是一
白铁时代 —— （监督学习）原理推导人生简洁之道 2020年 -面试笔记人工智能
来自李航《统计学习方法》文章目录-1指标相似度0概论1优化类1.1朴素贝叶斯1.2k近邻-kNN1.3线性判别分析二分类LDA多分类LDA流程LDA和PCA的区别和联系1.4逻辑回归模型&最大熵模型逻辑回归最大熵模型最优化1.5感知机&SVM感知机SVM线性可分SVM线性不可分SVM对偶优化问题&非线性SVM序列最小优化算法SMO1.7概率图模型EM算法EM算法的导出和流程应用举例：高斯混合模型(
最大熵阈值python_李航统计学习方法（六）----逻辑斯谛回归与最大熵模型 weixin_39669638 最大熵阈值python
本文希望通过《统计学习方法》第六章的学习，由表及里地系统学习最大熵模型。文中使用Python实现了逻辑斯谛回归模型的3种梯度下降最优化算法，并制作了可视化动画。针对最大熵，提供一份简明的GIS最优化算法实现，并注解了一个IIS最优化算法的Java实现。本文属于初学者的个人笔记，能力有限，无法对著作中的公式推导做进一步发挥，也无法保证自己的理解是完全正确的，特此说明，恳请指教逻辑斯谛回归模型逻辑斯谛
《统计学习方法：李航》笔记从原理到实现（基于python）-- 第6章逻辑斯谛回归与最大熵模型（1）6.1 逻辑斯谛回归模型北方骑马的萝卜机器学习笔记学习方法笔记 python
文章目录第6章逻辑斯谛回归与最大熵模型6.1逻辑斯谛回归模型6.1.1逻辑斯谛分布6.1.2二项逻辑斯谛回归模型6.1.3模型参数估计6.1.4多项逻辑斯谛回归《统计学习方法：李航》笔记从原理到实现（基于python）--第3章k邻近邻法《统计学习方法：李航》笔记从原理到实现（基于python）--第1章统计学习方法概论《统计学习方法：李航》笔记从原理到实现（基于python）--第2章感知机《统
李航统计学习方法----决策树章节学习笔记以及python代码詹sir的BLOG 大数据 python 决策树算法剪枝
目录1决策树模型2特征选择2.1数据引入2.2信息熵和信息增益3决策树生成3.1ID3算法3.2C4.5算法4决策树的剪枝5CART算法（classificationandregressiontree）5.1回归树算法5.2分类树的生成5.3CART剪枝6PYTHON代码实例决策树算法可以应用于分类问题与回归问题，李航的书中主要讲解的是分类树，构建决策树分为三个过程，分别是特征选择、决策树生成、决
《统计学习方法：李航》笔记从原理到实现（基于python）-- 第5章决策树（代码python实践）北方骑马的萝卜机器学习笔记学习方法笔记 python
文章目录第5章决策树—python实践书上题目5.1利用ID3算法生成决策树，例5.3scikit-learn实例《统计学习方法：李航》笔记从原理到实现（基于python）--第5章决策树第5章决策树—python实践importnumpyasnpimportpandasaspdimportmatplotlib.pyplotasplt%matplotlibinlinefromsklearn.dat
《统计学习方法：李航》笔记从原理到实现（基于python）-- 第4章朴素贝叶斯法北方骑马的萝卜机器学习笔记学习方法笔记 python
文章目录第4章朴素贝叶斯法4.1朴素贝叶斯法的学习与分类4.1.1基本方法4.1.2后验概率最大化的含义4.2朴素贝叶斯法的参数估计4.2.1极大似然估计4.2.2学习与算法4.2.3贝叶斯估计代码实践GaussianNB高斯朴素贝叶斯scikit-learn实例scikit-learn：伯努利模型和多项式模型《统计学习方法：李航》笔记从原理到实现（基于python）--第3章k邻近邻法《统计学习
《统计学习方法：李航》笔记从原理到实现（基于python）-- 第1章统计学习方法概论北方骑马的萝卜机器学习笔记学习方法笔记 python 机器学习
文章目录第1章统计学习方法概论1.1统计学习1．统计学习的特点2．统计学习的对象3．统计学习的目的4．统计学习的方法1.2.1基本概念1.2.2问题的形式化1.3统计学习三要素1.3.1模型1.3.2策略1.3.3算法1.4模型评估与模型选择1.4.1训练误差与测试误差1.4.2过拟合与模型选择1.5正则化与交叉验证1.5.1正则化1.5.2交叉验证1.6泛化能力1.6.1泛化误差1.6.2泛化误
《统计学习方法：李航》笔记从原理到实现（基于python）-- 第 2章感知机北方骑马的萝卜机器学习笔记学习方法笔记 python 机器学习
文章目录第2章感知机2.1感知机模型2.2感知机学习策略2.2.1数据集的线性可分性2.2.2感知机学习策略2.3感知机学习算法2.3.1感知机学习算法的原始形式2.3.2算法的收敛性2.3.3感知机学习算法的对偶形式实践：二分类模型（iris数据集）数据集可视化：Perceptronscikit-learn实例《统计学习方法：李航》笔记从原理到实现（基于python）--第2章感知机《统计学习方
《统计学习方法：李航》笔记从原理到实现（基于python）-- 第3章 k邻近邻法北方骑马的萝卜机器学习笔记学习方法笔记 python
文章目录第3章k邻近邻法3.1k近邻算法3.2k近邻模型3.2.1模型3.2.2距离度量3.2.3k值的选择3.2.4分类决策规则3.3k近邻法的实现：kd树3.3.1构造kd树3.3.2搜索kd树算法实现课本例3.1iris数据集scikit-learn实例kd树:构造平衡kd树算法例3.2《统计学习方法：李航》笔记从原理到实现（基于python）--第3章k邻近邻法《统计学习方法：李航》笔记从
《统计学习方法：李航》笔记从原理到实现（基于python）-- 第5章决策树北方骑马的萝卜机器学习笔记学习方法笔记 python
文章目录第5章决策树5.1决策树模型与学习5.1.1决策树模型5.1.2决策树与if-then规则5.1.3决策树与条件概率分布5.1.4决策树学习5.2特征选择5.2.1特征选择问题5.2.2信息增益5.2.3信息增益比5.3.1ID3算法5.3.2C4.5的生成算法5.4决策树的剪枝5.5CART算法5.5.1CART生成5.5.2CART剪枝《统计学习方法：李航》笔记从原理到实现（基于pyt
自然语言处理发展(自然语言处理发展经历了哪些阶段) 2301_76571514 自然语言处理自然语言处理人工智能
一、历史发展自然语言处理的研究始于20世纪50年代初期，当时的主要任务是理解自然语言，并将其转换为机器语言。随着计算机硬件和软件的不断发展，NLP也得以逐步发展。在20世纪70年代，Chomsky提出了语法结构理论，使NLP的研究进一步深化。此后，人们开始尝试使用统计学习方法来解决NLP中的一些关键问题，例如机器翻译和文本分类等。到了2000年代，随着深度学习和神经网络技术的发展，NLP进一步获得
机器学习、深度学习、自然语言处理基础知识总结北航程序员小C 机器学习专栏人工智能学习专栏深度学习专栏机器学习深度学习自然语言处理
说明机器学习、深度学习、自然语言处理基础知识总结。目前主要参考李航老师的《统计学习方法》一书，也有一些内容例如XGBoost、聚类、深度学习相关内容、NLP相关内容等是书中未提及的。由于github的markdown解析器不支持latex，因此笔记部分需要在本地使用Typora才能正常浏览，也可以直接访问下面给出的博客链接。Document文件夹下为笔记，Code文件夹下为代码，Data文件夹下为
机器学习期末复习总结笔记（李航统计学习方法）在半岛铁盒里机器学习机器学习笔记学习方法
文章目录模型复杂度高---过拟合分类与回归有监督、无监督、半监督正则化生成模型和判别模型感知机KNN朴素贝叶斯决策树SVMAdaboost聚类风险PCA深度学习范数计算梯度下降与随机梯度下降SGD线性回归逻辑回归最大熵模型适用性讨论模型复杂度高—过拟合是什么：当模型复杂度越高，对训练集拟合程度越高，然而对新样本的泛化能力却下降了，此时出现overfitting（过拟合）与泛化能力：模型复杂度与泛化
统计学习方法-第1章-绪论 chiemon
2019June28监督学习统计学习方法-第1章-绪论统计学习分类分类标准类型基本分类监督学习、无监督学习、强化学习按模型分类概率模型、非概率模型（在监督学习中，概率模型是生成模型，非概率模型是判别模型）按算法分类在线学习、批量学习按技巧分类贝叶斯学习、核方法统计学习方法三要素模型在监督学习过程中，模型就是所要学习的条件概率分布或者决策函数。假设空间$\mathcal{F}$输入空间$\mathc
【机器学习】基本模型简易代码整理 _hermit: 机器学习机器学习人工智能学习算法
目录对数几率回归原理损失函数和优化特点和应用支持向量机SVM原理损失函数与优化优点与应用信息增益决策树本文对机器学习课程考试中可能出现的模型代码题进行总结，仅供参考。对数几率回归对数几率回归（LogisticRegression）是机器学习中一种广泛应用的统计学习方法，主要用于二分类问题。尽管其名字中包含“回归”这个词，但实际上它是一种分类算法，而不是传统的回归算法。原理对数几率回归的核心思想是使
机器学习：李航统计学习方法笔记 lealzhan 机器学习算法
詹令[email protected]待整理统计学习方法监督学习非监督学习半监督学习强化学习监督学习方法生成方法GenerativeApproach：P(Y∣X)=P(X,Y)P(X)P(Y|X)=\frac{P(X,Y)}{P(X)}P(Y∣X)=P(X)P(X,Y)朴素贝叶斯模型隐式马尔科夫模型判别方法DiscrimitiveApproach：k近邻/knn线性分类模型感知机
机器学习算法实战案例：确实可以封神了，时间序列预测算法最全总结！ Python算法实战机器学习算法实战机器学习算法人工智能 python
文章目录1、什么是时间序列预测?技术交流2、时间序列预测分类3、时间序列数据的特性4、时序预测评价指标5、基于深度学习的时间序列预测方法5.1统计学习方法5.2机器学习方法5.3卷积神经网络5.4循环神经网络5.5Transformer类模型大家好，今天开始，我给大家分享时间序列预测算法（理论与实战案例），本篇文章从整体上概述什么是时间序列，时间序列的评价指标，及时间序列中常用的预测算法1、什么是
逻辑回归（解决分类问题） Visual code AlCv 人工智能入门逻辑回归回归分类
定义：逻辑回归是一种用于解决分类问题的统计学习方法。它通过对数据进行建模，预测一个事件发生的概率。逻辑回归通常用于二元分类问题，即将数据分为两个类别。它基于线性回归模型，但使用了逻辑函数（也称为S形函数）来将输出限制在0到1之间，表示事件发生的概率。逻辑回归可以通过最大似然估计或梯度下降等方法来进行参数估计，从而得到一个可以用于分类的模型。一、逻辑回归入门在分类肿瘤的例子中，我们将肿瘤分为恶性肿瘤
Machine Learning Series--Linear Regression 22岁开始
前言最近看了李航老师的《统计学习方法》，还正在学习吴恩达老师的《机器学习》的课程（网易公开课上有，较老的版本）。自从看过《统计学习方法》之后，发现笔记不看其实学习效果并不好。因此想以电子版格式写下来记录，一方面加深自己的印象，一方面也是希望能够和大家交流。此版本大致与吴恩达老师的《机器学习》课程一致，因为是结合他的课程以及我之前的《统计学习方法》笔记来写的这一系列文章。以下观点均是本人在学习过程当
统计学习方法笔记之逻辑斯谛模型与最大熵模型 Aengus_Sun
更多文章可以访问我的博客Aengus|Blog逻辑斯谛回归（LogisticRegression）模型是经典的分类方法，而最大熵则是概率模型中学习的一个准则，将其推广到分类问题得到最大熵模型（maximumentropymodel）。两者都属于对数线性模型。逻辑斯谛模型逻辑斯谛分布设是连续随机变量，服从逻辑斯谛分布是指具有以下分布函数和密度函数：其中，是位置参数，为形状参数。逻辑斯谛分布的密度函数
AdaBoost算法的详细数学推导过程！！孤嶋算法人工智能机器学习 AdaBoost
AdaBoost（AdaptiveBoosting）提升（boosting）方法是一种常用的统计学习方法，应用广泛且有效。在分类问题中，它通过改变训练样本的权重，学习多个分类器，并将这些分类器进行线性组合，提高分类的性能。对于分类问题而言，给定一个训练样本集，求比较粗糙的分类规则(弱分类器)要比求精确的分类规则(强分类器)容易得多。提升方法就是从弱学习算法出发，反复学习，得到一系列弱分类器(又称为
逻辑回归（Logistic Regression）草明数据结构与算法人工智能算法机器学习
什么是机器学习逻辑回归（LogisticRegression）虽然名字中包含"回归"一词，但实际上是一种用于解决分类问题的统计学习方法，而不是回归问题。它是一种线性模型，常用于二分类问题，也可以扩展到多分类问题。基本原理模型表示逻辑回归模型假设输入特征的线性组合，然后通过一个称为逻辑函数（也称为sigmoid函数）将结果映射到一个概率值。对于二分类问题，模型表示如下：其中b0,b1,b2,…,bn
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他