贫僧不懂

1.【笔记之】统计学习方法概论

参考文献：李航.统计学习方法[M].北京:清华大学出版社,2018.
该部分笔记全部总结自这本书。

文章目录

1.统计学习方法概论

1.1 统计学习
1.2 监督学习

1.2.1 基本概念
1.2.2 问题的形式化

1.3 统计学习三要素

1.3.2 策略

1.4 模型评估与模型选择

1.4.1 训练误差与测试误差
1.4.2 过拟合与模型选择

1.5 正则化和交叉验证

1.5.1 正则化
1.5.2 交叉验证

1.6 泛化能力

1.6.2 泛化误差上界

1.7 生成模型与判别模型
1.8 分类问题
1.9 案例一
1.10 第二个栗子

1.统计学习方法概论

1.1 统计学习

统计学习的方法：监督学习，非监督学习，半监督学习，强化学习等。
三要素：模型、策略、算法。
- 模型：所有可能的模型的假设空间
- 策略：模型选择的准则
- 算法：模型的具体计算方法。

1.2 监督学习

supervised learning：给定输入，预测输出。

1.2.1 基本概念

输入空间、特征空间与输出空间

输入空间：输入的所有可能取值

输入空间可以是有限的，可以是整个欧氏空间，也可以在同一个空间，也可以不同空间‘通常输出空间远小于输入空间。

特征向量：所有特征向量存在的空间为特征空间。每一维对应一个特征。
模型实际上都是定义在特征空间的。

默认提到的向量均为列向量。

输入实例x的特征向量记作：
$x=(x^{(1)},x^{(2)},x^{(3)},...,x^{(n)})^{T}$
$x^{i}$ 表示x的第i个特征。注意 $x^{i}$ 与 $x_i$ 不同， $x_i$ 表示多个输入变量中的第i个，即：
$x_i=(x^{(1)}_i,x^{(2)}_i,x^{(3)}_i,...,x^{(n)}_i)$

样本点（ $x_i$ , $y_i$ ）,组成样本空间T。

联合概率分布

对于学习系统来说，联合概率分布的具体定义是未知的。训练集与测试集被看作是依据联合分布P(X,Y)独立同分布产生的。

假设空间

模型属于由输入空间到输出空间的映射的集合，这个集合就是假设空间（hypothesis space）。

1.2.2 问题的形式化

（李航统计学习方法书上的图片，下同，不累述了）

1.3 统计学习三要素

之前总结过：点击这里！指标大全！传送门
方法=模型+策略+算法

1.3.2 策略

这块主要就是损失函数和风险函数。
经验风险最小化和结构风险最小化。

1.4 模型评估与模型选择

1.4.1 训练误差与测试误差

当损失函数给定时，基于损失函数的模型的训练误差和模型的测试误差就成为了学习方法评估的准则。

1.4.2 过拟合与模型选择

过拟合：值学习时选择的模型所包含的参数过多，以至于出现这以模型随已知数据预测得很好，但对未知数据预测的很差的现象。

常用的两个模型选择方法：正则化、交叉验证

1.5 正则化和交叉验证

1.5.1 正则化

正则化：是结构风险最小化策略，是在经验风险后加一个正则化项或罚项。
正则化一般具有如下形式：
$\min = \frac1N \sum_{i=1}^{N} L(y_i,f(x_i))+\lambda J(f)$

在回归问题中：
L2范数的平方损失函数： $L(\omega)=\frac1N \sum_{i=1}^{N}(f(x_i;\omega)-y_i)^2 + \frac{\lambda}{2} ||\omega||^2$
L1范数： $L(\omega)=\frac1N \sum_{i=1}^{N}(f(x_i;\omega)-y_i)^2 + {\lambda} ||\omega||_1$

正则化符合奥卡姆剃刀原理：从所有可能选择的模型里面选择解释性很好的并且十分简单的模型。

从贝叶斯估计的角度看，正则化项对应于模型的先验概率。可以假设复杂的模型有较小的先验概率，简单的模型有较大的先验概率。

1.5.2 交叉验证

训练集（trainning set）、测试集(test set)、验证集(validation set)
简单交叉验证：70%训练集，30%测试集。
S折交叉验证：一般选用10折交叉验证，选用S折平均误差最小的模型。
留一法：用于数据量较少的情况，S=N，N为数据量。

1.6 泛化能力

通过比较两个模型的泛化误差上界来比较他们的优劣。
泛化误差就是模型的期望风险：
- 它是样本容量的函数，当样本容量增加时，泛化上界趋于0
- 它是假设空间容量的函数，当假设空间越大，模型越难学，泛化误差上界就越大。

1.6.2 泛化误差上界

对于一个二分类问题，假设空间是有限个函数的集合 $\digamma={\{f_1,f_2,f_3,...,f_d\} }$ 时，对于任意一个函数，至少以概率 $1-\delta$ ，以下不等式成立：
$R(f)=\widehat R(f) + \varepsilon (d,N,\delta)$
其中： $\varepsilon(d,N,\delta)=\sqrt{\frac1{2N}(\log d + \log {\frac1{\delta}})}$

这里要用到Hoeffding 不等式：

设 $S_n=\sum_{i=1}^n X_i$ 是独立随机变量 $X_1,X_2,X_3,...,X_n$ 之和， $X_i \in [a_i,b_i]$ ,则对任意t>0，以下不等式成立：

$P(ES_n-S_n \geq t) \leq exp(\frac{-2t^2}{\sum_{i=1}^n (b_i-a_i)^2})$

对任意函数 $\in \digamma$ ， $\widehat R(f)$ 是N个独立的随机变量L(Y,f(X))的样本均值，R(f)是随机变量L(Y,f(x))的期望值。如果损失函数取值于区间[0,1]，即对所有i， $a_i,b_i]=[0,1]$ ，那么，对于 $\varepsilon > 0$ ,以下不等式成立：

$P(R(f)-\widehat R(f) \geq \varepsilon) \leq exp(-2N \varepsilon ^2)$

1.7 生成模型与判别模型

监督学习=生成模型：
$P(Y|X)=\frac{P(X,Y)}{P(X)}$

生成模型：模型表示给定输入X产生输出Y的生成关系，典型的是朴素贝叶斯法和隐马尔可夫模型。

判别模型：由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测模型。典型的是：K近邻、感知机、决策树、logistic、支持向量机、提升树、条件随机场。

生成方法可以还原联合概率分布P(X,Y)，而判别方式则不能；生成模型的学习收敛速度快。

1.8 分类问题

TN,TP,FN,FP

这篇文章总结的特别详细：评价指标大全！点这里，传送门！

1.9 案例一

leastsq(func, x0, args=(), Dfun=None,  
        full_output=0, col_deriv=0, ftol=1.49012e-08,  
        xtol=1.49012e-08, gtol=0.0, maxfev=0,   
        epsfcn=None, factor=100, diag=None)

这里会使用到的参数只有前三个：

func:误差函数（损失函数）
x0：函数的参数
args()：数据点（样本对）

这里目标拟合一个 $y= \cos 2 \pi x$ ,然后加上一个正太分布的噪声干扰，用多项式去拟合，并绘图

import numpy as np
from scipy.optimize import leastsq
import matplotlib.pyplot as plt
## 定义函数
def func(x):
    return np.cos(2*np.pi*x)
    
## 生成一个多项式
def polynomial(p,x):
    f = np.polyld(p)
    return f(x)

## 残差
def residuals(p,x,y):
    return  polynomial(p,x)-y ## 实际参数在这里设置好了

#20个点
x = np.linspace(0,1,20)
## 加上正态分布的噪声
y=func(x)
yi= [np.random.normal(0,0.1) + y1 for y1 in y]

def fitting(p):
    para=np.random.rand(p+1) # 随便设置一组默认参数
    r=leastsq(residuals,para,args=(x,yi))
    print('fitting parameters:',r[0]) # 第一个是参数
    
    # 可视化
    a=np.linspace(0,1,1000)
    plt.plot(a,func(a),label='real')
    plt.plot(a,polynomial(r[0],a),label='fitted')
    plt.plot(x,yi,'bo',label='noise')
    plt.legend()
    return r

用常数拟合

r_0=fitting(0)

结果如图：

用三阶、四阶、十九阶去拟合
这个绘图方法在matplotlib.plot总结过了，传送门这里，点击！

p1=plt.figure(figsize=(15,7),dpi=111)
pic1=p1.add_subplot(1,3,1) #一行三列的第一幅图
r_3=fitting(3)
pic2=p1.add_subplot(1,3,2)
r_4=fitting(4)
pic3=p1.add_subplot(1,3,3)
r_20=fitting(19)

结果如图：

很明显三阶欠拟合，四阶刚刚好，十九阶过拟合。

1.10 第二个栗子

这里引入L2范数，也就是岭回归。假设lambda=0.0001

def regularization(p,x,y):
    reg= polynomial(p,x)-yi
    reg=np.append(reg,np.sqrt(0.5*0.0001*np.square(p)))
    return reg
    
def fitting1(p=19):
    para=np.random.rand(p+1) # 随便设置一组默认参数
    r_19=leastsq(regularization,para,args=(x,yi))
    print('fitting parameters:',r_19[0]) # 第一个是参数
    
    # 可视化
    a=np.linspace(0,1,1000)
    plt.plot(a,func(a),label='real')
    plt.plot(a,polynomial(r_19[0],a),label='fitted')
    plt.plot(x,yi,'bo',label='noise')
    plt.legend()
    
    return r_19
fitting1()

看橙黄色那条，加入正则化之后，明显与紫色那条对比，矫正了过拟合现象。

你可能感兴趣的:(统计学习方法)

【统计学习方法读书笔记】（四）朴素贝叶斯法 Y.G Bingo 统计学习方法人工智能统计学习概率概率论
终于到了贝叶斯估计这章了，贝叶斯估计在我心中一直是很重要的地位，不过发现书中只用了不到10页介绍这一章，深度内容后，发现贝叶斯估计的基础公式确实不多，但是由于正态分布在生活中的普遍性，贝叶斯估计才应用的非常多吧！默认输入变量用XXX表示，输出变量用YYY表示概率公式描述：P(X=x)P(X=x)P(X=x)：表示当X=xX=xX=x时的概率P(X=x∣Y=ck)P(X=x|Y=c_k)P(X=x∣
【统计学习方法】感知机 jyyym ml苦手机器学习
一、前言感知机是FrankRosenblatt在1957年就职于康奈尔航空实验室时所发明的一种人工神经网络。它可以被视为一种最简单的前馈神经网络，是一种二元线性分类器。Seemoredetailsinwikipdia感知机.本篇blog将从统计学习方法三要素即模型、策略、算法三个方面介绍感知机，并给出相应代码实现。二、模型假设输入空间是x∈Rnx\in{R^n}x∈Rn，输出空间是y∈{−1,+1
赠书 | 李航老师的蓝皮书茗创科技
赠书活动统计学习方法“统计机器学习方法是实现智能化目标的最有效的手段，统计机器学习是各种智能性处理研究领域中的核心技术，并且在这些领域的发展及应用中起着决定性的作用。”作者简介李航，日本京都大学电气电子工程系毕业，日本东京大学计算机科学博士。北京大学、南京大学客座教授，IEEE会士，ACM杰出科学家，CCF高级会员。研究方向包括信息检索，自然语言处理，统计机器学习，及数据挖掘。曾出版过三部学术专著
统计学习方法（李航）--第二章感知机（比较基础）人間煙火Just
感知机是二分类的线性分类模型，属于判别模型，包括原始形式和对偶形式。（一）感知机模型公式为：f是输出，x是输入，w和b是参数，sign是符号函数（大于0为1，小于0为-1）几何解释：对于特征空间Rn中的一个超平面S，w是S的法向量，b是截距，将超平面空间划分为两个部分，完成2分类任务。（二）学习策略1.数据集的线性可分性：若存在wx+b的超平面可以将数据集完全分割，则称为线性可分。2.学习策略（以
统计学习方法笔记之决策树 Aengus_Sun
更多文章可以访问我的博客Aengus|Blog决策树的概念比较简单，可以将决策树看做一个if-then集合：如果“条件1”，那么...。决策树学习的损失函数通常是正则化后极大似然函数，学习的算法通常是一个递归的选择最优特征，并根据该特征对训练数据进行分割，使得对各个子数据集有一个最好的分类的过程。可以看出，决策树算法一般包含特征选择，决策树的生成与决策树的剪枝过程。特征选择信息增益熵和条件熵在了解
《统计学习方法：李航》笔记从原理到实现（基于python）-- 第6章逻辑斯谛回归与最大熵模型（2）6.2 最大熵模型北方骑马的萝卜机器学习笔记学习方法笔记 python
文章目录6.2最大熵模型6.2.1最大熵原理6.2.3最大熵模型的学习6.2.4极大似然估计《统计学习方法：李航》笔记从原理到实现（基于python）--第3章k邻近邻法《统计学习方法：李航》笔记从原理到实现（基于python）--第1章统计学习方法概论《统计学习方法：李航》笔记从原理到实现（基于python）--第2章感知机《统计学习方法：李航》笔记从原理到实现（基于python）--第3章k邻
贝叶斯的缺点人机与认知实验室机器学习人工智能
贝叶斯方法是一种统计学习方法，通过利用贝叶斯定理来计算给定先验概率的情况下，后验概率的条件概率。虽然贝叶斯方法在许多领域中应用广泛且有效，但也存在一些缺点。以下是一些贝叶斯方法的缺点的例子：1、先验概率的选择贝叶斯方法依赖于先验概率的选择，先验概率的不准确性可能导致后验概率的不准确性。选择先验概率是非常困难的，特别是在没有明确领域知识或可靠数据支持的情况下。2、计算复杂度在贝叶斯方法中，计算后验概
机器学习知识体系总结 qq_36661243 机器学习算法
机器学习知识体系总结什么是机器学习？机器学习体系概括监督学习（SupervisedLearning）十种监督学习方法统计学习方法：模型+策略+学习方法模型策略学习算法无监督学习（UnsupervisedLearning）半监督学习参考所有的知识，无论过去，当下和未来，都可以利用某个单一，通用的学习算法中从数据中获取。–《终极算法》什么是机器学习？机器学习（MachineLearning,ML）是一
白铁时代 —— （监督学习）原理推导人生简洁之道 2020年 -面试笔记人工智能
来自李航《统计学习方法》文章目录-1指标相似度0概论1优化类1.1朴素贝叶斯1.2k近邻-kNN1.3线性判别分析二分类LDA多分类LDA流程LDA和PCA的区别和联系1.4逻辑回归模型&最大熵模型逻辑回归最大熵模型最优化1.5感知机&SVM感知机SVM线性可分SVM线性不可分SVM对偶优化问题&非线性SVM序列最小优化算法SMO1.7概率图模型EM算法EM算法的导出和流程应用举例：高斯混合模型(
最大熵阈值python_李航统计学习方法（六）----逻辑斯谛回归与最大熵模型 weixin_39669638 最大熵阈值python
本文希望通过《统计学习方法》第六章的学习，由表及里地系统学习最大熵模型。文中使用Python实现了逻辑斯谛回归模型的3种梯度下降最优化算法，并制作了可视化动画。针对最大熵，提供一份简明的GIS最优化算法实现，并注解了一个IIS最优化算法的Java实现。本文属于初学者的个人笔记，能力有限，无法对著作中的公式推导做进一步发挥，也无法保证自己的理解是完全正确的，特此说明，恳请指教逻辑斯谛回归模型逻辑斯谛
《统计学习方法：李航》笔记从原理到实现（基于python）-- 第6章逻辑斯谛回归与最大熵模型（1）6.1 逻辑斯谛回归模型北方骑马的萝卜机器学习笔记学习方法笔记 python
文章目录第6章逻辑斯谛回归与最大熵模型6.1逻辑斯谛回归模型6.1.1逻辑斯谛分布6.1.2二项逻辑斯谛回归模型6.1.3模型参数估计6.1.4多项逻辑斯谛回归《统计学习方法：李航》笔记从原理到实现（基于python）--第3章k邻近邻法《统计学习方法：李航》笔记从原理到实现（基于python）--第1章统计学习方法概论《统计学习方法：李航》笔记从原理到实现（基于python）--第2章感知机《统
李航统计学习方法----决策树章节学习笔记以及python代码詹sir的BLOG 大数据 python 决策树算法剪枝
目录1决策树模型2特征选择2.1数据引入2.2信息熵和信息增益3决策树生成3.1ID3算法3.2C4.5算法4决策树的剪枝5CART算法（classificationandregressiontree）5.1回归树算法5.2分类树的生成5.3CART剪枝6PYTHON代码实例决策树算法可以应用于分类问题与回归问题，李航的书中主要讲解的是分类树，构建决策树分为三个过程，分别是特征选择、决策树生成、决
《统计学习方法：李航》笔记从原理到实现（基于python）-- 第5章决策树（代码python实践）北方骑马的萝卜机器学习笔记学习方法笔记 python
文章目录第5章决策树—python实践书上题目5.1利用ID3算法生成决策树，例5.3scikit-learn实例《统计学习方法：李航》笔记从原理到实现（基于python）--第5章决策树第5章决策树—python实践importnumpyasnpimportpandasaspdimportmatplotlib.pyplotasplt%matplotlibinlinefromsklearn.dat
《统计学习方法：李航》笔记从原理到实现（基于python）-- 第4章朴素贝叶斯法北方骑马的萝卜机器学习笔记学习方法笔记 python
文章目录第4章朴素贝叶斯法4.1朴素贝叶斯法的学习与分类4.1.1基本方法4.1.2后验概率最大化的含义4.2朴素贝叶斯法的参数估计4.2.1极大似然估计4.2.2学习与算法4.2.3贝叶斯估计代码实践GaussianNB高斯朴素贝叶斯scikit-learn实例scikit-learn：伯努利模型和多项式模型《统计学习方法：李航》笔记从原理到实现（基于python）--第3章k邻近邻法《统计学习
《统计学习方法：李航》笔记从原理到实现（基于python）-- 第1章统计学习方法概论北方骑马的萝卜机器学习笔记学习方法笔记 python 机器学习
文章目录第1章统计学习方法概论1.1统计学习1．统计学习的特点2．统计学习的对象3．统计学习的目的4．统计学习的方法1.2.1基本概念1.2.2问题的形式化1.3统计学习三要素1.3.1模型1.3.2策略1.3.3算法1.4模型评估与模型选择1.4.1训练误差与测试误差1.4.2过拟合与模型选择1.5正则化与交叉验证1.5.1正则化1.5.2交叉验证1.6泛化能力1.6.1泛化误差1.6.2泛化误
《统计学习方法：李航》笔记从原理到实现（基于python）-- 第 2章感知机北方骑马的萝卜机器学习笔记学习方法笔记 python 机器学习
文章目录第2章感知机2.1感知机模型2.2感知机学习策略2.2.1数据集的线性可分性2.2.2感知机学习策略2.3感知机学习算法2.3.1感知机学习算法的原始形式2.3.2算法的收敛性2.3.3感知机学习算法的对偶形式实践：二分类模型（iris数据集）数据集可视化：Perceptronscikit-learn实例《统计学习方法：李航》笔记从原理到实现（基于python）--第2章感知机《统计学习方
《统计学习方法：李航》笔记从原理到实现（基于python）-- 第3章 k邻近邻法北方骑马的萝卜机器学习笔记学习方法笔记 python
文章目录第3章k邻近邻法3.1k近邻算法3.2k近邻模型3.2.1模型3.2.2距离度量3.2.3k值的选择3.2.4分类决策规则3.3k近邻法的实现：kd树3.3.1构造kd树3.3.2搜索kd树算法实现课本例3.1iris数据集scikit-learn实例kd树:构造平衡kd树算法例3.2《统计学习方法：李航》笔记从原理到实现（基于python）--第3章k邻近邻法《统计学习方法：李航》笔记从
《统计学习方法：李航》笔记从原理到实现（基于python）-- 第5章决策树北方骑马的萝卜机器学习笔记学习方法笔记 python
文章目录第5章决策树5.1决策树模型与学习5.1.1决策树模型5.1.2决策树与if-then规则5.1.3决策树与条件概率分布5.1.4决策树学习5.2特征选择5.2.1特征选择问题5.2.2信息增益5.2.3信息增益比5.3.1ID3算法5.3.2C4.5的生成算法5.4决策树的剪枝5.5CART算法5.5.1CART生成5.5.2CART剪枝《统计学习方法：李航》笔记从原理到实现（基于pyt
自然语言处理发展(自然语言处理发展经历了哪些阶段) 2301_76571514 自然语言处理自然语言处理人工智能
一、历史发展自然语言处理的研究始于20世纪50年代初期，当时的主要任务是理解自然语言，并将其转换为机器语言。随着计算机硬件和软件的不断发展，NLP也得以逐步发展。在20世纪70年代，Chomsky提出了语法结构理论，使NLP的研究进一步深化。此后，人们开始尝试使用统计学习方法来解决NLP中的一些关键问题，例如机器翻译和文本分类等。到了2000年代，随着深度学习和神经网络技术的发展，NLP进一步获得
机器学习、深度学习、自然语言处理基础知识总结北航程序员小C 机器学习专栏人工智能学习专栏深度学习专栏机器学习深度学习自然语言处理
说明机器学习、深度学习、自然语言处理基础知识总结。目前主要参考李航老师的《统计学习方法》一书，也有一些内容例如XGBoost、聚类、深度学习相关内容、NLP相关内容等是书中未提及的。由于github的markdown解析器不支持latex，因此笔记部分需要在本地使用Typora才能正常浏览，也可以直接访问下面给出的博客链接。Document文件夹下为笔记，Code文件夹下为代码，Data文件夹下为
机器学习期末复习总结笔记（李航统计学习方法）在半岛铁盒里机器学习机器学习笔记学习方法
文章目录模型复杂度高---过拟合分类与回归有监督、无监督、半监督正则化生成模型和判别模型感知机KNN朴素贝叶斯决策树SVMAdaboost聚类风险PCA深度学习范数计算梯度下降与随机梯度下降SGD线性回归逻辑回归最大熵模型适用性讨论模型复杂度高—过拟合是什么：当模型复杂度越高，对训练集拟合程度越高，然而对新样本的泛化能力却下降了，此时出现overfitting（过拟合）与泛化能力：模型复杂度与泛化
统计学习方法-第1章-绪论 chiemon
2019June28监督学习统计学习方法-第1章-绪论统计学习分类分类标准类型基本分类监督学习、无监督学习、强化学习按模型分类概率模型、非概率模型（在监督学习中，概率模型是生成模型，非概率模型是判别模型）按算法分类在线学习、批量学习按技巧分类贝叶斯学习、核方法统计学习方法三要素模型在监督学习过程中，模型就是所要学习的条件概率分布或者决策函数。假设空间$\mathcal{F}$输入空间$\mathc
【机器学习】基本模型简易代码整理 _hermit: 机器学习机器学习人工智能学习算法
目录对数几率回归原理损失函数和优化特点和应用支持向量机SVM原理损失函数与优化优点与应用信息增益决策树本文对机器学习课程考试中可能出现的模型代码题进行总结，仅供参考。对数几率回归对数几率回归（LogisticRegression）是机器学习中一种广泛应用的统计学习方法，主要用于二分类问题。尽管其名字中包含“回归”这个词，但实际上它是一种分类算法，而不是传统的回归算法。原理对数几率回归的核心思想是使
机器学习：李航统计学习方法笔记 lealzhan 机器学习算法
詹令[email protected]待整理统计学习方法监督学习非监督学习半监督学习强化学习监督学习方法生成方法GenerativeApproach：P(Y∣X)=P(X,Y)P(X)P(Y|X)=\frac{P(X,Y)}{P(X)}P(Y∣X)=P(X)P(X,Y)朴素贝叶斯模型隐式马尔科夫模型判别方法DiscrimitiveApproach：k近邻/knn线性分类模型感知机
机器学习算法实战案例：确实可以封神了，时间序列预测算法最全总结！ Python算法实战机器学习算法实战机器学习算法人工智能 python
文章目录1、什么是时间序列预测?技术交流2、时间序列预测分类3、时间序列数据的特性4、时序预测评价指标5、基于深度学习的时间序列预测方法5.1统计学习方法5.2机器学习方法5.3卷积神经网络5.4循环神经网络5.5Transformer类模型大家好，今天开始，我给大家分享时间序列预测算法（理论与实战案例），本篇文章从整体上概述什么是时间序列，时间序列的评价指标，及时间序列中常用的预测算法1、什么是
逻辑回归（解决分类问题） Visual code AlCv 人工智能入门逻辑回归回归分类
定义：逻辑回归是一种用于解决分类问题的统计学习方法。它通过对数据进行建模，预测一个事件发生的概率。逻辑回归通常用于二元分类问题，即将数据分为两个类别。它基于线性回归模型，但使用了逻辑函数（也称为S形函数）来将输出限制在0到1之间，表示事件发生的概率。逻辑回归可以通过最大似然估计或梯度下降等方法来进行参数估计，从而得到一个可以用于分类的模型。一、逻辑回归入门在分类肿瘤的例子中，我们将肿瘤分为恶性肿瘤
Machine Learning Series--Linear Regression 22岁开始
前言最近看了李航老师的《统计学习方法》，还正在学习吴恩达老师的《机器学习》的课程（网易公开课上有，较老的版本）。自从看过《统计学习方法》之后，发现笔记不看其实学习效果并不好。因此想以电子版格式写下来记录，一方面加深自己的印象，一方面也是希望能够和大家交流。此版本大致与吴恩达老师的《机器学习》课程一致，因为是结合他的课程以及我之前的《统计学习方法》笔记来写的这一系列文章。以下观点均是本人在学习过程当
统计学习方法笔记之逻辑斯谛模型与最大熵模型 Aengus_Sun
更多文章可以访问我的博客Aengus|Blog逻辑斯谛回归（LogisticRegression）模型是经典的分类方法，而最大熵则是概率模型中学习的一个准则，将其推广到分类问题得到最大熵模型（maximumentropymodel）。两者都属于对数线性模型。逻辑斯谛模型逻辑斯谛分布设是连续随机变量，服从逻辑斯谛分布是指具有以下分布函数和密度函数：其中，是位置参数，为形状参数。逻辑斯谛分布的密度函数
AdaBoost算法的详细数学推导过程！！孤嶋算法人工智能机器学习 AdaBoost
AdaBoost（AdaptiveBoosting）提升（boosting）方法是一种常用的统计学习方法，应用广泛且有效。在分类问题中，它通过改变训练样本的权重，学习多个分类器，并将这些分类器进行线性组合，提高分类的性能。对于分类问题而言，给定一个训练样本集，求比较粗糙的分类规则(弱分类器)要比求精确的分类规则(强分类器)容易得多。提升方法就是从弱学习算法出发，反复学习，得到一系列弱分类器(又称为
逻辑回归（Logistic Regression）草明数据结构与算法人工智能算法机器学习
什么是机器学习逻辑回归（LogisticRegression）虽然名字中包含"回归"一词，但实际上是一种用于解决分类问题的统计学习方法，而不是回归问题。它是一种线性模型，常用于二分类问题，也可以扩展到多分类问题。基本原理模型表示逻辑回归模型假设输入特征的线性组合，然后通过一个称为逻辑函数（也称为sigmoid函数）将结果映射到一个概率值。对于二分类问题，模型表示如下：其中b0,b1,b2,…,bn
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他