李航统计学习方法第37页

《统计学习方法》学习笔记（4）--k近邻法及常用的距离（or 相似度）度量

一、k近邻法基础知识1.特征空间中两个实例点的距离反应了两个实例点的相似程度。2.k近邻模型三要素=距离度量（有不同的距离度量所确定的最邻近点不同）+k值的选择（应用中，k值一般取一个比较小的值，通常采用交叉验证法来确定最优k值）+分类决策规则（往往是多数表决规则（majorityvotingrule），此规则等价于经验风险最小化）3.在训练数据量太大或者是维数很高时，显然线性扫描（linears

蓁蓁尔·2020-06-27 07:27

全网最通俗的条件随机场CRF

首先不管是csdn还是知乎，大部分讲解CRF的博文基本都是“取材”自《统计学习方法》没有个人理解，《统计学习方法》是本很好

爱编程真是太好了·2020-06-27 04:35

分类与回归树（classification and regression tree，CART）之回归

分类与回归树（classificationandregressiontree，CART）之回归写在前面：因为正在看提升树，所以又去看了李航老师《统计学习方法》的CART算法的回归部分，看完莫名想起了本科导师的名言

天泽28·2020-06-27 03:06

《统计学习方法》系列（4）

本篇对应全书第四章，讲的是朴素贝叶斯法。朴素贝叶斯（NaiveBayes）是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对给定的输入xxx，利用贝叶斯定理求出后验概率最大的输出yyy。1、理论讲解1.1、模型原理设输入空间X⊆Rn\mathbfX\subseteq\mathbfR^nX⊆Rn为nnn

Pikachu5808·2020-06-27 03:13

《统计学习方法》系列（5）

本篇对应全书第五章，讲的是决策树。决策树（decisiontree）是一种基本的分类与回归方法。决策树模型呈树形结构，在分类问题中，表示基于特征对实例进行分类的过程。决策树学习通常包括3个步骤：特征选择、决策树的生成和决策树的修剪。决策树学习常用的算法有ID3、C4.5和CART。1、理论讲解 ID3和C4.5生成的决策树只能用于分类问题，而CART生成的决策树既可用于分类问题也可用于回归问

Pikachu5808·2020-06-27 03:13

隐马尔可夫模型

本文是《统计学习方法》第10章的笔记，用一段167行的Python代码实现了隐马模型观测序列的生成、前向后向算法、Baum-Welch无监督训练、维特比算法。公式与代码相互对照，循序渐进。

千寻～·2020-06-27 01:24

《统计学习方法》决策树 CART生成算法回归树 Python实现

代码可在Github上下载:代码下载先说明一下在看《统计学习方法》Cart回归树的时候懵懵的，也没又例子。然后发现《机器学习实战》P162有讲到这个，仔细看了一下。

火烫火烫的·2020-06-26 20:27

人工智能技术体系-机器学习基础第一讲

1.基础学习资料（1）统计学习方法-李航著此书偏向原理和推导。包括对感知机、k近邻算法、朴素贝叶斯法、决策树、逻辑斯谛回归、支持向量机（SVM）等详细定义和描述。契合上篇文章中的技术体系图内容。

五癫·2020-06-26 19:37

经验分布函数理解

0废话前言在阅读统计学习方法时，遇到经验分布，对于数学渣渣来说，有必要去深究一下，然后发现是如此的简单。1正文简介（数学语言）经验分布函数是与样本经验测度相关的分布函数。

tian_panda·2020-06-26 19:04

《统计学习方法》第8章_提升方法

importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_split#参考《统计学习方法

Vanish-KENAN·2020-06-26 18:03

《统计学习方法》第6章_逻辑斯蒂回归与最大熵模型

逻辑斯蒂回归#encoding:utf-8frommathimportexpimportnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitclassLogisticReress

Vanish-KENAN·2020-06-26 18:03

《统计学习方法》第5章_决策树

书中例题5.1#encoding:utf-8importnumpyasnpimportpandasaspdfrommathimportlogdefcreate_data():datasets=[['青年','否','否','一般','否'],['青年','否','否','好','否'],['青年','是','否','好','是'],['青年','是','是','一般','是'],['青年','否'

Vanish-KENAN·2020-06-26 18:03

《统计学习方法》第7章_支持向量机

importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitimportmatplotlib.pyplotasplt#数据集defcreate_data():iris=load_iris()df=pd.DataFrame(iris

Vanish-KENAN·2020-06-26 18:03

统计学习方法第6章逻辑斯谛回归与最大熵模型（1）

统计学习方法第6章逻辑斯谛回归与最大熵模型（1）逻辑斯谛分布设X是连续随机变量，X服从逻辑斯谛分布是指X具有下列分布函数和密度函数：其中μ为位置参数，γ为形状参数。

super_chicken·2020-06-26 16:37

CART回归树算法过程

但是在李航老师的《统计学习方法》一书中，并没有详细介绍回归树，更多的是介绍分类树，所以有必要对CART回归树进行简单介绍，有利于对CART树用于回归的操作，因为后续GBDT算法也是在CART回归树的基础上进行的

IT独白者·2020-06-26 15:03

统计学习方法 | k近邻法

01起K近邻法（KNN）是一种基本的分类与回归方法分类这种需求，渗透到我们生活的方方面面：根据学生德智体美成绩，将学生分为几类根据一个县城的GDP、人口密度等数据，将全国的县城分为多个类别根据客户的信用、收入、生活习惯将客户分为多个类别……分类算法可以帮助我们完成这些繁琐的操作，并根据我们的要求不断修正分类结果。分类算法其实蛮多的，这里顺着书本顺序，详细讲解KNN算法，再与K-Means、K-Me

邓莎·2020-06-26 15:48

统计学习方法 | 决策树

01决策树定义之前我们学习了两种分类方法：K近邻(KNN)朴素贝叶斯(NaiveBayes)今天我们来学习另一种分类方法——决策树在开始学习之前，先提出一个问题：这三种分类方法的区别是什么呢？分别适用什么场景呢？好了，带着疑问，我们开始学习决策树~决策树是什么？它是一种基本的分类与回归的方法，可以认为是if-then规则的集合，决策树分类时，将某结点的实例强行分到条件概率大的那一类中去。下面我们主

邓莎·2020-06-26 15:48

支持向量机SVM的策略和过拟合问题

统计学习方法由三要素构成：模型，策略和算法。

海晨威·2020-06-26 13:09

图解GBDT的构造和预测过程

参考《统计学习方法》P149中的例子，说明GBDT的构造和预测过程。

海晨威·2020-06-26 13:09

EM算法学习记录

本文主要内容来自于《统计学习方法》，主要分为以下部分：极大似然估计EM算法EM算法是用于含有隐变量的概率模型参数的极大似然估计，或极大后验概率估计，每次迭代由两步组成：E步，求期望；M步，求极大。

苏点儿·2020-06-26 11:05

理解支持向量机（二）核函数

由之前对核函数的定义（见统计学习方法定义7.6）：设χ是输入空间（欧氏空间或离散集合），Η为特征空间（希尔伯特空间），如果存在一个从χ到Η的映射φ(x):χ→Η使得对所有的x,z∈χ,函数Κ(x,z)=

火贪三刀·2020-06-26 09:19

隐马尔科夫模型（Hidden Markov Model，HMM）

前言在李航的《统计学方法》第十章有对隐马尔科夫模型（HiddenMarkovModel，HMM）比较详细的介绍和推导公式，我参考公式结合中文分词应用实现了隐马模型观测序列的生成、前向算法、维特比算法。

狮子座明仔·2020-06-26 09:45

提升树GBDT详解

提升树GBDT详解参考资料及博客：李航《统计学习方法》GradientBoostingwikiGBDT理解二三事GBDT（MART）迭代决策树入门教程|简介前言ForXgboost:在前几篇笔记中以及详细介绍了决策树及提升方法的相关原理知识

我曾经被山河大海跨过·2020-06-26 07:22

文本摘要(text summarization)五: 统计模型（text_pronouns、text_teaser，feature-base）

统计学习方法，即便是在今天，基于统计的文本摘要模型，也是一个重要的baseline，以及高并发复杂条件下的有效算法。

Macropodus·2020-06-26 05:26

对于EM算法的理解，看这一篇就够了

其中对EM有两种理解，第一种是通俗的简单理解，另外一种对应的是李航的《统计学习方法》中的解释，其实两种理解都是一样的，只是角度不同，今天主要将一下通俗理解，改天有空再详细讲解一下《统计学习方法》的讲解（

近光·2020-06-26 05:42

决策树之信息增益计算模拟

决策树算法有一个关键步骤就是最优特征的选择，利用信息增益算法选择该特征，例子来自于《统计学习方法》利用MATLAB2017A版本，编写MATLAB程序计算之，将上述的数据保存到data5.xlsx中clear

qshbbh·2020-06-26 04:20

机器学习 AdaBoost算法的MATLAB实现

继续实现《统计学习方法》的集成学习的算法，算法如下：采用MATLAB2017A版本实现，最后和MATLAB自带的算法进行了比较clear;clc;closeall%待分类的数据，第一行x，第二行ydata

qshbbh·2020-06-26 04:20

CH4朴素贝叶斯法|4.2.3贝叶斯估计《统计学习方法》-学习笔记

文章原创,最近更新：2018-06-23参考链接:1、理解朴素贝叶斯分类的拉普拉斯平滑前言：通过参考《理解朴素贝叶斯分类的拉普拉斯平滑》的方法结合李航的案例写的读书笔记,根据自己的理解写的文章,具体如下

durian221783310·2020-06-26 03:51

机器学习-笔记目录

吴恩达的网课《深度学习》共5个部分周志华的西瓜书《机器学习》李航的《统计学习方法》斋藤康毅的《深度学习入门》TomHope,YehezkelS.ResheffItayLieder《Tensorflow学习指南

mayavii·2020-06-26 00:48

统计学习方法(4) GBDT算法解释与Python实现

回归树统计学习的部分也差不多该结束了，我希望以当前最效果最好的一种统计学习模型，Xgboost的原型GBDT来结尾。GBDT的基础是CART决策树。在CART基学习器上使用boosting，形成更好的集成学习器，就是GBDT的思想。CART在离散特征上的表现并不特别，也就是把我们之前学过的C4.5树用基尼系数划分。但在连续特征上使用树算法进行拟合回归就并没有那么轻松，一是划分标准不容易确定，二是决

Hαlcyon·2020-06-25 21:28

[机器学习] 感知机原理（Perceptron）

方法适用问题模型特点模型类型学习策略学习的损失函数学习算法感知机二类分类分离超平面判别模型极小化误分点到超平面距离误分点到超平面距离随机梯度下降算法感知机是《统计学习方法》第二章的内容，也是机器学习众多方法中的第一个

三个半_Z·2020-06-25 21:40

梯度下降法、随机梯度下降法、批量梯度下降法及牛顿法、拟牛顿法、共轭梯度法

http://ihoge.cn/2018/GradientDescent.htmlhttp://ihoge.cn/2018/newton1.html引言李航老师在《统计学习方法》中将机器学习的三要素总结为

ihoge·2020-06-25 20:40

统计学习方法第十一章习题答案

文章目录习题11.1习题11.2习题11.3习题11.4习题11.1写出图11.3中无向图描述的概率图模型的因子分解式。解答P(Y1,Y2,Y3,Y4)=1Zψc1(Y1,Y2,Y3)ψc2(Y2,Y3,Y4)P(Y_1,Y_2,Y_3,Y_4)=\frac{1}{Z}\psi_{c_1}(Y_1,Y_2,Y_3)\psi_{c_2}(Y_2,Y_3,Y_4)P(Y1,Y2,Y3,Y4)=Z1ψc

Brielleqqqqqqjie·2020-06-25 20:24

统计学习方法第六章习题答案

习题6.1题目：确认逻辑斯谛分布属于指数分布族.答：先看看指数分布族的定义逻辑斯谛回归是广义线性模型的一种，而广义线性模型与最大熵模型都是源于指数族分布。对于二项逻辑斯蒂回归模型：P(Y=1∣x)=exp⁡(w⋅x)1+exp⁡(w⋅x)P(Y=1|x)=\frac{\exp(w\cdotx)}{1+\exp(w\cdotx)}P(Y=1∣x)=1+exp(w⋅x)exp(w⋅x)P(Y=0∣x)

Brielleqqqqqqjie·2020-06-25 20:24

统计学习方法第三章习题解答

文章目录习题3.1习题3.2习题3.3参考习题3.1题目：参照图3.1，在二维空间中给出实例点，画出k为1和2时的k近邻法构成的空间划分，并对其进行比较，体会k值选择与模型复杂度及预测准确率的关系。答：本题的意思我理解蛮久（汗-_-||），简单来讲，将一整块的空间分割成各个区域，每个区域有其标签类别。书中的图（如下）给出的是最近邻也就是k=1的特征空间划分。接下来我详细地解释一下如何划分（小学数学

Brielleqqqqqqjie·2020-06-25 20:24

统计学习方法第九章习题答案

文章目录习题9.1习题9.2习题9.3习题9.4习题9.1如例9.1的三硬币模型.假设观测数据不变，试选择不同的初值，例如π0=0.46,p0=0.55,q0=0.67\pi^0=0.46,p^0=0.55,q^0=0.67π0=0.46,p0=0.55,q0=0.67求模型参数θ=(π,p,q)\theta=(\pi,p,q)θ=(π,p,q)的极大似然估计。例9.1（三硬币模型）假设有3枚硬币

Brielleqqqqqqjie·2020-06-25 20:23

统计学习方法第一章习题答案

习题1涉及极大似然估计和贝叶斯估计，可以先看看书的第4章相关内容。极大似然估计与贝叶斯估计符号含义D测试数据θ\thetaθ待估计的参数p(θ)p(\theta)p(θ)先验概率p(θ∣D)p(\theta\midD)p(θ∣D)后验概率p(D∣θ)p(D\mid\theta)p(D∣θ)似然函数对极大似然函数而言，即取使得p(D∣θ)p(D\mid\theta)p(D∣θ)最大的θ\thetaθ

Brielleqqqqqqjie·2020-06-25 20:53

AI公开课：19.04.04李航—字节跳动AILab总监《深度学习与自然语言处理：评析与展望》课堂笔记以及个人感悟

AI公开课：19.04.04李航—字节跳动AILab总监《深度学习与自然语言处理：评析与展望》课堂笔记以及个人感悟导读1、关于李航教授李航，字节跳动科技有限公司人工智能实验室总监，北京大学、南京大学客座教授

一个处女座的程序猿·2020-06-25 19:26

关于最大后验概率估计就是结构风险最小化的详解（统计学习方法）

详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解（1）最大似然估计这篇文章中提到，关于最大似然估计，使用频率去估计概率，在抛硬币问题中会得到正面向上的概率是0.7的结论，其原因是由于样本数量太小，使用经验风险最小化会出现过拟合现象。经验风险：即模型关于训练样本集的平均损失。（2）最大后验概率估计：为了解决过拟合问题，在抛硬币例子中加入了先验概率P（θ），最大后验概率估计

seeInfinite·2020-06-25 19:12

Python不调包实现逻辑回归和自动求导

LR具体的推导可以参考李航老师的统计学习方法为什么LR损失函数不选MSE,而采用极大似然估计(即交叉熵损失)参考：https://www.cnblogs.com/smartwhite/p/9109815

seeInfinite·2020-06-25 19:40

统计学习(第一章)李航最小二乘拟合正弦函数，正则化

1.用最小二乘法拟合曲线"用目标函数y=sin2πx,加上一个正态分布的噪音干扰，用多项式去拟合"importnumpyasnpimportmatplotlib.pyplotaspltfromscipy.optimizeimportleastsq#最小二乘defreal_f(x):#目标函数returnnp.sin(2*np.pi*x)deffit_f(p,x):#多项式f=np.poly1d(p

是鲤鱼呀·2020-06-25 17:48

《统计学习方法》——第6章逻辑斯蒂回归与最大熵模型

第六章逻辑斯蒂回归与最大熵模型逻辑斯蒂回归是统计学习中的经典分类方法。最大熵是概率模型学习的一个准则，将其推广到分类问题得到最大熵模型。逻辑斯蒂回归模型与最大熵模型都属于对数线性模型。6.1逻辑斯蒂回归模型6.1.1逻辑斯蒂分布x服从逻辑斯蒂分布是指满足以下分布函数和密度函数6.1.2二项逻辑斯蒂回归模型是一种分类模型，由条件概率分布P(Y|X)表示。是如下的条件概率分布：逻辑斯蒂回归比较两个条件

甜果果2333·2020-06-25 16:20

朴素贝叶斯(naive Bayes)的python实现——基于《统计学习方法》例题的编程求解

朴素贝叶斯方法是基于贝叶斯定理与特征条件独立假设的分类方法。认为样本的特征X与标签y服从联合概率分布P(X,y)，所有的样本都是基于这个概率分布产生的。由于条件概率P(X=x|Y=y)的参数具有指数数量级，因此进行估算切实际。贝叶斯法对条件概率分布做了条件独立性假设，从而减少了模型的复杂性，增加了模型的泛化能力，减少了过拟合的风险。#后验概率最大化可以证明，期望风险最小化准则可以得到后验概率最大化

xjtu_rzc·2020-06-25 15:24

统计学习方法-聚类方法-读书笔记

统计学习方法-聚类方法-读书笔记1、前言2、聚类的基本概念2.1相似度或距离2.2类或簇2.3类与类之间的距离3、层次聚类4、K均值聚类1、前言聚类事针对给定的样本，依据他们的特征和相似度或距离，将其归并到若干个类或簇的数据分析问题

qq_38829768·2020-06-25 15:33

统计学习方法-马尔可夫链蒙特卡罗法-读书笔记

统计学习方法-马尔可夫链蒙特卡罗法-读书笔记1、前言2、蒙特卡罗法2.1随机抽样2.2树学期望估计2.3积分计算3、马尔可夫链3.1基本定义3.2连续状态马尔可夫链3.3马尔可夫链的性质4、马尔可夫链蒙特卡罗法

qq_38829768·2020-06-25 15:01

统计学习方法-K近邻法-读书笔记

统计学习方法-K近邻法-读书笔记1、前言2、模型3、策略3.1距离3.2k值3.3分类决策规则4、算法5、k近邻实现：kd树5.1构造kd树5.2搜索kd树6、问题1、前言K近邻法是一种基本分类与回归方法

qq_38829768·2020-06-25 15:01

统计学习方法-潜在语义分析（LSA）-读书笔记

统计学习方法-LSA-读书笔记1、前言2、LSA2.1矩阵奇异值分解算法2.2非负矩阵分解算法1、前言文本数据挖掘中最简单的方法是利用向量空间模型（vectorspacemodel,VSM）,也就是但词向量空间模型

qq_38829768·2020-06-25 15:01

统计学习方法-隐马尔可夫模型（HMM）-读书笔记

统计学习方法-隐马尔可夫模型（HMM）-读书笔记1、前言2、隐马尔可夫模型2.1隐马尔科夫模型的定义2.2HMM的两个假设3、HMM的三个基本问题3.1概率计算问题3.11直接计算法3.12前向算法3.13

qq_38829768·2020-06-25 15:01

统计学习方法-第二章感知机-读书笔记

统计学习方法-感知机-读书笔记1、前言2、感知机模型2.1感知机几何解释3、感知机学习策略3.1数据集的线性可分3.2点到线的距离3.3样本到超平面的距离3.4损失函数4、感知机学习算法4.1原始形式算法

qq_38829768·2020-06-25 15:01

统计学习方法-决策树-读书笔记

统计学习方法-决策树-读书笔记1、前言2、模型3、策略4、算法4.1特征选择4.11信息增益4.12信息增益比4.2决策树生成4.21ID3算法4.22C4.5算法4.3决策树的剪枝4.31剪枝算法4.4CART

qq_38829768·2020-06-25 15:01

推荐频道

李航统计学习方法

《统计学习方法》学习笔记（4）--k近邻法及常用的距离（or 相似度）度量

全网最通俗的条件随机场CRF

分类与回归树（classification and regression tree，CART）之回归

《统计学习方法》系列（4）

《统计学习方法》系列（5）

隐马尔可夫模型

《统计学习方法》 决策树 CART生成算法 回归树 Python实现

人工智能技术体系-机器学习基础第一讲

经验分布函数理解

《统计学习方法》第8章_提升方法

《统计学习方法》第6章_逻辑斯蒂回归与最大熵模型

《统计学习方法》第5章_决策树

《统计学习方法》第7章_支持向量机

统计学习方法 第6章 逻辑斯谛回归与最大熵模型（1）

CART回归树算法过程

统计学习方法 | k近邻法

统计学习方法 | 决策树

支持向量机SVM的策略和过拟合问题

图解GBDT的构造和预测过程

EM算法学习记录

理解支持向量机（二）核函数

隐马尔科夫模型（Hidden Markov Model，HMM）

提升树GBDT详解

文本摘要(text summarization)五: 统计模型（text_pronouns、text_teaser，feature-base）

对于EM算法的理解，看这一篇就够了

决策树之信息增益计算模拟

机器学习 AdaBoost算法的MATLAB实现

CH4朴素贝叶斯法|4.2.3贝叶斯估计《统计学习方法》-学习笔记

机器学习-笔记目录

统计学习方法(4) GBDT算法解释与Python实现

[机器学习] 感知机原理（Perceptron）

梯度下降法、随机梯度下降法、批量梯度下降法及牛顿法、拟牛顿法、共轭梯度法

统计学习方法 第十一章习题答案

统计学习方法 第六章习题答案

统计学习方法 第三章习题解答

统计学习方法 第九章习题答案

统计学习方法 第一章习题答案

AI公开课：19.04.04李航—字节跳动AILab总监《深度学习与自然语言处理：评析与展望》课堂笔记以及个人感悟

关于最大后验概率估计就是结构风险最小化的详解（统计学习方法）

Python不调包实现逻辑回归和自动求导

统计学习(第一章)李航 最小二乘拟合正弦函数，正则化

《统计学习方法》——第6章 逻辑斯蒂回归与最大熵模型

朴素贝叶斯(naive Bayes)的python实现——基于《统计学习方法》例题的编程求解

统计学习方法-聚类方法-读书笔记

统计学习方法-马尔可夫链蒙特卡罗法-读书笔记

统计学习方法-K近邻法-读书笔记

统计学习方法-潜在语义分析（LSA）-读书笔记

统计学习方法-隐马尔可夫模型（HMM）-读书笔记

统计学习方法-第二章感知机-读书笔记

统计学习方法-决策树-读书笔记

《统计学习方法》决策树 CART生成算法回归树 Python实现

统计学习方法第6章逻辑斯谛回归与最大熵模型（1）

统计学习方法第十一章习题答案

统计学习方法第六章习题答案

统计学习方法第三章习题解答

统计学习方法第九章习题答案

统计学习方法第一章习题答案

统计学习(第一章)李航最小二乘拟合正弦函数，正则化

《统计学习方法》——第6章逻辑斯蒂回归与最大熵模型