机器学习系列第11页

【机器学习系列2】逻辑回归LogisticRegression——数学推导和纯Numpy实现

目录数学推导notationsobjectivefunction思想推导partialderivativematrixversion手动实现逻辑回归训练器train思路代码实现预测器predict思路代码评价器evaluation思路代码与sklearn比较学习率损失降维可视化完整代码这一系列是学习公众号“机器学习实验室”的笔记，跟着大佬的脚步一个个实现，逻辑回归和线性回归的实现很像，主要是公式推

occamo·2020-07-11 14:09

【机器学习系列3】K近邻算法KNearestNeignbors——思路推导和纯Numpy实现

目录思路推导kNN的思想手动实现kNN计算距离distant思路代码实现预测器predict思路代码评价器evaluation思路代码交叉验证validation思路代码与sklearn比较k的影响预测效果完整代码这一系列是学习公众号“机器学习实验室”的笔记，跟着大佬的脚步一个个实现，今天实现的是kNN，kNN是一个思想比较简单的监督算法，没有数学推导，计算的东西比较多，因此我将数学推导换成思路推

occamo·2020-07-11 14:09

机器学习系列（三）——误差（error），偏差（bias），方差（variance）

训练机器学习模型时，我们希望得到一个泛化性能优异的模型。在上一篇博客回归模型中，当我们采用多项式回归，并不断增加多项式的次数时，模型越来越复杂，但是在测试集上的误差并没有逐步降低。这表明一个复杂的模型并不总是能在测试集上表现出更好的性能，那么误差来自哪里呢？泛化误差（error）我们知道，算法在不同训练集上学得的结果很可能不同，即便这些训练集是来自于同一个分布。以回归任务为例，对测试样本xxx，令

zxhohai·2020-07-11 07:12

数据科学与机器学习导论

笔者的机器学习系列文章地址本文会随着笔者自己认知的变化而不断更新，有兴趣的话可以关注笔者的专栏或者Github。Introduction互联网的迅猛发展催生了数据的爆炸式增长。

weixin_33840661·2020-07-10 07:35

机器学习系列之一通用流程（1、问题建模）

@[机器学习系列之一①问题建模机器学习系列之一②特征工程机器学习系列之一③常用模型机器学习系列之一④模型融合](这里写自定义目录标题)1、问题建模通用流程包含4大部分，分别是：问题建模、特征工程、模型选择和模型融合

qq_45482563·2020-07-10 01:49

机器学习系列2---经验风险最小化原则和结构风险最小化原则与VC维问题

机器学习的目的是依据观测数据（分析数据）实现对系统输入和输出之间变量关系函数的估计，并基于此函数模型实现对未知数据或者无法观测数据（含定性）的预测分析。其中变量关系函数的最优化问题是模型性能的决定因素之一，假设数据对服从联合概率分布，模型损失函数为，则函数优化问题等价于期望风险最小化问题：(1)1.经验风险最小化原则（ERM）由于实际分析过程中可利用的信息只有有限个样本，且无法建立联合概率密度，因

一条大鱼025·2020-07-09 23:45

专题练习：对率回归（逻辑回归）的编程实践

关于logistic回归的知识，还可以参考本公众号历史文章《上手机器学习系列-第3篇-聊聊逻辑回归》，共分上、中、下三篇，详细讲解了推导、代码

a_step_further·2020-07-09 12:19

上手机器学习系列-第1篇-聊聊机器学习的正确打开姿势

前言机器学习是一个充满乐趣的领域，也是一门动手性比较强的学科。就像掌握一类乐器一样，懂得乐理肯定是必要的，但反复练习，多动手实践，才能学好这门手艺。现在讲机器学习算法理论的材料已经很多了，而本系列突出以下特点:注重代码实践，把机器学习的概念动手实现出来；注重介绍大数据生态内与机器学习相关的技术，使得入门者可以了解在企业实际工作中相关岗位上都有哪些工作需要去做；注重资源推荐，很多知识点是需要多个参考

a_step_further·2020-07-09 12:19

Python机器学习（四）：PCA 主成分分析

Jacob的Python机器学习系列：Python机器学习（一）：kNN算法Python机器学习（二）：线性回归算法Python机器学习（三）：梯度下降法Python机器学习（四）：PCA主成分分析Python

Jacob杨帮帮·2020-07-09 06:07

Python机器学习（三）：梯度下降法

Jacob的Python机器学习系列：Python机器学习（一）：kNN算法Python机器学习（二）：线性回归算法Python机器学习（三）：梯度下降法Python机器学习（四）：PCA主成分分析Python

Jacob杨帮帮·2020-07-08 13:09

【机器学习系列】之“西瓜数据集”决策树构建数学公式计算过程

【机器学习系列】之“西瓜数据集”决策树构建数学公式计算过程【机器学习系列】之决策树剪枝和连续值、缺失值处理数学公式计算【机器学习系列】之ID3、C4.5、CART决策树构建代码文章目录一、决策树概述二、

張張張張·2020-07-08 02:16

【机器学习】感知机原理详解

其他机器学习系列文章见于专题：机器学习进阶之路——学习笔记整理，欢迎大家关注。1.感知机概述感知机（perceptron）是二分类的线性分类模型，属于监督学习算法。

齐在·2020-07-07 19:02

python机器学习之四输入输出及库引用

前面三篇文章，我们初步学习了python里的基本数据类型（字符、数字、列表），python其实还有些其它的数据类型：元祖、字典等，在机器学习系列介绍完毕后，后续文章将会将python的数据类型补充完毕。

蜗牛专注学习·2020-07-07 17:42

机器学习系列--GBDT算法总结与源码分析

最近在看Kaggle2014年的一个比赛–DisplayAdvertisingChallenge。三个台湾人得了比赛的第一名，他们使用的是FFM算法(这个后面再做总结)，在他们比赛的代码中，使用了GBDT算法进行了特征的处理。他们没有使用scikit-learn中封装好的算法，而是自己手撸了一个GBDT的实现。下面就GBDT的一些原理和源码进行分析总结。1.GBDT算法总结梯度提升决策树GBD

horizonheart·2020-07-07 09:50

机器学习系列（一）——理论基础

机器学习是一个计算机程序，针对某个特定的任务，从经验（即数据，谁的数据规模大、质量好，谁就占据了机器学习个人工智能领域最有利的资本。）中学习，并且越做越好。机器学习工具库：numpy、pandas、scikit-learn、matplotlib 开发环境：Anaconda、Pycharm scikit-learn包含了几乎所有主流的机器学习算法，提供了一致的调用接口。详情可以参考官网文

傲娇猪儿·2020-07-07 03:27

逻辑回归

继续机器学习系列基础算法，逻辑回归定义问题首先我们依然是定义问题，逻辑回归是解决分类问题，而且是基本的二分类问题，比如经典的垃圾邮件判定，根据疾病的特征预测死亡率。

Yoangh·2020-07-06 20:10

机器学习系列2 BP神经网络＋代码实现

神经网络简单的说，就是用一种层次化的方式将一堆简单的函数在顶层堆叠在一起，形成一个复杂的非线性函数，以此表达输入与输出之间的关系。本文结构：1.介绍构成神经网络的基本单元：神经元2.介绍三层神经网络的实现过程：前向传播、损失函数的计算、反向传播、梯度下降算法，并使用python分步实现一、神经网络的基本单元：神经元神经元是构成神经网络的基本单元，图1.1展示了一个最简单的神经元结构图1.1神经元结

有节操的正明君·2020-07-06 03:48

Python机器学习（二）：线性回归算法

Jacob的Python机器学习系列：Python机器学习（一）：kNN算法Python机器学习（二）：线性回归算法Python机器学习（三）：梯度下降法Python机器学习（四）：PCA主成分分析Python

Jacob杨帮帮·2020-07-05 21:31

机器学习系列：（七）用PCA降维

风雪夜归子·2020-07-05 18:03

Python机器学习（一）：kNN算法

Jacob的Python机器学习系列：Python机器学习（一）：kNN算法Python机器学习（二）：线性回归算法Python机器学习（三）：梯度下降法Python机器学习（四）：PCA主成分分析Python

Jacob杨帮帮·2020-07-05 16:32

掰开揉碎机器学习系列-决策树(1)-ID3决策树

一、决策树的理论依据：1、熵的概念：熵代表了数据分布的"稳定程度"(书上写的所谓纯度)，或者说是"分布的离散程度"。用掰开揉碎的方式解释如下：如以下数据：技术能力积极度年龄前途68oldnormal89oldyes33oldno75oldnormal77youngnormal76oldnormal85oldnormal22oldno75oldnormal66youngnormal74oldnorm

FSak47·2020-07-05 15:41

【机器学习系列】之决策树剪枝和连续值、缺失值处理数学公式计算

【机器学习系列】之“西瓜数据集”决策树构建数学公式计算过程【机器学习系列】之决策树剪枝和连续值、缺失值处理数学公式计算【机器学习系列】之ID3、C4.5、CART决策树构建代码一、剪枝处理剪枝(pruning

張張張張·2020-07-05 08:05

【机器学习系列】之sklearn实现SVM代码

【机器学习系列】之SVM硬间隔和软间隔【机器学习系列】之SVM核函数和SMO算法【机器学习系列】之支持向量回归SVR【机器学习系列】之sklearn实现SVM代码文章目录一、sklearn实现线性可分SVM

張張張張·2020-07-05 08:33

机器学习系列（二）——朴素贝叶斯 Naive Bayes

冰淇淋lining·2020-07-05 08:27

如何高效地学习机器学习算法？

大家好，欢迎来到久违的机器学习系列，这是「美团」算法工程师带你入门机器学习专栏的第一篇文章，不会太长，一半聊想法，一半聊干货。

图灵的猫.·2020-07-05 07:50

Spark2.0机器学习系列之11：聚类(幂迭代聚类， power iteration clustering， PIC)

在Spark2.0版本中（不是基于RDDAPI的MLlib），共有四种聚类方法：（1）K-means（2）LatentDirichletallocation(LDA)（3）Bisectingk-means（二分k均值算法）（4）GaussianMixtureModel(GMM)。基于RDDAPI的MLLib中，共有六种聚类方法：（1）K-means（2）Gaussianmixture（3）Powe

千寻千梦·2020-07-05 05:52

【机器学习】模型评估与选择（留出法、交叉验证法、查全率、查准率、偏差、方差）

其他机器学习系列文章见于专题：机器学习进阶之路——学习笔记整理，欢迎大家关注。1.过拟合过拟合是指学习模型对训练样本预测得很好，但对新样本预测很差的现象。

齐在·2020-07-05 02:00

【机器学习】神经网络详解

其他机器学习系列文章见于专题：机器学习进阶之路——学习笔记整理，欢迎大家关注。

齐在·2020-07-05 02:00

【机器学习】二次规划

其他机器学习系列文章见于专题：机器学习进阶之路——学习笔记整理，欢迎大家关注。

齐在·2020-07-05 02:29

【机器学习】拉格朗日乘子法

其他机器学习系列文章见于专题：机器学习进阶之路——学习笔记整理，欢迎大家关注。在约束最优化问题中，常利用拉格朗日乘子法将原始问题转换为对偶问题求解。

齐在·2020-07-05 02:29

【机器学习】支持向量机原理与序列最小最优化算法SMO

其他机器学习系列文章见于专题：机器学习进阶之路——学习笔记整理，欢迎大家关注。

齐在·2020-07-05 02:29

【机器学习系列】—大纲总结

机器学习是人工智能的核心，主要分为有监督学习和无监督学习。那么什么叫有监督和无监督呢？是否有监督，主要看输入的样本数据集是否有目标变量。有监督学习是有明确的目标变量，而无监督学习，此类的数据没有类别信息，也不给定目标值。这段时间主要学习了有监督学习，所以下面对有监督学习进行一个大纲总结：有监督学习有监督学习一般使用两种类型的目标变量：标称型和数值型。标称型的目标变量结果只在有限目标集中取值，如真与

HYunEr·2020-07-04 18:24

机器学习系列(九)【最大熵模型】

文章目录指数家族伯努利分布转指数家族高斯分布转指数家族指数家族的性质最大熵模型最大似然求解最大熵似然法参考了解最大熵模型之前，我们需要先了解一个和最大熵模型相伴的概念，指数家族。指数家族指数家族是一个包含我们常见的概率分布的分布族。不管是离散概率分布的代表伯努利分布还是连续概率分布的代表高斯分布，它们都属于指数家族。将其抽象到指数家族这一类会有一些性质，利于求解部分问题。指数家族的基本公式

小小何先生·2020-07-03 19:03

【机器学习系列】EM算法求解三硬币问题（python版本）

三硬币模型假设有3枚硬币,分别记作A,B,C。这些硬币正面出现的概率分别为π，p和q。投币实验如下，先投A，如果A是正面，即A=1，那么选择投B；A=0，投C。最后，如果B或者C是正面，那么y=1；是反面，那么y=0；独立重复n次试验（n=10)，观测结果如下：1,1,0,1,0,0,1,0,1,1假设只能观测到投掷硬币的结果，不能观测投掷硬币的过程。问如何估计三硬币正面出现的概率，即π，p和q的

sina微博_SNS程飞·2020-07-02 14:27

机器学习系列(5)_从白富美相亲看特征选择与预处理（上）

龙心尘·2020-07-02 09:22

机器学习系列(1)_逻辑回归初步

iteye_2022·2020-07-02 04:29

用机器学习解决问题的思路

原始博客：机器学习系列(4)_机器学习算法一览，应用建议与解决思路当我们拿到一堆数据时，该如何去下手?

ifruoxi·2020-07-02 03:05

机器学习系列（九）之——模型参数估计(最小二乘估计、最大似然估计、最大后验估计)

给定模型与参数，我们就能对样本空间进行描述。大家很自然地会问，这个描述是不是最不好的呢？我们用什么评价标准判断这个描述的好坏呢？这篇博客将一起探讨这个问题。在统计学中，根据从总体中抽取的随机样本来估计模型未知参数的过程被称为参数估计（parameterestimation）。常用的参数估计方法有：最小二乘估计，最大似然估计和最大后验估计，其中最小二乘估计用于函数模型的参数估计，最大似然估计和最大后

zxhohai·2020-07-02 02:06

机器学习系列（四）——规则化（Regularize）

机器学习中，我们一直期望学习到一个泛化能力（generalization）强的函数，只有泛化能力强的模型才能很好地适用于整个样本空间，才能在新的样本点上表现良好。但是训练集通常只是整个样本空间很小的一部分，在训练机器学习模型时，稍有不注意，就可能将训练集中样本的特性当作了全体样本的共性，以偏概全，而造成过拟合（overfitting）问题，如何避免过拟合，是训练机器学习模型时最亟待解决的绊脚石。从

zxhohai·2020-07-02 02:04

机器学习系列 | 决策树从理论到Python实现，看完就会决策树

本片文章的整体框架如下所示：1.决策树是什么？决策树是一种基本的分类和回归的方法，是基于树结构来进行决策。这种决策方式跟我们人类进行决策时有点类似，所以我们举一个相亲的例子，比如女方在相亲时会对男性程序员的年龄进行判断，假如年龄大于30，那么就不见了，因为30之后可能头发都没了，那么假如是小于等于30，则继续判断这个男性程序员的长相。如下图所示，某个女方在决定见不见男性程序员时，可能会有如下的决策

多选参数-程序锅·2020-07-01 22:31

机器学习系列（八）——Logistic回归解决二分类问题

zxhohai·2020-07-01 02:22

机器学习系列(18)_Kaggle债务违约预测冠军经验分享

寒小阳·2020-06-30 06:39

机器学习系列(19)_通用机器学习流程与问题解决架构模板

寒小阳·2020-06-30 06:39

机器学习系列(15)_SVM碎碎念part3：如何找到最优分离超平面

寒小阳·2020-06-30 06:08

机器学习系列(9)_机器学习算法一览（附Python和R代码）

本文资源翻译@酒酒Angie：伊利诺伊大学香槟分校统计学同学，大四在读，即将开始计算机的研究生学习。希望认识更多喜欢大数据和机器学习的朋友，互相交流学习。内容校正调整：寒小阳&&龙心尘时间：2016年4月出处：http://blog.csdn.net/han_xiaoyang/article/details/51191386http://blog.csdn.net/longxinchen_ml/a

寒小阳·2020-06-30 06:04

机器学习系列(7)_机器学习路线图（附资料）

寒小阳·2020-06-30 06:33

机器学习系列之朴素贝叶斯算法（监督学习-分类问题）

'''@description：一级分类：监督学习，二级分类：分类（离散问题），三级分类：贝叶斯算法算法优点：a朴素贝叶斯模型发源于古典数学理论，有稳定的分类效率b对缺失的数据不太敏感，算法也比较简c分类问题准确度高、速度快算法缺点：a由于使用了样本属性独立性的假设，所以如果样本属性有关联时其效果不好应用场景：常用于文本分类问题@authorwolf@time2018-05-02'''fromsk

-狼·2020-06-29 20:15

Kmeans聚类算法求解与实现

跟我一起机器学习系列文章将首发于公众号：月来客栈，欢迎文末扫码关注！1目标函数求解由上一篇文章的内容可知，KmeansKmeansKmeans聚类算法的目标函数如下所示：

空字符（公众号：月来客栈）·2020-06-29 09:12

机器学习系列（1）--最全算法概述（附案例）

机器学习(MachineLearning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。1.线性回归定义：一种回归模型，利用数理统计

睡醒了的小码媛·2020-06-29 03:57

机器学习典型应用1--关联规则

数据-->机器学习算法--->智能应用：1：关联规则（啤酒和尿片的故事）声明：机器学习系列主要记录自己学习机器学习算法过程中的一些参考和总结，其中有部分内容是借鉴参考书籍和参考博客的。

lemon_wsm·2020-06-29 01:08

推荐频道

机器学习系列

【机器学习系列2】逻辑回归LogisticRegression——数学推导和纯Numpy实现

【机器学习系列3】K近邻算法KNearestNeignbors——思路推导和纯Numpy实现

机器学习系列（三）——误差（error），偏差（bias），方差（variance）

数据科学与机器学习导论

机器学习系列之一通用流程（1、问题建模）

机器学习系列2---经验风险最小化原则和结构风险最小化原则与VC维问题

专题练习：对率回归（逻辑回归）的编程实践

上手机器学习系列-第1篇-聊聊机器学习的正确打开姿势

Python机器学习（四）：PCA 主成分分析

Python机器学习（三）：梯度下降法

【机器学习系列】之“西瓜数据集”决策树构建数学公式计算过程

【机器学习】感知机原理详解

python机器学习之四 输入输出及库引用

机器学习系列--GBDT算法总结与源码分析

机器学习系列（一）——理论基础

逻辑回归

机器学习系列2 BP神经网络＋代码实现

Python机器学习（二）：线性回归算法

机器学习系列：（七）用PCA降维

Python机器学习（一）：kNN算法

掰开揉碎机器学习系列-决策树(1)-ID3决策树

【机器学习系列】之决策树剪枝和连续值、缺失值处理数学公式计算

【机器学习系列】之sklearn实现SVM代码

机器学习系列（二）——朴素贝叶斯 Naive Bayes

如何高效地学习机器学习算法？

Spark2.0机器学习系列之11： 聚类(幂迭代聚类， power iteration clustering， PIC)

【机器学习】模型评估与选择（留出法、交叉验证法、查全率、查准率、偏差、方差）

【机器学习】神经网络详解

【机器学习】二次规划

【机器学习】拉格朗日乘子法

【机器学习】支持向量机原理与序列最小最优化算法SMO

【机器学习系列】—大纲总结

机器学习系列(九)【最大熵模型】

【机器学习系列】EM算法求解三硬币问题（python版本）

机器学习系列(5)_从白富美相亲看特征选择与预处理（上）

机器学习系列(1)_逻辑回归初步

用机器学习解决问题的思路

机器学习系列（九）之——模型参数估计(最小二乘估计、最大似然估计、最大后验估计)

机器学习系列（四）——规则化（Regularize）

机器学习系列 | 决策树从理论到Python实现，看完就会决策树

机器学习系列（八）——Logistic回归解决二分类问题

机器学习系列(18)_Kaggle债务违约预测冠军经验分享

机器学习系列(19)_通用机器学习流程与问题解决架构模板

机器学习系列(15)_SVM碎碎念part3：如何找到最优分离超平面

机器学习系列(9)_机器学习算法一览（附Python和R代码）

机器学习系列(7)_机器学习路线图（附资料）

机器学习系列之朴素贝叶斯算法（监督学习-分类问题）

Kmeans聚类算法求解与实现

机器学习系列（1）--最全算法概述（附案例）

机器学习典型应用1--关联规则

python机器学习之四输入输出及库引用

Spark2.0机器学习系列之11：聚类(幂迭代聚类， power iteration clustering， PIC)