E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
机器学习实战笔记
机器学习实战笔记
3)贝叶斯分类器:理论篇
引言前面介绍的分类算法,我们都是期望这个分类算法能够给我们一个确定的分类。但是,有时候,分类器也像我们人类一样,对自己的判断并不是非常有把握。这时候,我们需要分类器告诉我们,它将样本x归为A类的“把握”有多大,即概率有多大。本文介绍一个非常常见的基于概率框架的分类器:贝叶斯分类器。这个主题分为两个部分:这篇属于理论篇,下一篇文章属于实战篇。这篇文章分四个部分:1.贝叶斯决策论;2.朴素贝叶斯分类器
Warren_Liu
·
2017-03-18 14:07
机器学习实战笔记
2)决策树
上篇文章介绍了K-近邻的分类方法,这篇文章介绍另外一种分类的方法:决策树。和K-近邻不同,决策树的方法包括了一个训练的过程。通过这个训练过程,我们可以构造一棵决策树。然后我们可以使用这课决策树来对输入的样本进行分类。直观的理解假如我们现在需要对邮件进行分类,我们收集邮件的两个特征:①邮件的域名地址是否是myEmployer.com?②邮件中是否包含“曲棍球”这个单词。同时,我们希望把邮件分成三类:
Warren_Liu
·
2017-03-04 16:12
机器学习实战笔记
1)K-近邻算法:实战篇
问题为了提高我的B格,我打算买瓶红酒尝尝。但是我对红酒一窍不通,不知道该如何鉴别红酒质量的好坏。于是突发奇想,能否使用K-近邻算法来帮助我选择呢?数据准备我在网上下载了红酒的数据集。该数据集收集了红酒的11种特征及专家对每种酒的评价。这是数据的下载地址,下面列举了部分样本数据:|序号|非挥发性酸度|挥发性酸度|柠檬酸|残留糖|氯化物|游离二氧化硫|总二氧化硫|浓度|PH值|硫酸盐|酒精度|质量||
Warren_Liu
·
2017-02-18 10:36
机器学习实战笔记
1)K-近邻算法:理论篇
近邻算法K-近邻算法是机器学习分类算法中最简单的方法之一。在讲清楚K-近邻算法之前,我们先来看看它的一个简化版---近邻算法。假设我们要对一部电影分类:判断它是动作片还是爱情片(假设全世界的电影只有这两类)。我们发现有两个指标可以帮助我们判断:电影中的打斗镜头和接吻镜头。我们有一批数据,记录了电影里面两种镜头的个数及专家对它们的分类(这个数据集经常被称之为训练集)。数据如下:电影名称打斗镜头接吻镜
Warren_Liu
·
2017-02-17 11:54
机器学习实战笔记
(1)——k-近邻算法
机器学习实战笔记
(1)1.写在前面近来感觉机器学习,深度学习神马的是越来越火了,从AlphaGo到Master,所谓的人工智能越来越NB,而我又是一个热爱新潮事物的人,于是也来凑个热闹学习学习。
diudiu5201
·
2017-02-01 20:22
机器学习实战笔记
(1)——k-近邻算法
1.写在前面近来感觉机器学习,深度学习神马的是越来越火了,从AlphaGo到Master,所谓的人工智能越来越NB,而我又是一个热爱新潮事物的人,于是也来凑个热闹学习学习。最近在看《MachineLearningINACTION》(作者:PeterHarrington)这本书,感觉非常不错。该书不是单纯的进行理论讲解,而是结合了许多小例子深度浅出地进行实战介绍。本博文作为学习笔记,用来记录书中重点
学数学的程序猿
·
2017-01-26 22:00
机器学习实战笔记
k-近邻算法
P 18 改变当前目录importos os.getcwd()#查看当前工作目录 os.chdir("F:\\Python")#改变目录注意双下划线P 19 代码#-*-coding:utf-8-*- fromnumpyimport* importoperator defcreateDataSet(): group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]
ustc不二
·
2016-01-27 00:00
机器学习实战笔记
机器学习实战笔记
:K近邻算法
整体思想:K近邻是最简单的机器学习算法中的一种,是一种监督学习中的一种。K近邻的思想感觉很简单,就是选择K个最近的样本中类别最多的一类。所以其适合类域的交叉或重叠较多的待分类样本集合。所以这个算法需要注意:1.度量距离2.K的选取3.存储结构度量距离k近邻的第一步是选择k个最近的样本,而每个样本有很多特征,那依照什么原则选择最近的样本就是度量距离。而一般的距离度量的表达有:欧式距离这是最常用的,每
crenjing
·
2016-01-27 00:00
机器学习实战学习笔记
机器学习实战笔记
——微软小冰的读心术与决策树
最近微信朋友圈很多人在转发的一个游戏叫做“微软小冰读心术”,游戏的规则很简单:参与游戏的一方在脑海里想好一个人的名字,然后微软小冰会问你15个问题,问题的答案只能用“是”、“不是”或者“不知道”回答。微软小冰通过你的回答进行推断分解,逐步缩小待猜测人名的范围,决策树的工作原理与这些问题类似,用户输入一系列数据,然后会给出游戏的答案。一、决策树简介决策树(decisiontree)是机器学习与数据挖
zhihua_bupt
·
2016-01-23 22:00
Machine
Learning
Python
机器学习实战笔记
机器学习实战笔记
——微软小冰的读心术与决策树
最近微信朋友圈很多人在转发的一个游戏叫做“微软小冰读心术”,游戏的规则很简单:参与游戏的一方在脑海里想好一个人的名字,然后微软小冰会问你15个问题,问题的答案只能用“是”、“不是”或者“不知道”回答。微软小冰通过你的回答进行推断分解,逐步缩小待猜测人名的范围,决策树的工作原理与这些问题类似,用户输入一系列数据,然后会给出游戏的答案。一、决策树简介决策树(decisiontree)是机器学习与数据挖
geekmanong
·
2016-01-23 22:00
机器学习实战笔记
——基于KNN算法的手写识别系统
本文主要利用k-近邻分类器实现手写识别系统,训练数据集大约2000个样本,每个数字大约有200个样本,每个样本保存在一个txt文件中,手写体图像本身是32X32的二值图像,如下图所示:首先,我们需要将图像格式化处理为一个向量,把一个32X32的二进制图像矩阵通过img2vector()函数转换为1X1024的向量:defimg2vector(filename): returnVect=zeros(
geekmanong
·
2016-01-17 14:00
机器学习实战笔记
——利用KNN算法改进约会网站的配对效果
利用KNN算法改进约会网站的配对效果一、案例背景我的朋友海伦一直使用在线约会网站寻找合适自己的约会对象。尽管约会网站会推荐不同的人选,但她并不是喜欢每一个人。经过一番总结,她发现曾交往过三种类型的人:(1)不喜欢的人;(2)魅力一般的人;(3)极具魅力的人;尽管发现了上述规律,但海伦依然无法将约会网站推荐的匹配对象归入恰当的分类,她觉得可以在周一到
geekmanong
·
2016-01-17 12:00
机器学习实战笔记
——基于KNN算法的手写识别系统
本文主要利用k-近邻分类器实现手写识别系统,训练数据集大约2000个样本,每个数字大约有200个样本,每个样本保存在一个txt文件中,手写体图像本身是32X32的二值图像,如下图所示:首先,我们需要将图像格式化处理为一个向量,把一个32X32的二进制图像矩阵通过img2vector()函数转换为1X1024的向量:defimg2vector(filename): returnVect=zeros(
zhihua_bupt
·
2016-01-17 00:00
Machine
Learning
Python
图像超分辨率技术
机器学习实战笔记
机器学习实战笔记
——KNN算法
一、KNN算法描述KNN(K-nearestneighboralgorithm),也就是K近邻算法,顾名思义,可以形象的理解为求K个最近的邻居。当K=1时,KNN算法就成了最近邻算法,即寻找最近的那个邻居。所谓K近邻算法,就是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(就是上面提到的K个邻居),如果这K个实例的多数属于某个类,就将该输入实例分类到这个类中,如下图
zhihua_bupt
·
2016-01-15 10:20
Machine
Learning
Python
图像超分辨率技术
机器学习实战笔记
机器学习实战笔记
——KNN算法
一、KNN算法描述KNN(K-nearestneighboralgorithm),也就是K近邻算法,顾名思义,可以形象的理解为求K个最近的邻居。当K=1时,KNN算法就成了最近邻算法,即寻找最近的那个邻居。所谓K近邻算法,就是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(就是上面提到的K个邻居),如果这K个实例的多数属于某个类,就将该输入实例分类到这个类中,如下图
geekmanong
·
2016-01-15 10:00
机器学习实战笔记
——利用SVD简化数据
SVD(SingularValueDecomposition)奇异值分解,可以用来简化数据,去除噪声,提高算法的结果。一、SVD与推荐系统下图由餐馆的菜和品菜师对这些菜的意见组成,品菜师可以采用1到5之间的任意一个整数来对菜评级,如果品菜师没有尝过某道菜,则评级为0建立一个新文件svdRec.py并加入如下代码:defloadExData(): return[[0,0,0,2,2], [0,0,0
zhihua_bupt
·
2016-01-11 00:00
Machine
Learning
Python
图像超分辨率技术
机器学习实战笔记
信息检索的评价指标(Precision, Recall, F-score, MAP)
F-score,MAP)-小村长技术blog-博客频道-CSDN.NEThttp://blog.csdn.net/lu597203933/article/details/41802155之前写过一篇blog叫做
机器学习实战笔记
之非均衡分类问题
beihangzxm123
·
2015-12-16 10:39
信息检索的评价指标(Precision, Recall, F-score, MAP)
F-score,MAP)-小村长技术blog-博客频道-CSDN.NEThttp://blog.csdn.net/lu597203933/article/details/41802155 之前写过一篇blog叫做
机器学习实战笔记
之非均衡分类问题
qq_26898461
·
2015-12-16 10:00
机器学习实战笔记
(1)机器学习基础
机器学习基础机器学习能让我们自数据集中受到启发,换句话说,我们会利用计算机来彰显数据背后的真实含义,这才是机器学习的真实含义。1.1何谓机器学习简单来说,机器学习就是把无序的数据转换成有用的信息1.2开发机器学习应用程序的步骤(1)收集数据(2)准备输入数据(3)分析输入数据:这一步的主要作用是确保数据集中没有垃圾数据(4)训练算法:机器学习算法从这一步才真正开始学习。根据算法的不同,第4步和第5
June94
·
2015-11-22 13:22
python机器学习
机器学习实战笔记
之五(Logistic 回归)
Logistic回归的一般过程收集数据:采用任意方法收集数据。准备数据:由于需要进行距离计算,因此要求数据类型为数值型。另外,结构化数据格式最佳。分析数据:采用任意方法对数据进行分析。训练算法:大部分时间将用于训练,训练的目的是为了找到最佳的分类回归系数。使用算法:首先,我们需要输入一些数据,并将其转换成对应的结构化数值;接着,基于训练好的回归系数就可以对这些数值进行简单的回归计算,判定他们属于哪
柒安
·
2015-11-17 21:50
机器学习
机器学习实战笔记
5(logistic回归)
1:简单概念描写叙述 如果如今有一些数据点,我们用一条直线对这些点进行拟合(改线称为最佳拟合直线),这个拟合过程就称为回归。训练分类器就是为了寻找最佳拟合參数,使用的是最优化算法。 基于sigmoid函数分类:logistic回归想要的函数可以接受全部的输入然后预測出类别。这个函数就是sigmoid函数,它也像一个阶跃函数。其公式例如以下: 当中: z = w0x0+w1x1+….+wn
·
2015-11-11 14:33
机器学习
机器学习实战笔记
之四(朴素贝叶斯)
朴素贝叶斯,选择具有最高概率的决策。优点:在数据较少的情况下仍然有效,可以处理多类别问题。缺点:对于输入数据的准备方式较为敏感。适用数据类型:标称型数据。条件概率的计算公式:P(gray|bucketB)=P(grayandbucketB)/P(bucketB)贝叶斯准则:p(c|x)=p(x|c)p(c)/p(x)贝叶斯分类准则:如果P(c1|x,y)>P(c2|x,y),那么属于类别c1。如果
柒安
·
2015-11-10 08:59
机器学习
机器学习实战笔记
(Python实现)-01-机器学习实战
机器学习实战本博客来自于CSDN:http://blog.csdn.net/niuwei22007/article/details/49663977本系列博客源自于读《机器学习实战—中文版》这本书的学习笔记,用于日后翻阅、查看资料用。机器学习算法越来越受到人们的青睐,是由于这些算法在一定程度上可以达到智能的目的,比如人脸识别、图像文本分类等在一定程度上可以代替人工繁琐复杂的操作。《机器学习实战》这
Tig_Free
·
2015-11-09 00:00
Machine
Learning
机器学习笔记索引
机器学习实战笔记
索引 最近通过学习《机器学习实战》把书结合网上的一些博客都完整的看了下,感觉还是很有收获的,稍微总结了下,留着复习吧 kNN算法python实现和简单数字识别 决策树的python
·
2015-10-31 15:42
机器学习
信息检索的评价指标(Precision, Recall, F-score, MAP)
之前写过一篇blog叫做
机器学习实战笔记
之非均衡分类问题:http://blog.csdn.net/lu597203933/article/details/38666699其中对Precision和Recall
小村长
·
2014-12-08 12:36
机器学习
机器学习实战笔记
[置顶] 信息检索的评价指标(Precision, Recall, F-score, MAP)
之前写过一篇blog叫做
机器学习实战笔记
之非均衡分类问题:http://blog.csdn.net/lu597203933/article/details/38666699其中对Precision
Lu597203933
·
2014-12-08 12:00
机器学习
检索
评价指标
机器学习实战笔记
9(Apriori算法)
Apriori算法也属于无监督学习,它强调的是“从数据X中能够发现什么”。从大规模的数据集中寻找物品之间隐含关系被称为关联分析或者称为关联规则学习。这里的主要问题在于,寻找物品的不同组合是一项十分耗时的任务,所需的计算代价很高,蛮力搜索并不能解决这个问题。因此此处介绍使用Apriorio算法来解决上述问题。1:简单概念描述(1)频繁项集:指经常出现在一块的物品的集合。关联规则暗示两种物品之间存在很
小村长
·
2014-09-09 19:58
机器学习
机器学习实战笔记
机器学习
apriori
机器学习实战笔记
9(Apriori算法)
Apriori算法也属于无监督学习,它强调的是“从数据X中能够发现什么”。从大规模的数据集中寻找物品之间隐含关系被称为关联分析或者称为关联规则学习。这里的主要问题在于,寻找物品的不同组合是一项十分耗时的任务,所需的计算代价很高,蛮力搜索并不能解决这个问题。因此此处介绍使用Apriorio算法来解决上述问题。1:简单概念描述(1) 频繁项集:指经常出现在一块的物品的集合。关
Lu597203933
·
2014-09-09 19:00
机器学习
Apriori
机器学习实战笔记
8(kmeans)
前面的7次笔记介绍的都是分类问题,本次开始介绍聚类问题。分类和聚类的区别在于前者属于监督学习算法,已知样本的标签;后者属于无监督的学习,不知道样本的标签。下面我们来讲解最常用的kmeans算法。1:kmeans算法算法过程:Kmeans中文称为k-均值,步骤为:(1)它事先选定k个聚类中心,(2)然后看每个样本点距离那个聚类中心最近,则该样本就属于该聚类中心。(3)求每个聚类中心的样本的均值来替换
小村长
·
2014-09-09 13:19
机器学习
机器学习实战笔记
机器学习实战笔记
8(kmeans)
前面的7次笔记介绍的都是分类问题,本次开始介绍聚类问题。分类和聚类的区别在于前者属于监督学习算法,已知样本的标签;后者属于无监督的学习,不知道样本的标签。下面我们来讲解最常用的kmeans算法。1:kmeans算法 算法过程:Kmeans中文称为k-均值,步骤为:(1)它事先选定k个聚类中心,(2)然后看每个样本点距离那个聚类中心最近,则该样本就属于该聚类中心。(3)求每个聚类中
Lu597203933
·
2014-09-09 13:00
机器学习
kmeans
机器学习实战笔记
之非均衡分类问题
通常情况下,我们直接使用分类结果的错误率就可以做为该分类器的评判标准了,但是当在分类器训练时正例数目和反例数目不相等时,这种评价标准就会出现问题(比如我们有1000个正例,10个负例,此时预测中500个正例被预测正确,10个负例也被预测为正例,那么准确率为500/510,非常高,但是召回率只有500/1000=50%,非常低。)。这种现象也称为非均衡分类问题。此时有以下几个衡量标准。下面首先通过一
Lu597203933
·
2014-08-18 22:00
机器学习
评价指标
非均衡分类
机器学习实战笔记
7(Adaboost)
1:简单概念描述 Adaboost是一种弱学习算法到强学习算法,这里的弱和强学习算法,指的当然都是分类器,首先我们需要简单介绍几个概念。1:弱学习器:在二分情况下弱分类器的错误率会低于50%。其实任意的分类器都可以做为弱分类器,比如之前介绍的KNN、决策树、NaïveBayes、logiostic回归和SVM都可以。这里我们采用的弱分类器是单层决策树,它是一个单节点的决策树。它是adab
Lu597203933
·
2014-08-18 21:00
机器学习
adaboost
机器学习实战笔记
7(Adaboost)
1:简单概念描述 Adaboost是一种弱学习算法到强学习算法,这里的弱和强学习算法,指的当然都是分类器,首先我们需要简单介绍几个概念。1:弱学习器:在二分情况下弱分类器的错误率会低于50%。其实任意的分类器都可以做为弱分类器,比如之前介绍的KNN、决策树、NaïveBayes、logiostic回归和SVM都可以。这里我们采用的弱分类器是单层决策树,它是一个单节点的决策树。它是adab
小村长
·
2014-08-18 00:00
机器学习
机器学习实战笔记
机器学习实战笔记
6(SVM)
鉴于July大哥的SVM三层境界(http://blog.csdn.net/v_july_v/article/details/7624837)已经写得非常好了,这里我就不详细描述,只是阐述简单的几个概念。如果看SVM三层境界有困惑,我也愿意与大家交流,共同进步。简单概念描述:(1) 支持向量机(SVM,supportvectormachine)就是通过最大化支持向量到分类超平面之间的分类
Lu597203933
·
2014-08-12 20:00
机器学习
SVM
机器学习实战笔记
6(SVM)
鉴于July大哥的SVM三层境界(http://blog.csdn.net/v_july_v/article/details/7624837)已经写得非常好了,这里我就不详细描述,只是阐述简单的几个概念。如果看SVM三层境界有困惑,我也愿意与大家交流,共同进步。简单概念描述:(1) 支持向量机(SVM,supportvectormachine)就是通过最大化支持向量到分类超平面之间的分类
小村长
·
2014-08-12 00:00
机器学习
机器学习实战笔记
机器学习实战笔记
5(logistic回归)
1:简单概念描述假设现在有一些数据点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称为回归。训练分类器就是为了寻找最佳拟合参数,使用的是最优化算法。这就是简单的线性回归问题,可以通过最小二乘法求解其参数,最小二乘法和最大似然估计见:http://blog.csdn.net/lu597203933/article/details/45032607。但是当有一类情况如判断邮件
Lu597203933
·
2014-08-10 11:00
机器学习
Logistic回归
机器学习实战笔记
5(logistic回归)
1:简单概念描述假设现在有一些数据点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称为回归。训练分类器就是为了寻找最佳拟合参数,使用的是最优化算法。这就是简单的线性回归问题,可以通过最小二乘法求解其参数,最小二乘法和最大似然估计见:http://blog.csdn.net/lu597203933/article/details/45032607。但是当有一类情况如判断邮件
小村长
·
2014-08-10 00:00
机器学习
机器学习实战笔记
机器学习实战笔记
4(朴素贝叶斯)
前面介绍的kNN和决策树都给出了“该数据实例属于哪一类”这类问题的明确答案,而有时候的分类并不能给出明确的答案,本节讲解使用概率论进行分类的方法。1:简单概念描述概念比较简单,这里我摘抄自百度百科,很容易理解。朴素贝叶斯模型(NaiveBayesianclassification)):----Vmap=argmaxP(Vj|a1,a2...an)Vj属于V集合其中Vmap是给定一个example,
Lu597203933
·
2014-08-08 21:00
机器学习
朴素贝叶斯
机器学习实战笔记
4(朴素贝叶斯)
前面介绍的kNN和决策树都给出了“该数据实例属于哪一类”这类问题的明确答案,而有时候的分类并不能给出明确的答案,本节讲解使用概率论进行分类的方法。1:简单概念描述概念比较简单,这里我摘抄自百度百科,很容易理解。朴素贝叶斯模型(NaiveBayesianclassification)):----Vmap=argmaxP(Vj|a1,a2...an)Vj属于V集合其中Vmap是给定一个example,
小村长
·
2014-08-08 00:00
机器学习
机器学习实战笔记
机器学习实战笔记
3(决策树与随机森林)
决策树的优势就在于数据形式非常容易理解,而kNN的最大缺点就是无法给出数据的内在含义。1:简单概念描述 决策树的类型有很多,有CART、ID3和C4.5等,其中CART是基于基尼不纯度(Gini)的,这里不做详解,而ID3和C4.5都是基于信息熵的,它们两个得到的结果都是一样的,本次定义主要针对ID3算法。下面我们介绍信息熵的定义。 事件ai发生的概率用p(ai)来表示,而-l
Lu597203933
·
2014-07-21 21:00
机器学习
决策树
机器学习实战笔记
2(k-近邻算法)
1:算法简单描述 给定训练数据样本和标签,对于某测试的一个样本数据,选择距离其最近的k个训练样本,这k个训练样本中所属类别最多的类即为该测试样本的预测标签。简称kNN。通常k是不大于20的整数,这里的距离一般是欧式距离。2:python代码实现创建一个kNN.py文件,将核心代码放在里面了。(1) 创建数据#创造数据集 defcreateDataSet(): group=array(
Lu597203933
·
2014-07-19 22:00
机器学习
knn
机器学习实战笔记
1(机器学习基础)
1:如何选择合适的算法2:python简介(1) python的优势:相对于matlab,matlab单个软件授权就要花费数千美元,也没有一个有影响力的大型开源项目。相对于c++/c/java,完成简单的操作就需要编写大量的代码;而如今我们应该花费更多的时间去处理数据内在的含义,而无需花费太多精力解决计算机如何得到数据结果(python简洁)(2) python具有numpy科学函数库,它
Lu597203933
·
2014-07-16 22:00
基础
python
机器学习
机器学习实战笔记
1(机器学习基础)
1:如何选择合适的算法2:python简介(1) python的优势:相对于matlab,matlab单个软件授权就要花费数千美元,也没有一个有影响力的大型开源项目。相对于c++/c/java,完成简单的操作就需要编写大量的代码;而如今我们应该花费更多的时间去处理数据内在的含义,而无需花费太多精力解决计算机如何得到数据结果(python简洁)(2) python具有numpy科学函数库,它
小村长
·
2014-07-16 00:00
机器学习
机器学习实战笔记
机器学习实战笔记
之k-近邻算法
读研时期的课题研究为神经网络,也算与机器学习有些渊源。可惜我所读大学的教授们认为神经网络太理论化了,没有多少实际的用处(显然最近几年大数据和深度学习的飞速发展远远超出了他们当时的预期),这也多少导致我没有深入的研究神经网络。或许当时选择神经网络是正确的,现在很多地方都需要类似的人工智能手段去分析数据,探索数据,也正是因此,决定潜心学习机器学习以及深度学习。机器学习有很多很好的资料,比如《机器学习》
sky_walker85
·
2014-03-16 12:00
python
机器学习
numpy
K-近邻算法
手写数字识别
机器学习实战笔记
:KNN
1KNN算法: 优点:精度高,对异常值不敏感,无数据输入假定 缺点:计算复杂度高,空间复杂度高 适用数据范围:数值型和标称型 算法原理:先给定训练集A,当一个测试集样本t,选择t与A中距离最近的k个训练样本(k通常不大于20),选择这些训练样本中出现次数最多的标签作为t的新标签。2采用R实现的代码:library(hash) KNN=function(testVec,trainM
liuxuejiang158
·
2014-01-09 18:00
机器学习实战笔记KNN
机器学习实战笔记
:决策树
frommathimportlog importoperator defcalcShannonEnt(dataSet): numEntries=len(dataSet) labelCounts={} forfeatVecindataSet: currentLabel=featVec[-1] ifcurrentLabelnotinlabelCounts.keys(): labelCounts[cu
seagullyoyo
·
2013-10-10 11:00
上一页
1
2
3
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他