E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
机器学习实战学习笔记
机器学习实战——分类及性能测量完整案例(建议收藏慢慢品)
曲线4.多类分类器5.误差分析6.多标签分类7.多输出分类写在前面参考书籍:Hands-OnMachineLearningwithScikit-Learn,Keras,andTensorFlow❤本文为
机器学习实战学习笔记
Dream丶Killer
·
2022-12-25 19:53
机器学习
数据挖掘
机器学习
人工智能
python
大数据
【
机器学习实战学习笔记
】基于概率论的分类方法——朴素贝叶斯
朴素贝叶斯基本思想特点一般过程示例1基本思想朴素贝叶斯的基本思想就是选择高概率对应的类别,即如果有两类,若p1(x,y)>p2(x,y),则分类类别为1若p1(x,y)
JYNjyn666
·
2022-12-11 23:44
机器学习实战
学习笔记
机器学习
python
机器学习实战学习笔记
(十)使用Apriori算法进行关联分析
PS:该系列数据都可以在图灵社区(点击此链接)中随书下载中下载(如下) 从大规模数据集中寻找物品间的隐含关系被称作关联分析(associationanalysis)或者关联规则学习(associationrulelearning)。1关联分析Apriori算法优点:易编码实现。缺点:在大数据集上可能较慢。使用数据类型:数值型或者标称型数据。 关联分析是一种在大规模数据集中寻找有趣关系的任务。这
Hold_My_Own
·
2022-12-03 01:50
机器学习
Apriori
机器学习
机器学习实战学习笔记
(九)K-均值聚类算法
PS:该系列数据都可以在图灵社区(点击此链接)中随书下载中下载(如下) 聚类是一种无监督的学习,它将相似的对象归到同一个簇中。它有点像全自动分类,聚类方法几乎可以应用于所有对象,簇内的对象越相似,聚类的效果越好。K-均值(K-means)聚类算法,之所以称之为K-均值是因为它可以发现k个不同的簇,且每个簇的中心采用簇中所含值的均值计算而成。 簇识别(clusteridentification)
Hold_My_Own
·
2022-11-29 15:33
机器学习
K-Means
聚类
机器学习
Peter
机器学习实战学习笔记
(1)
shape的简单理解一、shape可以获取数组或矩阵的大小信息(矩阵的行数,列数,数组每一维的元素个数)在矩阵中shape[0]可以获取行数,shape[1]可以获取列数二、numpy中的tilenp.tile()本着函数取名必有所依的原理,博主百度了一下tile的英文意思,发现tile有平铺的意思。1.沿X轴复制在numpy中,np.tile(a,(2))函数的作用就是将函数将函数沿着X轴扩大两
Liker79
·
2022-11-20 11:35
机器学习
学习
矩阵
机器学习实战学习笔记
(七)预测数值型数据:回归
PS:该系列数据都可以在图灵社区(点击此链接)中随书下载中下载(如下)1用线性回归找到最佳拟合直线线性回归优点:结果易于理解,计算上不复杂。缺点:对非线性的数据拟合不好。适用数据类型:数值型和标称型数据。 假定输入数据存放在矩阵XXX中,而回归系数存放在向量www中。那么对于给定的数据X1X_1X1,预测结果将会通过Y1=X1TwY_1=X_1^TwY1=X1Tw给出。我们常用的方法极速找出使误
Hold_My_Own
·
2022-11-18 08:01
机器学习
回归
预测数值型数据
机器学习
机器学习实战学习笔记
11——FP-growth 算法
1.FP-growth算法概述1.1FP-growth算法介绍FP-Growth算法是韩家炜等人在2000年提出的关联分析算法,它采取分治策略:将提供频繁项集的数据库压缩到一棵频繁模式树(FP-tree),但仍保留项集关联信息。1.2FP-growth算法原理FP-growth算法使用了一种称为频繁模式树(FrequentPatternTree)的数据结构。FP-tree是一种特殊的前缀树,由频繁
飞鸟2010
·
2022-06-15 07:56
python学习笔记
python
机器学习
FP-growth
机器学习实战学习笔记
(五)支持向量机
PS:该系列数据都可以在图灵社区(点击此链接)中随书下载中下载(如下)1基于最大间隔分隔数据支持向量机(SupportVectorMachines,SVM)优点:泛化错误率低,计算开销不大,结果易于解释。缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二类问题。使用数据类型:数值型和标称型数据。 假设给定一个特征空间上的训练数据集T={(x1,y1),(x2,y2),...,(
Hold_My_Own
·
2020-08-09 02:55
机器学习
机器学习实战学习笔记
4——奇异值分解(SVD)
1.SVD算法概述1.1SVD算法介绍奇异值分解(SingularValueDecomposition)算法,可以将数据映射到低维空间,常用于从有噪声数据中抽取相关特征。1.2SVD算法原理(1)先利用SVD从数据中构建一个主题空间;(2)然后在该空间下计算相似度;1.3SVD算法优缺点(1)优点:简化数据,去除噪声,提高算法的结果(2)缺点:数据的转换可能难以理解(3)应用:最优化问题、特征值问
飞鸟2010
·
2020-07-30 13:16
python学习笔记
机器学习
【
机器学习实战学习笔记
(1-2)】k-近邻算法应用实例python代码
文章目录1.改进约会网站匹配效果1.1准备数据:从文本文件中解析数据1.2分析数据:使用Matplotlib创建散点图1.3准备数据:归一化特征1.4测试算法:作为完整程序验证分类器1.5使用算法:构建完成可用系统2.手写识别系统2.1准备数据:将图像转换为测试向量2.2测试算法:使用k-近邻算法识别手写数字在上一篇文章中我们得到了基于欧式距离、多数表决规则,实现方法采用线性搜索法的k-近邻法cl
进击的AI小白
·
2020-07-10 09:30
机器学习
机器学习实战学习笔记
(十三)利用SVD简化数据
PS:该系列数据都可以在图灵社区(点击此链接)中随书下载中下载(如下)1SVD的应用奇异值分解优点:简化数据,去除噪声,提高算法的结果。缺点:数据的转换可能难以理解。适用数据类型:数值型数据。1.1隐形语义索引 最早的SVD应用之一就是信息检索。我们称利用SVD的方法为隐性语义索引(LatentSemanticIndex,LSI)或隐性语义分析(LatentSemanticAnalysis,LS
Hold_My_Own
·
2020-07-06 07:08
机器学习
svd
机器学习
机器学习实战学习笔记
(十二)利用PCA来简化数据
PS:该系列数据都可以在图灵社区(点击此链接)中随书下载中下载(如下)1降维技术 对数据进行简化的原因:使得数据集更易使用;降低很多算法的计算开销;去除噪声;使得结果易懂。 主成分分析(PrincipalComponentAnalysis,PCA):在PCA中,数据从原来的坐标系转换到了新的坐标系,新坐标系的选择是由数据本身决定的。第一个新坐标轴选择的是原始数据中方差最大的方向,第二个新坐标轴
Hold_My_Own
·
2020-07-06 07:08
机器学习
机器学习实战学习笔记
(十一)使用FP-growth算法来高效发现频繁项集
PS:该系列数据都可以在图灵社区(点击此链接)中随书下载中下载(如下) FP-growth算法:比Apriori算法要快。它基于Apriori构建,但是在完成相同任务时采用了一些不同的技术。这里的任务是将数据集存储在一个特定的称作FP树的结构之后发现频繁项集或者频繁相对,即常在一块出现的元素项的集合FP树。这个算法能够更有效地挖掘数据。这种算法虽然能更为高效地发现频繁项集,但不能用于发现关联规则
Hold_My_Own
·
2020-07-06 07:08
机器学习
机器学习实战学习笔记
(一)
1.KNN算法描述简单来说:k-近邻算法(knn)采用测量不同特征值之间的距离算法进行分类优点:精度高、对异常值不敏感、无数据输入假定缺点:计算复杂度高、空间复杂度高适用数据范围:数值型和标称型工作原理:存在一个训练样本集,样本集中每个数据都存在标签。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似(最近邻)的分类标签。一般来说,只选择样本
sakurakdx
·
2020-07-02 06:11
机器学习实战学习笔记
---- K-Means(K-均值)聚类算法
聚类是一种无监督的学习,它将相似的对象归到一个簇中,将不相似的对象归到不同的簇中。相似这一概念取决于所选择的相似度计算方式。K-Means是发现给定数据集的K个簇的聚类算法,之所以称之为“K-均”值是因为它可以发现K个不同的簇,且每个簇的中心采用的所含值的均值计算而成。簇个数K是用户指定的,每一个簇通过其质心(centroid),即簇中所有点的中心来描述。聚类与分类算法的最大区别在于,分类的目标类
杨鑫newlfe
·
2020-06-27 05:38
Machine
Learning
【
机器学习实战学习笔记
(2-2)】决策树python3.6实现及简单应用
文章目录1.ID3及C4.5算法基础1.1计算香农熵1.2按照给定特征划分数据集1.3选择最优特征1.4多数表决实现2.基于ID3、C4.5生成算法创建决策树3.使用决策树进行分类4.存储决策树通过决策树原理及相关概念细节我们知道,决策树的学习算法主要包括3个步骤:特征选择、决策树生成算法、决策树剪枝,我们按照这个思路来一一实现相关功能。本文的实现目前主要涉及特征选择、ID3及C4.5算法。剪枝及
siplifyit
·
2019-05-15 20:00
【
机器学习实战学习笔记
(2-1)】决策树原理及相关概念细节
文章目录1.决策树概述1.1基本概念1.2决策树学习概述2.特征选择2.1信息增益(informationgain)2.1.1熵(entropy)2.1.2条件熵(conditionalentropy)2.1.3信息增益计算2.2信息增益比(informationgainration)3.决策树的生成3.1ID3算法3.2C4.5算法4.决策树的剪枝1.决策树概述决策树(decisiontree)
siplifyit
·
2019-05-15 18:00
机器学习实战学习笔记
目录统计学习基本概念统计学习三要素1模型2策略(评价准则)损失函数和风险函数经验风险最小化和结构风险最小化一、分类1.K近邻1.1算法概述1.2算法一般流程:1.3算法要素1.3.1距离度量1.3.2k值的选择1.3.3分类决策规则1.4k近邻法的实现:kd树1.4.1构造kd树1.4.2搜索kd树1.5额外的2.决策树2.1算法概述2.2算法流程2.3特征选择2.3.1信息增益2.3.2信息增益
suuunnnyoy
·
2019-04-06 00:00
学习笔记
机器学习实战学习笔记
一
一.误差讲的很不错,我最初学机器学习就是看吴恩达的课程,当初他就讲了平方项误差是由高斯分布通过极大似然求得的,当时还不是特别理解,之后很多的教材也没有对这方面进行解释,没想到这里给推导了一遍,很不错。这张幻灯片有一个问题,XθX\thetaXθ都是列变量是不能相乘的,这里应该有一个转置。注意:能用这个方式直接求出结果的条件很苛刻那就是XTXX^TXXTX必须是非奇异矩阵,大部分实际条件下,这个条件
SilenceHell
·
2018-11-08 00:00
机器学习实战学习笔记
机器学习实战学习笔记
(二)
决策树。后面的CART会涉及到剪枝和回归。那个才是重点。这里就简单贴一下代码。frommathimportlog importoperator defcreateDataset(): dataSet=[[1,1,'yes'],[1,1,'yes'],[1,0,'no'],[0,1,'no'],[0,1,'no']] labels=['nosurfacing','flippers'] return
三年二班周杰伦
·
2018-09-05 00:00
机器学习
机器学习实战学习笔记
(一)
shape的用法numpy.tile()函数numpy.sum()的用法KNN算法和kmeans算法的异同numpy.argsort()字典的get方法python中iteritems()函数一开始看问题还是蛮多的,看python的基础语法看完就忘了,只有到真正需要用的时候才会了解到相应的用法。下面是带注释的代码。fromnumpyimport* importoperator fromosimpo
三年二班周杰伦
·
2017-11-28 00:00
机器学习
机器学习实战学习笔记
Chapter1机器学习基础NumPy函数库基础random.rand(4,4)上述命令构造了4*4的随机数组>>>random.rand(4,4) array([[0.0418002,0.20941796,0.68781548,0.32148814],[0.39318817,0.46766914,0.49318351,0.65444726],[0.33036255,0.70759215,0.59
infinitezechan
·
2017-10-22 00:00
机器学习实战
机器学习实战学习笔记
(三):朴素贝叶斯
贝叶斯原理之所以称之为“朴素”,是因为整个形式化过程只做最原始、最简单的假设。优缺点-优点:在数据较少的情况下仍然有效,可以处理多类别问题。-确定:对于输入数据的准备方式比较敏感。-适用数据类型:标称型数据。入门示例二维坐标中,如果p1(x,y)>p2(x,y),那么(x,y)属于类别1,否则属于类别2.共有7块石头,3块灰色的,4块黑色的p(gray)=3/7p(black)=4/7现在将7块石
test103
·
2017-04-04 00:00
机器学习
机器学习实战学习笔记
(四):Logistic回归
逻辑回归逻辑回归分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类。优缺点优点:计算代价不高,易于理解和实现。确定:容易欠拟合,分类精度可能不高。适用数据类型:数值型和标称型数据。核心概念sigma函数最大释然估计应用——从疝气病预测病马的死亡率这章不详细描述,请参考书中描述及这篇博客,写的很好(http://sbp810050504.blog.51cto.com/2799422
test103
·
2017-04-04 00:00
机器学习
机器学习实战学习笔记
(二):决策树
决策树优缺点优点:计算复杂度不高,输出结果易于理解,对中间值的确实不敏感,可以处理不相关特征数据。缺点:可能会产生过度匹配问题。适用数据类型:数值型和标称型。原理树结构信息增益在划分数据集之前之后信息发生的变化称为信息增益。香农商集合信息的度量方式称为香农熵或者简称为熵,这个名字来源于信息论之父克劳德.香农。例子略实际中的应用——预测隐形眼镜类型隐形眼镜数据集是非常著名的数据集。构造树结构。
test103
·
2017-03-22 00:00
机器学习
机器学习实战学习笔记
9——Logistic回归
1.logistic回归概述1.1logistic回归介绍Logistic回归是一种广义的线性回归分析模型,是研究二分类观察结果y与一些影响因素(x_1,x_2,…,x_n)之间关系的一种多变量分析方法。通常研究某些因素条件下某个结果是否发生,比如医学中根据症状来判断病人是否患有某种疾病。1.2Logistic回归原理Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式。
飞鸟2010
·
2016-12-30 00:00
python学习笔记
机器学习
机器学习实战学习笔记
8——朴素贝叶斯
1.朴素贝叶斯概述1.1朴素贝叶斯介绍朴素贝叶斯(NaïveBayesian)是基于贝叶斯定理与特征条件独立假设的分类方法。朴素贝叶斯分类器基于一个简单的假设:给定目标值之间属性相互独立。1.2朴素贝叶斯工作原理假设有一个数据集,由两类组成,对于每个样本的分类,都是已知的。现在有一个新的点new_point(x,y),其分类未知。我们可以用p1(x,y)来表示数据点(x,y)属于类别1的概率;用p
飞鸟2010
·
2016-12-28 00:00
python学习笔记
机器学习
机器学习实战学习笔记
7——Kmeans
1.Kmeans算法概述1.1Kmeans算法介绍Kmeans是发现给定数据集的K个簇的算法。簇个数K是用户给定的,每一个簇通过其质心,即簇中所有点的中心来描述。1.2Kmeans算法工作流程(1)创建K个质点作为起始质心;(2)当任意一个点的簇分配结果发生改变时:对数据集中的每个数据点对每个质心计算质心与数据点之间的距离将数据点分配到距其最近的簇对每一个簇,计算簇中所有点的均值并将均值作为质心1
飞鸟2010
·
2016-12-26 00:00
python学习笔记
机器学习
机器学习实战学习笔记
6——AdaBoost
1.AdaBoost概述1.1AdaBoost介绍AdaBoost是一种迭代算法,其核心思想是针对同一训练集训练不同的分类器(弱分类器),然后把这些分类器集合起来,构成一个最终的强分类器。1.2AdaBoost优缺点(1)优点:泛化错误率低,易编码,可以应用在大部分分类器上,无需参数调整。(2)缺点:对离群点敏感。
飞鸟2010
·
2016-12-21 00:00
python学习笔记
机器学习
机器学习实战学习笔记
3——支持向量机
1.SVM算法概述1.1SVM简介支持向量机(SupportVectorMachine),是90年代中期发展起来的基于统计学习理论的一种机器学习方法,通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较少的情况下,亦能获得良好统计规律的目的。本身是一种监督式学习的方法,广泛应用于统计分类以及回归分析中。1.2SVM工作原理它使用非线性映射,将原训练数据
飞鸟2010
·
2016-11-30 00:00
机器学习实战学习笔记
-决策树
1.决策树算法介绍: 决策树是一种监督学习算法,使用样本数据针对数据属性建立决策树模型,根据决策树对测试数据进行分类。2.决策树的特点: 决策树的计算法负责读不高,输出易于理解,但是可能会出现过度匹配的问题,适用于数值型和标称型数据。3.决策树的构造: 1、对数据集进行判断,是否特征列数大于1,如果否则构建叶子结点返回,否则继续下一步。 2、对数据集进行判断,是否当前数据集属于同一个分类,
风-之-谷
·
2016-08-22 00:00
机器学习笔记-Java实现
机器学习实战学习笔记
-KNN算法
1.KNN算法介绍。KNN算法即k~近邻算法,通过计算测试数据与已知分类的样本数据集的相似度,选择相似度最高的前k条数据。统计k个数据中分类出现最高的分类,做为测试数据的分类。2.算法特点优点:精度高、对异常值不敏感缺点:时间复杂度和空间复杂度高 适用数据:数据型和标称型下面的相似度计算采用欧式距离:两个n维向量x(x1,x2,...,xn),y(y1,y2,...,yn)的欧式距离公式 用Jav
风-之-谷
·
2016-08-21 00:00
机器学习笔记-Java实现
机器学习实战学习笔记
2——决策树算法
一、决策树算法概述1.概念:决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。常见的决策树算法有ID3、C4.5、CART等。2.决策树的构造:决策树的构造可以分为两部分:(如果构造精度高、规模小的决策树是决策树算法的核心内容)(1)决策树的生成:由训
飞鸟2010
·
2016-07-23 00:00
python学习笔记
机器学习
机器学习实战学习笔记
1——KNN算法
一、KNN算法概述:1.KNN算法的工作原理是:(1)存在一个训练样本集,并且知道样本集中每一数据与所属分类的对应关系,即每个数据都存在分类标签。(2)若此时输入不带标签的新数据之后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后用算法提取出样本集中特征最相似数据的分类标签。(3)最后,选择K个(可根据实际情况自由选择不大于20的整数)最相似数据中出现次数最多的分类,作为新数据的分类。2
飞鸟2010
·
2016-07-18 00:00
python学习笔记
机器学习
上一页
1
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他