千寻～

机器学习中的各种距离

在做分类时常常需要估算不同样本之间的相似性(Similarity Measurement)，这时通常采用的方法就是计算样本间的“距离”(Distance)。

采用什么样的方法计算距离是很讲究，甚至关系到分类的正确与否。

本文的目的就是对常用的相似性度量作一个总结。

本文目录：
1. 欧氏距离
2. 曼哈顿距离
3. 切比雪夫距离
4. 闵可夫斯基距离
5. 标准化欧氏距离
6. 马氏距离
7. 夹角余弦
8. 汉明距离
9. 杰卡德距离 & 杰卡德相似系数
10. 相关系数 & 相关距离
11. 信息熵
============================================================

1. 欧氏距离(Euclidean Distance)

欧氏距离是最易于理解的一种距离计算方法，源自欧氏空间中两点间的距离公式。

两个n维向量a与 b间的欧氏距离：

Matlab计算距离主要使用pdist函数。若X是一个M×N的矩阵，则pdist(X)将X矩阵M行的每一行作为一个N维向量，然后计算这M个向量两两间的距离。
例子：计算向量(0,0)、(1,0)、(0,2)两两间的欧式距离
X = [0 0 ; 1 0 ; 0 2]
D = pdist(X,'euclidean')
结果：
D =
1.0000 2.0000 2.2361

============================================================

2. 曼哈顿距离(Manhattan Distance)

从名字就可以猜出这种距离的计算方法了。想象你在曼哈顿要从一个十字路口开车到另外一个十字路口，驾驶距离是两点间的直线距离吗？显然不是，除非你能穿越大楼。实际驾驶距离就是这个“曼哈顿距离”。而这也是曼哈顿距离名称的来源，曼哈顿距离也称为城市街区距离(City Block distance)。

两个n维向量a(a1;a2;…;an)与 b(b1;b2;…;bn)间的曼哈顿距离

Matlab计算曼哈顿距离
例子：计算向量(0,0)、(1,0)、(0,2)两两间的曼哈顿距离
X = [0 0 ; 1 0 ; 0 2]
D = pdist(X, 'cityblock')
结果：
D =
1 2 3

============================================================

3. 切比雪夫距离 ( Chebyshev Distance )

国际象棋玩过么？国王走一步能够移动到相邻的8个方格中的任意一个。那么国王从格子(x1,y1)走到格子(x2,y2)最少需要多少步？自己走走试试。你会发现最少步数总是max( | x2-x1 | , | y2-y1 | ) 步。有一种类似的一种距离度量方法叫切比雪夫距离。

两个n维向量a(a1;a2;…;an)与 b(b1;b2;…;bn)间的曼哈顿距离

例子：计算向量(0,0)、(1,0)、(0,2)两两间的切比雪夫距离
X = [0 0 ; 1 0 ; 0 2]
D = pdist(X, 'chebychev')
结果：
D =

1 2 2

============================================================

4. 闵可夫斯基距离(Minkowski Distance)

闵氏距离不是一种距离，而是一组距离的定义。

(1) 闵氏距离的定义

两个n维变量 a(a1;a2;…;an)与 b(b1;b2;…;bn) 间的闵可夫斯基距离定义为：

其中p是一个变参数。
当p=1时，就是曼哈顿距离
当p=2时，就是欧氏距离
当p→∞时，就是切比雪夫距离
根据变参数的不同，闵氏距离可以表示一类的距离。

(2)闵氏距离的缺点

　　闵氏距离，包括曼哈顿距离、欧氏距离和切比雪夫距离都存在明显的缺点。

　　举个例子：二维样本(身高,体重)，其中身高范围是150~190，体重范围是50~60，有三个样本：a(180,50)，b(190,50)，c(180,60)。那么a与b之间的闵氏距离（无论是曼哈顿距离、欧氏距离或切比雪夫距离）等于a与c之间的闵氏距离，但是身高的10cm真的等价于体重的10kg么？因此用闵氏距离来衡量这些样本间的相似度很有问题。

简单说来，闵氏距离的缺点主要有两个：(1)将各个分量的量纲(scale)，也就是“单位”当作相同的看待了。(2)没有考虑各个分量的分布（期望，方差等)可能是不同的。

(3)Matlab计算闵氏距离
例子：计算向量(0,0)、(1,0)、(0,2)两两间的闵氏距离（以变参数为2的欧氏距离为例）
X = [0 0 ; 1 0 ; 0 2]
D = pdist(X,'minkowski',2)
结果：
D =

1.0000 2.0000 2.2361

============================================================

5. 标准化欧氏距离 (Standardized Euclidean distance )

(1)标准欧氏距离的定义

　　标准化欧氏距离是针对简单欧氏距离的缺点而作的一种改进方案。标准欧氏距离的思路：既然数据各维分量的分布不一样，好吧！那我先将各个分量都“标准化”到均值、方差相等吧。均值和方差标准化到多少呢？这里先复习点统计学知识吧，假设样本集X的均值(mean)为m，标准差(standard deviation)为s，那么X的“标准化变量”表示为：

　　而且标准化变量的数学期望为0，方差为1。因此样本集的标准化过程(standardization)用公式描述就是：

标准化后的值 = ( 标准化前的值－分量的均值 ) /分量的标准差

　　经过简单的推导就可以得到两个n维向量 a(a1,a2,…,an)与 b(b1,b2,…,bn) 间的标准化欧氏距离的公式：

　　如果将方差的倒数看成是一个权重，这个公式可以看成是一种加权欧氏距离(Weighted Euclidean distance)。

(2)Matlab计算标准化欧氏距离
例子：计算向量(0,0)、(1,0)、(0,2)两两间的标准化欧氏距离 (假设两个分量的标准差分别为0.5和1)
X = [0 0 ; 1 0 ; 0 2]
D = pdist(X, 'seuclidean',[0.5,1])
结果：
D =

2.0000 2.0000 2.8284

============================================================

6. 马氏距离(Mahalanobis Distance)

(1)马氏距离定义

有M个样本向量X1~Xm，协方差矩阵记为S，均值记为向量μ，则其中样本向量Xi到u的马氏距离表示为：

而其中向量Xi与Xj之间的马氏距离定义为：

若协方差矩阵是单位矩阵（各个样本向量之间独立同分布）,则公式就成了：

也就是欧氏距离了。
　　若协方差矩阵是对角矩阵，公式变成了标准化欧氏距离。

(2)马氏距离的优缺点：量纲无关，排除变量之间的相关性的干扰。
(3) Matlab计算(1 2)，( 1 3)，( 2 2)，( 3 1)两两之间的马氏距离
X = [1 2; 1 3; 2 2; 3 1]
Y = pdist(X,'mahalanobis')
结果：
Y =
2.3452 2.0000 2.3452 1.2247 2.4495 1.2247

============================================================

7. 夹角余弦(Cosine)

有没有搞错，又不是学几何，怎么扯到夹角余弦了？各位看官稍安勿躁。几何中夹角余弦可用来衡量两个向量方向的差异，机器学习中借用这一概念来衡量样本向量之间的差异。

(1)在二维空间中向量A(x1,y1)与向量B(x2,y2)的夹角余弦公式：

(2) 两个n维样本点a(a1;a2;…;an)与 b(b1;b2;…;bn)的夹角余弦

夹角余弦取值范围为[-1,1]。夹角余弦越大表示两个向量的夹角越小，夹角余弦越小表示两向量的夹角越大。当两个向量的方向重合时夹角余弦取最大值1，当两个向量的方向完全相反夹角余弦取最小值-1。

夹角余弦的具体应用可以参阅参考文献[1]。

(3)Matlab计算夹角余弦
例子：计算(1,0)、( 1,1.732)、( -1,0)两两间的夹角余弦
X = [1 0 ; 1 1.732 ; -1 0]
D = 1- pdist(X, 'cosine') % Matlab中的pdist(X, 'cosine')得到的是1减夹角余弦的值
结果：
D =
0.5000 -1.0000 -0.5000

===================================================

8. 汉明距离(Hamming distance)

(1)汉明距离的定义

两个等长字符串s1与s2之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数。例如字符串“1111”与“1001”之间的汉明距离为2。
应用：信息编码（为了增强容错性，应使得编码间的最小汉明距离尽可能大）。

(2)Matlab计算汉明距离

　　 Matlab中2个向量之间的汉明距离的定义为2个向量不同的分量所占的百分比。
例子：计算向量(0,0)、(1,0)、(0,2)两两间的汉明距离

X = [0 0 ; 1 0 ; 0 2];
D = PDIST(X, 'hamming')
结果：
D =

0.5000 0.5000 1.0000

======================================================

9. 杰卡德相似系数(Jaccard similarity coefficient)

(1) 杰卡德相似系数

两个集合A和B的交集元素在A，B的并集中所占的比例，称为两个集合的杰卡德相似系数，用符号J(A,B)表示。

　　杰卡德相似系数是衡量两个集合的相似度一种指标。

(2) 杰卡德距离

与杰卡德相似系数相反的概念是杰卡德距离(Jaccard distance)。杰卡德距离可用如下公式表示：

　　杰卡德距离用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度。

(3) 杰卡德相似系数与杰卡德距离的应用

可将杰卡德相似系数用在衡量样本的相似度上。
　　样本A与样本B是两个n维向量，而且所有维度的取值都是0或1。例如：A(0111)和B(1011)。我们将样本看成是一个集合，1表示集合包含该元素，0表示集合不包含该元素。

p ：样本A与B都是1的维度的个数
q ：样本A是1，样本B是0的维度的个数
r ：样本A是0，样本B是1的维度的个数
s ：样本A与B都是0的维度的个数

那么样本A与B的杰卡德相似系数可以表示为：

这里p+q+r可理解为A与B的并集的元素个数，而p是A与B的交集的元素个数。

而样本A与B的杰卡德距离表示为：

(4)Matlab 计算杰卡德距离
Matlab的pdist函数定义的杰卡德距离跟我这里的定义有一些差别，Matlab中将其定义为不同的维度的个数占“非全零维度”的比例。
例子：计算(1,1,0)、(1,-1,0)、(-1,1,0)两两之间的杰卡德距离
X = [1 1 0; 1 -1 0; -1 1 0]
D = pdist( X , 'jaccard')
结果
D =
0.5000 0.5000 1.0000

======================================================

10. 相关系数 ( Correlation coefficient )与相关距离(Correlation distance)

(1) 相关系数的定义

相关系数是衡量随机变量X与Y相关程度的一种方法，相关系数的取值范围是[-1,1]。

相关系数的绝对值越大，则表明X与Y相关度越高。

当X与Y线性相关时，相关系数取值为1（正线性相关）或-1（负线性相关）。
(2)相关距离的定义

(3)Matlab计算(1, 2 ,3 ,4 )与( 3 ,8 ,7 ,6 )之间的相关系数与相关距离
X = [1 2 3 4 ; 3 8 7 6]
C = corrcoef( X' ) %将返回相关系数矩阵
D = pdist( X , 'correlation')
结果：
C =
1.0000 0.4781
0.4781 1.0000
D =
0.5219
其中0.4781就是相关系数，0.5219是相关距离。

======================================================

11. 信息熵(Information Entropy)

信息熵并不属于一种相似性度量。那为什么放在这篇文章中啊？这个。。。我也不知道。 (╯▽╰)
信息熵是衡量分布的混乱程度或分散程度的一种度量。分布越分散(或者说分布越平均)，信息熵就越大。分布越有序（或者说分布越集中），信息熵就越小。
计算给定的样本集X的信息熵的公式：

参数的含义：
C：样本集X的分类数
pi：X中第i类元素出现的概率

信息熵越大表明样本集S分类越分散，信息熵越小则表明样本集X分类越集中。。当S中C个分类出现的概率一样大时（都是1/C），信息熵取最大值log2(C)。当X只有一个分类时，信息熵取最小值0
======================================================
参考资料：
[1]吴军. 数学之美系列 12 - 余弦定理和新闻的分类.
http://www.google.com.hk/ggblog/googlechinablog/2006/07/12_4010.html
[2] Wikipedia. Jaccard index.
http://en.wikipedia.org/wiki/Jaccard_index
[3] Wikipedia. Hamming distance
http://en.wikipedia.org/wiki/Hamming_distance
[4] 求马氏距离（Mahalanobis distance ）matlab版
http://junjun0595.blog.163.com/blog/static/969561420100633351210/
[5] Pearson product-moment correlation coefficient

http://en.wikipedia.org/wiki/Pearson_product-moment_correlation_coefficient

你可能感兴趣的:(机器学习,机器学习,距离,曼哈顿距离,欧氏距离,切比雪夫距离)

Pyecharts之特殊图表的独特展示抱抱宝 Python数据分析与可视化信息可视化数据分析 python
在数据可视化的世界里，除了常见的柱状图、折线图、饼图等，还有一些特殊的图表可以为我们带来独特的展示效果，帮助我们以更有趣、更直观的方式呈现数据。Pyecharts为我们提供了多种特殊图表的绘制功能，本文将介绍象形图、水球图和日历图的定制方法，让你能够创建出与众不同的数据可视化作品。一、象形图自定义图形象形图是一种使用自定义图形来表示数据的图表，比普通的柱状图更加形象生动。下面是pictorialb
老程序员的感慨 workflower 讲闲话人工智能
三十年前，我第一次在绿底黑字的终端机上看到'HelloWorld'闪烁时，心跳得比收到情书还快。那些年我们用十六进制与机器对话，在堆栈溢出前背诵内存地址，把咖啡渍滴落在泛黄的《算法导论》扉页上。记得为优化三行汇编代码熬到晨光熹微，机房空调的嗡鸣里，年轻的眼睛亮得能烧穿夜幕。如今IDE自动补全了所有思念，云服务吞噬了服务器轰鸣的心跳。抽屉深处藏着VB6的光盘、Delphi的破解狗，还有那本被翻烂的T
TDengine 做为 FLINK 数据源技术参考手册 TDengine （老段） tdengine flink 大数据涛思数据时序数据库数据库
ApacheFlink是一款由Apache软件基金会支持的开源分布式流批一体化处理框架，可用于流处理、批处理、复杂事件处理、实时数据仓库构建及为机器学习提供实时数据支持等诸多大数据处理场景。与此同时，Flink拥有丰富的连接器与各类工具，可对接众多不同类型的数据源实现数据的读取与写入。在数据处理的过程中，Flink还提供了一系列可靠的容错机制，有力保障任务即便遭遇意外状况，依然能稳定、持续运行。借
我的创作纪念日蓝皮怪程序人生生活
机缘接触和鲸社区，并且通过和鲸社区写了许多简单的项目，然后考虑可以在更多的平台介绍自己，于是在CSDN进行创作。在这个数据分析领域接触了许多新朋友。被部分读者认可，为我提供了源源不断的动力。收获全网获得了2000+粉丝。在机器学习领域、统计方法上学到了许多东西。认识了来自五湖四海的朋友，有10年数分的大佬，还有许多在校学生。日常在准备考研、工作的情况下，争取保证周更。先把工作弄完，抽空学习考研的内
聊聊AI中的“蒸馏”技术自由鬼行业发展 IT应用探讨产品分析对比人工智能深度学习机器学习
一、什么是“蒸馏”技术“蒸馏”技术实际上是指知识蒸馏（KnowledgeDistillation），这是一种用于压缩和优化大模型的机器学习方法。其核心思想类似于传统蒸馏：大模型（教师模型）包含丰富的知识，而小模型（学生模型）通过学习大模型的输出，从而在保持高性能的同时降低计算成本。1.知识蒸馏的过程教师模型（TeacherModel）训练先训练一个大规模基础模型，这个模型能力很强，但计算开销大。生
开发环境搭建-4：WSL 配置 docker 运行环境 Lilixxs 环境搭建基础设施 docker 容器运维
在WSL环境中构建：WSL2(2.3.26.0)+OracleLinux8.7官方镜像基本概念说明容器技术利用Linux系统的文件系统（UnionFS）、命名空间（namespace）、权限管理（cgroup），虚拟出一个独立于主系统的文件系统（文件、网络、权限与主机相互独立），由于Linux系统一切均基于文件，因此这样就可实现多个虚拟环境在同一主机上的运行容器技术VS虚拟机VS实机运行实机运行=
WSL开发环境配置（linux + python + nodejs + docker） Lilixxs 环境搭建基础设施 linux 运维服务器
配置要求及目标总体目标：完整的Linux开发环境可开发基于node.js的前端程序可开发基于python的后端程序（仅日常程序，不包含机器学习程序）可运行docker容器，用于快速搭建测试环境Linux环境要求支持centos发行版类似的操作方式和指令（如使用rpm、dnf进行软件包管理）登录用户具有root权限（执行高权限命令，输入sudo即可执行）可从国内源更新软件基本优化：内核指令优化、禁用
[b01lers2020]Life on Mars glan想睡觉 wp 安全
直接查看页面其实好像发现不了什么，所以打开bp随便切几个页面看看能不能有什么收获。在切页面的过程当中可以得到几个url，类似于找渗透点一共有三个看起来挺抽象的参数，我们删几个看看，发现删除后面两个函数好像没有什么感觉，但是第一个明显就是切换到不同内容的选项，所以我们重点把视线放在第一个参试上了。猜测渗透类型直接随便改改，发现添加单引号的时候页面直接变成1了。加上--+后发现得到的数据正常，于是猜测
在亚马逊云科技上通过LangChain ReAct Agent开发金融多模态数据AI分析中台佛州小李哥 AWS技术科技 langchain 人工智能云计算亚马逊云科技 aws 数据分析
项目简介：小李哥将继续每天介绍一个基于亚马逊云科技AWS云计算平台的全球前沿AI技术解决方案，帮助大家快速了解国际上最热门的云计算平台亚马逊云科技AWSAI最佳实践，并应用到自己的日常工作里。本次介绍的是如何在亚马逊云科技机器学习托管服务AmazonSageMaker上搭建一个多模态LangChainAgent，通过ReAct逻辑让Agent通过AmazonBedrockAI模型托管服务上的大模型
【Go语言圣经】第六节：方法 YGGP Golang golang
第六章：方法6.1方法声明在函数声明时，在其名字之前放上一个变量，这就是声明了变量对应类型的一个方法，相当于为这种类型定义了一个独占的方法。下例为Point类型声明了计算两个点之间距离的方法：packagemainimport"math"typePointstruct{X,Yfloat64}func(pPoint)Distance(qPoint)float64{returnmath.Hypot(q
GNU编译优化级别-O -O1 -O2 -O3 hemmingway C++Linux
最近做一个算法的GPU加速，发现实际上使用gcc的-O3(最高级编译优化)选项，可以获得很高的加速比，我的程序里达到了3倍的样子，有时效果甚至比GPU加速好。因此小小学习了下GNU的编译优化。附言一句，在进行调试的时候，最好关闭编译优化，不然程序自动优化，执行的步骤可能稍有变化。GNU编译器提供-O选项供程序优化使用:-O提供基础级别的优化-O2提供更加高级的代码优化,会占用更长的编译时间-O3提
为什么在 C++ 中使用 `const std::string&` 遍历 `std::vector`？临街的小孩 c++开发语言
在C++中，我们经常需要遍历容器（如std::vector、std::list等）来访问其中的元素。特别是当容器存储的是复杂对象（如std::string）时，遍历的方式会直接影响到程序的性能和内存开销。本文将深入探讨为什么在遍历std::vector时，使用conststd::string&作为循环变量比使用值传递更优，尤其是在涉及到性能优化时。遍历容器的常见方式在C++中，常用的遍历std::
【Python TensorFlow】入门到精通极客代码玩转Python python tensorflow 开发语言人工智能深度学习
TensorFlow是一个开源的机器学习框架，由Google开发，广泛应用于机器学习和深度学习领域。本篇将详细介绍TensorFlow的基础知识，并通过一系列示例来帮助读者从入门到精通TensorFlow的使用。1.TensorFlow简介1.1什么是TensorFlow？TensorFlow是一个开源的软件库，主要用于数值计算，特别是在机器学习和深度学习领域。它提供了一个灵活的架构来定义复杂的数
Python 机器学习基础之【常用机器学习库】 NumPy 数值计算库仙魁XAN Python 机器学习基础+实战案例 python 机器学习 numpy 数值计算
Python机器学习基础之【常用机器学习库】NumPy数值计算库目录Python机器学习基础之【常用机器学习库】NumPy数值计算库一、简单介绍二、Numpy基础1、安装NumPy2、导入NumPy3、创建数组4、数组操作5、常用函数6、矩阵运算7、广播机制8、随机数三、在机器学习中使用到Numpy的简单示例1、数据预处理1.1数据归一化1.2数据标准化2、特征工程1.1多项式特征3、简单线性回归
深度解读大语言模型中的Transformer架构老三不说话、 transformer
一、Transformer的诞生背景传统的循环神经网络（RNN）和长短期记忆网络（LSTM）在处理自然语言时存在诸多局限性。RNN由于其递归的结构，在处理长序列时容易出现梯度消失和梯度爆炸的问题。这导致模型难以捕捉长距离的依赖关系，对于复杂的自然语言文本，无法有效地学习到上下文的关键信息。LSTM虽然在一定程度上缓解了梯度消失的问题，但依然存在梯度不稳定的情况。而且，RNN和LSTM在计算过程中，
低功耗蓝牙开发必备工具指南 Lenzetech 蓝牙技术蓝牙
蓝牙BLE是蓝牙技术联盟设计和销售的一种个人局域网技术，旨在用于医疗保健、运动健身、信标、安防、家庭娱乐等领域的新兴应用。相较经典蓝牙，低功耗蓝牙旨在保持同等通信范围的同时显著降低功耗和成本。低功耗蓝牙芯片有传输远、功耗低、延迟低等优势。传输距离方面，经典蓝牙只有10-100米，而BLE最远能传输300米；连接方式上，经典蓝牙只能通过点对点的方式传输，而BLE设备能够能通过点对点、广播、Mesh组
通过命令行工作流提升工作效率的实战教程（持续更新） herosunly 大模型工作流实战教程
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了通过命令行工作流提升工作效率的实战教程，希望对使用大语言模型的同学们有所
深度学习（DL/ML）学习路径 jackl的科研日常深度学习学习人工智能
最近几年，尤其是自从2016年AlphaGo打败李世石事件后，人工智能技术受到了各行业极大关注。其中以机器学习技术中深度学习最受瞩目。主要原因是这些技术在科研领域和工业界的应用效果非常好，大幅提升了算法效率、降低了成本。因而市场对相关技术有了如此大的需求。我在思考传统行业与这些新兴技术结合并转型的过程中，亦系统的回顾了深度学习及其相关技术。本文正是我在学习过程中所作的总结。我将按照我所理解的学习路
正月初三特殊的一天 Feng.Lee 生活随笔生活
在我们河南豫东地区，初三这一天一般情况下可以在家休息，不需要串门走亲戚，给亲戚的长辈或比自己辈份长的拜年。特殊的正月初三还有两种情况，正月初三这一天必须去走亲戚。一种是有去世的亲戚没有过三周年，正月初三这一天是需要到亲戚家，然后到已去世的人坟前送纸钱。还有一种情况已去世的人，距离去世时间快过一周年了，将那一天提前到初三这一天，过一周年纪念，表示对已故亲人的怀念。正常情况下，在我们河南豫东地区，正月
细说机器学习算法之ROC曲线用于模型评估 Melancholy 啊机器学习算法人工智能数据挖掘 python
系列文章目录第一章：Pyhton机器学习算法之KNN第二章：Pyhton机器学习算法之K—Means第三章：Pyhton机器学习算法之随机森林第四章：Pyhton机器学习算法之线性回归第五章：Pyhton机器学习算法之有监督学习与无监督学习第六章：Pyhton机器学习算法之朴素贝叶斯第七章：Pyhton机器学习算法之XGBoost第八章：Pyhton机器学习算法之GBDT第九章：Pyhton机器学
SQL教程-关于SELECT的高级语法假客套 SQL sql 数据库
一、TOP/LIMIT取值第几行到第几行#SQLServer/MSAccess语法SELECTTOP具体的行数|数据集的百分比字段1,字段2,...FROM数据表名#MySQL语法SELECT字段1,字段2,...FROM数据表名LIMIT具体的行数二、LIKE条件查询模糊或精准查询使用%通配符找出所有名称以"张"开头的数据【%替代0个或多个字符】SELECT*FROM数据表名WHERE字段1LI
深入剖析 Scikit-learn 中的 LogisticRegression：参数调优指南夜色呦 scikit-learn 机器学习人工智能
LogisticRegression是一种广泛应用于二分类问题的机器学习算法。在scikit-learn库中，LogisticRegression类提供了一个高效且易于使用的实现。本文将深入探讨LogisticRegression的各种参数，并展示如何通过调整这些参数来优化模型的性能。1.LogisticRegression简介LogisticRegression通过使用逻辑函数将线性回归的输出映
Python从0到100（八十六）：神经网络-ShuffleNet通道混合轻量级网络的深入介绍是Dream呀 Python python 神经网络网络
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
机器学习笔记 - 将音频转换为图像进行分类的机器学习模型坐望云起深度学习从入门到精通机器学习深度学习语音识别光谱图 Whisper
一、简述语音识别技术是将音频信号转化为文本的过程。其基本原理如下：1.音频录制：首先需要对口语发音进行录制，并将其转化为数字形式的音频文件。2.预处理：对音频信号进行预处理，包括去除杂音干扰、增加音频的信噪比以及消除不必要的语音、噪声等。3.特征提取：特征提取是语音信号处理的一个重要部分，通过对音频数据进行分析，提取其中特有的频率、音调、幅度等数学特征，并转化成数字特征。4.模型训练：在特征提取完
毕设分享基于Kmeans的图像分割算法软件设计 bee_dc 毕业设计毕设大数据
文章目录0简介1Kmeans聚类算法基本原理2基于Kmeans图像分割算法流程4代码运行结果及评价5最后0简介今天学长向大家分享一个毕业设计项目毕业设计基于Kmeans的图像分割算法软件设计项目运行效果：毕业设计基于kmean的图像分割项目分享:见文末!1Kmeans聚类算法基本原理K-Means算法的思想很简单，对于给定的样本集，按照样本之间的距离大小，将样本集划分为K个簇。让簇内的点尽量紧密的
大三学生实习面试经历（1）无限大. 面试杂谈面试 python windows
最近听了一位学长的建议，不能等一切都准备好再去开始，于是就开始了简历投递，恰好简历过了某小厂的初筛，开启了线上面试，记录了一些问题：（通过面试也确实了解到了自己在某些方面确实做的还不够充分，需要继续努力）1.思维题毒蘑菇现在有1011种蘑菇，其中1种是毒蘑菇。人一旦吃了微量的毒蘑菇，就会在72小时后发作身亡。现在用松鼠做试验，从开始喂松鼠计时，要在72小时后马上找出毒蘑菇，问最少需要多少只松鼠?(
2025年美国大学生数学建模竞赛C题思路(对每题分析) FFMXjy 数学建模学习-传统算法机器学习深度学习系列课程数学建模美赛美国大学生数学建模
2025年美国大学生数学建模竞赛C题思路开发奖牌数预测模型1.目标：建立一个模型来预测每个国家的奖牌数，特别是金牌和总奖牌数。步骤：2.使用提供的summerOly_athletes.csv和summerOly_medal_counts.csv数据。3.清理数据，处理缺失值和异常值。4.提取有用的特征，如国家、年份、项目、奖牌类型等。5.选择适当的机器学习算法，如线性回归、随机森林或梯度提升树。6
【TVM教程】为 Mobile GPU 自动调优卷积网络 HyperAI超神经 TVM 人工智能机器学习 TVM 编程编译器 GPU CPU
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：LianminZheng,EddieYan针对特定设备的自动调优对于获得最佳性能至关重要。本文介绍如何调优整个卷积网络。TVM中MobileGPU的算子实现是以template形式编写的。该template有许多可调参数（tile因子
再见，Elasticsearch ！码农code之路 elasticsearch 大数据搜索引擎全文检索
新一代搜索引擎，是ES的15倍，号称干翻ES！ManticoreSearch是一个使用C++开发的高性能搜索引擎，创建于2017年，其前身是SphinxSearch。ManticoreSearch充分利用了Sphinx，显着改进了它的功能，修复了数百个错误，几乎完全重写了代码并保持开源。这一切使ManticoreSearch成为一个现代，快速，轻量级和功能齐全的数据库，具有出色的全文搜索功能。Ma
Python入门教程丨3.2 再见Excel！用Python这5个模块，我把3天工作压缩到3分钟凌小添 Python教程 python excel 开发语言
⭐还在用Excel手动算均值方差？还在为海量数据统计熬夜加班？用Python这5把「数据手术刀」写一次代码，就能直接复用，专业报告自动生成！本期内容：模块核心功能应用场景math数学计算几何、物理模拟random生成随机数据游戏、抽样测试statistics统计分析回归分析、市场调研numpy数组与矩阵运算图像处理、机器学习pandas表格数据处理与分析金融分析、数据清洗一、基础数学库1.1mat
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他