K近邻算法(KNN)原理整理小结

K近邻法(k-nearest neighbors,KNN)是一种很基本的机器学习方法了，在我们平常的生活中也会不自主的应用。比如，我们判断一个人的人品，只需要观察他来往最密切的几个人的人品好坏就可以得出了。这里就运用了KNN的思想。KNN方法既可以做分类，也可以做回归，这点和决策树算法相同。

KNN算法是选择与输入样本在特征空间内最近邻的k个训练样本并根据一定的决策规则，给出输出结果。KNN算法是很基本的机器学习算法了，它非常容易学习，在维度很高的时候也有很好的分类效率，因此运用也很广泛。

决策规则：

分类任务：输出结果为k个训练样本中占大多数的类。
回归任务：输出结果为k个训练样本值的平均值。
如下图的分类任务，输出结果为w1类。

KNN算法三要素

1. 分类决策规则

2. K值的选择

3. 距离度量

K值的选择、距离度量和分类决策规则是K近邻算法的三个基本要素。当三个要素确定后，对于任何一个新的输入实例，它所属的Y值也确定了。

1. 分类决策规则

KNN算法一般是用多数表决方法，即由输入实例的K个邻近的多数类决定输入实例的类。这种思想也是经验风险最小化的结果。

训练样本为(xi , yi)。当输入实例为 x，标记为c，输入实例下Nk(x)的k近邻训练样本集。

我们定义训练误差率是K近邻训练样本标记与输入标记不一致的比例，误差率表示为：

因此，要使误差率最小化即经验风险最小，就要使以下公式最大

即K近邻的标记值尽可能的与输入标记一致，所以多数表决规则等价于经验风险最小化。

2. K值的选择

K取值较小时，模型复杂度高，训练误差会减小，泛化能力减弱；K取值较大时，模型复杂度低，训练误差会增大，泛化能力有一定的提高。

KNN模型的复杂度可以通过对噪声的容忍度来理解，若模型对噪声很敏感，则模型的复杂度高；反之，模型的复杂度低。为了更好理解模型复杂度的含义，我们取一个极端，分析K=1和K="样本数"的模型复杂度。

K=1时，模型输出的结果受噪声的影响很大。

由上图可知，样本数等于7，当K=7时，不管输入数据的噪声有多大，输出结果都是绿色类，模型对噪声极不敏感，但是模型太过简单，包含的信息太少，也是不可取的。

通过上面两种极端的K选取结果可知，K值选择应适中，K值一般小于20，建议采用交叉验证的方法选取合适的K值。

3. 距离度量

KNN算法用距离来度量两个样本间的相似度，常用的距离表示方法：

3.1 欧氏距离（Euclidean distance）

欧式距离也称欧几里得距离，是最常见的距离度量，衡量的是多维空间中两个点之间的绝对距离表示。
百度百科给出的解释是：
在数学中，欧几里得距离或欧几里得度量是欧几里得空间中两点间“普通”（即直线）距离。使用这个距离，欧氏空间成为度量空间。相关联的范数称为欧几里得范数。较早的文献称之为毕达哥拉斯度量。

二维空间的公式：

三维空间的公式：

N维空间的公式:

对于图像的欧氏距离变换，是指对于一张二值图像（在此我们假定白色为前景色，黑色为背景色），将前景中的像素的值转化为该点到达最近的背景点的距离。

3.2 曼哈顿距离

使用在几何度量空间的几何学用语，用以标明两个点在标准坐标系上的绝对轴距总和。参考链接

几种距离对比：

简言之，游戏中的西洋棋里，车（城堡）是以曼哈顿距离来计算棋盘格上的距离；而王（国王）与后（皇后）使用切比雪夫距离。

3.3 闵可夫斯基距离

即为：

在闵可夫斯基距离公式中，当p=2时,即为欧氏距离；当p=1时，即为曼哈顿距离；当p>>无穷时，即为切比雪夫距离。

3.4 马氏距离(Mahalanobis Distance)

马氏距离(Mahalanobis Distance)是一种距离的度量，可以看作是欧氏距离的一种修正，修正了欧式距离中各个维度尺度不一致且相关的问题。参考链接

单个数据点的马氏距离

马氏距离也可以定义为两个服从同一分布并且其协方差矩阵为Σ的随机变量之间的差异程度。
如果协方差矩阵为单位矩阵，那么马氏距离就简化为欧氏距离，如果协方差矩阵为对角阵，则其也可称为正规化的欧氏距离。
对于马氏距离与欧氏距离的比较

另外的，对于本文其他未涉及或者不够详尽的机器学习领域的各种参数和距离描述，可以参考如下:

目录：
1.欧氏距离
2.曼哈顿距离
3. 切比雪夫距离
4. 闵可夫斯基距离
5.标准化欧氏距离
6.马氏距离
7.夹角余弦
8.汉明距离
9.杰卡德距离& 杰卡德相似系数
10.相关系数& 相关距离
11.信息熵
https://download.csdn.net/download/dongbao520/85811347

KNN做回归和分类

KNN做回归和分类的主要区别
在于最后做预测时候的决策方式不同。KNN做分类预测时，一般是选择多数表决法，即训练集里和预测的样本特征最近的K个样本，预测为里面有最多类别数的类别。而KNN做回归时，一般是选择平均法，即最近的K个样本的样本输出的平均值作为回归预测值。由于两者区别不大，虽然本文主要是讲解KNN的分类方法，但思想对KNN的回归方法也适用。由于scikit-learn里只使用了蛮力实现(brute-force)，KD树实现(KDTree)和球树(BallTree)实现，本文只讨论这几种算法的实现原理。

KNN算法之暴力实现方法

既然我们要找到k个最近的邻居来做预测，那么我们只需要计算预测样本和所有训练集中的样本的距离，然后计算出最小的k个距离即可，接着多数表决，很容易做出预测。这个方法的确简单直接，在样本量少，样本特征少的时候有效。但是在实际运用中很多时候用不上，为什么呢？因为我们经常碰到样本的特征数有上千以上，样本量有几十万以上，如果我们这要去预测少量的测试集样本，算法的时间效率很成问题。因此，这个方法我们一般称之为蛮力实现。比较适合于少量样本的简单模型的时候用。
**暴力搜索（brute-force search）**是线性扫描输入实例与每一个训练实例的距离并选择前k个最近邻的样本来多数表决，算法简单，系统地枚举解决方案的所有可能的候选项，以及检查每个候选项是否符合问题的描述。但是当训练集或特征维度很大时，计算非常耗时，故这种暴力实现原理是不可行的。

KNN算法之KD树实现原理

kd树是一种对k维空间中的实例点进行存储以便对其进行快速检索的树形数据结构，构造kd树相当于不断用垂直于坐标轴的超平面将k维空间进行划分，构成一系列的K维超矩形区域，kd树省去了对大部分数据的搜索，大大的较少了计算量。

KD树算法没有一开始就尝试对测试样本分类，而是先对训练集建模，建立的模型就是KD树，建好了模型再对测试集做预测。所谓的KD树就是K个特征维度的树，注意这里的K和KNN中的K的意思不同。KNN中的K代表最近的K个样本，KD树中的K代表样本特征的维数。为了防止混淆，后面我们称特征维数为n。

KD树算法包括三步，第一步是建树，第二部是搜索最近邻，最后一步是预测。

1. 构建kd树

kd树实质是二叉树，其划分思想与cart树一致，即切分使样本复杂度降低最多的特征。kd树认为特征方差越大，则该特征的复杂度亦越大，优先对该特征进行切分，切分点是所有实例在该特征的中位数。重复该切分步骤，直到切分后无样本则终止切分，终止时的样本为叶节点。

具体可参考

2. KD树搜索

(1)、搜索路径从根节点到叶节点，在KD树里面找到包含目标点的叶子节点。

(2)、搜索路径从叶节点到根节点，找到距离目标点最近的样本实例点。

3. KD树预测

每一次搜寻与输入样本最近的样本节点，然后忽略该节点，重复同样步骤K次，找到与输入样本最近邻的K个样本，投票法确定输出结果。

简单来讲，就是在KD树搜索最近邻的基础上，我们选择到了第一个最近邻样本，就把它置为已选。在第二轮中，我们忽略置为已选的样本，重新选择最近邻，这样跑k次，就得到了目标的K个最近邻，然后根据多数表决法，如果是KNN分类，预测为K个最近邻里面有最多类别数的类别。如果是KNN回归，用K个最近邻样本输出的平均值作为回归预测值。

训练样本不平衡情况

样本（类别）样本不平衡（class-imbalance）指的是分类任务中不同类别的训练样例数目差别很大的情况，一般地，样本类别比例（多数类vs少数类）明显大于1:1（如4：1）就可以归为样本不均衡的问题。现实中，样本不平衡是一种常见的现象，详细解读可参考

若正负样本处于不平衡状态，运用投票决策的KNN算法判断输入样本的所属类别：

结果显示输入样本为绿色类。原因是红色类的个数远远小于绿色样本，导致出现的分类错误。

（1）若分类决策选择限定半径最近邻法，即以输入样本为圆心，最大半径R的圆内选择出现次数最多的类做为输入样本的类。如下图，黑色样本的分类结果正确。

2）投票法是默认每个样本的权重相等，我们假定权重与距离成反比，即距离越大，对结果的影响越小，那么该样本的权重也越小，反之，权重则越大，根据权重对输入样本进行分类。这种思想与adaBoost算法相似，分类性能好的弱分类器给予一个大的权重。

分类过程：

(1)、选择与输入样本距离X0最近的K个训练样本Xi（i = 1,2,…,K），d(X0,Xi)表示输入样本和训练样本的距离。
(2)、根据距离与样本成反比的性质将距离转化成权重Wi，Wi表示输入样本X0与训练样本Xi的权重。
(3)、我们累加每一类的样本权重，并认为该权重占所有权重和的比例是该类的生成概率，概率最大的类就是输入样本的分类结果。
假设目标是二分类{C1，C2}，表达式：

之后通过比较大小关系，如果满足

则分类结果为C1类，反之为C2类。

回归过程：

(1)(2)步骤与分类过程一直，第(3)步使用如下表达式得到回归值：

其中，y为输出结果，f(xi)为最近邻样本的值。若权重相同的话，则输出结果为K个训练样本的平均值。

用权重思想重新对上例进行分类，可得输入样本为红色类

部分参考来源

KNN算法优缺点

优点：

1）算法简单，理论成熟，可用于分类和回归。
2）对异常值不敏感。
3）可用于非线性分类。
4）比较适用于容量较大的训练数据，容量较小的训练数据则很容易出现误分类情况。
5）KNN算法原理是根据邻域的K个样本来确定输出类别，因此对于不同类的样本集有交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为合适。

缺点：

1）时间复杂度和空间复杂度高。
2）训练样本不平衡，对稀有类别的预测准确率低。
3）相比决策树模型，KNN模型可解释性不强。

你可能感兴趣的:(深度学习,AI21,matlab2020B,近邻算法,机器学习,算法)

字节跳动（社招）三面算法原题宫水三叶的刷题日记后端
字节跳动昨天聊到了字节开始卡学历了，评论区不少小伙伴感同身受。当中有一个问题挺有意思的：什么时候投递最好，会有区别吗？当然有区别了，而且差别巨大。通常校招都是在一段时间内进行，但HC（人头数）是从刚开始就确定了。因此，当招聘市场"供不应求"的时候，越到后面要求会越宽松，毕竟完成招聘任务是第一优先级，这时候还会出现"同厂不同组抢人"的情况；但当招聘市场"供过于求"的时候，为了不让招聘过程显得突兀（距
【ShuQiHere】《机器学习的进化史『下』：从神经网络到深度学习的飞跃》 ShuQiHere 机器学习深度学习神经网络
【ShuQiHere】引言：神经网络与深度学习的兴起在上篇文章中，我们回顾了机器学习的起源与传统模型的发展历程，如线性回归、逻辑回归和支持向量机（SVM）。然而，随着数据规模的急剧增长和计算能力的提升，传统模型在处理复杂问题时显得力不从心。在这种背景下，神经网络重新进入了研究者们的视野，并逐步演变为深度学习，成为解决复杂问题的强大工具。今天，我们将进一步探索从神经网络到深度学习的进化历程，揭示这些
PyTorch深度学习实战（27）—— PyTorch分布式训练 shangjg3 PyTorch深度学习实战深度学习 pytorch 分布式 python
本节将详细介绍如何进行神经网络的分布式训练。其中1.1将结合MPI介绍分布式训练的基本流程，1.2与1.3将分别介绍如何使用torch.distributed以及Horovod进行神经网络的分布式训练。1PyTorch分布式训练1.1使用MPI进行分布式训练下面讲解如何利用MPI进行PyTorch的分布式训练。这里主要介绍的是数据并行的分布式方法：每一块GPU都有同一个模型的副本，仅加载不同的数据
Python(C)图像压缩导图亚图跨际 Python C/C++交叉知识傅里叶压缩制作树结构象限量化模型有损压缩压缩解压缩算法矩阵分解
要点傅里叶和小波变换主成分分析彩色图压缩制作不同尺寸图像K均值和生成式对抗网络压缩无损压缩算法压缩和解压缩算法离散小波变换压缩树结构象限算法压缩矩阵分解有损压缩算法量化模型有损压缩算法JPEG压缩解压缩算法Python图像压缩图像压缩可以是有损的，也可以是无损的。无损压缩是档案用途的首选，通常用于医学成像、技术图纸、剪贴画或漫画。有损压缩方法，尤其是在低比特率下使用时，会产生压缩伪影。有损方法特别
递归、搜索与回溯算法望舒_233 算法
递归什么是递归？所谓的递归其实就是函数自己调用自己的情况为什么会用到递归？举几个我们之前学习过的例子：二叉树的遍历、快速排序、归并排序，都是用递归来解决的，比如二叉树的后序遍历实现方式：是先遍历左子树再遍历右子树，最后访问根节点，而遍历左子树和遍历右子树的过程也都可以分成：先遍历左子树再遍历右子树，最后访问根节点，直到不能再划分位置；而快速排序的实现方式：选择一个基准元素，将数组划分为大于基准元素
【码农日常】时间触发嵌入式系统设计模式真·Wild·攻城狮 OS
文章目录概要整体架构技术细节小结概要最近在学习FOC电机控制算法时，遇到了一种比较精简的OS系统，时间触发嵌入式系统，适用于资源紧张，低成本的电控方案。查阅资料发现，该系统设计思路起源于8051单片机，但在如今ARM横行的时代依然大有用途。整体架构时间触发嵌入式系统说穿了就是通过时间划片，采用调度器任务的一种处理方式，与我们熟知的freetos或μcos并没有根本的区别。整体架构的核心包括：定时器
【Py/Java/C++三种语言OD独家2024E卷真题】20天拿下华为OD笔试之【哈希表】2024E-斗地主之顺子【欧弟算法】全网注释最详细分类最全的华为OD真题题解闭着眼睛学算法 #哈希表 #模拟 java c++华为od leetcode 算法 python 哈希表
可上欧弟OJ系统练习华子OD、大厂真题绿色聊天软件戳od1441了解算法冲刺训练（备注【CSDN】否则不通过）文章目录相关推荐阅读题目描述与示例题目描述输入描述输出描述示例一输入输出说明示例二输入输出说明示例三输入输出说明解题思路题意理解以及补充利用哈希表求下一张牌利用哈希表统计牌数枚举初始牌的框架计算特定顺子的函数顺子延长以及输出代码pythonjavacpp时空复杂度华为OD算法/大厂面试高频
代码随想录算法训练营第二天 | 数组part02：209.长度最小的子数组，59.螺旋矩阵II ，区间和，开发商购买土地白羊TUT 算法矩阵 java
209.长度最小的子数组classSolution{public:intminSubArrayLen(inttarget,vector&nums){intslow=0,fast=0,size=nums.size();intsum=0;queueqe;intres=INT_MAX;while(fast=target){if(res>qe.size()){res=qe.size();}sum-=qe.
PyTorch Geometric（torch_geometric）简介小桥流水---人工智能机器学习算法深度学习人工智能 pytorch 人工智能 python
在深入探讨PyTorchGeometric（通常简称为PyG）之前，我们先了解一下它的背景和应用。PyG是基于PyTorch的一个扩展库，专为图数据和图网络模型设计。图网络是深度学习领域的一种强大工具，它能够处理结构化数据，如社交网络、分子结构、交通网络等。PyTorchGeometric的主要功能数据处理与加载：图数据的简化表示：PyG提供了一种高效的方式来表示和存储图数据。主要是通过Data对
深入理解PyTorch中的`torch.topk`函数！！！（个人总结，为了方便我自己复习，要是同时也能帮助到大家就更好了）小桥流水---人工智能人工智能深度学习机器学习算法 pytorch 人工智能 python
torch.topk深入理解PyTorch中的`torch.topk`函数1.`torch.topk`函数概述函数签名返回值2.基本用法示例1：找到一维张量的最大值示例2：在二维张量的指定维度上操作3.高级应用4.结论深入理解PyTorch中的torch.topk函数在深度学习和数据处理中，经常需要对数据进行排序并提取最重要的部分。PyTorch提供了一个非常有用的函数torch.topk，它能够
在 PyTorch 中，`permute` 方法是一个强大的工具，用于重排张量的维度。小桥流水---人工智能人工智能机器学习算法深度学习 pytorch 人工智能 python
在PyTorch中，permute方法是一个强大的工具，用于重排张量的维度。这在深度学习中非常有用，尤其是在处理具有多维数据（如图像、视频或复杂数组）的神经网络时。PyTorch中的permute方法详解1.permute方法概述在PyTorch中，permute方法允许用户重新排列张量的维度。这与NumPy的transpose方法类似，但提供了更灵活的多维重排能力。该方法非常有用，例如，当你需要
PyTorch概述 fydw_715 pytorch pytorch 人工智能 python
PyTorch是一个开源的机器学习框架，由Facebook的人工智能研究团队开发。它广泛用于深度学习和神经网络的研究和开发。PyTorch以其动态计算图、灵活性和简单易用的接口而闻名，深受研究人员和开发者的喜爱。以下是PyTorch的一些重要模块及其功能：torch简介：这是PyTorch的核心库，提供了张量（tensor）操作的基本功能。功能：支持张量的创建、操作和转换，涵盖数学运算、线性代数操
[Scene Graph] 图神经网络的核心方法——Message Passing 风中摇曳的小萝卜 Scene Graph 神经网络深度学习机器学习人工智能
GNN中的MessagePassing方法解析一、GNN中是如何实现特征学习的？深度学习方法的兴起是从计算图像处理（ComputerVision）领域开始的。以卷积神经网络（CNN）为代表的方法会从邻近的像素中获取信息。这种方式对于结构化数据（structureddata）十分有效，例如，图像和体素数据。但是，CNN的处理方式对于类似图（graph）数据则并不适用。对于一个图而言，类似图像像素的邻
基于深度学习的分子生成 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的分子生成是一项结合化学、计算科学与人工智能的新兴领域，旨在利用深度学习模型来生成具有特定性质的分子结构。该技术在药物发现、材料科学和合成化学等领域具有广泛的应用前景。以下是详细的介绍：1.背景与动机化学空间的广阔性：分子化学空间非常庞大，可能包含10^60以上的不同分子结构。传统的分子设计方法主要依赖于实验和规则生成，这在探索巨大化学空间时显得效率低下且成本高昂。药物发现的挑战：在药
手机信令数据分析&移动对象轨迹数据分析--论文摘要合集 doublexiao79 数据分析与挖掘数据分析数据挖掘智能手机
1、《基于电信位置数据的人群流量预测》卢光跃，李四维，赵宇翔，王天赐西安邮电大学学报摘要：将遗传算法和支持向量回归法结合起来，给出一种基于电信位置数据的人群流量预测方法。提取出电信位置数据中的人群流量时间序列，综合考虑其不同时间点值的关联性，用支持向量回归方法对其进行预测，并使用遗传算法对支持向量回归方法的参数进行优化。综合考虑人群流量变化的横向和纵向趋势，同时考虑使用遗传算法对SVR算法的参数进
【闲谈】聚类算法的金融数据挖掘应用及实践爱写代码的July 其他金融大数据数据分析数据可视化 python
目录一数据挖掘技术在金融领域应用概述二聚类算法介绍三聚类算法在金融数据挖掘中的应用1.聚类算法在客户细分领域的应用2.聚类算法在客户信用评估领域的应用四算法实践与个人体会1.聚类算法的实践——以k-means算法为例的银行客户数据集分析2.个人实际应用体会五总结与展望参考文献一数据挖掘技术在金融领域应用概述随着金融行业的不断发展，金融领域数字化转型程度愈发加深，计算机科学在金融领域的应用显得更为重
算法学习笔记-复杂度分析上胖琪的升级之路
如何分析、统计算法的执行效率和资源消耗为什么需要复杂度分析首先我们很多程序都可以通过统计，监控等方式帮助我们得到程序执行的时间与占用的内存大小。但是这些统计方法有很大的局限性。测试结果非常依赖测试环境。不同的测试机器，同样的代码执行效率就不同。测试结果数受数据规模的影响很大。数据规模大，我们的代码执行效率低。测试结果不能真正的反应我们的内容大O复杂度表示法我们假设一行代码执行一次的时间是unit_
国产智能搜索MindSearch∶ 能够在不到3分钟内收集并整合300多页相关信息？百态老人人工智能笔记
MindSearch是一款由上海人工智能实验室推出的国产智能搜索工具，具有强大的自然语言处理和机器学习能力，旨在提供高效、精准的信息检索服务。它能够通过自然语言查询快速在各种文件格式（如PDF、DOCX、TXT）中找到所需信息，并利用人工智能技术提供即时答案和相关搜索结果。MindSearch不仅是一个独立的搜索引擎平台，还提供了一个开源的AI搜索引擎框架，用户可以使用闭源或开源的大语言模型（LL
并查集【算法 12】终末圆算法算法 c c++python 数据结构 acm c语言
并查集(Union-Find)的基础概念与实现并查集（Union-Find）是一种用于处理不相交集合（disjointsets）的数据结构，常用于解决连通性问题。典型的应用场景包括动态连通性问题（如网络节点连通性检测）、图论中的最小生成树（Kruskal算法）、社交网络中的群体归属等。并查集的两大基本操作合并操作(Union):将两个不同的集合合并为一个集合。查找操作(Find):查询某个元素属于
jsprit学习笔记 chengong6006 测试 git
jsprit简介jsprit是一个开源的解决VRP（车辆路径问题）问题的工具，其中主要使用的是RuinAndRebuild算法。基本概念jsprit中包含几个基本的概念，包括车辆，车辆类型等，以及他们能挂载的诸多属性。jsprit的结果（solution）结构如图RuinAndRebuild流程Rebuild流程选取现在还未分配的一个服务点尝试加入每个完整路径中在每个完整路径中选取一段路径进行插入
算法day15|513.找树左下角的值、112. 路径总和、113.路径总和Ⅱ、106.从中序与后序遍历序列构造二叉树、105.从前序与中序遍历序列构造二叉树桃酥403 算法数据结构 c++leetcode
算法day15|513.找树左下角的值、112.路径总和、113.路径总和Ⅱ、106.从中序与后序遍历序列构造二叉树、105.从前序与中序遍历序列构造二叉树513.找树左下角的值迭代法112.路径总和113.路径总和Ⅱ106.从中序与后序遍历序列构造二叉树105.从前序与中序遍历序列构造二叉树513.找树左下角的值一开始题意理解错了，做了好多无用功…看来读题真的非常重要。以为重点是左下角，其实题目
Unity游戏中常用的设计模式——策略模式 LittleBridLibrary Unity3D 设计模式 unity
策略模式策略模式：它定义了算法家族，分别封装起来，让它们之间可以互相替换，策略模式让算法的变化，不会影响到使用算法的客户。//抽象算法类策略类publicabstractclassStrategy{//算法方法publicabstractvoidAlgorithmInterface();}//具体算法ApublicclassConcreteStrategyA:Strategy{//算法A实现pub
机器学习基础（四）——决策树与随机森林 Bayesian小孙机器学习基础决策树机器学习随机森林
决策树与随机森林文章目录决策树与随机森林一、知识概要（一）二、决策树使用的算法三、sklearn决策树API四、决策树的案例1.数据清洗2.特征工程3.调用决策树API五、集成学习方法-随机森林1.知识概要（二）2.集成学习API3.随机森林的案例importpandasaspdfromsklearn.feature_extractionimportDictVectorizerfromsklear
【Unity3D与23种设计模式】策略模式（Strategy）林尧彬设计模式游戏
GoF中定义：“定义一组算法，并封装每个算法，让它们之间可以彼此交换使用。策略模式让这些算法在客户端使用它们时能更加独立。”游戏开发过程中不同的角色会有不同的属性计算方法初级解决方法便是：ifelse，不够再来几个ifelse高级点儿的就用switchcase配合enum对于小型项目或者快速开发验证用的项目而言，这么做是没问题的但是开发规模或产品化项目时，最好还是选择策略模式在策略模式中，算法中的
文本分析之关键词提取（TF-IDF算法） SEVEN-YEARS tf-idf
键词提取是自然语言处理中的一个重要步骤，可以帮助我们理解文本的主要内容。TF-IDF（TermFrequency-InverseDocumentFrequency）是一种常用的关键词提取方法，它基于词频和逆文档频率的概念来确定词语的重要性。准备工作首先，我们需要准备一些工具和库，包括Pandas、jieba（结巴分词）、sklearn等。Pandas：用于数据处理。jieba：用于中文分词。skl
机器学习——lightGBM（学习整理） CXDNW 机器学习机器学习人工智能笔记 lightgbm 参数优化 sklearn
目录一、认识lightGBM1.简单介绍2.主要特点LightGBM的缺点3.模型训练方式（1）TrainingAPI（2）Scikit-learnAPI二、相关函数参数1.TrainingAPI2.Scikit-learnAPI（重复只做补充）3.lightgbm.cv4.lightgbm.Dataset5.Callbacks（1）lightgbm.record_evaluation（2）lig
【浙江工业大学、中国人工智能学会自然计算与数字智能城市专委会联合主办|ACM独立出版|往届均已见刊并完成EI、SCOPUS检索】第四届机器学习与计算机应用国际学术会议(ICMLCA 2023) 艾思科蓝 AiScholar 人工智能机器学习信息与通信图像处理人机交互计算机视觉数据分析
第四届机器学习与计算机应用国际学术会议(ICMLCA2023)定于2023年10月27-29日在中国杭州隆重举行。本届会议将主要关注机器学习和计算机应用面临的新的挑战问题和研究方向，着力反映国际机器学习和计算机应用相关技术研究的新进展。大会网站：https://ais.cn/u/iMrIjq（更多会议详情）截稿时间：以官网信息为准收录检索：EICompendex，Scopus【往届已见刊并完成EI
机器学习之决策树与随机森林的实现 SEVEN-YEARS 机器学习决策树随机森林
引言随着互联网技术的发展，垃圾邮件过滤已成为一项重要的任务。机器学习技术，尤其是决策树和随机森林，在解决这类问题时表现出色。本文将介绍随机森林的基本概念，并通过一个具体的案例——筛选垃圾电子邮件——来展示随机森林的实际应用。随机森林简介随机森林是一种基于决策树的集成学习方法，它通过构建多个决策树并综合它们的预测结果来提高准确性和防止过拟合。随机森林的工作原理主要包括以下几个步骤：自助采样：从原始数
没有免费的午餐定理做程序员的第一天机器学习人工智能机器学习
没有免费午餐定理（NoFreeLunchTheorem，NFL）是由Wolpert和Macerday在最优化理论中提出的．没有免费午餐定理证明：对于基于迭代的最优化算法，不存在某种算法对所有问题（有限的搜索空间内）都有效．如果一个算法对某些问题有效，那么它一定在另外一些问题上比纯随机搜索算法更差．也就是说，不能脱离具体问题来谈论算法的优劣，任何算法都有局限性．必须要“具体问题具体分析”．没有免费午
FlexibleBI智能化质量管理系统：让制造更高效、精准三坐标CMM质量数据系统制造大数据人工智能
在现代制造业中，质量管理不仅仅是一个追求卓越的标志，更是企业保持竞争力的核心。我们推出的智能化质量管理系统，通过先进的人工智能技术赋能，为企业带来前所未有的预测能力，助力制造商在竞争激烈的市场中立于不败之地。FlexibleBI1.人工智能赋能的质量预测我们的系统使用先进的人工智能算法，对制造过程中的尺寸数据进行深度分析。与市场上现有的一些高端软件类似，但我们不局限于这些已有的框架。系统能预测潜在
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他