意念回复

机器学习算法（二十二）：局部离群因子检测方法 (Local Outlier Factor, LOF)

目录

1 离群点挖掘方法

2 LOF 算法背景

3 LOF算法简介

3.1 距离度量尺度

3.1.1 Eucild（欧几里得）距离

3.1.2 Hamming（汉明）距离

3.1.3 Mahalanobis（马氏）距离

3.1.4 球面距离

3.2 第 k 距离

3.3 k 距离邻域

3.4 可达距离

3.5 局部可达密度

3.6 局部离群因子

3.7 复杂度

4 LOF离群因子检测算法python3 实现

1 离群点挖掘方法

2 LOF 算法背景

基于密度的离群点检测方法的关键步骤在于给每个数据点都分配一个离散度，其主要思想是：针对给定的数据集，对其中的任意一个数据点，如果在其局部邻域内的点都很密集，那么认为此数据点为正常数据点；而离群点则是距离正常数据点最近邻的点都比较远的数据点。通常有阈值进行界定距离的远近。在基于密度的离群点检测方法中，最具有代表性的方法是局部离群因子检测方法 (Local Outlier Factor, LOF)。

3 LOF算法简介

Local Outlier Factor（LOF）是基于密度的经典算法，由慕尼黑大学的Markus M. Breunig等发表在2000年的数据库顶级会议SIGMOD上，论文为《LOF: Identifying Density-Based Local Outliers》。

LOF旨在发现数据集中的异常模式。在LOF之前，对异常的认知是非黑即白的，一个样本点要不是正常点，要不是异常点。而Breunig等想量化每个样本点的异常程度，并认为这取决于样本点跟周围邻居的密度对比。LOF的核心思想是，异常与否，取决于局部环境，因而被命名为”局部异常因子算法”。

LOF的优点在于它简单，直观，不需要知道数据集的分布，并能量化每个样本点的异常程度。

在众多的离群点检测方法中，LOF 方法是一种典型的基于密度的高精度离群点检测方法。在 LOF 方法中，通过给每个数据点都分配一个依赖于邻域密度的离群因子 LOF，进而判断该数据点是否为离群点。

若异常分数 LOF 接近1，则说明样本点p的局部密度跟邻居的接近。
若异常分数 LOF 小于1，表明p处于一个相对密集的区域，不像一个异常点。
若异常分数 LOF 远大于1，表明p跟其他点比较疏远，很可能是一个异常点。

3.1 距离度量尺度

设对于没有相同点的样本集合，假设共有个检测样本，数据维数为，对于

针对数据集中的任意两个数据点，定义如下几种常用距离度量方式

3.1.1 Eucild（欧几里得）距离

3.1.2 Hamming（汉明）距离

注：汉明距离使用在数据传输差错控制编码里面，用于度量信息不相同的位数。

取，易见与中有 2 位数字不相同，因此与的汉明距离为 2。

对于数据处理，一种技巧是先对连续数据进行分组，化为分类变量（分组变量），对分类变量可以引入汉明距离进行度量。——沃兹基 · 硕德

3.1.3 Mahalanobis（马氏）距离

设样本集的协方差矩阵为，记其逆矩阵为，

若可逆，对做 SVD 分解（奇异值分解），得到：

若不可逆，则使用广义逆矩阵代替，对其求彭罗斯广义逆，有：

则两个数据点的马氏距离为

注：马氏距离表示数据的协方差距离，利用 Cholesky 变换处理不同维度之间的相关性和度量尺度变换的问题，是一种有效计算样本集之间的相似度的方法。

3.1.4 球面距离

球面距离其实是在欧式距离基础上进行转换得到的，并不是一种独特的距离度量方式，在地理信息转换中经常使用，本文对此进行详细介绍。

设两点的球面坐标为。若该球体为地球，则分别代表纬度和经度。（下文的为的余角，便于推导所使用的记号）

如图所示，连接OA、OB、AB，在和中计算：

由于与是异面直线，是它们的公垂线，所成角度经度差为，利用异面直线上两点距离公式：

在中，由余弦定理：

由于此处的代表纬度的补角，对其进行转换：

因此，点的球面距离为：

此外还有 Chebyshev(切比雪夫)距离、Minkowski(闵科夫斯基)距离、绝对值距离、Lance & Williams 距离，具体问题具体分析，选择合适的度量方式。

总结：统一使用表示点和点之间的距离。根据定义，易知交换律成立：

3.2 第 k 距离

定义： 为点的第距离，，满足如下条件

在集合中至少存在个点，使得
在集合中至多存在个点，使得

简言之：点是距离最近的第个点：

点P是离O最近的第5个点，第5距离内部有4个点，第5距离内共有6个点。点O的第5距离与第6距离相等。

3.3 k 距离邻域

定义：设为点的第距离邻域，满足：

注：此处的邻域概念与国内高数教材略有不同（具体的点，而非区间）。该集合中包含所有到点距离小于点第 k 邻域距离的点。易知有，如上图，点的第 5 距离邻域为：

3.4 可达距离

定义点到点的第 k 可达距离定义为：

注：即点到点的第 k 可达距离至少是点的第 k 距离。距离点最近的 k 个点，它们到的可达距离被认为是相当的，且都等于。

点P到点O的第5可达距离，在计算样本点的可达密度时，此部分总是取d(O)的，即与第k距离有关。若求新样本点在旧样本域内的离群密度，式(14)才会发挥作用。

3.5 局部可达密度

定义：局部可达密度定义为：

注：表示点的第 k 邻域内所有点到的平均可达距离，位于第 k 邻域边界上的点即使个数大于1，也仍将该范围内点的个数计为 k 。注意，是O的邻域点 Nk(O) /P到O的第 k 可达距离，不是O到 Nk(O)的第 k可达距离，一定要弄清楚关系。并且，如果有重复点，那么分母的可达距离之和有可能为0，则会导致lrd变为无限大，下面还会继续提到这一点。

如果和周围邻域点是同一簇，那么可达距离越可能为较小的，导致可达距离之和越小，局部可达密度越大。如果和周围邻域点较远，那么可达距离可能会取较大值，导致可达距离之和越大，局部可达密度越小。

部分资料这里使用而不是。笔者查阅大量资料及数据测试后认为，此处应为，否则会因为过多点在内部同一圆环上（如式13中的位于同一圆环上）而导致是一个偏大的数，提示此处的密度低，可能为离群值。
此外，本文 3.1 开头指出“没有样本点重合”在这里也能得到解释：如果考虑重合样本点，可能会造成此处的可达密度为或下文的为形式，计算上带来困扰。

注意：若有k个或以上的点跟重合，即到的距离是0，则ρ无法计算，要排除这种情况。或者，k-distance都加上一个很小的值，避免ρ无法计算。

3.6 局部离群因子

注表示点的邻域内其他点的局部可达密度与点的局部可达密度之比的平均数。如果这个比值越接近1，说明的邻域点密度差不多，可能和邻域同属一簇；如果这个比值小于1，说明的密度高于其邻域点密度，为密集点；如果这个比值大于1，说明的密度小于其邻域点密度，可能是异常点。

点O的 LOF 值大于1，提示为可能的异常点。

3.7 复杂度

LOF算法要计算样本点两两之间的距离，时间复杂度是O(n^2)。

4 LOF离群因子检测算法python3 实现

import pandas as pd
from sklearn.neighbors import LocalOutlierFactor
def lof(data, predict=None, k=5, method=1, plot=False):
    
    # 判断是否传入测试数据，若没有传入则测试数据赋值为训练数据
    try:
        if predict == None:
            predict = data.copy()
    except Exception:
        pass
    predict = pd.DataFrame(predict)
    # 计算 LOF 离群因子
    clf = LocalOutlierFactor(n_neighbors=k + 1, algorithm='auto', contamination=0.1, n_jobs=-1)
    clf.fit(data)
    # 记录 k 邻域距离
    predict['k distances'] = clf.kneighbors(predict)[0].max(axis=1)
    # 记录 LOF 离群因子，做相反数处理
    predict['local outlier factor'] = -clf._decision_function(predict.iloc[:, :-1])
    # 根据阈值划分离群点与正常点
    outliers = predict[predict['local outlier factor'] > method].sort_values(by='local outlier factor')
    inliers = predict[predict['local outlier factor'] <= method].sort_values(by='local outlier factor')
    return outliers, inliers

在 python3 中，sklearn 模块提供了 LOF 离群检测算法: sklearn.neighbors.LocalOutlierFactor — scikit-learn 1.1.0 documentation

核心函数：

clf = LocalOutlierFactor(n_neighbors=20, algorithm=’auto’, leaf_size=30, metric=’minkowski’, p=2, metric_params=None, contamination=0.1, n_jobs=1)

import numpy as np
from sklearn.neighbors import LocalOutlierFactor


data = np.random.randint(6, 10, (30, 6))
a = data[-1, :]
data = np.row_stack((data, a))
data = np.row_stack((data, a))
clf = LocalOutlierFactor(n_neighbors=5)
predict = clf.fit_predict(data)
negative_outlier_factor = clf.negative_outlier_factor_

print(predict)

（1）主要参数

n_neighbors ：即上文提及的 k ，检测的邻域点个数超过样本数则使用所有的样本进行检测。
algorithm ：{'auto'，'ball_tree'，'kd_tree'，'brute'}，默认='auto'。用于计算最近邻居的算法：
- 'ball_tree'将使用 BallTree
- 'kd_tree'将使用 KDTree
- 'brute'将使用暴力搜索。
- “auto”将尝试根据传递给fit方法的值来决定最合适的算法。
contamination = 0.1：范围为 (0, 0.5)，表示样本中的异常点比例，默认为 0.1
n_jobs = -1：并行任务数，设置为-1表示使用所有CPU进行工作
p = 2：距离度量函数，默认使用欧式距离。当p = 1时，这等效于使用manhattan_distance（l1），当对p = 2，等效于使用euclidean_distance（l2）。对于任意p，使用minkowski_distance（l_p）。

（2）主要函数

无监督学习，只需要传入训练数据data，传入的数据维度至少是 2 维：

clf.fit(data)

获取第 k 距离邻域内的每一个点到中心点的距离，并按从小到大排序，返回数组，[距离，样本索引]：

clf.kneighbors(data)

获取每一个样本点的 LOF 值，该函数范围 LOF 值的相反数，需要取反号。clf._decision_function 的输出方式更为灵活：若使用 clf._predict(data) 函数，则按照原先设置的 contamination 输出判断结果（按比例给出判断结果，异常点返回-1，非异常点返回1）：

-clf._decision_function(data)

5 LOF优缺点

优点：

LOF 的一个优点是它同时考虑了数据集的局部和全局属性。异常值不是按绝对值确定的，而是相对于它们的邻域点密度确定的。当数据集中存在不同密度的不同集群时，LOF表现良好，比较适用于中等高维的数据集。

缺点：

LOF算法中关于局部可达密度的定义其实暗含了一个假设，即：不存在大于等于 k 个重复的点。

当这样的重复点存在的时候，这些点的平均可达距离为零，局部可达密度就变为无穷大，会给计算带来一些麻烦。在实际应用时，为了避免这样的情况出现，可以把 k-distance 改为 k-distinct-distance，不考虑重复的情况。或者，还可以考虑给可达距离都加一个很小的值，避免可达距离等于零。

另外，LOF 算法需要计算数据点两两之间的距离，造成整个算法时间复杂度为。为了提高算法效率，后续有算法尝试改进。FastLOF （Goldstein，2012）先将整个数据随机的分成多个子集，然后在每个子集里计算 LOF 值。对于那些 LOF 异常得分小于等于 1 的，从数据集里剔除，剩下的在下一轮寻找更合适的 nearest-neighbor，并更新 LOF 值。

异常检测：局部异常因子LOF算法在python中实现：异常检测：局部异常因子LOF算法在python中实现_大奸猫的博客-CSDN博客_lof算法python

LOF离群因子检测算法及python3实现：LOF离群因子检测算法及python3实现 - 知乎

【机器学习】一文读懂异常检测 LOF 算法（Python代码）_风度78的博客-CSDN博客

你可能感兴趣的:(机器学习算法,机器学习,算法,机器学习,人工智能)

算法分析与设计实验2：实现克鲁斯卡尔算法和prim算法表白墙上别挂我算法笔记经验分享
实验原理（一）克鲁斯卡尔算法：一种用于求解最小生成树问题的贪心算法，该算法的基本思想是按照边的权重从小到大排序，然后依次选择边，并加入生成树中，同时确保不会形成环路，直到生成树包含图中所有的顶点为止。具体步骤：边的排序：将所有边按照权重从小到大排序。初始化：创建一个空的生成树（可以是一个空的图结构），以及一个用于记录每个顶点所属集合（或称为连通分量）的数据结构（例如并查集）。边的选择：依次选择排序
（面经总结）一篇文章带你整理面试过程中常考的九大排序算法南淮北安冲刺大厂之面经总结面经排序算法二分插入冒泡快速
文章目录一、二分插入排序1.原理2.代码二、冒泡排序1.原理2.代码三、插入排序算法1.原理2.代码四、快速排序算法1.原理2.代码五、希尔排序1.原理2.代码六、归并排序1.原理2.代码七、桶排序八、基数排序九、堆排序1.原理2.代码十、总结1.算法分类2.性能分析一、二分插入排序首先必须是排好序的数组，然后通过二分查找，找到合适的位置，插入1.原理二分查找算法又叫作折半查找，要求待查找的序列有
Python常考面试题汇总（附答案） TT图图面试职场和发展
写在前面本文面向中高级Python开发，太基本的题目不收录。本文只涉及Python相关的面试题，关于网络、MySQL、算法等其他面试必考题会另外开专题整理。不是单纯的提供答案，抵制八股文！！更希望通过代码演示，原理探究等来深入讲解某一知识点，做到融会贯通。部分演示代码也放在了我的github的该目录下。语言基础篇Python的基本数据类型Python3中有六个标准的数据类型：Number（数字）(
opencv-python与opencv-contrib-python的区别联系剑心缘零碎小知识 python opencv
opencv-python包含基本的opencvopencv-contrib-python是高配版，带一些收费或者专利的算法，还有一些比较新的算法的高级版本,这些算法稳定之后会加入上面那个。官网对contrib模块的简介（点击链接跳转）参考链接
通信算法之278：数据链/自组网通信设备--MIMO(2T2R)-OFDM系统系列--实际工程应用算法代码--1.系统指标需求及帧结构设计秋风战士无线通信基带处理算法 MATLAB仿真软件无线电算法无人机经验分享
MIMO(2T2R)-OFDM系统系列–实际工程应用算法代码第一章：系统指标需求拆解分析第二章：通信系统帧结构设计和OFDM参数设计第三章：通信业务速率设计及理论解调门限第四章：同步序列设计及同步性能仿真验证第五章：数据业务设计及性能仿真验证第六章：信道模型设计第七章：接收关键算法设计及仿真验证第八章：其它待补充本文目录MIMO(2T2R)-OFDM系统系列--实际工程应用算法代码一、实际项目：系
通信算法之287：通信技术点咨询秋风战士 MATLAB仿真软件无线电无线通信基带处理算法网络算法无人机经验分享
专业技术咨询方向第一：SFBC编码与解码原理推导第二：SFBC系统中信道均衡推导第三：云哨物理层协议-速率匹配-解调门限-5dB第四：两天线SCFDE系统（SFBC码）帧结构设计第五：两天线OFDM系统（SFBC码）帧结构设计第一：SFBC编码与解码原理推导第二：SFBC系统中信道均衡推导第三：云哨物理层协议-速率匹配-解调门限-5dB第四：两天线SCFDE系统（SFBC码）帧结构设计第五：两天线
【计算机毕业设计】基于Springboot的办公用品管理系统+LW 枫叶学长(专业接毕设) Java毕业设计实战案例课程设计 spring boot 后端
博主介绍：✌全网粉丝3W+,csdn特邀作者、CSDN新星计划导师、Java领域优质创作者,掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：
MongoDB + Voyage AI 详解：重塑数据库与AI的协同范式 csdn_tom_168 NoSQL 数据库 mongodb 人工智能 AI
MongoDB+VoyageAI详解：重塑数据库与AI的协同范式2025年2月，MongoDB官方宣布收购VoyageAI，这一举措标志着数据库与人工智能技术的深度融合迈入新阶段。通过整合VoyageAI的先进AI检索与嵌入模型能力，MongoDB旨在重新定义AI时代的数据库架构，为企业构建智能应用提供端到端的数据基础设施。一、收购背景与技术战略1.行业趋势驱动AI数据挑战：随着生成式AI与大语言
HarmonyOS5.0仓颉引擎与盘古大模型：个性化作业批改系统架构设计与实现 H老师带你学鸿蒙系统架构 HarmonyOS5.0 鸿蒙华为仓颉教育
人工智能与边缘计算的融合正在重塑教育评价体系。本文将展示如何基于HarmonyOS5.0仓颉并发引擎和盘古大模型，构建新一代智能作业批改系统。系统架构全景graphTDA[学生端设备]-->|提交作业|B[仓颉边缘处理]B-->C[盘古大模型分析]C-->D[个性化反馈生成]D-->E[学生终端]D-->F[教师仪表盘]subgraphHarmonyOS分布式系统B-->|设备协同|G[教室平板集
知识图谱的个性化智能教学推荐系统(论文+源码) 毕设工作室_wlzytw python论文项目知识图谱人工智能
目录摘要Abstract目录第1章绪论1.1研究背景及意义1.2国内外研究现状1.2.1知识图谱1.2.2个性化推荐系统1.3本文研究内容及创新点1.4全文组织结构第2章相关理论与技术概述2.1知识图谱2.1.1知识图谱的介绍与发展2.1.2知识图谱的构建2.3协同过滤推荐算法2.2.1推荐算法概述2.2.2Pearson相关系数2.2.3Spearman相关系数2.4Bert模型和Albert模
反向传播神经网络极简入门自信哥
单个神经元神经网络是多个“神经元”（感知机）的带权级联，神经网络算法可以提供非线性的复杂模型，它有两个参数：权值矩阵{Wl}和偏置向量{bl}，不同于感知机的单一向量形式，{Wl}是复数个矩阵，{bl}是复数个向量，其中的元素分别属于单个层，而每个层的组成单元，就是神经元。神经元神经网络是由多个“神经元”（感知机）组成的，每个神经元图示如下：这其实就是一个单层感知机，其输入是由和+1组成的向量，其
阿里云瑶池数据库 Data Agent for Meta 正式发布，让 AI 更懂你的业务！数据库观点资讯人工智能
背景随着生成式人工智能（GenerativeAI）从概念验证迈向规模化商业落地，AIAgent已成为企业核心业务流程的重要组成部分。然而，当模型调用日益便捷时，核心痛点已不再是模型本身，而是集中在一个关键要素上：数据。AIAgent的落地瓶颈已从技术能力转向高质量、高相关性、安全合规的数据供给。企业面临的核心挑战在于：数据孤岛导致知识库分散，通用大模型难以理解专业业务传统数据管理依赖人工开发维护，
【TVM 教程】如何处理 TVM 报错
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/运行TVM时，可能会遇到如下报错：---------------------------------------------------------------AnerroroccurredduringtheexecutionofTVM.F
【限时干货】Calibre智能分类，轻松突破内网限制畅享电子书库比头发还脆弱服务器 tcp/ip linux
文章目录前言1.网络书库软件下载安装2.网络书库服务器设置3.内网穿透工具设置4.公网使用kindle访问内网私人书库前言本研究旨在构建一套运行于微软操作系统环境下的独立电子图书管理体系，核心目标是建立可远程操作的资源访问机制。该架构采用高可用性设计，在第三方阅读平台服务中断时仍能保障数字内容传输的稳定性。系统创新性地融合了两大核心技术组件：通过Calibre开源软件实现文献分类算法与格式转换功能
【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
说话人识别python_基于各种分类算法的说话人识别（年龄段识别） weixin_39673184 说话人识别python
基于各种分类算法的语音分类(年龄段识别)概述实习期间作为帮手打杂进行了一段时间的语音识别研究，内容是基于各种分类算法的语音的年龄段识别，总结一下大致框架，基本思想是：获取语料库TIMIT提取数据特征，进行处理MFCC/i-vectorLDA/PLDA/PCA语料提取，基于分类算法进行分类SVM/SVR/GMM/GBDT...用到的工具有HTK(C,shell)/Kaldi(C++,shell)/L
使用 C++ 实现 MFCC 特征提取与说话人识别系统 whoarethenext c++开发语言 mfcc 语音识别
使用C++实现MFCC特征提取与说话人识别系统在音频处理和人工智能领域，C++凭借其卓越的性能和对硬件的底层控制能力，在实时音频分析、嵌入式设备和高性能计算场景中占据着不可或缺的地位。本文将引导你了解如何使用C++库计算核心的音频特征——梅尔频率倒谱系数(MFCCs)，并进一步利用这些特征构建一个说话人识别（声纹识别）系统。Part1:在C/C++中计算MFCCs直接从零开始实现MFCC的所有计算
深入解析C++中 std::sort背后的实现原理 —Introsort（Introspective Sort）点云SLAM C++c++算法数据结构快速排序排序算法堆排序深度优先
Introsort简介Introsort是一种混合排序算法，结合了三种经典算法的优点：算法用于特点快速排序通常情况平均时间复杂度O(nlogn)堆排序当快速排序退化（递归过深）时最坏时间复杂度O(nlogn)插入排序小规模数组时（如长度≤16）常数开销小，快Introsort运行机制排序逻辑如下：if(size2*log2(n))堆排序（HeapSort）else快速排序（QuickSort）快速
冒泡排序算法详解（含Python代码实现）算法_小学生算法
冒泡排序（BubbleSort）是最基础的排序算法之一，通常用于学习排序算法的入门理解。本文将通过Python代码实现冒泡排序，并详细讲解其原理、执行流程、复杂度分析及适用情况。✨一、算法简介冒泡排序的核心思想是：相邻两个元素比较，将较大的元素不断“冒泡”至右侧，最终实现排序。其基本过程是重复比较相邻的元素，如果顺序错误就交换，重复这一过程，直到没有任何需要交换的为止。二、Python代码实现下面
揭秘 Spring Cloud Zuul 在后端的负载均衡策略大厂资深架构师 Spring Boot 开发实战 spring cloud 负载均衡 spring ai
揭秘SpringCloudZuul在后端的负载均衡策略关键词：SpringCloudZuul、负载均衡、微服务网关、Ribbon、请求路由摘要：在微服务架构中，API网关是流量的“总调度员”，而负载均衡则是它的“智能大脑”。本文将以“小区门卫派件”为故事主线，用通俗易懂的语言揭秘SpringCloudZuul如何通过集成Ribbon实现后端负载均衡。我们将从核心概念到算法原理，从代码实战到应用场景
ImportError: /nvidia/cusparse/lib/libcusparse.so.12: undefined symbol: __nvJitLinkComplete_12_4 爱编程的喵喵 Python基础课程 python ImportError torch nvJitLink 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ImportError:/home/
【NWFSP问题】基于中华穿山甲算法CPO求解零等待流水车间调度问题NWFSP研究（Matlab代码实现）
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️赠与读者1概述1.引言2.理论基础2.1中华穿山甲算法（CPO）核心原理2.2NWFSP数学模型3.CPO-NWFSP求解框架设计3.1编码与解码3.2离散化位置更新3.3目标函数适配4.实验设计与性能分析4.1实验设置4.2结果分析4.3敏感性分析5.结论与展望
【机器学习笔记 Ⅱ】11 决策树模型巴伦是只猫机器学习机器学习笔记决策树
决策树模型（DecisionTree）详解决策树是一种树形结构的监督学习模型，通过一系列规则对数据进行分类或回归。其核心思想是模仿人类决策过程，通过不断提问（基于特征划分）逐步逼近答案。1.核心概念节点类型：根节点：起始问题（最佳特征划分点）。内部节点：中间决策步骤（特征判断）。叶节点：最终预测结果（类别或数值）。分支：对应特征的取值或条件判断（如“年龄≥30？”）。2.构建决策树的关键步骤(1)
【机器学习笔记 Ⅱ】10 完整周期
机器学习的完整生命周期（End-to-EndPipeline）机器学习的完整周期涵盖从问题定义到模型部署的全过程，以下是系统化的步骤分解和关键要点：1.问题定义（ProblemDefinition）目标：明确业务需求与机器学习任务的匹配性。关键问题：这是分类、回归、聚类还是强化学习问题？成功的标准是什么？（如准确率>90%、降低10%成本）输出：项目目标文档（含评估指标）。2.数据收集（DataC
【机器学习笔记Ⅰ】13 正则化代价函数
正则化代价函数（RegularizedCostFunction）详解正则化代价函数是机器学习中用于防止模型过拟合的核心技术，通过在原始代价函数中添加惩罚项，约束模型参数的大小，从而提高泛化能力。以下是系统化的解析：1.为什么需要正则化？过拟合问题：当模型过于复杂（如高阶多项式回归、深度神经网络）时，可能完美拟合训练数据但泛化性能差。解决方案：在代价函数中增加对参数的惩罚，抑制不重要的特征权重。2.
【机器学习笔记Ⅰ】6 多类特征巴伦是只猫机器学习机器学习笔记人工智能
多类特征（Multi-classFeatures）详解多类特征是指一个特征（变量）可以取多个离散的类别值，且这些类别之间没有内在的顺序关系。这类特征是机器学习中常见的数据类型，尤其在分类和回归问题中需要特殊处理。1.核心概念(1)什么是多类特征？定义：特征是离散的、有限的类别，且类别之间无大小或顺序关系。示例：颜色：红、绿、蓝（无顺序）。城市：北京、上海、广州（无数学意义的大小关系）。动物类别：猫
图像分割技术详解：从原理到实践 lanjieying
本文还有配套的精品资源，点击获取简介：图像分割是图像处理领域将图像分解为多个区域的过程，用于图像分析、特征提取等。文章介绍了图像分割的原理，并通过一个将图像划分为2*4子块的示例，展示了如何使用Python和matplotlib库中的tight_subplot函数进行图像分割和展示。文章还探讨了图像分割在不同领域的应用，以及如何在机器学习项目中作为数据预处理步骤。1.图像分割基本概念在图像处理领域
机器学习笔记——支持向量机 star_and_sun 机器学习笔记支持向量机
支持向量机参数模型对分布需要假设（这也是与非参数模型的区别之一）间隔最大化，形式转化为凸二次规划问题最大化间隔间隔最大化是意思：对训练集有着充分大的确信度来分类训练数据，最难以分的点也有足够大的信度将其分开间隔最大化的分离超平面的的求解怎么求呢？最终的方法如下1.线性可分的支持向量机的优化目标其实就是找得到分离的的超平面求得参数w和b的值就可以了注意，最大间隔分离超平面是唯一的，间隔叫硬间隔1.1
【机器学习&深度学习】多分类评估策略一叶千舟深度学习【理论】深度学习【应用必备常识】大数据人工智能
目录前言一、多分类3大策略✅宏平均（MacroAverage）✅加权平均（WeightedAverage）✅微平均（MicroAverage）二、类比理解2.1宏平均（MacroAverage）2.1.1计算方式2.1.2适合场景2.1.3宏平均不适用的场景2.1.4宏平均一般用在哪些指标上？2.1.5怎么看macroavg指标？2.1.6宏平均值低说明了什么？2.1.7从宏平均指标中定位模型短板
网络安全相关专业总结（非常详细）零基础入门到精通，收藏这一篇就够了网络安全工程师教学兼职副业黑客技术网络安全 web安全安全人工智能网络运维
一、网络工程专业专业内涵网络工程是指按计划进行的以工程化的思想、方式、方法，设计、研发和解决网络系统问题的工程，一般指计算机网络系统的开发与构建。该专业培养具备计算机科学与技术学科理论基础，掌握网络技术领域专业知识和基本技能，在计算机、网络及人工智能领域的工程实践和应用方面受到良好训练，具有深厚通信背景、可持续发展、能力较强的高水平工程技术人才。学生可在计算机软硬件系统、互联网、移动互联网及新一代
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他