jcfszxc

【机器学习：异常值检测】新颖性和异常值检测

- 异常值检测方法概述
- 新颖性检测
- - 纵向扩展单类 SVM
- 异常值检测
- - 拟合椭圆包络
  - 隔离林
  - 局部异常因子
  - 使用局部异常因子进行新颖性检测

许多应用程序需要能够确定新观测值是属于与现有观测值相同的分布（它是异常值），还是应被视为不同的分布值（它是异常值）。通常，此功能用于清理真实数据集。必须做出两个重要的区别：

outlier detection: 异常值检测：	训练数据包含异常值，这些异常值被定义为与其他观测值相去甚远的观测值。因此，异常值检测估计器试图拟合训练数据最集中的区域，忽略偏差观测值。
novelty detection: 新颖性检测：	训练数据不会受到异常值的污染，我们有兴趣检测新的观测值是否为异常值。在这种情况下，anoutlier 也称为新颖性。

异常值检测和新颖性检测都用于异常检测，其中人们有兴趣检测异常或异常观察结果。异常值检测也称为无监督异常检测，新颖性检测也称为半监督异常检测。在异常值检测的上下文中，异常值/异常值不能形成密集聚类，因为可用的估计器假设异常值/异常值位于低密度区域。相反，在新颖性检测的上下文中，新奇/异常可以形成密集的聚类，只要它们位于训练数据的低密度区域，在这种情况下被认为是正常的。

scikit-learn 项目提供了一组机器学习工具，可用于新颖性或异常值检测。该策略是通过从数据中以无监督方式进行对象学习来实现的：

estimator.fit(X_train)

然后，可以使用以下predict方法将新观测值排序为异常值或异常值：

estimator.predict(X_test)

Inliers 标记为 1，而异常值标记为 -1。预测方法使用由估计器计算的原始评分函数的阈值。该评分函数可通过该score_samples方法访问，而阈值可以通过contamination参数控制。

该decision_function方法也是从评分函数中定义的，负值是异常值，非负值是异常值：

estimator.decision_function(X_test)

neighbors.LocalOutlierFactor请注意，默认情况下predict不支持和 score_samples 方法，但只是一个fit_predict方法，decision_function因为此估计器最初用于异常值检测。训练样本的异常分数可通过属性negative_outlier_factor_访问。

如果你真的想用于neighbors.LocalOutlierFactor新颖性检测，即预测标签或计算新未见数据的异常分数，你可以True在拟合估计器之前，使用novelty参数集实例化估计器。在这种情况下，fit_predict不可用。

警告：局部离群因子预警新颖性检测
当新颖性被设置为True注意，您只能使用predict新的看不见的数据， decision_function score_samples而不是训练样本，因为这会导致错误的结果。predict fit_predict训练样本的异常分数始终可以通过属性negative_outlier_factor_访问。

下表总结了其neighbors.LocalOutlierFactor行为。

方法	异常值检测	新颖性检测
fit_predict	还行	不可用
predict	不可用	仅用于新数据
dicision_function	不可用	仅用于新数据
score_samples	使用`negative_outlier_factor_`	仅用于新数据
negative_outlier_factor	还行	还行

异常值检测方法概述

scikit-learn 中异常值检测算法的比较。LocalOutlier Factor （LOF）不会以黑色显示决策边界，因为当用于异常值检测时，它没有可应用于新数据的预测方法。

ensemble.IsolationForest并且neighbors.LocalOutlierFactor在这里考虑的数据集上表现相当好。众所周知，它svm.OneClassSVM对异常值很敏感，因此在异常值检测方面表现不佳。话虽如此，在高维中检测异常值，或者对内围数据的分布没有任何假设，是非常具有挑战性的。svm.OneClassSVM仍可与异常值检测一起使用，但需要微调其超参数nu以处理异常值并防止过度拟合。linear_model.SGDOneClassSVM提供非线性单类支持向量的实现，其样本数复杂度呈线性。此实现与内核近似技术一起使用，以获得与默认使用高斯内核类似的svm.OneClassSVM结果。最后，covariance.EllipticEnvelope假设数据是高斯的，并学习一个椭圆。有关不同估计器的更多详细信息，请参阅示例比较玩具数据集上异常值检测的异常检测算法以及以下部分。

例子：

请参阅比较玩具数据集上异常值检测的异常检测算法，以比较、 svm.OneClassSVM、ensemble.IsolationForestneighbors.LocalOutlierFactor 和covariance.EllipticEnvelope。
请参阅异常值检测估计器的评估，了解如何使用 ROC 曲线评估异常值检测估计器、和 neighbors.LocalOutlierFactorensemble.IsolationForestmetrics.RocCurveDisplay的示例。

新颖性检测

考虑来自特征描述的相同分布的观测值数据集。现在考虑向该数据集再添加一个观测值。新的观察结果是否与其他观察结果大相径庭，以至于我们可以怀疑它是否是有规律的？（即它是否来自同一发行版？或者恰恰相反，它是否与另一个如此相似，以至于我们无法将其与原始观察区分开来？这是新颖性检测工具和方法所要解决的问题。

一般来说，它即将学习一个粗略的、紧密的边界，划定初始观测值分布的轮廓，绘制嵌入维空间。然后，如果进一步的观测在边界划定的子空间内，则认为它们来自与初始观测相同的种群。否则，如果它们位于边界之外，我们可以说它们是异常的，并且对我们的评估有一定的信心。

为此，Schölkopf 等人引入了单类 SVM，并在svm.OneClassSVM对象的支持向量机模块中实现。它需要选择内核和标量参数来定义边界。 RBF 内核通常被选择，尽管没有确切的公式或算法来设置其带宽参数。这是 scikit-learn实现中的默认值。该nu参数也称为单类支持向量机的余量，对应于在边界之外找到新的但有规律的观测值的概率。

引用：

Estimating the support of a high-dimensional distribution Schölkopf, Bernhard, et al. Neural computation 13.7 (2001): 1443-1471.

例子：

See One-class SVM with non-linear kernel (RBF) for visualizing the frontier learned around some data by a svm.OneClassSVM object.
请参阅具有非线性内核（RBF）的单类 SVM，以可视化svm.OneClassSVM对象围绕某些数据学习的前沿。
Species distribution modeling 物种分布建模

纵向扩展单类 SVM

实现了单类 SVM 的在线线性版本linear_model.SGDOneClassSVM。此实现随样本数线性缩放，并且可以与核近似一起使用，以近似于核化svm.OneClassSVM（其复杂性充其量是样本数的二次）的解。有关详细信息，请参见“在线单类 SVM”部分。

例子：

请参阅使用随机梯度下降的单类 SVM 与单类 SVM，了解核化单类 SVM 与核近似linear_model.SGDOneClassSVM相结合的近似图示。

异常值检测

异常值检测类似于新颖性检测，其目标是将常规观测值的核心与一些污染的观测值（称为异常值）分开。然而，在异常值检测的情况下，我们没有一个干净的数据集来表示可用于训练任何工具的常规观测值的总体。

拟合椭圆包络

执行异常值检测的一种常见方法是假设常规数据来自已知分布（例如，数据是高斯分布的）。根据这个假设，我们通常尝试定义数据的“形状”，并且可以将离远观测值定义为与拟合形状相距足够远的观测值。

scikit-learn 提供了一个对象，该对象covariance.EllipticEnvelope将鲁棒协方差估计拟合到数据，从而将椭圆拟合到中心数据点，忽略中心模式之外的点。

例如，假设内位数据是高斯分布的，它将以稳健的方式估计内位和协方差（即不受异常值的影响）。从该估计中获得的马氏距离用于推导出外围度的度量。此策略如下图所示。

例子：

请参阅稳健协方差估计和马氏距离相关性，以说明使用位置和协方差的标准 （covariance.EmpiricalCovariance） 或稳健估计 （covariance.MinCovDet） 来评估观测值的离远程度之间的区别。

引用：

Rousseeuw, P.J., Van Driessen, K. “A fast algorithm for the minimum covariance determinant estimator” Technometrics 41(3), 212 (1999)

隔离林

在高维数据集中执行异常值检测的一种有效方法是使用随机森林。ensemble.IsolationForest 通过随机选择一个特征，然后在所选特征的最大值和最小值之间随机选择一个分割值来“隔离”观测值。

由于递归分区可以用树结构表示，因此隔离样本所需的拆分次数相当于从根节点到终止节点的路径长度。

这个路径长度，在这种随机树的森林中取平均值，是正态性和我们的决策函数的度量。

随机分区会为异常情况生成明显更短的路径。因此，当随机树的森林共同为特定样本产生较短的路径长度时，它们极有可能是异常。

集成的实现。ensemble.IsolationForest是基于tree. extraterereegressor的集合。根据隔离森林的原始论文，每棵树的最大深度被设置为 $\lceil log_2{(n)}\rceil$ ，其中是用于构建树的样本数量(详见(Liu et al.， 2008))。

该算法如下图所示。

ensemble.IsolationForest允许您向已拟合的模型添加更多树的支撑warm_start=True：

from sklearn.ensemble import IsolationForest
import numpy as np
X = np.array([[-1, -1], [-2, -1], [-3, -2], [0, 0], [-20, 50], [3, 5]])
clf = IsolationForest(n_estimators=10, warm_start=True)
clf.fit(X)  # fit 10 trees  
clf.set_params(n_estimators=20)  # add 10 more trees  
clf.fit(X)  # fit the added trees

例子：

请参阅 IsolationForest 示例，了解 IsolationForest 的用法说明。
请参阅比较玩具数据集上异常值检测的异常值检测算法，以比较 ensemble.IsolationForest 和svm.OneClassSVM （neighbors.LocalOutlierFactor调整为执行类似于异常值检测方法），linear_model.SGDOneClassSVM以及的基于协方差的异常值检测。covariance.EllipticEnvelope

引用：

Liu, Fei Tony, Ting, Kai Ming and Zhou, Zhi-Hua. “Isolation forest.” Data Mining, 2008. ICDM’08. Eighth IEEE International Conference on.

局部异常因子

对中等高维数据集执行异常值检测的另一种有效方法是使用局部异常值因子（LOF）算法。

（LOF）算法计算一个分数neighbors.LocalOutlierFactor（称为局部异常值因子），以反映观测值的异常程度。它测量给定数据点相对于其相邻点的局部密度偏差。这个想法是检测密度明显低于其相邻样本的样本。

在实践中，局部密度是从 k 个最近邻获得的。观测值的LOF得分等于其k最近邻的平均局部密度与其自身局部密度的比值：正常实例的局部密度预期与其相邻实例的局部密度相似，而异常数据的局部密度预计要小得多。

通常选择所考虑的邻居数 k（别名参数 n_neighbors）大于聚类必须包含的最小对象数，以便其他对象可以是相对于该聚类的局部异常值，以及 2）小于可能成为局部异常值的邻近对象的最大数量。在实践中，此类信息通常不可用，takingn_neighbors=20 似乎总体上效果很好。当异常值的比例很高（即大于 10%，如下例所示）时，n_neighbors应更大（在以下示例中为 n_neighbors=35）。

LOF算法的优势在于它同时考虑了数据集的局部和全局属性：即使在异常样本具有不同底层密度的数据集中，它也能很好地表现。问题不在于样本的隔离程度，而在于它与周围社区的隔离程度。

当应用 LOF 进行异常值检测时，没有 predict和decision_function score_samples 方法，而只有一种方法fit_predict。训练样本的异常分数可通过该negative_outlier_factor_属性访问。请注意，predict当 LOF 用于新颖性检测时，即当novelty参数设置为 True时，可以score_samples对新的看不见的数据使用，decision_function但结果predict可能与的结果不同fit_predict。请参阅使用局部异常值因子进行新颖性检测。

此策略如下图所示。

例子：

有关使用的说明，请参见使用局部异常值因子（LOF）进行异常值检测neighbors.LocalOutlierFactor。
有关与其他异常检测方法的比较，请参阅比较玩具数据集上异常值检测的异常检测算法。

引用：

Breunig, Kriegel, Ng, and Sander (2000) LOF: identifying density-based local outliers. Proc. ACM SIGMOD

使用局部异常因子进行新颖性检测

要用于neighbors.LocalOutlierFactor新颖性检测，即预测标签或计算新的未查看数据的异常分数，您需要True在拟合估计器之前使用novelty参数集实例化估计器：

lof = LocalOutlierFactor(novelty=True)
lof.fit(X_train)

请注意，fit_predict为避免不一致，在这种情况下不可用。

局部离群因子预警新颖性检测
当新颖性被设置为True注意，您只能使用predict新的看不见的数据， decision_function score_samples而不是训练样本，因为这会导致错误的结果。predict fit_predict训练样本的异常分数始终可以通过属性negative_outlier_factor_访问。

使用局部异常值因子进行新颖性检测如下图所示。

【每日健康小知识】20200522 冉听花开
今天来聊一聊高糖饮食的危害：①高血压美国心脏病杂志曾发文称，高糖饮食会引发高血压。主要是因为：高血糖水平作用于下丘脑的某个关键部位，会引起心率加快、血压升高。②癌症肿瘤专家认为，吃糖越多、越会帮助肿瘤加速生长，因此要尽量避免摄入太多精制糖。多吃甜食还会导致导入人体过早老化和皮肤受到损伤。③胆结石糖摄入过量，会加快胆固醇的积累，造成胆汁内胆固醇、胆汁酸、卵磷脂三者比例失调，而过多的胆固醇又会形成胆固
基于机器学习的加密货币资金费率预测与套利策略云梦量化科技 python
一、资金费率机制解析永续合约的资金费率是加密货币衍生品市场独有的机制，旨在使永续合约价格锚定现货价格。资金费率每8小时结算一次，结算时多空双方互相支付资金费用：费率为正时，多头支付给空头；费率为负时，空头支付给多头。此机制既促使永续合约价格回归现货价格，也反映市场多空情绪。某安永续合约资金费率计算公式通常为：资金费率 F = 平均溢价指数 P + Clamp(综合利率 I − 溢价指数 P, +0
从文本到语音：使用 ElevenLabs 和 FFmpeg 实现语音合成与播放曦紫沐语音模型 ffmpeg ElevenLabs 语音合成
摘要在当今的人工智能时代，语音合成技术正变得越来越普及。ElevenLabs是一个强大的语音合成平台，能够生成高质量的语音音频。本文将详细介绍如何结合Python、ElevenLabsAPI和FFmpeg工具集，实现从文本到语音的转换，并通过ffplay播放生成的音频文件。同时，我们将解决常见的问题，如ffplay未找到或音频无法播放等。1.引言随着人工智能技术的发展，语音合成（Text-to-S
DK遇见未来：机器人祖爸
人工智能、AI、机械设计、BigData……这些听起来就很高端的专业究竟是什么？这些前沿学科相遇又会碰撞出什么？机器人，将这些前沿领域结合在一起越来越多的融入到我们的工作与生活中可问题来了机器人究竟是什么呢？又该如何给孩子讲机器人呢？这本《DK遇见未来：机器人》完美解决您的烦恼最新数据、系统知识、精美插图可以说这是一本儿童机器人大百科让孩子在这里遇见未来在讲读版视频中与您共同思考未来社会中机器人与
ORACLE 11g 使用ROWNUM完美解决ORA-00600 内部错误代码有点智慧
分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.csdn.net/jiangjunshow也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！1，ORA-00600：内部错误代码Oracle从11.2.0.1升级到11.2.0.4，开发人员报告说一个job运行失败，调试有报错信息，ORA-00600:内部错误代码，参数：[rwoirw:checkret
Kimi-Audio：最佳音LLM, 如何免费使用 Kimi-Audio AI 模型？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 kimi
简介继DeepSeek之后，字节跳动（现名MoonShotAI，又名Kimi）也在生成式人工智能领域加速发展，并发布了自己的音频模型Kimi-Audio，据说是迄今为止最好的音频模型。推荐文章《NvidiaGPU入门教程之02ubuntu安装A100显卡驱动(含8步快速浓缩教程)》权重2，安装A100显卡驱动《本地大模型知识库OpenWebUI系列之如何解决知识库上传文件故障Extractedco
[数据库优化] 10个MySQL/MariaDB索引优化技巧：大幅提升查询性能 Clownseven 数据库 mysql mariadb
更多服务器知识，尽在hostol.com你的网站或应用程序是不是经常因为数据库查询缓慢而让用户等到“地老天荒”？CPU占用率不高，内存也足够，服务器看起来一点都不忙，但页面就是出奇地慢？如果你遇到了这种情况，那么恭喜你（也可能是不幸），你很可能遇到了数据库性能优化中最常见也最关键的一环——索引问题！很多开发者和初级DBA（数据库管理员）可能会觉得索引这东西“玄之又玄”，或者简单粗暴地给每个列都加上
Python就业薪资好不好，学Python工作机会多吗？ Python小辰
Python就业薪资好不好？学Python工作机会多吗？人工智能时代的来临让Python崭露头角，各大企业纷纷加大对相关人才的招聘力度吸引了很多人入行学习Python。近年来Python开发发展迅猛，吸引了很多科技公司入驻，且看小编的分析。Python薪资好不好?数据是最有力的答案。职友集统计数据显示，全国Python工程师的平均月资达19160，其中20-30K的工程师数量超过了四成。来自智联招
苏氏｜第23条建议怎样把思想同自尊感融为一体征途漫漫学会悦纳
初次看到这个题目真的让我很惊奇，在我的认识里思想和自尊感好像是平行线，没想到这两者竟可以融为一体。原文：通过这一目标的途径，就在于要使知识、智力的丰富性成为学生个性的自我表现。在教低年级时，力求实施这样一条原则：每一个学生都要对集体的智力生活做出自己的贡献。学生应当感到自己的知识、思想、技能是一种荣誉和尊严。思考：反思自己教学以来，重视学生知识的丰富性，却对学生智力的丰富性重视不够。当班主任时特别
Jetson平台编译Tengine space01 AIoT Jetson 人工智能深度学习计算机视觉
1.Tengine简介Tengine于2017年在GitHub（https://github.com/OAID/Tengine）开源，是OPENAILAB（开放智能）推出的自主知识产权的边缘AI计算框架，致力于解决AIoT产业链碎片化问题，加速AI产业化落地。Tengine兼容多种操作系统和深度学习算法框架，简化和加速面向场景的AI算法在嵌入式边缘设备上快速迁移，以及实际应用部署落地，可以十倍提升
MySQL 核心知识点梳理(5) 小刘| mysql 数据库
目录事务MySQL事务的四大特性ACID原子性持久性隔离性事务的隔离级别读未提交读已提交可重复读串行化事务的隔离级别如何实现MVCC版本链READVIEW高可用MySQL数据库的读写分离主从复制主从同步延迟怎么处理分库策略水平分库分表的策略事务MySQL事务的四大特性事务是一条或多条SQL语句组成的执行单元。四个特性分别是原子性、一致性、隔离性和持久性。原子性保证事务中的操作要么全部执行、要么全部
MySQL 核心知识点梳理(4) 小刘| mysql java 数据库
目录为什么InnoDB使用B+树作为底层B+树的叶子节点是单向链表还是双向链表？如果从大值向小值检索，如何操作？一个B+树可以存储多少数据呢?索引为什么用B+树不用普通二叉树呢?为什么索引不用B树用B+树为什么用B+树不用跳表呢B+树的范围查找是怎么做的B+树索引和hash索引的的区别聚簇索引和非聚簇索引的区别什么是回表MRR联合索引覆盖索引什么是最左前缀原则MySQL中有哪几种锁说说行锁加sel
Java 进阶之路：探索更强大的编程世界七七&556 面试学习路线阿里巴巴 java 开发语言
在编程的浩瀚海洋中，Java如同一艘坚固的巨轮，引领着开发者们驶向创新与高效的彼岸。当我们掌握了Java的基础知识后，进阶之旅便悄然开启。一、面向对象的深入理解封装、继承与多态封装不仅仅是将数据隐藏起来，更是一种对代码的保护和组织方式。通过合理的封装，可以提高代码的可维护性和安全性。继承是代码复用的重要手段，但要避免过度继承带来的复杂性。理解继承的层次结构和正确使用继承，可以使代码更加清晰和易于扩
机器人-组成结构-感知 - 决策 - 执行具身智能-查布嘎具身智能机器人人工智能
目录一、感知系统内部传感器：外部传感器：二、智能决策系统机器学习家族1.1机器学习2.1深度学习2.2深度学习模型(主要属于监督/强化学习范畴，但结构通用)：3.1监督学习3.2监督学习模型4.1半监督学习4.2无/半监督学习模型：5.1无监督学习5.2生成模型(可属于监督/无监督)：6.1强化学习7.1其他学习三、控制系统（运控）①对应小脑和脊柱一、感知系统①对应人体的五官。由具有不同功能的各种
深度学习篇---矩阵 Atticus-Orion 嵌入式知识篇上位机知识篇嵌入式硬件篇深度学习矩阵人工智能
在机械臂解算、深度学习网络等硬件和软件领域中，矩阵运算作为核心数学工具，承担着数据表示、变换、映射和优化的关键作用。以下从具体领域出发，详细总结涉及的矩阵运算及对应的核心知识：一、机械臂解算领域机械臂解算（运动学、动力学分析）的核心是描述“关节空间”与“操作空间”的映射关系，矩阵运算用于精准刻画坐标系转换、运动传递和力/力矩分析。1.运动学解算（正/逆运动学）核心目标：通过矩阵描述关节角度与末端执
嵌入式知识篇---机械臂的运动学结算（简单2自由度） Atticus-Orion 嵌入式知识篇上位机知识篇嵌入式硬件篇人工智能机械臂解算
机械臂的“解算”本质是运动学解算，核心是解决“关节角度”和“末端位置”的互转问题。下面用最通俗的方式解释，并结合2自由度平面机械臂（结构最简单，适合入门）给出Python和ESP32代码，以及参数细节。一、机械臂运动学解算的通俗原理想象你有一条“简化的手臂”：只有大臂和小臂两个关节（类似人类的上臂和前臂），只能在桌面（X-Y平面）内运动。正解：知道“大臂转30°，小臂转60°”，算出“手掌”的位置
5商学习笔记爱英思谭523
【Jocelyn1月25日习得小结:】1.知识划重点(R):快速学习：如何用20小时，快速学习？2.我的理解(I):润总这个快速学习，跟李笑来老师的最小必要知识很类似，都是通过快速掌握入门的知识，完成从0到1的跨越。时间越快，掌握大概知识越多进门就越快。3.我的相关经验或经历(A1):复述其实是帮助自己去理解概念的绝佳方式。自己带课这几年，对于教材中的概念从浅入深的学习和理解，跟我面对无数个不一样
马士兵系列——缓存行数据一致性2——缓存行的MESI 公众号【专注CLinuxCloud】缓存 python 开发语言
hello，你好鸭，我是Ethan，西安电子科技大学大三在读，很高兴你能来阅读。✔️目前博客主要更新Java系列、项目案例、计算机必学四件套等。人生之义，在于追求，不在成败，勤通大道。加油呀！个人主页：EthanYankang推荐：史上最强八股文||一分钟看完我的几百篇博客温馨提示：划到文末发现专栏彩蛋点击这里直接传送本篇概览：详细讲解了缓存行的一致性协议之一的MEESI的方方面面。⭕【计算机领域
机器学习入门（五）：线性回归—从模型函数到目标函数米饭超人
从数据反推公式假设我们获得了这样一张表格，上面列举了美国纽约若干程序员职位的年薪：enterimagedescriptionhere大家可以看到，表格中列举了职位、经验、技能、国家和城市几项特征。除了经验一项，其他都是一样的。不同的经验（工作年限），薪水不同。而且看起来，工作年头越多，工资也就越高。那么我们把Experience与Salary抽取出来，用x和y来分别指代它们。enterimaged
AI驱动的电路仿真革命：从物理模型到智能学习的范式转移
AI驱动的电路仿真革命：从物理模型到智能学习的范式转移人工智能正颠覆传统电路仿真方法，本文将深入解析AI在电路建模、优化与故障诊断中的前沿应用，揭示智能仿真如何提升10倍效率并突破物理限制。一、AI电路仿真的数学基础1.1图神经网络建模电路拓扑电路可抽象为图结构G=(V,E)G=(V,E)G=(V,E)：VVV：节点（电子元件）EEE：边（连接关系）图卷积网络(GCN)更新公式：H(l+1)=σ(
MCP协议技术解析：AI时代的通信基础设施革命
MCP协议技术解析：AI时代的通信基础设施革命在AI从工具演变为协作伙伴的进程中，MCP协议正在成为连接智能体与现实世界的“数字神经系统”。当前人工智能技术正经历从孤立模型向生态系统协作的关键转型，而通信协议作为AI能力的“连接器”，其设计直接决定了智能系统的边界与效率。MCP协议（ModelContextProtocol）作为新一代AI通信基础设施，正在开发者社区引发一场静默革命。本文将从技术原
22.05.07 追风的女青年
一个知识越贫乏的人，越是拥有一种莫名奇怪的勇气和一种莫名奇怪的自豪感。因为知识越贫乏，你所相信的东西就越绝对，因为你根本没有听过与此相对立的观点。夜郎自大是无知者，和好辩者的天性。——罗翔大部分的生活都乏味得不值一提，哪个年龄段都乏味。换另一种牌子的香烟也好，搬到一个新地方去住也好，订阅别的报纸也好，坠入爱河又脱身也好，我们一直在以或轻浮或深沉的方式，对抗日常生活那无法稀释的乏味。——杜鲁门·卡波
好文章的5大标准，在这里，请围观如沐芳华
李笑来说过:审美常常并不需要知道原理，但创造美的人必须有方法论，否则不可能持续创造。写作就是一种创造活动，我们的文字能否被读者认可，就取决于文章内容。那什么样的文章算是好文章呢？粥左罗在《学会写作》这本书中提供了5个标准。（1）提供新知，创造价值写作不是自嗨，要让读者读完后有收获，读者能从你的文字中得到完善。优秀的文章提供的不局限于新知识，而且可以是新方法、新资料、新故事、新视角等。粥左罗有一篇被
你的博客为什么不更新了？
博客为什么不更新了很久没有写过博客了，为什么呢？因为工作了，成为了一名社畜因为没时间因为没有学习新的东西，所以无法分享因为不思进取…笔者写博客的初衷只是为了总结知识，让我学到的知识能从我这里输出出去，并且别人能看懂。如果结果能帮助更多人了解某个东西，那自然是最好的。三年前写了人生第一篇博客：SQL语句中，MySQL不支持的几种情况。反响平平，两千阅读。之后又陆续发表了几篇博客，数量不多，9篇文章。
平顶山10家亲子鉴定机构中心地址一览（附2024年鉴定中心地址）国医基因李主任
平顶山亲子鉴定机构中心地址在哪里？在平顶山做亲子鉴定肯定到自己所居住地区的亲子鉴定中心做比较好，出行方便。知识大有用，专家在身边，平顶山国医基因，为您提供专业的DNA亲子鉴定知识与咨询服务。地址位于：平顶山市优越路东段117号。其中个人亲子鉴定收费标准为2200-2600元左右一次，司法亲子鉴定收费标准为2400-3600元一次，无创亲子鉴定收费标准为4500-5000元一次；平顶山正规亲子鉴定机
《我们的过山车》 Hecate0523
上我们的过山车这一节课时，先让学生对前面六节内容有个回顾，然后借运用这些知识来开展过山车活动。活动开始中，我设计了一个让小朋友上台用动作语言来描述一下自己坐过山车的经历，一下子就引入了学生兴趣，还让通过看到的动作变化了解到学生已有的一些前知识，比如过山车有坡度变化和直线运动、曲线运动，以及过山车最后结束是直道并且有缓冲功能等。这些对于我们提出的设计内容有一定的铺垫。但是通过三个班发现的最重要一点是
GENERALIST REWARD MODELS: FOUND INSIDE LARGELANGUAGE MODELS 樱花的浪漫大模型与智能体对抗生成网络与动作识别强化学习语言模型人工智能自然语言处理深度学习机器学习计算机视觉
GeneralistRewardModels:FoundInsideLargeLanguageModelshttps://arxiv.org/pdf/2506.232351.概述将大型语言模型（LLMs）与复杂的人类价值观（如乐于助人和诚实）对齐，仍然是人工智能发展中的一个核心挑战。这项任务的主要范式是来自人类反馈的强化学习（RLHF）[Christianoetal.,2017;Baietal.,
Python正则表达式
正则表达式是文本处理的强大工具，本文将系统全面地介绍正则表达式的所有知识点，结合Python的re模块，帮助读者从零开始掌握正则表达式的使用。1.正则表达式基础概念1.1什么是正则表达式？正则表达式（RegularExpression，简称regex或RE）是一种用于描述字符串匹配规则的表达式，它并不是Python特有的，而是计算机科学中的一个通用概念。核心功能：验证：检查字符串是否符合特定格式（
Python深度学习实践：LSTM与GRU在序列数据预测中的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：LSTM与GRU在序列数据预测中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来序列数据预测是机器学习领域的一个重要研究方向，涉及时间序列分析、自然语言处理、语音识别等多个领域。序列数据具有时间依赖性，即序列中每个元素都受到前面元素的影响。传统的机器学习算法难以捕捉这种时间依赖性，而深度学习
一个例子带你入门机器学习
目录1.为建模选择数据2.选择预测目标3.选择“特征”4.构建您的模型（这篇文章将使用经典墨尔本房价数据集作为例子，引导机器学习的流程，数据集为melb_data.csv，请在csdn的下载区自行下载，运行代码时需要将数据集下载在同个目录下）1.为建模选择数据数据集有太多的变量，多到难以理解，甚至无法很好地打印出来。如何将这海量的数据削减为能够理解的内容？我们将首先凭借直觉选择几个变量。后续将介绍
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen

【机器学习：异常值检测】新颖性和异常值检测

【机器学习：异常值检测】新颖性和异常值检测

异常值检测方法概述

新颖性检测

纵向扩展单类 SVM

异常值检测

拟合椭圆包络

隔离林

局部异常因子

使用局部异常因子进行新颖性检测

你可能感兴趣的:(机器学习知识专栏,机器学习,人工智能)