smile-yan

《异常检测——从经典算法到深度学习》25 基于深度隔离林的异常检测算法

《异常检测——从经典算法到深度学习》

0 概论
1 基于隔离森林的异常检测算法
2 基于LOF的异常检测算法
3 基于One-Class SVM的异常检测算法
4 基于高斯概率密度异常检测算法
5 Opprentice——异常检测经典算法最终篇
6 基于重构概率的 VAE 异常检测
7 基于条件VAE异常检测
8 Donut: 基于 VAE 的 Web 应用周期性 KPI 无监督异常检测
9 异常检测资料汇总（持续更新&抛砖引玉）
10 Bagel: 基于条件 VAE 的鲁棒无监督KPI异常检测
11 ADS: 针对大量出现的KPI流快速部署异常检测模型
12 Buzz: 对复杂 KPI 基于VAE对抗训练的非监督异常检测
13 MAD: 基于GANs的时间序列数据多元异常检测
14 对于流数据基于 RRCF 的异常检测
15 通过无监督和主动学习进行实用的白盒异常检测
16 基于VAE和LOF的无监督KPI异常检测算法
17 基于 VAE-LSTM 混合模型的时间异常检测
18 USAD：多元时间序列的无监督异常检测
19 OmniAnomaly：基于随机循环网络的多元时间序列鲁棒异常检测
20 HotSpot：多维特征 Additive KPI 的异常定位
21 Anomaly Transformer: 基于关联差异的时间序列异常检测
22 Kontrast: 通过自监督对比学习识别软件变更中的错误
23 TimesNet: 用于常规时间序列分析的时间二维变化模型
24 TSB-UAD：用于单变量时间序列异常检测的端到端基准套件
25 DIF：基于深度隔离林的异常检测算法

25. 基于深度隔离林的异常检测算法

论文名称：Deep Isolation Forest for Anomaly Detection
会议名称：IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING（TKDE）
下载地址：https://arxiv.org/abs/2206.06602
源码地址：https://github.com/xuhongzuo/deep-iforest
论文相关推荐阅读链接：https://zhuanlan.zhihu.com/p/625557221
请容许我感叹一下：本系列第1篇讲异常检测的算法时用到的就是 Isolation Forest，峰回路转，再次遇见。

25.1 论文概述

这篇论文的摘要部分介绍了他们提出的一种新的异常检测方法，称为深度隔离森林（Deep Isolation Forest）。该方法利用神经网络将原始数据映射到随机表示集合中，从而实现非线性分区和更好地隔离真正的异常值。与传统的隔离森林方法相比，深度隔离森林方法具有更高的检测准确性和更快的训练速度。作者还通过在多个数据集上进行实验验证了该方法的有效性。

解决方法关键思路：利用神经网络强大的表示能力将原始数据映射到一组新的数据空间中，并且通过在这些新创建的数据空间上执行简单的轴平行分割即可以很容易地实现非线性隔离(相当于在原始数据空间中不同大小的子空间上进行非线性分割)。

这篇论文的主要贡献包括：

引入了深度隔离森林（DIF）方法，该方法利用神经网络产生的随机表示来实现非线性数据空间的分区，从而有效地隔离真正的异常值。
提出了一种新的数据表示方案，利用随机表示集合和随机分区进行数据分割，从而在表格、图形和时间序列数据集上实现了显著的改进。
通过实验证明，深度隔离森林方法在异常检测任务中取得了显著的改进，同时也继承了隔离森林方法的良好可扩展性。

这些贡献使得深度隔离森林方法成为了异常检测领域的一个重要创新，为处理高维、非线性数据空间中的异常值提供了一种有效的解决方案。

个人意见，仅供参考：读论文时，先读标题，再读发表在哪个会议或期刊，再读Abstract 和 Introduction 中的 contribution，这些应该都比较容易理解，快速过一遍。

25.2 相关技术

由于隔离森林相对而言容易理解，并且在本系列课程的第一篇已经介绍，本篇不再重复介绍隔离森林相关内容。需要的小伙伴查阅相关资料自行学习。

这篇论文涉及的相关技术主要包括：

隔离森林（Isolation Forest）：传统的异常检测方法之一，通过随机选择特征和随机切分数据来构建孤立树，从而实现对异常值的检测。
深度神经网络（Deep Neural Networks）：用于生成随机表示集合的神经网络模型，通过非线性映射实现对原始数据的转换。
非线性数据分区：利用随机表示集合和随机分区进行数据分割，从而在高维、非线性数据空间中更好地隔离真正的异常值。
异常值评分函数：利用隐藏在映射密集表示中的定量信息和定性比较，实现对数据对象孤立难度的更准确评估，从而提高异常值评分的准确性。

根据论文的意思，这些技术的结合使得深度隔离森林方法能够在处理复杂数据集中的异常检测任务中取得显著的改进，并且具有良好的可扩展性和通用性。

在论文2.3节提到的 Deep Ensembles 是指深度集成模型，它是一种将多个独立训练的神经网络的预测结果进行组合的方法。这种方法可以提高预测准确性，并在不修改原始工作流程的情况下提供不确定性估计。与其他基于集成的方法类似，深度集成模型的质量很大程度上取决于其成员的多样性。尽管深度集成模型相对简单，但它仍然会带来相当大的计算成本。因此，许多相关研究试图解决这两个关键限制，例如通过使用排斥项来确保个体多样性，通过对抗性方式增加多样性，或者提出一种可以吸收尽可能多的功能多样性的精炼模型。此外，深度集成模型也启发了异常检测方面的相关研究，例如结合一组自动编码器并使用重构误差的中位数作为异常值得分。为了提高成员多样性，这些自动编码器是稀疏连接的。

因此，深度集成模型是一种利用多个独立训练的神经网络进行组合的方法，以提高预测准确性并提供不确定性估计。

25.3 核心方法

这篇论文的核心技术是深度隔离森林（DIF）方法。DIF方法利用神经网络产生的随机表示来实现非线性数据空间的分区，从而有效地隔离真正的异常值。与传统的隔离森林方法相比，DIF方法具有更高的检测准确性和更快的训练速度。DIF方法的关键在于利用深度神经网络生成随机表示集合，从而实现对原始数据的非线性映射，然后利用随机分区进行数据分割，从而在高维、非线性数据空间中更好地隔离真正的异常值。DIF方法的创新性在于将深度神经网络和隔离森林方法相结合，从而实现了对异常检测任务的显著改进。

接下来的内容主要从数学的角度描述一下论文方法，以下内容未严格按照论文先后顺序。

25.3.1 问题陈述和符号 PRELIMINARIES: ISOLATION FOREST

此部分论文主要提到了以下几个概念：

数据集： $\mathcal{D}$ ；
隔离树（ $\textbf{iTree}$ ）：用符号 $\mathcal{T}$ 表示；隔离树的本质是二叉树，树中的每个节点对应一个数据对象池。一个包含 $n$ 个数据对象的子集被用作根节点的数据池，根节点从整个数据集中随机下采样
隔离森林（\textbf{Isolation Forest）：由许多隔离树组成的集成模型。隔离树是一种用于异常检测的树形结构，它通过对数据空间进行递归的随机划分来隔离异常值。每棵隔离树都是通过随机选择特征和随机阈值来构建的，从而形成了对数据空间的随机划分。在隔离树中，异常值通常比正常值更容易被隔离到树的较浅层，因此可以通过路径长度来评估数据点的异常程度。隔离森林则是由多棵隔离树组成的集成模型。每棵隔离树都是独立构建的，因此它们可以并行生成。隔离森林通过对每个数据点在每棵树中的路径长度进行平均，来得到最终的异常得分。由于隔离森林利用了多棵树的集成效果，因此通常能够更准确地识别异常值，并且相对于单棵隔离树，隔离森林对参数的选择更加鲁棒。
分割阈值： $\eta$
随机选择的索引： $j$
对象的第 j 维度特征： $o^{(j)}$
隔离森立中隔离树的数目： $T$
隔离森林的表示方法： $\mathcal{T}=\{{\mathcal{T}_i\}}^T_{i=1}$
数据对象的异常程度表示方法： $|p(o|\mathcal{T})|$
数据对象 o 平局路径长度： $\mathbb{E}_{\mathcal{T}_i \in \mathcal{T}}(|p(o(\mathcal{T}_i))|)$
异常得分表示方法： $\mathscr{F}_{\text {iFoerst }}(\boldsymbol{o} \mid \mathcal{T})=2^{-\mathbb{E}_{\tau_i \in \mathcal{T}} \frac{\left|p\left(\boldsymbol{o} \mid \tau_i\right)\right|}{C(T)}}$

iForest使用的是一种简单的隔离方法，即通过随机选择特征和随机阈值来构建隔离树。具体来说，对于一个数据集 $\mathcal{D}$ ，iForest首先随机选择一个特征 $q$ 和一个阈值 $p$ ，然后将数据集 $\mathcal{D}$ 分成两个子集 $\mathcal{D}_l$ 和 $\mathcal{D}_r$ ，其中 $\mathcal{D}_l$ 包含所有特征 $q$ 的值小于 $p$ 的数据点， $\mathcal{D}_r$ 包含所有特征 $q$ 的值大于等于 $p$ 的数据点。这个过程可以表示为：

$\mathcal{D}_l = \{\mathbf{x} \in \mathcal{D} \mid x_q < p\} \\ \mathcal{D}_r = \{\mathbf{x} \in \mathcal{D} \mid x_q \geq p\}$

然后，iForest递归地对子集 $\mathcal{D}_l$ 和 $\mathcal{D}_r$ 进行相同的操作，直到达到停止条件。停止条件可以是树的深度达到预定值，或者子集中只包含一个数据点。

在隔离树中，数据点的异常得分可以通过路径长度来计算。具体来说，对于一个数据点 $\mathbf{x}$ ，它在隔离树中的路径长度 $h(\mathbf{x})$ 可以表示为：

$h(\mathbf{x}) = E(h(\mathbf{x}, T))$

其中 $T$ 是隔离树， $h(\mathbf{x}, T)$ 是数据点 $\mathbf{x}$ 在隔离树 $T$ 中的路径长度， $E(\cdot)$ 表示对随机选择的树进行平均。在隔离森林中，数据点的异常得分是所有隔离树中路径长度的平均值。

25.3.2 深度隔离森林 DEEP ISOLATION FOREST

DIF首先通过无优化神经网络产生随机表示集成，定义为

$\mathscr{G}(\mathcal{D})=\left\{\mathcal{X}_u \subset \mathbb{R}^d \mid \mathcal{X}_u=\phi_u\left(\mathcal{D} ; \theta_u\right)\right\}_{u=1}^r \tag{1}$

其中 $r$ 是指集合的大小， $\phi_u: \mathcal{D} \mapsto \mathbb{R}^d$ 是将原始数据映射到新的 $d$ 维空间的网络，对 $\theta_u$ 中的网络权值进行随机初始化。每个表示用 $t$ 树赋值，构造包含 $T=r\times t$ 棵隔离数的隔离森林 $\mathcal{T}=\left\{\tau_i\right\}_{i=1}^T$ 。 $\mathcal{X}$ 的 iTree 由一组投影数据 $\mathcal{P}_1 \sub \mathcal{X}$ 的根节点初始化。数据池中的第 $k$ 个结点 $\mathcal{P_k}$ 分支成两个叶节点与不相交的子集，即 $\mathcal{P_{2k}} = \{x | x^{(j_k)} \le \eta_k, x \in \mathcal{P_k}\}$ 并且 $\mathcal{P}_{2 k+1}=\left\{\boldsymbol{x} \mid \boldsymbol{x}^{\left(j_k\right)}>\eta_k, \boldsymbol{x} \in \mathcal{P}_k\right\}$ ，其中 $j_k$ 是在新创建的数据空间 ${1,...,d\}$ 的所有维度中均匀随机地选择， $\boldsymbol{x}^{\left(j_k\right)}$ 为预测数据对象的第 $j$ 维， $\eta_k$ 为 $\{\boldsymbol{x}^{\left(j_k\right)}\mid x\in\mathcal{P_k}\}$ 范围内的分割值。

构造 $\mathcal{T}$ 后，根据 tForest 每个 iTree 的隔离困难程度来评估数据对象 $o$ 的异常程度，评分函数定义为

$\mathscr{F}(\boldsymbol{o} \mid \mathcal{T})=\Omega_{\tau_i \sim \mathcal{T}} I\left(\boldsymbol{o} \mid \tau_i\right) \tag{2}$

式中， $I\left(\boldsymbol{o} \mid \tau_i\right)$ 表示iTree $\tau_i$ 中隔离困难度的函数， $\Omega$ 表示积分函数。

25.3.3 深度隔离森林的实现 Implementation of DIF

Deep Isolation Forest (DIF)的实现过程主要包括以下几个步骤：

随机表示集合的生成：DIF利用随机初始化的神经网络将原始数据映射到随机表示集合中。每个表示都是由一个神经网络生成的，网络权重是随机初始化的。这种随机表示集合的生成方式使得DIF能够进行非线性分区，从而更好地处理复杂数据集中的困难异常。
隔离树的构建：对于每个随机表示，DIF使用隔离树（iTree）进行隔离。隔离树是一种二叉树结构，其中每个节点都是一个随机选择的特征和一个随机选择的分割点。通过对数据进行递归分割，隔离树可以将数据划分为不同的区域，从而实现对异常数据的隔离。
集成隔离树：DIF将每个随机表示的隔离树集成成一个隔离森林。这种集成方式可以提高隔离的准确性和鲁棒性，从而更好地发现真实异常。
异常评分：最后，DIF使用隔离森林对新数据进行异常评分。对于新数据，DIF将其在每个随机表示下的路径长度进行平均，得到一个综合的异常评分。这个评分可以用来判断数据是否为异常数据。

总的来说，DIF的实现过程主要包括随机表示集合的生成、隔离树的构建、集成隔离树和异常评分。这种方法利用随机初始化的神经网络进行数据表示，实现了非线性分区和更好的隔离效果，从而在异常检测方面取得了显著的改进。

DIF中有两个主要组成部分，即随机表示集成函数 $\mathscr{G}$ 和基于隔离的异常评分函数 $\mathscr{F}$ 。为了提高表示函数 $\mathscr{G}$ 的时间效率，我们提出了计算效率的深度表示集成方法 (Computation-Efficient deep Representation Ensemble method, CERE)。该算法可以在给定的小批量中同时计算所有集合成员。为了进一步提高异常评分的准确性，我们提出了偏差增强异常评分函数(Deviation-Enhanced Anomaly Scoring function，DEAS)，通过利用投影密集表示中隐藏的定量信息，并进行定性比较。

CERE:计算高效的深度表示集成方法（Computation-Efficient deep Representation Ensemble） 是Deep Isolation Forest（DIF）中的一个重要组成部分，旨在提高表示集成的计算效率。CERE的实现过程主要包括以下几个步骤：

并行计算：为了提高表示集成的计算效率，CERE利用并行计算的方式，同时在给定的小批量数据上计算所有的集成成员。这种并行计算方式能够充分利用计算资源，大大减少计算时间和内存开销。
利用计算加速器：CERE充分利用计算加速器（如GPU）进行小批量计算，以进一步提高计算效率。通过利用计算加速器的并行计算能力，CERE能够高效地生成表示集成，从而加速整个DIF方法的执行过程。

总的来说，CERE通过并行计算和计算加速器的利用，实现了计算高效的深度表示集成方法。这种方法能够大大减少表示集成的计算时间和内存开销，提高DIF方法的执行效率，从而更好地应用于实际的异常检测任务中。

DEAS:偏差增强异常评分功能（Deviation-Enhanced Anomaly Scoring） 是Deep Isolation Forest（DIF）中的关键组成部分，旨在提高异常评分的准确性。DEAS的实现过程主要包括以下几个步骤：

利用密集表示中的隐藏定量信息：DEAS利用神经网络生成的密集表示中的隐藏定量信息，结合定性比较，提高异常评分的准确性。这些隐藏定量信息可以包括数据对象的特征值之间的关系以及分支阈值等，这些信息可以提供更多的数据隔离难度的定量信息。
定性比较：除了利用隐藏定量信息，DEAS还进行定性比较，以进一步提高异常评分的准确性。通过对每个节点进行定性比较，DEAS能够更好地评估数据对象的隔离难度，从而提高异常评分的质量。

总的来说，DEAS通过利用密集表示中的隐藏定量信息和定性比较，提高了异常评分的准确性。这种方法能够更准确地评估数据对象的隔离难度，从而提高DIF方法的异常检测性能。

25.3.4 DIF 算法 Algorithm of DIF

算法1：构建深度隔离树

该算法是隔离树的构建过程，其中输入为数据集 $D$ ，输出为隔离树 $\tau$ 。在算法中，首先初始化隔离树的根节点，并将数据集 $D$ 分配给该节点。然后，对于每个节点，随机选择一个特征和一个分割点，将数据集分成左右两个子集，并将每个子集分配给一个新的内部节点。然后，递归地对左右子树进行相同的操作，直到达到树的最大深度 $h$ 或子集中只有一个数据点。最后，将外部节点附加到当前节点并返回隔离树。

算法2：偏差增强异常评分

描述了使用偏差增强方法计算异常评分的过程。该算法概述了将数据对象转换为矢量化表示、初始化隔离树以及基于遍历路径和累积差异计算异常分数的步骤。

1.输入：输入数据集由需要计算异常分数的数据对象组成。
2.转换：将数据对象转换为矢量化表示，表示为 ${x}_u$ ，使用指定的方法。
3.初始化：该算法初始化隔离树和转换后的数据对象的子集，以进行异常评分。
4.遍历和路径记录：每个数据对象遍历每个隔离树，遍历路径 ${p}({x}_u|\tau_i）$ 和累积差值 $｛\beta｝$ 。
5.异常分数计算：路径长度 ${|p}({x}_u|\tau_i）|$ 和偏差 ${g}({x}_u|\tau_i）$ 。
6.聚合：根据记录的遍历路径和累积的差异计算每个数据对象的异常分数。
7.输出：该算法基于偏差增强方法返回输入数据对象的异常分数。
该算法为将基于偏差的异常评分纳入隔离林框架提供了一种系统的方法，允许对数据集中的异常程度进行更细致的评估。

25.5 论文实验

这里我们不去看原论文实验过程与实验结果了，只是跑跑源码，看看效果。

这个过程中最麻烦的就是环境搭建，我们首先把源码中的 requirements.txt 修改如下：

pandas==1.3.3
numpy==1.20.3
networkx==2.6.3
scikit-learn==0.24.2
torch
torch-cluster
torch-geometric
torch-scatter
torch-sparse
tqdm==4.62.3

注意看一下自己已经安装的版本是否 “大致符合要求” 。比如源码中要求 torch 版本为 torch==1.10.1+cu113 ，我实际的版本为 1.11.0+cu113。其他的也类似地比较一下。

安装依赖过程：

安装完成以后查看关键依赖的版本。

运行 main_ts.py 文件，全部都使用默认参数。

结合源码理解运行过程中输出的内容。

180_ltstdbs30791ES, 0.9848, 0.275, 0.4313, 0.275, 1.0, 
180_ltstdbs30791ES, 0.9848, 0.0000, 0.2750, 0.0000, 0.4313, 0.0000, 0.2750, 0.0000, 1.0000, 0.0000, 75.8, dif

其中，adj_f1 的平均值为 0.9848，标准差为 0.275。这表示在该次运行中，对于数据集 “180_ltstdbs30791ES”，模型的 F1 分数有一定的波动。adj_f1 的平均值告诉你模型在这个数据集上的平均性能，而标准差告诉你这些运行中 F1 分数的变异程度。

最终也会输出一个 csv 文件，不妨查看一下。

25.6 速读源码

源码主要关注两个 py 文件，分别是 algorithms/dif.py 以及 algorithms/net_torch.py，源码注释比较详细，推荐直接前去阅读。

25.6.1 DIF

接下来我们按照函数为基本单位，对各个部分进行简单介绍。

class DIF:
	"""初始化模型，传入一堆参数"""
    def __init__(self, network_name='mlp', network_class=None,
                 n_ensemble=50, n_estimators=6, max_samples=256,
                 hidden_dim=[500,100], rep_dim=20, skip_connection=None, dropout=None, activation='tanh',
                 data_type='tabular', batch_size=64,
                 new_score_func=True, new_ensemble_method=True,
                 random_state=42, device='cuda', n_processes=1,
                 verbose=0, **network_args):
                 .....
    """fit过程初始化模型属性"""
	def fit(self, X, y=None):
		......

	"""使用拟合的检测器预测X的原始异常分数。基于不同的检测器算法来计算输入样本的异常分数。为了一致性，异常值被分配较大的异常分数。"""
	def decision_function(self, X):
		.......
	
    def _training_transfer(self, X, ensemble_seeds):
        """
        训练深度集成模型。
        Args:
            X: 输入数据。
            ensemble_seeds: 包含用于初始化集成模型的种子值的列表。
        Returns:
            None
        """
        if self.new_ensemble_method:
            # 新的集成方法
            # 使用第一个种子值设置随机种子
            self.set_seed(ensemble_seeds[0])
            # 创建神经网络模型，使用Net类，并传递指定的参数
            net = self.Net(n_features=self.n_features, **self.network_args).to(self.device)
            # 初始化网络模型
            self.net_init(net)
            # 使用深度传递批量集成方法处理输入数据
            self.x_reduced_lst = self.deep_transfer_batch_ensemble(X, net)
            # 将初始化的模型添加到列表中
            self.net_lst.append(net)
        else:
            # 旧的集成方法
            # 遍历每次集成迭代
            for i in tqdm(range(self.n_ensemble), desc='训练集成过程', ncols=100, leave=None):
                # 为这次迭代设置随机种子
                self.set_seed(ensemble_seeds[i])
                # 创建神经网络模型，使用Net类，并传递指定的参数
                net = self.Net(n_features=self.n_features, **self.network_args).to(self.device)
                # 初始化网络模型
                self.net_init(net)
                # 使用深度传递方法处理输入数据
                self.x_reduced_lst.append(self.deep_transfer(X, net))
                # 将初始化的模型添加到列表中
                self.net_lst.append(net)
        # 方法结束，没有明确的返回值（返回None）
        return

    def _inference_transfer(self, X):
        """
        推断方法，用于生成测试数据的降维表示。
        Args:
            X: 测试数据。
        Returns:
            生成的测试数据的降维表示列表。
        """
        # 检查特殊情况
        if self.data_type == 'tabular' and X.shape[0] == self.x_reduced_lst[0].shape[0]:
            # 如果数据类型为'tabular'且测试数据行数与之前训练集的行数相同，直接返回之前训练集的降维表示
            return self.x_reduced_lst
        else:
            # 否则，创建一个空的列表，用于存储新的测试数据的降维表示
            test_reduced_lst = []
        # 根据是否使用新的集成方法进行不同的处理
        if self.new_ensemble_method:
            # 使用新的集成方法
            # 对测试数据进行降维表示
            test_reduced_lst = self.deep_transfer_batch_ensemble(X, self.net_lst[0])
        else:
            # 未使用新的集成方法
            # 遍历每个训练好的模型，对测试数据进行降维表示
            for i in tqdm(range(self.n_ensemble), desc='测试集成过程', ncols=100, leave=None):
                x_reduced = self.deep_transfer(X, self.net_lst[i])
                # 将结果添加到列表中
                test_reduced_lst.append(x_reduced)
        # 返回生成的测试数据的降维表示列表
        return test_reduced_ls

    def _inference_scoring(self, x_reduced_lst, n_processes):
        """
        推断得分方法，用于生成模型的得分。

        Args:
            x_reduced_lst: 降维表示列表。
            n_processes: 并行处理的进程数。

        Returns:
            最终得分列表。
        """
        # 根据是否使用新的得分函数选择得分函数
        if self.new_score_func:
            score_func = self.single_predict
        else:
            score_func = self.single_predict_abla
        # 获取样本数量
        n_samples = x_reduced_lst[0].shape[0]
        # 初始化得分列表
        self.score_lst = np.zeros([self.n_ensemble, n_samples])
        # 单进程处理
        if n_processes == 1:
            for i in range(self.n_ensemble):
                # 使用得分函数计算得分
                scores = score_func(x_reduced_lst[i], self.clf_lst[i])
                self.score_lst[i] = scores
        else:
            # 多进程处理
            start = np.arange(0, self.n_ensemble, np.ceil(self.n_ensemble / n_processes))
            for j in range(int(np.ceil(self.n_ensemble / n_processes))):
                run_id = start + j
                run_id = np.array(np.delete(run_id, np.where(run_id >= self.n_ensemble)), dtype=int)
                if self.verbose >= 1:
                    print('多进程运行的集成ID:', run_id)
                # 使用进程池进行并行计算
                pool = Pool(processes=n_processes)
                process_lst = [pool.apply_async(score_func, args=(x_reduced_lst[i], self.clf_lst[i]))
                               for i in run_id]
                pool.close()
                pool.join()
                # 将计算结果填充回得分列表
                for rid, process in zip(run_id, process_lst):
                    self.score_lst[rid] = process.get()
        # 计算最终得分，取各模型得分的平均值
        final_scores = np.average(self.score_lst, axis=0)
        return final_scores
    def deep_transfer(self, X, net):
        """
        深度转移方法，用于对输入数据进行降维表示。
        Args:
            X: 输入数据。
            net: 训练好的神经网络模型。
        Returns:
            降维表示结果。
        """
        x_reduced = []
        # 在无梯度计算的上下文中执行
        with torch.no_grad():
            # 根据数据类型选择不同的 DataLoader
            if self.data_type != 'graph':
                # 非图数据的 DataLoader
                loader = DataLoader(X, batch_size=self.batch_size, drop_last=False, pin_memory=True, shuffle=False)
                for batch_x in loader:
                    # 将批次数据转换为张量，并移动到设备上
                    batch_x = batch_x.float().to(self.device)
                    # 使用神经网络模型进行降维计算
                    batch_x_reduced = net(batch_x)
                    x_reduced.append(batch_x_reduced)
            else:
                # 图数据的 DataLoader（使用 pyG 的 DataLoader）
                loader = pyGDataLoader(X, batch_size=self.batch_size, shuffle=False, pin_memory=True, drop_last=False)
                for data in loader:
                    # 将图数据移动到设备上
                    data.to(self.device)
                    x, edge_index, batch = data.x, data.edge_index, data.batch
                    # 处理缺失特征
                    if x is None:
                        x = torch.ones((batch.shape[0], 1)).to(self.device)
                    # 使用神经网络模型进行降维计算
                    x, _ = net(x, edge_index, batch)
                    x_reduced.append(x)
        # 将结果转换为 NumPy 数组，并进行标准化和激活函数处理
        x_reduced = torch.cat(x_reduced).data.cpu().numpy()
        x_reduced = StandardScaler().fit_transform(x_reduced)
        x_reduced = np.tanh(x_reduced)
        return x_reduced
   # 其他部分有注释或比较容易理解

25.6.2 net_torch

以下代码均摘录自论文源码，并根据自己的理解添加了一些注释，希望可以帮助到小伙伴们。

# -*- coding: utf-8 -*-
# Implementation of Neural Networks in PyTorch
# @Time    : 2022/8/19
# @Author  : Xu Hongzuo ([email protected])
import numpy as np
import torch
import torch_geometric
from torch.nn import functional as F


def choose_net(network_name):
    """
    根据给定的网络名称返回相应的神经网络模型类。

    Args:
        network_name (str): 神经网络模型的名称。

    Returns:
        对应网络名称的神经网络模型类。
    """
    if network_name == 'mlp':
        return MLPnet
    elif network_name == 'gru':
        return GRUNet
    elif network_name == 'lstm':
        return LSTMNet
    elif network_name == 'gin':
        return GinEncoderGraph
    elif network_name == 'dilated_conv':
        return DilatedConvEncoder
    else:
        raise NotImplementedError("")


def choose_act_func(activation):
    """
    根据给定的激活函数名称返回相应的激活函数模块和激活函数函数。

    Args:
        activation (str): 激活函数的名称。

    Returns:
        包含激活函数模块和激活函数函数的元组。
    """
    if activation == 'relu':
        act_module = torch.nn.ReLU()
        act_f = torch.relu
    elif activation == 'leaky_relu':
        act_module = torch.nn.LeakyReLU()
        act_f = F.leaky_relu
    elif activation == 'tanh':
        act_module = torch.nn.Tanh()
        act_f = torch.tanh
    elif activation == 'sigmoid':
        act_module = torch.nn.Sigmoid()
        act_f = torch.sigmoid
    else:
        raise NotImplementedError('')
    # 返回包含激活函数模块和激活函数函数的元组
    return act_module, act_f


def choose_pooling_func(pooling):
    """
    根据给定的池化方法名称返回相应的全局池化函数。

    Args:
        pooling (str): 池化方法的名称。

    Returns:
        全局池化函数。
    """
    if pooling == 'sum':
        pool_f = torch_geometric.nn.global_add_pool
    elif pooling == 'mean':
        pool_f = torch_geometric.nn.global_mean_pool
    elif pooling == 'max':
        pool_f = torch_geometric.nn.global_max_pool
    else:
        raise NotImplementedError('')
    return pool_f


class MLPnet(torch.nn.Module):
    def __init__(self, n_features, n_hidden=[500, 100], n_emb=20, activation='tanh',
                 skip_connection=None, dropout=None, be_size=None):
        """
        初始化 MLP 网络模型。

        Args:
            n_features (int): 输入特征的维度。
            n_hidden (list or int or str): 隐藏层的维度，可以是一个包含每个隐藏层维度的列表，也可以是一个整数，或者是一个逗号分隔的字符串。
            n_emb (int): 输出特征的维度（嵌入维度）。
            activation (str): 激活函数的名称，支持 'relu', 'tanh', 'sigmoid', 'leaky_relu'。
            skip_connection (str or None): 跳连接方式，可以是 'concat' 或 None。
            dropout (float or None): Dropout 概率，可以为 None。
            be_size (int or None): 重复输入的倍数，可以为 None。

        Notes:
            - 如果 n_hidden 是一个整数，将其视为隐藏层的维度。
            - 如果 n_hidden 是一个字符串，将其解析为逗号分隔的整数列表。
        """
        super(MLPnet, self).__init__()
        self.skip_connection = skip_connection
        self.n_emb = n_emb

        assert activation in ['relu', 'tanh', 'sigmoid', 'leaky_relu']

        # 处理 n_hidden，确保其为列表形式
        if type(n_hidden) == int:
            n_hidden = [n_hidden]
        elif type(n_hidden) == str:
            n_hidden = n_hidden.split(',')
            n_hidden = [int(a) for a in n_hidden]

        num_layers = len(n_hidden)

        self.be_size = be_size

        self.layers = []
        for i in range(num_layers + 1):
            in_channels, out_channels = self.get_in_out_channels(i, num_layers, n_features,
                                                                 n_hidden, n_emb, skip_connection)
            self.layers += [LinearBlock(in_channels, out_channels,
                                        activation=activation if i != num_layers else None,
                                        skip_connection=skip_connection if i != num_layers else 0,
                                        dropout=dropout,
                                        be_size=be_size)]
        self.network = torch.nn.Sequential(*self.layers)

    def forward(self, x):
        """
        前向传播。

        Args:
            x: 输入数据。

        Returns:
            网络输出。
        """
        if self.be_size is not None:
            x = x.repeat(self.be_size, 1)
        x = self.network(x)
        return x

    def get_in_out_channels(self, i, num_layers, n_features, n_hidden, n_emb, skip_connection):
        """
        获取每一层的输入通道数和输出通道数。

        Args:
            i (int): 当前层的索引。
            num_layers (int): 隐藏层的总数。
            n_features (int): 输入特征的维度。
            n_hidden (list): 隐藏层的维度列表。
            n_emb (int): 输出特征的维度（嵌入维度）。
            skip_connection (str or None): 跳连接方式。

        Returns:
            in_channels (int): 输入通道数。
            out_channels (int): 输出通道数。
        """
        if skip_connection is None:
            in_channels = n_features if i == 0 else n_hidden[i - 1]
            out_channels = n_emb if i == num_layers else n_hidden[i]
        elif skip_connection == 'concat':
            in_channels = n_features if i == 0 else np.sum(n_hidden[:i]) + n_features
            out_channels = n_emb if i == num_layers else n_hidden[i]
        else:
            raise NotImplementedError('')
        return in_channels, out_channels


class AEnet(torch.nn.Module):
    def __init__(self, n_features, n_hidden=[500, 100], n_emb=20, activation='tanh',
                 skip_connection=None, be_size=None):
        """
        初始化自动编码器（Autoencoder）神经网络模型。

        Args:
            n_features (int): 输入特征的维度。
            n_hidden (list or int or str): 隐藏层的维度，可以是一个包含每个隐藏层维度的列表，也可以是一个整数，或者是一个逗号分隔的字符串。
            n_emb (int): 嵌入维度，即编码的特征维度。
            activation (str): 激活函数的名称，支持 'tanh', 'relu'。
            skip_connection (str or None): 跳连接方式，可以是 None。
            be_size (int or None): 重复输入的倍数，可以为 None。

        Notes:
            - 如果 n_hidden 是一个整数，将其视为隐藏层的维度。
            - 如果 n_hidden 是一个字符串，将其解析为逗号分隔的整数列表。
        """
        super(AEnet, self).__init__()
        assert activation in ['tanh', 'relu']

        # 处理 n_hidden，确保其为列表形式
        if type(n_hidden) is int:
            n_hidden = [n_hidden]
        elif type(n_hidden) is str:
            n_hidden = n_hidden.split(',')
            n_hidden = [int(a) for a in n_hidden]

        num_layers = len(n_hidden)
        self.be_size = be_size

        # 编码器（Encoder）部分
        self.encoder_layers = []
        for i in range(num_layers + 1):
            in_channels = n_features if i == 0 else n_hidden[i - 1]
            out_channels = n_emb if i == num_layers else n_hidden[i]
            self.encoder_layers += [LinearBlock(in_channels, out_channels,
                                                bias=False,
                                                activation=activation if i != num_layers else None,
                                                skip_connection=None,
                                                be_size=be_size)]

        # 解码器（Decoder）部分
        self.decoder_layers = []
        for i in range(num_layers + 1):
            in_channels = n_emb if i == 0 else n_hidden[num_layers - i]
            out_channels = n_features if i == num_layers else n_hidden[num_layers - 1 - i]
            self.decoder_layers += [LinearBlock(in_channels, out_channels,
                                                bias=False,
                                                activation=activation if i != num_layers else None,
                                                skip_connection=None,
                                                be_size=be_size)]

        self.encoder = torch.nn.Sequential(*self.encoder_layers)
        self.decoder = torch.nn.Sequential(*self.decoder_layers)

    def forward(self, x):
        """
        前向传播。

        Args:
            x: 输入数据。

        Returns:
            enc (tensor): 编码后的特征。
            xx (tensor): 解码后的输出。
            x (tensor): 输入数据。
        """
        if self.be_size is not None:
            x = x.repeat(self.be_size, 1)

        # 编码过程
        enc = self.encoder(x)
        # 解码过程
        xx = self.decoder(enc)

        return enc, xx, x


class LinearBlock(torch.nn.Module):
    """
    Linear layer block with support of concatenation-based skip connection and batch ensemble
    Parameters
    ----------
    in_channels: int
        input dimensionality
    out_channels: int
        output dimensionality
    bias: bool (default=False)
        bias term in linear layer
    activation: string, choices=['tanh', 'sigmoid', 'leaky_relu', 'relu'] (default='tanh')
        the name of activation function
    skip_connection: string or None, default=None
        'concat' use concatenation to implement skip connection
    dropout: float or None, default=None
        the dropout rate
    be_size: int or None, default=None
        the number of ensemble size
    """

    def __init__(self, in_channels, out_channels,
                 bias=False, activation='tanh',
                 skip_connection=None, dropout=None, be_size=None):

        super(LinearBlock, self).__init__()

        self.act = activation
        self.skip_connection = skip_connection
        self.dropout = dropout
        self.be_size = be_size

        if activation is not None:
            self.act_layer, _ = choose_act_func(activation)

        if dropout is not None:
            self.dropout_layer = torch.nn.Dropout(p=dropout)

        if be_size is not None:
            bias = False
            self.ri = torch.nn.Parameter(torch.randn(be_size, in_channels))
            self.si = torch.nn.Parameter(torch.randn(be_size, out_channels))

        self.linear = torch.nn.Linear(in_channels, out_channels, bias=bias)

    def forward(self, x):
        # 如果存在集成大小
        if self.be_size is not None:
            # 生成重复的参数矩阵以匹配输入大小
            R = torch.repeat_interleave(self.ri, int(x.shape[0] / self.be_size), dim=0)
            S = torch.repeat_interleave(self.si, int(x.shape[0] / self.be_size), dim=0)

            # 使用集成参数进行线性变换，并在结果上应用逐元素乘法
            x1 = torch.mul(self.linear(torch.mul(x, R)), S)
        else:
            # 普通线性变换
            x1 = self.linear(x)

        # 如果定义了激活函数，则应用激活函数
        if self.act is not None:
            x1 = self.act_layer(x1)

        # 如果定义了 dropout，则应用 dropout
        if self.dropout is not None:
            x1 = self.dropout_layer(x1)

        # 如果定义了跳跃连接为 'concat'，则将输入和输出连接在一起
        if self.skip_connection == 'concat':
            x1 = torch.cat([x, x1], axis=1)

        return x1


class GRUNet(torch.nn.Module):
    """
    使用 GRU 网络的模块。

    参数
    ----------
    n_features: int
        输入特征的数量
    hidden_dim: int, default=20
        隐藏层的维度
    layers: int, default=1
        GRU 层的数量
    """

    def __init__(self, n_features, hidden_dim=20, layers=1):
        super(GRUNet, self).__init__()
        self.gru = torch.nn.GRU(n_features, hidden_size=hidden_dim, batch_first=True, num_layers=layers)

    def forward(self, x):
        # GRU 前向传播
        _, hn = self.gru(x)
        # 返回最后一个时间步的隐藏状态
        return hn[-1]


class LSTMNet(torch.nn.Module):
    """
    使用 LSTM 网络的模块。

    参数
    ----------
    n_features: int
        输入特征的数量
    hidden_dim: int, default=20
        隐藏层的维度
    layers: int, default=1
        LSTM 层的数量
    bidirectional: bool, default=False
        是否使用双向 LSTM
    """

    def __init__(self, n_features, hidden_dim=20, layers=1, bidirectional=False):
        super(LSTMNet, self).__init__()
        self.bi = bidirectional
        self.lstm = torch.nn.LSTM(n_features, hidden_size=hidden_dim, batch_first=True,
                                  bidirectional=bidirectional, num_layers=layers)

    def forward(self, x):
        # LSTM 前向传播
        output, (hn, c) = self.lst


class SamePadConv(torch.nn.Module):
    """
    具有相同 padding 的卷积模块。

    参数
    ----------
    in_channels: int
        输入通道数
    out_channels: int
        输出通道数
    kernel_size: int
        卷积核大小
    dilation: int, default=1
        卷积核的扩张率
    groups: int, default=1
        分组卷积中的组数
    """

    def __init__(self, in_channels, out_channels, kernel_size, dilation=1, groups=1):
        super().__init__()
        # receptive_field
        self.receptive_field = (kernel_size - 1) * dilation + 1
        # 计算 padding
        padding = self.receptive_field // 2
        # 创建卷积层
        self.conv = torch.nn.Conv1d(
            in_channels, out_channels, kernel_size,
            padding=padding,
            dilation=dilation,
            groups=groups
        )
        # 如果 receptive_field 为偶数，需要去掉一列输出
        self.remove = 1 if self.receptive_field % 2 == 0 else 0

    def forward(self, x):
        # 前向传播
        out = self.conv(x)
        # 如果receptive_field为偶数，去掉一列输出
        if self.remove > 0:
            out = out[:, :, : -self.remove]
        return out


class ConvBlock(torch.nn.Module):
    """
    卷积块模块，包含两个相同 padding 的卷积层和可选的投影层。

    参数
    ----------
    in_channels: int
        输入通道数
    out_channels: int
        输出通道数
    kernel_size: int
        卷积核大小
    dilation: int
        卷积核的扩张率
    final: bool, default=False
        是否为最后一层卷积块，如果是，则添加投影层
    """

    def __init__(self, in_channels, out_channels, kernel_size, dilation, final=False):
        super().__init__()
        # 第一个卷积层
        self.conv1 = SamePadConv(in_channels, out_channels, kernel_size, dilation=dilation)
        # 第二个卷积层
        self.conv2 = SamePadConv(out_channels, out_channels, kernel_size, dilation=dilation)
        # 如果不是最后一层卷积块，添加投影层
        self.projector = torch.nn.Conv1d(in_channels, out_channels, 1) if in_channels != out_channels or final else None

    def forward(self, x):
        # 记录残差
        residual = x if self.projector is None else self.projector(x)
        # 使用 GELU 激活函数
        x = F.gelu(x)
        # 第一个卷积层
        x = self.conv1(x)
        # 使用 GELU 激活函数
        x = F.gelu(x)
        # 第二个卷积层
        x = self.conv2(x)
        # 返回结果加上残差
        return x + residual


class DilatedConvEncoder(torch.nn.Module):
    """
    膨胀卷积编码器模块，包含输入全连接层、膨胀卷积块序列和表示丢弃层。

    参数
    ----------
    n_features: int
        输入特征的维度
    hidden_dim: int, default=20
        隐藏层维度
    n_emb: int, default=20
        输出嵌入的维度
    layers: int, default=1
        膨胀卷积块的层数
    kernel_size: int, default=3
        卷积核大小
    """

    def __init__(self, n_features, hidden_dim=20, n_emb=20, layers=1, kernel_size=3):
        super().__init__()
        # 输入全连接层
        self.input_fc = torch.nn.Linear(n_features, hidden_dim)
        # 通道数序列
        channels = [hidden_dim] * layers + [n_emb]
        # 膨胀卷积块序列
        self.net = torch.nn.Sequential(*[
            ConvBlock(
                channels[i - 1] if i > 0 else hidden_dim,
                channels[i],
                kernel_size=kernel_size,
                dilation=2 ** i,
                final=(i == len(channels) - 1)
            )
            for i in range(len(channels))
        ])
        # 表示丢弃层
        self.repr_dropout = torch.nn.Dropout(p=0.1)

    def forward(self, x):
        # 输入全连接层
        x = self.input_fc(x)
        # 调整维度
        x = x.transpose(1, 2)  # B x Ch x T
        # 膨胀卷积块序列
        x = self.net(x)
        # 调整维度
        x = x.transpose(1, 2)
        # 表示丢弃层
        x = self.repr_dropout(x)
        # 最大池化层
        x = F.max_pool1d(
            x.transpose(1, 2),
            kernel_size=x.size(1)
        ).transpose(1, 2).squeeze(1)
        return x

## 后面的基本上差不多，不同的网络而已

25.7 总结

论文介绍了一种新的表征范式，即随机表征集成，与传统的认知方式有所不同。
通常，神经网络需要设定一个训练目标以进行优化，然后生成最优的表征。然而，在这个方法中，神经网络不再需要优化或设定学习目标，而是提出了一种全新的随机表征集成的表征方式。
这一新方法的优势在于其表征范式中的随机性，这赋予了在原始数据空间中进行高度自由划分的能力，并激发了随机表征与下游基于随机划分的孤立操作之间的独特协同效应。
该方法有助于有效孤立难例异常，消除算法偏差，从而显著提高检测性能。
由于这种前向传播较为耗时，论文还提出了一种高效深度表征集成方法，即CERE（Cumulative Embedding REpresentation）。CERE方法的核心思想是使用两个向量的乘积来生成Rank-1矩阵，作为神经网络参数矩阵。这使得在一次前向传播中能够同时计算所有集成成员，提高计算效率。

Smileyan
2023.12.29 20:08

你可能感兴趣的:(异常检测,算法,深度学习,支持向量机)

深度剖析AI人工智能在自动驾驶中的系统优化 AI云原生与云计算技术学院人工智能自动驾驶机器学习 ai
深度剖析AI人工智能在自动驾驶中的系统优化关键词：AI人工智能、自动驾驶、系统优化、传感器融合、决策算法摘要：本文深入探讨了AI人工智能在自动驾驶系统中的优化问题。从自动驾驶的背景入手，详细解释了相关核心概念，如传感器、决策算法等。阐述了这些核心概念之间的关系，介绍了核心算法原理和具体操作步骤，还通过数学模型和公式进行了理论支持。给出了项目实战案例，分析了实际应用场景，推荐了相关工具和资源，最后探
CRC3校验算法安庆平.Я C/C++语言总结 java 前端服务器 c语言 unix linux 算法
C在线工具|菜鸟工具CRC3，16位数据校验使用，多项式g(x)=x3+x+1->0b1011#include#includeuint8_tCrc3(constuint32_tdata,uint8_tlen){uint8_tchk=0x08;uint8_tpoly=0x03;/*多顶式1011*/uint8_tpoly_len=4;uint8_talu=0x00;alu=(data>>len-po
22种创新思路！今年必将是特征选择爆发的一年小唯啊小唯人工智能注意力机制特征选择
2025深度学习发论文&模型涨点之——特征选择特征选择是机器学习和数据挖掘领域中一个非常重要的步骤。它指的是从原始特征集合中挑选出对目标变量有较强预测能力的特征子集。在实际的数据集中，往往包含众多特征，但并非所有特征都对模型的性能有正面影响。例如在房价预测任务中，原始特征可能包括房屋的面积、房间数量、所在小区、周边配套设施等众多内容。通过特征选择，可以剔除一些无关的或者冗余的特征，比如可能存在的重
C++分发器 IT灰猫 c++开发语言
以调用某个算法为例，该算法有一个确定的函数Process，其参数不确定，返回值确定为bool类型，当然Process的返回值也可用模板进行替换，实现更灵活的返回值。#pragmaonce#include#include#include#include#include#includeclassAlgorithmDispatch{public:templatestd::shared_ptralgori
day043-负载均衡算法与高可用keepalived 孙克旭‌ 老男孩教育Linux运维99期负载均衡算法运维 linux
文章目录0.老男孩思想-运维能为公司创造的价值1.负载均衡轮询算法1.1加权轮询1.2ip哈希1.3url哈希2.负载均衡模块指令补充3.高可用4.keepalived4.1部署keepalived服务4.2脑裂故障4.2.1脑裂故障常见原因4.2.2脑裂故障解决方法5.思维导图0.老男孩思想-运维能为公司创造的价值省钱：服务器设备、机房带宽、云主机云服务减少CDN流量优化、架构改造，当流量增加时
模拟工作队列 - 华为OD机试真题(JavaScript卷) 什码情况算法面试 javascript 数据结构华为od
华为OD机试题库《C++》限时优惠9.9华为OD机试题库《Python》限时优惠9.9华为OD机试题库《JavaScript》限时优惠9.9针对刷题难，效率慢，我们提供一对一算法辅导，针对个人情况定制化的提高计划（全称1V1效率更高）。看不懂有疑问需要答疑辅导欢迎私VX：code5bug题目描述让我们来模拟一个工作队列的运作，有一个任务提交者和若干任务执行者，执行者从1开始编号。提交者会在给定的时
数据分类 - 华为OD机试真题(JavaScript 题解) 什码情况华为od javascript 开发语言数据结构算法机试
华为OD机试题库《C++》限时优惠9.9华为OD机试题库《Python》限时优惠9.9华为OD机试题库《JavaScript》限时优惠9.9针对刷题难，效率慢，我们提供一对一算法辅导，针对个人情况定制化的提高计划（全称1V1效率更高）。看不懂有疑问需要答疑辅导欢迎私VX：code5bug题目描述对一个数据a进行分类，分类方法为：此数据a（四个字节大小）的四个字节相加对一个给定的值b取模，如果得到的
【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。努力毕业的小土博^_^ 深度学习学习笔记深度学习学习笔记人工智能机器学习
【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。文章目录【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。前言一、什么是正则化？为什么需要它？✅
GESP认证C++编程真题解析 | GESP202409 三级单选题和判断题热爱编程的通信人历年GESP CSP-J CSP-S真题解析 c++开发语言
欢迎大家订阅我的专栏：算法题解：C++与Python实现！本专栏旨在帮助大家从基础到进阶，逐步提升编程能力，助力信息学竞赛备战！专栏特色1.经典算法练习：根据信息学竞赛大纲，精心挑选经典算法题目，提供清晰的代码实现与详细指导，帮助您夯实算法基础。2.系统化学习路径：按照算法类别和难度分级，从基础到进阶，循序渐进，帮助您全面提升编程能力与算法思维。适合人群：准备参加蓝桥杯、GESP、CSP-J、CS
LeetCode 学习day3 不喜勿喷小小小新人12123 leetcode 学习算法 python
题目：给定一个数组prices，它的第i个元素prices[i]表示一支给定股票第i天的价格。你只能选择某一天买入这只股票，并选择在未来的某一个不同的日子卖出该股票。设计一个算法来计算你所能获取的最大利润。返回你可以从这笔交易中获取的最大利润。如果你不能获取任何利润，返回0。（LeetCode121.买卖股票的最佳时机）问题分析：简而言之为求最大差Python代码：importnumpyasnpc
算法优化：前缀和+哈希表雨声敲敲，风声潇潇算法算法 java leetcode 性能优化哈希表
今天在leetcode上写到6952.统计趣味子数组的数目这道题的时候出现了超时问题，由此学习了前缀和+哈希表的方法。目前看到与此知识点相关的题目有如下：560.和为k的子数组，非常经典的前缀和+哈希表，可以从这一道题入手。6952.统计趣味子数组的数目，这道题比上一到稍微难一点，但是不至于困难。下面介绍一下前缀和+哈希表以560题为例，题目：给你一个整数数组nums和一个整数k，请你统计并返回该
POS（权益证明机制） Chinatesila 区块链
由来：SunnyKing和ScottNadal首先建议使用权益证明作为工作量证明（PoW）的替代方案，并创造了权益一词。他们描述了一种算法，该算法根据个人钱包中代币的数量和年龄选择生产区块的节点。Peercoin（PPC）被创造出来，并成为第一个混合加密货币。PPC使用PoW分发令牌，并使用PoS验证交易。简介：权益证明机制的目的是让所谓的“权益者”、“锻造者”或者“验证者”来代替矿工，他们本质上
什么是 PoW（工作量证明，Proof of Work） MonkeyKing.sun 区块链
共识算法（ConsensusAlgorithm）是区块链的“心脏”，它决定了多个节点在没有中央机构的前提下，如何就“谁来记账”达成一致。什么是PoW（工作量证明，ProofofWork）定义：工作量证明（ProofofWork,简称PoW）是一种共识机制，要求节点通过解决一个高难度数学问题，来获得记账权。第一个算出答案的节点获得“打包交易→生成区块→获取奖励”的权利。它是比特币、以太坊（1.0）等
从决策树到随机森林：Python机器学习里的“树形家族“深度实战与原理拆解小张在编程机器学习决策树随机森林
引言在机器学习的算法森林中，有一对"树形兄弟"始终占据着C位——决策树像个逻辑清晰的"老教授"，用可视化的树状结构把复杂决策过程拆解成"是/否"的简单判断；而它的进阶版随机森林更像一支"精英军团"，通过多棵决策树的"投票表决"，在准确性与抗过拟合能力上实现了质的飞跃。无论是医疗诊断中的疾病预测，还是金融风控里的违约判别，这对组合都用强大的适应性证明着自己的"算法常青树"地位。今天，我们就从原理到实
什么是 PoS（权益证明） MonkeyKing.sun pos
PoS（ProofofStake，权益证明）是区块链中常用的一种共识算法，作为PoW（工作量证明）的替代方案，它通过“持币数量+持有时间”决定谁有权记账（打包区块），从而降低能耗、提升效率。一、什么是PoS（权益证明）？PoS是一种基于“持有代币数量”的区块链共识机制，持币越多、持币越久，获得打包新区块机会的概率越高。换句话说，不是靠算力挖矿，而是靠“你拥有多少币”来竞争记账权。二、PoS的核心原
实现make_power_of_two函数洞阳 c++面试 c++
目录代码make_power_of_two函数解析：将数值转换为大于等于它的最小2的幂一、函数功能与核心逻辑二、代码实现与逐行解析三、逐步骤原理解析四、位运算的数学原理五、不同输入的转换示例六、算法复杂度与适用场景七、与其他实现方式的对比八、注意事项总结代码该函数将任意n转换为大于等于n的最小2的幂（如n=10→16，n=16→16）size_tmake_power_of_two(size_tn)
深入详解：随机森林算法——概念、原理、实现与应用场景猿享天开算法随机森林机器学习
深入详解：随机森林算法——概念、原理、实现与应用场景随机森林（RandomForest,RF）是一种经典的集成学习算法，广泛应用于机器学习任务。本文将通过图文结合的方式，全面解析随机森林的核心原理、实现细节和应用实践，帮助读者建立系统认知。1.核心概念与直观理解1.1什么是随机森林？随机森林是一种基于决策树的集成学习算法，通过构建多棵决策树进行协同预测。其核心思想是"三个臭皮匠，顶个诸葛亮"——多
【项目实战】Redis使用场景之基于Redis实现分布式限流本本本添哥 002 -进阶开发能力 003 -数据库 redis 分布式数据库
一、技术概览1.1定义分布式限流是指在分布式系统中限制请求的速率，以保护后端服务不被过多的请求压垮。它可以帮助我们控制系统的负载，保证服务的稳定性。Redis是一个高性能的键值存储系统，常用于缓存、消息队列和实时分析等场景。由于其支持丰富的数据结构和原子操作，非常适合用来实现分布式限流。专业术语:令牌桶算法(TokenBucket):一种流量整形算法，允许突发流量但不超过平均速度。漏桶算法(Lea
人工智能大模型原理与应用实战：大模型在金融风控中的应用 AI天才研究院 LLM大模型落地实战指南大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
文章目录人工智能大模型原理与应用实战：大模型在金融风控中的应用01.背景介绍1.1金融风控的挑战1.2大模型的优势2.核心概念与联系2.1大模型在金融风控中的应用场景2.2大模型与传统风控技术的结合3.核心算法原理具体操作步骤3.1基于大模型的欺诈检测3.2基于大模型的信用评估4.数学模型和公式详细讲解举例说明4.1逻辑回归模型4.2XGBoost模型5.项目实践：代码实例和详细解释说明5.1基于
浅谈卷积神经网络(CNN) cyc&阿灿 cnn 人工智能神经网络
卷积神经网络(ConvolutionalNeuralNetworks,CNN)作为深度学习领域最具影响力的架构之一，已在计算机视觉、自然语言处理、医学影像分析等领域取得了革命性突破。本文将系统全面地剖析CNN的核心原理、关键组件、经典模型、数学基础、训练技巧以及最新进展，通过理论解析与代码实践相结合的方式，帮助读者深入掌握这一重要技术。一、CNN基础与核心思想1.1传统神经网络的局限性在处理图像等
Go项目限流全攻略：超越中间件的全方位解决方案码农老gou golang 中间件开发语言
引言：限流在分布式系统中的重要性在当今高并发的互联网应用中，流量控制已成为保障系统稳定性的关键手段。一次突发的流量洪峰可能导致整个系统崩溃，造成不可估量的损失。作为Go开发者，我们常常会面临这样的面试问题：Go项目中如何实现限流？仅仅使用中间件就足够了吗？本文将深入探讨Go项目中的限流策略，分析中间件的局限性，并介绍超越中间件的全方位解决方案。一、常见限流算法解析1.令牌桶算法（TokenBuck
随机森林详解：原理、优势与应用实践大千AI助手人工智能 Python #OTHER 随机森林算法机器学习决策树人工智能 DecisionTree 数据挖掘
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！随机森林介绍1.定义：随机森林是一种强大的、高度灵活的集成学习（EnsembleLearning）算法，主要用于分类和回归任务。它的核心思想是构建多棵决策树（DecisionTree），并将这些树的预测结果进行组合（例如，分类任务采用投票，回归任务采用
【第二章:机器学习与神经网络概述】03.类算法理论与实践-(3)决策树分类器 IT古董人工智能课程机器学习算法神经网络
第二章:机器学习与神经网络概述第三部分：类算法理论与实践第三节：决策树分类器内容：信息增益、剪枝技术、过拟合与泛化能力。决策树是一种常用于分类和回归的树状结构模型，它通过一系列特征判断进行决策，有良好的可解释性。一、基本概念节点（Node）：表示特征判断条件边（Branch）：表示特征判断的结果路径叶子节点（Leaf）：表示分类结果二、划分准则：信息增益（InformationGain）信息增益衡
算法练习-02 亮亮爱刷题算法数据结构 c++
今天给大家带来的是第二天的几道练习题，包括几道思路特别巧妙的算法题，以及提升的背包问题，相信这类问题对大家算法能力的提升还是十分有帮助的，希望大家学完可以给博主点一个关注。第一题：问题描述给定一个长度为n的数组a，小蓝希望从数组中选择若干个元素（可以不连续），并将它们重新排列，使得这些元素能够形成一个先严格递增然后严格递减的子序列（可以没有递增部分或递减部分）。你需要求出在满足这个条件下，最多可以
基于Redis分布式的限流 chi_666 redis 分布式数据库
以下是基于Redis实现分布式限流的Java解决方案，包含多种限流算法和完整实现代码：一、限流算法选择与实现1.固定窗口算法（SimpleRateLimiter）publicclassRedisFixedWindowRateLimiter{privatefinalStringRedisTemplateredisTemplate;privatefinalStringscript="localcurr
【PyTorch】2024保姆级安装教程-Python-（CPU+GPU详细完整版）金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 python pytorch 人工智能
【PyTorch】2024保姆级安装教程（CPU+GPU详细完整版）PyTorch是当前最受欢迎的深度学习框架之一。本文将详细讲解在Python环境中安装PyTorch，包括CPU和GPU版本的全方位指南。一、前置环境首先确保已安装Python环境，推荐使用Python3.8或以上版本。验证Python安装：python--versionpip--version推荐使用虚拟环境（如conda或ve
Web中间件性能调优指南：线程池、长连接与负载均衡的最佳实践编程实战派-李工《Java 负载均衡中间件优化 Tomcat调优 Nginx配置性能工程线程池技术 Keep-Alive优化
目录引言一、Web容器线程池配置不当1.1线程池参数的核心作用与影响1.2线程池大小计算模型1.3动态调优实践二、Keep-Alive机制配置缺陷2.1Keep-Alive的工作原理2.2典型配置问题与影响2.3优化配置建议三、负载均衡策略缺失3.1负载均衡的核心价值3.2主流负载均衡算法对比3.3Nginx关键配置优化四、全链路压测与调优方案4.1压测实施流程4.2典型优化案例4.3持续监控体系
从入门到精通：前端工程师必学的 JSON 全解析前端视界前端 json 状态模式 ai
从入门到精通：前端工程师必学的JSON全解析关键词：JSON、前端工程师、数据交换、JavaScript、数据格式摘要：本文围绕前端工程师必学的JSON展开全面解析。从JSON的基本概念、背景知识入手，深入探讨其核心原理、算法实现、数学模型等方面。通过详细的代码示例和实际应用场景分析，帮助前端工程师从入门到精通掌握JSON的使用。同时，提供了丰富的学习资源、开发工具和相关论文推荐，最后对JSON的
【网络安全】对称密码体制 Hacker_xingchen web安全安全网络
1.对称密码体制概述1.1定义与特点对称密码体制，也称为单钥密码体制，是一种加密方法，其中加密和解密过程使用相同的密钥。这种加密方式的主要特点包括简单、高效和计算速度快，适合于大量数据的快速加密和解密。对称密码体制的安全性完全依赖于密钥的保密性，一旦密钥被泄露，加密的安全性就会受到威胁。效率：对称密码算法通常比非对称密码算法要快，因为它们的算法结构相对简单，计算量较小。密钥管理：对称密码体制的密钥
【学习】《算法图解》第七章学习笔记：树程序员
前言在前面的章节中，我们学习了数组、链表、散列表等基本数据结构，以及一些基础算法。本章将介绍一种非常重要的数据结构——树(Tree)，特别是二叉搜索树(BinarySearchTree)。树结构在计算机科学中应用广泛，从文件系统到数据库再到人工智能，都能看到树的身影。《算法图解》第七章深入浅出地介绍了树的基本概念、实现和应用，帮助读者理解这一关键数据结构。一、树的基本概念（一）什么是树树是一种分层
矩阵求逆（JAVA）利用伴随矩阵 qiuwanchi 利用伴随矩阵求逆矩阵
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(利用伴随矩阵) * @author 邱万迟
单例（Singleton）模式 aoyouzi 单例模式 Singleton
3.1 概述如果要保证系统里一个类最多只能存在一个实例时，我们就需要单例模式。这种情况在我们应用中经常碰到，例如缓存池，数据库连接池，线程池，一些应用服务实例等。在多线程环境中，为了保证实例的唯一性其实并不简单，这章将和读者一起探讨如何实现单例模式。 3.2
[开源与自主研发]就算可以轻易获得外部技术支持,自己也必须研发 comsci 开源
现在国内有大量的信息技术产品，都是通过盗版，免费下载，开源，附送等方式从国外的开发者那里获得的。。。。。。虽然这种情况带来了国内信息产业的短暂繁荣，也促进了电子商务和互联网产业的快速发展，但是实际上，我们应该清醒的看到，这些产业的核心力量是被国外的
页面有两个frame,怎样点击一个的链接改变另一个的内容 Array_06 UI XHTML
<a src="地址" targets="这里写你要操作的Frame的名字" />搜索然后你点击连接以后你的新页面就会显示在你设置的Frame名字的框那里 targerts="",就是你要填写目标的显示页面位置 ===================== 例如： <frame src=&
Struts2实现单个/多个文件上传和下载 oloz 文件上传 struts
struts2单文件上传：步骤01:jsp页面  　　<form action="fileUplo
推荐10个在线logo设计网站 362217990 logo
在线设计Logo网站。 1、http://flickr.nosv.org（这个太简单） 2、http://www.logomaker.com/?source=1.5770.1 3、http://www.simwebsol.com/ImageTool 4、http://www.logogenerator.com/logo.php?nal=1&tpl_catlist[]=2 5、ht
jsp上传文件香水浓 jsp fileupload
1. jsp上传 Notice： 1. form表单 method 属性必须设置为 POST 方法，不能使用 GET 方法 2. form表单 enctype 属性需要设置为 multipart/form-data 3. form表单 action 属性需要设置为提交到后台处理文件上传的jsp文件地址或者servlet地址。例如 uploadFile.jsp 程序文件用来处理上传的文
我的架构经验系列文章 - 前端架构 agevs JavaScript Web 框架 UI jQuer
框架层面：近几年前端发展很快，前端之所以叫前端因为前端是已经可以独立成为一种职业了，js也不再是十年前的玩具了，以前富客户端RIA的应用可能会用flash/flex或是silverlight，现在可以使用js来完成大部分的功能，因此js作为一门前端的支撑语言也不仅仅是进行的简单的编码，越来越多框架性的东西出现了。越来越多的开发模式转变为后端只是吐json的数据源，而前端做所有UI的事情。MVCMV
android ksoap2 中把XML(DataSet) 当做参数传递 aijuans android
我的android app中需要发送webservice ，于是我使用了 ksop2 进行发送，在测试过程中不是很顺利,不能正常工作.我的web service 请求格式如下 [html] view plain copy <Envelope xmlns="http://schemas.
使用Spring进行统一日志管理 + 统一异常管理 baalwolf spring
统一日志和异常管理配置好后，SSH项目中，代码以往散落的log.info() 和 try..catch..finally 再也不见踪影！统一日志异常实现类： [java] view plain copy package com.pilelot.web.util; impor
Android SDK 国内镜像 BigBird2012 android sdk
一、镜像地址： 1、东软信息学院的 Android SDK 镜像，比配置代理下载快多了。配置地址， http://mirrors.neusoft.edu.cn/configurations.we#android 2、北京化工大学的： IPV4:ubuntu.buct.edu.cn IPV4:ubuntu.buct.cn IPV6:ubuntu.buct6.edu.cn
HTML无害化和Sanitize模块 bijian1013 JavaScript AngularJS Linky Sanitize
一.ng-bind-html、ng-bind-html-unsafe AngularJS非常注重安全方面的问题，它会尽一切可能把大多数攻击手段最小化。其中一个攻击手段是向你的web页面里注入不安全的HTML，然后利用它触发跨站攻击或者注入攻击。考虑这样一个例子，假设我们有一个变量存
[Maven学习笔记二]Maven命令 bit1129 maven
mvn compile compile编译命令将src/main/java和src/main/resources中的代码和配置文件编译到target/classes中，不会对src/test/java中的测试类进行编译 MVN编译使用 maven-resources-plugin:2.6:resources maven-compiler-plugin:2.5.1:compile &nbs
【Java命令二】jhat bit1129 Java命令
jhat用于分析使用jmap dump的文件，，可以将堆中的对象以html的形式显示出来，包括对象的数量，大小等等，并支持对象查询语言。 jhat默认开启监听端口7000的HTTP服务，jhat是Java Heap Analysis Tool的缩写 1. 用法： [hadoop@hadoop bin]$ jhat -help Usage: jhat [-stack <bool&g
JBoss 5.1.0 GA:Error installing to Instantiated: name=AttachmentStore state=Desc ronin47
进到类似目录 server/default/conf/bootstrap，打开文件 profile.xml找到： Xml代码<bean name="AttachmentStore" class="org.jboss.system.server.profileservice.repository.AbstractAtta
写给初学者的6条网页设计安全配色指南 brotherlamp UI ui自学 ui视频 ui教程 ui资料
网页设计中最基本的原则之一是，不管你花多长时间创造一个华丽的设计，其最终的角色都是这场秀中真正的明星——内容的衬托我仍然清楚地记得我最早的一次美术课，那时我还是一个小小的、对凡事都充满渴望的孩子，我摆放出一大堆漂亮的彩色颜料。我仍然记得当我第一次看到原色与另一种颜色混合变成第二种颜色时的那种兴奋，并且我想，既然两种颜色能创造出一种全新的美丽色彩，那所有颜色
有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。写一个函数实现。复杂度是什么。 bylijinnan java 算法面试
import java.util.Random; import java.util.Set; import java.util.TreeSet; /** * http://weibo.com/1915548291/z7HtOF4sx * #面试题#有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。 * 写一个函数实现。复杂度是什么
struts2获得request、session、application方式 chiangfai application
1、与Servlet API解耦的访问方式。 a.Struts2对HttpServletRequest、HttpSession、ServletContext进行了封装，构造了三个Map对象来替代这三种对象要获取这三个Map对象，使用ActionContext类。 -----> package pro.action; import java.util.Map; imp
改变python的默认语言设置 chenchao051 python
import sys sys.getdefaultencoding() 可以测试出默认语言，要改变的话，需要在python lib的site-packages文件夹下新建： sitecustomize.py，这个文件比较特殊，会在python启动时来加载，所以就可以在里面写上： import sys sys.setdefaultencoding('utf-8') &n
mysql导入数据load data infile用法 daizj mysql 导入数据
我们常常导入数据！mysql有一个高效导入方法，那就是load data infile 下面来看案例说明基本语法： load data [low_priority] [local] infile 'file_name txt' [replace | ignore] into table tbl_name [fields [terminated by't'] [OPTI
phpexcel导入excel表到数据库简单入门示例 dcj3sjt126com PHP Excel
跟导出相对应的，同一个数据表，也是将phpexcel类放在class目录下，将Excel表格中的内容读取出来放到数据库中 <?php error_reporting(E_ALL); set_time_limit(0); ?> <html> <head> <meta http-equiv="Content-Type"
22岁到72岁的男人对女人的要求 dcj3sjt126com
22岁男人对女人的要求是：一，美丽，二，性感，三，有份具品味的职业，四，极有耐性，善解人意，五，该聪明的时候聪明，六，作小鸟依人状时尽量自然，七，怎样穿都好看，八，懂得适当地撒娇，九，虽作惊喜反应，但看起来自然，十，上了床就是个无条件荡妇。 32岁的男人对女人的要求，略作修定，是：一，入得厨房，进得睡房，二，不必服侍皇太后，三，不介意浪漫蜡烛配盒饭，四，听多过说，五，不再傻笑，六，懂得独
Spring和HIbernate对DDM设计的支持 e200702084 DAO 设计模式 spring Hibernate 领域模型
A：数据访问对象 DAO和资源库在领域驱动设计中都很重要。DAO是关系型数据库和应用之间的契约。它封装了Web应用中的数据库CRUD操作细节。另一方面，资源库是一个独立的抽象，它与DAO进行交互，并提供到领域模型的“业务接口”。资源库使用领域的通用语言，处理所有必要的DAO，并使用领域理解的语言提供对领域模型的数据访问服务。
NoSql 数据库的特性比较 geeksun NoSQL
Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。目前由VMware主持开发工作。 1. 数据模型作为Key-value型数据库，Redis也提供了键（Key）和值（Value）的映射关系。除了常规的数值或字符串，Redis的键值还可以是以下形式之一： Lists （列表） Sets
使用 Nginx Upload Module 实现上传文件功能 hongtoushizi nginx
转载自： http://www.tuicool.com/wx/aUrAzm 普通网站在实现文件上传功能的时候，一般是使用Python，Java等后端程序实现，比较麻烦。Nginx有一个Upload模块，可以非常简单的实现文件上传功能。此模块的原理是先把用户上传的文件保存到临时文件，然后在交由后台页面处理，并且把文件的原名，上传后的名称，文件类型，文件大小set到页面。下
spring-boot-web-ui及thymeleaf基本使用 jishiweili spring thymeleaf
视图控制层代码demo如下： @Controller @RequestMapping("/") public class MessageController { private final MessageRepository messageRepository; @Autowired public MessageController(Mes
数据源架构模式之活动记录 home198979 PHP 架构活动记录数据映射
hello!架构一、概念活动记录（Active Record）：一个对象，它包装数据库表或视图中某一行，封装数据库访问，并在这些数据上增加了领域逻辑。对象既有数据又有行为。活动记录使用直截了当的方法，把数据访问逻辑置于领域对象中。二、实现简单活动记录活动记录在php许多框架中都有应用，如cakephp。 <?php /** * 行数据入口类 *
Linux Shell脚本之自动修改IP pda158 linux centos Debian 脚本
作为一名 Linux SA，日常运维中很多地方都会用到脚本，而服务器的ip一般采用静态ip或者MAC绑定，当然后者比较操作起来相对繁琐，而前者我们可以设置主机名、ip信息、网关等配置。修改成特定的主机名在维护和管理方面也比较方便。如下脚本用途为：修改ip和主机名等相关信息，可以根据实际需求修改，举一反三！ #!/bin/sh #auto Change ip netmask ga
开发环境搭建独浮云 eclipse jdk tomcat
最近在开发过程中，经常出现MyEclipse内存溢出等错误，需要重启的情况，好麻烦。对于一般的JAVA+TOMCAT项目开发，其实没有必要使用重量级的MyEclipse，使用eclipse就足够了。尤其是开发机器硬件配置一般的人。 &n