沐阳zz

时间序列异常检测- 基于KDD99数据集的实战

一. 介绍

异常检测（Anomaly detection）是目前时序数据分析最成熟的应用之一，定义是从正常的时间序列中识别不正常的事件或行为的过程。有效的异常检测被广泛用于现实世界的很多领域，例如量化交易，网络安全检测、自动驾驶汽车和大型工业设备的日常维护。

基础上，将会呈现之前提及的一些深度/传统机器学习算法模型基于KDD99以及NSL_KDD数据集的性能表现，并结合具体数据情况给出各个模型的评估结果，并做一个总结。

二. KDD数据集

KDDCup99

介绍：https://blog.csdn.net/abrohambaby/article/details/78702512

下载链接：KDD Cup 1999 Data

全集很大有约500w数据，建议使用10%的这个data files 大约50w数据量，用于检验模型性能比较合理。

NSL_KDD

介绍： https://www.unb.ca/cic/datasets/nsl.html

下载链接：https://github.com/defcom17/NSL_KDD

NSL_KDD在KDDCup99数据集的基础上进行了一下改进：

通常选择这两个数据集作为Training data 和 Testing data：

三. 数据预处理

对于连续数值，我们使用scikit-learn库提供的MinMaxScaler来对数值进行归一化

至于离散数值，我们使用一种One-Hot编码。 encode_text函数可实现此目的。

# Helper function for scaling continous values
def minmax_scale_values(training_df,testing_df, col_name):
    scaler = MinMaxScaler()
    scaler = scaler.fit(training_df[col_name].values.reshape(-1, 1))
    train_values_standardized = scaler.transform(training_df[col_name].values.reshape(-1, 1))
    training_df[col_name] = train_values_standardized
    test_values_standardized = scaler.transform(testing_df[col_name].values.reshape(-1, 1))
    testing_df[col_name] = test_values_standardized
    
    
#Helper function for one hot encoding
def encode_text(training_df,testing_df, name):
    training_set_dummies = pd.get_dummies(training_df[name]) # get_dummies 是利用pandas实现one hot 编码的方式
    testing_set_dummies = pd.get_dummies(testing_df[name]) 
    for x in training_set_dummies.columns:
        dummy_name = "{}_{}".format(name, x)
        training_df[dummy_name] = training_set_dummies[x]
        if x in testing_set_dummies.columns :
            testing_df[dummy_name]=testing_set_dummies[x]
        else :
            testing_df[dummy_name]=np.zeros(len(testing_df))
    training_df.drop(name, axis=1, inplace=True)
    testing_df.drop(name, axis=1, inplace=True)
    
    
sympolic_columns=["protocol_type","service","flag"]
label_column="Class"
for column in df.columns :
    if column in sympolic_columns:
        encode_text(training_df,testing_df, column)
    elif not column == label_column:
        minmax_scale_values(training_df,testing_df, column)

四.建模

4.1 基于 AE 自编码器的时间序列异常检测代码实现（Tensorflow，Keras前端接口）

模型介绍

为了避免训练数据中代表每种攻击类型的样本不平衡，并避免模型无法通过观察现有攻击类型来学习新的攻击类型，我们提出一种利用AE自动编码器和重构误差来检测异常的方法。

在这种方法中，我们实现了带有输入缺失的稀疏自动编码器，它由122个神经元的输入层组成，这是因为每个样本的特征数量为122，然后是缺失层和8个神经元单元的隐藏层.因此，自动编码器的隐藏表示形式具有122/8的压缩比，迫使其学习有趣的模式和特征之间的关系，最后有122个单元的输出层，隐藏层和输出层的激活函数是relu。

对自动编码器进行了训练以重建其输入，换言之，它学习了身份函数，仅使用训练数据集中标有“正常”的样本对模型进行了训练，从而可以捕获正常行为的性质，这是通过训练模型以最小化其输出和输入之间的均方误差 MSE (mean squared error)。

在自动编码器上施加的正则化约束阻止了它简单地将输入复制到输出并过度拟合数据，此外，输入上出现的缺失使自动编码器成为去噪自动编码器的特殊情况，这种自动编码器经过训练可以重建输入从本身已失真的损坏版本中删除，迫使自动编码器学习更多数据属性。

有关算法细节我觉得张老师这篇讲的挺好的，大家可以拓展看看。

张戎：基于自编码器的时间序列异常检测算法195 赞同 · 47 评论文章

训练

使用Adam优化器（batch大小为100）对模型进行了10个epoch的训练，此外，我们保留了10％的正常训练样本作为 validation data 来验证模型的效果。

def getModel():
    input_layer = Input(shape=(x.shape[1],))
    encoded = Dense(8, activation='relu', activity_regularizer=regularizers.l2(10e-5))(input_layer) # l2正则化约束
    decoded = Dense(x.shape[1], activation='relu')(encoded)
    autoencoder = Model(input_layer, decoded)
    autoencoder.compile(optimizer='adam', loss='mean_squared_error')
    return autoencoder

autoencoder = getModel()
history = autoencoder.fit(
                            x[np.where(y0==0)],x[np.where(y0==0)],
                            epochs=10,
                            batch_size=100,
                            shuffle=True,
                            validation_split=0.1
                         )

基本到第三个Epoch就开始收敛了，训练速度很比较快，基于NSL_KDD的话大概一个epoch控制在 15s 以内。

预测

该模型通过计算样本的重构误差来执行异常检测，因为该模型是使用正常数据样本训练的，所以与正常数据样本的重构误差相比，代表攻击的样本的重构误差应该相对较高，这种直觉使我们能够通过为重构误差设置阈值来检测攻击，如果数据样本的重构误差高于预设阈值，则将该样本归类为攻击，否则将其归类为正常流量。

对于阈值的选择，两个值可以帮助指导过程，即训练数据集和验证数据集的Loss，我们通过实验发现围绕这些值的选择会产生可接受的结果，对于我们的实验，我们将模型训练数据的Loss设定为阈值。

由于这种方法的性质，它只能用于2类分类，因为它仅用于异常检测而不是分类。
下面评估测试数据集的性能，calculate_losses是一个辅助函数，该函数接受原始特征和预测特征（自动编码器的输出）并返回每个数据样本的重构损失，然后根据每个数据样本对其的分类重建误差和预设阈值。

# calculate_losses是一个辅助函数，计算每个数据样本的重建损失
def calculate_losses(x, preds):
    losses = np.zeros(len(x))
    for i in range(len(x)):
        losses[i] = ((preds[i] - x[i]) ** 2).mean(axis=None)
        
    return losses

# 我们将阈值设置为等于自动编码器的训练损失
threshold = history.history["loss"][-1]

testing_set_predictions=autoencoder.predict(x_test)
test_losses=calculate_losses(x_test,testing_set_predictions)
testing_set_predictions=np.zeros(len(test_losses))
testing_set_predictions[np.where(test_losses>threshold)]=1

评估

为了评估模型，我们计算以下性能指标：Accuracy Recall Precision F1 Score

recall=recall_score(y0_test,testing_set_predictions)
precision=precision_score(y0_test,testing_set_predictions)
f1=f1_score(y0_test,testing_set_predictions)
print("Performance over the testing data set \n")
print("Accuracy : {} \nRecall : {} \nPrecision : {} \nF1 : {}\n".format(accuracy,recall,precision,f1 ))

小结

在这种方法中，我们试图克服KDD99和NSL-KDD数据集中存在的问题，即类不平衡问题和数据与实际不太相符，通过避免训练期间的攻击数据，仅使用正常流量对模型进行训练，因此它不受数据集类别不平衡的影响，此外，它仅使用常规流量数据进行训练这一事实使它在现实世界的应用程序中更有价值，并且在实际网络中使用时更可行。

这种方法的另一个优势是它的简单性，它仅由8个神经元的单个隐藏层组成，因此非常易于训练，特别适合在线学习。在评估过程中，我们避免了人工操作阈值以实现可重现的结果而不会受到人工干扰，但是在实际网络中，当部署系统时，网络管理员可以手动调整阈值，从而可以根据网络需求在灵敏度和特异性之间进行权衡与其他现有方法相比，这是一个巨大的优势。在检测率方面，AE的性能也很显著。

此方法的明显局限性在于它只能区分正常流量和攻击流量（二分类器而非多分类器），因此无法将攻击分类为不同的攻击类型，可以通过建立模型的集合以及其他扩展模型来完成克服此限制的工作。其功能才能实现5级分类。

补充

此外类似的模型还有基于VAE的改进模型Dount，链接如下

https://github.com/NetManAIOps/donutgithub.com/NetManAIOps/donut

感兴趣的朋友可以自己深入去了解下，整体来说自编码器类模型在执行基于重构误差的时间序列异常检测上的效果还是很不错的，业界（AIOps）和学界（清华裴丹）都有很广泛的应用。

4.2 基于 LSTM_CNN 的时间序列异常检测代码实现（Tensorflow，Keras前端接口）

模型介绍

CNN LSTM结构涉及在输入数据中使用卷积神经网络（CNN）层做特征提取并结合LSTM来支持序列预测。CNN LSTMs开发用来时间序列预测问题（NLP领域应用更广泛）和图像序列生成文本描述的应用（例如：视频），但是也没有人说不能在KPIs时间序列异常检测场景应用，对吧~ 所以我也基于KDD数据集试了一下。

这种架构最初被称为长期卷积神经网络（Long-term Recurrent Convolutional Network）或者LRCN模型。尽管我们将使用更通用的名为CNN-LSTM来指代本课中使用的CNN作为前段的LSTM模型。该体系结构的关键是使用CNN模型做特征提取，LSTM模型帮助模型学习跨时间步长的特征。

1.LSTM

长短时记忆(LSTM)模型是循环神经网络(recurrent neural network, RNN)的一种特殊形式，可在每个神经元处提供反馈。RNN的输出不仅取决于当前神经元的输入和权重，还取决于先前神经元的输入。因此，从理论上讲，RNN结构通常适用于处理时间序列数据。然而，在处理一系列长期相关的数据样本时，RNN会出现梯度爆炸和梯度消失问题，这成为后来引入LSTM模型的关键点。

为了克服RNN模型的梯度消失问题，LSTM模型包含贮存有用信息和丢弃无用信息的内部循环。LSTM模型的流程图中有四个重要元素：单元状态，输入门，遗忘门和输出门。输入、遗忘和输出门用于控制单元状态中包含信息的更新，维护和删除。前向计算过程可以表示为：

其中Ct，Ct−1和C˜t分别表示当前单元状态值，上一时刻的单元状态值和当前单元状态值的更新。符号ft，it和ot分别表示遗忘门，输入门和输出门。在适当的参数设置下，根据等式(4)~(6)，基于C˜t和Ct的值计算输出值ht。根据输出值与实际值之间的差值，所有的权重矩阵通过时间反向传播算法(back-propagation through time, BPTT)进行更新。

2.CNN

卷积神经网络(CNN)可能是最常用的深度学习神经网络，目前主要应用于计算机视觉领域的图像识别/分类主题。对于大量原始数据样本，CNN通常能够有效地提取输入数据的有用子集。一般来说，CNN仍然是前馈神经网络，由多层神经网络(multi-layer neural network, MLNN)扩展而来。CNN与传统MLNN的主要区别在于CNN具有稀疏交互和参数共享的特性。

传统MLNN使用全连接策略在输入层和输出层之间建立神经网络，这意味着每个输出神经元都有机会与每个输入神经元进行交互。假设有m个输入神经元和n个输出神经元，权重矩阵有 m×n 个参数。CNN通过设置大小为 k×k的卷积核大大减少权重矩阵的参数。CNN的两个属性提高了参数优化的训练效率；在相同的计算复杂度下，CNN能够训练具有更多隐藏层的神经网络，即深层神经网络。

时态卷积神经网络引入了特殊的一维卷积，适用于处理单变量时间序列数据。时态CNN不像传统CNN那样使用 k×k卷积核，而是使用大小为 k×1的卷积核。经过时间卷积运算之后，原始的单变量数据集可以扩展为m维特征的数据集。这样，时态CNN将一维卷积应用于时间序列数据，并将单变量数据集扩展为多维提取的特征；扩展后的多维特征数据更适合使用LSTM进行预测。

因此我们基于Keras框架定义了一个CNN LSTM模型：

#import data
traindata = pd.read_csv('./data/kddtrain.csv', header=None)
testdata = pd.read_csv('./data/kddtest.csv', header=None)

X = traindata.iloc[:,1:42]
Y = traindata.iloc[:,0]
C = testdata.iloc[:,0]
T = testdata.iloc[:,1:42]

scaler = Normalizer().fit(X)
trainX = scaler.transform(X)

scaler = Normalizer().fit(T)
testT = scaler.transform(T)

y_train1 = np.array(Y)
y_test1 = np.array(C)

y_train= to_categorical(y_train1)
y_test= to_categorical(y_test1)


# reshape input to be [samples, time steps, features]
X_train = np.reshape(trainX, (trainX.shape[0],trainX.shape[1],1))
X_test = np.reshape(testT, (testT.shape[0],testT.shape[1],1))

图1：私人网络安全数据集中样本的低维表示：（1）每个样本表示最初具有20个维度的网络流（2）红/蓝点是异常/正常样本，（3）横轴表示学习到的缩小的一维空间（4）垂直轴表示由深度自动编码器引起的重构误差的一维表示。

训练

# train the model
# define parameters
verbose, epochs, batch_size = 1, 10, 1000 
n_timesteps, n_features, n_outputs = X_train.shape[1], X_train.shape[2],1 # 122,1,1

# reshape output into [samples, timesteps, features]
y_train = y_train.reshape((y_train.shape[0], 1, 1))

# define model
lstm_cnn = Sequential()
lstm_cnn.add(Conv1D(filters=64, kernel_size=3, activation='relu', input_shape=(n_timesteps,n_features)))
lstm_cnn.add(Conv1D(filters=64, kernel_size=3, activation='relu'))
lstm_cnn.add(MaxPooling1D(pool_size=2))
lstm_cnn.add(Flatten())
lstm_cnn.add(RepeatVector(n_outputs))
model.add(LSTM(200, activation='relu', return_sequences=True))
lstm_cnn.add(Dropout(0.1))
lstm_cnn.add(Dense(1, activation='sigmoid'))
lstm_cnn.compile(loss="binary_crossentropy", optimizer="adam", metrics=['accuracy'])

# set checkpoint
checkpointer = callbacks.ModelCheckpoint(filepath="results/lstm_cnn_results/checkpoint-{epoch:02d}.hdf5", verbose=1, save_best_only=True, monitor='val_acc',mode='max')

# set logger
csv_logger = CSVLogger('results/lstm_cnn_results/cnntrainanalysis1.csv',separator=',', append=False)

# fit network
lstm_cnn.fit(
            X_train, y_train, 
            epochs=epochs, 
            batch_size=batch_size,
            verbose=verbose,
            validation_split=0.1,
            callbacks=[checkpointer,csv_logger])

binary_crossentropy是交叉熵损失函数，一般用于二分类的损失计算：这个是针对概率之间的损失函数，你会发现只有预测值和y相等时loss才为0，否则loss就是为一个正数。而且，概率相差越大，loss就越大。(如果出现负数说明X或者y没有归一化)

y_pred = lstm_cnn.predict_classes(X_test)

y_pred = y_pred[:,0]
accuracy = accuracy_score(y_test,y_pred)
recall = recall_score(y_test,y_pred, average="binary")
precision = precision_score(y_test,y_pred, average="binary")
f1 = f1_score(y_test,y_pred, average="binary")
print("Performance over the testing data set \n")
print("Accuracy : {} \nRecall : {} \nPrecision : {} \nF1 : {}\n".format(accuracy,recall,precision,f1 ))

小结
模型受到数据集类不均衡影响，Recall分数较AE低说明放过了许多attack没有检测出来，间接影响F1 = 2precisionrecall/(precision+recall）也不如AE模型。

另一个劣势在于网络相对较复杂一些，训练时间会相对比较长。

但是一个优势在于可以做多分类器，如果想要实现5级分类也是可以做到的
附加
LSTM-CNN在疾病预测问题方向的应用：《基于混合深度学习算法的疾病预测模型 - Disease Prediction Models Based on Hybrid Deep Learning Strategy》

基于混合深度学习算法的疾病预测模型m.hanspub.org/journal/paper/34067

4.3 基于 DAGMM 的时间序列异常检测代码实现（Tensorflow）

参考论文：《DEEP AUTOENCODING GAUSSIAN MIXTURE MODEL FOR UNSUPERVISED ANOMALY DETECTION》

论文链接：https://openreview.net/pdf?id=BJJLHbb0-
模型介绍
在论文中，提出了深度自动编码高斯混合模型（DAGMM），这是一个深度学习框架，从几个方面解决了无监督异常检测中的上述挑战。

首先，DAGMM在低维空间中保留输入样本的关键信息，该低维空间包括由维数减少和诱导重建误差发现的减小维度的特征。从图1所示的例子中，我们可以看到异常在两个方面与正常样本不同：

（1）异常可以在缩小的维度中显着偏离，其特征以不同的方式相关;

（2）与正常样本相比，异常难以重建。与仅涉及具有次优性能的方面之一（Zimek等人（2012）; Zhai等人（2016））的现有方法不同，DAGMM利用称为压缩网络的子网络通过自动编码器执行降维，通过连接来自编码的减少的低维特征和来自解码的重建误差，为输入样本准备低维表示。

其次，DAGMM在学习的低维空间上利用高斯混合模型（GMM）来处理具有复杂结构的输入数据的密度估计任务，这对于现有工作中使用的简单模型来说相当困难（Zhai等人（2016）））。虽然GMM具有强大的能力，但它也在模型学习中引入了新的挑战。由于GMM通常通过诸如期望最大化（EM）（Huber（2011））等交替算法来学习，因此难以进行维数降低和密度估计的联合优化，为了让GMM模型更好得学习，GMM学习通常退化为传统的两步做法：DAGMM利用称为估计网络（Estimation Network）的子网络，该子网络从压缩网络（Compression Network）获取Input得低维输入并输出每个样本的 ”混合成员预测“（mixture membership prediction）。利用预测样本的membership ，我们可以直接估计GMM的参数，便于评估输入样本的能量/然似。通过同时最小化来自压缩网络的重建误差和来自估计网络的样本然似/能量。
OVERVIEW
深度自动编码高斯混合模型（DAGMM）由两个主要部分组成：压缩网络和估计网络。如图2所示，DAGMM的工作原理如下：

（1）压缩网络通过深度自动编码器对输入样本进行降维，从缩小的空间和重建误差特征中准备它们的低维表示，并将表示提供给随后的估算网络;

（2）估计网络采用馈送，并在高斯混合模型（GMM）的框架中预测它们的似然(Energy)
训练
Fit Data to DAGMM Model
next three points are different from original paper:

- hiddens layers dimensions : [120,60,30,1] (original paper = [60,30,10,1])
- 2 = 0.0001 (original paper = 0.005)
- Add small value(10−6) to diagonal elements of GMM covariance (paper: no additional value)
- Standard Scaler is applied to input data (This DAGMM implementation default)

model = DAGMM(
                comp_hiddens=[60, 30,10, 1], 
                comp_activation=tf.nn.tanh,
                est_hiddens=[10, 4], 
                est_dropout_ratio=0.5, 
                est_activation=tf.nn.tanh,
                learning_rate=0.005, 
                epoch_size=200,
                minibatch_size=1024, 
                random_seed=42
            )
model.fit(X_train)

源代码可以参考一下这个日本人的https://github.com/tnakae/DAGMM/blob/master/KDDCup99.ipynb

预测
同样这个模型我们基于重构误差来对结果进行异常判断，通过百分位函数（percentile）界定小于或等于某个阈值（thleshold）的预测值占总预测数的百分比。

y_pred = model.predict(X_test)

# Energy thleshold to detect anomaly = 80% percentile of energies
anomaly_energy_threshold = np.percentile(y_pred, 80) # 百分位数函数，至少有80%的数据项小于或等于这个值，并且至少有20%的数据项大于或等于这个值
print(f"Energy thleshold to detect anomaly : {anomaly_energy_threshold:.3f}")

# Detect anomalies from test data
y_pred_flag = np.where(y_pred > anomaly_energy_threshold, 1, 0)

prec, recall, fscore, _ = precision_recall_fscore_support(y_test, y_pred_flag, average="binary")
print(f" Precision = {prec:.3f}")
print(f" Recall    = {recall:.3f}")
print(f" F1-Score  = {fscore:.3f}")

小结
最后，DAGMM对端到端训练很友好。通常，通过端到端训练很难学习深度自动编码器，因为它们很容易陷入不那么有吸引力的局部最佳状态，因此学界和业界广泛采用预训练来避免这一现象。但是，预训练限制了调整降维行为的可能性，因为很难通过微调对训练有素的自动编码器进行任何重大改变。我们的实证研究表明，DAGMM通过端到端训练得到了充分的学习，因为估计网络引入的正则化极大地帮助压缩网络中的自动编码器摆脱了不太吸引人的局部最优解。

几个公共基准数据集的实验表明，DAGMM具有优于现有技术的卓越性能，异常检测的F1得分提高了14％。此外，我们观察到端到端训练中DAGMM中自动编码器的重建误差与其预训练对应的重建误差一样低，而来自估计网络没有正则化的自动编码器的重建误差保持不变高。此外，端到端训练的DAGMM明显优于依赖于预先训练的自动编码器的所有基线方法。

Table 2: Average precision, recall, and F1 from DAGMM and the baseline methods. For each metric,the best result is shown in bold.

4.4 基于 One-Class SVM 的时间序列异常检测代码实现

和AE、Isolation Forest一样，One-Class SVM可以做单样本检测，这个算法的思路非常简单，就是寻找一个超平面将样本中的正例圈出来，预测就是用这个超平面做决策，在圈内的样本就认为是正样本。由于核函数计算比较耗时，在海量数据的场景用的并不多；
模型介绍
　　One Class SVM也是属于支持向量机大家族的，但是它和传统的基于监督学习的分类回归支持向量机不同，它是无监督学习的方法，也就是说，它不需要我们标记训练集的输出标签。

　　那么没有类别标签，我们如何寻找划分的超平面以及寻找支持向量机呢？One Class SVM这个问题的解决思路有很多。这里只讲解一种特别的思想SVDD，对于SVDD来说，我们期望所有不是异常的样本都是正类别，同时它采用一个超球体而不是一个超平面来做划分，该算法在特征空间中获得数据周围的球形边界，期望最小化这个超球体的体积，从而最小化异常点数据的影响。

　　假设产生的超球体参数为中心 o 和对应的超球体半径 r >0，超球体体积V(r) 被最小化，中心 o 是支持行了的线性组合；跟传统SVM方法相似，可以要求所有训练数据点xi到中心的距离严格小于r。但是同时构造一个惩罚系数为 C 的松弛变量 ζi ,优化问题如下图所示

采用拉格朗日对偶求解之后，可以判断新的数据点 z 是否在内，如果 z 到中心的距离小于或者等于半径 r ，则不是异常点，如果在超球体以外，则是异常点。

　　在Sklearn中，我们可以采用SVM包里面的OneClassSVM来做异常点检测。OneClassSVM也支持核函数，所以普通SVM里面的调参思路在这里也使用。
训练
需要注意的是在建模前需要设定训练误差nu （在(0, 1]范围内），表示异常点比例；然后kernel一般用高斯核，核计算很费时间做好心理准备。

# we're using a one-class SVM, so we need.. a single class. the dataset 'label'
# column contains multiple different categories of attacks, so to make use of 
# this data in a one-class system we need to convert the attacks into
# class 1 (normal) and class -1 (attack)

data.loc[data['label'] == "normal.", "attack"] = 1  
data.loc[data['label'] != "normal.", "attack"] = -1

# grab out the attack value as the target for training and testing. since we're
# only selecting a single column from the `data` dataframe, we'll just get a
# series, not a new dataframe

target = data['attack']

# find the proportion of outliers we expect (aka where `attack == -1`). because 
# target is a series, we just compare against itself rather than a column.

outliers = target[target == -1]  
print("outliers.shape", outliers.shape)  
print("outlier fraction", outliers.shape[0]/target.shape[0])

# drop label columns from the dataframe. we're doing this so we can do 
# unsupervised training with unlabelled data. we've already copied the label
# out into the target series so we can compare against it later.
data.drop(["label", "attack"], axis=1, inplace=True)

# check the shape for sanity checking.
data.shape  

from sklearn.model_selection import train_test_split  
train_data, test_data, train_target, test_target = train_test_split(data, target, train_size = 0.8)  
train_data.shape  

from sklearn import svm

# set nu (which should be the proportion of outliers in our dataset)
nu = outliers.shape[0] / target.shape[0]  
print("nu", nu)

model = svm.OneClassSVM(nu=nu, kernel='rbf', gamma=0.00005)  
model.fit(train_data)

调参
评估
一些参数的介绍可以从https://www.cnblogs.com/wj-1314/p/10701708.html上了解一下，我这里不展开讲了。

preds = model.predict(test_data)  
targs = test_target

print("accuracy: ", metrics.accuracy_score(targs, preds))  
print("precision: ", metrics.precision_score(targs, preds))  
print("recall: ", metrics.recall_score(targs, preds))  
print("f1: ", metrics.f1_score(targs, preds))  
print("area under curve (auc): ", metrics.roc_auc_score(targs, preds))

小结
从理论上说，它只能对一个时间序列单独训练一个模型，不同类型的时间序列需要使用不同的模型。这样的话，其实维护模型的成本比较高，不太适用于大规模的时间序列异常检测场景；
对周期型的曲线效果比较好，如果是毛刺型的数据，有可能就不太适用；因为长期的毛刺型数据就可以看成正常的数据了。
每次调参需要人为设置一定的阈值，或者根据训练loss的收敛值来定义，这就导致了不同的时间序列（或者每次训练后）所定的阈值是变化的。
5 补充

5.1 重构误差阈值设定的方法

本文涉及了两种定义重构误差阈值的方法，我还想给大家补充讲一下。

a）百分比阈值Percentile：

Doyle于1962年提出的P-Tile (即P分位数法)可以说是最古老的一种阈值选取方法。该方法根据先验概率来设定阈值，使得二值化后的目标或背景像素比例等于先验概率，比如训练集中我们知道异常占比80%，所以测试集中就把重构误差从小到大排序，前20%正常，后80%异常；又比如在CV领域，已知目标或背景像素比例等于先验概率；更简单的讲就是在找阈值前已经知道，目标或背景占整幅图比率多少。

该方法简单高效，但是对于先验概率难于估计的数据集却无能为力，所以对于先验概率不知道的场景不建议选用此方法。

b）训练loss收敛后的极值

上面介绍了基于自编码器的异常检测的基本原理，是利用异常数据在通过自动编码器编码与解码过程中所产生的较大波动(重构误差更大，大于阈值)来实现异常检测。那么如何合理设置重构误差阈值，才能够准确地检测出异常呢?

由于咱们的训练数据中只包含正常样本，其中一个方法就是可以将阈值设置为等于自动编码器的训练损失, 然后测试集中每个数据样本的重建损失跟阈值进行比对，超过阈值的认定为异常。

除此之外，在CV领域还有专家认为在输入图像和重构图像之间的 L2 距离上设置阈值可以有效检测出攻击图像等等。

阈值的选择一直是堪比调参的一门玄学学问，需要通过多次实验，或者基于所谓的”专家经验“在假阳性和假阴性检测率中进行权衡，从而使得模型的检测效果最优化。

6 总结需要在假阳性和假阴性检测率中进行权衡

通常来说，在时间序列异常检测场景中，异常的比例相对于正常的比例而言都是非常稀少的。因此，除了有监督算法（分类，回归）之外，基于无监督算法的异常检测算法也是必不可少的。除了 HoltWinters，ARIMA 等算法之外，一些单样本二分类器和基于深度学习的模型也可以起到很好的检测效果。

尤其是自编码器类模型在不同的数据集中综合表现突出，我们可以利用自编码器的重构误差和局部误差，针对时间序列的异常检测的场景，初步达到了一个还不错的效果。

这种方法可以用来提供部分异常样本，加大异常检测召回率的作用。但是这种方法也有一定的弊端：

你可能感兴趣的:(人工智能,自动驾驶,r语言,机器学习)

算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python 实战人工智能数学基础：推荐系统应用 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.背景介绍2.核心概念与联系2.1用户画像2.2相似性计算2.2.1基于物品的相似度2.2.2基于用户的相似度2.3协同过滤算法2.3.1基于用户的协同过滤算法2.3.2基于物品的协同过滤算法2.3.3基于上下文的协同过滤算法3.核心算法原理和具体操作步骤以及数学模型公式详细讲解3.1基于用户的协同过滤算法3.2基于物品的协同过滤算法3.3混合协同过滤算法3.
Python桌面应用开发的未来——智能化工具与大模型赋能 IronwoodStag78
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！标题：Python桌面应用开发的未来——智能化工具与大模型赋能随着人工智能技术的飞速发展，传统软件开发模式正在被重新定义。Python作为一门功能强大且灵活的语言，在桌面应用开发领域一直占据重要地位。然而，面对日益复杂的用户需求和快速变化的技术环境，如何提升开发效率、降低开发门槛，成为开发者亟需解决的问题
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI产品经理需要了解的算法知识 AI劳模人工智能产品经理 AI产品经理 AI产品经理入门零基础入门产品经理算法语言模型
1、自然语言生成（NLG）自然语言生成（NaturalLanguageGeneration，简称NLG）是一种人工智能技术，它的目标是将计算机的数据、逻辑或算法产生的信息转换成人类可读的自然语言文本。换句话说，NLG能让机器“学会”写文章、报告、故事或者其他任何形式的文字，就像人类作家那样。这项技术使得机器能够理解复杂的数据并将其转化为易于理解的语言，以适应不同的受众和情境。应用实例：金融报告自动
【Python】OpenAI API 宅男很神经 python 开发语言
【Python与OpenAIAPI深度探索：从基础到未来】第一章：OpenAIAPI概览与核心概念1.1OpenAIAPI是什么？能做什么？OpenAIAPI(ApplicationProgrammingInterface，应用程序编程接口)是一套允许开发者通过编程方式访问和使用OpenAI开发的各种先进人工智能模型的服务。这些模型经过海量数据的训练，能够在多种任务上达到甚至超越人类水平。通过AP
Python：操作 Word 对齐方式 Thomas Kant Python python word c#
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】Python：操作Word对齐方式详解（左对齐/右对齐/居中/两端对齐）在日常办公自动化中，我们经常需要对Word文档中的段落设置对齐方式，如左对齐、右对齐、居中、两端对齐等。本文将带你使用python-docx库
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
TestCafe ➜ Playwright fixture 架构迁移指南 Thomas Kant 自动化测试 playwright testcafe typescript 测试架构
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】
医疗金融预测与语音识别中的模型优化及可解释性技术突破智能计算研究中心其他
内容概要随着人工智能技术的纵深发展，模型优化与可解释性技术正在重塑医疗诊断、金融预测及语音识别领域的应用范式。在医疗领域，基于自适应学习的动态参数调整机制，结合迁移学习的跨场景知识复用，显著提升了疾病筛查模型的泛化能力；而金融预测场景中，联邦学习框架通过分布式数据协作，在保障隐私安全的前提下，实现了风险预测模型的多维度优化。语音识别领域则依托边缘计算架构，将模型压缩技术与实时推理引擎结合，有效解决
【大模型与机器学习解惑】什么是A/B测试，为何进行A/B测试？
以下内容将围绕机器学习中的A/B测试展开，从概念与背景到实施细节、示例代码、优化思路和未来建议，并在最后给出一个整体的“输出目录”供参考。目录什么是机器学习的A/B测试为何要进行A/B测试A/B测试的实施流程示例代码与详细解释优化方向与未来建议结语1.什么是机器学习的A/B测试A/B测试（也常被称作对照试验、SplitTest）最早多用于互联网产品的功能或界面迭代中，指的是将用户或样本随机分为两组
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息

时间序列异常检测- 基于KDD99数据集的实战

一. 介绍

二. KDD数据集

三. 数据预处理

四.建模

4.1 基于 AE 自编码器的时间序列异常检测代码实现（Tensorflow，Keras前端接口）

4.2 基于 LSTM_CNN 的时间序列异常检测代码实现（Tensorflow，Keras前端接口）

4.3 基于 DAGMM 的时间序列异常检测代码实现（Tensorflow）

4.4 基于 One-Class SVM 的时间序列异常检测代码实现

5 补充

6 总结需要在假阳性和假阴性检测率中进行权衡

你可能感兴趣的:(人工智能,自动驾驶,r语言,机器学习)