-派神-

使用python进行异常值(outlier)检测实战:KMeans + PCA + IsolationForest + SVM + EllipticEnvelope

作者:Susan Li ,原文:https://towardsdatascience.com/time-series-of-price-anomaly-detection-13586cd5ff46

略有增删

异常值检测（outlier）是一种数据挖掘过程，用于确定数据集中发现的异常值并确定其出现的详细信息。当前自动异常检测至关重要，因为大量数据无法手动标记异常值。自动异常检测具有广泛的应用，例如信用卡欺诈检测，系统健康监测，故障检测以及传感器网络中的事件检测系统等。今天我们就通过使用python来实现异常值的自动检测系统的实战开发。我们将会使用以下技术来实现异常值检测:

KMeans
PCA
IsolationForest
SVM
EllipticEnvelope

数据

我们的数据kaggle你可以在这里下载。Expedia是全球最大的在线旅行社（OTA,类似我们的携程网），它每天为数百万旅行购物者提供搜索服务其中包括用户在Expedia网站上搜索酒店的相关信息,如国家，地区，房型，价格，入住天数，入住时间等信息。

我们想通过这个数据集来检测其中价格的异常值。由于Expedia提供的数据集非常大,为了能很好的演示我们的异常值检测功能，我们将从Expedia数据集中过滤出一个子集，该子集只包含用户查询的酒店标间(srch_room_count=1)和酒店所在地为美国(visitor_location_country_id=219)的信息。字段的含义如下:

prop_id：酒店Id
datetime: 用户查询的时间
price_usd：价格(美元)
srch_booking_window:从查询日期开始的酒店住宿天数
srch_saturday_night_bool：如果住宿从周四晚上开始，小于等于4个晚上(必须包含周六晚上)则为1，否则为0

我们会看到同一家酒店,不同的住宿天数，是否包含周六晚，都会导致标间(单间)价格的不同,我们将从中找出价格的异常值。

df = pd.read_csv('./data/expedia_train.csv')

#过滤Id为104517的酒店
df = df.loc[df['prop_id'] == 104517]
#过滤标间
df = df.loc[df['srch_room_count'] == 1]
#219表示美国
df = df.loc[df['visitor_location_country_id'] == 219]
df = df[['date_time', 'price_usd', 'srch_booking_window', 'srch_saturday_night_bool']]
df.head(10)

我们看一下数据集元数据信息:

我们发现变量date_time的类型不是datetime类型，这会使我们在做可视化的时候出现问题，所以我们要将date_tiem的类型设置为datetime型，接下来我们主要目的是发现价格(price_usd)的异常值,所以我们首先看一下价格的分布情况:

#将date_time的类型设置为datetime
df['date_time'] = pd.to_datetime(df['date_time'])
df = df.sort_values('date_time')
print(df['price_usd'].describe())
df['price_usd'].hist()

我们发现价格的均值是112，但是最大值却是5584. 这个一个极端的最大值。似乎所有价格数据都小于500，只有一个极端最大值5584。为了我们在后面能找到更多不是极端的异常值，我们先删除这个极端最大值。

df = df.loc[df['price_usd'] < 5584]
print(df['price_usd'].describe())
df['price_usd'].hist()

删除价格的极端最大值以后,价格分布基本趋于正常(略微右偏)。

时间序列可视化

下面我们根据时间对价格进行可视化。

df.plot(x='date_time', y='price_usd', figsize=(12,6))
plt.xlabel('时间')
plt.ylabel('价格(美元)')

a = df.loc[df['srch_saturday_night_bool'] == 0, 'price_usd']
b = df.loc[df['srch_saturday_night_bool'] == 1, 'price_usd']
plt.figure(figsize=(10, 6))
plt.hist(a, bins = 50, alpha=0.5, label='不含周六晚上')
plt.hist(b, bins = 50, alpha=0.5, label='含周六晚上')
plt.legend(loc='upper right')
plt.xlabel('价格')
plt.ylabel('数量')
plt.show();

从上面的直方图可知含周六晚上的(srch_saturday_night_bool=1)的价格均值要大于不含周六晚上的(srch_saturday_night_bool=1)价格均值。含周末的房价略高一些，这应该是合理的。

基于聚类的异常检测

k-means是一种广泛使用的聚类算法。它创建了k个具有相似特性的数据组。不属于这些组的数据实例可能会被标记为异常。在我们开始k-means聚类之前，我们使用elbow方法来确定最佳聚类数量。

data = df[['price_usd', 'srch_booking_window', 'srch_saturday_night_bool']]
n_cluster = range(1, 20)
kmeans = [KMeans(n_clusters=i).fit(data) for i in n_cluster]
scores = [kmeans[i].score(data) for i in range(len(kmeans))]

fig, ax = plt.subplots(figsize=(10,6))
ax.plot(n_cluster, scores)
plt.xlabel('聚类集群数')
plt.ylabel('分数')
plt.title('Elbow 曲线')
plt.show()

为了找出合理的距离中心数，我们尝试尽可能多的聚类中心数（从1个到20个聚类中心），然后我们画出Elbow曲线，通过观察Elbow曲线,我们发现当我们的聚类中心数量增加到10个以上时Elbow曲线趋于收敛，因此我们大致可以将聚类中心数定为10.

下面我们将K-means算法的n_clusters设置为10,然后我们将数据进行3D可视化。

X = df[['price_usd', 'srch_booking_window', 'srch_saturday_night_bool']]
X = X.reset_index(drop=True)
km = KMeans(n_clusters=10)
km.fit(X)
km.predict(X)
labels = km.labels_

fig = plt.figure(1, figsize=(7,7))
ax = Axes3D(fig, rect=[0, 0, 0.95, 1], elev=48, azim=134)
ax.scatter(X.iloc[:,0], X.iloc[:,1], X.iloc[:,2],
          c=labels.astype(np.float), edgecolor="k")
ax.set_xlabel("price_usd")
ax.set_ylabel("srch_booking_window")
ax.set_zlabel("srch_saturday_night_bool")
plt.title("K Means", fontsize=14);

接下来我们要确定需要保留数据中的哪些主要成分(特征)

data = df[['price_usd', 'srch_booking_window', 'srch_saturday_night_bool']]
X = data.values

#标准化处理,均值为0,标准差为1
X_std = StandardScaler().fit_transform(X)
mean_vec = np.mean(X_std, axis=0)
#计算协方差
cov_mat = np.cov(X_std.T)

#计算特征值和特征向量
eig_vals, eig_vecs = np.linalg.eig(cov_mat)

#每个特征值对应一组特征向量
eig_pairs = [ (np.abs(eig_vals[i]),eig_vecs[:,i]) for i in range(len(eig_vals))]
eig_pairs.sort(key = lambda x: x[0], reverse= True)

#特征值求和
tot = sum(eig_vals)

#每个主要成分的解释方差
var_exp = [(i/tot)*100 for i in sorted(eig_vals, reverse=True)] 
#累计的解释方差
cum_var_exp = np.cumsum(var_exp) 

plt.figure(figsize=(10, 5))
plt.bar(range(len(var_exp)), var_exp, alpha=0.3, align='center', label='独立的解释方差', color = 'g')
plt.step(range(len(cum_var_exp)), cum_var_exp, where='mid',label='累积解释方差')
plt.ylabel('解释方差率')
plt.xlabel('主成分')
plt.legend(loc='best')
plt.show();

我们首先对数据进行标准化处理(StandardScaler)，然后再计算特征变量之间的协方差矩阵,协方差矩阵反应了特征变量之间的相关性，如果两个特征变量之间的协方差为正则说明它们之间是正相关关系,如果为负则说明它们之间是负相关关系，如果为0则说明特征变量之间是相互独立的关系,不存在相关关系(有时候我们也会用相关系数矩阵来代替协方差矩阵)。然后在协方差矩阵的基础上又计算了协方差矩阵的特征值和特征向量，根据特征值计算出每个主成分(特征)的解释方差,以及累计解释方差，我们这样做的目的是为了下一步做主成分分析(PCA)挑选出特征变量中的主成分。我们挑选前2个主成分，因为它们的累计解释方差为80%。

从上图可知我们的三个主成分,第一个主成分(特征)解释了将近50%的方差变化,第二个主成分解释了近30%的方差变化,那么前2个主成分解释了近80%的方差。因此接下来我们将使用PCA算法进行降维并将设置参数n_components=2。

data = df[['price_usd', 'srch_booking_window', 'srch_saturday_night_bool']]
X = data.values

#标准化处理,均值为0,标准差为1
X_std = StandardScaler().fit_transform(X)
data = pd.DataFrame(X_std)

#将特征维度降到2
pca = PCA(n_components=2)
data = pca.fit_transform(data)
# 降维后将2个新特征进行标准化处理
scaler = StandardScaler()
np_scaled = scaler.fit_transform(data)
data = pd.DataFrame(np_scaled)

kmeans = [KMeans(n_clusters=i).fit(data) for i in n_cluster]
df['cluster'] = kmeans[9].predict(data)
df.index = data.index
df['principal_feature1'] = data[0]
df['principal_feature2'] = data[1]
df.head()

基于聚类的异常检测中的假设是，如果我们对数据进行聚类，则正常数据将属于聚类，而异常将不属于任何聚类或属于小聚类。我们使用以下步骤来查找和可视化异常值。

计算每个数据点与其最近的聚类中心之间的距离。最大的距离被认为是异常的。
设定一个异常值的比例outliers_fraction为1%,这样设置是因为在标准正太分布的情况下（N(0,1)）我们一般认定3个标准差以外的数据为异常值,3个标准差以内的数据包含了数据集中99%以上的数据,所以剩下的1%的数据可以视为异常值。
根据异常值比例outliers_fraction，计算异常值的数量number_of_outliers
设定一个判定异常值的阈值threshold
通过阈值threshold来判定数据是否为异常值
对数据进行可视化(包含正常数据和异常数据)

# 计算每个数据点到其聚类中心的距离
def getDistanceByPoint(data, model):
    distance = pd.Series()
    for i in range(0,len(data)):
        Xa = np.array(data.loc[i])
        Xb = model.cluster_centers_[model.labels_[i]]
        distance.set_value(i, np.linalg.norm(Xa-Xb))
    return distance

#设置异常值比例
outliers_fraction = 0.01

# 得到每个点到取聚类中心的距离，我们设置了10个聚类中心，kmeans[9]表示有10个聚类中心的模型
distance = getDistanceByPoint(data, kmeans[9])

#根据异常值比例outliers_fraction计算异常值的数量
number_of_outliers = int(outliers_fraction*len(distance))

#设定异常值的阈值
threshold = distance.nlargest(number_of_outliers).min()

#根据阈值来判断是否为异常值
df['anomaly1'] = (distance >= threshold).astype(int)

#数据可视化
fig, ax = plt.subplots(figsize=(10,6))
colors = {0:'blue', 1:'red'}
ax.scatter(df['principal_feature1'], df['principal_feature2'], c=df["anomaly1"].apply(lambda x: colors[x]))
plt.xlabel('principal feature1')
plt.ylabel('principal feature2')
plt.show();

上图中红色的点即是被认定的异常值，它们大约占总数据量的1%。

df = df.sort_values('date_time')
df['date_time_int'] = df.date_time.astype(np.int64)
fig, ax = plt.subplots(figsize=(12,6))

a = df.loc[df['anomaly1'] == 1, ['date_time_int', 'price_usd']] #anomaly

ax.plot(df['date_time_int'], df['price_usd'], color='blue', label='正常值')
ax.scatter(a['date_time_int'],a['price_usd'], color='red', label='异常值')
plt.xlabel('Date Time Integer')
plt.ylabel('价格(美元)')
plt.legend()
plt.show()

从上图可知,经过PCA和KMeans计算出的异常值，它们的价格大多位于价格区间的最高点和最低点处，这应该是合理的。

孤立森林(IsolationForest)异常检测

IsolationForest算法它是一种集成算法(类似于随机森林)主要用于挖掘异常(Anomaly)数据，或者说离群点挖掘，总之是在一大堆数据中，找出与其它数据的规律不太符合的数据。该算法不采样任何基于聚类或距离的方法，因此他和那些基于距离的的异常值检测算法有着根本上的不同，孤立森林认定异常值的原则是异常值是少数的和不同的数据。它通常用于网络安全中的攻击检测和流量异常等分析，金融机构则用于挖掘出欺诈行为。

当我们使用IsolationForest算法时需要设置一个异常值比例的参数contamination，该参数的作用类似于之前的outliers_fraction。
使用 fit 方法对孤立森林模型进行训练
使用 predict 方法去发现数据中的异常值。返回1表示正常值，-1表示异常值。

data = df[['price_usd', 'srch_booking_window', 'srch_saturday_night_bool']]
scaler = StandardScaler()
np_scaled = scaler.fit_transform(data)
data = pd.DataFrame(np_scaled)
# 训练孤立森林模型
model =  IsolationForest(contamination=outliers_fraction)
model.fit(data)

#返回1表示正常值，-1表示异常值
df['anomaly2'] = pd.Series(model.predict(data)) 

fig, ax = plt.subplots(figsize=(10,6))
a = df.loc[df['anomaly2'] == -1, ['date_time_int', 'price_usd']] #异常值
ax.plot(df['date_time_int'], df['price_usd'], color='blue', label = '正常值')
ax.scatter(a['date_time_int'],a['price_usd'], color='red', label = '异常值')
plt.legend()
plt.show();

从上图可知，使用孤立森林预测的异常值，它们的价格大多位于价格区间的最高点或最低点处。

支持向量机(SVM)的异常检测

SVM通常应用于监督式学习，但OneClassSVM算法可用于将异常检测这样的无监督式学习，它学习一个用于异常检测的决策函数其主要功能将新数据分类为与训练集相似的正常值或不相似的异常值。

OneClassSVM

OneClassSVM的思想来源于这篇论文,SVM使用大边距的方法，它用于异常检测的主要思想是:将数据密度较高的区域分类为正，将数据密度较低的区域分类为负,如下图所示:

在训练OneClassSVM模型时，我们需要设置参数nu = outliers_fraction，它是训练误差分数的上限和支持向量分数的下限，并且必须在0和1之间。基本上它代表了我们期望的异常值在我们的数据集中的比例。
指定要在算法中使用的核类型：rbf。它使SVM能够使用非线性函数将超空间投影到更高维度。
gamma是RBF内核类型的参数，并控制各个训练样本的影响 - 这会影响模型的“平滑度”。
predict 对数据进行分类，因为我们的模型是单类模型，所以返回+1或-1，-1表示是异常值，1表示是正常值。

data = df[['price_usd', 'srch_booking_window', 'srch_saturday_night_bool']]
scaler = StandardScaler()
np_scaled = scaler.fit_transform(data)
data = pd.DataFrame(np_scaled)
# 训练 oneclassSVM 模型
model = OneClassSVM(nu=outliers_fraction, kernel="rbf", gamma=0.01)
model.fit(data)
 
df['anomaly3'] = pd.Series(model.predict(data))
fig, ax = plt.subplots(figsize=(10,6))

a = df.loc[df['anomaly3'] == -1, ['date_time_int', 'price_usd']] #anomaly

ax.plot(df['date_time_int'], df['price_usd'], color='blue', label ='正常值')
ax.scatter(a['date_time_int'],a['price_usd'], color='red', label = '异常值')
plt.legend()
plt.show();

从上图可知，使用OneClassSVM预测的异常值，它们的价格大多位于价格区间的最高点或最低点处。

基于高斯概分布的异常检测

高斯分布也称为正态分布。它可以被用来进行异常值检测，不过我们首先要假设我们的数据是正态分布的。不过这个假设不能适应于所有数据集。但如果我们做了这种假设那么它将会有一种有效的方法来发现异常值。

Scikit-Learn的EllipticEnvelope模型，它在假设我们的数据是多元高斯分布的基础上计算出高斯分布的一些关键参数过程。过程大致如下:

根据前面定义的类别创建两个不同的数据集： search_Sat_night和Search_Non_Sat_night。
在每个类别应用EllipticEnvelope（高斯分布）。
我们设置contamination参数，它表示我们数据集中异常值的比例。
使用decision_function来计算给定数据的决策函数。它等于移位的马氏距离(Mahalanobis distances)。异常值的阈值为0，这确保了与其他异常值检测算法的兼容性。
使用predict 来预测数据是否为异常值(1 正常值, -1 异常值)

df_class0 = df.loc[df['srch_saturday_night_bool'] == 0, 'price_usd']
df_class1 = df.loc[df['srch_saturday_night_bool'] == 1, 'price_usd']

envelope =  EllipticEnvelope(contamination = outliers_fraction) 
X_train = df_class0.values.reshape(-1,1)
envelope.fit(X_train)
df_class0 = pd.DataFrame(df_class0)
df_class0['deviation'] = envelope.decision_function(X_train)
df_class0['anomaly'] = envelope.predict(X_train)

envelope =  EllipticEnvelope(contamination = outliers_fraction) 
X_train = df_class1.values.reshape(-1,1)
envelope.fit(X_train)
df_class1 = pd.DataFrame(df_class1)
df_class1['deviation'] = envelope.decision_function(X_train)
df_class1['anomaly'] = envelope.predict(X_train)

df_class = pd.concat([df_class0, df_class1])
df['anomaly5'] = df_class['anomaly']
fig, ax = plt.subplots(figsize=(10, 6))
a = df.loc[df['anomaly5'] == -1, ('date_time_int', 'price_usd')] 
ax.plot(df['date_time_int'], df['price_usd'], color='blue')
ax.scatter(a['date_time_int'],a['price_usd'], color='red')
plt.show()

从上图可知，使用EllipticEnvelope预测的异常值，它们的价格大多位于价格区间的最高点处在最低点处没有出现异常值。

到目前为止，我们已经用四种不同的方法进行了价格异常检测。因为我们的异常检测是无监督学习。在构建模型之后，我们不知道他们的异常检测效果怎么样，因为我们没有办法可以对他们进行测试。通常异常检测只有在实际的应用场景中才能测试出它的效果。

参考

Introduction to Anomaly Detection

sklearn.ensemble.IsolationForest

sklearn.svm.OneClassSVM

sklearn.covariance.EllipticEnvelope

Unsupervised Anomaly Detection | kaggle

完整代码在此下载

异常检测的评价指标：ROCAUC等【tips】太简单了 tips 计算机视觉深度学习 pytorch
准确率Precision&召回率Recallfromsklearn.metricsimportprecision_recall_curveprecision,recall,thresholds=precision_recall_curve(gt_mask.flatten(),scores.flatten())混淆矩阵：实际预测正负正TP（真正类）FN（假负类）负FP（假正类）TN（真负类）prec
[2025分类&时序异常检测指标R-AUC与VUS] 沉木渡香机器学习随笔分类数据挖掘时序异常检测 VUS R-AUC
梳理了一下分类中常见的指标，这些指标与时序异常检测中新提出的A-RUC与VUS之间的关系真正例(TruePositive,TP):被正确识别为正样本的数量。真负例(TrueNegative,TN):被正确识别为负样本的数量。假正例(FalsePositive,FP):被错误识为正样本数量假负例(FalseNegative,FN):被错误识别为负样本数量精确度(Precision,Pr):关注所有识
Python AI教程之二十一：监督学习之支持向量机（SVM）算法潜洋人工智能 Python中级支持向量机算法机器学习 python
支持向量机（SVM）算法支持向量机(SVM)是一种功能强大的机器学习算法，广泛用于线性和非线性分类以及回归和异常值检测任务。SVM具有很强的适应性，适用于各种应用，例如文本分类、图像分类、垃圾邮件检测、笔迹识别、基因表达分析、人脸检测和异常检测。SVM特别有效，因为它们专注于寻找目标特征中不同类别之间的最大分离超平面，从而使其对二分类和多分类都具有鲁棒性。在本大纲中，我们将探讨支持向量机(SVM)
深度学习驱动的极端天气预测：时空数据异常检测与应用全解析（基于Python + TensorFlow） AI_DL_CODE 深度学习 python tensorflow 人工智能天气预测
摘要：时空数据异常检测在气象领域识别偏离正常模式的数据点，对极端天气预测至关重要。深度学习，尤其是LSTM网络，因其强大的特征学习能力在该领域显示出巨大潜力。通过整合多源气象数据，深度学习模型能够自动挖掘复杂模式和非线性关系，提高预测准确性。然而，挑战依然存在，包括数据质量问题、模型可解释性不足以及极端天气的内在复杂性和不确定性。未来，通过模型架构创新、训练算法优化以及探索深度学习在气候预测、气象
【机器学习：三十、异常检测：原理与实践】 KeyPan 机器学习机器学习人工智能深度学习 pytorch 神经网络
1.异常检测概述异常检测（AnomalyDetection）是一种用于识别数据中异常模式或异常点的技术，旨在发现与大部分数据行为不同的样本。它在工业监控、网络安全、金融欺诈检测等领域具有广泛应用。异常检测的目标是找到那些偏离正常行为的数据点，这些数据点可能代表错误、故障、攻击或其他需要特别关注的情况。核心概念异常通常分为以下三种类型：点异常：单个数据点显著偏离正常分布（例如，银行交易中突然的巨额消
2024年大数据最全【ES专题】ElasticSearch集群架构剖析_es集群 kenzsoft 程序员大数据 elasticsearch 架构
IngestNode：数据前置处理转换节点，支持pipeline管道设置，可以使用ingest对数据进行过滤、转换等操作MachineLearningNode：负责跑机器学习的Job，用来做异常检测TribeNode：TribeNode连接到不同的Elasticsearch集群，并且支持将这些集群当成一个单独的集群处理以下是一个多集群业务架构图：1.2.1.1MasterNode主节点的功能Mas
pytorch正向传播没问题，loss.backward()使定义的神经网络中权重参数变为nan 加速却甩不掉伤悲 pytorch 神经网络人工智能
记录一个非常坑爹的bug:loss回传导致神经网络中一个linear层的权重参数变为nan1.首先loss值是正常数值；2.查了好多网上的解决办法：检查原始输入神经网络数据有没有nan值，初始化权重参数，使用relu激活函数，梯度裁剪，降低优化器的学习率等等都没解决，个人认为这些应该影响不大，一般不会出问题；3.最后是使用如下异常检测：检测在loss回传过程中哪一块出现了问题torch.autog
工信教考 | AI智能体应用工程师（模拟试题）人工智能-猫猫人工智能开源自然语言处理语言模型架构
关于AI智能体工程师的模拟试题，下面根据AI智能体工程师所需掌握的知识和技能，设计一些模拟题型的示例。这些题目旨在考察应试者在人工智能、机器学习、深度学习、算法设计、系统开发等方面的能力。一、选择题无监督学习常用于哪些任务？（单选）A.回归分析B.聚类分析C.分类预测D.序列预测答案：B解析：无监督学习常用于聚类、降维、异常检测等任务，如市场分割、数据可视化等。以下哪种激活函数常用于分类问题的输出
数据分析-13-时间序列异常值检测的类型及常见的检测方法皮皮冰燃数据分析数据分析
参考时间序列异常值的分类及检测参考异常值数据预警分析1时间序列异常的类型时间序列异常检测是数据处理和分析的重要环节，广泛应用于量化交易、网络安全检测、自动驾驶汽车和大型工业设备日常维护等领域。在时间序列数据中，异常通常指的是与正常数据模式显著不同的数据点，可能由系统故障、错误或外部干扰引起。异常数据，也称为离群点，是指在数据集中与其他数据点明显不同的样本。这些数据点往往不符合预期的模式或行为，可能
【大数据】孤立森林算法大雨淅淅大数据算法 python 大数据人工智能
目录一、孤立森林算法概述二、孤立森林算法优缺点和改进2.1孤立森林算法优点2.2孤立森林算法缺点2.3孤立森林算法改进三、孤立森林算法代码实现3.1孤立森林算法python实现3.2孤立森林算法JAVA实现3.3孤立森林算法C++实现四、孤立森林算法应用一、孤立森林算法概述孤立森林算法是一种用于异常检测的机器学习算法。它基于这样的直觉：异常点是数据中的少数派，它们在特征空间中的分布与正常数据点不同
基于STM32的工厂安全监测系统：采用FreeRTOS、MQTT协议、InfluxDB存储与Grafana可视化，实现实时数据监测与异常检测算法优化的综合解决方案（代码示例）极客小张 stm32 安全 grafana 算法物联网 c++异常检测算法
一、项目概述项目目标与用途随着工业自动化的不断推进，工厂的安全问题成为了企业管理者关注的重点。工厂中的温度、湿度、气体浓度、烟雾、压力等环境参数直接影响着生产的安全性和产品的质量。本项目旨在设计并实现一个嵌入式工厂安全监测系统，实时监测工厂环境中的关键安全参数，通过无线通信模块将数据传输到云端进行存储和分析，从而实现对工厂环境的智能化监控和预警。项目解决的问题与价值实时监测：实时采集工厂内的温度、
电力行业电气领域相关数据集下载地址汇总输电线路变电站电网应用数据集汇总(全网最全) FL1623863129 数据集目标检测
在电力行业电气领域，数据集扮演着至关重要的角色。这些数据集涵盖了从发电到用电的各个环节，包括输电线路图像、变电站监测、电力负荷预测等多样化内容。例如，输电线路图像数据集通过无人机或直升机拍摄，包含了杆塔、绝缘子、导线等详细图像，为目标检测、分类和异常检测提供了丰富的素材。此外，还有针对变电站烟火检测、导线破损检测等特定任务的数据集，这些数据集通过收集实际场景中的图像和视频，帮助研究人员训练更加精准
周报 | 24.8.12-24.8.18文章汇总双木的木深度学习拓展阅读深度学习人工智能 transformer 算法 python stable diffusion llama
为了更好地整理文章和发表接下来的文章，以后每周都汇总一份周报。周报|24.8.5-24.8.11文章汇总-CSDN博客OpenCV与AI深度学习|实战|使用YoloV8实例分割识别猪的姿态（含数据集）-CSDN博客极市平台|异常检测开源数据集汇总-CSDN博客程序员学长|快速学习一个算法，集成学习-CSDN博客Coggle数据科学|行业落地分享：大模型RAG汽车应用实践_rag中的意图识别-CSD
异常GPT：使用LVLMs检测工业异常 DUT_LYH gpt 人工智能算法
AnomalyGPT：利用LVLMs进行工业异常检测摘要本文介绍了一种名为AnomalyGPT的新型工业异常检测方法，该方法基于大型视觉语言模型(LVLMs)。AnomalyGPT能够检测并定位图像中的异常，无需手动设置阈值。此外，AnomalyGPT还可以提供与图像相关的详细信息，以交互方式与用户进行交流。本文详细阐述了AnomalyGPT的模型架构、解码器、提示学习器以及异常模拟方法，并在Vi
基于极限树特征递归消除和LightGBM的异常检测模型宋罗世家技术屋信息资源管理与发展专栏算法 python
摘要入侵检测数据维数大、数据样本不均衡、数据集分散性大的问题严重影响分类性能,为了解决该问题,文章提出基于极限随机树的特征递归消除（ExtraTrees-RecursiveFeatureElimination,ET-RFE）和LightGBM（LGBM）的入侵检测方法。首先对网络数据进行独热编码重构,在数据级层面均衡少量样本的攻击类别;其次,使用基于ET-RFE对流量特征进行降维处理,寻找含有信息
探索LightGBM：监督式聚类与异常检测 Echo_Wish Python 笔记 Python算法聚类数据挖掘机器学习
导言监督式聚类和异常检测是在监督学习框架下进行的一种特殊形式的数据分析技术。在Python中，LightGBM提供了一些功能来执行监督式聚类和异常检测任务。本教程将详细介绍如何使用LightGBM进行监督式聚类和异常检测，并提供相应的代码示例。监督式聚类监督式聚类是一种将聚类任务结合到监督学习框架中的技术。LightGBM提供了一种基于决策树的监督式聚类方法。以下是一个简单的示例：importli
Lag-Llama:第一个时间序列预测的开源基础模型介绍和性能测试 deephub llama 深度学习时间序列基础模型
2023年10月，我们发表了一篇关于TimeGPT的文章，TimeGPT是时间序列预测的第一个基础模型之一，具有零样本推理、异常检测和共形预测能力。虽然TimeGPT是一个专有模型，只能通过API访问。但是它还是引发了对时间序列基础模型的更多研究。到了2024年2月，已经有了一个用于时间序列预测的开源基础模型:laglllama。在原论文《Lag-Llama:TowardsFoundationMo
基于UI交互意图理解的异常检测方法美团测试
美团到店平台技术部/质量工程部与复旦大学周扬帆教授团队开展了科研合作，基于业务实际场景，自主研发了多模态UI交互意图识别模型以及配套的UI交互框架。本文从大前端质量保障领域的痛点出发，介绍了UI交互意图识别的方法设计与实现。基于UI交互意图编写的测试用例在实际业务中展现出了可以跨端、跨App的泛化能力，希望可以为从事相关工作的同学带来一些启发或帮助。1.背景近年来，随着美团多种业务线的扩充和迭代，
Lag-Llama:第一个时间序列预测的开源基础模型介绍和性能测试人工智能深度学习python
2023年10月，我们发表了一篇关于TimeGPT的文章，TimeGPT是时间序列预测的第一个基础模型之一，具有零样本推理、异常检测和共形预测能力。虽然TimeGPT是一个专有模型，只能通过API访问。但是它还是引发了对时间序列基础模型的更多研究。到了2024年2月，已经有了一个用于时间序列预测的开源基础模型:laglllama。在原论文《Lag-Llama:TowardsFoundationMo
异常检测-基于统计学的方法-学习笔记-2 Rank_Fan007
异常检测的学习笔记并非原创，而是搜索各位大佬的帖子整理而得。如有冒犯，请联系我。1.概述统计学⽅法对数据的正常性做出假定。它们假定正常的数据对象由⼀个统计模型产⽣，而不遵守该模型的数据是异常点。异常检测的统计学⽅法的⼀般思想是：学习⼀个拟合给定数据集的⽣成模型，然后识别该模型低概率区域中的对象，把它们作为异常点。根据如何指定和学习模型，异常检测的统计学⽅法可以划分为两个主要类型：参数⽅法和⾮参数⽅
Deep Learning for Anomaly Detection: A Review（翻译） appron 入侵检测异常检测网络攻击检测
前言一、引言二、异常检测：问题的复杂性和挑战1.主要问题复杂性2.深度异常检测所面临的主要挑战三、用深度异常检测应对挑战1.预备工作2.深度异常检测方法的分类四.深度学习的特征提取1.预训练模型2.特定的特征提取模型五.学习常态的特征表征(特征提取器即分类器，即时连接同步训练的特征提取器和分类器)1.通用规范特征学习1.1自动编码器。(特征提取器即分类器）1.2生成对抗网络。(AnoGAN,f-A
ICCV 2023 | 腾讯优图16篇论文入选！轻量级主干、异常检测和扩散模型等方向 Amusi（CVer）
点击下方卡片，关注“CVer”公众号AI/CV重磅干货，第一时间送达点击进入—>【计算机视觉和论文写作】交流群来源：腾讯优图实验室作为全球计算机领域顶级的学术会议之一，ICCV2023（InternationalConferenceonComputerVision）国际计算机视觉大会将于今年10月在法国巴黎举行。近日，ICCV公布了论文录用结果，本届会议共有8068篇投稿，接收率为26.8%。今年
ICCV 2023 | 8篇论文看扩散模型diffusion用于图像检测任务：动作检测、目标检测、异常检测、deepfake检测... 机器学习与AI生成创作目标检测人工智能计算机视觉
1、动作检测DiffTAD:TemporalActionDetectionwithProposalDenoisingDiffusion基于扩散方法提出一种新的时序动作检测（TAD）算法，简称DiffTAD。以随机时序proposals作为输入，可以在未修剪的长视频中准确生成动作proposals。从生成建模的视角，与先前的判别学习方法不同。首先将真实proposals从正向扩散到随机proposa
智能运维哪些算法？智能运维包含哪些云呐AIOps 智能运维 AIOps 运维管理系统运维
在智能运维领域，详细介绍一些关键的算法，并阐述这些算法是如何被应用于智能运维系统中的。此外，关于智能运维中包含的主要组成部分或功能模块，以及它们各自的作用和重要性。如何应用再场景中应用在智能运维行业，一些关键算法包括：机器学习算法：如决策树、随机森林、svm算法等，从历史数据中学习方法和规律，预测未来的特点和故障。在智能操作和维护系统中，这些算法被应用于故障预测、异常检测、资源调度等方面，以帮助操
NeurIPS 2023 时间序列相关论文总结 STLearner 大数据智慧城市 pytorch 数据挖掘论文阅读深度学习
祝大家中秋国庆双节快乐！NeurIPS2023将于11月28日到12月9日在美国路易斯安那州新奥尔良举行。根据官方公布的邮件显示，今年共有12343篇投稿，接受率为26.1%，官网显示一共有3564篇论文。本文总结了NeurIPS23时间序列（不含时空数据，已经另外总结）的相关论文。包括时间序列预测，分类，异常检测，因果发现，交通，医疗等领域时间序列应用和大模型在时间序列问题建模的探索等方向。1.
WWW 2024 | 时间序列（Time Series）和时空数据（Spatial-Temporal）论文总结 STLearner 时空数据人工智能机器学习深度学习数据挖掘智慧城市论文阅读
WWW2024已经放榜，本次会议共提交了2008篇文章，researchtracks共录用约400多篇论文，录用率为20.2%。本次会议将于2024年5月13日-17日在新加坡举办。本文总结了WWW2024有关时间序列（TimeSeries）和时空数据（Spatial-Temporal）的相关文章，部分挂在了arXiv上。时间序列Topic：时序预测，异常检测，时域频域，大模型等时空数据Topic
梯度提升树系列6——GBDT在异常检测领域的应用 theskylife 数据挖掘机器学习数据挖掘 GBDT 分类 python
目录写在开头1异常检测的基本概念1.1定义和目标1.2GBDT在异常检测中的适用性2信用卡欺诈检测案例分析2.1场景介绍2.2收集数据和特征工程2.3进行异常值识别2.4模型效果评估2.5模型优化3策略和技巧4面临的挑战和解决方案4.1数据不平衡4.2过拟合4.3模型解释性写在最后在如今数据驱动的时代，异常检测成为了保障系统安全的关键技术，尤其在金融安全、网络安全等领域中扮演着至关重要的角色。梯度
时间序列异常检测论文TranAD: Deep Transformer Networks for Anomaly Detection in Multivariate Time Series Data 蛐蛐蛐 transformer 深度学习人工智能
由于工作需要，想用一下这篇论文的方法，但感觉其代码还是有很多不清除的地方，简单总结一下。关于论文的内容介绍，可以参考：【VLDB】融合transformer和对抗学习的多变量时间序列异常检测算法TranAD论文和代码解读-知乎说得比较清楚了，我就不重复了。但是读代码的时候还是有很多不明白的地方。这里以Data文件夹下的SWaT数据集为例进行分析。首先，打开train.xlsx，可以看到就是两个me
Python报No such file or directory: ‘science‘的解决方法蛐蛐蛐 Python技巧论文点评 python 开发语言
接上一篇博文：时间序列异常检测论文TranAD:DeepTransformerNetworksforAnomalyDetectioninMultivariateTimeSeriesData-CSDN博客还是想看看这篇论文的可视化结果。但是当我重新运行原版代码的时候，会报错：FileNotFoundError:[Errno2]Nosuchfileordirectory:'science'Theabo
Wazuh功能——异常和恶意软件检测 Threathunter
异常检测是指在系统中发现与预期行为不匹配的模式的行为。一旦恶意软件(例如rootkit)安装在系统上，它就会修改系统以隐藏自己，不让用户看到。尽管恶意软件使用多种技术来实现这一点，Wazuh却使用了一种广谱的方法来发现异常模式，表明可能存在入侵者。负责这项任务的主要组件是rootcheck，然而，Syscheck也扮演着重要的角色。一、怎样工作1、文件完整性监测恶意软件可以替换其主机系统上的文件、
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include