Python数据开发

使用 IQR、Z-score、LOF 和 DBSCAN 进行异常值检测

你在处理异常值吗？哪种方法更适合检测偏斜或正态分布数据的异常值？

无论你是在执行 EDA 之前进行数据清理过程，将数据传递给机器学习模型，还是执行任何统计测试，本文都将帮助你获得许多此类问题的答案以及实际应用。

文章目录

- - 什么是Inliers和Outliers？
  - 异常值的识别
  - 离群值的真实案例
  - 四分位间距 (IQR)
  - Z 分数法
  - 局部异常值查找器 (LOF)
  - 用于噪声应用的基于密度的空间聚类 (DBSCAN)
  - 结论

什么是Inliers和Outliers？

Outliers（异常值）是看起来与给定数据集中的大多数其他值有很大差异的值**。**异常值通常可能是由于新发明（真正的异常值）、新模式/现象的发展、实验错误、很少发生的事件、异常、由于排版错误导致的错误输入数据、数据记录系统/组件故障等而出现的。

Inliers（正常值）是除异常值之外的分布中的所有数据点。

异常值的识别

全局或点异常值： 偏离分布的单个值/数据点，大多数异常值检测方法通常旨在检测点/全局异常值。

**集合异常值：**当一组数据点偏离分布时，称为集合异常值。根据特定领域来解释它们的相关性是完全主观的。此外，集合异常值表明新现象或发展的形成。

**上下文异常值：**这些是基于对其相关性的解释的特定条件，例如语音识别技术中的单一背景噪声。

图1：点/全局或集体异常值

为了便于理解，我举了一个例子：关于三年内废钢销售的真实案例研究。

离群值的真实案例

考虑到 2018 年至 2022 年在印度各地销售的钢板废品率 (Rs/Kg) 的真实情况，我们已捕获以了解统计数据并预测未来的价格。尽管如此，在此之前，作为数据清理过程的一部分，我们希望了解异常值的存在及其相应的权重。

导入重要库以加载数据集并进行进一步分析：

import pandas as pd  
import numpy as np  
import matplotlib.pyplot as plt  
import seaborn as sns  
import scipy.stats as st  
%matplotlib inline  
import warnings  
warnings.filterwarnings('ignore')

df=pdf.read_excel("scrap_data.xlsx", skiprows=2)  
df.head(), print('shape of data:',df.shape)

为了了解趋势，我尝试在两个主要的自变量（‘Scrap Rate’ and ‘Scrap Weight’）上绘制线图，并参考其销售日期。

plt.figure(figsize =(15,5))  
plt.subplot(1,2,1)  
sns.lineplot(x=df['Job Start Date'], y=df['Rate in Rs./Kg.'], color='r')  
  
plt.title("Steel Scrap Rate (Rs/Kg)", fontsize=20)  
plt.xlabel('Date')  
  
plt.subplot(1,2,2)  
sns.lineplot(x=df['Job Start Date'], y=df['Scrape Sale Qty.'], color='b')  
  
plt.title("Steel Scrap Weight (Rs/Kg)", fontsize=20)  
plt.xlabel('Date')

从废品率特征的趋势来看，我们了解到超过 120 Rs/kg 的费率突然飙升，这表明了异常情况的产生，因为一般来说，废品率必须相同并且逐渐增加或减少。但是，就废品重量而言，根据建设项目的规模，在项目结束时产生的废品量随时可能高或低。

让我们尝试应用检测和处理异常值的不同方法。

四分位间距 (IQR)

IQR 通过将数据集分成四个相等的四分位数来测量变异性。首先，将整个数据按升序排序，然后将其分成四个相等的四分位数，分别称为 Q1、Q2、Q3 和 Q4，可以使用以下等式计算。当数据形成偏态分布时，IQR 方法最适合。

第一个四分位数 (Q1) 将最小的 25% 的值与其他 75% 的较大值相除。

Q1 = (n+1)/4 排名值（第 25 个百分位）

第三分位数 (Q3) 将最小的 75% 与最大的 25% 相除。

Q3 = 3(n+1)/4 排名值（第 75 个百分位）

IQR（分位数范围）= Q3– Q1

下限 = Q1 – 1.5 x IQR

上限 = Q3 + 1.5 x IQR

因此，可以将异常值视为给定数据集中大于上限 (Q3+1.5*IQR) 且小于下限 (Q1-1.5*IQR) 的任何值。

让我们绘制箱线图以了解异常值的存在；

plt.figure(figsize=(15,5))  
plt.subplot(1,2,1)

sns.boxplot(df['Scrape Sale Qty.'])  
plt.xticks(fontsize = (12))  
plt.xlabel('Steel-Scrap Weight (in Kgs)')  
plt.legend (title="Steel Scrap Weight", fontsize=10, title_fontsize=15)

plt.subplot(1,2,2)  
sns.boxplot(df['Rate in Rs./Kg.'])  
plt.xlabel('Steel Scrap Rate Rs/kg')  
plt.xticks(fontsize =(12));  
plt.legend (title="Steel Scrap Rate", fontsize=10, title_fontsize=15);

为了使计算更快，我创建了一个函数来导出四分位数范围 (IQR)、下限和上限，并添加了分别删除它们或用上限值或下限值填充它们的条件。

def identifying_treating_outliers(df,col,remove_or_fill_with_quartile):  
  q1=df[col].quantile(0.25)  
  q3=df[col].quantile(0.75)  
  iqr=q3-q1  
  
  lower_fence=q1-1.5*(iqr)  
  upper_fence=q3+1.5*(iqr)  
  
  print('Lower Fence;', lower_fence)  
  print('Upper Fence:', upper_fence)  
  print('Total number of outliers are left:', df[df[col]  upper_fence].shape[0])  
  
  if remove_or_fill_with_quartile=="drop":  
    df.drop(df.loc[df[col]<lower_fence].index,inplace=True)  
    df.drop(df.loc[df[col]>upper_fence].index,inplace=True)  
  
  elif remove_or_fill_with_quartile=="fill":  
    df[col] = np.where(df[col] < lower_fence, lower_fence, df[col])  
    df[col] = np.where(df[col] > upper_fence, upper_fence, df[col])

将函数应用于 Scrap Rate 和 Scrap Weight 列：

identifying_treating_outliers(df,'Scrape Sale Qty.','drop')  
identifying_treating_outliers(df,'Rate in Rs./Kg.','drop')

应用函数前的 DF 形状 : (1001, 5)

应用函数后的 DF 形状 : (925, 5)

在应用 ‘indentifying_treating_outliers’ 函数后绘制箱线图以检查异常值的状态：

plt.figure(figsize=(15,5))

plt.subplot(1,2,1)  
sns.boxplot(df['Scrape Sale Qty.'])  
plt.xticks(fontsize = (12))  
plt.xlabel('Steel-Scrap Weight (in Kgs)')  
plt.legend (title="Steel Scrap Weight", fontsize=10, title_fontsize=15)

plt.subplot(1,2,2)  
sns.boxplot(df['Rate in Rs./Kg.'])  
plt.xlabel('Steel Scrap Rate Rs/kg')  
plt.xticks(fontsize =(12));  
plt.legend (title="Steel Scrap Rate", fontsize=10, title_fontsize=15);

使用 IQR 方法，我们分别从废品率 (Rate > 34 Rs/kg) 和废品重量 (>1503 kg) 中删除了 15 个数据点和 65 个数据点。删除的观察总数为 76。

Z 分数法

值的 Z 分数是该值与平均值之间的差值除以标准差。如果特定数据点的 Z 分数值小于 -3 或大于 +3，则 Z 分数有助于通过值识别异常值。Z 分数可以在数学上表示为；

x=特定值， μ=平均值， σ=标准偏差

下图表示使用 Z 分数将数据从正态分布转换为标准正态分布，此处给出了参考文献。

在我们的数据集中，我们将对 Zscore 大于 +3 且小于 -3 的异常值应用 Zscore。只需几行代码就可以帮助我们获得 Zscore，我们可以使用分布图（之前和之后）看到差异。

# Applying Zscore in Scrap Rate column defining dataframe by dfn  
zr = st.zscore(df['Rate in Rs./Kg.'])  
dfn = df[(zr-3)]  
  
# Applying Zscore in Steel Weight Column defining dataframe by dfnf  
zw= st.zscore(dfn['Scrape Sale Qty.'])  
dfnf = dfn[(zw-3)]

plt.figure(figsize=(12,5))

plt.subplot(1,2,1)  
sns.distplot(df['Rate in Rs./Kg.'])  
plt.title('Z Score Plot Before Removing Outlier',fontsize=15)

plt.subplot(1,2,2)  
sns.distplot(st.zscore(dfn['Rate in Rs./Kg.']))  
plt.title('Z Score Plot After Removing Outlier',fontsize=15)

我们的数据形成了一个正偏态分布（偏度值 - 0.874），在上述曲线中，该分布不能被视为近似正态分布。对比应用Zscore前后显示的曲线图，可以看到显著的改善。

print('before df shape', df.shape)  
print('After df shape for Observation dropped in Scrap Rate', dfn.shape)  
print('After df shape for observation dropped in weight', dfnf.shape)

使用 Z Score 方法，在 Scrap Rate 和 Scrap Weight 列中，我们删除了 Zscore -3 的 21 个数据点（3 个来自 Scrap Rate列，18 个来自 Scrap Weight列）。

局部异常值查找器 (LOF)

Local Outlier Finder 是一种无监督机器学习技术，用于根据数据点的最近邻域密度检测异常值，并且在数据集的分布（密度）不同时效果很好。LOF 基本上考虑了 K 距离（点之间的距离）和 K 邻居（点集位于 K 距离（半径）的圆内）。

Lof 考虑了两个主要参数：

(1) n_neighbors：默认值为 20 的邻居数

(2) Contamination：给定数据集中异常值的比例，可以设置为“auto”或浮点值 (0, 0.02 , 0.005)。

导入重要库并定义模型

from sklearn.neighbors import LocalOutlierFactor

d2 = df.values #converting the df into numpy array

lof = LocalOutlierFactor(n_neighbors=20, contamination='auto')  
good = lof.fit_predict(d2) == 1  
plt.figure(figsize=(10,5))  
plt.scatter(d2[good, 1], d2[good, 0], s=2, label="Inliers", color="#4CAF50")  
plt.scatter(d2[~good, 1], d2[~good, 0], s=8, label="Outliers", color="#F44336")  
plt.title('Outlier Detection using Local Outlier Factor', fontsize=20)  
plt.legend (fontsize=15, title_fontsize=15)

在我们的例子中，我将污染设置为“auto”（参见上图）以查看结果，发现 LOF 的性能不佳，因为我的数据传播（密度）没有太大偏差。此外，我尝试了 0.005、0.01、0.02、0.05 和 0.09 的不同污染值，但性能并不是那么好。

用于噪声应用的基于密度的空间聚类 (DBSCAN)

当我们的数据集足够大并且具有多个数字特征（多变量）时，使用 IQR、Zscore 或 LOF 处理异常值变得很困难。在这里，SK-Learn 库 DBSCAN 可以帮助我们处理多变量数据集的异常值。

DBSCAN 考虑两个主要参数（如下所述）与最近的数据点形成一个集群，并根据高密度或低密度区域检测 Inliers 或 outliers。

(1) Epsilon（我们可以根据k-距离图计算的数据点的半径）

(2) Min_samples（Epsilon（半径）中要考虑的数据点数量，取决于领域知识或专家建议）

然而，在我们的例子中，我们没有超过 5 个特征，我们只是从中选择了两个重要的数字特征来应用我们的学习并对其进行可视化。由于目前技术和人脑在完全可视化多维数据方面的限制，我们正在将 DBSCAN 应用于我们的数据集。

导入库并拟合模型。为了消除数据集中的噪声，我们使用 Min-Max Scaler 对数据进行了归一化。

from sklearn.cluster import DBSCAN  
from sklearn.preprocessing import MinMaxScaler  
mms = MinMaxScaler()  
df[['Scrape Sale Qty.','Rate in Rs./Kg.']] = mms.fit_transform(df[['Scrape Sale Qty.','Rate in Rs./Kg.']])  
df.head()  
from sklearn.neighbors import NearestNeighbors  
neigh = NearestNeighbors(n_neighbors=2)  
nbrs = neigh.fit(df[['Scrape Sale Qty.', 'Rate in Rs./Kg.']])  
distances, indices = nbrs.kneighbors(df[['Rate in Rs./Kg.', 'Rate in Rs./Kg.']])  
# Plotting K-distance Graph  
distances = np.sort(distances, axis=0)  
distances = distances[:,1]

plt.figure(figsize=(8,5))  
plt.plot(distances)  
plt.title('K-distance Graph',fontsize=20)  
plt.xlabel('Data Points sorted by distance',fontsize=14)  
plt.ylabel('Epsilon',fontsize=14)  
plt.show()

上图显示最大 Epsilon 值接近 0.08，对于样本量（我们希望在每个数据点的 epsilon 值内的点数），我们现在选择 10。

model = DBSCAN(eps = 0.08, min_samples = 10).fit(data)  
colors = model.labels_  
plt.figure(figsize=(10,7))  
plt.scatter(df['Rate in Rs./Kg.'], df['Scrape Sale Qty.'], c = colors)  
plt.title('Outliers Detection using DBSCAN',fontsize=20)

DBSCAN 技术使用基于密度的空间聚类有效地检测了显着的异常值，如下图所示。

结论

在这里，我们经历了从数据集中检测异常值的四种方法，在真实世界数据集上找到了它们的实现，并观察了不同的结果。然而，这些方法的应用还取决于数据集的大小、分布和上下文（单变量、双变量或多变量）。所有这些技术都有一定的优点和缺点。

IQR 是最简单和最能用数学解释的技术。单变量和双变量数据可以很好地识别异常值，因为它将中值视为离散值的度量来检测极值，但在处理大量数字特征时仅限于多变量数据集。

在我们的案例中，我们通过定义一个检测和处理异常值的函数来应用它，并将 76 个丢弃的数据点检测为异常值。
Zscore 衡量原始数据与标准差单位中的平均值的距离，并且比其在正态分布数据集中的应用具有优势，但是当数据集不对称（左偏或右偏）时，Zscore 技术可能会导致错误的结果.

我们将其应用于我们的数据集，该数据集似乎略微偏斜，并检测到 21 个数据点作为潜在的异常值。
LOF（局部Ourliter Factor）在数据分布（密度）在整个空间中分布不均匀时具有优势，因为它根据与其他全局方法难以识别的邻近密集区域的接近程度来识别异常值。

然而，可解释性是一个问题，因为很难说在什么阈值下数据点可以被视为异常值。
DBSCAN 不需要定义多个集群，并且能够检测数据分布任意分布且线性不可分的异常。在处理不同密度的数据传播时，它有其自身的局限性。在我们的案例中，它检测到 16 个数据点作为潜在的异常值。

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。