bebr

Python中实现过采样和下采样

Imblearn package study
准备知识
- 1 Compressed Sparse RowsCSR 压缩稀疏的行
过采样Over-sampling
- 1 实用性的例子
  - 11 朴素随机过采样
  - 12 从随机过采样到SMOTE与ADASYN
  - 13 SMOTE的变体
  - 14 数学公式
下采样Under-sampling
- 1 原型生成prototype generation
- 2 原型选择prototype selection
  - 21 Controlled under-sampling techniques
  - 22 Cleaning under-sampling techniques
    - 221 Tomeks links
    - 222 Edited data set using nearest neighbours
    - 223 Condensed nearest neighbors and derived algorithms
    - 224 Instance hardness threshold
过采样与下采样的结合
Ensemble的例子
- 1 例子
- 2 Chaining ensemble of samplers and estimators
数据载入
- 1 不平衡数据集
- 2 生成不平衡数据
参考资料

转自：https://blog.csdn.net/qq_27802435/article/details/81201357

Imblearn package study

1. 准备知识

Sparse input

For sparse input the data is converted to the Compressed Sparse Rows representation (see scipy.sparse.csr_matrix) before being fed to the sampler. To avoid unnecessary memory copies, it is recommended to choose the CSR representation upstream.

1.1 Compressed Sparse Rows(CSR) 压缩稀疏的行

稀疏矩阵中存在许多0元素, 按矩阵A进行存储会占用很大的空间(内存).

CSR方法采取按行压缩的办法, 将原始的矩阵用三个数组进行表示:


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       data = np.
       
       
       
       array([
       
       
       
       1, 
       
       
       
       2, 
       
       
       
       3, 
       
       
       
       4, 
       
       
       
       5, 
       
       
       
       6])
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       indices = np.
       
       
       
       array([
       
       
       
       0, 
       
       
       
       2, 
       
       
       
       2, 
       
       
       
       0, 
       
       
       
       1, 
       
       
       
       2])
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       indptr = np.
       
       
       
       array([
       
       
       
       0, 
       
       
       
       2, 
       
       
       
       3, 
       
       
       
       6])

data数组: 存储着矩阵A中所有的非零元素;

indices数组: data数组中的元素在矩阵A中的列索引

indptr数组: 存储着矩阵A中每行第一个非零元素在data数组中的索引.


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from scipy 
       
       
       
       import sparse
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       mtx = sparse.csr_matrix((data,
       
       
       
       indices,indptr),shape=(
       
       
       
       3,
       
       
       
       3))
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       mtx.todense()
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       Out[
       
       
       
       27]: 
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       matrix([[
       
       
       
       1, 
       
       
       
       0, 
       
       
       
       2],
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
               [
       
       
       
       0, 
       
       
       
       0, 
       
       
       
       3],
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
               [
       
       
       
       4, 
       
       
       
       5, 
       
       
       
       6]])

为什么会有针对不平衡数据的研究? 当我们的样本数据中, 正负样本的数据占比极其不均衡的时候, 模型的效果就会偏向于多数类的结果. 具体的可参照官网利用支持向量机进行可视化不同正负样本比例情况下的模型分类结果.

2. 过采样(Over-sampling)

2.1 实用性的例子

2.1.1 朴素随机过采样

针对不平衡数据, 最简单的一种方法就是生成少数类的样本, 这其中最基本的一种方法就是: 从少数类的样本中进行随机采样来增加新的样本, RandomOverSampler 函数就能实现上述的功能.


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from sklearn.datasets 
       
       
       
       import make_classification
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from collections 
       
       
       
       import Counter
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       X, y = make_classification(n_samples=
       
       
       
       5000, n_features=
       
       
       
       2, n_informative=
       
       
       
       2,
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
                                  n_redundant=
       
       
       
       0, n_repeated=
       
       
       
       0, n_classes=
       
       
       
       3,
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
                                  n_clusters_per_class=
       
       
       
       1,
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
                                  weights=[
       
       
       
       0.01, 
       
       
       
       0.05, 
       
       
       
       0.94],
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
                                  class_sep=
       
       
       
       0.8, random_state=
       
       
       
       0)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       Counter(y)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       Out[
       
       
       
       10]: Counter({
       
       
       
       0: 
       
       
       
       64, 
       
       
       
       1: 
       
       
       
       262, 
       
       
       
       2: 
       
       
       
       4674})
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from imblearn.over_sampling 
       
       
       
       import RandomOverSampler
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       ros = RandomOverSampler(random_state=
       
       
       
       0)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       X_resampled, y_resampled = ros.fit_sample(X, y)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       sorted(Counter(y_resampled).items())
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       Out[
       
       
       
       13]:
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       [(
       
       
       
       0, 
       
       
       
       4674), (
       
       
       
       1, 
       
       
       
       4674), (
       
       
       
       2, 
       
       
       
       4674)]

以上就是通过简单的随机采样少数类的样本, 使得每类样本的比例为1:1:1.

2.1.2 从随机过采样到`SMOTE`与`ADASYN`

相对于采样随机的方法进行过采样, 还有两种比较流行的采样少数类的方法: (i) Synthetic Minority Oversampling Technique (SMOTE); (ii) Adaptive Synthetic (ADASYN) .

SMOTE: 对于少数类样本a, 随机选择一个最近邻的样本b, 然后从a与b的连线上随机选取一个点c作为新的少数类样本;

ADASYN: 关注的是在那些基于K最近邻分类器被错误分类的原始样本附近生成新的少数类样本


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from imblearn.over_sampling import SMOTE, ADASYN
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       X_resampled_smote, y_resampled_smote = SMOTE().fit_sample(X, y)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       sorted(Counter(y_resampled_smote).items())
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       Out[
       
       
       
       29]:
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       [
       
       
       
       (0, 4674), (1, 4674), (2, 4674)]
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       X_resampled_adasyn, y_resampled_adasyn = ADASYN().fit_sample(X, y)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       sorted(Counter(y_resampled_adasyn).items())
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       Out[
       
       
       
       30]:
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       [
       
       
       
       (0, 4674), (1, 4674), (2, 4674)]

2.1.3 `SMOTE`的变体

相对于基本的SMOTE算法, 关注的是所有的少数类样本, 这些情况可能会导致产生次优的决策函数, 因此SMOTE就产生了一些变体: 这些方法关注在最优化决策函数边界的一些少数类样本, 然后在最近邻类的相反方向生成样本.

SMOTE函数中的kind参数控制了选择哪种变体, (i) borderline1, (ii) borderline2, (iii) svm:


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from imblearn.over_sampling 
       
       
       
       import SMOTE, ADASYN
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       X_resampled, y_resampled = SMOTE(kind=
       
       
       
       'borderline1').fit_sample(X, y)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       print sorted(Counter(y_resampled).items())
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       Out[
       
       
       
       31]:
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       [(
       
       
       
       0, 
       
       
       
       4674), (
       
       
       
       1, 
       
       
       
       4674), (
       
       
       
       2, 
       
       
       
       4674)]

2.1.4 数学公式

SMOTE算法与ADASYN都是基于同样的算法来合成新的少数类样本: 对于少数类样本a, 从它的最近邻中选择一个样本b, 然后在两点的连线上随机生成一个新的少数类样本, 不同的是对于少数类样本的选择.

原始的SMOTE: kind='regular' , 随机选取少数类的样本.

The borderline SMOTE: kind='borderline1' or kind='borderline2'

此时, 少数类的样本分为三类: (i) 噪音样本(noise), 该少数类的所有最近邻样本都来自于不同于样本a的其他类别; (ii) 危险样本(in danger), 至少一半的最近邻样本来自于同一类(不同于a的类别); (iii) 安全样本(safe), 所有的最近邻样本都来自于同一个类.

这两种类型的SMOTE使用的是危险样本来生成新的样本数据, 对于 Borderline-1 SMOTE, 最近邻中的随机样本b与该少数类样本a来自于不同的类; 不同的是, 对于 Borderline-2 SMOTE , 随机样本b可以是属于任何一个类的样本;

SVM SMOTE: kind='svm', 使用支持向量机分类器产生支持向量然后再生成新的少数类样本.

3. 下采样(Under-sampling)

3.1 原型生成(prototype generation)

给定数据集S, 原型生成算法将生成一个子集S’, 其中|S’| < |S|, 但是子集并非来自于原始数据集. 意思就是说: 原型生成方法将减少数据集的样本数量, 剩下的样本是由原始数据集生成的, 而不是直接来源于原始数据集.

ClusterCentroids函数实现了上述功能: 每一个类别的样本都会用K-Means算法的中心点来进行合成, 而不是随机从原始样本进行抽取.


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from imblearn.under_sampling 
       
       
       
       import ClusterCentroids
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       cc = ClusterCentroids(random_state=
       
       
       
       0)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       X_resampled, y_resampled = cc.fit_sample(X, y)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       print sorted(Counter(y_resampled).items())
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       Out[
       
       
       
       32]:
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       [(
       
       
       
       0, 
       
       
       
       64), (
       
       
       
       1, 
       
       
       
       64), (
       
       
       
       2, 
       
       
       
       64)]

ClusterCentroids函数提供了一种很高效的方法来减少样本的数量, 但需要注意的是, 该方法要求原始数据集最好能聚类成簇. 此外, 中心点的数量应该设置好, 这样下采样的簇能很好地代表原始数据.

3.2 原型选择(prototype selection)

与原型生成不同的是, 原型选择算法是直接从原始数据集中进行抽取. 抽取的方法大概可以分为两类: (i) 可控的下采样技术(the controlled under-sampling techniques) ; (ii) the cleaning under-sampling techniques(不好翻译, 就放原文, 清洗的下采样技术?). 第一类的方法可以由用户指定下采样抽取的子集中样本的数量; 第二类方法则不接受这种用户的干预.

3.2.1 Controlled under-sampling techniques

RandomUnderSampler函数是一种快速并十分简单的方式来平衡各个类别的数据: 随机选取数据的子集.


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from imblearn.under_sampling 
       
       
       
       import RandomUnderSampler
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       rus = RandomUnderSampler(random_state=
       
       
       
       0)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       X_resampled, y_resampled = rus.fit_sample(X, y)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       print sorted(Counter(y_resampled).items())
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       Out[
       
       
       
       33]:
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       [(
       
       
       
       0, 
       
       
       
       64), (
       
       
       
       1, 
       
       
       
       64), (
       
       
       
       2, 
       
       
       
       64)]

通过设置RandomUnderSampler中的replacement=True参数, 可以实现自助法(boostrap)抽样.


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       import numpy 
       
       
       
       as np
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       np.vstack({tuple(row) 
       
       
       
       for row 
       
       
       
       in X_resampled}).shape
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       Out[
       
       
       
       34]:
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       (
       
       
       
       192L, 
       
       
       
       2L)

很明显, 使用默认参数的时候, 采用的是不重复采样;


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from imblearn.under_sampling 
       
       
       
       import RandomUnderSampler
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       rus = RandomUnderSampler(random_state=
       
       
       
       0, replacement=
       
       
       
       True)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       X_resampled, y_resampled = rus.fit_sample(X, y)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       print sorted(Counter(y_resampled).items())
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       Out[
       
       
       
       33]:
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       [(
       
       
       
       0, 
       
       
       
       64), (
       
       
       
       1, 
       
       
       
       64), (
       
       
       
       2, 
       
       
       
       64)]
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       np.vstack({tuple(row) 
       
       
       
       for row 
       
       
       
       in X_resampled}).shape
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       Out[
       
       
       
       34]:
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       (
       
       
       
       181L, 
       
       
       
       2L)

NearMiss函数则添加了一些启发式(heuristic)的规则来选择样本, 通过设定version参数来实现三种启发式的规则.


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from imblearn.under_sampling 
       
       
       
       import NearMiss
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       nm1 = NearMiss(random_state=
       
       
       
       0, version=
       
       
       
       1)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       X_resampled_nm1, y_resampled = nm1.fit_sample(X, y)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       print sorted(Counter(y_resampled).items())
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       Out[
       
       
       
       35]:
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       [(
       
       
       
       0, 
       
       
       
       64), (
       
       
       
       1, 
       
       
       
       64), (
       
       
       
       2, 
       
       
       
       64)]

下面通过一个例子来说明这三个启发式的选择样本的规则, 首先我们假设正样本是需要下采样的(多数类样本), 负样本是少数类的样本.

NearMiss-1: 选择离N个近邻的负样本的平均距离最小的正样本;

NearMiss-2: 选择离N个负样本最远的平均距离最小的正样本;

NearMiss-3: 是一个两段式的算法. 首先, 对于每一个负样本, 保留它们的M个近邻样本; 接着, 那些到N个近邻样本平均距离最大的正样本将被选择.

3.2.2 Cleaning under-sampling techniques

3.2.2.1 Tomek’s links

TomekLinks : 样本x与样本y来自于不同的类别, 满足以下条件, 它们之间被称之为TomekLinks; 不存在另外一个样本z, 使得d(x,z) < d(x,y) 或者 d(y,z) < d(x,y)成立. 其中d(.)表示两个样本之间的距离, 也就是说两个样本之间互为近邻关系. 这个时候, 样本x或样本y很有可能是噪声数据, 或者两个样本在边界的位置附近.

TomekLinks函数中的auto参数控制Tomek’s links中的哪些样本被剔除. 默认的ratio='auto' 移除多数类的样本, 当ratio='all'时, 两个样本均被移除.

3.2.2.2 Edited data set using nearest neighbours

EditedNearestNeighbours这种方法应用最近邻算法来编辑(edit)数据集, 找出那些与邻居不太友好的样本然后移除. 对于每一个要进行下采样的样本, 那些不满足一些准则的样本将会被移除; 他们的绝大多数(kind_sel='mode')或者全部(kind_sel='all')的近邻样本都属于同一个类, 这些样本会被保留在数据集中.


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       print sorted(Counter(y).items())
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from imblearn.under_sampling 
       
       
       
       import EditedNearestNeighbours
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       enn = EditedNearestNeighbours(random_state=
       
       
       
       0)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       X_resampled, y_resampled = enn.fit_sample(X, y)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       print sorted(Counter(y_resampled).items())
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       Out[
       
       
       
       36]:
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       [(
       
       
       
       0, 
       
       
       
       64), (
       
       
       
       1, 
       
       
       
       262), (
       
       
       
       2, 
       
       
       
       4674)]
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       [(
       
       
       
       0, 
       
       
       
       64), (
       
       
       
       1, 
       
       
       
       213), (
       
       
       
       2, 
       
       
       
       4568)]

在此基础上, 延伸出了RepeatedEditedNearestNeighbours算法, 重复基础的EditedNearestNeighbours算法多次.


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from imblearn.under_sampling 
       
       
       
       import RepeatedEditedNearestNeighbours
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       renn = RepeatedEditedNearestNeighbours(random_state=
       
       
       
       0)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       X_resampled, y_resampled = renn.fit_sample(X, y)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       print sorted(Counter(y_resampled).items())
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       Out[
       
       
       
       37]:
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       [(
       
       
       
       0, 
       
       
       
       64), (
       
       
       
       1, 
       
       
       
       208), (
       
       
       
       2, 
       
       
       
       4551)]

与RepeatedEditedNearestNeighbours算法不同的是, ALLKNN算法在进行每次迭代的时候, 最近邻的数量都在增加.


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from imblearn.under_sampling 
       
       
       
       import AllKNN
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       allknn = AllKNN(random_state=
       
       
       
       0)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       X_resampled, y_resampled = allknn.fit_sample(X, y)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       print sorted(Counter(y_resampled).items())
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       Out[
       
       
       
       38]:
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       [(
       
       
       
       0, 
       
       
       
       64), (
       
       
       
       1, 
       
       
       
       220), (
       
       
       
       2, 
       
       
       
       4601)]

3.2.2.3 Condensed nearest neighbors and derived algorithms

CondensedNearestNeighbour 使用1近邻的方法来进行迭代, 来判断一个样本是应该保留还是剔除, 具体的实现步骤如下:

集合C: 所有的少数类样本;
选择一个多数类样本(需要下采样)加入集合C, 其他的这类样本放入集合S;
使用集合S训练一个1-NN的分类器, 对集合S中的样本进行分类;
将集合S中错分的样本加入集合C;
重复上述过程, 直到没有样本再加入到集合C.


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from imblearn.under_sampling 
       
       
       
       import CondensedNearestNeighbour
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       cnn = CondensedNearestNeighbour(random_state=
       
       
       
       0)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       X_resampled, y_resampled = cnn.fit_sample(X, y)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       print sorted(Counter(y_resampled).items())
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       Out[
       
       
       
       39]:
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       [(
       
       
       
       0, 
       
       
       
       64), (
       
       
       
       1, 
       
       
       
       24), (
       
       
       
       2, 
       
       
       
       115)]

显然, CondensedNearestNeighbour方法对噪音数据是很敏感的, 也容易加入噪音数据到集合C中.

因此, OneSidedSelection 函数使用 TomekLinks 方法来剔除噪声数据(多数类样本).


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from imblearn.under_sampling 
       
       
       
       import OneSidedSelection
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       oss = OneSidedSelection(random_state=
       
       
       
       0)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       X_resampled, y_resampled = oss.fit_sample(X, y)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       print(sorted(Counter(y_resampled).items()))
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       Out[
       
       
       
       39]:
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       [(
       
       
       
       0, 
       
       
       
       64), (
       
       
       
       1, 
       
       
       
       174), (
       
       
       
       2, 
       
       
       
       4403)]

NeighbourhoodCleaningRule 算法主要关注如何清洗数据而不是筛选(considering)他们. 因此, 该算法将使用

EditedNearestNeighbours和 3-NN分类器结果拒绝的样本之间的并集.


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from imblearn.under_sampling 
       
       
       
       import NeighbourhoodCleaningRule
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       ncr = NeighbourhoodCleaningRule(random_state=
       
       
       
       0)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       X_resampled, y_resampled = ncr.fit_sample(X, y)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       print sorted(Counter(y_resampled).items())
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       Out[
       
       
       
       39]:
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       [(
       
       
       
       0, 
       
       
       
       64), (
       
       
       
       1, 
       
       
       
       234), (
       
       
       
       2, 
       
       
       
       4666)]

3.2.2.4 Instance hardness threshold

InstanceHardnessThreshold是一种很特殊的方法, 是在数据上运用一种分类器, 然后将概率低于阈值的样本剔除掉.


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from sklearn.linear_model 
       
       
       
       import LogisticRegression
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from imblearn.under_sampling 
       
       
       
       import InstanceHardnessThreshold
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       iht = InstanceHardnessThreshold(random_state=
       
       
       
       0,
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
                                       estimator=LogisticRegression())
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       X_resampled, y_resampled = iht.fit_sample(X, y)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       print(sorted(Counter(y_resampled).items()))
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       Out[
       
       
       
       39]:
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       [(
       
       
       
       0, 
       
       
       
       64), (
       
       
       
       1, 
       
       
       
       64), (
       
       
       
       2, 
       
       
       
       64)]

4. 过采样与下采样的结合

在之前的SMOTE方法中, 当由边界的样本与其他样本进行过采样差值时, 很容易生成一些噪音数据. 因此, 在过采样之后需要对样本进行清洗. 这样, 第三节中涉及到的TomekLink 与 EditedNearestNeighbours方法就能实现上述的要求. 所以就有了两种结合过采样与下采样的方法: (i) SMOTETomek and (ii) SMOTEENN.


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from imblearn.combine 
       
       
       
       import SMOTEENN
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       smote_enn = SMOTEENN(random_state=
       
       
       
       0)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       X_resampled, y_resampled = smote_enn.fit_sample(X, y)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       print sorted(Counter(y_resampled).items())
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       Out[
       
       
       
       40]:
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       [(
       
       
       
       0, 
       
       
       
       4060), (
       
       
       
       1, 
       
       
       
       4381), (
       
       
       
       2, 
       
       
       
       3502)]
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from imblearn.combine 
       
       
       
       import SMOTETomek
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       smote_tomek = SMOTETomek(random_state=
       
       
       
       0)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       X_resampled, y_resampled = smote_tomek.fit_sample(X, y)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       print sorted(Counter(y_resampled).items())
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       Out[
       
       
       
       40]:
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       [(
       
       
       
       0, 
       
       
       
       4499), (
       
       
       
       1, 
       
       
       
       4566), (
       
       
       
       2, 
       
       
       
       4413)]

5. Ensemble的例子

5.1 例子

一个不均衡的数据集能够通过多个均衡的子集来实现均衡, imblearn.ensemble模块能实现上述功能.

EasyEnsemble 通过对原始的数据集进行随机下采样实现对数据集进行集成.


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from imblearn.ensemble 
       
       
       
       import EasyEnsemble
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       ee = EasyEnsemble(random_state=
       
       
       
       0, n_subsets=
       
       
       
       10)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       X_resampled, y_resampled = ee.fit_sample(X, y)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       print X_resampled.shape
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       print sorted(Counter(y_resampled[
       
       
       
       0]).items())
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       Out[
       
       
       
       40]:
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       (
       
       
       
       10L, 
       
       
       
       192L, 
       
       
       
       2L)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       [(
       
       
       
       0, 
       
       
       
       64), (
       
       
       
       1, 
       
       
       
       64), (
       
       
       
       2, 
       
       
       
       64)]

EasyEnsemble 有两个很重要的参数: (i) n_subsets 控制的是子集的个数 and (ii) replacement 决定是有放回还是无放回的随机采样.

与上述方法不同的是, BalanceCascade(级联平衡)的方法通过使用分类器(estimator参数)来确保那些被错分类的样本在下一次进行子集选取的时候也能被采样到. 同样, n_max_subset 参数控制子集的个数, 以及可以通过设置bootstrap=True来使用bootstraping(自助法).


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from imblearn.ensemble 
       
       
       
       import BalanceCascade
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from sklearn.linear_model 
       
       
       
       import LogisticRegression
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       bc = BalanceCascade(random_state=
       
       
       
       0,
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
                           estimator=LogisticRegression(random_state=
       
       
       
       0),
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
                           n_max_subset=
       
       
       
       4)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       X_resampled, y_resampled = bc.fit_sample(X, y)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       print X_resampled.shape
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       print sorted(Counter(y_resampled[
       
       
       
       0]).items())
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       Out[
       
       
       
       41]:
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       (
       
       
       
       4L, 
       
       
       
       192L, 
       
       
       
       2L)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       [(
       
       
       
       0, 
       
       
       
       64), (
       
       
       
       1, 
       
       
       
       64), (
       
       
       
       2, 
       
       
       
       64)]

5.2 Chaining ensemble of samplers and estimators

在集成分类器中, 装袋方法(Bagging)在不同的随机选取的数据集上建立了多个估计量. 在scikit-learn中这个分类器叫做BaggingClassifier. 然而, 该分类器并不允许对每个数据集进行均衡. 因此, 在对不均衡样本进行训练的时候, 分类器其实是有偏的, 偏向于多数类.


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from sklearn.model_selection 
       
       
       
       import train_test_split
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from sklearn.metrics 
       
       
       
       import confusion_matrix
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from sklearn.ensemble 
       
       
       
       import BaggingClassifier
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from sklearn.tree 
       
       
       
       import DecisionTreeClassifier
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=
       
       
       
       0)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       bc = BaggingClassifier(base_estimator=DecisionTreeClassifier(),
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
                              random_state=
       
       
       
       0)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       bc.fit(X_train, y_train) 
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       y_pred = bc.predict(X_test)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       confusion_matrix(y_test, y_pred)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       Out[
       
       
       
       35]:
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       array([[   
       
       
       
       0,    
       
       
       
       0,   
       
       
       
       12],
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
              [   
       
       
       
       0,    
       
       
       
       0,   
       
       
       
       59],
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
              [   
       
       
       
       0,    
       
       
       
       0, 
       
       
       
       1179]], dtype=int64)

BalancedBaggingClassifier 允许在训练每个基学习器之前对每个子集进行重抽样. 简而言之, 该方法结合了EasyEnsemble采样器与分类器(如BaggingClassifier)的结果.


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from imblearn.ensemble 
       
       
       
       import BalancedBaggingClassifier
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       bbc = BalancedBaggingClassifier(base_estimator=DecisionTreeClassifier(),
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
                                       ratio=
       
       
       
       'auto',
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
                                       replacement=
       
       
       
       False,
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
                                       random_state=
       
       
       
       0)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       bbc.fit(X, y) 
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       y_pred = bbc.predict(X_test)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       confusion_matrix(y_test, y_pred)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       Out[
       
       
       
       39]:
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       array([[  
       
       
       
       12,    
       
       
       
       0,    
       
       
       
       0],
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
              [   
       
       
       
       0,   
       
       
       
       55,    
       
       
       
       4],
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
              [  
       
       
       
       68,   
       
       
       
       53, 
       
       
       
       1058]], dtype=int64)

6. 数据载入

imblearn.datasets 包与sklearn.datasets 包形成了很好的互补. 该包主要有以下两个功能: (i)提供一系列的不平衡数据集来实现测试; (ii) 提供一种工具将原始的平衡数据转换为不平衡数据.

6.1 不平衡数据集

fetch_datasets 允许获取27个不均衡且二值化的数据集.


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from collections 
       
       
       
       import Counter
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from imblearn.datasets 
       
       
       
       import fetch_datasets
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       ecoli = fetch_datasets()[
       
       
       
       'ecoli']
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       ecoli.data.shape
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       print sorted(Counter(ecoli.target).items())
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       Out[
       
       
       
       40]:
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       [(
       
       
       
       -1, 
       
       
       
       301), (
       
       
       
       1, 
       
       
       
       35)]

6.2 生成不平衡数据

make_imbalance 方法可以使得原始的数据集变为不平衡的数据集, 主要是通过ratio参数进行控制.


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from sklearn.datasets import load_iris
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from imblearn.datasets import make_imbalance
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       iris = load_iris()
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       ratio = {
       
       
       
       0: 
       
       
       
       20, 
       
       
       
       1: 
       
       
       
       30, 
       
       
       
       2: 
       
       
       
       40}
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       X_imb, y_imb = make_imbalance(iris.data, iris.target, ratio=ratio)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       sorted(Counter(y_imb).items())
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       Out[
       
       
       
       37]:
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       [
       
       
       
       (0, 20), (1, 30), (2, 40)]
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       #当类别不指定时, 所有的数据集均导入
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       ratio = {
       
       
       
       0: 
       
       
       
       10}
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       X_imb, y_imb = make_imbalance(iris.data, iris.target, ratio=ratio)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       sorted(Counter(y_imb).items())
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       Out[
       
       
       
       38]:
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       [
       
       
       
       (0, 10), (1, 50), (2, 50)]
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       #同样亦可以传入自定义的比例函数
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       def ratio_multiplier(y):
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
           multiplier = {
       
       
       
       0: 
       
       
       
       0.5, 
       
       
       
       1: 
       
       
       
       0.7, 
       
       
       
       2: 
       
       
       
       0.95}
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
           target_stats = Counter(y)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
          
       
       
       
       for key, 
       
       
       
       value 
       
       
       
       in target_stats.items():
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
               target_stats[key] = 
       
       
       
       int(
       
       
       
       value * multiplier[key])
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
          
       
       
       
       return target_stats
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       X_imb, y_imb = make_imbalance(iris.data, iris.target,
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
                                     ratio=ratio_multiplier)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
       
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       sorted(Counter(y_imb).items())
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       Out[
       
       
       
       39]:
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       [
       
       
       
       (0, 25), (1, 35), (2, 47)]

以上就是在研究不平衡(不均衡)数据时所查询的一些资料, 内容更多的是来自于Imblearn包的官方用户手册, 主要涉及一些下采样、过采样的方法与技术.

你可能感兴趣的:(机器学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
Python前沿技术：机器学习与人工智能 4.0啊 Python 人工智能 python 机器学习
Python前沿技术：机器学习与人工智能一、引言随着科技的飞速发展，机器学习和人工智能（AI）已经成为了计算机科学领域的热门话题。Python作为一门易学易用且功能强大的编程语言，已经成为了这两个领域的首选语言之一。本文将深入探讨Python在机器学习和人工智能领域的应用，以及一些前沿技术和工具。二、Python机器学习基础2.1机器学习概述机器学习是人工智能（AI）的一个关键子集，它的核心在于让
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
Python 初学者入门必知： Anaconda是什么？有什么作用？怎么使用？懒大王爱吃狼 Python基础 python 开发语言 python基础 python学习 anaconda anaconda安装 python教程
初学者在学习Python时，经常看到的一个名字是Anaconda。究竟什么是Anaconda，为什么它如此受欢迎？在这篇文章中，我们将探讨Anaconda，了解Anaconda的从安装到使用的。Anaconda是一个免费开源的Python和R编程发行版，包含上千个适用于数据科学和机器学习的包。同时，配备了Spyder和Jupyternotebook等工具，初学者可以使用它们来学习Python，使用
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
一切皆是映射：AI的去中心化：区块链技术的融合 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
一切皆是映射：AI的去中心化：区块链技术的融合作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：AI，区块链，去中心化，智能合约，共识机制，数据安全，隐私保护，分布式账本技术，机器学习，数据隐私1.背景介绍1.1问题的由来随着人工智能（AI）技术的快速发展，其在各个领域的应用越来越广泛，从自动驾驶、智能医疗到金融服务，AI正在改变着我们的生活。
第五届核磁机器学习班（训练营：2023.6.5~6.17）茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★基于血氧水平依赖的功能磁共振成像(fMRI)技术,利用其数据构建的功能性脑网络后,发现脑并不是一个单纯对外界刺激进行
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1

Python中 实现过采样和下采样