Blanche117

逻辑回归模型：信用卡欺诈分析

逻辑回归案例分析——信用卡欺诈

本次案例为信用卡欺诈数据，一共包含31个自变量，其中因变量Class表示用户在交易中是否发生欺诈行为（1表示欺诈交易，0表示正常交易）。由于数据涉及敏感信息，其中V1~V28自变量做了标准化处理。本次案例涉及到分类问题中类别比例严重失调的情况下应该如何应对，当然主要任务是对0-1样本即正常与异常样本的区分。

类别比例失调如何处理
正负样本的划分

首先是库的导入操作：

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

%matplotlib inline

data = pd.read_csv("creditcard.csv")
data.head(5)

	Time	V1	V2	V3	V4	V5	V6	V7	V8	V9	...	V21	V22	V23	V24	V25	V26	V27	V28	Amount
0	0.0	-1.359807	-0.072781	2.536347	1.378155	-0.338321	0.462388	0.239599	0.098698	0.363787	...	-0.018307	0.277838	-0.110474	0.066928	0.128539	-0.189115	0.133558	-0.021053	149.62
1	0.0	1.191857	0.266151	0.166480	0.448154	0.060018	-0.082361	-0.078803	0.085102	-0.255425	...	-0.225775	-0.638672	0.101288	-0.339846	0.167170	0.125895	-0.008983	0.014724	2.69
2	1.0	-1.358354	-1.340163	1.773209	0.379780	-0.503198	1.800499	0.791461	0.247676	-1.514654	...	0.247998	0.771679	0.909412	-0.689281	-0.327642	-0.139097	-0.055353	-0.059752	378.66
3	1.0	-0.966272	-0.185226	1.792993	-0.863291	-0.010309	1.247203	0.237609	0.377436	-1.387024	...	-0.108300	0.005274	-0.190321	-1.175575	0.647376	-0.221929	0.062723	0.061458	123.50
4	2.0	-1.158233	0.877737	1.548718	0.403034	-0.407193	0.095921	0.592941	-0.270533	0.817739	...	-0.009431	0.798278	-0.137458	0.141267	-0.206010	0.502292	0.219422	0.215153	69.99

5 rows × 31 columns

数据集检测

在本案例中是的数据集是是否有信用卡欺诈的数据集，结合实际情况，应该是正常类占绝大多数，出现信用卡欺诈的类别占少数的，首先我们需要对我们的数据进行检验，看是否满足这样的特征

pd.value_counts()对DataFrame的某一列中具有多少重复的值进行统计，并对不同的值进行计数。使用的时候需要对特定的列进行指定，比如下面的使用中指定了Class列，并且进行排序。

#使用注释掉的代码可以直接输出列的情况：
# print(data["Class"].value_counts())

count_classes = pd.value_counts(data["Class"], sort = True).sort_index()
count_classes.plot(kind = "bar")
plt.title("Fruad class histogram")
plt.xlabel("Class")
plt.ylabel("Frequancy")

Text(0, 0.5, 'Frequancy')

样本数量均衡化处理

可以看出正常样本的数量时明显多于异常样本的，即样本的数据是极度不均衡的，需要进行处理。

面对数据不均衡时我们往往采取两种解决方法：

过采样：对少数样本进行数据生成，使少数的样本变得与多数样本数量相当
下采样：在多数的样本中取出和少数样本规模相同的子样本作为分类的数据对象，这样使得两个样本同样的少

后面会针对两种不同的方法分别进行分析

样本特征的归一化处理

此外，在上面的数据中我们也可以发现Amount列的数据的大小浮动是比较大的，有的是几百，有的数据是个位数，amount和前面的V1-V28这些特征在未说明的情况下对结果产生的影响是相当的，如果不进行处理，机器学习算法的结果可能对较大的数予以较大的权重赋值，进入误区。所以在机器学习中我们要保证特征之间的分布差异处于一个相当的范围内。

比如我们可以看到前面的V1-V28这些特征，他们大概分布在-1-1这样的区间内，所以我们最好也要对amount的数值进行归一化处理。

from sklearn.preprocessing import StandardScaler

#生成新的特征
data['normAmount'] = StandardScaler().fit_transform(data['Amount'].values.reshape(-1, 1))
#去除不需要的特征
data = data.drop(["Time", "Amount"], axis=1)
data.head()

	V1	V2	V3	V4	V5	V6	V7	V8	V9	V10	...	V21	V22	V23	V24	V25	V26	V27	V28	normAmount
0	-1.359807	-0.072781	2.536347	1.378155	-0.338321	0.462388	0.239599	0.098698	0.363787	0.090794	...	-0.018307	0.277838	-0.110474	0.066928	0.128539	-0.189115	0.133558	-0.021053	0.244964
1	1.191857	0.266151	0.166480	0.448154	0.060018	-0.082361	-0.078803	0.085102	-0.255425	-0.166974	...	-0.225775	-0.638672	0.101288	-0.339846	0.167170	0.125895	-0.008983	0.014724	-0.342475
2	-1.358354	-1.340163	1.773209	0.379780	-0.503198	1.800499	0.791461	0.247676	-1.514654	0.207643	...	0.247998	0.771679	0.909412	-0.689281	-0.327642	-0.139097	-0.055353	-0.059752	1.160686
3	-0.966272	-0.185226	1.792993	-0.863291	-0.010309	1.247203	0.237609	0.377436	-1.387024	-0.054952	...	-0.108300	0.005274	-0.190321	-1.175575	0.647376	-0.221929	0.062723	0.061458	0.140534
4	-1.158233	0.877737	1.548718	0.403034	-0.407193	0.095921	0.592941	-0.270533	0.817739	0.753074	...	-0.009431	0.798278	-0.137458	0.141267	-0.206010	0.502292	0.219422	0.215153	-0.073403

5 rows × 30 columns

下采样处理

减少多数的样本以和少数的样本的数量一样多

#取出特征列
X = data.iloc[:,data.columns != "Class"]
#取出标签列
y = data.iloc[:,data.columns == "Class"]

#Number of data points in the minority class
# 得到不正常样本的索引值和数量
number_records_fraud = len(data[data.Class == 1])
fraud_indices =np.array(data[data.Class == 1].index)

#在正常样本中进行随机选择
normal_indices = data[data.Class == 0].index

#基于我们上一步找出来的那些样本的下标，在这些下标中随机选择出number_records_fraud数量的下标，并转换成ndarray对象
random_normal_indices = np.random.choice(normal_indices, number_records_fraud, replace = False)
# replace = False 形成的数据不能有重复的
random_normal_indices = np.array(random_normal_indices)


#将两部分的下标粘合在一起，形成整体的新的样本的下标
under_sample_indices = np.concatenate([fraud_indices,random_normal_indices])

# 根据索引，得到下采样的数据集(根据下标取行)
under_sample_data = data.iloc[under_sample_indices,:]

#选取最终的特征列和标签列
X_undersample = under_sample_data.iloc[:,under_sample_data.columns != "Class"]
y_undersample = under_sample_data.iloc[:,under_sample_data.columns == "Class"]

# 展示下采样样本比例
print("正常样本占下采样样本的比例：",len(under_sample_data[under_sample_data.Class == 0]) / len(under_sample_data))
print("异常样本占下采样样本的比例：",len(under_sample_data[under_sample_data.Class == 1]) / len(under_sample_data))
print("下采样样本总数：",len(under_sample_data))

正常样本占下采样样本的比例： 0.5
异常样本占下采样样本的比例： 0.5
下采样样本总数： 984

训练集和测试集的划分以及交叉验证

训练集和测试集划分

经过上面的操作我们已经得到了需要处理的一系列的数据，下面我们要做的就是数据集和测试集的划分的过程了。

所谓的划分就是要把样本分为数据集和测试集两个部分

数据集：用来建立我们的回归模型
测试集：用来验证建立模型的准确性

注意的是数据集和测试集的选择要随机且采用同一选择的算法。

交叉验证

交叉验证是指我们要将数据集进行进一步的划分，这样进一步的划分内进行互相组合，记录结果以更好地选择模型中的参数。
具体的操作见下面的过程：

原始测试集进行测试

from sklearn.model_selection import train_test_split
#导入原始数据集进行一个切分的操作，这种切分是经过洗牌的切分的
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state = 0)

print("原始训练集包含样本数量：", len(X_train))
print("原始测试集包含样本数量：", len(X_test))
print("原始样本总数：",len(X_train)+len(X_test))

#导入下采样数据集进行切分操作
X_train_undersample, X_test_undersample, y_train_undersample, y_test_undersample = train_test_split(X_undersample, y_undersample, 
                                                                                                    test_size=0.3, random_state = 0)


print("")
print("下采样训练集包含样本数量：", len(X_train_undersample))
print("下采样测试集包含样本数量：", len(X_test_undersample))
print("下采样样本总数：",len(X_train_undersample)+len(X_test_undersample))

原始训练集包含样本数量： 199364
原始测试集包含样本数量： 85443
原始样本总数： 284807

下采样训练集包含样本数量： 688
下采样测试集包含样本数量： 296
下采样样本总数： 984

模型的评估

召回率：recall

如何评价我们建立模型的好坏，直接的想法是使用精度来判断。下面我们举一个例子说明精度判断的局限性，

有上面的例子可以知道精度评估具有一定的欺骗性，所以这里我们引入“召回率”:recall的概念，来对我们模型的好坏进行评估
$=\frac{ TP}{ (TP + FN)}$

正则化惩罚

假如我们得到了模型A( $\theta_1,\theta_2,\theta_3,...,\theta_{10}$ )和模型B( $\theta_1,\theta_2,\theta_3,...,\theta_{10}$ )两个模型，两个模型经过召回率的评估结果是一样的，那么我们在选择的时候是不是在A和B两个模型中随意选择一个就可以了呢？

这里我们还要考虑A和B得到的参数( $\theta_1,\theta_2,\theta_3,...,\theta_{10}$ )的正则化问题，要考虑这组参数的波动程度。一般情况下我们认为波动程度更小的参数组合的模型更好，因为这样的模型泛化程度更高，能过减小过拟合的现象。

所谓的过拟合是指我们的模型在训练集上的发挥是很好的，但是在测试集上的效果不是很好，过拟合现象在机器学习的算法中经常出现，需要避免。

对于正则化惩罚的方法这里介绍一种 $L_2$ 惩罚法。在未引入这个概念之前我们我们对于模型的建立的过程是要经过梯度下降的过程，使损失函数loss达到最小值，而现在我们引入了正交惩罚这个概念，在损失函数loss的基础上添加了 $\frac{1}{2}\omega^2$ ，即添加了正则系数。我们现在的目标不是仅仅使损失函数 $l o s s$ 达到最小值了，我们的目标是要经过梯度下降使 $loss+\frac{1}{2}\omega^2$ 达到最小值，这就是正则化惩罚的过程。
此外还有一种 $L_1$ 正则化惩罚的方式，是加上 $|\omega|$

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import KFold, cross_val_score
from sklearn.metrics import confusion_matrix, recall_score, classification_report

def printing_Kfold_scores(x_train_data, y_train_data):
    #表示进行k折的交叉验证
    fold = KFold(5, shuffle = False)
    
    #惩罚项的不同的权重
    c_param_range = [0.01, 0.1, 1, 10, 100]
    
    #展示结果所用的表格，5行2列，来存储不同的参数进行交叉验证的召回率
    result_table = pd.DataFrame(index = range(len(c_param_range), 2), columns = ["C_parameter","Mean recall score"])
    result_table["C_parameter"] = c_param_range
    
    
    j = 0
    
    # 外层循环：寻找最佳的惩罚项的权重：
    for c_param in c_param_range:
        print("-------------------------------------------")
        print("C parameter:", c_param)
        print("-------------------------------------------")
        print(" ")
        
        recall_accs = []
        #内层循环：进行交叉验证
        for iteration, indices in enumerate(fold.split(x_train_data),start=1):
            #iteration:i值，第i次交叉验证；indices:两个索引集合，训练集 = indices[0],验证集 = indices[1]
            #enumerate():用于将一个可比案例的数据对象组合为一个索引序列,将fold和下标组合成一个索引序列
            
            
            #【建立逻辑回归模型】，传入惩罚项权重和惩罚方式，这里选择L1惩罚
            lr = LogisticRegression(C = c_param, penalty = "l1", solver="liblinear")
            
            #使用训练集（索引是0）【训练模型】
            lr.fit(x_train_data.iloc[indices[0],:], y_train_data.iloc[indices[0],:].values.ravel())
            
            #建立好模型后用测试集去预测模型结果
            y_pred_undersample = lr.predict(x_train_data.iloc[indices[1],:].values)
            
            #评估分类结果，计算召回率
            recall_acc = recall_score(y_train_data.iloc[indices[1],:].values, y_pred_undersample)#计算一次召回率
            recall_accs.append(recall_acc)#把五次的召回率的结果和在一起，以便后续求平均值
            print("Iteration ", iteration,":召回率=", recall_acc)
            
        #当执行完所有的交叉验证后，计算每个参数c对应的平均召回率并打印
        result_table.loc[j,"Mean recall score"] = np.mean(recall_accs)
        j +=1
        print("")
        print("平均召回率：",np.mean(recall_accs))
        print("")
        
    best_c = result_table.loc[result_table["Mean recall score"].astype(float).idxmax()]["C_parameter"]
    
    #打印出最好的结果:
    print("*********************************************************************************")
    print("效果最好的模型所选的惩罚参数C是：", best_c)
    print("*********************************************************************************")
    
    return best_c

best_c = printing_Kfold_scores(X_train_undersample, y_train_undersample)

-------------------------------------------
C parameter: 0.01
-------------------------------------------
 
Iteration  1 :召回率= 0.9315068493150684
Iteration  2 :召回率= 0.9178082191780822
Iteration  3 :召回率= 1.0
Iteration  4 :召回率= 0.9594594594594594
Iteration  5 :召回率= 0.9545454545454546

平均召回率： 0.9526639964996129

-------------------------------------------
C parameter: 0.1
-------------------------------------------
 
Iteration  1 :召回率= 0.8493150684931506
Iteration  2 :召回率= 0.863013698630137
Iteration  3 :召回率= 0.9491525423728814
Iteration  4 :召回率= 0.9324324324324325
Iteration  5 :召回率= 0.8939393939393939

平均召回率： 0.897570627173599

-------------------------------------------
C parameter: 1
-------------------------------------------
 
Iteration  1 :召回率= 0.863013698630137
Iteration  2 :召回率= 0.9041095890410958
Iteration  3 :召回率= 0.9491525423728814
Iteration  4 :召回率= 0.9459459459459459
Iteration  5 :召回率= 0.9090909090909091

平均召回率： 0.9142625370161939

-------------------------------------------
C parameter: 10
-------------------------------------------
 
Iteration  1 :召回率= 0.863013698630137
Iteration  2 :召回率= 0.9041095890410958
Iteration  3 :召回率= 0.9661016949152542
Iteration  4 :召回率= 0.9459459459459459
Iteration  5 :召回率= 0.9090909090909091

平均召回率： 0.9176523675246685

-------------------------------------------
C parameter: 100
-------------------------------------------
 
Iteration  1 :召回率= 0.863013698630137
Iteration  2 :召回率= 0.9041095890410958
Iteration  3 :召回率= 0.9661016949152542
Iteration  4 :召回率= 0.9459459459459459
Iteration  5 :召回率= 0.9090909090909091

平均召回率： 0.9176523675246685

*********************************************************************************
效果最好的模型所选的惩罚参数C是： 0.01
*********************************************************************************

模型的测试

绘制混淆矩阵

#绘制混淆矩阵函数（cm:计算出的混淆矩阵的值，classes:标签分类, title：标题,cmp:绘图样式）
def plot_confusion_matrix(cm, classes,
                          title='Confusion matrix',
                          cmap=plt.cm.Blues):
    
    plt.imshow(cm,cmap=cmap)
    plt.title(title)
    plt.colorbar()
    tick_marks = np.arange(len(classes))
    plt.xticks(tick_marks, classes)
    plt.yticks(tick_marks, classes)

    thresh = cm.max() / 2.
    for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
        plt.text(j, i, cm[i, j],
                 horizontalalignment="center",
                 color="white" if cm[i, j] > thresh else "black")
    plt.tight_layout()
    plt.ylabel('True label')
    plt.xlabel('Predicted label')

使用下采样数据集测试下采样方案

上述的探索已经得出了最佳的惩罚权重值，best_c，这里直接使用best_c作为惩罚项的权重系数，进行回归预测，并用混淆矩阵进行结果展示

import itertools
lr = LogisticRegression(C = best_c, penalty = 'l1', solver = "liblinear")
lr.fit(X_train_undersample,y_train_undersample.values.ravel())
y_pred_undersample = lr.predict(X_test_undersample.values)

cnf_matrix = confusion_matrix(y_test_undersample, y_pred_undersample)#计算混淆矩阵所需值
np.set_printoptions(precision=2)#设置精度为小数点后两位

#使用公式进行召回率的计算
print("测试集中的召回率为：",cnf_matrix[1,1]/(cnf_matrix[1,0]+cnf_matrix[1,1]))

#绘图
class_names = [0,1]
plt.figure()#画图前先设置好画布
plot_confusion_matrix(cnf_matrix
                      , classes=class_names
                      , title='Confusion matrix')
plt.show()

测试集中的召回率为： 0.9387755102040817

上面的情况是对下采样样本的测试集进行测试的结果，是理想情况下的判断结果。而实际我们应该是用整个样本的测试集对模型进行测试，下面我们进行用整个模型的测试集测试，检验一下下采样模型的可靠性：

用原始测试集测试下采样

lr = LogisticRegression(C = best_c, penalty = 'l1',solver = "liblinear")
lr.fit(X_train_undersample,y_train_undersample.values.ravel())
y_pred = lr.predict(X_test.values)

# Compute confusion matrix
cnf_matrix = confusion_matrix(y_test,y_pred)
np.set_printoptions(precision=2)

print("Recall metric in the testing dataset: ", cnf_matrix[1,1]/(cnf_matrix[1,0]+cnf_matrix[1,1]))

# Plot non-normalized confusion matrix
class_names = [0,1]
plt.figure()
plot_confusion_matrix(cnf_matrix
                      , classes=class_names
                      , title='Confusion matrix')
plt.show()

Recall metric in the testing dataset:  0.9115646258503401

根据上述的结果，可以看出在下采样的处理方法下，在测试集数据量增大的情况下，召回率的结果并没有太大的变化，但是可以看到正常数据被误判成异常数据的比例较高，即假阳性太多，需要做出改进。

下采样方法的改进

①不进行采样，直接使用原数据集进行模型的建立与预测

best_c = printing_Kfold_scores(X_train,y_train)

-------------------------------------------
C parameter: 0.01
-------------------------------------------
 
Iteration  1 :召回率= 0.4925373134328358
Iteration  2 :召回率= 0.6027397260273972
Iteration  3 :召回率= 0.6833333333333333
Iteration  4 :召回率= 0.5692307692307692
Iteration  5 :召回率= 0.45

平均召回率： 0.5595682284048672

-------------------------------------------
C parameter: 0.1
-------------------------------------------
 
Iteration  1 :召回率= 0.5671641791044776
Iteration  2 :召回率= 0.6164383561643836
Iteration  3 :召回率= 0.6833333333333333
Iteration  4 :召回率= 0.5846153846153846
Iteration  5 :召回率= 0.525

平均召回率： 0.5953102506435158

-------------------------------------------
C parameter: 1
-------------------------------------------
 
Iteration  1 :召回率= 0.5522388059701493
Iteration  2 :召回率= 0.6164383561643836
Iteration  3 :召回率= 0.7166666666666667
Iteration  4 :召回率= 0.6153846153846154
Iteration  5 :召回率= 0.5625

平均召回率： 0.612645688837163

-------------------------------------------
C parameter: 10
-------------------------------------------
 
Iteration  1 :召回率= 0.5522388059701493
Iteration  2 :召回率= 0.6164383561643836
Iteration  3 :召回率= 0.7333333333333333
Iteration  4 :召回率= 0.6153846153846154
Iteration  5 :召回率= 0.575

平均召回率： 0.6184790221704963

-------------------------------------------
C parameter: 100
-------------------------------------------
 
Iteration  1 :召回率= 0.5522388059701493
Iteration  2 :召回率= 0.6164383561643836
Iteration  3 :召回率= 0.7333333333333333
Iteration  4 :召回率= 0.6153846153846154
Iteration  5 :召回率= 0.575

平均召回率： 0.6184790221704963

*********************************************************************************
效果最好的模型所选的惩罚参数C是： 10.0
*********************************************************************************

可以看出由于原始数据严重的不平衡，所以召回率较低，由此，对于数据进行下采样处理，进行平衡化是很有必要的。

下面我们通过混淆矩阵来观察直接用原数据集处理的效果。

lr = LogisticRegression(C = best_c, penalty = 'l1',solver = "liblinear")
lr.fit(X_train,y_train.values.ravel())
y_pred = lr.predict(X_test.values)

# Compute confusion matrix
cnf_matrix = confusion_matrix(y_test,y_pred)
np.set_printoptions(precision=2)

print("Recall metric in the testing dataset: ", cnf_matrix[1,1]/(cnf_matrix[1,0]+cnf_matrix[1,1]))

# Plot non-normalized confusion matrix
class_names = [0,1]
plt.figure()
plot_confusion_matrix(cnf_matrix
                      , classes=class_names
                      , title='Confusion matrix')
plt.show()

Recall metric in the testing dataset:  0.6190476190476191

由上述结果可以看出，直接使用原数据集进行模型的训练，测试结果中的假阳性变少，但是对应的召回率较低，其实很多的异常数据没有找到，模型仍需改进。
下面使用过采样的方式对模型进行训练分析。

法②改变判断的阈值的方式

在模型的默认参数中，我们认为概率大于0.5为A类，概率小于0.5为B类。这个0.5被称为阈值，但是他是可以手动进行调整的，所以下面我们对模型的阈值thresh进行人为地设定，再分别进行模型的召回率计算和检验

#建模
lr = LogisticRegression(C = 0.01, penalty = 'l1', solver = "liblinear")
lr.fit(X_train_undersample,y_train_undersample.values.ravel())#仍采用下采样的数据进行模型训练
y_pred_undersample_proba = lr.predict_proba(X_test_undersample.values)#利用predict_prob得到预测结果的概率值
#之前的predict（）函数是会直接得到0-1的类别的，现在我们得到的是一个概率值,用这个得到的概率与thresholds作比较


#设置不同的阈值
thresholds = [0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9]

plt.figure(figsize=(10,10))    #设置画布大小

j=1

for i in thresholds:
    y_test_predictions_high_recall = y_pred_undersample_proba[:,1] > i#将概率值转化，判断（以0.5为例），大于0.5是异常，小于0.5是正常
    
    plt.subplot(3,3,j)   #3*3的子图， j表示第几个图，每张图对应一个阈值
    j +=1 
    
    #计算混淆矩阵所需值
    cnf_matrix = confusion_matrix(y_test_undersample,y_test_predictions_high_recall)
    np.set_printoptions(precision=2)
    
    print("测试集的召回率：",cnf_matrix[1,1]/(cnf_matrix[1,0]+cnf_matrix[1,1]))
          
    #绘图
    class_names = [0,1]
    plot_confusion_matrix(cnf_matrix
                          , classes=class_names
                          , title='Thresholds >= %s'%i)

测试集的召回率： 1.0
测试集的召回率： 1.0
测试集的召回率： 1.0
测试集的召回率： 0.9727891156462585
测试集的召回率： 0.9387755102040817
测试集的召回率： 0.8775510204081632
测试集的召回率： 0.8163265306122449
测试集的召回率： 0.7755102040816326
测试集的召回率： 0.5918367346938775

从上面的结果可以看出，随着阈值的增大，因为判断异常的标准升高，召回率降低。当阈值为0.1-0.3时，召回率为1，但是将所有的样本都当成了异常样本，这样的模型失去了意义。而当阈值为0.4时，召回率高但是假阳性太高，不适合。当阈值为0.6时，对比0.5时，检漏变多，但是假阳性变少，具体使用哪个阈值要看需求。当模型的阈值大于等于0.7时，召回率过低，模型不适合。

下采样模型具有假阳性高的缺点，下面使用过采样方案。

过采样方案

过采样方案主要是要生成更多的异常样本，使异常样本变得和正常样本一样多，即将异常样本规模扩大n倍。

异常样本的生成主要是使用SMOTE算法：

首先我们要选择出少数类样本，选择出其中的一个样本，对其他的样本点进行欧式距离计算，并且从小到大排列，只取出最小的1/n*样本数个，然后使用一定的随机数进行填充，其他的样本也进行，直至完成扩大n倍数。

import pandas as pd 
#引入SOMTE算法模块
from imblearn.over_sampling import SMOTE
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import train_test_split

读取数据，划分特征值和标签

credit_cards=pd.read_csv("creditcard.csv")

columns=credit_cards.columns
features_columns=columns.delete(len(columns)-1)#删除最后一列：Class列

features=credit_cards[features_columns]
labels=credit_cards['Class']

数据集切分，将数据集切分为训练集和测试集

features_train, features_test, labels_train, labels_test = train_test_split(features, 
                                                                            labels, 
                                                                            test_size=0.2, 
                                                                            random_state=0)

基于SMOTE算法进行样本的生成，创造新的数据集，这样正负样本的数量就一致了。

oversampler=SMOTE(random_state=0)
#获得一个对象
os_features,os_labels=oversampler.fit_sample(features_train,labels_train)
#只对train集进行数据的生成,测试集一定是不动的，会使两个label的自动平衡

此时我们查看训练集的样本数据，可以发现是1:1的了

count_classes = pd.value_counts(os_labels, sort = True).sort_index()
count_classes.plot(kind = "bar")
plt.title("Fruad class histogram")
plt.xlabel("Class")
plt.ylabel("Frequancy")

Text(0, 0.5, 'Frequancy')

#进行惩罚参数权重的选择
os_features = pd.DataFrame(os_features)
os_labels = pd.DataFrame(os_labels)
best_c = printing_Kfold_scores(os_features,os_labels)

-------------------------------------------
C parameter: 0.01
-------------------------------------------
 
Iteration  1 :召回率= 0.8903225806451613
Iteration  2 :召回率= 0.8947368421052632
Iteration  3 :召回率= 0.968861347792409
Iteration  4 :召回率= 0.9578593332673855
Iteration  5 :召回率= 0.958408898561238

平均召回率： 0.9340378004742915

-------------------------------------------
C parameter: 0.1
-------------------------------------------
 
Iteration  1 :召回率= 0.8903225806451613
Iteration  2 :召回率= 0.8947368421052632
Iteration  3 :召回率= 0.9704769281841319
Iteration  4 :召回率= 0.9599256987722712
Iteration  5 :召回率= 0.9603323770897221

平均召回率： 0.93515888535931

-------------------------------------------
C parameter: 1
-------------------------------------------
 
Iteration  1 :召回率= 0.8903225806451613
Iteration  2 :召回率= 0.8947368421052632
Iteration  3 :召回率= 0.9705433218988603
Iteration  4 :召回率= 0.960321385783845
Iteration  5 :召回率= 0.954517976280762

平均召回率： 0.9340884213427783

-------------------------------------------
C parameter: 10
-------------------------------------------
 
Iteration  1 :召回率= 0.8903225806451613
Iteration  2 :召回率= 0.8947368421052632
Iteration  3 :召回率= 0.9705211906606175
Iteration  4 :召回率= 0.957529594091074
Iteration  5 :召回率= 0.9605082379837548

平均召回率： 0.9347236890971743

-------------------------------------------
C parameter: 100
-------------------------------------------
 
Iteration  1 :召回率= 0.8903225806451613
Iteration  2 :召回率= 0.8947368421052632
Iteration  3 :召回率= 0.9700121721810335
Iteration  4 :召回率= 0.9603433683955991
Iteration  5 :召回率= 0.960761038018927

平均召回率： 0.9352352002691969

*********************************************************************************
效果最好的模型所选的惩罚参数C是： 100.0
*********************************************************************************

#s使用最佳的惩罚系数进行模型的训练和验证
lr = LogisticRegression(C = best_c, penalty = 'l1',solver='liblinear')
lr.fit(os_features,os_labels.values.ravel())
y_pred = lr.predict(features_test.values)

cnf_matrix = confusion_matrix(labels_test,y_pred)
np.set_printoptions(precision=2)

print("测试集中的召回率: ", cnf_matrix[1,1]/(cnf_matrix[1,0]+cnf_matrix[1,1]))

class_names = [0,1]
plt.figure()
plot_confusion_matrix(cnf_matrix
                      , classes=class_names
                      , title='Confusion matrix')
plt.show()

测试集中的召回率:  0.9108910891089109

观察混淆矩阵可知，在召回率较高的情况下，此时我们的误判数由原来的8000+降低到了500+，误判的数量大大降低了，即假阳性降低，故采用过采样的方案效果更好。

你可能感兴趣的:(python,python,机器学习,数据分析,logistic,regression,分类算法)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
苦练Python第9天：if-else分支九剑 python后端前端人工智能
苦练Python第9天：if-else分支九剑前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众号：倔强青铜三。欢迎点赞、收藏、关注，一键三连！！！欢迎来到100天Python挑战第9天！今天我们不练循环，改磨“分支剑法”——ifelse三式：单分支、双分支、多分支，以及嵌套和三元运算符，全部实战演练，让
苦练Python第8天：while 循环之妙用 python后端前端人工智能
苦练Python第8天：while循环之妙用原文链接：https://dev.to/therahul_gupta/day-9100-while-loops-with-real-world-examples-528f作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR