福利2020

机器学习：04 Kaggle 信用卡欺诈

文章目录

前期准备
- 目标
- 数据集介绍
- 建模思路
- 场景分析
数据预处理
- 导入库
- 加载数据
数据分析
- 正负样本分布
- 信用卡正常与被盗刷用户分析
- 是否欺诈和交易金额关系分析
- 消费和时间关系分析
- V1-V28 字段分析
特征工程
- 特征重要性分析
- 降维与聚类
模型训练
- 样本不平衡解决方法
- SMOTE的基本原理
- 样本不均衡过采样实现
- 分类器进行训练
- 构建训练集和测试集
- 模型训练（baseline)
模型优化
- 绘制学习曲线
- 模型评估
- - 混淆矩阵
  - 绘制 ROC曲线
回顾总结
参考资料

前期准备

目标

通过利用信用卡的历史交易数据，进行机器学习，构建信用卡反欺诈预测模型，提前发现客户信用卡被盗刷的事件。

数据集介绍

数据集（Credit Card Fraud Detection）包含由欧洲持卡人于2013年9月使用信用卡进行交的数据。此数据集显示两天内发生的交易，其中284,807笔交易中有492笔被盗刷。数据集非常不平衡，积极的类（被盗刷）占所有交易的0.172％。

信用卡欺诈检测问题的特点是样本的不均衡性，欺诈交易数量较少，所以可以训练一些不平衡样本的处理方式。

由于保密问题，无法提供有关数据的原始功能和更多背景信息。针对我们的目标，如果发生被盗刷，则取值1，否则为0。

建模思路

场景分析

数据是持卡人两天内信用卡交易数据，要解决的问题是预测持卡人是否会发生信用卡被盗刷
判定信用卡持卡人是否会发生被盗刷是一个二元分类问题
算法选择分类算法（例如：我们选择 Logistic Regression 作为我们的baseline）

提示：特征V1至V28是经过PCA处理，而特征Time和Amount的数据规格与其他特征差别较大，需要对其做特征缩放，尤其是对大小分布敏感的算法（如LR）一定要进行缩放处理

Amount：可以直接缩放(0,1)

Time：数据提供单位秒，可以考虑转会成小时（对应每天的时间）.

数据预处理

导入库

# Imports
# Numpy,Pandas
import numpy as np
import pandas as pd
import datetime

# matplotlib,seaborn,pyecharts
import matplotlib.pyplot as plt
import matplotlib.gridspec as gridspec
import seaborn as sns
sns.set_style('whitegrid')
%matplotlib inline

# import sklearn
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from sklearn.metrics import precision_recall_curve
from sklearn.metrics import auc
from sklearn.metrics import roc_auc_score
from sklearn.metrics import roc_curve
from sklearn.metrics import recall_score
from sklearn.metrics import classification_report
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import StandardScaler


#  忽略弹出的warnings
import warnings
warnings.filterwarnings('ignore')  

pd.set_option('display.float_format', lambda x: '%.4f' % x)

加载数据

data_df = pd.read_csv("creditcard.csv")
print(data_df.shape)
data_df.head()

(284807, 31)

	Time	V1	V2	V3	V4	V5	V6	V7	V8	V9	...	V21	V22	V23	V24	V25	V26	V27	V28	Amount
0	0.0000	-1.3598	-0.0728	2.5363	1.3782	-0.3383	0.4624	0.2396	0.0987	0.3638	...	-0.0183	0.2778	-0.1105	0.0669	0.1285	-0.1891	0.1336	-0.0211	149.6200
1	0.0000	1.1919	0.2662	0.1665	0.4482	0.0600	-0.0824	-0.0788	0.0851	-0.2554	...	-0.2258	-0.6387	0.1013	-0.3398	0.1672	0.1259	-0.0090	0.0147	2.6900
2	1.0000	-1.3584	-1.3402	1.7732	0.3798	-0.5032	1.8005	0.7915	0.2477	-1.5147	...	0.2480	0.7717	0.9094	-0.6893	-0.3276	-0.1391	-0.0554	-0.0598	378.6600
3	1.0000	-0.9663	-0.1852	1.7930	-0.8633	-0.0103	1.2472	0.2376	0.3774	-1.3870	...	-0.1083	0.0053	-0.1903	-1.1756	0.6474	-0.2219	0.0627	0.0615	123.5000
4	2.0000	-1.1582	0.8777	1.5487	0.4030	-0.4072	0.0959	0.5929	-0.2705	0.8177	...	-0.0094	0.7983	-0.1375	0.1413	-0.2060	0.5023	0.2194	0.2152	69.9900

5 rows × 31 columns

从上面可以看出，数据为结构化数据，不需要抽特征转化

V1-V28都是一系列的指标(具体是什么不用知道)：通过PCA 已经处理过的数据
Amount是交易金额：进行特征的缩放处理
标签字段 Class＝0表示是正常操作，而=1表示异常操作

data_df.info()# 查看数据的基本信息


RangeIndex: 284807 entries, 0 to 284806
Data columns (total 31 columns):
 #   Column  Non-Null Count   Dtype  
---  ------  --------------   -----  
 0   Time    284807 non-null  float64
 1   V1      284807 non-null  float64
 2   V2      284807 non-null  float64
 3   V3      284807 non-null  float64
 4   V4      284807 non-null  float64
 5   V5      284807 non-null  float64
 6   V6      284807 non-null  float64
 7   V7      284807 non-null  float64
 8   V8      284807 non-null  float64
 9   V9      284807 non-null  float64
 10  V10     284807 non-null  float64
 11  V11     284807 non-null  float64
 12  V12     284807 non-null  float64
 13  V13     284807 non-null  float64
 14  V14     284807 non-null  float64
 15  V15     284807 non-null  float64
 16  V16     284807 non-null  float64
 17  V17     284807 non-null  float64
 18  V18     284807 non-null  float64
 19  V19     284807 non-null  float64
 20  V20     284807 non-null  float64
 21  V21     284807 non-null  float64
 22  V22     284807 non-null  float64
 23  V23     284807 non-null  float64
 24  V24     284807 non-null  float64
 25  V25     284807 non-null  float64
 26  V26     284807 non-null  float64
 27  V27     284807 non-null  float64
 28  V28     284807 non-null  float64
 29  Amount  284807 non-null  float64
 30  Class   284807 non-null  int64  
dtypes: float64(30), int64(1)
memory usage: 67.4 MB

data_df.describe().T#查看数据基本统计信息

	count	mean	std	min	25%	50%	75%	max
Time	284807.0000	94813.8596	47488.1460	0.0000	54201.5000	84692.0000	139320.5000	172792.0000
V1	284807.0000	0.0000	1.9587	-56.4075	-0.9204	0.0181	1.3156	2.4549
V2	284807.0000	0.0000	1.6513	-72.7157	-0.5985	0.0655	0.8037	22.0577
V3	284807.0000	-0.0000	1.5163	-48.3256	-0.8904	0.1798	1.0272	9.3826
V4	284807.0000	0.0000	1.4159	-5.6832	-0.8486	-0.0198	0.7433	16.8753
V5	284807.0000	-0.0000	1.3802	-113.7433	-0.6916	-0.0543	0.6119	34.8017
V6	284807.0000	0.0000	1.3323	-26.1605	-0.7683	-0.2742	0.3986	73.3016
V7	284807.0000	-0.0000	1.2371	-43.5572	-0.5541	0.0401	0.5704	120.5895
V8	284807.0000	-0.0000	1.1944	-73.2167	-0.2086	0.0224	0.3273	20.0072
V9	284807.0000	-0.0000	1.0986	-13.4341	-0.6431	-0.0514	0.5971	15.5950
V10	284807.0000	0.0000	1.0888	-24.5883	-0.5354	-0.0929	0.4539	23.7451
V11	284807.0000	0.0000	1.0207	-4.7975	-0.7625	-0.0328	0.7396	12.0189
V12	284807.0000	-0.0000	0.9992	-18.6837	-0.4056	0.1400	0.6182	7.8484
V13	284807.0000	0.0000	0.9953	-5.7919	-0.6485	-0.0136	0.6625	7.1269
V14	284807.0000	0.0000	0.9586	-19.2143	-0.4256	0.0506	0.4931	10.5268
V15	284807.0000	0.0000	0.9153	-4.4989	-0.5829	0.0481	0.6488	8.8777
V16	284807.0000	0.0000	0.8763	-14.1299	-0.4680	0.0664	0.5233	17.3151
V17	284807.0000	-0.0000	0.8493	-25.1628	-0.4837	-0.0657	0.3997	9.2535
V18	284807.0000	0.0000	0.8382	-9.4987	-0.4988	-0.0036	0.5008	5.0411
V19	284807.0000	0.0000	0.8140	-7.2135	-0.4563	0.0037	0.4589	5.5920
V20	284807.0000	0.0000	0.7709	-54.4977	-0.2117	-0.0625	0.1330	39.4209
V21	284807.0000	0.0000	0.7345	-34.8304	-0.2284	-0.0295	0.1864	27.2028
V22	284807.0000	0.0000	0.7257	-10.9331	-0.5424	0.0068	0.5286	10.5031
V23	284807.0000	0.0000	0.6245	-44.8077	-0.1618	-0.0112	0.1476	22.5284
V24	284807.0000	0.0000	0.6056	-2.8366	-0.3546	0.0410	0.4395	4.5845
V25	284807.0000	0.0000	0.5213	-10.2954	-0.3171	0.0166	0.3507	7.5196
V26	284807.0000	0.0000	0.4822	-2.6046	-0.3270	-0.0521	0.2410	3.5173
V27	284807.0000	-0.0000	0.4036	-22.5657	-0.0708	0.0013	0.0910	31.6122
V28	284807.0000	-0.0000	0.3301	-15.4301	-0.0530	0.0112	0.0783	33.8478
Amount	284807.0000	88.3496	250.1201	0.0000	5.6000	22.0000	77.1650	25691.1600
Class	284807.0000	0.0017	0.0415	0.0000	0.0000	0.0000	0.0000	1.0000

特征Time的单为秒，我们将其转化为以小时为单位对应每天的时间

data_df['Hour'] = data_df['Time'].apply(lambda x:divmod(x,3600)[0])
data_df.sample(5)

	Time	V1	V2	V3	V4	V5	V6	V7	V8	V9	...	V22	V23	V24	V25	V26	V27	V28	Amount	Hour
265802	162055.0000	1.8019	-0.5296	-0.3982	0.5047	-0.7187	-0.7168	-0.2809	-0.2235	1.0216	...	0.8718	0.0374	0.1065	-0.1285	-0.2624	0.0251	-0.0156	106.7200	45.0000
126177	77952.0000	-1.2488	0.3134	0.3555	-0.7949	-1.0377	-0.6684	0.2091	0.0347	-1.2898	...	-0.3017	0.0967	0.0746	-0.6347	0.9844	-0.7203	-0.5310	100.0000	21.0000
163920	116322.0000	1.9908	-1.2415	-0.5690	-0.9741	-1.0472	-0.2112	-1.0302	-0.0320	-0.2351	...	1.2542	-0.0194	-0.4268	-0.1706	-0.0678	0.0017	-0.0431	95.0000	32.0000
190144	128705.0000	2.2632	-0.8175	-1.3416	-1.0346	-0.3259	-0.4674	-0.5986	-0.2146	-0.1352	...	0.4663	0.0271	-1.0325	0.0740	-0.0944	-0.0134	-0.0678	10.0000	35.0000
133830	80543.0000	-0.4457	0.3107	2.4817	0.1151	-0.4481	0.4889	-0.0565	0.2281	0.4648	...	0.3047	-0.0858	0.2381	-0.3820	0.2383	-0.2520	-0.1992	8.0400	22.0000

5 rows × 32 columns

data_df.columns

Index(['Time', 'V1', 'V2', 'V3', 'V4', 'V5', 'V6', 'V7', 'V8', 'V9', 'V10',
       'V11', 'V12', 'V13', 'V14', 'V15', 'V16', 'V17', 'V18', 'V19', 'V20',
       'V21', 'V22', 'V23', 'V24', 'V25', 'V26', 'V27', 'V28', 'Amount',
       'Class', 'Hour'],
      dtype='object')

x_feature = ['Time', 'V1', 'V2', 'V3', 'V4', 'V5', 'V6', 'V7', 'V8', 'V9', 'V10',
       'V11', 'V12', 'V13', 'V14', 'V15', 'V16', 'V17', 'V18', 'V19', 'V20',
       'V21', 'V22', 'V23', 'V24', 'V25', 'V26', 'V27', 'V28', 'Amount','Hour']
# 构建自变量和因变量
X = data_df[x_feature]
y = data_df["Class"]

数据分析

正负样本分布

Class=0为负样本（未被盗刷），Class=1的正样本（盗刷），看一下正负样本的数量.

data_df['Class'].value_counts()

0    284315
1       492
Name: Class, dtype: int64

# 目标变量分布可视化
fig, axs = plt.subplots(1,2,figsize=(14,7))
## 柱状图
sns.countplot(x='Class',data=data_df,ax=axs[0])
axs[0].set_title("Frequency of each Class")

## 圆形图
data_df['Class'].value_counts().plot(x=None,y=None, kind='pie', ax=axs[1],autopct='%1.2f%%')
axs[1].set_title("Percentage of each Class")
plt.show()

数据集284,807笔交易中有492笔是信用卡被盗刷交易,信用卡被盗刷交易占总体比例为0.17%
信用卡交易正常和被盗刷两者数量不平衡，样本不平衡影响分类器的学习，我们将会使用过采样的方法解决样本不平衡的问题。

信用卡正常与被盗刷用户分析

# 获取数据
fraud = data_df[data_df['Class'] == 1]
nonFraud = data_df[data_df['Class'] == 0]

# 相关性计算
correlationNonFraud = nonFraud.loc[:, data_df.columns != 'Class'].corr()
correlationFraud = fraud.loc[:, data_df.columns != 'Class'].corr()

# 上三角矩阵设置
mask = np.zeros_like(correlationNonFraud)# 全部设置0
indices = np.triu_indices_from(correlationNonFraud)#返回函数的上三角矩阵
mask[indices] = True

grid_kws = {
     "width_ratios": (.9, .9, .05), "wspace": 0.2}
f, (ax1, ax2, cbar_ax) = plt.subplots(1, 3, gridspec_kw=grid_kws, figsize = (14, 9))

# 正常用户-特征相关性展示
cmap = sns.diverging_palette(220, 8, as_cmap=True)
ax1 =sns.heatmap(correlationNonFraud, ax = ax1, vmin = -1, vmax = 1, \
    cmap = cmap, square = False, linewidths = 0.5, mask = mask, cbar = False)
ax1.set_xticklabels(ax1.get_xticklabels(), size = 16); 
ax1.set_yticklabels(ax1.get_yticklabels(), size = 16); 
ax1.set_title('Normal', size = 20)

# 被欺诈的用户-特征相关性展示
ax2 = sns.heatmap(correlationFraud, vmin = -1, vmax = 1, cmap = cmap, \
ax = ax2, square = False, linewidths = 0.5, mask = mask, yticklabels = False, \
    cbar_ax = cbar_ax, cbar_kws={
     'orientation': 'vertical', \
                                 'ticks': [-1, -0.5, 0, 0.5, 1]})
ax2.set_xticklabels(ax2.get_xticklabels(), size = 16); 
ax2.set_title('Fraud', size = 20);

从上图可以看出，信用卡被盗刷的事件中，部分变量之间的相关性更明显。

其中变量V1、V2、V3、V4、V5、V6、V7、V9、V10、V11、V12、V14、V16、V17和V18以及V19之间的变化在信用卡被盗刷的样本中呈性一定的规律。

是否欺诈和交易金额关系分析

f, (ax1, ax2) = plt.subplots(2, 1, sharex=True, figsize=(16,4))
bins = 30
ax1.hist(data_df["Amount"][data_df["Class"]== 1], bins = bins)
ax1.set_title('Fraud')

ax2.hist(data_df["Amount"][data_df["Class"] == 0], bins = bins)
ax2.set_title('Normal')

plt.xlabel('Amount ($)')
plt.ylabel('Number of Transactions')
plt.yscale('log')
plt.show()

信用卡被盗刷发生的金额与信用卡正常用户发生的金额相比呈现散而小的特点

这说明信用卡盗刷者为了不引起信用卡卡主的注意，更偏向选择小金额消费。

消费和时间关系分析

# 每个小时交易次数
sns.factorplot(x="Hour", data=data_df, kind="count", size=6, aspect=3)

数据是2天内容的数据：对应的时间Hour范围在0-48 ，上图发现每天早上9点到晚上11点之间是信用卡消费的高频时间段

V1-V28 字段分析

# 获取V1-V28 字段

v_feat_col = ['V1', 'V2', 'V3', 'V4', 'V5', 'V6', 'V7', 'V8', 'V9', 'V10', 'V11', 'V12', 'V13', 'V14', 'V15',
         'V16', 'V17', 'V18', 'V19', 'V20','V21', 'V22', 'V23', 'V24', 'V25', 'V26', 'V27', 'V28']
v_feat_col_size = len(v_feat_col)


plt.figure(figsize=(16,v_feat_col_size*4))
gs = gridspec.GridSpec(v_feat_col_size, 1)
for i, cn in enumerate(data_df[v_feat_col]):
    ax = plt.subplot(gs[i])
    sns.distplot(data_df[cn][data_df["Class"] == 1], bins=50)# V1 异常  绿色表示
    sns.distplot(data_df[cn][data_df["Class"] == 0], bins=100)# V1 正常  橘色表示
    ax.set_xlabel('')
    ax.set_title('histogram of feature: ' + str(cn))

不同信用卡状态（1-盗刷；0-正常）下的分布有明显区别的变量，选择有明显区分度的特征。
从上述图分析：因此剔除变量V8、V13 、V15 、V20 、V21 、V22、 V23 、V24 、V25 、V26 、V27 和V28变量（这些特征不能很好的区分类别）

data_df.head()

	Time	V1	V2	V3	V4	V5	V6	V7	V8	V9	...	V22	V23	V24	V25	V26	V27	V28	Amount
0	0.0000	-1.3598	-0.0728	2.5363	1.3782	-0.3383	0.4624	0.2396	0.0987	0.3638	...	0.2778	-0.1105	0.0669	0.1285	-0.1891	0.1336	-0.0211	149.6200
1	0.0000	1.1919	0.2662	0.1665	0.4482	0.0600	-0.0824	-0.0788	0.0851	-0.2554	...	-0.6387	0.1013	-0.3398	0.1672	0.1259	-0.0090	0.0147	2.6900
2	1.0000	-1.3584	-1.3402	1.7732	0.3798	-0.5032	1.8005	0.7915	0.2477	-1.5147	...	0.7717	0.9094	-0.6893	-0.3276	-0.1391	-0.0554	-0.0598	378.6600
3	1.0000	-0.9663	-0.1852	1.7930	-0.8633	-0.0103	1.2472	0.2376	0.3774	-1.3870	...	0.0053	-0.1903	-1.1756	0.6474	-0.2219	0.0627	0.0615	123.5000
4	2.0000	-1.1582	0.8777	1.5487	0.4030	-0.4072	0.0959	0.5929	-0.2705	0.8177	...	0.7983	-0.1375	0.1413	-0.2060	0.5023	0.2194	0.2152	69.9900

5 rows × 32 columns

# 同时删除Time：保留Hour字段
droplist = ['V8', 'V13', 'V15', 'V20', 'V21', 'V22', 'V23', 'V24', 'V25', 'V26', 'V27', 'V28','Time']
data_df_new = data_df.drop(droplist, axis = 1)
print(data_df_new.shape) #特征从31个缩减至18个（不含目标变量）
data_df_new.tail()

(284807, 19)

	V1	V2	V3	V4	V5	V6	V7	V9	V10	V11	V12	V14	V16	V17	V18	V19	Amount	Hour
284802	-11.8811	10.0718	-9.8348	-2.0667	-5.3645	-2.6068	-4.9182	1.9144	4.3562	-1.5931	2.7119	4.6269	1.1076	1.9917	0.5106	-0.6829	0.7700	47.0000
284803	-0.7328	-0.0551	2.0350	-0.7386	0.8682	1.0584	0.0243	0.5848	-0.9759	-0.1502	0.9158	-0.6751	-0.7118	-0.0257	-1.2212	-1.5456	24.7900	47.0000
284804	1.9196	-0.3013	-3.2496	-0.5578	2.6305	3.0313	-0.2968	0.4325	-0.4848	0.4116	0.0631	-0.5106	0.1407	0.3135	0.3957	-0.5773	67.8800	47.0000
284805	-0.2404	0.5305	0.7025	0.6898	-0.3780	0.6237	-0.6862	0.3921	-0.3991	-1.9338	-0.9629	0.4496	-0.6086	0.5099	1.1140	2.8978	10.0000	47.0000
284806	-0.5334	-0.1897	0.7033	-0.5063	-0.0125	-0.6496	1.5770	0.4862	-0.9154	-1.0405	-0.0315	-0.0843	-0.3026	-0.6604	0.1674	-0.2561	217.0000	47.0000

特征工程

特征Hour和Amount的规格和其他特征相差较大，其进行特征缩放

# 对Amount和Hour 进行特征缩放
col = ['Amount','Hour']
from sklearn.preprocessing import StandardScaler # 导入模块
sc =StandardScaler() # 初始化缩放器 作用：去均值和方差归一化。且是针对每一个特征维度来做的，而不是针对样本
data_df_new[col] =sc.fit_transform(data_df_new[col])#对数据进行标准化
data_df_new.tail()

	V1	V2	V3	V4	V5	V6	V7	V9	V10	V11	V12	V14	V16	V17	V18	V19	Amount	Hour
284802	-11.8811	10.0718	-9.8348	-2.0667	-5.3645	-2.6068	-4.9182	1.9144	4.3562	-1.5931	2.7119	4.6269	1.1076	1.9917	0.5106	-0.6829	-0.3502	1.6044
284803	-0.7328	-0.0551	2.0350	-0.7386	0.8682	1.0584	0.0243	0.5848	-0.9759	-0.1502	0.9158	-0.6751	-0.7118	-0.0257	-1.2212	-1.5456	-0.2541	1.6044
284804	1.9196	-0.3013	-3.2496	-0.5578	2.6305	3.0313	-0.2968	0.4325	-0.4848	0.4116	0.0631	-0.5106	0.1407	0.3135	0.3957	-0.5773	-0.0818	1.6044
284805	-0.2404	0.5305	0.7025	0.6898	-0.3780	0.6237	-0.6862	0.3921	-0.3991	-1.9338	-0.9629	0.4496	-0.6086	0.5099	1.1140	2.8978	-0.3132	1.6044
284806	-0.5334	-0.1897	0.7033	-0.5063	-0.0125	-0.6496	1.5770	0.4862	-0.9154	-1.0405	-0.0315	-0.0843	-0.3026	-0.6604	0.1674	-0.2561	0.5144	1.6044

data_df_new.describe().T

	count	mean	std	min	25%	50%	75%	max
V1	284807.0000	0.0000	1.9587	-56.4075	-0.9204	0.0181	1.3156	2.4549
V2	284807.0000	0.0000	1.6513	-72.7157	-0.5985	0.0655	0.8037	22.0577
V3	284807.0000	-0.0000	1.5163	-48.3256	-0.8904	0.1798	1.0272	9.3826
V4	284807.0000	0.0000	1.4159	-5.6832	-0.8486	-0.0198	0.7433	16.8753
V5	284807.0000	-0.0000	1.3802	-113.7433	-0.6916	-0.0543	0.6119	34.8017
V6	284807.0000	0.0000	1.3323	-26.1605	-0.7683	-0.2742	0.3986	73.3016
V7	284807.0000	-0.0000	1.2371	-43.5572	-0.5541	0.0401	0.5704	120.5895
V9	284807.0000	-0.0000	1.0986	-13.4341	-0.6431	-0.0514	0.5971	15.5950
V10	284807.0000	0.0000	1.0888	-24.5883	-0.5354	-0.0929	0.4539	23.7451
V11	284807.0000	0.0000	1.0207	-4.7975	-0.7625	-0.0328	0.7396	12.0189
V12	284807.0000	-0.0000	0.9992	-18.6837	-0.4056	0.1400	0.6182	7.8484
V14	284807.0000	0.0000	0.9586	-19.2143	-0.4256	0.0506	0.4931	10.5268
V16	284807.0000	0.0000	0.8763	-14.1299	-0.4680	0.0664	0.5233	17.3151
V17	284807.0000	-0.0000	0.8493	-25.1628	-0.4837	-0.0657	0.3997	9.2535
V18	284807.0000	0.0000	0.8382	-9.4987	-0.4988	-0.0036	0.5008	5.0411
V19	284807.0000	0.0000	0.8140	-7.2135	-0.4563	0.0037	0.4589	5.5920
Amount	284807.0000	0.0000	1.0000	-0.3532	-0.3308	-0.2653	-0.0447	102.3622
Class	284807.0000	0.0017	0.0415	0.0000	0.0000	0.0000	0.0000	1.0000
Hour	284807.0000	-0.0000	1.0000	-1.9603	-0.8226	-0.2158	0.9218	1.6044

特征重要性分析

利用随机森林的feature importance对特征的重要性进行排序

x_feature = ['V1', 'V2', 'V3', 'V4', 'V5', 'V6', 'V7', 'V9', 'V10', 'V11', 'V12', 'V14', 'V16', 'V17', 'V18', 'V19', 'Amount',  'Hour']
x_val = data_df_new[x_feature]
y_val = data_df_new['Class']

from sklearn.ensemble import RandomForestClassifier
clf=RandomForestClassifier(n_estimators=10,random_state=123,max_depth=4)#构建分类随机森林分类器
clf.fit(x_val, y_val) #对自变量和因变量进行拟合

RandomForestClassifier(max_depth=4, n_estimators=10, random_state=123)

for feature in zip(x_feature,clf.feature_importances_):
    print(feature)

('V1', 0.0008826091438778425)
('V2', 0.0021058185061093608)
('V3', 0.009750867340434583)
('V4', 0.01751094043420745)
('V5', 0.008600547467227002)
('V6', 0.013298075656335426)
('V7', 0.0086835897086001)
('V9', 0.023090145788325165)
('V10', 0.08528888657921369)
('V11', 0.06537921978883558)
('V12', 0.14194613523236163)
('V14', 0.13109127164220205)
('V16', 0.19729822871872432)
('V17', 0.27966491161168533)
('V18', 0.009405287105749225)
('V19', 0.0002669771829968763)
('Amount', 0.0017493348363684953)
('Hour', 0.003987153256745854)

plt.style.use('fivethirtyeight')
plt.rcParams['figure.figsize'] = (12,6)

## feature importances 可视化##
importances = clf.feature_importances_
feat_names = data_df_new[x_feature].columns
indices = np.argsort(importances)[::-1]
fig = plt.figure(figsize=(20,6))
plt.title("Feature importances by RandomTreeClassifier")

x = list(range(len(indices)))

plt.bar(x, importances[indices], color='lightblue',  align="center")
plt.step(x, np.cumsum(importances[indices]), where='mid', label='Cumulative')
plt.xticks(x, feat_names[indices], rotation='vertical',fontsize=14)
plt.xlim([-1, len(indices)])

(-1, 18)

from sklearn import tree
# 从随机森林抽取单棵树
estimator = clf.estimators_[5]

#  决策数可视化参考：https://blog.csdn.net/shenfuli/article/details/108492095
# 导入可视化工具类
import pydotplus
from IPython.display import display, Image

# 注意，根据不同系统安装Graphviz2
import os       
os.environ["PATH"] += os.pathsep + 'C:/Program Files (x86)/Graphviz2.38/bin/'

dot_data = tree.export_graphviz(estimator, 
                                out_file=None, 
                                feature_names=x_feature,
                                class_names = ['0-normal', '1-fraud'],
                                filled = True,
                                rounded =True
                               )
graph = pydotplus.graph_from_dot_data(dot_data)
display(Image(graph.create_png()))

降维与聚类

理解t-SNE（需要掌握下面内容）

Euclidean Distance( 欧式距离 )
Conditional Probability（条件概率）
Normal and T-Distribution Plots（正态分布和T分布）

结论

t-SNE算法可以很准确地将数据集中的欺诈和非欺诈案例进行聚类
虽然子样本很小，但t-SNE算法在每个场景中都能非常准确地检测到集群（在运行t-SNE之前，我会对数据集进行洗牌）
这表明，进一步的预测模型在区分欺诈案件和非欺诈案件方面将表现得相当好。

# Lets shuffle the data before creating the subsamples
df = data_df_new.sample(frac=1)
# amount of fraud classes 492 rows.
fraud_df = df.loc[df['Class'] == 1]
non_fraud_df = df.loc[df['Class'] == 0][:492]

normal_distributed_df = pd.concat([fraud_df, non_fraud_df])

# Shuffle dataframe rows
new_df = normal_distributed_df.sample(frac=1, random_state=42)
print(new_df.shape)
new_df.head()

(984, 19)

	V1	V2	V3	V4	V5	V6	V7	V9	V10	V11	V12	V14	V16	V17	V18	V19	Amount	Class	Hour
147662	2.0090	-0.4316	-1.7964	0.0436	0.5059	0.1105	-0.0201	0.6397	0.2503	-0.3630	-0.1701	0.7224	0.3486	-0.7336	0.1952	0.8910	-0.1528	0	-0.1400
95534	1.1939	-0.5711	0.7425	-0.0146	-0.6246	0.8322	-0.8334	1.1694	-0.3717	-0.2457	1.3759	-0.8193	0.1259	-0.3972	0.2724	1.2260	-0.2257	1	-0.5951
38764	1.1490	-0.2724	0.2268	0.7082	-0.4065	-0.1700	-0.1213	0.7598	-0.2049	-1.6016	-0.4125	0.0845	0.1235	-0.2379	-0.2917	0.5235	-0.0534	0	-1.2018
252774	-1.2014	4.8645	-8.3288	7.6524	-0.1674	-2.7677	-3.1764	-4.3672	-5.5334	4.1064	-6.3318	-12.1566	-2.1109	-1.5585	0.1960	0.5025	-0.3502	1	1.3011
15225	-19.8563	12.0959	-22.4641	6.1155	-15.1480	-4.3467	-15.6485	-3.9742	-8.8592	5.7308	-8.0880	-8.5790	-6.9477	-13.4729	-4.9402	1.2301	0.0465	1	-1.4293

import time
from sklearn.manifold import TSNE
from sklearn.decomposition import PCA,TruncatedSVD

X = new_df.drop('Class', axis=1)
y = new_df['Class']

# T-SNE Implementation
t0 = time.time()
X_reduced_tsne = TSNE(n_components=2, random_state=42).fit_transform(X.values)
t1 = time.time()
print("T-SNE took {:.2} s".format(t1 - t0))

# PCA Implementation
t0 = time.time()
X_reduced_pca = PCA(n_components=2, random_state=42).fit_transform(X.values)
t1 = time.time()
print("PCA took {:.2} s".format(t1 - t0))

# TruncatedSVD
t0 = time.time()
X_reduced_svd = TruncatedSVD(n_components=2, algorithm='randomized', random_state=42).fit_transform(X.values)
t1 = time.time()
print("Truncated SVD took {:.2} s".format(t1 - t0))

T-SNE took 1.1e+01 s
PCA took 0.003 s
Truncated SVD took 0.004 s

import matplotlib.patches as mpatches

f, (ax1, ax2, ax3) = plt.subplots(1, 3, figsize=(24,6))
# labels = ['No Fraud', 'Fraud']
f.suptitle('Clusters using Dimensionality Reduction', fontsize=14)


blue_patch = mpatches.Patch(color='#0A0AFF', label='No Fraud')
red_patch = mpatches.Patch(color='#AF0000', label='Fraud')


# t-SNE scatter plot
ax1.scatter(X_reduced_tsne[:,0], X_reduced_tsne[:,1], c=(y == 0), cmap='coolwarm', label='No Fraud', linewidths=2)
ax1.scatter(X_reduced_tsne[:,0], X_reduced_tsne[:,1], c=(y == 1), cmap='coolwarm', label='Fraud', linewidths=2)
ax1.set_title('t-SNE', fontsize=14)

ax1.grid(True)

ax1.legend(handles=[blue_patch, red_patch])


# PCA scatter plot
ax2.scatter(X_reduced_pca[:,0], X_reduced_pca[:,1], c=(y == 0), cmap='coolwarm', label='No Fraud', linewidths=2)
ax2.scatter(X_reduced_pca[:,0], X_reduced_pca[:,1], c=(y == 1), cmap='coolwarm', label='Fraud', linewidths=2)
ax2.set_title('PCA', fontsize=14)

ax2.grid(True)

ax2.legend(handles=[blue_patch, red_patch])

# TruncatedSVD scatter plot
ax3.scatter(X_reduced_svd[:,0], X_reduced_svd[:,1], c=(y == 0), cmap='coolwarm', label='No Fraud', linewidths=2)
ax3.scatter(X_reduced_svd[:,0], X_reduced_svd[:,1], c=(y == 1), cmap='coolwarm', label='Fraud', linewidths=2)
ax3.set_title('Truncated SVD', fontsize=14)

ax3.grid(True)

ax3.legend(handles=[blue_patch, red_patch])

plt.show()

模型训练

样本不平衡解决方法

样本不平衡常用的解决方法：本项目方案（1-欺诈 0-正常）我们需要对1-欺诈数据进行过采样

过采样（oversampling），增加正样本使得正、负样本数目接近，然后再进行学习。
欠采样（undersampling），去除一些负样本使得正、负样本数目接近，然后再进行学习

过采样方法具体操作使用SMOTE（Synthetic Minority Oversampling Technique）

SMOTE的基本原理

SMOTE（Synthetic Minority Oversampling Technique）: 合成少数类过采样技术。

具体可以参考： https://www.cnblogs.com/bonelee/p/8535045.html

针对python提供了SMOTE算法库（通过 pip install -U imbalanced-learn 进行算法包安装）

from imblearn.over_sampling import SMOTE # 导入SMOTE算法模块

样本不均衡过采样实现

# 构建自变量和因变量
X = data_df[x_feature]
y = data_df["Class"]

n_sample = y.shape[0]
n_pos_sample = y[y == 1].shape[0]
n_neg_sample = y[y == 0].shape[0]
print('样本个数：{}; 正样本占{:.2%}; 负样本占{:.2%}'.format(n_sample,
                                                   n_pos_sample / n_sample,
                                                   n_neg_sample / n_sample))
print('特征维数：', X.shape[1])

样本个数：284807; 正样本占0.17%; 负样本占99.83%
特征维数： 18

from imblearn.over_sampling import SMOTE # 导入SMOTE算法模块
# 处理不平衡数据
sm = SMOTE(random_state=42)    # 处理过采样的方法
X, y = sm.fit_sample(X, y)
print('通过SMOTE方法平衡正负样本后')
n_sample = y.shape[0]
n_pos_sample = y[y == 1].shape[0]
n_neg_sample = y[y == 0].shape[0]
print('样本个数：{}; 正样本占{:.2%}; 负样本占{:.2%}'.format(n_sample,
                                                   n_pos_sample / n_sample,
                                                   n_neg_sample / n_sample))
print('特征维数：', X.shape[1])

通过SMOTE方法平衡正负样本后
样本个数：568630; 正样本占50.00%; 负样本占50.00%
特征维数： 18

分类器进行训练

构建训练集和测试集

from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y,stratify = y,test_size= 0.3,random_state=42)

len(X_train),len(X_test)

(398041, 170589)

模型训练（baseline)

#help(LogisticRegression)

# 模型训练
from sklearn.linear_model import LogisticRegression
lr = LogisticRegression() # 构建逻辑回归分类器
lr.fit(X_train, y_train)

# 测试集预测
y_pred = lr.predict(X_test)

# 模型评估
from sklearn.metrics import confusion_matrix,classification_report
print('<--------Confusion Matrix-------->\n',confusion_matrix(y_test,y_pred))
print('<--------Classification Report-------->\n',classification_report(y_test,y_pred))

<--------Confusion Matrix-------->
 [[84062  1233]
 [ 5712 79582]]
<--------Classification Report-------->
               precision    recall  f1-score   support

           0       0.94      0.99      0.96     85295
           1       0.98      0.93      0.96     85294

    accuracy                           0.96    170589
   macro avg       0.96      0.96      0.96    170589
weighted avg       0.96      0.96      0.96    170589

模型优化

模型调优采用网格搜索调优参数（grid search）-> 获取模型训练最佳参数

通过help(LogisticRegression) 或者 官方文档查知参数

init__(self, penalty='l2', *, dual=False, tol=0.0001, C=1.0, fit_intercept=True, intercept_scaling=1,
		class_weight=None, random_state=None, solver='lbfgs', max_iter=100, multi_class='auto',
		verbose=0, warm_start=False, n_jobs=None, l1_ratio=None)
 |      Initialize self.  See help(type(self)) for accurate signature.

# 构建参数组合
param_grid = {
     'C': [0.1, 1, 10,100],# 一般经验10倍增加
                            'penalty': [ 'l1', 'l2']}

clf = GridSearchCV(LogisticRegression(),  param_grid, cv=5)
clf.fit(X_train, y_train)

GridSearchCV(cv=5, estimator=LogisticRegression(),
             param_grid={'C': [0.1, 1, 10, 100], 'penalty': ['l1', 'l2']})

clf.best_params_

{'C': 10, 'penalty': 'l2'}

# 测试集预测
y_pred = clf.predict(X_test)

# 模型评估
from sklearn.metrics import confusion_matrix,classification_report
print('<--------Confusion Matrix-------->\n',confusion_matrix(y_test,y_pred))
print('<--------Classification Report-------->\n',classification_report(y_test,y_pred))

<--------Confusion Matrix-------->
 [[84049  1246]
 [ 5782 79512]]
<--------Classification Report-------->
               precision    recall  f1-score   support

           0       0.94      0.99      0.96     85295
           1       0.98      0.93      0.96     85294

    accuracy                           0.96    170589
   macro avg       0.96      0.96      0.96    170589
weighted avg       0.96      0.96      0.96    170589

绘制学习曲线

Grid Search帮你挑参数还是蛮方便的，你也可以大胆放心地在刚才其他的模型上试一把。

而且要看看模型状态是不是，过拟合or欠拟合

依旧是学习曲线

看出来了吧，训练集和测试集间隔很小,效果不错

from sklearn.model_selection import ShuffleSplit 
from sklearn.model_selection import learning_curve

def plot_learning_curve(estimator, X, y, ylim=None, cv=None,
                        n_jobs=1, train_sizes=np.linspace(.1, 1.0, 5)):
    f, ax1 = plt.subplots(1,1, figsize=(10,6), sharey=True)
    if ylim is not None:
        plt.ylim(*ylim)
    # First Estimator
    train_sizes, train_scores, test_scores = learning_curve(
        estimator, X, y, cv=cv, n_jobs=n_jobs, train_sizes=train_sizes)
    train_scores_mean = np.mean(train_scores, axis=1)
    train_scores_std = np.std(train_scores, axis=1)
    test_scores_mean = np.mean(test_scores, axis=1)
    test_scores_std = np.std(test_scores, axis=1)
    ax1.fill_between(train_sizes, train_scores_mean - train_scores_std,
                     train_scores_mean + train_scores_std, alpha=0.1,
                     color="#ff9124")
    ax1.fill_between(train_sizes, test_scores_mean - test_scores_std,
                     test_scores_mean + test_scores_std, alpha=0.1, color="#2492ff")
    ax1.plot(train_sizes, train_scores_mean, 'o-', color="#ff9124",
             label="Training score")
    ax1.plot(train_sizes, test_scores_mean, 'o-', color="#2492ff",
             label="Cross-validation score")
    ax1.set_title("Logistic Regression Learning Curve", fontsize=14)
    ax1.set_xlabel('Training size (m)')
    ax1.set_ylabel('Score')
    ax1.grid(True)
    ax1.legend(loc="best")

    return plt

title = "Learning Curves (lr C:10, penalty: l2})"

estimator = LogisticRegression(penalty='l2', C=10.0)# 提供的最优参数，训练模型查看是否过拟合

cv = ShuffleSplit(n_splits=5, test_size=0.3, random_state=42)
plot_learning_curve(estimator,  X, y, (0.87, 1.01), cv=cv, n_jobs=4)

模型评估

混淆矩阵

解决不同的问题，通常需要不同的指标来度量模型的性能。
例如我们希望用算法来预测信用卡是否是欺诈的，假设100条交易中有5条数据是欺诈，对于风控来说，尽可能提高模型的查全率（recall）比提高查准率（precision）更为重要，因为站在风控的角度，发生漏发现欺诈比发生误判更为严重。

import itertools
def plot_confusion_matrix(cm, classes,
                          title='Confusion matrix',
                          cmap=plt.cm.Blues):
    """
    This function prints and plots the confusion matrix.
    """
    plt.imshow(cm, interpolation='nearest', cmap=cmap)
    plt.title(title)
    plt.colorbar()
    tick_marks = np.arange(len(classes))
    plt.xticks(tick_marks, classes, rotation=0)
    plt.yticks(tick_marks, classes)

    thresh = cm.max() / 2.
    for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
        plt.text(j, i, cm[i, j],
                 horizontalalignment="center",
                 color="white" if cm[i, j] > thresh else "black")

    plt.tight_layout()
    plt.ylabel('True label')
    plt.xlabel('Predicted label')


from sklearn.metrics import confusion_matrix


y_pred_proba = clf.predict_proba(X_test)  #predict_prob 获得一个概率值
thresholds = [0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9]  # 设定不同阈值
plt.figure(figsize=(15,10))

j = 1
for i in thresholds:
    y_test_predictions_high_recall = y_pred_proba[:,1] > i#预测出来的概率值是否大于阈值 
    plt.subplot(3,3,j)# 3 * 3 第三行和第三列的图，j表示第几个图表
    j += 1
    cnf_matrix = confusion_matrix(y_test, y_test_predictions_high_recall)
    np.set_printoptions(precision=2)
    
    x1 = cnf_matrix[1,1]# 正样本中预测也是正样本
    x2 = (cnf_matrix[1,0]+cnf_matrix[1,1])# 所有正样本
    print("threshold:{},Recall metric in the testing dataset {}->{}->{} ".format( i, x1/x2,x1,x2))
    # Plot non-normalized confusion matrix
    class_names = [0,1]
    plot_confusion_matrix(cnf_matrix ,classes=class_names)

threshold:0.1,Recall metric in the testing dataset 0.9827772176237485->83825->85294 
threshold:0.2,Recall metric in the testing dataset 0.9658709874082585->82383->85294 
threshold:0.3,Recall metric in the testing dataset 0.9521771754167937->81215->85294 
threshold:0.4,Recall metric in the testing dataset 0.9416606091870472->80318->85294 
threshold:0.5,Recall metric in the testing dataset 0.9322109409806082->79512->85294 
threshold:0.6,Recall metric in the testing dataset 0.9277674865758435->79133->85294 
threshold:0.7,Recall metric in the testing dataset 0.9218936853706005->78632->85294 
threshold:0.8,Recall metric in the testing dataset 0.9142612610500153->77981->85294 
threshold:0.9,Recall metric in the testing dataset 0.9019391750885174->76930->85294

绘制 ROC曲线

from itertools import cycle

thresholds = [0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9]
colors = cycle(['navy', 'turquoise', 'darkorange', 'cornflowerblue', 'teal', 'red', 'yellow', 'green', 'blue','black'])

plt.figure(figsize=(12,7))

j = 1
for i,color in zip(thresholds,colors):
    y_test_predictions_prob = y_pred_proba[:,1] > i #预测出来的概率值是否大于阈值  

    precision, recall, thresholds = precision_recall_curve(y_test, y_test_predictions_prob)
    area = auc(recall, precision)# recall ,precision 组成的面积
    
    # Plot Precision-Recall curve
    plt.plot(recall, precision, color=color,
                 label='Threshold: %s, AUC=%0.5f' %(i , area))
    plt.xlabel('Recall')
    plt.ylabel('Precision')
    plt.ylim([0.0, 1.05])
    plt.xlim([0.0, 1.0])
    plt.title('Precision-Recall Curve')
    plt.legend(loc="lower left")

通过PRC曲线，获取的信息如下：

precision和recall是一组矛盾的变量。
从上面混淆矩阵和PRC曲线可以看到，阈值越小，recall值越大，模型能找出信用卡被盗刷的数量也就更多，但换来的代价是误判的数量也较大。
随着阈值的提高，recall值逐渐降低，precision值也逐渐提高，误判的数量也随之减少。
通过调整模型阈值，控制模型反信用卡欺诈的力度，若想找出更多的信用卡被盗刷就设置较小的阈值，反之，则设置较大的阈值

回顾总结

模型评估指标，什么用召回率？什么时候用准确率

没有固定的标准，例如：我们在新闻闻本分类，希望预测的新闻的类别准确高即可。

然而在信用卡欺诈这种，我们更期望召回更多欺诈data(哪怕错误召回呢，我们也近可能多的召回欺诈数据）

分类场景样本不均衡：本案例中针对正样本不足的数据，采用SMOTE算法进行过采样
二分类分类中，预测一个样本可能性。如何设置阈值没有固定的标准，更多的结合业务来判断（因为不同的阈值，对召回率和精确率是有影响的），就看我们的业务到底希望提升那个指标为参考。例如：信用卡欺诈这种业务，更希望召回率高些（意思就是把可能欺诈交易全部拦截）
针对二分类可能传统的机器学习或者深度学习，我们这里选择机器学习并且采用LR作为我们的baseline的模型（可以有效解释那些特征好用，业务解释性强）
针对这类任务，发现特征工程重要性，尤其V1-V28 这种数据我们可以分析，直接影响模型的效果，总之，数据数据太重要了

参考资料

[1] E-10】object of type cannot be safely interpreted as an integer.(numpy)

https://www.cnblogs.com/yifanrensheng/p/13460540.html

https://blog.csdn.net/qq_37591637/article/details/103060767

! pip install -U numpy==1.17.0

[2] 样本不均衡过采样解决方案：SMOTE算法
https://juejin.im/post/6844904067076980743

你可能感兴趣的:(机器学习,机器学习,信用卡欺诈,二分类)

【数据标注师】拼音和停顿标注试着数据标注师数据标注师拼音和停顿标注
目录一、任务本质与技术价值**标注双核心目标****应用场景**二、专业工作环境配置**硬件三件套****软件生态**三、拼音标注深度指南**标注规范体系（GB/T16159-2012）****特殊场景处理**四、停顿标注核心技术**韵律层级体系****标注规范（ToBI标准扩展）****实操技巧**五、全流程标注实战**联合标注示例****复杂场景处理**六、质量与效率管控**错误预防清单***
【数据标注师】语音切割转写试着数据标注师数据标注师语音切割转写
目录**一、语音标注任务解析****任务类型矩阵****核心挑战****二、硬件与工具准备****专业级工作环境配置****必备工具掌握****三、核心技能深度训练****模块1：精准切割技术****模块2：专业级听辨能力****模块3：转写规范体系****四、复杂场景攻坚策略****场景1：多人对话分割****场景2：专业领域转写****五、质量与效率双提升****质检避错清单****效率提升方
数据标注师学习内容汇总试着数据标注师学习数据标注师
目录文本标注图像标注语音标注文本标注词性标注1词性标注2实体标注关系标注事件标注1事件标注2意图标注关键词标注分类标注问答标注对话标注图像标注拉框标注关键点标注2D标注3D标注线标注目标跟踪标注OCR标注图像分类标注语音标注语音切割转写语音校对标注拼音和停顿标注
办公IT问题管理平台（含移动端和PC端的问题提报与工单跟踪）避坑 Alex艾力的IT数字空间微服务 vscode 安全 tomcat spring boot 功能测试 ux
一、核心功能模块设计1.问题提报模块多渠道接入支持Web端、移动端（APP/小程序）、邮件、电话、企业微信/钉钉集成等多种提交方式，用户可快速描述问题并上传截图或附件。智能表单：根据用户角色（如员工、部门管理员）动态展示字段（如部门、设备类型、影响范围）。自动分类与优先级：通过关键词识别（如“网络中断”“系统崩溃”）自动分配问题分类，结合预设规则（如影响用户数）设定优先级。用户界面优化移动端：简化
目标追踪数据标注 sethrsinine 目标跟踪
在将YOLO（目标检测）和DeepSORT（目标追踪）结合时，数据标注需要同时满足检测和追踪的需求。以下是具体的分阶段标注策略和操作指南：一、标注的核心要求检测标注：每帧中目标的边界框（BoundingBox）和类别标签（如行人、车辆）。追踪标注：跨帧的目标ID（TrackID），确保同一目标在不同帧中ID一致。二、分阶段标注流程阶段1：视频预处理•目标：将视频转换为可标注的帧序列。•操作：使用F
SeaTunnel2.1.1源码解析 Adobee Chen 大数据知识点 seaTunnel 大数据
目录一：启动脚本解析二：源码解析入口2.execute()核心方法1.其中BaseSource、BaseTransform、BaseSink都是接口、都实现Plugin接口。他们的实现类就是对应的插件类型2.execute()方法向下走，创建一个执行环境。3.调用plugin.prepare(env)4.最后启动execution.start(sources,transforms,sinks);5
E IO流.java 是紫焅呢 26字母学习：java入门篇 java 开发语言学习方法 visual studio code 后端
前言：I/O（输入/输出）操作是构建各类应用程序的基石之一。Java提供了功能强大且灵活的I/O流机制，用于处理数据的读取与写入，无论是简单的文本文件操作，还是复杂的网络数据传输，都离不开I/O流的支持。目录一、初识JavaI/O流数据的“传送带”二、字节流操作从读取到写入的实战1.读取文件（字节流）2.写入文件（字节流）三、字符流操作读写文本文件的简便之道1.读取文件（字符流）2.写入文件（字符
SELinux 从理论到实践：深入解析与实战指南智驾 Linux SELinux TEE Linux 安全启动
文章目录引言：为什么需要SELinux？第一部分：SELinux核心理论1.1SELinux的三大核心模型1.2安全上下文（SecurityContext）1.3策略语言与模块化第二部分：实战操作指南2.1SELinux状态管理2.2文件上下文管理2.3服务配置与排错第三部分：高级技巧与最佳实践3.1自定义策略模块开发3.2常见问题与解决方案总结：SELinux的价值与学习路径参考引言：为什么需要
【数据标注师】目标跟踪标注试着数据标注师目标跟踪人工智能计算机视觉数据标注师目标跟踪标注
目录一、**目标跟踪标注的四大核心挑战**二、**五阶能力培养体系**▶**阶段1：基础规则内化（1-2周）**▶**阶段2：复杂场景处理技能**▶**阶段3：专业工具mastery**▶**阶段4：领域深度专精▶**阶段5：效率突破方案三、**精度控制五大核心技术**四、**质检与错误防御体系**1.**四维质检法**：2.**高频错误防御表**：五、**持续进阶体系**1.**复杂场景专项**
修罗论坛二开模板仿网盘资源社优化指南（附源码部署与功能增强方案） wuyoula php源码
修罗论坛二开模板仿网盘资源社优化指南（附源码部署与功能增强方案）https://whct.lanzoue.com/i9dhj2wnteij
python ks值计算_风控模型中的K-S理解以及python实现 weixin_39747293 python ks值计算
笔者在工作中计算单变量的ks值时，发现几个分布不同的变量好y计算的ks值相同，凭借统计直觉，发现一定存在问题，笔者从数据和计算ks代码两个方向进行排除。最后定位到计算使用stats.ks_2samp()函数计算ks值时，如果变量存在缺失值，计算得到ks值有误，下面笔者就来好好梳理一下ks值的前世今生。ks检验介绍笔者刚入门机器学习开始做的例子就是金融场景下风控模型。那时评价模型的好坏就用传统的机器
人工智能大模型原理与应用实战：大模型在金融风控中的应用 AI天才研究院 LLM大模型落地实战指南大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
文章目录人工智能大模型原理与应用实战：大模型在金融风控中的应用01.背景介绍1.1金融风控的挑战1.2大模型的优势2.核心概念与联系2.1大模型在金融风控中的应用场景2.2大模型与传统风控技术的结合3.核心算法原理具体操作步骤3.1基于大模型的欺诈检测3.2基于大模型的信用评估4.数学模型和公式详细讲解举例说明4.1逻辑回归模型4.2XGBoost模型5.项目实践：代码实例和详细解释说明5.1基于
随机森林详解：原理、优势与应用实践大千AI助手人工智能 Python #OTHER 随机森林算法机器学习决策树人工智能 DecisionTree 数据挖掘
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！随机森林介绍1.定义：随机森林是一种强大的、高度灵活的集成学习（EnsembleLearning）算法，主要用于分类和回归任务。它的核心思想是构建多棵决策树（DecisionTree），并将这些树的预测结果进行组合（例如，分类任务采用投票，回归任务采用
**双生“基尼”**：跨越世纪的术语撞车与学科分野
在学术的宇宙中，“基尼”（Gini）这个名字如同一个奇特的星标，闪耀在两个看似毫不相关的领域：衡量社会贫富差距的经济学与驱动人工智能的机器学习。然而，当人们在这两个领域都遇到“基尼指数”或“基尼系数”时，困惑油然而生——它们为何如此不同？又为何共享同一个名字？这不是某个“傻逼”的随意命名，而是一场跨越学科与世纪的“术语交通事故”，其背后是学术传承与概念抽象的交织。本文由「大千AI助手」原创发布，专
【第二章:机器学习与神经网络概述】03.类算法理论与实践-(3)决策树分类器 IT古董人工智能课程机器学习算法神经网络
第二章:机器学习与神经网络概述第三部分：类算法理论与实践第三节：决策树分类器内容：信息增益、剪枝技术、过拟合与泛化能力。决策树是一种常用于分类和回归的树状结构模型，它通过一系列特征判断进行决策，有良好的可解释性。一、基本概念节点（Node）：表示特征判断条件边（Branch）：表示特征判断的结果路径叶子节点（Leaf）：表示分类结果二、划分准则：信息增益（InformationGain）信息增益衡
算法练习-02 亮亮爱刷题算法数据结构 c++
今天给大家带来的是第二天的几道练习题，包括几道思路特别巧妙的算法题，以及提升的背包问题，相信这类问题对大家算法能力的提升还是十分有帮助的，希望大家学完可以给博主点一个关注。第一题：问题描述给定一个长度为n的数组a，小蓝希望从数组中选择若干个元素（可以不连续），并将它们重新排列，使得这些元素能够形成一个先严格递增然后严格递减的子序列（可以没有递增部分或递减部分）。你需要求出在满足这个条件下，最多可以
第 3 章：神经网络如何学习鱼摆摆拜拜神经网络学习人工智能
第3章：神经网络如何学习在第二章中，我们详细了解了神经网络的静态结构：由神经元组成的层，以及连接它们的权重和偏置。现在，我们将进入整个教程最核心的部分：神经网络是如何从数据中"学习"的？这个学习过程是一个动态的、不断调整自身参数以求更佳预测的过程。我们将通过四个关键概念来揭示这个秘密：前向传播(ForwardPropagation)：数据如何通过网络产生一个预测？损失函数(LossFunction
【二】19.关于LCD和LTDC 我滴Yang #STM32MP157驱动入门 fpga开发
前言：。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。1.LCD简介：（1）什么是LCD:全称LiquidCrystalDisplay,其构造是在两片平行得玻璃基板中放置液晶盒，下基板玻璃上设置TFT（薄膜晶体管），上基板玻璃上设置彩色滤光片，通过TFT上的信号与电压改变来控制液晶分子的转动方向，从而达到控制每个像素点偏振光出射与否而达到显示目的。（2）
Bootstrap 5学习教程，从入门到精通，Bootstrap 5 表单语法知识点及案例（28）知识分享小能手前端开发 Bootstrap5 网页开发 bootstrap 学习前端 typescript html css javascript
Bootstrap5表单语法知识点及案例Bootstrap5提供了强大而灵活的表单控件和布局选项。一、基础表单结构Bootstrap5表单需要以下基本结构：基础表单示例Bootstrap5基础表单邮箱地址我们不会将您的邮箱分享给其他人。密码记住我提交二、表单控件1.输入框(Input)Bootstrap5提供了多种输入框样式：文本输入邮箱输入密码输入数字输入日期输入2.文本域(Textarea)文
对照原则在临床试验中的应用与挑战
一、对照原则的科学逻辑1.1核心目的1.1.1区分混杂效应通过对照组设置，区分疾病自然进程、安慰剂效应、回归均值现象及非特异性效应等混杂因素，凸显干预措施的真实疗效。1.2统计本质1.2.1真实疗效计算真实疗效=（干预组终点变化-干预组基线）-（对照组终点变化-对照组基线），通过组间比较抵消共同偏倚。二、对照组的五大类型及适用场景2.1安慰剂对照2.1.1构成外观/用法相同的无活性物质。2.1.2
随机化在临床试验中的应用与挑战 qq_34062333 临床试验统计学
一、随机化的核心目的1.1控制混杂偏倚1.1.1平衡预后因素确保已知/未知预后因素在组间分布均衡，避免基线不平衡影响结果。1.1.2避免选择偏倚防止研究者或患者主观选择分组，保障组间差异归因于干预。1.2保障统计推断有效性1.2.1满足独立性假设满足统计检验的独立性假设，使统计推断有效。1.2.2实现盲法基础为双盲实施提供先决条件，确保试验结果无偏。二、随机化类型与技术实现2.1简单随机化2.1.
重复原则与样本量估计：临床试验的统计引擎 qq_34062333 临床试验统计学
一、重复原则的科学内涵1.1核心目的1.1.1量化随机误差通过足够样本量估计效应值的波动范围，确保结果可重现。1.1.2避免偶然性结论避免因小样本极端结果导致的偶然性结论，确保结论稳健。1.1.3提升外推性覆盖人群异质性，提升研究结果的外推性。1.2统计学本质1.2.1标准误样本量增加，标准误减小，置信区间变窄，精度提高。二、样本量估计的四大核心参数2.1显著性水平(α)2.1.1定义I类错误概率
MSTP技术解析：提升网络负载均衡 Honey\ 服务器运维
MSTP背景RSTP/STP的缺陷:RSTP/STP的被阻塞端口阻塞的链路不承载任何流量，无法实现数据的负载均衡；可能有二层次优路径MSTP:通过将一个或多个VLAN映射到instance上，再基于instance进行生成树的计算解决了二层环路问题；提供了二层网络冗余环境；实现流量的负载分担MSTP基本概念MSTRegion（多生成树域）:MSTP网络中包含一个或多个MST域MSTI（多生成树实例
mb_bootloop_le.elf是使用microblaze默认的elf文件，这个文件包括哪些内容？ hahaha6016 硬件设计 fpga开发
一、mb_bootloop_le.elf说明1.mb_bootloop_le.elf是使用microblaze的FPGA的时候的默认的elf文件；2.XilinxSDK中的.elf文件全称为“ExecutableandLinkingFormat”（ELF）文件‌3.fpga开发中xilinxsdk的elf文件就是arm程序文件;elf文件大小就决定了你的堆栈大小要分配多大二、mb_bootloop
Web中间件性能调优指南：线程池、长连接与负载均衡的最佳实践编程实战派-李工《Java 负载均衡中间件优化 Tomcat调优 Nginx配置性能工程线程池技术 Keep-Alive优化
目录引言一、Web容器线程池配置不当1.1线程池参数的核心作用与影响1.2线程池大小计算模型1.3动态调优实践二、Keep-Alive机制配置缺陷2.1Keep-Alive的工作原理2.2典型配置问题与影响2.3优化配置建议三、负载均衡策略缺失3.1负载均衡的核心价值3.2主流负载均衡算法对比3.3Nginx关键配置优化四、全链路压测与调优方案4.1压测实施流程4.2典型优化案例4.3持续监控体系
redis的持久化 2401_85327573 redis 数据库缓存
Redis的持久化机制是其重要特性之一，允许将内存中的数据保存到磁盘，以防止数据丢失或支持系统重启后数据恢复；Redis提供两种主要持久化方式：RDB（快照）和AOF（追加日志）。1.Redis持久化机制(1)RDB（快照）RDB持久化通过定期将内存中的数据集快照保存到磁盘上的二进制文件。-工作原理：-Redis在满足特定条件（如时间间隔或操作次数）时，触发快照操作。-优点：-文件紧凑，适合备份和
RDKit：药物化学和分子数据处理的强大工具库碳酸的唐机器学习人工智能
引言在药物研发、化学信息学和分子设计领域，高效处理和分析分子数据是至关重要的。RDKit作为一个开源的化学信息学和机器学习工具包，为研究人员和数据科学家提供了丰富的功能，包括分子操作、描述符计算、指纹生成、相似性比较、子结构搜索和分子可视化等。本文将详细介绍RDKit的主要功能、应用场景以及实际操作示例，展示这一强大工具在分子数据处理中的核心价值。RDKit简介RDKit是一个由C++和Pytho
【AI大模型】Spring AI 基于Redis实现对话持久存储详解小码农叔叔 AI 大模型应用到项目实战高手 springboot 入门到精通项目实战 Spring AI会话存储 Spring AI会话记忆 Spring AI持久化会话 Spring AI会话持久化 Spring AI会话 Spring AI记忆
目录一、前言二、SpringAI会话记忆介绍2.1SpringAI会话记忆概述2.2常用的会话记忆实现方式2.2.1集成数据库持久存储会话实现步骤2.3适用场景三、SpringAI基于内存会话记忆存储3.1本地开发环境准备3.2工程搭建与集成3.2.1添加核心依赖3.3.2添加配置文件3.3.3添加测试接口3.2ChatMemory介绍3.2.1ChatMemory概述3.2.2InMemoryC
【AI智能体】Coze 搭建个人旅游规划助手实战详解小码农叔叔 AI 大模型应用到项目实战高手 AI 智能体实战应用高手 Coze制作旅游规划助手 Coze 制作旅游规划机器人 coze搭建旅游助手 coze搭建旅游助手机器人 coze制作旅游助手 coze 机器人 coze使用详解
目录一、前言二、Coze工作流介绍2.1什么是工作流2.2Coze工作流作用2.3Coze工作流节点介绍2.3.1开始节点2.3.2大模型节点2.3.3插件节点2.3.4知识库节点2.3.5条件节点三、基于Coze搭建旅游规划助手操作过程3.1创建应用3.2创建工作流3.2.1创建工作流3.2.2配置工作流3.2.2.1配置开始节点3.2.2.2增加第一个大模型节点3.2.2.3增加第二个大模型节
【AI智能体】Spring AI MCP 服务常用开发模式实战详解小码农叔叔 AI 大模型应用到项目实战高手 springboot 项目实战到高手 Spring AI MCP MCP 详解 springboot使用mcp mcp使用详解 mcp开发模式 mcp MCP使用
目录一、前言二、MCP介绍2.1MCP是什么2.2MCP核心特点2.3SpringAIMCP介绍2.3.1SpringAIMCP架构2.3.2SpringAIMCP分层说明2.4两种模式介绍三、本地开发SSE模式3.1搭建mcp-server3.1.1导入工程核心依赖3.1.2添加配置文件3.1.3提供两个Tool3.1.4注册Tool3.2搭建mcp-client3.2.1导入核心依赖3.2.2
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa