Li Kang

Credit Fraud信用卡欺诈数据集，如何处理非平衡数据

Credit Fraud

- 简介
- - 数据来源
  - 模型评价标准
- 不平衡样本的处理
- - 不平衡样本的分析
  - 不处理样本
  - - 不设置权重
    - 设置权重，使用balanced
    - 设置权重，使用不同的权重
  - AUC(ROC) 与 AUC(PRC)对比
  - 升采样
  - 升采样SMOTE
  - XGBoost 建模
  - 参考链接

简介

数据来源

数据集源自位于比利时布鲁塞尔ULB(Université Libre de Bruxelles) 的研究小组Worldline and the Machine Learning Group。数据集包含由欧洲持卡人于2013年9月使用信用卡在两天内发生的交易，284,807笔交易中有492笔被盗刷，正类（被盗刷）占所有交易的0.172％，数据集非常不平衡。它只包含作为PCA转换结果的数字输入变量。由于保密问题，特征V1，V2，… V28是使用PCA获得的主要组件，只有“交易时间”和“交易额”是原始特征。

可以从以下几个方面来探索数据集：

识别信用卡盗刷；
不平衡样本的处理方式尝试不同的重采样是如何影响模型的效果
模型可以尝试Logistic回归、svm、决策树、XGBoost等进行预测

模型评价标准

由于样本的不平衡性与不平衡率，推荐使用Area Under the Precision-Recall Curve (AUPRC)来衡量准确率。注意，对于非平衡样本的分类，不推荐使用混淆矩阵（Confusion matrix）进行准确率评估，因为是没有意义的。所以可以在平衡样本后使用混淆矩阵评估准确率。

不平衡样本的处理

在这个数据集中，因为样本的极度不平衡，需要对样本进行分析，预处理之后再训练模型。本文介绍四种处理方式。

不处理
降采样
过采样
SMOTE过采样

不平衡样本的分析

df = pd.read_csv('creditcard.csv')
df['Class'].value_counts()

0    284315
1       492
Name: Class, dtype: int64

在这个数据集中，Class = 0的样本数为 284315，比例为 99.82%，Class =1 的样本数为492，比例为 0.17%。如果不做任何处理，会导致很多分析失效。比如在分析特征和目标的关联性时，如果对数据不做处理，则有可能得不到任何有意义的结果。代码如下。

# set frac = 1 is to shuffle the samples
df = df.sample(frac = 1)
fraud_df = df.loc[df['Class'] == 1]
nofraud_df = df.loc[df['Class'] == 0][:492]

从数据集中按1：1的比例得到Class = 0 和 Class = 1 的训练数据，各492个。

normal_distributed_df = pd.concat([fraud_df, nofraud_df])
new_df = normal_distributed_df.sample(frac = 1, random_state = 42)
print(new_df['Class'].value_counts()/len(new_df))

1    0.5
0    0.5
Name: Class, dtype: float64

做correlation, 这里需要对两种情况进行分析，一个是极度非平衡的数据集，一个是降采样过后，比例为1：1的

## correlation, 这里需要对两种情况进行分析，一个是没有重采样的，一个是重采样，比例为1：1的
f,(ax1, ax2) = plt.subplots(2,1,figsize = [12,15])

corr = df.corr()
sns.heatmap(corr, cmap = 'coolwarm_r', annot_kws = {'size' : 20}, ax = ax1)
ax1.set_title('Imbalanced correlation matrix', fontsize = 14)

new_corr = new_df.corr()
sns.heatmap(new_corr,cmap = 'coolwarm_r', annot_kws = {'size' : 20}, ax = ax2)
ax2.set_title('Balanced correlation matrix', fontsize = 14)
plt.show()

在imbalance的correlation中，几乎找不到正关系，但是在balanced中，V2,V4,V11,V19 是明显的正关系，V1，V3，V7，V10, V12, V14, V16, V17 是明显的负关系。选择其中几种先看下正关系, V19关系最弱。

## 在imbalance的correlation中，几乎找不到正关系，但是在balanced中，
## V2,V4,V11,V19 是明显的正关系，V1，V3，V7，V10,V12,V14,V16,V17, 
## 选择其中几种先看下正关系, V19关系最弱
f, axes = plt.subplots(ncols = 4, figsize = [20,4])
sns.boxplot(x ='Class', y = 'V2', data = new_df, ax = axes[0])
axes[0].set_title('the positive correlation between V2 and y')

sns.boxplot(x ='Class', y = 'V4', data = new_df, ax = axes[1])
axes[1].set_title('the positive correlation between V4 and y')

sns.boxplot(x ='Class', y = 'V11', data = new_df, ax = axes[2])
axes[2].set_title('the positive correlation between V11 and y')

sns.boxplot(x ='Class', y = 'V19', data = new_df, ax = axes[3])
axes[3].set_title('the positive correlation between V19 and y')

plt.show()

f, axes = plt.subplots(ncols = 4, figsize = [20,4])

sns.boxplot(x = 'Class', y = 'V10', data = new_df, ax = axes[0])
axes[0].set_title('the negative correlation between V10 and class')
sns.boxplot(x = 'Class', y = 'V12', data = new_df, ax = axes[1])
axes[1].set_title('the negative correlation between V12 and class')
sns.boxplot(x = 'Class', y = 'V14', data = new_df, ax = axes[2])
axes[2].set_title('the negative correlation between V14 and class')
sns.boxplot(x = 'Class', y = 'V17', data = new_df, ax = axes[3])
axes[3].set_title('the negative correlation between V17 and class')
plt.show()

不处理样本

由上面的分析可知，如果对样本不处理，很有可能连基本的相关都得不到。其实在各种分类模型中，可以对不同的分类标签，设置不同的权重，通过这个权重能影响到损失函数。这里我先不对样本做处理，观察不同的权重对分类模型的性能的影响。

不设置权重

df = pd.read_csv('creditcard.csv')
X = df.drop(['Class'], axis = 1)
y = df['Class']
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size = 0.2, random_state = 42)
X_train = X_train.values
X_test = X_test.values
y_train = y_train.values
y_test = y_test.values

from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report
lr_clf = LogisticRegression()
lr_clf.fit(X_train,y_train)
trainning_scores = cross_val_score(lr_clf, X_train,y_train, cv = 5)
print('logistic regression has a trainning score,', trainning_scores.mean()*100, '% accuracy')
## 这个只是accuracy ，不重要,关键是precision，recall，f1score和auc

logistic regression has a trainning score, 99.9043207946966 % accuracy

查看precision和recall

         -------- Classification Report --------
              precision    recall  f1-score   support

           0       1.00      1.00      1.00    284315
           1       0.86      0.60      0.71       492

    accuracy                           1.00    284807
   macro avg       0.93      0.80      0.85    284807
weighted avg       1.00      1.00      1.00    284807

设置权重，使用balanced

LogisticRegression()有一个参数class_weight，默认值为None，在本次实验中设置为 ‘balanced’。从结果来看，这个weight是根据class的比例来确定的，约为577。后面的实验会对class0 和class1 设置具体的权重，当class_weight = {0:1,1:500})时，分类器的性能与本次实验接近。

lr_model = LogisticRegression(class_weight = 'balanced')
lr_model.fit(x_train,y_train)
y_pred = lr_model.predict(x_test)
plotConfusionMatrixClassificationReport(y_test, y_pred, len_class0, len_class1)

             -------- Classification Report --------
              precision    recall  f1-score   support

           0       1.00      0.97      0.99     99511
           1       0.06      0.96      0.11       172

    accuracy                           0.97     99683
   macro avg       0.53      0.97      0.55     99683
weighted avg       1.00      0.97      0.98     99683

设置权重，使用不同的权重

本次实验，对LogisticRegression()中的class_weight 设置具体的权重参数。其中class0的权重始终为1，而class1的权重为[1,5,10,50,100,500]。分析不同权重对分类器的影响。结果显示当class1的权重为5或者10的时候，precision和recall能取得比较好的平衡，当权重为50或500时，AUC(PR)较大。

for w in [1,5,10,50,100,500]:
    print('weight is {} for fraud class --'.format(w))
    lr_model = LogisticRegression(class_weight = {0:1,1:w})
    lr_model.fit(x_train,y_train)
    y_pred = lr_model.predict(x_test)
    plotConfusionMatrixClassificationReport(y_test, y_pred, len_class0, len_class1)
##
fig = plt.figure(figsize = [15,8]) 
ax1 = fig.add_subplot(1,2,1)
ax1.set_title('ROC CURVE')
ax1.set_xlim([-0.05,1.05])
ax1.set_ylim([-0.05,1.05])
ax1.set_xlabel('FPR')
ax1.set_ylabel('TPR')
plt.grid()

ax2 = fig.add_subplot(1,2,2)
ax2.set_title('PR CURVE')
ax2.set_xlim([-0.05, 1.05])
ax2.set_ylim([-0.05, 1.05])
ax2.set_xlabel('recall')
ax2.set_ylabel('precision')
plt.grid()
for w,k in zip([1,5,10,50,100,500,10000], 'bgrcmykw'):
    lr_model = LogisticRegression(class_weight = {0:1,1:w})
    lr_model.fit(x_train,y_train)
    y_pred = lr_model.predict(x_test)
    y_pred_prob = lr_model.predict_proba(x_test)[:,1]
    p,r,_ = precision_recall_curve(y_test, y_pred_prob)
    fpr, tpr,_ = roc_curve(y_test, y_pred_prob)
    precision = precision_score(y_test, y_pred)
    recall = recall_score(y_test, y_pred)
    roc_score = roc_auc_score(y_test, y_pred_prob)
    pr_score = auc(r,p)
    print('weight is {} for fraud class --'.format(w))
    print('the precision score is,',precision_score )
    print('the recall score is,',recall_score )
    print('the pr score is,', pr_score)
    ax1.plot(fpr, tpr, c=k, label = w)
    ax2.plot(r,p, c = k, label = w)
ax1.legend(loc = 'lower right')
ax2.legend(loc = 'lower left')
plt.show()

weight is 1 for fraud class --


         -------- Classification Report --------
              precision    recall  f1-score   support

           0       1.00      1.00      1.00     99511
           1       0.82      0.56      0.66       172

    accuracy                           1.00     99683
   macro avg       0.91      0.78      0.83     99683
weighted avg       1.00      1.00      1.00     99683

weight is 5 for fraud class --
         -------- Classification Report --------
              precision    recall  f1-score   support

           0       1.00      1.00      1.00     99511
           1       0.81      0.83      0.82       172

    accuracy                           1.00     99683
   macro avg       0.91      0.92      0.91     99683
weighted avg       1.00      1.00      1.00     99683

weight is 10 for fraud class --
         -------- Classification Report --------
              precision    recall  f1-score   support

           0       1.00      1.00      1.00     99511
           1       0.74      0.85      0.79       172

    accuracy                           1.00     99683
   macro avg       0.87      0.93      0.90     99683
weighted avg       1.00      1.00      1.00     99683

weight is 50 for fraud class --
         -------- Classification Report --------
              precision    recall  f1-score   support

           0       1.00      1.00      1.00     99511
           1       0.45      0.88      0.60       172

    accuracy                           1.00     99683
   macro avg       0.73      0.94      0.80     99683
weighted avg       1.00      1.00      1.00     99683

weight is 100 for fraud class --
         -------- Classification Report --------
              precision    recall  f1-score   support

           0       1.00      1.00      1.00     99511
           1       0.24      0.90      0.38       172

    accuracy                           0.99     99683
   macro avg       0.62      0.95      0.69     99683
weighted avg       1.00      0.99      1.00     99683

weight is 500 for fraud class --
      -------- Classification Report --------
              precision    recall  f1-score   support

           0       1.00      0.98      0.99     99511
           1       0.07      0.96      0.12       172

    accuracy                           0.98     99683
   macro avg       0.53      0.97      0.56     99683
weighted avg       1.00      0.98      0.99     99683

weight is 1 for fraud class --
the pr score is, 0.5836083385125052

weight is 5 for fraud class --
the pr score is, 0.7824530246938387

weight is 10 for fraud class --
the pr score is, 0.7866313311565967

weight is 50 for fraud class --
the pr score is, 0.8013701456084669

weight is 100 for fraud class --
the pr score is, 0.7971764777129003

weight is 500 for fraud class --
the pr score is, 0.8026288380720867

weight is 10000 for fraud class --
the pr score is, 0.7385516882490497

AUC(ROC) 与 AUC(PRC)对比

如上图所示，ROC曲线越凸向左上方向效果越好，PR曲线是右上凸效果越好。

当正负样本差距不大的情况下，ROC和PR的趋势是差不多的，但是当负样本很多的时候，两者就截然不同了，ROC效果依然看似很好，但是PR上反映效果一般。这个很好理解。在本次数据中，负样本远大于正样本。 $T P R = T P / (T P + F N)$ $F P R = F P / (F P + T N)$ 正样本很小，则TPR的分母很小，TPR会一直很大。负样本很大，则FPR的分母很大，此时即便FP数量够多，仍然对FPR影响较小，这样的话，ROC的结果会一直很好。

对于PR，Recall与TPR相同 $R e c a l l = T P / (T P + F N)$ $P r e c i s i o n = T P / (T P + F P)$ 如果FP数量很大，因为TP数量会远小于FP，则对Precision指标会很差。因此对于正负样本区别较大的情况，PR更能准确反应模型性能。

总结

ROC曲线的特点是，当正负样本的分布发生变化时，ROC曲线的形状能够基本保持不变，而PR曲线回发生剧烈的变化。
选择PR曲线还是ROC曲线是因实际问题而异的。ROC曲线能够更加稳定地反应模型本身地好坏。如果希望更多地看到模型在特定数据集上的表现，PR曲线更能够直观地反应其性能。

升采样

升采样SMOTE

SMOTE（Synthetic Minority Oversampling Technique），合成少数类过采样技术。它是基于随机过采样算法的一种改进方案，由于随机过采样采取简单复制样本的策略来增加少数类样本，这样容易产生模型过拟合的问题.

SMOTE算法的基本思想是对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中,算法流程如下。

对于少数类中每一个样本 $x$ ，以欧氏距离为标准计算它到少数类样本集中所有样本的距离，得到其k近邻。
根据样本不平衡比例设置一个采样比例以确定采样倍率N，对于每一个少数类样本 $x$ ，从其k近邻中随机选择若干个样本，假设选择的近邻为 $\tilde{x}$ 。
对于每一个随机选出的近邻 $\tilde{x}$ ，分别与原样本按照如下的公式构建新的样本。类似一个线性插值的思想.
$x_{new} = x + rand(0,1) * (\tilde{x} - x)$

from imblearn.over_sampling import SMOTE
os = SMOTE(random_state = 0)
df = pd.read_csv('creditcard.csv')
data_train_X,data_test_X,data_train_y,data_test_y=data_prepration(df)
columns = data_train_X.columns
os_data_X,os_data_y=os.fit_sample(data_train_X,data_train_y)
os_data_X = pd.DataFrame(data=os_data_X,columns=columns )
os_data_y= pd.DataFrame(data=os_data_y,columns=["Class"])

os_data_X['Normalized_Amount'] = StandardScaler().fit_transform(os_data_X['Amount'].values.reshape(-1, 1))
os_data_X.drop(['Time','Amount'],axis=1,inplace=True)
data_test_X['Normalized_Amount'] = StandardScaler().fit_transform(data_test_X['Amount'].values.reshape(-1, 1))
data_test_X.drop(["Time","Amount"],axis=1,inplace=True)
# Now start modeling
#clf= RandomForestClassifier(n_estimators=100)
# train data using oversampled data and predict for the test data
#model(clf,os_data_X,data_test_X,os_data_y,data_test_y)

_,(len_class0, len_class1) = np.unique(data_test_y, return_counts = True)
rndf_model = RandomForestClassifier(n_estimators = 100)
rndf_model.fit(os_data_X,os_data_y)
y_pred = rndf_model.predict(data_test_X)
plotConfusionMatrixClassificationReport(data_test_y, y_pred, len_class0, len_class1)

	-------- Classification Report --------
          precision    recall  f1-score   support

       0       1.00      1.00      1.00     85288
       1       0.88      0.86      0.87       155
  accuracy                            1.00     85443
  macro avg       0.94      0.93      0.93     85443	
  weighted avg    1.00      1.00      1.00     85443

the roc score is, 0.9690044131307659
the pr score is, 0.8758591483908675

XGBoost 建模

使用XGBoost模型做预测，其中参数如下

XGBC = xgb.XGBClassifier(
    gamma = 0.1,                      # Gamma指定了节点分裂所需的最小损失函数下降值，值越大，算法越保守。
    learning_rate = 0.3,              # 学习速率
    max_delta_step = 0,               # 限制每棵树权重改变的最大步长。0为没有限制，越大越保守。可用于样本不平衡的时候。
    max_depth = 5,                    # 树的最大深度
    min_child_weight = 6,             # 最小叶子节点样本权重和。低避免过拟合，太高导致欠拟合。
    missing = None,                   # 如果有缺失值则替换。默认 None 就是 np.nan
    n_estimators = 250,               # 树的数量
    nthread = 8,                      # 并行线程数量
    objective = 'binary:logistic',    # 指定学习任务和相应的学习目标或要使用的自定义目标函数
    #'objective':'multi:softprob',    # 定义学习任务及相应的学习目标
    #'objective':'reg:linear',        # 线性回归
    #'objective':'reg:logistic',      # 逻辑回归
    #'objective':'binary:logistic',   # 二分类的逻辑回归问题，输出为概率
    #'objective':'binary:logitraw',   # 二分类的逻辑回归问题，输出结果为 wTx，wTx指机器学习线性模型f(x)=wTx+b
    #'objective':'count:poisson'      # 计数问题的poisson回归，输出结果为poisson分布
    #'objective':'multi:softmax'      # 让XGBoost采用softmax目标函数处理多分类问题，同时需要设置参数num_class
    #'objective':'multi:softprob'     # 和softmax一样，但是输出的是ndata * nclass的向量，
                                      # 可以将该向量reshape成ndata行nclass列的矩阵。
                                      # 每行数据表示样本所属于每个类别的概率。
    reg_alpha = 1,                    # 权重的L1正则化项。默认1
    reg_lambda = 1,                   # 权重的L2正则化项。默认1
    scale_pos_weight = 500,           # 数字变大，会增加对少量诈骗样本的学习权重，这里500比较好
    seed = 0,                         # 随机种子
    silent = True,                    # 静默模式开启，不会输出任何信息
    subsample = 0.9,                  # 控制对于每棵树，随机采样的比例。减小会更加保守，避免过拟,过小会导致欠拟合。
    base_score = 0.5)                 # 所有实例的初始预测评分,全局偏差

              precision    recall  f1-score   support

           0       1.00      1.00      1.00     99507
           1       0.91      0.82      0.87       176

    accuracy                           1.00     99683
   macro avg       0.96      0.91      0.93     99683
weighted avg       1.00      1.00      1.00     99683

the roc score is, 0.9772280753204206
the pr score is, 0.8462308516485526

参考链接

https://www.kaggle.com/lct14558/imbalanced-data-why-you-should-not-use-roc-curve
https://www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets
XGBoost 与信用卡诈骗数据集三

（二）SAP Group Reporting (GR) 核心子模块功能及数据流向架构解析
数据如何从子公司流转到合并报表的全过程，即数据采集→合并引擎→报表输出，特别是HANA内存计算如何优化传统ETL瓶颈。SAPGroupReporting(GR)核心模块功能及数据流向的架构解析，涵盖核心组件、数据处理流程和关键集成点，适用于S/4HANA1809+版本：一、核心功能模块概览模块功能关键事务码/FioriApp数据采集(DataCollection)整合子公司财务数据（SAP/非SA
深入理解汇编语言子程序设计与系统调用网安spinage 汇编语言开发语言汇编算法
本文将全面解析汇编语言中子程序设计的核心技术以及系统调用的实现方法，涵盖参数传递的多种方式、堆栈管理、API调用等关键知识点，并提供实际案例演示。一、子程序设计：参数传递的艺术1.寄存器传参：高效简洁.386.modelflat,stdcalloptioncasemap:none.dataxdd5;定义变量ydd6sumdd?.code;函数定义：addxy1addxy1procpushebpmo
DPDK 技术详解：榨干网络性能的“瑞士军刀”
你是否曾感觉，即使拥有顶级的服务器和万兆网卡，你的网络应用也总是“喂不饱”硬件，性能总差那么一口气？传统的网络处理方式，就像在高速公路上设置了太多的收费站和检查点，限制了数据包的“奔跑”速度。今天，我们要深入探讨一个能够打破这些瓶颈，让你的网络应用快到飞起的“黑科技”——DPDK(DataPlaneDevelopmentKit，数据平面开发套件)。这不仅仅是一个工具包，更是一种全新的网络处理哲学。
手把手教你用C语言实现顺序表
hello，大家好，本篇文章旨在为大家讲解如何使用C语言实现顺序表，还有就是小编自己复习一下相关知识，OK，那我们现在开始。在通讯录中，有增删查改等功能，那么顺序表我们也会对以上功能进行实现。一、创建并初始化顺序表1.创建typedefintSLDataType;#defineINIT_CAPACITY4//动态顺序表--按需申请typedefstructSeqList{SLDataType*a;
MySQL复习题
一.填空题1.关系数据库的标准语言是SQL。2.数据库发展的3个阶段中，数据独立性最高的是阶段数据库系统。3.概念模型中的3种基本联系分别是一对一、一对多和多对多。4.MySQL配置文件的文件名是my.ini或my.cnf。5.在MySQL配置文件中，datadir用于指定数据库文件的保存目录。6.添加IFNOTEXISTS可在创建的数据库已存在时防止程序报错。7.MySQL提供的SHOWCREA
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
《UNIX网络编程卷1：套接字联网API》第8章：基本UDP套接字编程深度解析
《UNIX网络编程卷1：套接字联网API》第8章：基本UDP套接字编程深度解析（8000字图文实战）一、UDP协议核心特性与编程模型1.1UDP协议设计哲学UDP（UserDatagramProtocol）是面向无连接的传输层协议（图1），其核心特征包括：无连接通信：无需三次握手，直接发送数据报尽最大努力交付：不保证可靠性、不维护连接状态报文边界保留：接收方读取的数据与发送方写入完全一致低开销高效
19.0-《超越感觉》-说服他人 SAM52
Becausethoughtfuljudgmentsdeservetobeshared,andthewaytheyarepresentedcanstronglyinfluencethewayothersreacttothem.因为经过深思熟虑的判断值得分享，而这些判断的呈现方式会强烈影响其他人对它们的反应。Bylearningtheprinciplesofpersuasionandapplying
Spark SQL架构及高级用法 Aurora_NeAr spark sql 架构
SparkSQL架构概述架构核心组件API层（用户接口）输入方式：SQL查询；DataFrame/DatasetAPI。统一性：所有接口最终转换为逻辑计划树（LogicalPlan），进入优化流程。编译器层（Catalyst优化器）核心引擎：基于规则的优化器（Rule-BasedOptimizer,RBO）与成本优化器（Cost-BasedOptimizer,CBO）。处理流程：阶段输入输出关键动
2018年中南大学中英翻译某翁
参考：20180827235856533.jpg【1】机器学习理论表明，机器学习算法能从有限个训练集样本上得到较好的泛化【1】Machinelearningtheoryshowsthatmachinelearningalgorithmcangeneralizewellfromfinitetrainingsetsampleslimited有限的infinite无限的【2】这似乎违背了一些基本的逻辑准
数据库基础概念梳理 22:30Plane-Moon 数据库
1.数据存储类型表(Table):存储结构化数据的标准方式，数据以行和列的形式组织，具有固定的格式。非结构化数据(UnstructuredData):如音频、视频、图片、文本文档等，其格式不固定，不易直接用表存储。2.SQL的核心优势SQL尤其擅长处理和操作存储在表中的结构化数据。2.1数据类型约束(DataTypeConstraints):定义列可存储的数据种类。整数类型:TINYINT(1字节
SQL笔记纯干货 AI入门修炼 oracle 数据库 sql
软件：DataGrip2023.2.3，phpstudy_pro,MySQL8.0.12目录1.DDL语句（数据定义语句）1.1数据库操作语言1.2数据表操作语言2.DML语句（数据操作语言）2.1增删改2.2题2.3备份表3.DQL语句（数据查询语言）3.1查询操作3.2题一3.3题二4.多表详解4.1一对多4.2多对多5.多表查询6.窗口函数7.拓展:upsert8.sql注入攻击演示9.拆表
Java：数据结构-ArrayList和顺序表（2） blammmp java 数据结构开发语言
一ArrayList的使用1.ArrayList的构造方法第一种（指定容量的构造方法）创建一个空的ArrayList，指定容量为initialCapacity。publicArrayList(intinitialCapacity){if(initialCapacity>0){this.elementData=newObject[initialCapacity];}elseif(initialCap
Qt 下拉框QComboBox控件：从入门到实战
一、QComboBox核心功能解析1.核心属性属性说明当前示例场景count列表项总数统计学历下拉框中的选项数量editable是否允许用户编辑学历选择时可输入自定义学历currentText当前选中项的文本获取用户选择的"硕士"文本currentData当前选中项的附加数据获取太原对应的区号"0351"currentIndex当前选中项的索引位置(从0开始)确定"硕士"在列表中的位置2.核心方法
ubuntu qt环境下出现No suitable kits found解决方案
1.清理QtCreator缓存QtCreator会缓存项目配置、索引等数据，可能导致某些异常。清理方法：(1)删除QtCreator配置目录bashrm-rf~/.config/QtProject/（Ubuntu/Linux）或Windows：cmdrmdir/s/q"%APPDATA%\QtProject"(2)清除QtCreator的编译缓存bashrm-rf~/.cache/QtProjec
如何在 Ubuntu 24.04 或 22.04 Linux 上安装和使用 NoMachine 山岚的运维笔记 Linux 运维及使用 linux ubuntu 运维 nomachine 远程连接
NoMachine是一款适用于Linux（Ubuntu）及其他支持的操作系统的远程桌面应用程序，允许用户通过本地或远程系统从世界任何地方控制计算机。它可以在低带宽连接下工作，被专业人士和家庭用户广泛使用。NoMachine的主要功能高性能远程访问跨平台兼容性易于使用，因为用户界面友好提供强大的加密协议，如SSH、SSL及其他安全标准支持远程文件传输和打印服务允许从远程计算机进行音频和视频流媒体传输
数据结构2-集合类ArrayList与洗牌算法
文章目录★引言：一.MyArrayList模拟实现（一）IList（二）MyArrayList（1）add(Tdata)（2）add(intpos,Tdata)（3）IllgalPosException（4）indexOf(ObjecttoFind)（5）contains(ObjecttoFind)（6）get(intpos)（7）set(intpos,Tvalue)（8）remove(Objec
Spring Boot与云原生：微服务架构的创新实践 tmjpz04412 spring kubernetes 云原生 java graphql
引言：Spring生态的演进与现状Spring框架的发展历程与核心设计理念当前Spring生态的核心组件（SpringBoot、SpringCloud、SpringData等）行业对Spring生态的依赖与创新需求SpringBoot的创新实践1.自动化配置与启动优化条件装配（@Conditional）的深度定制案例启动类加载机制与类路径扫描优化示例：通过自定义Starter实现快速集成第三方服务
Java注解笔记 m0_65470938 java 开发语言
一、什么是注解Java注解又称Java标注，是在JDK5时引入的新特性，注解(也被称为元数据)Javaa注解它提供了一种安全的类似注释的机制，用来将任何的信息或元数据(metadata)与程元素类、方法、成员变量等)进行关联二、注解的应用1.生成文档这是最常见的，也是iava最早提供的注解2.在编译时进行格式检查，如@Overide放在方法前，如果你这个方法并不是看盖了超类Q方法，则编译时就能检查
Python STL概念学习与代码实践体制教科书
本文还有配套的精品资源，点击获取简介：通过”py_stl_learning”项目，学习者可以使用Python实现和理解C++STL的概念，包括数据结构、算法、容器适配器、模板和泛型容器等。Python中的列表、集合、字典等数据结构与STL中的vector、set、map等类似，而Python的itertools和functools模块提供了STL风格的算法功能。Python通过其面向对象的特性以及
Windows下Oracle安装图解叫我老村长
Windows下Oracle安装图解----oracle-win-64-11g详细安装步骤一、Oracle下载官方下地址http://www.oracle.com/technetwork/database/enterprise-edition/downloads/index.htmlwin32位操作系统下载地址：http://download.oracle.com/otn/nt/oracle11g
4.ESP32-按键实验老蒋精髓 microPython 4.ESP32
4.ESP32-按键实验"""按键实验2022.10.9"""frommachineimportPinimporttimekey1=Pin(4,Pin.IN,Pin.PULL_UP)#GPIO2，设置为输出模式，输入模式为Pin.IN,设置为上拉key2=Pin(5,Pin.IN,Pin.PULL_UP
深入理解 UDP 协议：从原理到实战的技术解析
UDP（UserDatagramProtocol，用户数据报协议）作为TCP的"轻量型伙伴"，在实时通信、流媒体传输等场景中发挥着不可替代的作用。与TCP的可靠传输不同，UDP以"简单、快速、无连接"为设计理念，为对延迟敏感的应用提供了高效传输方案。本文将从技术底层出发，系统解析UDP的核心机制、应用场景及实战实现，帮助读者构建对UDP协议的完整认知。一、UDP协议的核心定位与特性1.1协议栈中的
python3中，pycharm中怎么连接数据库 weixin_33736832 数据库 python 开发工具
因为python3现在还不能直接连接数据库，所有如果想连接，就只能通过以下方法：在APP中的，__init__.py中，添加以下代码就可以：importpymysqlpymysql.install_as_MySQLdb()当然前提是，那就的在setting.py中连接数据库添加所连接的mysql数据库的详细信息，如下：DATABASES={'default':{'ENGINE':'django.d
第三方库&第三方平台 lllaa
1.AFNetworking、MJRefresh、SDWebImage、Masonry、MJExtensionMBProgressHUDYYText、YYModel2.友盟分享极光推送神策TalkingData数盟可信ID能帮助APP公司在不同场景下确认设备唯一性，识别修改设备及复用、虚拟机刷量等行为，可以反作弊、防刷单，并通过数字联盟生成的设备ID和客户账户体系的关联，实时有效识别小号恶意注册等
JavaScript正则表达式去除括号但保留内容与去除括号与内容 Selicens javascript 正则表达式
项目上碰到一个需求，是取多个递增文件的文件名，类似于test(1).txt、test(2).txt，但是不需要括号，只要test1、test2这种格式，最开始想到的办法就是js里的replace替换，先上一个比较笨但是也能实现效果的例子letname="test(1).txt"letdata=name.split('.')[0].replace('(','').replace(')','')con
Spring学习笔记07——SpringBoot中关于接口文档管理的注解 Shaoxi Zhang Java spring 学习笔记
一、Lombok注解@Data：生成所有字段的getter/setter、toString()、equals()和hashCode()。@Getter/@Setter：单独为所有字段或指定字段生成getter/setter。importlombok.Data;@DatapublicclassUser{privateLongid;privateStringname;}编译后，Lombok会为id和n
OpenSIPS 邂逅 Kafka：构建高效 VoIP 消息处理架构 c_zyer opensips SIP 消息队列 kafka opensips voip
使用场景使用步骤引入模块组装&发送数据消费数据故障转移使用场景异步日志处理：将OpenSIPS中的SIP信令日志、通话记录（CDR）等数据发送到Kafka队列中。事件通知与监控：利用OpenSIPS的event_interface模块将SIP事件（如呼叫建立、断开、注册等）推送到KafkaOpenSIPS中事件接口有以下类型：EVENT_DATAGRAM-PublishJSON-RPCnotifi
每周一段仿写-181028 Zeroun_Ph
Theneedfornewlearningstylesdoesnotmeanignoringthewaysinthepast.TheInternetagebringssomechallengesnotseenbefore,mostobviouslyandmostworryinglyuselessinformationblast.Butfragmentationoflearningandtheine
用matlab对微分方程组进行仿真,基于MATLAB的微分方程组的数值计算稗官无印
238科技资讯科技资讯SCIENCE&TECHNOLOGYINFORMATION2009NO.06SCIENCE&TECHNOLOGYINFORMATION学术论坛传统的解微分方程组的方法有近似分析解法﹑表解法和图解法。这些方法有一定的局限性。MATLAB是一种基于矩阵的数学软件包,该软件包包括了一个数值程序扩展库,并且有高级编程格式。应用MATLAB工具箱中自带的四阶五级的龙格库塔法(ode45
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc