恶魔眼睛大又大��

机器学习训练_金融风控_Task5_模型融合

序

模型融合是比赛后期上分的重要手段，特别是多人组队学习的比赛中，将不同队友的模型进行融合，可能会收获意想不到的效果哦，往往模型相差越大且模型表现都不错的前提下，模型融合后结果会有大幅提升。

# 简单加权平均-结果直接融合

'''
生成一些简单的样本数据,
test_prei - 代表第i个模型的预测值
y_test_true - 代表真实值
'''
test_pre1 = [1.2, 3.2, 2.1, 6.2]
test_pre2 = [0.9, 3.1, 2.0, 5.9]
test_pre3 = [1.1, 2.9, 2.2, 6.0]
y_test_true = [1, 3, 2, 6]

# 定义结果的加权平均函数 - 根据加权计算

def weighted_method(test_pre1, test_pre2, test_pre3, w=[1/3, 1/3, 1/3]):
    weighted_result = w[0] * pd.Series(test_pre1) + w[1] * pd.Series(test_pre2) + w[2] * pd.Series(test_pre3)
    return weighted_result

# 根据各模型的预测结果计算MAE

'''
metrics.mean_absolute_error - 多维数组MAE的计算方法
'''
print('Pred1 MAE:', metrics.mean_absolute_error(y_test_true, test_pre1))
print('Pred2 MAE:', metrics.mean_absolute_error(y_test_true, test_pre2))
print('Pred3 MAE:', metrics.mean_absolute_error(y_test_true, test_pre3))

Pred1 MAE: 0.1750000000000001
Pred2 MAE: 0.07499999999999993
Pred3 MAE: 0.10000000000000009

# 根据加权计算MAE

## 定义比重权值

w = [0.3, 0.4, 0.3]
weighted_pre = weighted_method(test_pre1, test_pre2, test_pre3, w)
print('Weighted_pre MAE:', metrics.mean_absolute_error(y_test_true, weighted_pre))

Weighted_pre MAE: 0.05750000000000027

# 定义结果的加权平均函数 - mean平均

def mean_method(test_pre1, test_pre2, test_pre3):
    mean_result = pd.concat([pd.Series(test_pre1),
                             pd.Series(test_pre2),
                             pd.Series(test_pre3)], axis=1).mean(axis=1)
    return mean_result

# 根据均值计算MAE

Mean_pre = mean_method(test_pre1, test_pre2, test_pre3)
print('Mean_pre MAE:', metrics.mean_absolute_error(y_test_true, Mean_pre))


Mean_pre MAE: 0.06666666666666693

# 定义结果的加权平均函数 - median平均

def median_method(test_pre1, test_pre2, test_pre3):
    median_result = pd.concat([pd.Series(test_pre1),
                               pd.Series(test_pre2),
                               pd.Series(test_pre3)], axis=1).median(axis=1)
    return median_result

# 根据中位数计算MAE

Median_pre = median_method(test_pre1, test_pre2, test_pre3)
print('Median_pre MAE:', metrics.mean_absolute_error(y_test_true, Median_pre))


Median_pre MAE: 0.07500000000000007

# Stacking融合(回归)

# 定义Stacking融合函数

def Stacking_method(train_reg1, train_reg2, train_reg3,
                    y_train_true,
                    test_pre1, test_pre2, test_pre3,
                    model_L2=linear_model.LinearRegression()):
    '''
    :param train_reg1:  第一个模型预测train得到的标签
    :param train_reg2:  第二个模型预测train得到的标签
    :param train_reg3:  第三个模型预测train得到的标签
    :param y_train_true:    train真实的标签
    :param test_pre1:   第一个模型预测test得到的标签
    :param test_pre2:   第二个模型预测test得到的标签
    :param test_pre3:   第三个模型预测test得到的标签
    :param model_L2:    次级模型:以真实训练集的标签为标签,以多个模型训练训练集后得到的标签合并后的数据集为特征进行训练
                        注意:次级模型不宜选取的太复杂,这样会导致模型在训练集上过拟合,测试集泛化效果差
    :return:            训练好的次机模型预测test数据集得到的预测值 - Stacking_result
    '''
    model_L2.fit(pd.concat([pd.Series(train_reg1), pd.Series(train_reg2), pd.Series(train_reg3)], axis=1).values,
                 y_train_true)      # 次级模型训练
    stacking_result = model_L2.predict(pd.concat([pd.Series(test_pre1),
                                                  pd.Series(test_pre2), pd.Series(test_pre3)], axis=1).values)
    return stacking_result

# 生成一些简单的样本数据,test_prei代表第i个模型的预测值,y_test_true代表模型的真实值

train_reg1 = [3.2, 8.2, 9.1, 5.2]
train_reg2 = [2.9, 8.1, 9.0, 4.9]
train_reg3 = [3.1, 7.9, 9.2, 5.0]
y_train_true = [3, 8, 9, 5]

test_pre1 = [1.2, 3.2, 2.1, 6.2]
test_pre2 = [0.9, 3.1, 2.0, 5.9]
test_pre3 = [1.1, 2.9, 2.2, 6.0]
y_test_true = [1, 3, 2, 6]

# 看一下Stacking融合的效果

model_L2 = linear_model.LinearRegression()      # 不设定这个参数也可以,创建函数的时候默认了
Stacking_pre = Stacking_method(train_reg1, train_reg2, train_reg3, y_train_true,
                               test_pre1, test_pre2, test_pre3, model_L2)
print('Stacking_pre MAE: ', metrics.mean_absolute_error(y_test_true, Stacking_pre))


Stacking_pre MAE:  0.042134831460675204
# 发现模型效果相对于之前有了更近一步的提升

# 分类模型融合 - Voting,Stacking…

# Voting投票机制

'''
Voting - 投票机制
        1.硬投票 - 对多个模型直接进行投票,不区分模型结果的相对重要度,最终投票数最多的类为最终被预测的类
        2.软投票 - 和硬投票原理相同,增加了设置权重的功能,可以为不同模型设置不同权重,进而区别模型不同的重要度
'''

# # 硬投票
iris = datasets.load_iris()     # 读取鸢尾花数据集 - 分类问题

x = iris.data   # 分离特征集和标签
y = iris.target
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3)    # 训练集和测试集按照7:3比例切分

# 用XGB分类模型训练数据

'''
colsample_bytree - 训练每棵树时，使用的特征占全部特征的比例
objective - 目标函数
            二分类问题 - binary:logistic - 返回概率
'''
clf1 = XGBClassifier(learning_rate=0.1, n_estimators=150, max_depth=3, min_child_weight=2, subsample=0.7,
                     colsample_bytree=0.6, objective='binary:logistic')

# 用随机森林分类模型训练数据

'''
n_estimators - 随机森林中决策树的个数
max_depth - 决策树的最大深度
            如果值为None,那么会扩展节点,直到所有的叶子是纯净的,或者直到所有叶子包含少于min_sample_split的样本
min_samples_split - 分割内部节点所需要的最小样本数量
min_samples_leaf - 需要在叶子结点上的最小样本数量
oob_score - 是否使用袋外样本来估计泛化精度
            树的生成过程并不会使用所有的样本,未使用的样本就叫(out_of_bag)oob袋外样本,通过袋外样本,可以评估这个树的准确度
'''
clf2 = RandomForestClassifier(n_estimators=50, max_depth=1, min_samples_split=4,
                              min_samples_leaf=63, oob_score=True)

# 用SVC训练数据

'''
支持向量机 - 分类算法，但是也可以做回归,根据输入的数据不同可做不同的模型
            1.若输入标签为连续值则做回归
            2.若输入标签为分类值则用SVC()做分类
            支持向量机的学习策略是间隔最大化，最终可转化为一个凸二次规划问题的求解

参数详解:
C - 惩罚参数;   值越大,对误分类的惩罚大,不容犯错,于是训练集测试准确率高,但是泛化能力弱
                值越小,对误分类的惩罚小,允许犯错,泛化能力较强
probability - 是否采用概率估计,默认为False
'''
clf3 = SVC(C=0.1)

# 硬投票

'''
eclf - 其实就是三个模型的集成算法,硬投票决定最终被预测的类
'''
eclf = VotingClassifier(estimators=[('xgb', clf1), ('rf', clf2), ('svc', clf3)], voting='hard')     # 本质是Ensemble
for clf, label in zip([clf1, clf2, clf3, eclf], ['XGBBoosting', 'Random Forest', 'SVM', 'Ensemble']):
    scores = cross_val_score(clf, x, y, cv=5, scoring='accuracy')   # 以准确度度量评分
    print('Accuracy: %0.2f (+/- %0.2f) [%s]' % (scores.mean(), scores.std(), label))


Accuracy: 0.96 (+/- 0.02) [XGBBoosting]
Accuracy: 0.33 (+/- 0.00) [Random Forest]
Accuracy: 0.92 (+/- 0.03) [SVM]
Accuracy: 0.95 (+/- 0.05) [Ensemble]

# 软投票

x = iris.data
y = iris.target
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3)

clf1 = XGBClassifier(learning_rate=0.1, n_estimators=150, max_depth=3, min_child_weight=2, subsample=0.8,
                     colsample_bytree=0.8, objective='binary:logistic')
clf2 = RandomForestClassifier(n_estimators=50, max_depth=1, min_samples_split=4,
                              min_samples_leaf=63, oob_score=True)
clf3 = SVC(C=0.1, probability=True)
eclf = VotingClassifier(estimators=[('xgb', clf1), ('rf', clf2), ('svc', clf3)], voting='soft', weights=[2, 1, 1])
for clf, label in zip([clf1, clf2, clf3, eclf], ['XGBBoosting', 'Random Forest', 'SVM', 'Ensemble']):
    scores = cross_val_score(clf, x, y, cv=5, scoring='accuracy')   # 以准确度度量评分
    print('Accuracy: %0.2f (+/- %0.2f) [%s]' % (scores.mean(), scores.std(), label))



Accuracy: 0.96 (+/- 0.02) [XGBBoosting]
Accuracy: 0.33 (+/- 0.00) [Random Forest]
Accuracy: 0.92 (+/- 0.03) [SVM]
Accuracy: 0.96 (+/- 0.02) [Ensemble]

# 分类的Stacking/Blending融合

'''
Stacking是一种分层模型集成框架,以两层为例
        第一层由多个基学习器组成,其输入为原始训练集
        第二层的模型则是以第一层学习器的输出作为训练集进行再训练,从而得到完整的stacking模型
'''
# ## 创建训练用的数据集
data_0 = iris.data
data = data_0[:100, :]  # 100个样本

target_0 = iris.target
target = target_0[:100]

# ## 模型融合中使用到的各个单模型
'''
LogisticRegression()
            solver - 用来优化权重     {‘lbfgs’, ‘sgd’, ‘adam’},默认adam,
                                        lbfgs - quasi-Newton方法的优化器:对小数据集来说,lbfgs收敛更快效果也更好
                                        sgd - 随机梯度下降 
                                        adam - 机遇随机梯度的优化器

RandomForestClassifier()
            n_estimators - 决策树个数
            n_jobs - 用于拟合和预测的并行运行的工作数量,如果值为-1,那么工作数量被设置为核的数量
            criterion - 衡量分裂质量的性能
                        1.gini - Gini impurity衡量的是从一个集合中随机选择一个元素
                                基于该集合中标签的概率分布为元素分配标签的错误率
                                Gini impurity的计算就非常简单了,即1减去所有分类正确的概率,得到的就是分类不正确的概率
                                若元素数量非常多,且所有元素单独属于一个分类时，Gini不纯度达到极小值0
                        2.entropy - 信息增益熵
                        
ExtraTreesClassifier() - 极端随机树
    该算法与随机森林算法十分相似,都是由许多决策树构成,但该算法与随机森林有两点主要的区别:
        1.随机森林应用的是Bagging模型,而ET是使用所有的训练样本得到每棵决策树,也就是每棵决策树应用的是相同的全部训练样本
            关于Bagging和Boosting的差别,可以参考 https://www.cnblogs.com/earendil/p/8872001.html
        2.随机森林是在一个随机子集内得到最佳分叉属性,而ET是完全随机的得到分叉值,从而实现对决策树进行分叉的
        
 Gradient Boosting - 迭代的时候选择梯度下降的方向来保证最后的结果最好
                            损失函数用来描述模型的'靠谱'程度,假设模型没有过拟合,损失函数越大,模型的错误率越高
                            如果我们的模型能够让损失函数持续的下降,最好的方式就是让损失函数在其梯度方向下降
                            
                            GradientBoostingRegressor()
                                    loss - 选择损失函数，默认值为ls(least squres),即最小二乘法,对函数拟合
                                            1.lad - 绝对损失
                                            2.huber - Huber损失
                                            3.quantile - 分位数损失
                                            4.ls - 均方差损失(默认)
                                    learning_rate - 学习率
                                    n_estimators - 弱学习器的数目,默认值100
                                    max_depth - 每一个学习器的最大深度,限制回归树的节点数目,默认为3
                                    min_samples_split - 可以划分为内部节点的最小样本数,默认为2
                                    min_samples_leaf - 叶节点所需的最小样本数,默认为1
                                    alpha - 当我们使用Huber损失和分位数损失'quantile'时,需要指定分位数的值,只有regressor有
                                    
                            GradientBoostingClassifier() - 参数绝大多数和Regressor相同,不同的是loss函数
                                            1.deviance - 对数似然损失函数(默认)
                                            2.exponential - 指数损失函数       
参考网址: https://www.cnblogs.com/pinard/p/6143927.html
'''
clfs = [LogisticRegression(solver='lbfgs'),
        RandomForestClassifier(n_estimators=5, n_jobs=-1, criterion='gini'),
        ExtraTreesClassifier(n_estimators=5, n_jobs=-1, criterion='gini'),
        ExtraTreesClassifier(n_estimators=5, n_jobs=-1, criterion='entropy'),
        GradientBoostingClassifier(learning_rate=0.05, subsample=0.5, max_depth=6, n_estimators=5)]


# ## 切分一部分数据作为测试集
X, X_predict, y, y_predict = train_test_split(data, target, test_size=0.3, random_state=2020)

dataset_blend_train = np.zeros((X.shape[0], len(clfs)))  # 全零数组,行取训练集的个数,列取模型个数
dataset_blend_test = np.zeros((X_predict.shape[0], len(clfs)))    # 全零数组,行取测试集的个数,列取模型个数

# 5折Stacking - 即每次Stacking训练都会在第一层基学习器进行5折交叉验证,再进入第二层学习器训练

n_splits = 5
skf = StratifiedKFold(n_splits)     # # 分层交叉验证,每一折中都保持着原始数据中各个类别的比例关系(测试集和训练集分离)
skf = skf.split(X, y)     # 把特征和标签分离

'''
enumerate() - 用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列,同时列出数据和数据下标,一般用在for循环当中
'''
for j, clf in enumerate(clfs):
    # 依次训练各个单模型
    dataset_blend_test_j = np.zeros((X_predict.shape[0], len(clfs)))    # 30行5列的全0数组
    # 五折交叉训练,使用第i个部分作为预测集,剩余部分为验证集,获得的预测值成为第i部分的新特征
    for i, (train, test) in enumerate(skf):
        X_train, y_train, X_test, y_test = X[train], y[train], X[test], y[test]
        clf.fit(X_train, y_train)
        # 将对测试集的概率预测第二列(也就是结果为1)的概率装进y_submission中
        y_submission = clf.predict_proba(X_test)[:, 1]
        dataset_blend_train[test, j] = y_submission     # 把预测验证集(比如第一折)的结果依次对应装进dataset_blend_train中
        '''
        predict_proba() - 返回的是一个n行k列的数组
                            第i行第j列上的数值是模型预测第i个预测样本为某个标签的概率,并且每一行的概率和为1
        '''
        '''
        因为我们采取到的数据集的标签只有0或1,所以predict_proba返回的概率只有两个
                    如果左边的概率大于0.5,那么预测值为0
                    如果右边的概率大于0.5,那么预测值为1
        '''
        # # 将对测试集的概率预测的第二列(也就是结果为1)的概率装进dataset_blend_test_j中
        dataset_blend_test_j[:, i] = clf.predict_proba(X_predict)[:, 1]
    # 对于测试集,直接用这5个模型的预测值均值作为新的特征
    dataset_blend_test[:, j] = dataset_blend_test_j.mean(1)     # mean(1) - 求每行数的平均值(五折预测测试集的平均值)
    print('val auc Score: %f' % roc_auc_score(y_predict, dataset_blend_test[:, j]))

clf = LogisticRegression(solver='lbfgs')    # 次级学习器再次训练
clf.fit(dataset_blend_train, y)     # 把第一层得到训练集的预测结果作为新特征,把训练集的真实标签作为标签,进行第二层训练
y_submission = clf.predict_proba(dataset_blend_test)[:, 1]  # 把第一层预测测试集的结果作为新特征,预测测试集的标签
'''
ROC曲线和AUC - 用来评价一个二值分类器(binary classifier)的优劣,用于衡量'二分类问题'机器学习算法性能(泛化能力)
AUC - ROC曲线下的面积
      AUC的取值范围在0.5和1之间
      使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好
      而作为一个数值,对应AUC更大的分类器效果更好
'''
print('Val auc Score of Stacking: %f' % (roc_auc_score(y_predict, y_submission)))


val auc Score: 1.000000
val auc Score: 0.500000
val auc Score: 0.500000
val auc Score: 0.500000
val auc Score: 0.500000
Val auc Score of Stacking: 1.000000

# Blending - 和Stacking类似,不同点在于:

'''
1.Stacking - 把第一层得到训练集的预测结果作为新特征,把训练集的真实标签作为标签,进行第二层训练
2.Blending - 把第一层得到训练集中的30%的验证集的结果作为新特征继续训练,把训练集的真实标签作为标签,进行第二层训练

Blending优点 - 比stacking简单,因为不用进行k次的交叉验证来获得stacker feature
                避开了一个信息泄露问题：generlizers和stacker使用了不一样的数据集
Blending缺点- 使用了很少的数据,可能会过拟合,没有stacking使用多次的交叉验证来的稳健
'''
data_0 = iris.data
data = data_0[:100, :]
target_0 = iris.target
target = target_0[:100]

clfs = [LogisticRegression(solver='lbfgs'),
        RandomForestClassifier(n_estimators=5, n_jobs=-1, criterion='gini'),
        RandomForestClassifier(n_estimators=5, n_jobs=-1, criterion='entropy'),
        ExtraTreesClassifier(n_estimators=5, n_jobs=-1, criterion='gini'),
        GradientBoostingClassifier(learning_rate=0.05, subsample=0.5, max_depth=6, n_estimators=5)]

# 划分训练集和测试集
X, X_predict, y, y_predict = train_test_split(data, target, test_size=0.3, random_state=2020)

# 把训练数据分成d1(子训练集),d2(验证集)两部分 - 对半分
X_d1, X_d2, y_d1, y_d2 = train_test_split(X, y, test_size=0.5, random_state=2020)
dataset_d1 = np.zeros((X_d2.shape[0], len(clfs)))   # 35行5列的全0数组
dataset_d2 = np.zeros((X_predict.shape[0], len(clfs)))      # 30行5列的全0数组

for j, clf in enumerate(clfs):
    # 用子训练集依次训练各个模型
    clf.fit(X_d1, y_d1)
    # 返回模型对验证集的预测值为1的概率
    y_submission = clf.predict_proba(X_d2)[:, 1]
    # 结果装进dataset_d1中 - 表示用子训练集训练的模型预测验证集标签的结果 - 就是上文说的30%的数据
    dataset_d1[:, j] = y_submission
    # 建立第二层模型的特征 - 用第一层模型预测测试集的结果作为新的特征
    dataset_d2[:, j] = clf.predict_proba(X_predict)[:, 1]
    # 看一下预测的预测集标签和真实的预测集标签的roc_auc_score
    print('val auc Score: %f' % roc_auc_score(y_predict, dataset_d2[:, j]))

# 用第二层模型训练特征
clf = GradientBoostingClassifier(learning_rate=0.02, subsample=0.5, max_depth=6, n_estimators=30)
clf.fit(dataset_d1, y_d2)   # 用验证集的第一层模型预测结果作为特征,用验证集的真实标签作为标签,再次训练
y_submission = clf.predict_proba(dataset_d2)[:, 1]  # 用第一层模型预测测试集的结果作为特征,用第二层模型预测训练集返回1的概率
print('Val auc Score of Blending: %f' % (roc_auc_score(y_predict, y_submission)))



val auc Score: 1.000000
val auc Score: 1.000000
val auc Score: 1.000000
val auc Score: 1.000000
val auc Score: 1.000000
Val auc Score of Blending: 1.000000

# 利用mlxtend进行分类的Stacking融合

iris = datasets.load_iris()
X, y = iris.data[:, 1:3], iris.target
clf1 = KNeighborsClassifier(n_neighbors=1)
clf2 = RandomForestClassifier(random_state=1)
clf3 = GaussianNB()
lr = LogisticRegression()

'''
StackingClassifier() - 快速Stacking融合的方法

参数详解:
classifiers - 一级分类器列表
meta_classifier - 二级分类器(元分类器)
use_probas - 如果为True,则基于预测的概率而不是类标签来训练元分类器,默认为False
average_probas - 如果为真,将概率平均为元特征,默认为False
verbose - 是否输出到日志
'''
sclf = StackingClassifier(classifiers=[clf1, clf2, clf3],
                          meta_classifier=lr)
label = ['KNN', 'Random Forest', 'Naive Bayes', 'Stacking Classifier']
clf_list = [clf1, clf2, clf3, sclf]

fig = plt.figure(figsize=(10, 8))
gs = gridspec.GridSpec(2, 2)    # 网格布局,每行2个,每列2个
grid = itertools.product([0, 1], repeat=2)  # 求多个可迭代对象的笛卡尔积,其实就是更加灵活调整网格的大小

clf_cv_mean = []    # 存放每个模型的准确率的均值
clf_cv_std = []     # 存放每个模型的准确率的标准差
for clf, label, grd in zip(clf_list, label, grid):

    scores = cross_val_score(clf, X, y, cv=3, scoring='accuracy')   # 3折交叉验证,评分标准为模型准确率
    print('Accuracy: %.2f (+/- %.2f) [%s]' % (scores.mean(), scores.std(), label))
    clf_cv_mean.append(scores.mean())
    clf_cv_std.append(scores.std())

    clf.fit(X, y)
    ax = plt.subplot(gs[grd[0], grd[1]])
    fig = plot_decision_regions(X=X, y=y, clf=clf)
    plt.title(label)
plt.show()



Accuracy: 0.91 (+/- 0.01) [KNN]
Accuracy: 0.95 (+/- 0.01) [Random Forest]
Accuracy: 0.91 (+/- 0.02) [Naive Bayes]
Accuracy: 0.95 (+/- 0.02) [Stacking Classifier]

可以看出,融合后的曲线更加优秀

# 一些其它方法

'''
将特征放进模型中预测,并将预测结果变换并作为新的特征加入原有特征中,再经过模型预测结果(Stacking变化)
可以反复预测多次将结果加入最后的特征中
'''


def ensemble_add_feature(train, test, target, clfs):
    # n_folds = 5
    # skf = list(StratifiedKFold(y, n_folds=n_folds))
    train_ = np.zeros((train.shape[0], len(clfs * 2)))
    test_ = np.zeros((test.shape[0], len(clfs * 2)))
    for j, clf in enumerate(clfs):
        # 依次训练单个模型
        print(j, clf)
        # 使用第1部分作为预测,第2部分来训练模型(第1部分预测的输出作为第2部分的新特征)
        # X_train, y_train, X_test, y_test = X[train], y[train]
        clf.fit(train, target)  # 训练模型
        y_train = clf.predict(train)    # 模型在训练集中的预测值
        y_test = clf.predict(test)      # 模型在测试集中的预测值

        # 生成新特征
        '''
        j 从0开始递增,构建新的特征集,特征为训练集和测试集各自的预测值的平方
        '''
        train_[:, j*2] = y_train ** 2
        test_[:, j*2] = y_test ** 2
        train_[:, j+1] = np.exp(y_train)    # np.exp(a) - 返回e的a次方
        test_[:, j+1] = np.exp(y_test)
        print('Method:', j)
    train_ = pd.DataFrame(train_)
    test_ = pd.DataFrame(test_)
    return train_, test_


clf = LogisticRegression()  # 次级模型
data_0 = iris.data
data = data_0[:100, :]
target_0 = iris.target
target = target_0[:100]

x_train, x_test, y_train, y_test = train_test_split(data, target, test_size=0.3)
x_train = pd.DataFrame(x_train)     # 转换成DataFrame格式,方便后续构造新特征
x_test = pd.DataFrame(x_test)

# 给出模型融合中使用到的各个单模型
clfs = [LogisticRegression(),
        RandomForestClassifier(n_estimators=5, n_jobs=-1, criterion='gini'),
        ExtraTreesClassifier(n_estimators=5, n_jobs=-1, criterion='gini'),
        ExtraTreesClassifier(n_estimators=5, n_jobs=-1, criterion='entropy'),
        GradientBoostingClassifier(learning_rate=0.05, subsample=0.5, max_depth=6, n_estimators=5)]
# 新特征的构造 - 用上面的各个单模型预测训练集和测试集的结果,作为新特征
New_train, New_test = ensemble_add_feature(x_train, x_test, y_train, clfs)
clf.fit(New_train, y_train)     # 用训练集的新特征和训练集的真实标签训练数据
y_emb = clf.predict_proba(New_test)[:, 1]   # 用训练好的模型得到新的测试集特征返回1的概率
print('Val auc Score of Stacking: %f' % (roc_auc_score(y_test, y_emb)))



Method: 4
Val auc Score of Stacking: 1.000000

关于模型融合的理论和方法具体可以参考：https://github.com/datawhalechina/team-learning-data-mining/blob/master/FinancialRiskControl/Task5%20%E6%A8%A1%E5%9E%8B%E8%9E%8D%E5%90%88.md

这边文章由于时间关系，只提供了一个大致的思路，具体调参以及之后的融合可以参照task4和上文提供的链接尝试。

导入三方模块

import pandas as pd
import numpy as np
import datetime
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import KFold, train_test_split, StratifiedKFold
from sklearn.linear_model import LogisticRegression
from sklearn import metrics
import xgboost as xgb
from sklearn.metrics import roc_auc_score
import warnings
warnings.filterwarnings('ignore')
pd.options.display.max_columns = None
pd.set_option('display.float_format', lambda x: '%.2f' % x)

做模型融合之前，我要做两件事情：特征筛选和模型选择

'''
特征筛选：随机森林或SFS挑选最优特征
模型选择：xgboost, lightgbm, logistic 加权融合。或者再加线性回归模型嵌套一个弱分类器学习预测
'''

不同模型的数据准备注意点

'''
使用xgboost要注意的点：
    1.在Xgb中需要将离散特征one-hot编码再和连续特征一起输入训练，这样做是为了达到在cart树中处理离散特征的方式一致
    2.无需处理缺失值，在Xgb中处理稀疏数据时，没有值的特征是走默认的分支，所以在Xgb中缺省值也是走默认分支
lightgbm:
    1.由于使用直方图算法，LightGBM直接支持类别特征，对类别特征不必进行独热编码处理（与xgboost不同）
    2.也可以直接处理缺失值
logistic:
    1.数据要进行缺失值和异常值的处理
    2.类别数据要做one-hot编码
    3.对于某些方差大的特征，建议做归一化处理以增强模型稳定性
'''

读取、压缩数据

train = pd.read_csv(r'D:\Users\Felixteng\Documents\Pycharm Files\loanDefaultForecast\data\train.csv')
testA = pd.read_csv(r'D:\Users\Felixteng\Documents\Pycharm Files\loanDefaultForecast\data\testA.csv')


def reduce_mem_usage(df):
    '''
    遍历DataFrame的所有列并修改它们的数据类型以减少内存使用
    :param df: 需要处理的数据集
    :return:
    '''
    start_mem = df.memory_usage().sum() / 1024 ** 2  # 记录原数据的内存大小
    print('Memory usage of dataframe is {:.2f} MB'.format(start_mem))
    for col in df.columns:
        col_type = df[col].dtypes
        if col_type != object:  # 这里只过滤了object格式，如果代码中还包含其他类型，要一并过滤
            c_min = df[col].min()
            c_max = df[col].max()
            if str(col_type)[:3] == 'int':  # 如果是int类型的话,不管是int64还是int32,都加入判断
                # 依次尝试转化成in8,in16,in32,in64类型,如果数据大小没溢出,那么转化
                if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max:
                    df[col] = df[col].astype(np.int8)
                elif c_min > np.iinfo(np.int16).min and c_max < np.iinfo(np.int16).max:
                    df[col] = df[col].astype(np.int16)
                elif c_min > np.iinfo(np.int32).min and c_max < np.iinfo(np.int32).max:
                    df[col] = df[col].astype(np.int32)
                elif c_min > np.iinfo(np.int64).min and c_max < np.iinfo(np.int64).max:
                    df[col] = df[col].astype(np.int64)
            else:  # 不是整形的话,那就是浮点型
                if c_min > np.finfo(np.float16).min and c_max < np.finfo(np.float16).max:
                    df[col] = df[col].astype(np.float16)
                elif c_min > np.finfo(np.float32).min and c_max < np.finfo(np.float32).max:
                    df[col] = df[col].astype(np.float32)
                else:
                    df[col] = df[col].astype(np.float64)
        else:  # 如果不是数值型的话,转化成category类型
            df[col] = df[col].astype('category')

    end_mem = df.memory_usage().sum() / 1024 ** 2    # 看一下转化后的数据的内存大小
    print('Memory usage after optimization is {:.2f} MB'.format(end_mem))
    print('Decreased by {:.1f}%'.format(100 * (start_mem - end_mem) / start_mem))  # 看一下压缩比例
    return df


train = reduce_mem_usage(train)
testA = reduce_mem_usage(testA)
del testA['n2.2']
del testA['n2.3']

为了方便起见，把训练集和测试集合并处理

data = pd.concat([train, testA], axis=0, ignore_index=True)

lgb

字段 employmentLength - 10年以上算10年，1年一下算0年；然后转化成数值

data['employmentLength'].replace(to_replace='10+ years', value='10 years', inplace=True)
data['employmentLength'].replace(to_replace='< 1 year', value='0 year', inplace=True)


def employmentLength_to_int(s):
    if pd.isnull(s):
        return s
    else:
        return np.int8(s.split()[0])


data['employmentLength'] = data['employmentLength'].apply(employmentLength_to_int)

字段 earliesCreditLine - 分别提取年份和月份做拼接

data['earliesCreditLine_year'] = data['earliesCreditLine'].apply(lambda x: x[-4:])
data['earliesCreditLine_month'] = data['earliesCreditLine'].apply(lambda x: x[0:3])


def month_re(x):
    if x == 'Jan':
        return '01'
    elif x == 'Feb':
        return '02'
    elif x == 'Mar':
        return '03'
    elif x == 'Apr':
        return '04'
    elif x == 'May':
        return '05'
    elif x == 'Jun':
        return '06'
    elif x == 'Jul':
        return '07'
    elif x == 'Aug':
        return '08'
    elif x == 'Sep':
        return '09'
    elif x == 'Oct':
        return '10'
    elif x == 'Nov':
        return '11'
    else:
        return '12'


data['earliesCreditLine_month'] = data['earliesCreditLine_month'].apply(lambda x: month_re(x))
data['earliesCreditLine_date'] = data['earliesCreditLine_year'] + data['earliesCreditLine_month']
data['earliesCreditLine_date'] = data['earliesCreditLine_date'].astype('int')
del data['earliesCreditLine']
del data['earliesCreditLine_year']
del data['earliesCreditLine_month']

字段 issueDate - 从2017年6月1日开始；数据按照此节点统计天数

data['issueDate'] = pd.to_datetime(data['issueDate'], format='%Y-%m-%d')
startdate = datetime.datetime.strptime('2007-06-01', '%Y-%m-%d')
data['issueDateDt'] = data['issueDate'].apply(lambda x: x - startdate).dt.days
del data['issueDate']

看一下特征的类别分布情况

cate_features = ['grade', 'subGrade', 'employmentTitle', 'homeOwnership', 'verificationStatus', 'purpose',
                 'postCode', 'regionCode', 'applicationType', 'initialListStatus', 'title', 'policyCode']
for cate in cate_features:
    print(cate, '类型数', data[cate].nunique())
'''
不适合做one-hot编码的是
    employmentTitle 类型数 298101
    postCode 类型数 935
    title 类型数 6712
    regionCode 类型数 51 - 大于50的先不处理了，维度还是比较高的
    policyCode 类型数 1 - 无分析价值，可直接删除
'''
del data['policyCode']

对于高维类别特征，进行转换，取他们同类型的数量值和排名值

for f in ['employmentTitle', 'postCode', 'regionCode', 'title']:
    data[f + '_counts'] = data.groupby([f])['id'].transform('count')
    data[f + '_rank'] = data.groupby([f])['id'].rank(ascending=False).astype(int)
    del data[f]

features = [f for f in data.columns if f not in ['id', 'isDefault']]
train_lgb = data[data.isDefault.notnull()].reset_index(drop=True)
testA_lgb = data[data.isDefault.isnull()].reset_index(drop=True)

保存数据待用

train_lgb.to_csv('./data/train_data_for_lgb.csv', index=0)
testA_lgb.to_csv('./data/testA_data_for_lgb.csv', index=0)

xgb - 主要one-hot类别特征

对于维度大于1且不会形成高维稀疏矩阵的特征，进行one-hot编码

data_xgb = data
data_xgb = pd.get_dummies(data_xgb, columns=['grade', 'subGrade', 'homeOwnership', 'verificationStatus',
                                             'purpose', 'applicationType', 'initialListStatus'], drop_first=True)
train_xgb = data_xgb[data_xgb.isDefault.notnull()].reset_index(drop=True)
testA_xgb = data_xgb[data_xgb.isDefault.isnull()].reset_index(drop=True)

保存数据待用

train_xgb.to_csv('./data/train_data_for_xgb.csv')
testA_xgb.to_csv('./data/testA_data_for_xgb.csv')

logistic - 主要处理特征的缺失值、异常值、连续特征的归一化及数据分桶

data_logistic = data_xgb

缺失值的处理

我没有选择删除数据（每条数据都是宝贵的），能补就补

看看缺失数据

missing = data_logistic.isnull().sum()
missing = missing[missing > 0]
missing.sort_values(ascending=False, inplace=True)
missing.plot.bar()

可以发现，有缺失值的特征不多，就22个；其中缺失率比较高的有16个，基本都是匿名特征且缺失率均在10%以下

看下匿名特征的分布情况，判断一下是离散特征还是连续特征

n_features = ['n0', 'n1', 'n2', 'n2.1', 'n4', 'n5', 'n6', 'n7', 'n8', 'n9', 'n10', 'n11', 'n12', 'n13', 'n14']
for n in n_features:
    print(n, '类型数', data_logistic[n].nunique())

data_logistic[['employmentLength', 'n0', 'n1', 'n2', 'n2.1', 'n4', 'n5', 'n6', 'n7', 'n8', 'n9',
                'n10', 'n11']].head(50)
data_logistic[['employmentLength', 'n0', 'n1', 'n2', 'n2.1', 'n4', 'n5', 'n6', 'n7', 'n8', 'n9', 'n10', 'n11']].info()

去重以后值不多，看着像离散型特征

我先统一将这些匿名特征的缺失值单独分一类

missing_features_part = ['n0', 'n1', 'n2', 'n2.1', 'n4', 'n5', 'n6', 'n7', 'n8', 'n9', 'n10', 'n11', 'n12', 'n13',
                         'n14']
for missfea in missing_features_part:
    data_logistic.fillna({
     missfea: -99}, inplace=True)
    data_logistic[missfea] = data_logistic[missfea].astype('category')
    print('{} 处理完成'.format(missfea))

剩下有缺失数据的特征如下

'''
employmentLength           58541
dti                          300
pubRecBankruptcies           521
revolUtil                    658
employmentTitle_counts         1
postCode_counts                1
title_counts                   1
'''

employmentLength是就业年限，和逾期应该不是强关联的特征，另外几个特征缺失很少，使用出现最多的分类变量来代替缺失值

fea_miss = ['employmentLength', 'revolUtil', 'pubRecBankruptcies', 'dti', 'employmentTitle_counts',
            'postCode_counts', 'title_counts']

employmentLength

data_logistic.groupby('employmentLength')['isDefault'].count().sort_values(ascending=False)
'''10'''
data_logistic.fillna({
     'employmentLength': 10}, inplace=True)

revolUtil

data_logistic.groupby('revolUtil')['isDefault'].count().sort_values(ascending=False)
'''0.00'''
data_logistic.fillna({
     'revolUtil': 0.00}, inplace=True)

pubRecBankruptcies

data_logistic.groupby('pubRecBankruptcies')['isDefault'].count().sort_values(ascending=False)
'''0.00'''
data_logistic.fillna({
     'pubRecBankruptcies': 0.00}, inplace=True)

dti

data_logistic.groupby('dti')['isDefault'].count().sort_values(ascending=False)
'''16.80'''
data_logistic.fillna({
     'dti': 16.80}, inplace=True)

employmentTitle_counts

data_logistic.groupby('employmentTitle_counts')['isDefault'].count().sort_values(ascending=False)
'''1.00'''
data_logistic.fillna({
     'employmentTitle_counts': 1.00}, inplace=True)

postCode_counts

data_logistic.groupby('postCode_counts')['isDefault'].count().sort_values(ascending=False)
'''11092.00'''
data_logistic.fillna({
     'postCode_counts': 11092.00}, inplace=True)

title_counts

data_logistic.groupby('title_counts')['isDefault'].count().sort_values(ascending=False)
'''491400.00'''
data_logistic.fillna({
     'title_counts': 491400.00}, inplace=True)

随机森林筛选重要特征

num_features = list(data_logistic.select_dtypes(exclude=['category']).columns)
'''数值型特征'''
cate_features = list(data_logistic.select_dtypes(include=['category']).columns)
'''类别型特征'''

for fea in cate_features:
    data_logistic[fea] = data_logistic[fea].astype('int')

# ## 分离训练集和测试集
train_logistic_forest = data_logistic[data_logistic.isDefault.notnull()].reset_index(drop=True)
features = [f for f in train_logistic_forest.columns if f not in ['id', 'isDefault']]
label = ['isDefault']
X_train_logistic_forest = train_logistic_forest[features]
y_train_logistic_forest = train_logistic_forest[label]
# ## 使用随机森林训练
clf_forest = RandomForestClassifier()
clf_forest.fit(X_train_logistic_forest, y_train_logistic_forest)

得到特征重要性

forest_importances = list(clf_forest.feature_importances_)
feature_importances = [(feature, round(importance, 2)) for feature, importance in zip(
    features, forest_importances)]

# ## 重要性排序
feature_importances = sorted(feature_importances, key=lambda x: x[1], reverse=True)
print(feature_importances)

重要性为0的特征就不保留了，不然内存占用太大了

important_features = ['interestRate', 'dti', 'revolBal', 'revolUtil', 'earliesCreditLine_date',
                      'title_rank', 'loanAmnt', 'installment', 'annualIncome', 'totalAcc',
                      'issueDateDt', 'employmentTitle_rank', 'postCode_counts', 'postCode_rank',
                      'regionCode_rank', 'term', 'employmentLength', 'ficoRangeLow', 'ficoRangeHigh',
                      'openAcc', 'n1', 'n4', 'n5', 'n6', 'n7', 'n8', 'n10', 'n14',
                      'employmentTitle_counts', 'regionCode_counts', 'delinquency_2years', 'pubRec',
                      'n0', 'n2', 'n2.1', 'n9', 'title_counts', 'grade_E', 'homeOwnership_1']
'''
[('interestRate', 0.05), ('dti', 0.04), ('revolBal', 0.04), ('revolUtil', 0.04), 
('earliesCreditLine_date', 0.04), ('title_rank', 0.04), ('loanAmnt', 0.03), ('installment', 0.03), 
('annualIncome', 0.03), ('totalAcc', 0.03), ('issueDateDt', 0.03), ('employmentTitle_rank', 0.03), 
('postCode_counts', 0.03), ('postCode_rank', 0.03), ('regionCode_rank', 0.03), ('term', 0.02), 
('employmentLength', 0.02), ('ficoRangeLow', 0.02), ('ficoRangeHigh', 0.02), ('openAcc', 0.02), 
('n1', 0.02), ('n4', 0.02), ('n5', 0.02), ('n6', 0.02), ('n7', 0.02), ('n8', 0.02), ('n10', 0.02), 
('n14', 0.02), ('employmentTitle_counts', 0.02), ('regionCode_counts', 0.02), 
('delinquency_2years', 0.01), ('pubRec', 0.01), ('n0', 0.01), ('n2', 0.01), ('n2.1', 0.01), 
('n9', 0.01), ('title_counts', 0.01), ('grade_E', 0.01), ('homeOwnership_1', 0.01), 
'''

columns = ['interestRate', 'dti', 'revolBal', 'revolUtil', 'earliesCreditLine_date',
           'title_rank', 'loanAmnt', 'installment', 'annualIncome', 'totalAcc',
           'issueDateDt', 'employmentTitle_rank', 'postCode_counts', 'postCode_rank',
           'regionCode_rank', 'term', 'employmentLength', 'ficoRangeLow', 'ficoRangeHigh',
           'openAcc', 'n1', 'n4', 'n5', 'n6', 'n7', 'n8', 'n10', 'n14', 'employmentTitle_counts',
           'regionCode_counts', 'delinquency_2years', 'pubRec', 'n0', 'n2', 'n2.1', 'n9',
           'title_counts', 'grade_E', 'homeOwnership_1', 'isDefault']

# ## 将重要性为零的特征都不保留了
data_logistic = data_logistic[columns]

异常数据处理

对于异常值，这里不做处理，将数值型特征做归一化处理，降低异常值的干扰。归一化前先去对数
为什么要取对数 - 数据集中有负数就不能取对数了 - 实践中,取对数的一般是水平量,而不是比例数据
1.缩小数据的绝对数值,方便计算
2.取对数后,可以将乘法计算转换称加法计算
3.对数值小的部分差异的敏感程度比数值大的部分的差异敏感程度更高
4.取对数之后不会改变数据的性质和相关关系,但压缩了变量的尺度
5.所得到的数据易消除异方差问题

def min_max_scaler(data, fea):
    data[fea] = np.log(data[fea] + 2)   # 数据中有-1
    data[fea] = ((data[fea] - np.min(data[fea])) / (np.max(data[fea]) - np.min(data[fea]))) # 归一化


min_max_columns = list(data_logistic.select_dtypes(exclude=['uint8']).columns)
min_max_columns.remove('isDefault')

for col in min_max_columns:
    min_max_scaler(data_logistic, col)


data_logistic.info()

两个数据集分开

train_logistic = data_logistic[data_logistic.isDefault.notnull()].reset_index(drop=True)
testA_logistic = data_logistic[data_logistic.isDefault.isnull()].reset_index(drop=True)

train_logistic.to_csv('./data/train_data_for_logistic.csv', index=0)
testA_logistic.to_csv('./data/testA_data_for_logistic.csv', index=0)

模型训练

logistic

数据准备

train_logistic = pd.read_csv('./data/train_data_for_logistic.csv')
testA_logistic = pd.read_csv('./data/testA_data_for_logistic.csv')
missing_fea = ['n1', 'n4', 'n5', 'n6', 'n7', 'n8', 'n10', 'n14', 'n0', 'n2', 'n2.1', 'n9']
train_logistic.info()
train_logistic[missing_fea] = train_logistic[missing_fea].fillna(train_logistic[missing_fea].median())
testA_logistic[missing_fea] = testA_logistic[missing_fea].fillna(testA_logistic[missing_fea].median())

划分训练集的特征和标签

features = [f for f in train_logistic.columns if f not in ['isDefault']]
label = ['isDefault']
X_train_logistic = train_logistic[features]
y_train_logistic = train_logistic[label]

将训练集分为5份，4份作为训练集，1份作为验证集

X_train_logistic_split, X_val_logistic, y_train_logistic_split, y_val_logistic = train_test_split(
    X_train_logistic, y_train_logistic, test_size=0.2)
lr = LogisticRegression()
lr = lr.fit(X_train_logistic_split, y_train_logistic_split)
y_val_logistic_pre = lr.predict(X_val_logistic)
fpr, tpr, threshold = metrics.roc_curve(y_val_logistic, y_val_logistic_pre)
roc_auc = metrics.auc(fpr, tpr)
print('未调参前逻辑回归在验证集上的AUC： {}'.format(roc_auc))
'''
未调参前逻辑回归在验证集上的AUC： 0.531000169605175

欠拟合
'''

找出相关性高的特征

print(lr.coef_)
m = {
     }
col_name = list(X_train_logistic_split.columns)
for i in range(len(col_name)):
    # 若没有key,加入key
    m.setdefault(col_name[i], 0)
    # 这里取绝对值，主要看特征的相关性
    m[col_name[i]] = abs(lr.coef_[0][i])

sorted(m.items(), key=lambda x: x[1], reverse=True)

大家这里可以尝试用相关性高的特征加以处理或特征构造，重新训练模型。我这里也没有调参，可以通过调参提高结果分数

xgboost

数据准备

train_xgb = pd.read_csv('./data/train_data_for_xgb.csv')
testA_xgb = pd.read_csv('./data/testA_data_for_xgb.csv')

features_xgb = [f for f in train_xgb.columns if f not in ['isDefault']]
X_train_xgb = train_xgb[features_xgb]
y_train_xgb = train_xgb['isDefault']

## xgb - 梯度提升决策树

‘’’
XGBRegressor - 梯度提升回归树,也叫梯度提升机

            采用连续的方式构造树,每棵树都试图纠正前一棵树的错误
            与随机森林不同,梯度提升回归树没有使用随机化,而是用到了强预剪枝
            从而使得梯度提升树往往深度很小,这样模型占用的内存少,预测的速度也快

            gamma - 定了节点分裂所需的最小损失函数下降值,这个参数的值越大,算法越保守
            subsample - 这个参数控制对于每棵树随机采样的比例,减小这个参数的值,算法会更加保守,避免过拟合
            colsample_bytree - 用来控制每棵随机采样的列数的占比
            learning_rate - 学习速率,用于控制树的权重,xgb模型在进行完每一轮迭代之后,会将叶子节点的分数乘上该系数,
                            以便于削弱各棵树的影响,避免过拟合

‘’’

def build_model_xgb(x_train, y_train):
    model = xgb.XGBRegressor(n_estimators=120, learning_rate=0.08, gamma=0,
                             subsample=0.8, colsample_bytree=0.9, max_depth=5)
    model.fit(x_train, y_train)
    return model


# xgb五折交叉验证
xgr = xgb.XGBClassifier(n_estimators=120, learning_rate=0.1, subsample=0.8, colsample_bytree=0.9, max_depth=7)

scores_train = []   # 每次模型训练训练集中子训练集的得分
scores = []         # 每次模型训练训练集中验证集的得分

sk = StratifiedKFold(n_splits=5, shuffle=True, random_state=0)  # shuffle判断是否在每次抽样时对样本进行清洗
for train_ind, val_ind in sk.split(X_train_xgb, y_train_xgb):
    train_x = X_train_xgb.iloc[train_ind].values
    train_y = y_train_xgb.iloc[train_ind]
    val_x = X_train_xgb.iloc[val_ind].values
    val_y = y_train_xgb.iloc[val_ind]

    xgr.fit(train_x, train_y)
    pred_train_xgb = xgr.predict(train_x)   # 子训练集的预测值
    pre_xgb = xgr.predict(val_x)            # 验证集的预测值

    scores_train.append(roc_auc_score(train_y, pred_train_xgb))
    scores.append(roc_auc_score(val_y, pre_xgb))                    # 统计验证集的mae

print('Train mae:', np.mean(scores_train))  # 统计mae均值
print('Val mae:', np.mean(scores))
'''
Train mae: 0.5548858423493594
Val mae: 0.5458927786959327
'''

结果也不是很好，同样可以通过特征重新筛选和调参来提高

总结

至于lgb部分，可以参考Task4的代码，思路就是使用lgb,xgb,lr同时找到合适的特征并加以调参。训练完后三个模型可以使用文初提到的链接使用stacking、blending、加权融合或者投票（硬投票、软投票等方法）尝试模型融合。

在task5之后，我自己还会做一个task6，尝试完整的完成预测，再到线上提交加以迭代。

你可能感兴趣的:(机器学习,python,算法)

python中index()函数用法是什么？让你五行代码 index index函数 python
在Python中，index函数检测字符串中是否包含子字符串sub，如果指定start(开始)和end(结束)范围，则检查是否包含在指定范围内。如果包含子字符串，则返回子字符串开始的索引值，否则抛出异常。语法格式如下：str.index(sub[,start[,end]])参数含义如下。(1)sub：指定检索的字符串。(2)start：开始索引，默认为0。(3)end：结束索引，默认为字符串的长度
Python中index的常用功能 weixin_57454642 python 开发语言
在Python中，index是字符串（string）、列表（list）、元组等序列类型的方法，用于查找某个元素在序列中第一次出现的位置（即索引）。如果元素不存在，index方法会抛出ValueError异常。一、用法sequence.index(element,start,end)'element'：要查找的元素'start'：（可选）搜索的起始位置。默认为0。'end'：（可选）搜索的结束位置。
【PyCharm】将包含多个参数的 shell 脚本配置到执行文件来调试 Python 程序 shengchao0920 python pycharm ide
要配置PyCharm以使用包含多个参数的shell脚本（如run.sh）来调试Python程序，您可以按照以下步骤操作：创建一个新的运行/调试配置：在PyCharm中，点击“运行”菜单旁边的齿轮图标，选择“编辑配置”（或使用快捷键Ctrl+Shift+Alt+S）。点击左上角的“+”号，选择“Python”。配置脚本参数：在新创建的配置中，您需要设置“脚本路径”为您的Python脚本路径（在这个例
python画与x轴平行_少儿编程：python趣味编程第一课 weixin_39762478 python画与x轴平行
本文仅针对8-16岁的青少年，所以流程是按如何去教好中小学生走的，并不适合成人找工作学习，因为进度也是按照青少年走的大家好，我是C大叔，从事少儿编程行业三年有余(2016年从事少儿编程行业，少儿编程概念是2015年在中国正式提出的)。一直以来都是在做scratch，JavaScript以及信息学奥赛C++的讲师，教研等工作，但目前发现python课程非常火爆，为了让小朋友也能更好的学python课
python一个函数调用另一个函数里面的值_Python学习笔记（10）-函数之函数定义、调用、参数、返回值、嵌套... weixin_39631689
函数函数定义将实现某个独立功能的代码组合在一起，命一个名字，再需要使用这段代码时通过所命的名字来使用，就叫做函数使用函数的好处：1、将代码模块化（升级或修改某一个功能时只更新相应函数即可）2、方便代码重复使用（不需要多次重复编写代码只需多次调用即可）函数定义的格式：def函数名():代码块如定义一个打印名片函数：注意：1、函数名命名规则与变量命名规则一致，但一般不使用大驼峰命名方式2、定义函数只是
Python绘制汽车（完整代码） Want595 Python趣味编程 python 开发语言
系列专栏《Python趣味编程》《C/C++趣味编程》《HTML趣味编程》《Java趣味编程》写在前面Python绘制一辆小汽车的完整代码。技术需求Turtle库基本操作：画笔控制：通过
Python绘制房子（完整代码） Want595 Python趣味编程 python 开发语言
系列专栏《Python趣味编程》《C/C++趣味编程》《HTML趣味编程》《Java趣味编程》写在前面Python绘制一间小房子的完整代码。技术需求1.turtle模块的使用画笔创建和控制：通过turtle.Turtle()创建画笔对象，使用penup()和
Python绘制气球（完整代码） Want595 Python趣味编程 python
系列专栏《Python趣味编程》《C/C++趣味编程》《HTML趣味编程》《Java趣味编程》写在前面Python绘制一个红色气球的完整代码。技术需求编程语言：Python3.x依赖库：Turtle库（标准库，无
Python五环图（完整代码） Want595 Python趣味编程 python turtle
系列专栏《Python趣味编程》《C/C++趣味编程》《HTML趣味编程》《Java趣味编程》写在前面Python绘制蓝、黑、红、黄、绿五环图的完整代码。技术需求1.Turtle模块基础功能窗口设置：<
Python教师信息管理系统（完整代码） Want595 Python趣味编程算法 python
目录写在前面技术需求完整代码下载代码代码分析一、类的设计与功能1.__init__方法2.add方法3.delete方法4.update方法5.search方法二、程序的主要流程1.输入与输出2.异常处理3.用户操作的逻辑三、代码的优化1.输入数据的验证2.数据存储3.提示信息的增强4.功能扩展四、总结系列文章写在后面写在前面Python语言实现教师信息管理系统的完整代码。技术需求面向对象编程(O
Python学生信息管理系统（完整代码） Want595 Python趣味编程 python 开发语言
目录写在前面技术需求完整代码下载代码代码分析1.类与对象的设计2.学生信息管理功能2.1添加学生信息2.2删除学生信息2.3修改学生信息2.4查询学生信息2.5按学号排序3.用户交互部分3.1菜单系统3.2用户输入处理3.3根据用户选择执行操作4.异常处理与程序健壮性5.总结系列文章写在后面写在前面Python语言实现学生信息管理系统的完整代码。技术需求类和对象：使用了StudentManager
python函数一：函数的概念、函数定义与调用、函数的参数、函数的返回值、说明文档以及函数的嵌套调用 @听风吟 Python python 开发语言数据库大数据
文章目录1.函数介绍1.1函数的概念1.2函数定义与调用1.2函数的参数1.3函数的返回值1.4说明文档2.函数的嵌套调用2.1嵌套调用及执行流程2.2嵌套调用的应用1.函数介绍1.1函数的概念什么是函数？函数:是一个被命名的、独立的、完成特定功能的代码段，其可能给调用它的程序一个返回值。通俗的说函数就是把一段可以实现某种功能的代码封装起来,想要使用这个功能就可以直接调用函数。被命名的：在Pyth
如何用Python训练一个AI模型（超详细教程）非常详细收藏我这一篇就够了！程序员二飞人工智能架构算法制造自然语言处理
引言人工智能（AI）——一个熟悉又神秘的词汇。我们常听说它可以生成诗歌、编写代码、创作艺术，甚至回答各种问题。然而，当你想亲手实现一个“AI模型”时，却可能感到无从下手。这篇教程正是为你准备的，将带你从零开始，逐步掌握从“AI新手”到“能够搭建AI模型”的核心技能。前排提示，文末有大模型AGI-CSDN独家资料包哦！一、AI的基本概念1.什么是AI模型？AI模型是通过训练得到的一种程序，能够利用海
在Python中实现多线程与多进程的任务并发：实用指南清水白石008 python Python题库 python java jvm
在Python中实现多线程与多进程的任务并发：实用指南在现代计算中，任务并发是提高程序性能和响应速度的重要手段。Python提供了多线程和多进程两种方式来实现并发处理。本文将详细介绍如何在Python中实现多线程和多进程的任务并发，包括基本概念、使用场景、示例代码以及最佳实践。一、基本概念1.线程与进程线程：线程是进程中的一个执行单元，多个线程共享同一进程的内存空间。线程的创建和销毁开销较小，适合
Python生态系统中拥有丰富的第三方库 ___Y1 python python
Python生态系统中拥有丰富的第三方库，这些库覆盖了几乎所有领域，包括科学计算、数据分析、机器学习、人工智能、Web开发等。这些库的存在极大地丰富了Python的功能，使其成为一门强大而灵活的编程语言。以下是一些常用的Python第三方库：1.**科学计算与数据处理：**-**NumPy：**提供高性能的多维数组对象，以及相关工具，用于处理这些数组。-**Pandas：**提供数据结构和数据分析
【ChatBI】text2sql-不需要访问数据表-超轻量Python库Vanna快速上手，对接oneapi 机器玄学实践者 oneapi vanna chatbi dbgpt nl2sql
oneapi准备首先确保你有oneapi，然后申请kimi的api需要去MoonshotAI-开放平台然后添加一个apikey然后打开oneapi的渠道界面，添加kimi。然后点击测试，如果能生成响应时间，就是配置正确。然后创建令牌http://xxx:3000/token,模型名是moonshot-v1-8k然后复制token，token是sk开头的一串密码。其他平台接入也是类似操作，不懂的读者
人工智能 Python ZSup{A} 人工智能 java 前端服务器
人工智能Python（一）一．基本语法1.在python中严格区分大小写2.Python中的每一行就是一条语句，每条语句以换行结束3.Python每一行语句不要过长（规范中建议每行不要超过80个字符）“rulers”:[80]4.一条语句可以分多行编写，语句后面以\结尾5.Python是缩进严格的语言，所以在Python中不要随便写缩进6.在Python使用#表示注释，#后面的内容都属于注释，注释
树莓派控制步进电机（上）：硬件连接神一样的老师树莓派单片机嵌入式硬件 stm32 iot
目录说明硬件连接DM542的连接方法树莓派的连接方法参考文献说明最近需要测试树莓派控制步进电机的功能，在查阅网上资料的基础上做了一些整理和测试，特别记录在此。这里我们使用的是树莓派4B开发板，步进电机为6线两相步进电机，驱动器采用的是DM542。硬件连接DM542的连接方法DM542（图1）是数字式两相步进电机驱动器，采用PI控制算法，低噪音、低振动、低发热，低中高速运行都很平稳。图1DM542的
private前端常见算法键. 2025_react_run react.js
1.数组合并两个有序数组（简单-5）https://leetcode.cn/problems/merge-sorted-array/description/?envType=study-plan-v2&envId=top-interview-150移除元素（简单-4）https://leetcode.cn/problems/remove-element/description/?envType=s
【人工智能】Python常用库-PyTorch常用方法教程 IT古董人工智能机器学习 Python 人工智能 python pytorch 机器学习
PyTorch是一个强大的开源深度学习框架，以其灵活性和动态计算图而广受欢迎。以下是PyTorch的详细教程，涵盖从基础到实际应用的使用方法。1.安装与导入1.1安装PyTorch访问PyTorch官方网站，根据系统、Python版本和CUDA支持选择安装命令。常用安装命令：pipinstalltorchtorchvisiontorchaudio1.2导入库importtorchimporttor
【人工智能】Python常用库-TensorFlow常用方法教程 IT古董人工智能机器学习 Python 人工智能 python tensorflow 机器学习
TensorFlow是一个广泛应用的开源深度学习框架，支持多种机器学习任务，如深度学习、神经网络、强化学习等。以下是TensorFlow的详细教程，涵盖基础使用方法和示例代码。1.安装与导入安装TensorFlow：pipinstalltensorflow导入TensorFlow：importtensorflowastfimportnumpyasnp验证安装：print(tf.__version_
【人工智能】Python常用库-Matplotlib常用方法教程 IT古董人工智能机器学习 Python 人工智能 python matplotlib
Matplotlib是一个强大的Python数据可视化库，用于绘制各种图形。以下是Matplotlib常用方法的详细说明及示例，帮助你快速上手。1.安装和导入Matplotlib安装Matplotlib：pipinstallmatplotlib导入Matplotlib：importmatplotlib.pyplotasplt2.基本绘图绘制简单折线图importmatplotlib.pyplota
[c语言日寄]assert函数功能详解 siy2333 c语言日寄 c语言开发语言算法笔记学习
【作者主页】siy2333【专栏介绍】⌈c语言日寄⌋：这是一个专注于C语言刷题的专栏，精选题目，搭配详细题解、拓展算法。从基础语法到复杂算法，题目涉及的知识点全面覆盖，助力你系统提升。无论你是初学者，还是进阶开发者，这里都能满足你的需求！【食用方法】1.根据题目自行尝试2.查看基础思路完善题解3.学习拓展算法【Gitee链接】资源保存在我的Gitee仓库：https://gitee.com/siy
python 命名实体识别_Python NLTK学习11（命名实体识别和关系抽取） weixin_39630762 python 命名实体识别
PythonNLTK学习11(命名实体识别和关系抽取)发表于:2017年7月27日阅读:18262除特别注明外，本站所有文章均为小杰Code原创本系列博客为学习《用Python进行自然语言处理》一书的学习笔记。命名实体识别命名实体识别(NER)系统的目标是识别所有文字提及的命名实体。可以分解成两个子任务：确定NE的边界和确定其类型。命名实体识别非常适用于基于分类器类型的方法来处理的任务。NLTK有
python断点调试出现问题_python的断点调试 weixin_39689870 python断点调试出现问题
在Python中也可以像gcc/gdb那样调试程序，只要在运行Python程序时引入pdb模块（假设要调试的程序名为d.py）：1$vid.py12345678#!/usr/bin/pythondefmain():i,sum=1,0foriinxrange(100):sum=sum+iprintsumif__name__=='__main__':main()1$python-mpdbd.py运行上
python命名实体识别工具,斯坦福大学使用NLTK命名实体识别器（NER）功能宇宙探索未解之迷 python命名实体识别工具
Isthispossible:toget(similarto)StanfordNamedEntityRecognizerfunctionalityusingjustNLTK?Isthereanyexample?Inparticular,IaminterestedinextractionLOCATIONpartoftext.Forexample,fromtextThemeetingwillbehel
【小白学AI系列】NLP 核心知识点（六）Softmax函数介绍 Blankspace空白人工智能自然语言处理 transformer
Softmax函数Softmax函数是一种常用的数学函数，广泛应用于机器学习中的分类问题，尤其是在神经网络的输出层。它的主要作用是将一个实数向量“压缩”成一个概率分布，使得所有输出的值在0到1之间，并且总和为1。换句话说，Softmax将模型的原始输出（logits）转化为概率，帮助我们做分类决策。定义与公式假设我们有一个向量z=[z1,z2,…,zn]\mathbf{z}=[z_1,z_2,\d
python做个游戏辅助_8个用于辅助项目的出色Python库 cumj63710 数据库 python java 大数据编程语言
python做个游戏辅助在Python/Django世界中我们有一句俗语：我们是为语言而来的，而是为社区而留下的。对我们大多数人来说都是如此，但是让我们留在Python世界中的另一件事是，有了一个想法并在午餐或晚上几个小时内快速地解决它是多么容易。本月，我们将深入研究我们喜欢用来快速擦除那些附带项目或午餐时间痒的Python库。即时将数据保存在数据库中：数据集当我们快速想要收集数据并将其保存到数据
用Python做一个绝地求生压枪版程序媛了了 python 开发语言
一、概述1.1效果总的来说，这种方式是通过图像识别来完成的，不侵入游戏，不读取内存，安全不被检测。1.2前置知识游戏中有各种不同的枪械，不同的枪械后坐力不一样，射速也不同。相同的枪械，装上不同的配件后，后坐力也会发生变化。枪械的y轴上移是固定的，x轴是随机的，因此我们程序只移动鼠标y轴。x轴游戏中手动操作。1.3实现原理简述通过python中的pynput模块监听键盘鼠标。监听鼠标左键按下，这个时
密码技术应该怎么用第十五天 CissSimkey 算法密码学
除了使用密码算法，还有以下多种方式可以保护数据：一、物理安全措施数据存储设备防护将数据存储在安全的物理位置，如数据中心。这些数据中心通常有严格的访问控制，包括门禁系统，只有经过授权的人员能够进入。例如，一些银行的数据中心采用多重身份验证的门禁，需要刷卡并且通过指纹识别或面部识别才能进入。使用专门的存储设备防护设施，像服务器机柜可以加锁，防止未经授权的人员直接接触存储数据的硬盘等设备。并且存储设备还
java数字签名三种方式知了ing java jdk
以下3钟数字签名都是基于jdk7的 1，RSA String password="test"; // 1.初始化密钥 KeyPairGenerator keyPairGenerator = KeyPairGenerator.getInstance("RSA"); keyPairGenerator.initialize(51
Hibernate学习笔记 caoyong Hibernate
1>、Hibernate是数据访问层框架，是一个ORM(Object Relation Mapping)框架，作者为:Gavin King 2>、搭建Hibernate的开发环境 a>、添加jar包: aa>、hibernatte开发包中/lib/required/所
设计模式之装饰器模式Decorator（结构型）漂泊一剑客 Decorator
1. 概述若你从事过面向对象开发，实现给一个类或对象增加行为，使用继承机制，这是所有面向对象语言的一个基本特性。如果已经存在的一个类缺少某些方法，或者须要给方法添加更多的功能（魅力），你也许会仅仅继承这个类来产生一个新类—这建立在额外的代码上。
读取磁盘文件txt，并输入String 一炮送你回车库 String
public static void main(String[] args) throws IOException { String fileContent = readFileContent("d:/aaa.txt"); System.out.println(fileContent);
js三级联动下拉框 3213213333332132 三级联动
//三级联动省/直辖市<select id="province"></select> 市/省直辖<select id="city"></select> 县/区 <select id="area"></select>
erlang之parse_transform编译选项的应用 616050468 parse_transform 游戏服务器属性同步 abstract_code
最近使用erlang重构了游戏服务器的所有代码，之前看过C++/lua写的服务器引擎代码，引擎实现了玩家属性自动同步给前端和增量更新玩家数据到数据库的功能，这也是现在很多游戏服务器的优化方向，在引擎层面去解决数据同步和数据持久化，数据发生变化了业务层不需要关心怎么去同步给前端。由于游戏过程中玩家每个业务中玩家数据更改的量其实是很少
JAVA JSON的解析 darkranger java
// { // “Total”：“条数”， // Code: 1, // // “PaymentItems”:[ // { // “PaymentItemID”:”支款单ID”, // “PaymentCode”:”支款单编号”, // “PaymentTime”:”支款日期”, // ”ContractNo”:”合同号”， //
POJ-1273-Drainage Ditches aijuans ACM_POJ
POJ-1273-Drainage Ditches http://poj.org/problem?id=1273 基本的最大流，按LRJ的白书写的 #include<iostream> #include<cstring> #include<queue> using namespace std; #define INF 0x7fffffff int ma
工作流Activiti5表的命名及含义 atongyeye 工作流 Activiti
activiti5 - http://activiti.org/designer/update在线插件安装 activiti5一共23张表 Activiti的表都以ACT_开头。第二部分是表示表的用途的两个字母标识。用途也和服务的API对应。 ACT_RE_*: 'RE'表示repository。这个前缀的表包含了流程定义和流程静态资源（图片，规则，等等）。 A
android的广播机制和广播的简单使用百合不是茶 android 广播机制广播的注册
Android广播机制简介在Android中，有一些操作完成以后，会发送广播，比如说发出一条短信，或打出一个电话，如果某个程序接收了这个广播，就会做相应的处理。这个广播跟我们传统意义中的电台广播有些相似之处。之所以叫做广播，就是因为它只负责“说”而不管你“听不听”，也就是不管你接收方如何处理。另外，广播可以被不只一个应用程序所接收，当然也可能不被任何应
Spring事务传播行为详解 bijian1013 java spring 事务传播行为
在service类前加上@Transactional，声明这个service所有方法需要事务管理。每一个业务方法开始时都会打开一个事务。 Spring默认情况下会对运行期例外(RunTimeException)进行事务回滚。这
eidtplus operate 征客丶 eidtplus
开启列模式: Alt+C 鼠标选择 OR Alt+鼠标左键拖动列模式替换或复制内容(多行): 右键-->格式-->填充所选内容-->选择相应操作 OR Ctrl+Shift+V(复制多行数据,必须行数一致) -------------------------------------------------------
【Kafka一】Kafka入门 bit1129 kafka
这篇文章来自Spark集成Kafka(http://bit1129.iteye.com/blog/2174765)，这里把它单独取出来，作为Kafka的入门吧下载Kafka http://mirror.bit.edu.cn/apache/kafka/0.8.1.1/kafka_2.10-0.8.1.1.tgz 2.10表示Scala的版本，而0.8.1.1表示Kafka
Spring 事务实现机制 BlueSkator spring 代理事务
Spring是以代理的方式实现对事务的管理。我们在Action中所使用的Service对象，其实是代理对象的实例，并不是我们所写的Service对象实例。既然是两个不同的对象，那为什么我们在Action中可以象使用Service对象一样的使用代理对象呢？为了说明问题，假设有个Service类叫AService，它的Spring事务代理类为AProxyService，AService实现了一个接口
bootstrap源码学习与示例：bootstrap-dropdown（转帖） BreakingBad bootstrap dropdown
bootstrap-dropdown组件是个烂东西，我读后的整体感觉。一个下拉开菜单的设计： <ul class="nav pull-right"> <li id="fat-menu" class="dropdown">
读《研磨设计模式》-代码笔记-中介者模式-Mediator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 中介者模式（Mediator）：用一个中介对象来封装一系列的对象交互。 * 中介者使各对象不需要显式地相互引用，从而使其耦合松散，而且可以独立地改变它们之间的交互。 * * 在我看来，Mediator模式是把多个对象（
常用代码记录 chenjunt3 UI Excel J#
1、单据设置某行或某字段不能修改 //i是行号,"cash"是字段名称 getBillCardPanelWrapper().getBillCardPanel().getBillModel().setCellEditable(i, "cash", false); //取得单据表体所有项用以上语句做循环就能设置整行了 getBillC
搜索引擎与工作流引擎 comsci 算法工作搜索引擎网络应用
最近在公司做和搜索有关的工作，(只是简单的应用开源工具集成到自己的产品中)工作流系统的进一步设计暂时放在一边了，偶然看到谷歌的研究员吴军写的数学之美系列中的搜索引擎与图论这篇文章中的介绍，我发现这样一个关系(仅仅是猜想) -----搜索引擎和流程引擎的基础--都是图论，至少像在我在JWFD中引擎算法中用到的是自定义的广度优先
oracle Health Monitor daizj oracle Health Monitor
About Health Monitor Beginning with Release 11g, Oracle Database includes a framework called Health Monitor for running diagnostic checks on the database. About Health Monitor Checks Health M
JSON字符串转换为对象 dieslrae java json
作为前言,首先是要吐槽一下公司的脑残编译部署方式,web和core分开部署本来没什么问题,但是这丫居然不把json的包作为基础包而作为web的包,导致了core端不能使用,而且我们的core是可以当web来用的(不要在意这些细节),所以在core中处理json串就是个问题.没办法,跟编译那帮人也扯不清楚,只有自己写json的解析了.
C语言学习八结构体，综合应用，学生管理系统 dcj3sjt126com C语言
实现功能的代码： # include <stdio.h> # include <malloc.h> struct Student { int age; float score; char name[100]; }; int main(void) { int len; struct Student * pArr; int i,
vagrant学习笔记 dcj3sjt126com vagrant
想了解多主机是如何定义和使用的, 所以又学习了一遍vagrant 1. vagrant virtualbox 下载安装 https://www.vagrantup.com/downloads.html https://www.virtualbox.org/wiki/Downloads 查看安装在命令行输入vagrant 2.
14.性能优化-优化-软件配置优化 frank1234 软件配置性能优化
1.Tomcat线程池修改tomcat的server.xml文件： <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" maxThreads="1200" m
一个不错的shell 脚本教程入门级 HarborChung linux shell
一个不错的shell 脚本教程入门级建立一个脚本　　Linux中有好多中不同的shell，但是通常我们使用bash (bourne again shell) 进行shell编程，因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash（但是在大多数情况下，这些脚本同样可以在 bash的大姐，bourne shell中运行）。　　如同其他语言一样
Spring4新特性——核心容器的其他改进 jinnianshilongnian spring 动态代理 spring4 依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
Linux设置tomcat开机启动 liuxingguome tomcat linux 开机自启动
执行命令sudo gedit /etc/init.d/tomcat6 然后把以下英文部分复制过去。（注意第一句#!/bin/sh如果不写，就不是一个shell文件。然后将对应的jdk和tomcat换成你自己的目录就行了。 #!/bin/bash # # /etc/rc.d/init.d/tomcat # init script for tomcat precesses
第13章 Ajax进阶（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Troubleshooting Crystal Reports off BW blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Troubleshooting+Crystal+Reports+off+BW#TroubleshootingCrystalReportsoffBW-TracingBOE Quite useful, especially this part: SAP BW connectivity For t
Java开发熟手该当心的11个错误 tomcat_oracle java jvm 多线程单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
正则表达式大全 yang852220741 html 编程正则表达式
今天向大家分享正则表达式大全，它可以大提高你的工作效率正则表达式也可以被当作是一门语言，当你学习一门新的编程语言的时候，他们是一个小的子语言。初看时觉得它没有任何的意义，但是很多时候，你不得不阅读一些教程，或文章来理解这些简单的描述模式。一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,}$ m-n位的数字：^\d{m,n}$