MirandaM

信用评分卡DAY8-9

演练：训练和验证逻辑回归模型

任务目标

构建逻辑回归模型并对数据样本进行预测
理解和掌握逻辑回归模型性能的评价指标和方法
理解过拟合的产生以及通过惩罚项进行抑制的方法

任务描述

【dataset/titanic_train.csv】文件包含了泰坦尼克号乘客信息及其是否幸存的记录，各个字段含义如下：

PassengerId：乘客ID
Survive：标签，标记乘客是否生还
Pclass：乘客等级(1/2/3等舱位)
Name：乘客姓名
Sex：性别
Age：年龄
SibSp：兄弟姐妹的个数
Parch：父母与小孩个数
Ticket：船票信息
Fare：票价
Cabin：客舱
Embarked：登船港口

要求完成下列任务项：

数据探查：查看各个字段的数据分布及与标签结果之间的关系
数据清洗和特征处理：缺失值处理，删除无用特征，合并相关特征并进行分箱处理
构建基础模型并评估性能：训练一个逻辑回归模型，根据特征预测其是否生还；计算二分类的性能指标
非线性可分处理（拓展）：通过高阶函数来处理非线性问题，并通过惩罚项抑制过拟合
多分类处理（拓展）：使用逻辑回归对手写数字图片分类

工具和方法

sklearn.linear_model模块：LogisticRegression
sklearn.metrics模块：precision_score, recall_score, f1_score, confusion_matrix, classification_report

【任务0】准备工作

本演练准备工作包括：

预设随机数种子以使结果可重现
- 设置各随机数的种子为固定值(100)，以便产生的随机序列可以重现
- 后续代码中如果涉及到随机种子的设置，应统一设置为random_state
装载数据集并查看样例数据

import random
import numpy as np
import pandas as pd

random_state = 100
random.seed(random_state)
np.random.seed(random_state)

data_file = 'dataset/titanic_train.csv'
df = pd.read_csv(data_file)
print(df.head())
print("=" * 100)
print("训练样本维度：", df.shape)

   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450   8.0500   NaN        S  
====================================================================================================
训练样本维度： (891, 12)

【任务1】数据探查

【子任务项1.1】统计字段类型和缺失情况

检查数据集每个字段的类型（文本/数值），查看字段的的缺失值数量

print(df.info())


RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
None

说明

Name、Sex、Ticket、Cabin、Embarked 5个字段为字符串类型
样本中，Age、Cabin和Embarked字段均有缺失值，且Cabin大量缺失，后续要注意处理

【子任务项1.2】考查【仓位】与生还结果之间的关系

统计并使用堆叠柱状图显示不同仓位（Pclass)的生还(Survived)结果

import matplotlib.pyplot as plt
%matplotlib inline

# 统计未幸存的乘客中每种Pclass的数量
no_survived = df['Pclass'][df['Survived'] == 0].value_counts()
# 统计幸存的乘客中每种Pclass的数量
survived = df['Pclass'][df['Survived'] == 1].value_counts()
# 构建用于作图的数据集
df_temp = pd.DataFrame({'Survived':survived,'Died':no_survived})
# 绘制堆叠柱状图
df_temp.plot(kind='bar',stacked = True)

plt.xlabel('Class')
plt.ylabel('Sum')
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-s8L6eMJx-1626015050075)(output_7_0.png)]

说明

就生还率而言，一等舱明显最高，而三等舱显然最低。因此可以推测舱位的高低与生还情况成正相关
可以尝试查看其它特征与分类结果之间的样本数量关系

【任务2】数据清洗和特征处理

【子任务项2.1】初步筛选合适的特征

在原始的各个字段中，PassengerID和Name显然与分类结果没有任何关联，无需使用
Ticket字段描述的船票信息既非数值，也不是有限取值的文本，因此在此处也不作为特征
Cabin特征样本缺失数量巨大，因此可以考虑将该特征删除
最终经过初筛，特征字段为：Pclass,Sex,Age,SibSp,Parch,Fare,Embarked。

下面的代码从数据集中删除无关字段，仅保留特征字段和标签。

df.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'],  axis=1, inplace=True)
print(df.columns)

Index(['Survived', 'Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare',
       'Embarked'],
      dtype='object')

说明

上述结果输出，已经去除了无关字段。

【子任务项2.2】拆分训练集和测试集

将数据按照7:3拆分成训练数据集和测试数据集
注意，Survived字段是标签（下标索引为0），其余字段是特征

from sklearn.model_selection import train_test_split

X_train,X_test,y_train,y_test = train_test_split(df.iloc[:, 1:], df.iloc[:, 0], test_size=0.3, random_state=random_state)
print("训练集特征维度：", X_train.shape, "，标签维度：", y_train.shape)
print("测试集特征维度：", X_test.shape, "，标签维度：", y_test.shape)

训练集特征维度： (623, 7) ，标签维度： (623,)
测试集特征维度： (268, 7) ，标签维度： (268,)

说明

训练样本623个，测试样本268个。这些样本都要保留下来，但是部分字段存在缺失值，需要以恰当的方式填充这些缺失值

【子任务项2.3】使用随机森林模型插补Age字段的缺失值

Age字段的缺失值有100多个，可以考虑通过其它字段来推算其可能的值。此处使用随机森林模型预测Age值。
选择训练集中的’Fare’, ‘Parch’, ‘SibSp’, 'Pclass’四个字段作为特征，'Age’字段作为结果，训练随机森林模型
使用模型预测缺失的Age值，并写回到训练集和测试集中

from sklearn.ensemble import RandomForestRegressor

# 使用数据集中的'Age','Fare', 'Parch', 'SibSp', 'Pclass'
age = X_train[['Age','Fare', 'Parch', 'SibSp', 'Pclass']]
known_age = age[age.Age.notnull()].values    # Age未缺失的样本
unknown_age = age[age.Age.isnull()].values    # Age缺失的样本

X = known_age[:,1:]    # 后4个字段为特征矩阵X
y = known_age[:,0]    # 第1个字段为标签结果

# 训练模型
rf = RandomForestRegressor(random_state=random_state, n_estimators=200)
rf.fit(X, y)

# 计算Age缺失的样本中的预测值
predicts = rf.predict(unknown_age[:, 1:])
# 将Age值更新到df_train中
X_train.loc[(X_train.Age.isnull()), 'Age' ] = predicts 


# 将Age值更新到df_test中
age_test = X_test[['Fare', 'Parch', 'SibSp', 'Pclass']][X_test.Age.isnull()]
predicts = rf.predict(age_test)
X_test.loc[(X_test.Age.isnull()), 'Age' ] = predicts 

print("测试数据中插补的Age值：", predicts)
print("=" * 100)
print(X_train.info())
print("=" * 100)
print(X_test.info())

测试数据中插补的Age值： [ 4.9025846  27.01755548 29.26959254 11.22093849 29.146325   28.85321249
 26.396      11.22093849 26.41578589 23.26333333 25.06640712 32.73736452
 39.30680952 22.71342866 27.01546825 26.41578589 39.05960516 29.44317208
 27.01755548 29.26959254 32.73736452 32.73736452 29.44317208 16.00583333
 32.73736452 32.73736452 27.84292626 27.84292626 27.01755548 22.71342866
 27.84292626 23.34266667 32.43666667 25.62333333 32.73736452 38.06933333
 32.51466667 25.41690476 33.41228986 23.02333333 22.90907184 27.01755548
 36.85508479 30.35875    27.01755548 39.58833333 52.01260387 25.6397619
 36.85508479]
====================================================================================================

Int64Index: 623 entries, 69 to 520
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Pclass    623 non-null    int64  
 1   Sex       623 non-null    object 
 2   Age       623 non-null    float64
 3   SibSp     623 non-null    int64  
 4   Parch     623 non-null    int64  
 5   Fare      623 non-null    float64
 6   Embarked  622 non-null    object 
dtypes: float64(2), int64(3), object(2)
memory usage: 38.9+ KB
None
====================================================================================================

Int64Index: 268 entries, 205 to 277
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Pclass    268 non-null    int64  
 1   Sex       268 non-null    object 
 2   Age       268 non-null    float64
 3   SibSp     268 non-null    int64  
 4   Parch     268 non-null    int64  
 5   Fare      268 non-null    float64
 6   Embarked  267 non-null    object 
dtypes: float64(2), int64(3), object(2)
memory usage: 16.8+ KB
None

说明

可以看到测试数据集中预测的Age值，同时观察到，训练集中Age的缺失值已经为0

【子任务项2.4】使用众数填充Embarked字段的缺失值

Embarked字段只有2个缺失样本，因此直接采用众数填充
在填充测试数据中缺失的Embarked字段时，也应采用训练集的众数填充

embarked_mode = X_train['Embarked'].mode().values[0]
print("Embarked字段的众数值：", embarked_mode)

X_train.loc[X_train.Embarked.isnull(), 'Embarked'] = embarked_mode
X_test.loc[X_test.Embarked.isnull(), 'Embarked'] = embarked_mode

print(X_train.info())
print("=" * 100)
print(X_test.info())

Embarked字段的众数值： S

Int64Index: 623 entries, 69 to 520
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Pclass    623 non-null    int64  
 1   Sex       623 non-null    object 
 2   Age       623 non-null    float64
 3   SibSp     623 non-null    int64  
 4   Parch     623 non-null    int64  
 5   Fare      623 non-null    float64
 6   Embarked  623 non-null    object 
dtypes: float64(2), int64(3), object(2)
memory usage: 38.9+ KB
None
====================================================================================================

Int64Index: 268 entries, 205 to 277
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Pclass    268 non-null    int64  
 1   Sex       268 non-null    object 
 2   Age       268 non-null    float64
 3   SibSp     268 non-null    int64  
 4   Parch     268 non-null    int64  
 5   Fare      268 non-null    float64
 6   Embarked  268 non-null    object 
dtypes: float64(2), int64(3), object(2)
memory usage: 16.8+ KB
None

说明

可见，Embarked字段已经没有缺失值

【子任务项2.5】 Sex字段转换成数值1和0

将female取值转换成0，male取值转换成1

X_train.loc[X_train.Sex=='male', 'Sex'] = 1
X_train.loc[X_train.Sex=='female', 'Sex'] = 0
X_test.loc[X_test.Sex=='male', 'Sex'] = 1
X_test.loc[X_test.Sex=='female', 'Sex'] = 0

print(X_train.head())
print("=" * 100)
print(X_test.head())

     Pclass Sex       Age  SibSp  Parch     Fare Embarked
69        3   1  26.00000      2      0   8.6625        S
85        3   0  33.00000      3      0  15.8500        S
794       3   1  25.00000      0      0   7.8958        S
161       2   0  40.00000      0      0  15.7500        S
815       1   1  39.30681      0      0   0.0000        S
====================================================================================================
     Pclass Sex   Age  SibSp  Parch     Fare Embarked
205       3   0   2.0      0      1  10.4625        S
44        3   0  19.0      0      0   7.8792        Q
821       3   1  27.0      0      0   8.6625        S
458       2   0  50.0      0      0  10.5000        S
795       2   1  39.0      0      0  13.0000        S

说明

可见，Sex字段值已经转换成0、1数值

【子任务项2.6】 Embarked字段转换成OneHot编码

Embarked字段有3个取值，OneHot编码之后，将产生三个字段(字段取名为Embarked_x)，每个字段的取值为0或1
删除原有的Embarked字段

from sklearn.preprocessing import OneHotEncoder

encoder = OneHotEncoder()
encoder.fit(X_train.loc[:, ['Embarked']])    # 即使只有1个列，也必须将列名写在[]中

# 分别针对训练集和测试集进行OneHot编码
train_onehot = encoder.transform(X_train.loc[:, ['Embarked']]).toarray()    # 使用toarray获得转换以后的OneHot编码数组
test_onehot = encoder.transform(X_test.loc[:, ['Embarked']]).toarray()    # 使用toarray获得转换以后的OneHot编码数组

# 新增编码后的字段
index = 0
for index in range(train_onehot.shape[1]):
    category_name = encoder.categories_[0][index]    # 获取OneHot编码后对应的第index个类别名称
    X_train['Embarked_' + category_name] = train_onehot[:, index]    # 将对应类别(字段)的编码数值增加到df中
    X_test['Embarked_' + category_name] = test_onehot[:, index]

# 删除原有Embarked字段
X_train.drop(['Embarked'], axis=1, inplace=True)
X_test.drop(['Embarked'], axis=1, inplace=True)

# 打印前5行数据
print(X_train.head())
print("=" * 100)
print(X_test.head())

     Pclass Sex       Age  SibSp  Parch     Fare  Embarked_C  Embarked_Q  \
69        3   1  26.00000      2      0   8.6625         0.0         0.0   
85        3   0  33.00000      3      0  15.8500         0.0         0.0   
794       3   1  25.00000      0      0   7.8958         0.0         0.0   
161       2   0  40.00000      0      0  15.7500         0.0         0.0   
815       1   1  39.30681      0      0   0.0000         0.0         0.0   

     Embarked_S  
69          1.0  
85          1.0  
794         1.0  
161         1.0  
815         1.0  
====================================================================================================
     Pclass Sex   Age  SibSp  Parch     Fare  Embarked_C  Embarked_Q  \
205       3   0   2.0      0      1  10.4625         0.0         0.0   
44        3   0  19.0      0      0   7.8792         0.0         1.0   
821       3   1  27.0      0      0   8.6625         0.0         0.0   
458       2   0  50.0      0      0  10.5000         0.0         0.0   
795       2   1  39.0      0      0  13.0000         0.0         0.0   

     Embarked_S  
205         1.0  
44          0.0  
821         1.0  
458         1.0  
795         1.0

说明

已经删除了原有的Embarked字段，并且增加了Embarked_C、Embarked_Q和Embarked_S三个OneHot编码字段
Age字段和Fare字段的值域范围较大，因此可以考虑给它们做标准化或归一化处理

【子任务项2.7】数据标准化处理

如上所述，Age和Fare字段需要进行标准化和归一化处理。此处采用标准化处理方式。
注意测试数据集也要使用训练集的参数进行标准化处理

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_train[['Age', 'Fare']] = scaler.fit_transform(X_train[['Age', 'Fare']])
X_test[['Age', 'Fare']] = scaler.transform(X_test[['Age', 'Fare']])

print(X_test.head())

     Pclass Sex       Age  SibSp  Parch      Fare  Embarked_C  Embarked_Q  \
205       3   0 -2.076413      0      1 -0.427985         0.0         0.0   
44        3   0 -0.815021      0      0 -0.477484         0.0         1.0   
821       3   1 -0.221425      0      0 -0.462475         0.0         0.0   
458       2   0  1.485164      0      0 -0.427266         0.0         0.0   
795       2   1  0.668970      0      0 -0.379363         0.0         0.0   

     Embarked_S  
205         1.0  
44          0.0  
821         1.0  
458         1.0  
795         1.0

说明

经过归一化处理之后，Age和Fare字段的值域范围进行了缩放

【任务3】构建基础模型并评估性能

【子任务项3.1】训练逻辑回归模型

Survived字段作为标签（列下标索引为0），其余字段作为特征，训练LogisticRegression模型
使用predict函数，直接预测每个样本的分类结果（0或1）
使用predict_proba函数，获得预测的每个样本的分类概率（0~1）。该函数针对每个样本分别计算其属于分类0和分类1的概率（两个概率之和为1）

from sklearn.linear_model import LogisticRegression

# 训练模型
model = LogisticRegression()
model.fit(X_train, y_train)

# 从测试数据中取出前10条数据，预测其分类结果
number = 10
predicts = model.predict(X_test.iloc[:number, :])

# 预测每个样本的分类概率
predicts_prob =model.predict_proba(X_test.iloc[:number, :])

# 将预测样本的特征和结果合并显示
results = X_test.iloc[:number, :].copy()
results['Survived'] = y_test[:number]
results['Predicted'] = predicts
results['Predicts_prob_0'] = predicts_prob[:, 0]    # 获取分类结果为1(生还)的预测概率
results['Predicts_prob_1'] = predicts_prob[:, 1]    # 获取分类结果为1(生还)的预测概率
print(results)

     Pclass Sex       Age  SibSp  Parch      Fare  Embarked_C  Embarked_Q  \
205       3   0 -2.076413      0      1 -0.427985         0.0         0.0   
44        3   0 -0.815021      0      0 -0.477484         0.0         1.0   
821       3   1 -0.221425      0      0 -0.462475         0.0         0.0   
458       2   0  1.485164      0      0 -0.427266         0.0         0.0   
795       2   1  0.668970      0      0 -0.379363         0.0         0.0   
118       1   1 -0.444023      0      1  4.114350         1.0         0.0   
424       3   1 -0.889220      1      1 -0.241162         0.0         0.0   
678       3   0  0.965768      1      6  0.270204         0.0         0.0   
269       1   0  0.372172      0      0  1.970445         0.0         0.0   
229       3   0 -1.861042      3      1 -0.140485         0.0         0.0   

     Embarked_S  Survived  Predicted  Predicts_prob_0  Predicts_prob_1  
205         1.0         0          1         0.229934         0.770066  
44          0.0         1          1         0.290268         0.709732  
821         1.0         1          0         0.900322         0.099678  
458         1.0         1          1         0.323410         0.676590  
795         1.0         0          0         0.826048         0.173952  
118         0.0         0          1         0.300159         0.699841  
424         1.0         0          0         0.913576         0.086424  
678         1.0         0          0         0.830145         0.169855  
269         1.0         1          1         0.063346         0.936654  
229         1.0         0          1         0.439897         0.560103

说明

前10个测试样本中，只有6个样本被正确的预测
可以看到，默认情况下，概率阈值以0.5为界，来确定其最终的分类结果

【子任务项3.2】评估模型的性能指标

针对测试数据，检测模型的正确率、精度、召回率和F1 Score。
可以调用模型的score方法计算正确率, 使用sklearn.metrics的precision_score, recall_score, f1_score方法来计算其它指标。

from sklearn.metrics import precision_score, recall_score, f1_score

accuracy = model.score(X_test, y_test)

# 预测测试数据的结果
predicts = model.predict(X_test)
precision = precision_score(y_test, predicts)
recall = recall_score(y_test, predicts)
f1 = f1_score(y_test, predicts)

print("正确率:%.3f, 精度:%.3f, 召回率:%.3f, F1:%.3f" % (accuracy, precision, recall, f1))

正确率:0.791, 精度:0.785, 召回率:0.670, F1:0.723

说明

针对所有测试数据的正确率为0.79，只能说一般。
精度较高，说明把原本为0(死亡)的样本错判为1(生还)的数量较少
召回率较低，说明把原本为1(生还)的样本漏判为0(死亡)的数量较多
可以尝试降低概率阈值，从而使得更多的样本被判别为1，从而减少漏判，提高召回率

【子任务项3.3】查看混淆矩阵并手动计算前述指标

sklearn.metrics.confusion_matrix可根据真实分类结果和预测结果，统计TP/FP/TN/FN的数量值

from sklearn.metrics import confusion_matrix

predicts = model.predict(X_test)
confusion_matrix_model = confusion_matrix(y_test, predicts)
print(confusion_matrix_model)

[[139  20]
 [ 36  73]]

说明

返回的2x2混淆矩阵中：
- 索引为0的行代表实际结果为0(死亡)，索引为1的行代表实际结果为1(生还)
- 索引为0的列代表预测结果为0，索引为1的列代表预测结果为1
因此：
- 行列索引[0,0]的元素是139，代表有139个样本预测为死亡(0)，而且实际结果也是死亡(0)。（正确查出了分类为0的样本，TN）
- 行列索引[0,1]的元素是20，代表有20个样本预测为生还(1)，但实际结果为死亡(0)。（预测错误，相当于误报，FP）
- 行列索引[1,0]的元素为36，代表有36个样本预测为死亡(0)，但实际结果为生还(1)。（预测错误，相当于漏报，FN）
- 行列索引[1,1]的元素为73，代表有73个样本预测为生还(1)，而且实际结果也是生还(1)。(正确查出了分类为1的样本，TP）
根据上述结果可手动计算：
- $ Precision= \frac{#TP}{#TP+#FP} = \frac{73}{73+20}=0.785$
- $ Recall= \frac{#TP}{#TP+#FN} = \frac{73}{73+36}=0.669$
- 这些结果与前述计算一致

【子任务项3.4】自动生成指标报表

sklearn.metrics.classification_report可针对逻辑回归模型自动生成综合性能指标报表

from sklearn.metrics import classification_report

predicts = model.predict(X_test)
print(classification_report(y_test, predicts))

              precision    recall  f1-score   support

           0       0.79      0.87      0.83       159
           1       0.78      0.67      0.72       109

    accuracy                           0.79       268
   macro avg       0.79      0.77      0.78       268
weighted avg       0.79      0.79      0.79       268

说明

(除标题外)第一行：统计分类标签为0的预测结果性能。
- support=159，是指真实结果为0的样本数为159个
- precision=0.79，是指所有预测结果为0的样本中，有79%的样本是正确的
- recall=0.87，是指所有真实结果为0的样本中，有87%的样本被正确的预测出来了
- f1-score=(20.790.87)/(0.79+0.87)=0.83
第二行：统计分类标签为1的预测结果性能
- support=109，是指真实结果为1的样本数为109个
- precision=0.78，是指所有预测结果为1的样本中，有78%的样本是正确的
- recall=0.67，是指所有真实结果为1的样本中，有67%的样本是正确的
- f1-score=(20.780.67)/(0.78+0.67)=0.0.72
accuracy：统计所有预测正确的样本占总样本的比率（与Score方法计算结果一致）
macro avg和weight avg在此处不做分析

【子任务项3.5】调整分类阈值并观察对结果的影响

计算样本分类结果的概率值
指定分类阈值K（此处设为0.4，而不是默认的0.5)
对于每一个样本的预测概率，如果分类1的概率大于K，那么其分类结果就为1，否则为0

predicts_prob = model.predict_proba(X_test)
K = 0.4
# 对于每一个样本的预测概率，如果分类1的概率大于K，那么其分类结果就为1，否则为0
predicts = [1 if prob[1] > K else 0 for prob in predicts_prob]

# 手动计算正确率
corrects = np.sum(predicts == y_test)
accuracy = corrects / len(y_test)

precision = precision_score(y_test, predicts)
recall = recall_score(y_test, predicts)
f1 = f1_score(y_test, predicts)

print("正确率:%.2f, 精度:%.2f, 召回率:%.2f, F1:%.2f" % (accuracy, precision, recall, f1))

正确率:0.81, 精度:0.78, 召回率:0.73, F1:0.75

说明

将域值调整为0.4后，发现召回率有所提升。这意味着，一个样本只要有40%的概率被分类为1(存活)，那么其预测的分类结果就为1。这就使得更多原本被预测为0的样本转向预测为1，从而提高了漏判。
可以尝试其它的K值，观察各个指标的效果。事实上，应该根据实际的业务含义，合理调整阈值K

拓展说明

关于泰坦尼克号乘客生还预测的实验到此结束。【dataset/titanic_test.csv】中另外存放了一批乘客信息（不包含标签Survived字段）。可尝试使用上述模型对这些信息进行预测，并将预测结果提交到Kaggle平台来检查正确率。详情请看链接https://www.kaggle.com/c/titanic

【任务4】非线性可分处理（拓展）

【子任务项4.1】线性可分的二分类及决策边界线

【dataset/exam_score.csv】文件存放了一系列学生成绩数据，每个样本包括两个特征字段：exam1_score(分数1)、exam2_score(分数2)和1个标签passed(总成绩是否通过)。要求：

建立一个逻辑回归模型，根据两个分数预测是否通过
绘制决策边界线

分析：

数据可视化：对于只有2个特征的模型而言，可以用X和Y两个坐标分别代表特征，用不同颜色的点代表分类
不同分类的数据点之间，可以通过平面上的一条曲线来分割，该曲线实际上是使得逻辑回归判别式值等于0.5的曲线。但是如果有更多维度，则不容易绘制决策边界线。

(1)查看数据样本分布情况

import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

trainData = np.loadtxt(open('dataset/exam_score.csv', 'r'), delimiter=",", skiprows=1)
x1 = trainData[:,0]         # 第一个特征
x2 = trainData[:,1]         # 第二个特征
y = trainData[:,2]          # 标签结果

def initPlot():
    plt.figure()
    plt.title('Data for ')
    plt.xlabel('Feature 1')
    plt.ylabel('Feature 2')
    return plt

plt = initPlot()
score1ForPassed = trainData[trainData[:,2] == 1, 0]    # 标签结果为1(通过)的样本点的第一特征值(exam1_score)
score2ForPassed = trainData[trainData[:,2] == 1, 1]    # 标签结果为1(通过)的样本点的第一特征值(exam1_score)
score1ForUnpassed = trainData[trainData[:,2] == 0, 0]
score2ForUnpassed = trainData[trainData[:,2] == 0, 1]
plt.plot(score1ForPassed,score2ForPassed,'r+')
plt.plot(score1ForUnpassed,score2ForUnpassed,'ko')
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hH52B8NJ-1626015050077)(output_48_0.png)]

说明

横坐标为exam1_score的值，纵坐标为exam2_score的值
左下部分黑色点表示分类为0（不通过）的数据点，右上部分红色点表示分类为1（通过）的数据点。大致来看，可以用一条左上到右下的直线来分割不同分类的样本，也就是说这些样本点是【线性可分的】
该分割线（决策边界线）只需要两个样本点就可以确定（一条直线）。

(2)数据预处理及构建逻辑回归模型

特征标准化处理
训练LogisticRegression模型
用模型预测几个测试样本

# 准备数据
X_train = trainData[:,[0,1]] 
y_train = trainData[:,2]

model = LogisticRegression()
model.fit(X_train, y_train)
# 给定4个用于测试的样本的特征
newScores = np.array([[58, 67],[90, 90],[35, 38],[55, 56]])

print("预测结果：")
print(model.predict(newScores))

预测结果：
[1. 1. 0. 0.]

说明

4个样本，前2个预测结果为1（通过），后两个预测结果为0（不通过）

(3)绘制决策边界线

首先获得已训练好的模型的权重参数( $w_0, w_1, w_2$ )
决策边界线上的点，实际上就是【最不能确定分类结果】的点，或者说其分类概率为0.5，此时相当于: $g(w_0 + w_1 x_1 + w_2 x_2)=0.5$ ，也即： $w_0 + w_1 x_1 + w_2 x_2=0$
应为采用线性分割，只需要任意给定2个点的横坐标( $x_1$ )，代入上式即可求出对那个的纵坐标( $x_2$ )，最后绘制通过这两个点的直线

# 获取权重参数w0,w1和w2
W = np.array([model.intercept_[0], model.coef_[0,0], model.coef_[0,1]])

plt = initPlot()
score1ForPassed = trainData[trainData[:,2] == 1, 0]
score2ForPassed = trainData[trainData[:,2] == 1, 1]
score1ForUnpassed = trainData[trainData[:,2] == 0, 0]
score2ForUnpassed = trainData[trainData[:,2] == 0, 1]
plt.plot(score1ForPassed,score2ForPassed,'r+')
plt.plot(score1ForUnpassed,score2ForUnpassed,'ko')

# 绘制决策边界线
boundaryX = np.array([30, 100])                 # 给定任意两个样本点的横坐标
boundaryY = -(W[1] * boundaryX + W[0]) / W[2]   # 计算对应的纵坐标
plt.plot(boundaryX, boundaryY, 'b-')    # 连接边界线上的两个点

plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-X64cpATW-1626015050078)(output_54_0.png)]

说明

蓝色决策边界线，较好的(注意不是完全的)将不同分类的样本点隔开
边界线右上的样本点，将被划入类别1；左下的样本点，将被划入类别0

【子任务项4.2】线性不可分数据的处理

【dataset/non_linear.csv.csv】文件包括两个特征字段和1个分类结果。要求：

建立一个逻辑回归模型能够较好的分割不同类别的样本
绘制决策边界线

(1)查看数据样本分布情况

import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

trainData = np.loadtxt(open('dataset/non_linear.csv', 'r'), delimiter=",", skiprows=0)
x1 = trainData[:,0]         # 第一个变量
x2 = trainData[:,1]         # 第二个变量
y = trainData[:,2]          # 因变量

def initPlot():
    plt.figure()
    plt.title('Data for ')
    plt.xlabel('Feature 1')
    plt.ylabel('Feature 2')
    return plt

plt = initPlot()
score1ForPassed = trainData[trainData[:,2] == 1, 0]	
score2ForPassed = trainData[trainData[:,2] == 1, 1]
score1ForUnpassed = trainData[trainData[:,2] == 0, 0]
score2ForUnpassed = trainData[trainData[:,2] == 0, 1]
plt.plot(score1ForPassed,score2ForPassed,'r+')
plt.plot(score1ForUnpassed,score2ForUnpassed,'ko')
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BEHZWj2Z-1626015050080)(output_58_0.png)]

说明

可见，上述样本是线性不可分的，无法使用一条直线来较好的分割不同类别的样本点

(2)构建高阶/多维特征

既然线性计算无法满足要求，则可考虑高阶计算，把原始的2个特征，扩展称为多个高阶字段。本例采用最高6阶的计算式：
$ \begin{aligned}
& w_0 + w_1 x_1+ w_2 x_2+ w_3 x_1^2+ w_4 x_1 x_2 + w_5 x_2^2+ w_6 x_1^3+ w_7 x_1^2 x_2 + w_8 x_1 x_2^2+ w_9 x_2^3+ \cdots \+ & w_{21} x_1^6+w_{22} x_1^5 x_2 + w_{23} x_1^4 x_2^2+ w_{24} x_1^3 x_2^3+ w_{25} x_1^2 x_2^4+ w_{26} x_1 x_2^5+ w_{27} x_2^6
\end{aligned} $
将 $x_1$ 和 $x_2$ 两个自变量的值，按照上述多项式的各个项进行乘方、乘积运算，得到有28项的一个高阶表达式
虽然变成了高阶数据，但根据【高阶变多维】的思想，可视为均为一阶的28维特征，从而仍然可以使用逻辑回归
下面的代码生成了6阶的特征数组(28个维度):

def mapFeatures(x1, x2):            # 生成6阶双变量的多项式拟合特征值矩阵
    rowCount = len(x1)
    colIndex = 1                    # 第0列为Intercept Item，无需进行计算
    features = np.ones((rowCount, FEATURE_COUNT))
    for i in np.arange(1, DEGREE + 1):        # 1,2,3....DEGREE
        for j in np.arange(0, i + 1):         # 0,1,2...i
            features[:, colIndex] = (x1 ** (i - j)) * (x2 ** j)      # 每个循环计算1列Feature
            colIndex = colIndex + 1
    return features

# 定义全局变量
DEGREE = 6                  # 最高为6阶
FEATURE_COUNT = 28          # 两个变量，6阶公式，共28个Feature(含Intercept Item)
ROW_COUNT = len(trainData)  # 总行数
features = mapFeatures(x1, x2)      # 获得一个ROW_COUNT x FEATURE_COUNT维度的特征值数组
print("高阶特征矩阵的维度：", features.shape)    # 每个样本都拥有28个维度

高阶特征矩阵的维度： (118, 28)

(3)建立逻辑回归模型（不带惩罚项）

设置penalty=‘none’(不带惩罚项)
观察各个权重参数的取值

X_train = features
y_train = trainData[:,2]

model = LogisticRegression(penalty='none', max_iter=2000)   
model.fit(X_train, y_train)
print("截距项:", model.intercept_[0])
print("权重参数:", model.coef_[0])

截距项: 13.805214927591399
权重参数: [   13.80521493    41.32782962    40.70132754  -280.85788491
  -152.60128169  -130.58982339  -299.39921416  -464.90952213
  -328.27047934  -144.13859136   944.5933964   1006.56535514
  1300.86067248   619.81271183   249.08387005   501.85908681
  1084.70837594  1402.01857905  1175.93373061   564.27758173
   159.45797961 -1047.61826184 -1743.79125559 -2795.08309536
 -2483.86639601 -2035.87732905  -854.59244568  -213.22468803]


c:\users\iahuo\appdata\local\programs\python\python38\lib\site-packages\sklearn\linear_model\_logistic.py:763: ConvergenceWarning: lbfgs failed to converge (status=1):
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(

说明

即使在2000次迭代运算情况下，仍没有收敛
此时获得的权重参数量级都较大

(4)绘制边界线

此时边界线不再是直线，因此在绘制时，必须给定大量点的横坐标和纵坐标，然后代入到判别式中计算出其对应的分类结果（0或1），最后使用等高线图显示高度值为0.5(决策阈值)的等高线

plt = initPlot()
score1ForPassed = trainData[trainData[:,2] == 1, 0]
score2ForPassed = trainData[trainData[:,2] == 1, 1]
score1ForUnpassed = trainData[trainData[:,2] == 0, 0]
score2ForUnpassed = trainData[trainData[:,2] == 0, 1]
plt.plot(score1ForPassed,score2ForPassed,'r+')
plt.plot(score1ForUnpassed,score2ForUnpassed,'ko')

# 生成若干个样本点
plotX1 = np.linspace(-1, 1.5, 50)
plotX2 = np.linspace(-1, 1.5, 50)
Z = np.zeros((len(plotX1), len(plotX2)))
for i in np.arange(0, len(plotX1)):                         # 每次预测一列点
    a1 = [plotX1[i] for _ in np.arange(0, len(plotX2))]
    plotFeatures = mapFeatures(a1, plotX2)
    Z[i,:] = model.predict(plotFeatures)
plt.contour(plotX1, plotX2, Z, levels=[0.5])    # 取Z=0.5作为决策边界

plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-R2xW3ng7-1626015050081)(output_66_0.png)]

说明

很显然，虽然分割的效果不错，但是已经产生了过拟合

【子任务项4.4】使用惩罚项解决过拟合问题

设置L2惩罚项，并提供不同的惩罚系数
查看每种惩罚系数对应的边界线效果

(1) $\lambda=10$ ，对应 $C = 0.1$

model = LogisticRegression(C=0.1)   
model.fit(X_train, y_train)
print("截距项:", model.intercept_[0])
print("权重参数:", model.coef_[0])

plt = initPlot()
score1ForPassed = trainData[trainData[:,2] == 1, 0]
score2ForPassed = trainData[trainData[:,2] == 1, 1]
score1ForUnpassed = trainData[trainData[:,2] == 0, 0]
score2ForUnpassed = trainData[trainData[:,2] == 0, 1]
plt.plot(score1ForPassed,score2ForPassed,'r+')
plt.plot(score1ForUnpassed,score2ForUnpassed,'ko')

# 生成若干个样本点
plotX1 = np.linspace(-1, 1.5, 50)
plotX2 = np.linspace(-1, 1.5, 50)
Z = np.zeros((len(plotX1), len(plotX2)))
for i in np.arange(0, len(plotX1)):                         # 每次预测一列点
    a1 = [plotX1[i] for _ in np.arange(0, len(plotX2))]
    plotFeatures = mapFeatures(a1, plotX2)
    Z[i,:] = model.predict(plotFeatures)
plt.contour(plotX1, plotX2, Z, levels=[0.5])    # 取Z=0.5作为决策边界

plt.show()

截距项: 0.3261743348125194
权重参数: [ 4.80060874e-06 -8.15346950e-03  1.65795385e-01 -4.46717768e-01
 -1.11773868e-01 -2.78919687e-01 -7.14543762e-02 -5.78891579e-02
 -6.50971508e-02 -1.06370649e-01 -3.36728581e-01 -1.29717223e-02
 -1.16707334e-01 -2.80967442e-02 -2.86026426e-01 -1.16148883e-01
 -3.70447251e-02 -2.24215126e-02 -4.88657219e-02 -4.16295811e-02
 -1.86754269e-01 -2.53337925e-01 -2.91085963e-03 -5.79667693e-02
 -5.28007020e-04 -6.35287458e-02 -1.20640539e-02 -2.71483918e-01]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-k3id7uQD-1626015050082)(output_70_1.png)]

说明

权重参数的量级大为减小
从边界线来看，大量样本点分错，产生欠拟合

(2) $\lambda=0.1$ ,对应 $C = 10$

model = LogisticRegression(C=10)   
model.fit(X_train, y_train)

plt = initPlot()
score1ForPassed = trainData[trainData[:,2] == 1, 0]
score2ForPassed = trainData[trainData[:,2] == 1, 1]
score1ForUnpassed = trainData[trainData[:,2] == 0, 0]
score2ForUnpassed = trainData[trainData[:,2] == 0, 1]
plt.plot(score1ForPassed,score2ForPassed,'r+')
plt.plot(score1ForUnpassed,score2ForUnpassed,'ko')

# 生成若干个样本点
plotX1 = np.linspace(-1, 1.5, 50)
plotX2 = np.linspace(-1, 1.5, 50)
Z = np.zeros((len(plotX1), len(plotX2)))
for i in np.arange(0, len(plotX1)):                         # 每次预测一列点
    a1 = [plotX1[i] for _ in np.arange(0, len(plotX2))]
    plotFeatures = mapFeatures(a1, plotX2)
    Z[i,:] = model.predict(plotFeatures)
plt.contour(plotX1, plotX2, Z, levels=[0.5])    # 取Z=0.5作为决策边界

plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0VjK9ZbZ-1626015050083)(output_73_0.png)]

说明

此种情况较好，基本能反映样本点的分类情况

(3) $\lambda=0.001$ ,对应 $C = 1000$

model = LogisticRegression(C=1000)   
model.fit(X_train, y_train)

plt = initPlot()
score1ForPassed = trainData[trainData[:,2] == 1, 0]
score2ForPassed = trainData[trainData[:,2] == 1, 1]
score1ForUnpassed = trainData[trainData[:,2] == 0, 0]
score2ForUnpassed = trainData[trainData[:,2] == 0, 1]
plt.plot(score1ForPassed,score2ForPassed,'r+')
plt.plot(score1ForUnpassed,score2ForUnpassed,'ko')

# 生成若干个样本点
plotX1 = np.linspace(-1, 1.5, 50)
plotX2 = np.linspace(-1, 1.5, 50)
Z = np.zeros((len(plotX1), len(plotX2)))
for i in np.arange(0, len(plotX1)):                         # 每次预测一列点
    a1 = [plotX1[i] for _ in np.arange(0, len(plotX2))]
    plotFeatures = mapFeatures(a1, plotX2)
    Z[i,:] = model.predict(plotFeatures)
plt.contour(plotX1, plotX2, Z, levels=[0.5])    # 取Z=0.5作为决策边界

plt.show()

c:\users\iahuo\appdata\local\programs\python\python38\lib\site-packages\sklearn\linear_model\_logistic.py:763: ConvergenceWarning: lbfgs failed to converge (status=1):
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IMuWYCVU-1626015050084)(output_76_1.png)]

说明

此时有过拟合之嫌。可以进一步推算，如果继续增加C的值，将逐渐相当于没有惩罚项（严重过拟合）

【任务5】多分类处理（拓展）

前述介绍的逻辑回归能够较好的判断结果是1或0的情形(两种类别)。但是现实中，结果往往有多种类别。例如，判断某个手写出来的阿拉伯数字是0-9中的哪一个，这就有10个类别。
【dataset/digits_training.csv】存放了5000张手写数字图片的像素信息，每行代表一张图片，每列代表一个像素值(二维像素数组展开成一维数组)。
【dataset/digits_testing.csv】存放了500个用于测试的数据。
要求：训练逻辑回归模型，是之能够根据像素数组识别出对应的0~9数字分类

分析：

准备训练数据
为了使机器学习具有一定的准确性，需要提供足量的训练数据。本例中，我们准备提供0~9这10个数字的手写图片总共5000张(另有500张测试图片)，并且：
- 每张图片都已经标记好其对应的数字值（称为“分类标签”或Label）
- 为了便于计算机统一处理，每张图片都是28x28像素
- 每张图片都是灰度图（即：每个像素的取值从0~255，0为白色，255为黑色），这样就省去了处理RGB彩色的负担
- 上述所有训练样本数据已经存放在【digits_training.csv】中，测试样本数据都存放在【digits_testing.csv】中
准备好训练数据的特征值矩阵
- 对于一张图片，我们准备一个一维数组，将该图片对应的数字(Label)放在数组的第一个元素；然后将图片中每个像素点的值，按行依次连续存放在数组后面的元素中。最终该数组的共有1+28x28=785个元素
- 将这5000张图片的数据放置在一个二维数组中，容量是：5000x785。这样就构成了一个训练矩阵。
- 因为像素值在0~255之间，跨度较大，因此必须对训练数据进行归一化(Normalization)。考虑到灰度图每个像素的最大值就是255，因此本例直接使用$ X=\dfrac{x_i-\bar{x_i}}{255} $，这样每个特征值都在$ [-1,1]$之间
- 在本例中，我们直接从灰度图像素中提取特征值，这是最简单的提取方法
使用逻辑回归进行分类
- 有了特征值和Lable矩阵，就可以使用某种机器学习算法进行训练了。
- 逻辑回归能够较好的进行分类。但是上一章讲的逻辑回归只能分成两个类别。因此需要考虑如何将2-Classes的分类扩展到N-Classes的分类
使用得到的假设公式进行预测
- 训练完成后，就得到了假设公式
- 将待预测的图片（也必须是28x28的灰度图），读取到一个一维数组中(784个元素，没有Label）。然后就可以代入到假设公式中进行预测。预测的结果应该能告知是0~9中的哪个数
使用测试数据进行验证
- 为了判断该假设公式的有效性，需要另外找一批图片（本例中500张）进行验证。
- 测试数据也需要先进行归一化处理
- 本例仅统计出预测正确的图片数量占总图片数量的比重（正确率）

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression
%matplotlib inline

# 使用简单的归一化处理
def normalizeData(X, col_avg):
    return (X - col_avg) / 255

trainData = np.loadtxt(open('dataset/digits_training.csv', 'r'), delimiter=",",skiprows=1)
MTrain, NTrain = np.shape(trainData)
xTrain = trainData[:,1:NTrain]
xTrain_col_avg = np.mean(xTrain, axis=0)
xTrain = normalizeData(xTrain, xTrain_col_avg)         
yTrain = trainData[:,0]
print("装载训练数据：", MTrain, "条，训练中......")

model = LogisticRegression(solver='lbfgs', multi_class='multinomial', max_iter=500) 
model.fit(xTrain, yTrain)

print("训练完毕")
testData = np.loadtxt(open('dataset/digits_testing.csv', 'r'), delimiter=",",skiprows=1)
MTest,NTest = np.shape(testData)
xTest = testData[:,1:NTest]
xTest = normalizeData(xTest, xTrain_col_avg)    # 使用训练数据的列均值进行处理
yTest = testData[:,0]
print("装载测试数据：", MTest, "条，预测中......")

yPredict = model.predict(xTest)
errors = np.count_nonzero(yTest - yPredict)
print("预测完毕。错误：", errors, "条")
print("测试数据正确率:", (MTest - errors) / MTest)

装载训练数据： 5000 条，训练中......
训练完毕
装载测试数据： 500 条，预测中......
预测完毕。错误： 54 条
测试数据正确率: 0.892

说明

针对测试数据的预测正确率约为89.2%，对于手写数字图像识别而言，这实际上是一个很差的效果。使用深度学习和卷积神经网络，一般可达99%以上的正确率。这也在一定程度上说明了，简单的机器学习可能并不太适合处理图像问题。

你可能感兴趣的:(暑期实训)

骑昆明到北海—119 砚山县 61清风i
从十年前第一次长途骑行青海湖开始每年一次长途骑行看风景，尝各地美食，探访异域文化，记录途中美食美景美事，已逐渐形成习惯。每年春季详细规划好线路，夏季出行，2020年因为疫情迟迟不能确定线路和行程。总算到了暑期疫情逐渐消失，规划了50多天的云南昆明—广西北海计划。本次行程从云南昆明出发到广西北海市结束，五十一天骑行二千多公里线路昆明-官渡古镇-环滇池--澄江市一抚仙湖—路居镇--江川区--通海县—龙
2022-8-16晨间日记飞扬的雪ing
今天是什么日子起床：7：30就寝：11：20天气：晴热心情：悲伤逆流成河纪念日：被恶意锁文第三天叫我起床的不是闹钟是梦想年度目标及关键点：好好吃饭好好睡觉好好学习，忘记所有悲伤本月重要成果：1.完成暑期各类学习任务2.减肥减肥减肥3.督促孩子们好好训练节目成功日志-记录三五件有收获的事务1.《疫情.怡情》依然被恶意锁文，幼儿级“晨间日记”则不会被锁，可悲可叹!敷衍至极的文章收获上百个赞，可喜可贺!
剪纸与折纸 a晟睿
暑期第47天秋高气爽，温度适宜，一天宅在家里真幸福。睿睿做完作业，看动画片，给她规定好看多长时间，虽然到时间会耍赖多看一会，基本上还是能守信用关掉。下午的时间，我找出彩纸，对睿睿说咱们剪纸吧，睿睿马上找来小剪刀，我找来剪纸的书，睿睿铺好她的瑜伽垫，我俩就面对面席地而坐，各忙各的了。睿睿的小手很灵活，照着图纸一会就叠好剪出来了，自己觉得不过瘾，又拿来我的手机，搜了一个折纸教程，一步一步跟着折起来。剪
骑昆明到北海—181 靖西市鹅泉 61清风i
从十年前第一次长途骑行青海湖开始每年一次长途骑行看风景，尝各地美食，探访异域文化，记录途中美食美景美事，已逐渐形成习惯。每年春季详细规划好线路，夏季出行，2020年因为疫情迟迟不能确定线路和行程。总算到了暑期疫情逐渐消失，规划了50多天的云南昆明—广西北海计划。本次行程从云南昆明出发到广西北海市结束，五十一天骑行二千多公里。2020年9月13日傍晚点从延平站出发，9月15日到达云南昆明开始这一旅程
题解 | #完全数计算#不知道为什么没超时的暴力解法 huaxinjiayou java
兄弟们，坚持就是胜利啊，找工作从去年秋招就开始找，到五月底才收到第一个offer星环的，然后六月初t咋六月了还有面试啊，有兄弟了解这个部门吗面完了家人们，纯纯kpi啊，上来就是一道题是打印多个字符串的华为接头人话术指南：欲投华为，必看此贴!引流华为招聘提前批【奖】这个夏天，和牛牛一起打卡刷题~Java面试实战项目25届本科找暑期实习的历程飞猪旅行运营岗面经百度视觉算法一面面经感谢牛友们，腾子pcg
educoder实训平台python顺序结构答案_Educoder Python顺序结构习题 weixin_39710660
1.正方形与等腰三角形组成的多边形的面积square_length=4triangle_h=2.6area_square=4*4area_triangle=(2.6*4)/2area_total=area_square+area_triangleprint(area_total)2.平抛小球与抛出点的距离G=9.8v0=5t=2s=v0*th=(G*t**2)/2d=(s**2+h**2)**0.
高职人工智能训练师边缘计算实训室解决方案武汉唯众智创人工智能训练师边缘计算实训室人工智能训练师实训室边缘计算实训室
一、引言随着物联网（IoT）、大数据、人工智能（AI）等技术的飞速发展，计算需求日益复杂和多样化。传统的云计算模式虽在一定程度上满足了这些需求，但在处理海量数据、保障实时性与安全性、提升计算效率等方面仍面临诸多挑战。在此背景下，边缘计算作为一种新兴的计算模式应运而生，通过将计算能力推向数据生成或用户所在的网络边缘，显著降低了数据传输的延迟，提升了处理效率，并增强了数据安全性。针对高等职业院校的人工
周记15 安诗雨
星期天回学校的时候，发现寝室里有好几只臭屁虫。星期一的电学很难，数学也非常难，让我感到非常吃力。历史比赛日期就在11月29日，也就是我的生日。唉，过生日去比赛，我好难受。不仅如此，还是高手对决……老师希望“保三争二冲一”，我也希望来一个一等奖，这样多光荣，也证明了自己的实力。不管怎么样，要全力以赴。星期二我们进行了电子技能实训期中考试。对我来说，简直不要太轻松。无非就是拿万用表测电阻值，顺带读出来
李菊香漯河焦点班坚持分享1205天(2021-7-18) 1363395
今天快中午时帮别人办一些事，办完事已12点多，于是直接到街上吃碗砂锅就去学校整理下周要检查的暑期延时服务工作资料。等全部整理完已是晚上7点多，但心里很轻松，总算把心里装的一件事卸下来了。晚上上楼帮爸妈做做饭、洗洗衣服、聊聊天，然后下楼听书、洗澡、睡觉。通过听书，知道了袁隆平不仅是水稻交杂之父，而且游泳、英语也特别出色，良好的家庭背景及生活年代造就了他坚强的毅力和远大的志向，为世界做出了卓越的贡献。
黄狄樊实训项目1.2.3 明年的牛肉干
.安装nodejs2.安装git3.下载vue-element-admin建议本项目的定位是后台集成方案，不太适合当基础模板来进行二次开发。因为本项目集成了很多你可能用不到的功能，会造成不少的代码冗余。如果你的项目不关注这方面的问题，也可以直接基于它进行二次开发。集成方案:vue-element-admin基础模板:vue-admin-template桌面终端:electron-vue-admin
无题悦读山人
问：姐，我最近对工作好迷茫，好困惑！以前留在学校是想安安稳稳的生二娃，照顾好家庭。现在二娃生了，我就不想这样碌碌无为，不求上进！我现在主要是在财经学校负责实训室管理工作，因为电脑较多，对计算机知识要求更高了。以我目前的能力完全不够，以前都是将就混日子。现在我就不知是继续学不喜欢的计算机知识呢？还是离职做其他的？我的专业你也知道，有局限性，做培训？做早教？还是继续到上班？迷茫！老公建议我们两个最好留
山东大学小树林支教调研团青青仓木队山东大学青青仓木队
传承红色基因赓续红色血脉---希望小屋·山大担当暑期社会实践7月25日，山东大学“青青仓木”暑期线上支教队给枣庄欧峪小学四年级的小朋友们开展了“一起红色寻访”主题班会。第一个模块叫做“红领巾心向党”。大学生为小朋友们详细介绍了中国少年先锋队，从性质、标志、纪念日以及精神等方面加深了小朋友们对少先队的理解。在讨论环节中，小朋友们展开热烈讨论，对自己身上的“红领巾”有了更深入的认识，意识到了自己肩负的
虚拟现实智能家居实训系统实训解决方案武汉唯众智创智能家居实训系统智能家居实训室虚拟现实智能家居实训系统
随着科技的飞速发展，智能家居已成为现代生活的重要组成部分，它不仅极大地提升了居住的便捷性与舒适度，还推动了物联网、大数据、人工智能等前沿技术的融合应用。为了满足市场对智能家居专业人才日益增长的需求，虚拟现实智能家居实训系统实训解决方案旨在通过高度仿真的虚拟环境，为职业院校学生提供全面、高效、安全的智能家居系统学习与实践平台。一、解决方案概述该方案是一款深度融合教学理论、实践操作与效果评估的全方位解
润物细无声，支教传温情|自控系暑期三下乡社会实践活动鲈之语
润物细无声支教传温情▲▲▲自控系|暑期三下乡社会实践活动为积极响应团中央“情暖童心”关爱保护农村留守儿童工程，为农村留守儿童送去关爱与温暖，河南工学院自动控制系在暑期组织了“‘艺+意’米白阳光”青翼支教团和“助梦青春行”爱心支教团，于8月1日分赴新乡市延津县僧固乡西竹村和获嘉县史庄镇大清村，开展为期14天的暑期“三下乡”农村留守儿童精准爱心支教社会实践活动。在抵达支教学校后后，支教团首先举行了暑期
资环学院学子三下乡之国情社情勤观察，青春激扬中国梦 b210389fd81a
社会实践是认知社会的最好途径，为深入考察新时代我国国情和社情，走进基层，切实了解我国政治、经济、文化、社会、生态文明的“五位一体”建设现状，进一步引导广大青年学子用国家富强、民族复兴、人民幸福的伟大“中国梦”激扬“青春梦”，华北水利水电大学资源与环境学院暑期社会实践团的队员们于2018年7月在郑州开展了丰富多彩的主题社会实践活动，用新时代大学生的青春奋斗助力“中国梦”的伟大实践。
12-暑期陪伴儿子之自我反思--0720 梅子Mey
1.今天遇到了什么问题？今天崩溃了。明明下午还在读《自私的父母》，看到里面的行为时还觉得自己不要做这样的父母。但是晚上到家就崩溃了。原因是儿子昨天和同学们玩得很嗨。三个人还商量要去公园捉知了。我觉得这样挺好的。但是很明显，学习时间就少了。儿子挺努力的，我下午到家时，他都在背好句天天读。但是在背的过程中，他让我念前半句，他背后半句，当轮到他念前半句时，我发现我已经记住了后半句，可是他还没记住。我就认
2024华为OD机试D卷 - 小朋友分组最少调整，包含多种语愤怒的小青春 java
秋招提前批投递记录三一集团2024.06.28投递2024.07.04在线测评三环集团2024.07.01投递+正式入职入职灵犀互娱，转正之后春招太摆了没有找其他的公司，不过个人还是很满意灵犀的。有想问的或者被内推的欢迎华为暑期实习要去嘛才收到暑期实习offer，现在已经在宁王实习了三周，在想要不要跑路去华为直接走会不会被这里拉黑在想有挑战华子最晚实习offer应该没有比我还晚收到实习offer的
2019-06-19暑期补习，你怎么看？ M曼君
2019/6/195/17周三多云眼下，已经开始有一些教育培训机构在已经在争先恐后的开始发放起来了，琳琅满目的招生信息一下子席卷而来。话说，这离放假还早着呢，你们就这么着急开始收学生了吗？好不容易放个暑假吧，又得安排孩子学这学那的，要是不学吧，很多家长都说了，别的孩子在暑假的时候补课了，你不给孩子补课，到时候补课的时候孩子跟不上呀，孩子着急呀，孩子压力会更大呀，怎么办？哎呀，要我说这种中国的这种教
暑期破防实录——捡漏腾讯沈七QWQ 沈七杂谈前端程序人生面试
序经历了整整三个月的折磨，暑期实习终于尘埃落定。其实还没收到offer的时候，还会想着到时候录用了该怎么大写特写小作文，但真到了这一天，只剩下一种解脱感，一种摆脱了漫长的焦虑与压抑的淡淡喜悦。或许就像久病之人终于重获健康那样，虽然治愈了，但已然疲惫不堪。现在，我只渴望休息，去睡一个漫长而安稳的觉，能安心的赖床而不自责。不用再机械地刷新牛客动态，而不知道自己到底想要什么。原来就只是这种感觉，周围的一
读书润心田——我与孩子们的读书计划农安160苗爽
2019年暑期兴成长教师培训即将落下帷幕，然教师和孩子们的阅读活动还会一直坚持下去。生活就是这样，短暂停歇再启程。通过一个暑假的学习，让我们对阅读又有了一个全新的认识。什么样的阅读既有效又持久还受益，这是一个常论常新的话题。让阅读浸润心田，我觉得最能体现阅读的主旨。和同事们几经商讨，大家产生了让阅读震撼心灵、让阅读感动人生的全新思考。图片发自App教师篇一、启动教师阅读沙龙活动，加强教师之间关于阅
《哪吒》票房狂轰16亿，吴京新片遇到对手浅忆影视
大家好，非常感谢阅读小编所说所写，在这个茫茫人海中遇见“小丽影视”就是缘分。暑期档过完一半，这部动漫《哪吒》成为了暑期档爆款，利用5天时间票房超越了《西游记大圣归来》9.56亿票房纪录，成为国内动漫最高的最高纪录，猫眼预测票房高达44.94亿，如果这部达到预测票房45亿，那么离吴京的《流浪地球》46.55亿票房只差一步之遥，当然吴京有一部新电影即将上映，看来这次遇到对手了。《哪吒之魔童降世》上映以
项目实训十四 qq_51946537 项目实训 python
将pytorch模型封装成接口由于前面对于模型的构建、训练、评估都以完成，接下来要做的就是将按照项目要求，将模型封装成接口，供后端直接调用。我需要做的是后端直接调用系统命令pythonprase.py-img图片便可以直接得到解析结果。由于前面的测试模型的正确率都是批量处理过的图片，而现在前端只会传过来要解析的图片或者图片路径，而且图片也是未经处理过的，显然直接输入不会得到好的结果，并且性能也会比
亲子日记第325天厦小二年级七班马昕凯妈妈
早上早早的带瑶仔回姥姥家，给姥爷过生日。图片发自App和弟弟一起玩的不亦乐乎，姐弟俩就知道玩手机，图片发自App下午回来瑶仔舞蹈班暑期培训汇演，晚上准备演出，瑶仔有节目，练了20天，瑶仔累也要继续学，很执着。图片发自App
2022-07-10感恩日记41/100 生命是一场觉醒之旅
虽然放假，依然早睡早起，必须给自己点赞！早上起床锻炼身体给到自己很大的能量，一整天的精神状态都很好，没有陷入暑期的无所事事中。上午参加了碧君教练的公益疗愈盘，我抽到的两支签分别是“今天探索的目的是什么？”以及“你最想要什么事情发生？”其实最开始我对这两支签是有些迷惑的，我今天参加推演的目的是什么呢？我最想解决的问题是什么呢？盘旋在我脑海里的是两个问题：一个是我迟迟没有推进青少年暑期训练营，面对训练
有花堪折直须折，莫待无花空折枝 4763f7988cd1
通化883徐敬霞2019年的暑假，我有幸参加了兴成长暑期培训“教育技术信息化2.0能力素养提升”。听课，打卡，让我收获满满，感受多多！图片发自App带着愉悦的心情我共听了七节课，首先是王子老师《微信小程序的创新应用》，唐晓勇校长《技术支持下的学习变革》，梁勇校长《教学PPT的设计与制作》，王思思老师的《跨学科视野下的自然笔记》，朱思思老师的《教学实践中的思维导图》，陈晓粧老师的《学习类PPT的教学
python实验过程心得体会_web实训心得体会 weixin_39814378 python实验过程心得体会
篇一：JAVAWEB实训心得体会jsp+servlet+mysql论坛项目实训总结实训人：程路峰学号：11103303通过为期10天的实训，我学习了很多关于javaweb的知识。在老师的正确指导下，顺利的完成了我的实训内容。在此，也有同学的帮助，在他们的帮助下我也受益匪浅。最终，能顺利完成实训的任务也很高兴。在实训生活中，我了解开发项目的需求、设计、实现、确认以及维护等活动整个过程，让自己开始懂得
实训day4 yolo1代码运行 Hazelyu27
yolo1代码运行今天主要是在pycharm上运行pytorch的yolo1训练和测试代码。主要遇到的问题：1.训练文件路径的修改，开始没有找到tmp_file文件，就在该文件夹下创建了这个txt文件，但是发现：ifisinstance(list_file,list):#Catmultiplelistfilestogether.#Thisisespeciallyusefulforvoc07/voc
2024牛客暑期多校训练营2 H Instructions Substring 数学收藏家算法
链接：登录—专业IT笔试面试备考平台_牛客网来源：牛客网题目描述Redstandsatthecoordinate(0,0)(0,0)(0,0)oftheCartesiancoordinatesystem.Shehasastringofinstructions:up,down,left,right(where`right'increasesthex-coordinateby111,and`up'in
题解|2024暑期杭电多校01 深翼CCLMSY 2024暑期杭电多校算法
【原文链接】1001.循环位移字符串题目大意给定两个字符串A,BA,BA,B。定义[A][A][A]为字符串AAA的循环位移任意次可以得到的所有字符串的集合。求BBB包含[A][A][A]中元素的个数。解题思路利用字符串Hash快速匹配。将[A][A][A]中所有元素的Hash记录到一个set：计算A+AA+AA+A的Hash前缀和，以快速得到所有长度为∣A∣|A|∣A∣的子串的Hash值，并加入
正式开启放假模式！欣姐_3536
一个学期完美结束了，我们都可以放松的休息一下了，今天晚上又热起来了，我又热的难受了！很难受！希望明天不要这么热，我可真受不了这么闷热的天气！可怜的我！浑身烫烫的，就像发烧的那种难受，讨厌这种感觉！明天要把暑期的作息时间表整出来！希望我们的假期生活愉快的开启吧！心情愉快，每天的生活幸福开心！今天开始，欣欣妈妈讲故事也要正式开启了，这个暑期的阅读任务也是很重的，希望格格姐姐能够加油哦！好了，早点睡吧！
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交

信用评分卡DAY8-9

演练：训练和验证逻辑回归模型

任务目标

任务描述

工具和方法

【任务0】 准备工作

【任务1】 数据探查

【子任务项1.1】 统计字段类型和缺失情况

说明

【子任务项1.2】 考查【仓位】与生还结果之间的关系

说明

【任务2】 数据清洗和特征处理

【子任务项2.1】 初步筛选合适的特征

说明

【子任务项2.2】 拆分训练集和测试集

说明

【子任务项2.3】 使用随机森林模型插补Age字段的缺失值

说明

【子任务项2.4】 使用众数填充Embarked字段的缺失值

说明

【子任务项2.5】 Sex字段转换成数值1和0

说明

【子任务项2.6】 Embarked字段转换成OneHot编码

说明

【子任务项2.7】数据标准化处理

说明

【任务3】 构建基础模型并评估性能

【子任务项3.1】 训练逻辑回归模型

说明

【子任务项3.2】 评估模型的性能指标

说明

【子任务项3.3】 查看混淆矩阵并手动计算前述指标

说明

【子任务项3.4】 自动生成指标报表

说明

【子任务项3.5】 调整分类阈值并观察对结果的影响

说明

拓展说明

【任务4】 非线性可分处理（拓展）

【子任务项4.1】 线性可分的二分类及决策边界线

(1)查看数据样本分布情况

说明

(2)数据预处理及构建逻辑回归模型

说明

(3)绘制决策边界线

说明

【子任务项4.2】 线性不可分数据的处理

(1)查看数据样本分布情况

说明

(2)构建高阶/多维特征

(3)建立逻辑回归模型（不带惩罚项）

说明

(4)绘制边界线

说明

【子任务项4.4】 使用惩罚项解决过拟合问题

(1) λ = 10 \lambda=10 λ=10，对应 C = 0.1 C=0.1 C=0.1

说明

(2) λ = 0.1 \lambda=0.1 λ=0.1,对应 C = 10 C=10 C=10

说明

(3) λ = 0.001 \lambda=0.001 λ=0.001,对应 C = 1000 C=1000 C=1000

说明

【任务5】 多分类处理（拓展）

说明

你可能感兴趣的:(暑期实训)

【任务0】准备工作

【任务1】数据探查

【子任务项1.1】统计字段类型和缺失情况

【子任务项1.2】考查【仓位】与生还结果之间的关系

【任务2】数据清洗和特征处理

【子任务项2.1】初步筛选合适的特征

【子任务项2.2】拆分训练集和测试集

【子任务项2.3】使用随机森林模型插补Age字段的缺失值

【子任务项2.4】使用众数填充Embarked字段的缺失值

【任务3】构建基础模型并评估性能

【子任务项3.1】训练逻辑回归模型

【子任务项3.2】评估模型的性能指标

【子任务项3.3】查看混淆矩阵并手动计算前述指标

【子任务项3.4】自动生成指标报表

【子任务项3.5】调整分类阈值并观察对结果的影响

【任务4】非线性可分处理（拓展）

【子任务项4.1】线性可分的二分类及决策边界线

【子任务项4.2】线性不可分数据的处理

【子任务项4.4】使用惩罚项解决过拟合问题

(1) $\lambda=10$ ，对应 $C = 0.1$

(2) $\lambda=0.1$ ,对应 $C = 10$

(3) $\lambda=0.001$ ,对应 $C = 1000$

【任务5】多分类处理（拓展）