Allen_Sword

机器学习数据预处理和构建一个模型

数据预处理和构建一个模型

数据处理与特征工程

一、数据预处理

数据预处理的主要目的是为机器学习建模进行数据准备，数据准备的好与坏对模型效果影响比较大。

经常做的一些数据预处理工作有：
> 对缺失值的处理
> 对类别型变量的值进行重新编码
> 把连续型变量进行分箱，然后再按照处理类别型变量的方式重新编码
> 对连续型变量进行标准化和归一化处理

注意事项:

以上的预处理工作并不是对所有问题都是必须要做的，不同的算法和问题，对预处理的要求是不一样,如：
> 缺失值对所有算法来说基本上都要处理连续型变量是否要分箱要看具体算法，决策树算法就不需要
>而标准化和归一化在涉及到距离计算的算法中一定要处理，例如 KNN，聚类分析等

1.缺失值处理

常用的三种缺失值处理方法：

简单粗暴，直接把有缺失值的整条记录删除。这种方法适合数据样本较大而缺失记录较少的场景，删除缺失记录对整体影响很小。

构造一个新变量来标记缺失值：缺失就标记为1，不缺失就标记为0。这种方法认为缺失值本身是一个有意义的信息，不能简单处理掉，必须要标记出来。

用一个值替换掉缺失值，具体用什么值来替换这个方法也比较多，例如对数值型变量可以考虑用均值，对类别型变量用频数最大的那个值（众数）。

(1).删除缺失记录 (使用 dropna()方法 )：

# 删除整个数据集中任何一个变量有缺失的记录
dropna = titanic_df.dropna()
dropna.info()

# 对 Age 变量删除缺失值，保存为一个新的变量
Age_dropna = titanic_df[['Age']].dropna()
Age_dropna.info()

删除缺失记录的缺点：

删除后只有 183 条记录了，原来可是有891条记录啊，显然这样做不行啊。能不能不要在整个数据集上删除缺失值，而是分析哪个变量就删除该变量的缺失值，当然可以的，你只需要对指定的变量进行dropna()操作就可以了。

(2).构造缺失值标识变量

# 构造一个新的变量 Age_isna,当 Age 是缺失值的时候 Age_isna=1，否则=0
titanic_df['Age_isna']=0
titanic_df.loc[titanic_df['Age'].isnull(), 'Age_isna'] = 1
# 对 Age_isna 进行频数分析，确认 Age_isna 是否构造正确
titanic_df['Age_isna'].value_counts()

(3).替换缺失值

以 Age 为例，我们使用均值对它进行替换。先使用mean()计算Age的均值，然后使用fillna()替换掉 Age的缺失值。

## 对年龄缺失值进行均值填充
age_mean = round(titanic_df['Age'].mean())
titanic_df['Age'].fillna(age_mean, inplace=True)
titanic_df.Age.describe()

2.类别变量重新编码

为什么要对类别变量重新编码？

一个最简单的理解就是：机器学习算法要求输入的变量值必须是数值

(1).什么是类别型变量

类别型变量的值一般都是标签，一般都是字符串存储，例如Embarked（登船港口）它的取值是{‘C’, ‘Q’, ‘S’}，这就需要把它重新编码为数值。但是能简单的使用1,2,3对C,Q,S重新编码吗？显然不能，因为 C,Q,S 之间并没有数量关系，用1,2,3来编码，算法就会认为S的值是C的值的3倍，这显然是错误的。即使有一些类别变量的标签值用数字来存储，但是同样的道理，我们不能认为它已经是数字了就不需要重新编码，不论类别变量的标签值是字符串还是数字，本质上它只是一个编号

(2).类别变量重新编码 : 独热编码
什么是独热编码：

针对类别型变量，我们必须重新编码，把它们转换为数值型变量，但是信息量还不会丢失。最常用的一种类别变量编码方式哑变量(Dummy Variables）编码，这是统计界的称呼，机器学习界喜欢叫独热编码（one-hot encoding) 。

独热编码就是把 1 个类别型变量转化为 N 个 0/1 标识变量。类别型变量有多少个类别值，转化后的 0/1标识变量就有多少个。例如下图示例的“地区”变量是类别型变量，进行独热编码之后，每一个地区对应一个 0/1 标识变量，用户属于哪个地区，在对应地区的 0/1 标识变量上取值为 1，否则就为 0。一条记录只会在一个变量上取值为 1，其他变量上取值为 0，这就是独热这个词的含义。

import pandas as pd
# 把 Pclass 进行独热编码,保存为新的数据对象,名字叫 Pclass_onehot,prefix 参数设置独热编码后的变量名前缀
Pclass_onehot = pd.get_dummies(titanic_df.Pclass,prefix='Pclass')
# 查看前 5 行
Pclass_onehot.head()

结果:

	Pclass_1	Pclass_3
0	0	1
1	1	0
2	0	1
3	1	0
4	0	1

说明：

Pclass 有3个标签值(1,2,3)，所以独热编码之后有 3 个新的变量，设置了prefix=’Pclass’，所以三个变量名分别为 Pclass_1， Pclass_2， Pclass_3

(3).连续变量分箱
什么是分箱：

分箱，英文叫Binning，这是一个有点专业的叫法，其实就是我们常说的变量分段。例如年龄本来是连续型变量，现在我们把它分成 5 个段： 0-18岁一个段， 18-25 一个段， 25-40 一个段， 40-60 一个段，60+一个段。这就叫分箱，有时候也叫分桶，还可以叫变量离散化

分箱的好处:

好处一、分箱之后连续型变量就可以变成类别型变量来处理了。变成类别型变量又有什么好处呢？那就是分析起来很方便，直接做频数分析或者直方图分析就可以知道变量的分布情况了。

好处二、变量分箱之后能让模型变得更稳健，不太容易过拟合。为什么这么说呢，这个也是容易理解的，例如年龄，没分箱之前，不同的年龄（例如 35 岁和 39岁）对模型的预测结果有一定的影响。但是分箱之后，他们都属于 25-40 这个年龄段，预测结果自然就一样了。你可能会说分箱这样做不是降低了变量的精细度吗？对的,目的就是要降低变量的精细度，这样得到的模型结果可能才会更稳健。

有三种常用的分箱方法:

自定义分箱：分箱的边界值自定义

等宽分箱：每一个箱的边界呈等差数列。例如以 10 为间隔对年龄分箱，那就是按照这
样的区间来分箱： 0-10,10-20,20-30…

等深分箱：保证每一个箱内记录数一样或者满足指定的比例。例如如果要分为 10 个箱，并且每个箱内的记录数要相等（即每个箱内都包含 10%的记录）。有时候等深分箱也不一定要求每一个箱内记录数都相等，例如第 1 个箱占 top10%的记录，第 2 个箱占剩余的 top20%，第 3 个箱占剩余的 top30%…

连续变量分箱 – 自定义分箱

#对 Age 进行自定义分箱
cut_points = [0,18,25,40,60,100]
#定义分箱边界值
titanic_df["Age_bin"] = pd.cut(titanic_df.Age, bins=cut_points)
#分箱后的新变量 Age_bin 继续保存在原始的数据对象 titanic_df 中
# 分箱后的频数分析
titanic_df["Age_bin"].value_counts()

连续变量分箱 – 等宽分箱

变量分箱: 等宽分箱
使用 pandas 的 cut()方法，直接指定等宽分箱的数量，例如 10，代码如下：
# 等宽分箱，分箱数为 10
titanic_df["Age_wbin"] = pd.cut(titanic_df.Age,10)
# 分箱后的频数分析
titanic_df["Age_wbin"].value_counts()

连续变量分箱 – 等深分箱

使用 pandas 的 qcut()方法，直接指定等深分箱的数量，例如 5
# 等深分箱，分箱数为 5
titanic_df["Age_dbin"] = pd.qcut(titanic_df.Age,5)
# 分箱后的频数分析
titanic_df["Age_dbin"].value_counts()

分箱后的变量进行独热编码

# 分箱后得到的变量就变成了类别型变量（这正是我们要分箱的目的），
# 那么就可以用前面学到的独热编码的方法对分箱后的变量进行编码了。
Age_bin_onehot = pd.get_dummies(titanic_df.Age_bin,prefix='Age_bin')
Age_bin_onehot.head()

(4).标准化和归一化

标准化和归一化都属于对变量进行无量纲化处理的方法，目的就是为了使不同规格尺度的数据转换到同一规格尺度上。

为什么要这么做？
> 无量纲化可以让不属于同一量纲的特征值可以比较：例如身高(cm)，体重(kg)
> 无量纲化后模型收敛会加快（运行速度较快）
> 无量纲化对一些模型的结果影响较大，一般都是涉及到距离计算的模型和算法，
> 例如 KNN，聚类分析， SVM 等。

标准化 Standardize

标准化要做的事情就是把原始的连续型变量转换为均值为 0，标准差为 1 的变量

我们需要使用 sklearn.preprocessing.Scale()方法来进行标准化

标准化 Standardize （2/3）-方式一

from sklearn import preprocessing
# 使用 Age 变量的数据训练一个标准化转换模型# 特别说明一下：需要使用 titanic_df[['Age']]
# 这样的方式来引用 Age 变量，这样得到的结果是 dataframe
# Age 标准化处理后保存为原数据对象中的新变量 Age_std
titanic_df['Age_std'] = preprocessing.scale(titanic_df[['Age']])
# 查看标准化后的数据
titanic_df['Age_std'].head()

标准化 Standardize （2/3）-方式二

from sklearn import preprocessing
# 实例化一个标准化转换器
stdscaler = preprocessing.StandardScaler()
# 使用Age变量的数据训练一个标准化转换模型
# 特别说明一下：需要使用titanic_df[['Age']]这样的方式来引用Age变量，这样得到的结果是
dataframe，不是series
stdscaler.fit(titanic_df[['Age']])
# Age标准化处理后保存为原数据对象中的新变量Age_std
titanic_df['Age_std'] = stdscaler.transform(titanic_df[['Age']])
# 查看标准化后的数据
titanic_df.head()

归一化（Normalization）

归一化就是把原始的连续型变量转换为范围在【a-b】之间的变量，常见的a=0， b=1，

我们需要使用 sklearn.preprocessing.MinMaxScaler()方法来进行归一化

from sklearn import preprocessing
# 实例化一个归一化转换器
minmaxscaler = preprocessing.MinMaxScaler()
# 使用 Age 变量的数据训练一个归一化转换模型
minmaxscaler.fit(titanic_df[['Age']])
# Age 归一化处理后保存为原数据对象中的新变量 Age_normal
titanic_df['Age_normal'] = minmaxscaler.transform(titanic_df[['Age']])
# 查看归一化后的数据
titanic_df.head()

5.数据对象拼接

经过了一系列的数据预处理之后，有一些变量是保存在原始的数据对象中，有一些变量可能单独保存为一个数据对象，例如独热编码就是单独的数据对象。为了后续的建模方便，我们需要把这这些分散的dataframe 拼接在一起。可以使pandas.concat()方法来完成这个任务。

# 使用 concat 把 Pclass_onehot 和 titanic_df 两个 dataframe 拼接在一起
titanic_df_merge = pd.concat([titanic_df,Pclass_onehot], axis=1)
titanic_df_merge.head()

6.小结

三种缺失值处理的方法
> 使用 dropna()删除缺失记录
> 构造一个缺失值 0/1 标志变量
> 使用 fillna()方法用一个值对缺失值进行替换

对类别型变量处理的方法
> 使用 pandas.get_dummies()方法对类别型变量进行独热编码

三种对连续型变量分箱的方法
> 使用 pandas.cut() 方法，指定分箱边界来进行自定义分箱
> 使用 pandas.cut() 方法，指定分箱数量来进行等距分箱
> 使用 pandas.qcunt() 方法，指定分箱数量来进行等深分箱

两种无量纲化的处理方法
> 使用 sklearn.preprocessing.StandardScaler()来进行均值为 0，标准差为 1 的标准化
> 使用 sklearn.preprocessing.MinMaxScaler()来进行[0-1]之间的归一化

最后使用了 pandas.concat()对 pandas 的多个 dataframe 进行拼接，合并为一张大的宽表

二、特征变量的构造和组合

泰坦尼克案例中，原始数据集train.csv只有12个变量，之前的章节，我们都是基于这个12个变量来进行的探索分析和数据预处理。现在我们要讨论的问题是：能否基于这12个原始变量构造出来更多的新变量。答案当然是可以的！

如何基于已有变量构造新的衍生变量的方法，一般来说，有几种常用的新变量构造方法:

多个变量之间的数学运算，例如构造一个新变量 z=a/b

基于逻辑判断来构造衍生变量，形如 SQL 中的 case when … then …这样的方式

多个特征变量进行组合，例如性别，年龄本来是两个独立的变量，可以把他们组合起来变成新的独热编码变量：男&(0,18]，男&(18,25]…

变量构造非常重要，对应用机器学习来说，最重要的工作往往不是选择哪个算法，而是你能否构造出对目标变量有强预测能力的变量,这个工作又被称为特征工程，前面介绍的数据预处理的各种方法，也属于特征工程的范畴，后面我们会有专门的章节来详细讲解特征工程

1.基于多个变量运算构造新变量
在泰坦尼克数据集中，有这样两个变量：

SibSp：在船兄弟姐妹数/配偶数

Parch：在船父母数/子女数

简单思考一下发现，如果把 SibSp 和 Parch 加起来再加上 1（自己），那么这个新的变量就可以表示家庭大小。我们感觉这个新的变量可能与是否生还有一定相关性，具体有没有，我们可以通过之前学习的数据探索的方法来分析

示例：

# 构造 FamilySize 变量
titanic_df['FamilySize'] = titanic_df['SibSp'] + titanic_df['Parch'] + 1
titanic_df.head(5)

# FamilySize 与 Survived 的交叉表，显示频数
pd.crosstab(titanic_df.Survived,titanic_df.FamilySize,margins=True)

# FamilySize 与 Survived 的交叉表，显示列占比
pd.crosstab(titanic_df.Survived,titanic_df.FamilySize).apply(lambda r:
r/r.sum(), axis=0)

2.基于逻辑判断来构造新变量
例如，我们可以这样来构造一些新变量：

构造一个新变量 IsAlone（是否独自一人)，规则是：如果 FamilySize=1，那么IsAlone=1，否则 IsAlone=0

构造一个新变量IsMother（是否是母亲），规则是：如果性别是女性，父母/子女数大于 0，并且年龄大于 20 岁，那么 IsMother=1，否则 IsMother=0

示例：

# 构造一个新变量 IsAlone（是否独自一人)
titanic_df['IsAlone'] = 0
titanic_df.loc[titanic_df['FamilySize'] == 1, 'IsAlone'] = 1
# 频数统计
titanic_df['IsAlone'].value_counts()
# 构造一个新变量 IsMother（是否是母亲）
titanic_df['IsMother'] = 0
titanic_df.loc[(titanic_df['Sex']=='female') &
(titanic_df['Parch']>0) & (titanic_df['Age']>20),'IsMother'] = 1
# 频数统计
titanic_df['IsMother'].value_counts()

3.多个特征变量进行组合

多个特征变量进行组合，例如性别，年龄本来是两个独立的变量，可以把他们组合起来变成新的独热编码变量：男&(0,18]，男&(18,25]。。。。特征组合要求特征都必须是类别型的，所以我们先对年龄变量进行分箱。

示例

# 把 Sex 性别和 Age_bin 特征进行组合
titanic_df['Sex_Age_combo'] = titanic_df['Sex'] + "_" + titanic_df['Age_bin'].astype(str)
titanic_df.head()

# 对 Sex_Age_combo 进行独热编码
Sex_Age_combo_onehot = pd.get_dummies(titanic_df['Sex_Age_combo'], prefix='Sex_Age')
Sex_Age_combo_onehot.head()

构建第一个预测模型

一、预览构建第一个预测模型

1.Step1: 数据预处理

读取原始数据

各种数据预处理

构造一张集成好的数据大宽表

2.Step2 -模型训练和评估

拆分出训练集和测试集

用训练集进行模型训练

用户测试集进行模型评估

示例：

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
# 拆分训练集和测试集y=f(x)
# trainData系列为训练集， trainData_X:训练集自变量(x)， trainData_y:训练集因变量(y)
# 注意：训练集中一定要删除目标值，因为这个值是要训练得出的
trainData_X = TrainData.drop(['Survived'], axis = 1)
# 把原数据集中的结果（可以理解为数据标准）保存到因变量集中，用于将来和训练的结果集对比得正确率
trainData_y = TrainData.Survived
# X_test:代表的是测试集数据（自变量）， y_test:代表的是测试集数据（因变量）
X_train, X_test, y_train, y_test = train_test_split(trainData_X, trainData_y, test_size=0.3,
random_state=123456)
# 实例化一个逻辑回归模型(逻辑回归是用于解决分类问题的典型机器学习算法)
lr = LogisticRegression()
# 训练模型（此过程本质上是得到相关数学模型的相关参数,即得到： y=f(x)相关表达式）
lr.fit(X_train, y_train)
# 用模型对测试集进行预测（用之前得到的y=f(x)公式，带入x,求解y）
y_test_pred = lr.predict(X_test)
# 输出测试集上模型评估报告classification_report(即预测试的结果集和实际事先标注的真实结果集进行比较)
print(classification_report(y_test,y_test_pred))

关于模型训练的三点说明：
(1)、数据格式

预测模型的训练需要输入数据对象X和y，例如：lr.fit(X_train, y_train)。

X_train是一个shape为(n_samples, n_features)的2维数组（矩阵），矩阵的列就是
特征变量x，行就是每一条训练样本。

y_train是一个shape为(n_samples,)的一维数组，存放的是目标变量y的值

_train和y_train的长度必须一致：也就是说(X_train,y_train)必须是成对出现的。另外，sklearn可以接受Pandas的dataframe或者series对象，一般我们都习惯用Pandas来为机器学习建模准备数据。

(2)、数据集拆分

我们看到了例子中训练模型用X_train和y_train，评估模型用X_test和y_test。这个train和test就是通过数据集的随机拆分的方法来完成的。

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(trainData_X, trainData_y,test_size=0.3, random_state=123456)
test_size=0.3指定了拆分出来的test集数量占比是30%。

(3)、模型评估

模型训练出来之后，到底性能如何，这是需要评估的。数据集拆分的目的（拿测试集来评估模型）就是为了让模型评估更加客观，不能既做运动员又做裁判。所以模型评估不能使用训练集，必须在绝对没有参与模型训练的测试集上进行评估。模型评估有很多方法，最常用的指标就是正确率，但是只看一个正确率有时候无法对模型全面评估，所以还会有更多的评估指标，后面会慢慢道来：
> 误分类矩阵
> 准确率，召回率，F1 Score等
> OC曲线，AUC值
> orenz曲线
> KS曲线，KS值

3.Step3 –对新数据做出预测

对新数据进行同样的数据预处理工作

利用训练好的模型对新数据进行预测

预测结果保存为文件

示例：

# 不需要 “乘客ID”
Test_X = TestData.drop(['PassengerId'], axis = 1)
# 对测试数据进行预测
pred = lr.predict(Test_X)
# 生成最终提交结果Submission
Submission = pd.DataFrame({'PassengerId':TestData.PassengerId,'Survived':pred})
# 导出为csv文件
Submission.to_csv("Submission.csv", index=False)
# 查看导出文件，读取测试结果数据集
submission_df = pd.read_csv('Submission.csv')
submission_df.head()

4.小结 – 简单而完整的建模流程

Step1: 数据预处理
> 读取原始数据
> 各种数据预处理
> 构造一张集成好的数据大宽表

Step2: 模型训练和评估
> 拆分出训练集和测试集
> 用训练集进行模型训练
> 用户测试集进行模型评估

Step3: 对新数据做出预测
> 对新数据进行同样的数据预处理工作
> 利用训练好的模型对新数据进行预测
> 预测结果保存为文件

二、预测模型开发流程

1.开发一个预测模型包含三个核心步骤

数据预处理

模型训练和评估

模型预测

2.对预测模型一般通用开发流程的理解

(1).首先要获得用于训练的数据集

常见的数据标注场景有：
> 图像识别：需要对图片的类别进行标注
> 文本情感分析：需要对文本正面和负面情感进行标注
> 信用评分：需要观察足够长的时间，搜集到足够多的坏账用户样本

特别说明：

我们现在接触到的训练数据集可能大部分都是批量方式提供的（就是一个静态的csv文件），但是在实际工作中，尤其是互联网行业，训练数据可能是实时产生的，例如广告点击率预估模型，广告从展现到点击这个过程的数据会源源不断的产生。针对批量数据建模就叫批量学习，针对实时数据建模就叫在线学习，一般这种场景的学习都是只用增量数据来训练模型，所以又叫增量学习。在线学习对工程能力要求较高，往往需要大数据工程师的支持和配合才能很好的完成。

(2).其次要进行数据预处理
在一个机器学习模型开发流程中，数据预处理会占到80%-90%的时间。在上一章的学习中，我们看到了数据预处理要干这些事情：

数据清洗：例如缺失值的处理

特征构造：从原始数据中加工提取出有用的特征变量

特征转换：标准化，归一化，独热编码

特征筛选：丢弃掉一些不要的特征变量数据预处理对模型性能影响巨大，它决定了模型性能的上限，选择什么样的算法只不过是无限逼近这个上限而已！

(3).然后进行模型训练（选择机器学习算法）

模型训练就是把准备好的数据喂给机器学习算法，然后得到一个可以用于对新数据进行预测的模型。

模型训练是一个不断迭代和探索的过程，。实际工作中我们会不断的通过如下这些方法来尝试寻找最好的模型。算法的“好”与“坏”需要进行科学的评估！

选择机器学习算法:

不同数据预处理方法

选择不同的算法

调节算法的参数

模型的好坏是通过模型评估来判断。模型评估的方法就是交叉验证：拿一部分数据集来做训练，另一部分数据集来做测试。

模型评估有很多指标：

误分类矩阵

准确率，召回率，F1 Score等

ROC曲线，AUC值

Lorenz曲线

KS曲线，KS值

(4).模型上线（把模型装载入模型预测引擎）

所谓的离线（Offline）: 就是指你不是在生产环境中训练模型，你可能是你工作的电脑或者是一台专门用于模型训练的服务器。

模型训练：模型训练是一个不断迭代和探索的过程，直到你对模型评估满意为止。一旦你确认模型OK了，我们经常说的一个术语就叫模型上线或者叫模型部署。

模型上线：就把模型装载在模型预测引擎中，当有新数据传入预测引擎的时候，预测引擎就会给出针对这批数据的预测结果。

所以模型预测往往应用的时候是在线的，这就是我们常说的：离线训练，在线预测。

当然，如果我们只是研究和学习，模型预测也可以是离线的。

(5).模型应用（使用数据来进行决策）

简单来说：预测模型的核心价值就是使用数据来做决策。例如：
> 构建一个信用评分模型，当一个新用户提交资料来申请信用卡的时候，信贷审批系统通过调用信用评分预测模型服务获得对该用户信用度好坏的评分，进而可以决定是否向它发卡。
> 构建一个广告点击率预估模型，当一个用户访问APP的时候，给用户呈现点击率预估最高的那个广告。
> 构建一个文本分类模型，让机器自动的分析给一篇文章打上分类标签，然后把这篇文章推荐给偏好这个分类的用户

三、模型训练和评估

1.为什么要训练模型

预测模型就是通过输入一系列自变量 X 去预测一个目标变量 y ，它本质是一个函数拟合的问题，找到一个能用 X 预测 y 的函数 y=f(x)

模型训练的目的就是为了寻找输入变量 (X）与目标变量 (y) 之间的关系，以线性回归模型为例：
y=f(X)=w1x1+w2x2+w3x3+…+b

模型的目标就是找到 f(x) 函数的表达式，即 w1,w2,w3…b 的值，这个问题又称为函数逼近的问题，从这个角度来看，它本质是一个数学问题，也就是我们常说的函数拟合。

2.分类与回归

1.分类与回归的概念

分类：就是预测数据的类标签，即y的值是类别值，如果y
的值只有2个（0/1)我们称为二分类，如果y的值有多个，
称为多分类。很显然，在上一章中介绍的预测泰坦尼克
乘客生还的问题就属于分类问题（二分类问题）。分类模
型我们经常又称为分类器（Classifier），这个一个更加
形象的叫法。

回归：对数值型变量的值进行预测，即y的值是一个数值，例如预测房价，预测商品销售额都属于回归问题。回归模型又称为回归器（Regressor）

2.利用分类回归算法实现泰坦拟克生存预测
sklearn 的模型训练函数要求我们把数据集X和y分开准备：即模型训练的 fix(X,y) 方法要求 X和y 是两个参数。

X 是一个shape为(n_samples, n_features)的 2维数组（你也可以理解为矩阵），矩阵的列对应的就是各个输入变量x，矩阵的行就是每一条训练样本。

Y 是一个shape为(n_samples,)的一维数组，存放的是目标变量y的值。

X和y的长度必须一致：也就是说(X,y)必须是成对出现的。

sklearn可以接受X和y是Pandas的dataframe或者series格式，所以我们一般都是通过Pandas来准备数据。

通过下面这两行代码就把X和y数据分离出来了：TrainData中去掉Survived变量，其他的都全部作为X，把Survived作为y

trainData_X = TrainData.drop(['Survived'], axis = 1)
trainData_y = TrainData.Survived

3.模型评估的流程

首先需要对测试集X进行预测，得到测试集y的预测值

基于测试集y的真实值和预测值，可以构造若干种评估指标和方法来衡量预测值和真实值是否比较接近

一行代码搞定预测：y_test_pred = lr.predict(X_test)

一行代码搞定一个评估方法（当然评估指标有很多，后面会详细介绍）：
classification_report(y_test,y_test_pred)

4.lassification_report 评估报告输出了一些核心评估指标

precision：准确率。这个比较容易理解，例如预测了100个人会生还，结果真实生还的人有70个，那么对预测生还（1）这个类来说准确率就是70%。同样针对不生还这个类也有一个准确率，例如预测100个人不会生还，结果真的有82个人没有生还，那么不生还类（0）的准确率就是82%

recall：召回率。假如总样本有1000个人，所有生还的人有100个，模型预测生还的人中有72个是正确的，那么召回率就是72%。简单说就是预测正确的数量的覆盖度。

f1-score：准确率和召回率的一个平衡。不能简单的说准确率越高越好或者召回率越高越好。为什么？难道不是准确率越高越好吗？是的，还真不一定。举个例子，你非常谨慎，只对最有把握的10个人预测了他们能生还，结果还真的给你蒙对了，准确率100%。很显然，这样的模型其实并没有什么用，因为召回率实在太低了，大部分生还的人都没有预测出来。反过来，你把所有的人都预测能生还，这下好了，召回率达到了100%，但是这样的模型也没有任何意义。

5.再论准确率与召回率

对一个分类模型而言，给它一个输入，它就会输出一个标签，这个标签就是它预测的当前输入的类别。假设数据 data1 被模型预测的类别是 Class_A。那么，对于 data1 就有两种可能性：data1本来就是Class_A（预测正确），data1本来不是Class_A（预测错误）。当一个测试集全部被预测完之后，相对于Class_A，会有一些实际是 Class_A 的数据被预测为其他类，也会有一些其实不是Class_A 的，被预测成Class_A，这样的话就导致了下面这个结果：
> 精准率（P）=TP/(TP+FP)=50/(50+10)=5/6=83.33 %
> 召回率（R）=TP/(TP+FN)=50/(50+30)=5/8=62.5 %

四、模型预测

1.什么是模型预测

模型一旦训练完成，要发挥模型的威力就是拿它来对新数据进行预测，进而根据预测结果进行决策。模型就有点类似工厂先开一个模具，预测就像用这个模具源源不断的铸造出和模具一样的东西。

2.模型预测的结果

分类模型和回归模型预测出来的是结果不一样的：

分类模型的预测结果是类别标签，有一些算法同时也会给出每一个类别标签的概率值，有多少个类别就有多少个概率值

回归模型的预测结果就是一个数值，就不存在概率了。

3.如何进行模型预测

关于模型预测，注意事项有三：

注意模型预测不像模型训练，它不需要输入数据集y，预测的目的就是为了得到y，你自然是无法输入y的。当然你输入X_train也可以的，那就是在训练集上进行预测。

有一些算法能提供概率输出，预测概率也是一行代码就能完成：lr.predict_proba(X_test)。需要注意的是，有多少个类别就有多少个对应的概率值输出。

另外，预测结果中只包含预测的类别标签或者不同类别的概率值，并不会包含数据集X的信息。你一开始可能会不太习惯，你可以考虑把预测结果拼接到数据集X中去。

示例：

# 对 测试集预测类别值 并打印输出，
# 结果是一维数组。
y_test_pred = lr.predict(Test_X)
y_test_pred

# 对 测试集预测每一个类别的概率值，输出结果
是二维数组。
y_test_pred_prob = lr.predict_proba(Test_X)
# 值显示前10行
y_test_pred_prob[:10]

# 可以提取y_test_pred和y_test_pred_prob通过
DataFrame()拼接起来
# 把预测结果转为dataframe格式，并通过concat()拼
接起来
pred_df =
pd.DataFrame(y_test_pred,columns=['pred'])
pred_prob_df =
pd.DataFrame(y_test_pred_prob,columns=['p_0',
'p_1'])
pd.concat((pred_df,pred_prob_df),axis=1).head()

五、新数据预测

1.如何进行新数据预测

前面介绍的是对原始训练数据拆分出来的测试集进行预测，由于X_train 和 X_test 格式完全一样，所以操作起来非常简单。如果现在待预测的是一个全新的数据，就会稍微麻烦一点，因为我们通过一系列的数据预处理操作得到了X_train，现在需要对新数据集进行完全相同的预处理操作。

以泰坦尼克数据为例：

训练集需要drop掉PassengerId（乘客ID)，而测试集（新数据集）需要保留，因为预测结果需要与PassengerId关联在一起。

训练集有 Survived这个变量（目标变量），而测试集（新数据集）没有这个变量。

示例：

def prepare_data(path,role):
titanic_df = pd.read_csv(path)
if role == 'train':
# train数据集drop掉：PassengerId,Name,Ticket,Cabin
titanic_df = titanic_df.drop(['PassengerId','Name','Ticket','Cabin'], axis = 1)
else:
# test数据集drop掉Name,Ticket,Cabin
titanic_df = titanic_df.drop(['Name','Ticket','Cabin'], axis = 1)
……..
if role == 'train':
# train数据集保留Survived
data = pd.concat([titanic_df[['Survived','AgeIsMissing','IsAlone','IsMother']],
Pclass,Sex,Embarked,AgeBin,FareBin,FamilySize,SexAgeCombo],axis=1)
else:
# test数据集保留PassengerId
data = pd.concat([titanic_df[['PassengerId','AgeIsMissing','IsAlone','IsMother']],
Pclass,Sex,Embarked,AgeBin,FareBin,FamilySize,SexAgeCombo],axis=1)
return data

# 利用prepare_data()函数对train.csv和test.csv进行同样逻辑的预处理
TrainData = prepare_data(path='./datasets/titanic/train.csv',role='train')
TestData = prepare_data(path='./datasets/titanic/test.csv',role='test')
# drop掉PassengerId剩余变量组合成数据及Test_X
Test_X = TestData.drop(['PassengerId'], axis = 1)
# 对测试数据进行预测
pred = lr.predict(Test_X)
# 把PassengerId和pred通过DataFrame()拼接起来形成最后的提交结果
Submission =
pd.DataFrame({'PassengerId':TestData.PassengerId,'Survived':pred})
Submission

六、模型结果理解

1.机器学习模型的分类

机器学习模型有两种形式：参数模型和无参数模型。它们的本质区别是：参数模型假设函数f(x)有特定的形式，例如线性表达式，而无参数模型则没有这个要求。两者各有利弊：
> 参数模型的精度略差但可解释性强。很多情况下，由于限制了f(x)的表达形式，所以参数模型的精确性可能会略差一些，但是好处是简单，可解释性强，例如逻辑回归模型。
> 无参数模型可解释性差但更精确。相反，无参数模型可解释性差一些，但是大多数情况下可能模型会更精确。

参数模型:

最简单的参数模型就是线性回归，在回归模型中，假定了f(x) 的形式如下：
y=f(X)=w1x1+w2x2+w3x3+…+b

在这个模型中，w1,w2,w3…b 这些参数的值是需要利用算法估计出来的，
例如使用梯度下降法，寻找到让损失函数取得最小值的参数。逻辑回归
模型也是属于参数模型。

无参数模型:

无参数模型中，f(x) 的形式不是一个简单固定的函数，它的形式和复杂度与算法和数据都有很大关系。无参数模型的一个典型例子就是决策树，它的f(x)的表现形式是一个树形结构的决策规则，可以翻译为if…then.. .这样的规则，下图是一个“是否要接一个offer ” 的决策树模型示意，其他的非参数模型还包含：K近邻，神经网络，支持向量机，随机森林等算法

2.查看模型输出的结果

以逻辑回归模型为例，它的模型输出结果就是一些参数值：特征变量的回归系数和截距，就是前面提到的参数模型的w1,w2,w3…b 的值
> coef_ : 特征变量的回归系数，如果是二分类模型，shape是(1,n_features)，如果是多分类模型，shape是(n_classes, n_features)
> intercept_ : 截距，二分类模型shape是(1,)，多分类模型shape是(n_classes,)

示例：

#再重新做一次模型训练，目的是为了查看逻辑回归模型的两个结果
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
trainData_X = TrainData.drop(['Survived'], axis = 1)
trainData_y = TrainData.Survived
X_train, X_test, y_train, y_test = train_test_split(trainData_X,
trainData_y, test_size=0.3, random_state=123456)
lr = LogisticRegression()
lr.fit(X_train, y_train)
# 查看逻辑回归模型的两个结果：intercept_就是一个单值，coef_的
shape是(1,40)，40就是X_train中的变量个数。
print(lr.intercept_ )
print(lr.coef_)
# 查看coef_的shape
print("coef_的shape:",lr.coef_.shape)
# 查看X_train的列数
print("X_train的列数:",len(X_train.columns))

# 为了方便查看，我们把X_train中的变量名与它们的系数值拼接在一起
import numpy as np
# 把变量名称和系数对应起来组合成dataframe
coef = pd.DataFrame(list(zip(X_train.columns, np.transpose(lr.coef_))),
columns=['columns', 'coef'])
# 按照coef的值从高到底排序
coef = coef.sort_values(by =['coef'], ascending=False)
coef

3.从模型结果更深次的理解X与y的关系

通过模型训练之后，得到 coef_ （特征变量的回归系数）与intercept_
（截距）后，你就可以拟合出：
y=f(X)=w1x1+w2x2+w3x3+..+.wn*xn+…+b

得到了这个函数后，以后再有了对应的自变量（x1,x2…xn…）的数据，我们自然就可以求出因变量 f(x),即y值，这其实就是本质上模型训练及模型预测背后对应的原理与实现

你可能感兴趣的:(笔记)

10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
509. 斐波那契数(每日一题) lzyprime
lzyprime博客(github)创建时间：2021.01.04qq及邮箱：2383518170leetcode笔记题目描述斐波那契数，通常用F(n)表示，形成的序列称为斐波那契数列。该数列由0和1开始，后面的每一项数字都是前面两项数字的和。也就是：F(0)=0，F(1)=1F(n)=F(n-1)+F(n-2)，其中n>1给你n，请计算F(n)。示例1：输入：2输出：1解释：F(2)=F(1)+
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
Day17笔记-高阶函数 ~在杰难逃~ Python 笔记 python 开发语言 pycharm 数据分析
高阶函数【重点掌握】函数的本质：函数是一个变量，函数名是一个变量名，一个函数可以作为另一个函数的参数或返回值使用如果A函数作为B函数的参数，B函数调用完成之后，会得到一个结果，则B函数被称为高阶函数常用的高阶函数：map(),reduce(),filter(),sorted()1.map()map(func,iterable)，返回值是一个iterator【容器，迭代器】func:函数iterab
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
为什么你总是对下属不满意? ZhaoWu1050
【ZhaoWu的听课笔记】大多数公司，都存在两种问题。我创业四年，更是体会深切。这两种问题就是：老板经常不满意下属的表现；下属总是不知道老板想要什么；虽然这两种问题普遍存在，其实解决方法并不复杂。这节课，我们再聊聊第一个问题：为什么老板经常不满意下属表现?其实，这背后也是一条管理常识。管理学家德鲁克先生早就说过：管理者的任务，不是去改变人。*来自《卓有成效的管理者》只是大多数老板和我一样，都是一边
母亲节如何做小红书营销美橙传媒
小红书的一举一动引起了外界的高度关注。通过爆款笔记和流行话题，我们可以看到“干货”类型的内容在小红书中偏向实用的生活经验共享和生活指南非常受欢迎。根据运营社的分析，这种现象是由小红书用户心智和内容社区背后机制共同决定的。首先，小红书将使用“强搜索”逻辑为用户提供特定的“搜索场景”。在“我必须这样生活”中，大量使用了满足小红书站用户喜好和需求的内容。内容社区自制的高质量内容也吸引了寻找营销新途径的品
读书笔记|《遇见孩子，遇见更好的自己》5 抹茶社长
为人父母意味着放弃自己的过去，不要对以往没有实现的心愿耿耿于怀，只有这样，孩子们才能做回自己。985909803.jpg孩子在与父母保持亲密的同时更需要独立，唯有这样，孩子才会成为孩子，父母才会成其为父母。有耐心的人生往往更幸福，给孩子留点余地。认识到养儿育女是对耐心的考验。为失败做好心理准备，教会孩子控制情绪。了解自己的底线，说到底线，有一点很重要，父母之所以发脾气，真正的原因往往在于他们自己，
基于Python给出的PDF文档转Markdown文档的方法程序媛了了 python pdf 开发语言
注：网上有很多将Markdown文档转为PDF文档的方法，但是却很少有将PDF文档转为Markdown文档的方法。就算有，比如某些网站声称可以将PDF文档转为Markdown文档，尝试过，不太符合自己的要求，而且无法保证文档没有泄露风险。于是本人为了解决这个问题，借助GPT（能使用GPT镜像或者有条件直接使用GPT的，反正能调用GPT接口就行）生成Python代码来完成这个功能。笔记、代码难免存在
语文主题教学学习笔记之87 东哥杂谈
“语文主题教学”学习笔记之八十七（0125）今天继续学习小学语文主题教学的实践样态。板块三：教学中体现“书艺”味道。作为四大名著之一的《水浒传》，堪称我国文学宝库之经典。对从《水浒传》中摘选的单元，教师就要了解其原生态，即评书体特点。这也要求教师要了解一些常用的评书行话术语，然后在教学时适时地加入一些，让学生体味其文本中原有的特色。学生也要尽可能地通过朗读的方式，而不单是分析讲解的方式进行学习。细
Armv8.3 体系结构扩展--原文版代码改变世界ctw ARM-TEE-Android armv8 嵌入式 arm架构安全架构芯片 Trustzone Secureboot
快速链接:.ARMv8/ARMv9架构入门到精通-[目录]付费专栏-付费课程【购买须知】:个人博客笔记导读目录(全部)TheArmv8.3architectureextensionTheArmv8.3architectureextensionisanextensiontoArmv8.2.Itaddsmandatoryandoptionalarchitecturalfeatures.Somefeat
springboot+vue项目实战一-创建SpringBoot简单项目苹果酱0567 面试题汇总与解析 spring boot 后端 java 中间件开发语言
这段时间抽空给女朋友搭建一个个人博客，想着记录一下建站的过程，就当做笔记吧。虽然复制zjblog只要一个小时就可以搞定一个网站，或者用cms系统，三四个小时就可以做出一个前后台都有的网站，而且想做成啥样也都行。但是就是要从新做，自己做的意义不一样，更何况，俺就是专门干这个的，嘿嘿嘿要做一个网站，而且从零开始，首先呢就是技术选型了，经过一番思量决定选择-SpringBoot做后端，前端使用Vue做一
阅读《认知觉醒》读书笔记就看看书
本周阅读了周岭的《认知觉醒开启自我改变的原动力》，启发较多，故做读书笔记一则，留待学习。全书共八章，讲述了大脑、潜意识、元认知、专注力、学习力、行动力、情绪力及成本最低的成长之道。具体描述了大脑、焦虑、耐心、模糊、感性、元认知、自控力、专注力、情绪专注、学习专注、匹配、深度、关联、体系、打卡、反馈、休息、清晰、傻瓜、行动、心智宽带、单一视角、游戏心态、早起、冥想、阅读、写作、运动等相关知识点。大脑
阅读笔记：阅读方法中的逻辑和转念施吉涛
聊聊一些阅读的方法论吧，别人家的读书方法刚开始想写，然后就不知道写什么了，因为作者写的非常的“精致”我有一种乡巴佬进城的感觉，看到精美的摆盘，精致的食材不知道该如何下口也就是《阅读的方法》，我们姑且来试一下强劲的大脑篇，第一节：逻辑通俗的来讲，也就是表达的排列和顺序，再进一步就是因果关系和关联实际上书已经看了大概一遍，但直到打算写一下笔记的时候，才发现作者讲的推理更多的是阅读的对象中呈现出的逻辑也
《转介绍方法论》学习笔记小可乐的妈妈
一、高效转介绍的流程：价值观---执行----方案一）转介绍发生的背景：1、对象：谁向谁转介绍？全员营销，人人参与。①员工的激励政策、客户的转介绍诱因制作客户画像：a信任；支付能力；意愿度；便利度（根据家长具备四个特征的个数分为四类）B性格分类C职业分类D年龄性别②执行：套路，策略，方法，流程2、诱因：为什么要转介绍？认同信任；多方共赢；传递美好；零风险承诺打动人心，超越期待。选择做教育，就是选择
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
解决Obsidian写笔记中的＜img＞标签无法显示图片的问题全能全知者笔记
Obsidian中写md笔记如果使用标签会显示不出图案，后来才知道因为Obsidian的问题导致只能用绝对路径定位。所以我本人写了一个py插件，将md笔记里的img标签批量替换成Obsidian能够读取的形式。安装FixObsImgDpy:pipinstallFixObsImgDpy安装完成后在需要修复的md文件的父目录下运行命令:FixObsImgDpy就会自动修复父目录以下的全部md文件仓库
2021年周总结 03 Ruby之家
这周的生活过得也是比较快，因为暂时住的离公司有点距离，所以通勤时间相对较长一点，而在地铁上的一个半小时如何充分利用起来，则是我最近一直在思考的问题，2021年想让自己的生活都运行在计划中。(有时候自己想干一件事情就总是给自己找很多借口，想着以后怎么怎么样？然而哪有那么多的以后，能够方便当下的工作生活就立马执行就OK，这仅仅只是我此时想到背的很重的老人机笔记本电脑，也算是陪伴我快8年的—当时买的时候
2021-12-11 人生导演
今天读到佛学书籍的一段话：初学者很难直接体验到无我，但可以经常提醒自己：一切事物都是无我的。不断强化这个观念，也会相当有帮助。比如生病了我们一般会说：“我不舒服！我很痛！我很惨！”这时候如果我们提醒自己：没有我，只是这个肉体的某些部分、某些功能出了问题，不舒服、疼痛也只是一时的感受，而感受随时在变化。仅仅是知道没有一个实存的我在生病、在受苦。然后把“一切事物都是无我的”这句话，记到笔记上，并且朗读
新能源汽车 BMS 学习笔记篇—BMS 基本定义及分类 WPG大大通其他笔记汽车 BMS 经验分享新能源电池
一、BMS定义1、概念：BMS（BatteryManagementSystem）即电池管理系统，其管理对象是二次电池（充电电池或蓄电池），其主要目的是电池的利用率，防止电池出现过度充电和过度放电，可应用于电动汽车、电瓶车、机器人、无人机等图片来源：腾讯网https://new.qq.com《标准普尔警告，电动汽车电池生产面临供应链和地缘政治风险》2、四大功能①感知和测量：检测电池的电压、电流、温度
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
LeetCode github集合，附CMU大神整理笔记 Wesley@ LeetCode github
GithubLeetCode集合本人所有做过的题目都写在一个java项目中，同步到github中了，算是见证自己的进步。github目前同步的题目是2020-09-17日之后写的题。之前写过的题会陆续跟新到github中。目前大概400个题目Github项目链接：https://github.com/sunliancheng/leetcode_github附上一份优秀的教材整合：这是卡内基梅隆(C
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f