Pandas —— 唯一值unique( ),计数值value_counts( )及成员资格isin( )
首先将数据变成DataFrame的形式
a = pd.DataFrame(traindata)
a['age'].value_counts()
a['age'].unique()
a['age'].isin([20,21,22])
#去重
python中的pandas模块中对重复数据去重步骤:
1)利用DataFrame中的duplicated方法返回一个布尔型的Series,显示各行是否有重复行,没有重复行显示为FALSE,有重复行显示为TRUE;
2)再利用DataFrame中的drop_duplicates方法用于返回一个移除了重复行的DataFrame。
print df.duplicated().value_counts()
df.drop_duplicates()
#Seaborn画图
其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn就能做出很具有吸引力的图,而使用matplotlib就能制作具有更多特色的图。应该把Seaborn视为matplotlib的补充,而不是替代物。
import matplotlib.pyplot as plt
import seaborn as sns #要注意的是一旦导入了seaborn,matplotlib的默认作图风格就会被覆盖成seaborn的格式
%matplotlib inline # 为了在jupyter notebook里作图,需要用到这个命令
sns.distplot(df['age'])
#loc pandas.loc 选取指定列进行操作
1.loc意义:通过行标签索引行数据
例: loc[n]表示索引的是第n行(index 是整数)
loc[‘d’]表示索引的是第’d’行(index 是字符)
2. .iloc :通过行号获取行数据,不能是字符
3. ix——结合前两种的混合索引
三者区别:
ix / loc 可以通过行号和行标签进行索引,比如 df.loc['a'] , df.loc[1], df.ix['a'] , df.ix[1]
而iloc只能通过行号索引 , df.iloc[0] 是对的, 而df.iloc['a'] 是错误的
建议:
当用行号索引的时候, 尽量用 iloc 来进行索引; 而用标签索引的时候用 loc , ix 尽量别用。
#空数据的填充
traindata.isnull().sum() 看是否有缺失值
traindata.age = traindata.age.fillna(traindata.age.mean()) 用均值填补缺失值
缺失值填充方法汇总
pandas判断缺失值一般采用 isnull(),然而生成所有数据的true、false矩阵,对于庞大的数据很难一眼看出缺失数据的位置。
缺失值查看
测试数据采用了随机生成。
>>> import pandas as pd
>>> import numpy as np
>>> df = pd.DataFrame(np.random.randn(10,6))
>>> #生成区域随机数
>>> df.iloc[1:3,1] = np.nan
>>> df.iloc[5,3] = np.nan
>>> df.iloc[7:9,5] = np.nan
>>> df
0 1 2 3 4 5
0 -0.524651 -0.306484 0.921319 -1.752106 -0.593152 -0.109011
1 0.350563 NaN -0.511227 -0.893392 -0.362926 -0.567714
2 -0.696586 NaN -0.387368 0.431769 0.015262 -1.002748
3 0.029329 0.645159 0.880687 0.002313 0.000143 0.410978
4 1.086453 -0.183210 0.465487 0.204141 -0.827070 -0.227329
5 0.449833 0.870347 -0.285700 NaN -0.116068 -0.061469
6 0.054838 -0.000641 -2.127298 -0.375447 0.463457 0.263546
7 2.932326 -2.227659 -0.559444 0.080580 1.731467 NaN
8 1.417988 0.083318 -0.041332 1.350390 -1.236223 NaN
9 -1.549584 0.156260 0.846521 -0.087683 -0.171236 0.334471
isnull()
>>> #判断是否存在缺失值(矩阵中True表示此位置为缺失值、False表示非缺失值)
>>> df.isnull()
0 1 2 3 4 5
0 False False False False False False
1 False True False False False False
2 False True False False False False
3 False False False False False False
4 False False False False False False
5 False False False True False False
6 False False False False False False
7 False False False False False True
8 False False False False False True
9 False False False False False False
isnull().any()
>>> df.isnull().any()
0 False
1 True
2 False
3 True
4 False
5 True
dtype: bool
由此可以看出,第1、3、5列存在缺失值
>>> df[df.isnull().values==True]
0 1 2 3 4 5
1 0.350563 NaN -0.511227 -0.893392 -0.362926 -0.567714
2 -0.696586 NaN -0.387368 0.431769 0.015262 -1.002748
5 0.449833 0.870347 -0.285700 NaN -0.116068 -0.061469
7 2.932326 -2.227659 -0.559444 0.080580 1.731467 NaN
8 1.417988 0.083318 -0.041332 1.350390 -1.236223 NaN
只显示存在缺失值的行列,清楚的确定缺失值的位置。
缺失数据处理
对于缺失数据一般处理方法为滤掉或者填充.
dropna()
>>> df.dropna()
0 1 2 3 4 5
0 -0.524651 -0.306484 0.921319 -1.752106 -0.593152 -0.109011
3 0.029329 0.645159 0.880687 0.002313 0.000143 0.410978
4 1.086453 -0.183210 0.465487 0.204141 -0.827070 -0.227329
6 0.054838 -0.000641 -2.127298 -0.375447 0.463457 0.263546
9 -1.549584 0.156260 0.846521 -0.087683 -0.171236 0.334471
以上只显示了非缺失数据。
当只选择行里的数据全部为空时才丢弃时,可向dropna()传入参数how='all',如果想以同样的方式按列丢弃,可以传入axis=1;
fillna()
如果不想丢掉缺失的数据而是想用默认值填充这些缺失值,可以使用
fillna()
函数,如果不想只以某个标量填充,可以传入一个字典如(fillna({})
),对不同的列填充不同的值,
# 定义工资改变特征缺失值处理函数,将有变化设为Yes,缺失设为No
def set_salary_change(df):
df.loc[(df.salary_change.notnull()), 'salary_change'] = 'Yes'
df.loc[(df.salary_change.isnull(df)), 'salary_change'] = 'No'
print df
pd.df()print df
return df
data_train = set_salary_change(df)
把NaN直接作为一个特征,假设用0表示,实现如下:
df.fillna(0)
用均值填充
# 将所有行用各自的均值填充
data_train.fillna(data_train.mean())
# 也可以指定某些行进行填充
data_train.fillna(data_train.mean()['browse_his', 'card_num'])
用上下数据进行填充
# 用前一个数据代替NaN:method='pad'
data_train.fillna(method='pad')
# 与pad相反,bfill表示用后一个数据代替NaN
data_train.fillna(method='bfill')
用插值法填充
# 插值法就是通过两点(x0,y0),(x1,y1)估计中间点的值
data_train.interpolate()
用算法拟合进行填充
# 定义browse_his缺失值预测填充函数
def set_missing_browse_his(df):
# 把已有的数值型特征取出来输入到RandomForestRegressor中
process_df = df[['browse_his', 'gender', 'job', 'edu', 'marriage', 'family_type']]
# 乘客分成已知该特征和未知该特征两部分
known = process_df[process_df.browse_his.notnull()].as_matrix()
unknown = process_df[process_df.browse_his.isnull()].as_matrix()
# X为特征属性值
X = known[:, 1:]
# y为结果标签值
y = known[:, 0]
# fit到RandomForestRegressor之中
rfr = RandomForestRegressor(random_state=0, n_estimators=2000, n_jobs=-1)
rfr.fit(X,y)
# 用得到的模型进行未知特征值预测
predicted = rfr.predict(unknown[:, 1::])
# 用得到的预测结果填补原缺失数据
df.loc[(df.browse_his.isnull()), 'browse_his'] = predicted
return df, rfr
data_train, rfr = set_missing_browse_his(data_train)
当然,针对我们这里的数据,我们对那些缺失值不是很大的特征都采用方式5来填补其缺失值。即使用随机森林算法,利用数据表中某些没有缺失的特征属性来预测某特征属性的缺失值。将填补后的数据表保存。
异常值的识别与处理
1. 单变量数据中检测异常点的方法:
(有效样本击穿点的定义是一个比例值,对超过这个比例值的的样本进行替换,评估方法将无法进行准确描述,有限样本击穿点越大,代表评估方法越robust。)
#标准差上下三倍绝对中位差之间属于正常点
import numpy as np
median = np.median(total_data)
b = 1.4826 #这个值应该是看需求加的,有点类似加大波动范围之类的
mad = b * np.median(np.abs(total_data-median))
lower_limit = median - (3*mad)
upper_limit = median + (3*mad)
#平均值上下三倍标准差之间属于正常点
std = np.std(total_data)
mean = np.mean(total_data)
b = 3
lower_limit = mean-b*std
upper_limit = mean+b*std
2. 多变量数据检测异常值方法:
LOF:Local Outlier Factor 局部异常因子,这种算法从K最近邻启发而来。
这里不重复造轮子了,详情看下列博客链接:
https://blog.csdn.net/wangyibo0201/article/details/51705966 异常点/离群点检测算法——LOF
http://blog.sina.com.cn/s/blog_ab089a840102ylin.html 三种基本的聚类算法以及基于LOF的异常点确定
删除数据
当要删除的数据可数时
traindata.drop([1,2,3,4],inplace=True)
drop函数的使用
(1)drop函数的使用:删除行、删除列
print frame.drop(['a'])
print frame.drop(['Ohio'], axis = 1)
drop函数默认删除行,列需要加axis = 1
(2)drop函数的使用:inplace参数
采用drop方法,有下面三种等价的表达式:
1. DF= DF.drop('column_name', axis=1);
2. DF.drop('column_name',axis=1, inplace=True)
3. DF.drop([DF.columns[[0,1, 3]]], axis=1, inplace=True) # Note: zero indexed
注意:凡是会对原数组作出修改并返回一个新数组的,往往都有一个 inplace可选参数。如果手动设定为True(默认为False),那么原数组直接就被替换。也就是说,采用inplace=True之后,原数组名(如2和3情况所示)对应的内存值直接改变;
而采用inplace=False之后,原数组名对应的内存值并不改变,需要将新的结果赋给一个新的数组或者覆盖原数组的内存位置(如1情况所示)。
(3)drop函数的使用:数据类型转换
df['Name'] = df['Name'].astype(np.datetime64)
DataFrame.astype() 方法可对整个DataFrame或某一列进行数据格式转换,支持Python和NumPy的数据类型。
logistic回归
在 LogisticRegression
类中实现了这些优化算法: “liblinear”, “newton-cg”, “lbfgs”, “sag” 和 “saga”。
“liblinear” 应用了坐标下降算法(Coordinate Descent, CD),并基于 scikit-learn 内附的高性能 C++ 库 LIBLINEAR library 实现。不过 CD 算法训练的模型不是真正意义上的多分类模型,而是基于 “one-vs-rest” 思想分解了这个优化问题,为每个类别都训练了一个二元分类器。因为实现在底层使用该求解器的 LogisticRegression
实例对象表面上看是一个多元分类器。 sklearn.svm.l1_min_c
可以计算使用 L1 罚项时 C 的下界,以避免模型为空(即全部特征分量的权重为零)。
“lbfgs”, “sag” 和 “newton-cg” solvers (求解器)只支持 L2 惩罚项,对某些高维数据收敛更快。这些求解器的参数 `multi_class`设为 “multinomial” 即可训练一个真正的多项式 logistic 回归 [5] ,其预测的概率比默认的 “one-vs-rest” 设定更为准确。
“sag” 求解器基于平均随机梯度下降算法(Stochastic Average Gradient descent) [6]。在大数据集上的表现更快,大数据集指样本量大且特征数多。
“saga” 求解器 [7] 是 “sag” 的一类变体,它支持非平滑(non-smooth)的 L1 正则选项 penalty="l1"
。因此对于稀疏多项式 logistic 回归 ,往往选用该求解器。
一言以蔽之,选用求解器可遵循如下规则:
Case | Solver |
---|---|
L1正则 | “liblinear” or “saga” |
多项式损失(multinomial loss) | “lbfgs”, “sag”, “saga” or “newton-cg” |
大数据集(n_samples) | “sag” or “saga” |
“saga” 一般都是最佳的选择,但出于一些历史遗留原因默认的是 “liblinear” 。
对于大数据集,还可以用 SGDClassifier
,并使用对数损失(’log’ loss)
参数说明如下:
penalty:惩罚项,str类型,可选参数为l1和l2,默认为l2。用于指定惩罚项中使用的规范。newton-cg、sag和lbfgs求解算法只支持L2规范。L1G规范假设的是模型的参数满足拉普拉斯分布,L2假设的模型参数满足高斯分布,所谓的范式就是加上对参数的约束,使得模型更不会过拟合(overfit),但是如果要说是不是加了约束就会好,这个没有人能回答,只能说,加约束的情况下,理论上应该可以获得泛化能力更强的结果。
dual:对偶或原始方法,bool类型,默认为False。对偶方法只用在求解线性多核(liblinear)的L2惩罚项上。当样本数量>样本特征的时候,dual通常设置为False。
tol:停止求解的标准,float类型,默认为1e-4。就是求解到多少的时候,停止,认为已经求出最优解。
c:正则化系数λ的倒数,float类型,默认为1.0。必须是正浮点型数。像SVM一样,越小的数值表示越强的正则化。
fit_intercept:是否存在截距或偏差,bool类型,默认为True。
intercept_scaling:仅在正则化项为”liblinear”,且fit_intercept设置为True时有用。float类型,默认为1。
class_weight:用于标示分类模型中各种类型的权重,可以是一个字典或者’balanced’字符串,默认为不输入,也就是不考虑权重,即为None。如果选择输入的话,可以选择balanced让类库自己计算类型权重,或者自己输入各个类型的权重。举个例子,比如对于0,1的二元模型,我们可以定义class_weight={0:0.9,1:0.1},这样类型0的权重为90%,而类型1的权重为10%。如果class_weight选择balanced,那么类库会根据训练样本量来计算权重。某种类型样本量越多,则权重越低,样本量越少,则权重越高。当class_weight为balanced时,类权重计算方法如下:n_samples / (n_classes * np.bincount(y))。n_samples为样本数,n_classes为类别数量,np.bincount(y)会输出每个类的样本数,例如y=[1,0,0,1,1],则np.bincount(y)=[2,3]。
那么class_weight有什么作用呢?
在分类模型中,我们经常会遇到两类问题:
第一种是误分类的代价很高。比如对合法用户和非法用户进行分类,将非法用户分类为合法用户的代价很高,我们宁愿将合法用户分类为非法用户,这时可以人工再甄别,但是却不愿将非法用户分类为合法用户。这时,我们可以适当提高非法用户的权重。
第二种是样本是高度失衡的,比如我们有合法用户和非法用户的二元样本数据10000条,里面合法用户有9995条,非法用户只有5条,如果我们不考虑权重,则我们可以将所有的测试集都预测为合法用户,这样预测准确率理论上有99.95%,但是却没有任何意义。这时,我们可以选择balanced,让类库自动提高非法用户样本的权重。提高了某种分类的权重,相比不考虑权重,会有更多的样本分类划分到高权重的类别,从而可以解决上面两类问题。
random_state:随机数种子,int类型,可选参数,默认为无,仅在正则化优化算法为sag,liblinear时有用。
solver:优化算法选择参数,只有五个可选参数,即newton-cg,lbfgs,liblinear,sag,saga。默认为liblinear。solver参数决定了我们对逻辑回归损失函数的优化方法,有四种算法可以选择,分别是:
liblinear:使用了开源的liblinear库实现,内部使用了坐标轴下降法来迭代优化损失函数。
lbfgs:拟牛顿法的一种,利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。
newton-cg:也是牛顿法家族的一种,利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。
sag:即随机平均梯度下降,是梯度下降法的变种,和普通梯度下降法的区别是每次迭代仅仅用一部分的样本来计算梯度,适合于样本数据多的时候。
saga:线性收敛的随机优化算法的的变重。
总结:
liblinear适用于小数据集,而sag和saga适用于大数据集因为速度更快。
对于多分类问题,只有newton-cg,sag,saga和lbfgs能够处理多项损失,而liblinear受限于一对剩余(OvR)。啥意思,就是用liblinear的时候,如果是多分类问题,得先把一种类别作为一个类别,剩余的所有类别作为另外一个类别。一次类推,遍历所有类别,进行分类。
newton-cg,sag和lbfgs这三种优化算法时都需要损失函数的一阶或者二阶连续导数,因此不能用于没有连续导数的L1正则化,只能用于L2正则化。而liblinear和saga通吃L1正则化和L2正则化。
同时,sag每次仅仅使用了部分样本进行梯度迭代,所以当样本量少的时候不要选择它,而如果样本量非常大,比如大于10万,sag是第一选择。但是sag不能用于L1正则化,所以当你有大量的样本,又需要L1正则化的话就要自己做取舍了。要么通过对样本采样来降低样本量,要么回到L2正则化。
从上面的描述,大家可能觉得,既然newton-cg, lbfgs和sag这么多限制,如果不是大样本,我们选择liblinear不就行了嘛!错,因为liblinear也有自己的弱点!我们知道,逻辑回归有二元逻辑回归和多元逻辑回归。对于多元逻辑回归常见的有one-vs-rest(OvR)和many-vs-many(MvM)两种。而MvM一般比OvR分类相对准确一些。郁闷的是liblinear只支持OvR,不支持MvM,这样如果我们需要相对精确的多元逻辑回归时,就不能选择liblinear了。也意味着如果我们需要相对精确的多元逻辑回归不能使用L1正则化了。
max_iter:算法收敛最大迭代次数,int类型,默认为10。仅在正则化优化算法为newton-cg, sag和lbfgs才有用,算法收敛的最大迭代次数。
multi_class:分类方式选择参数,str类型,可选参数为ovr和multinomial,默认为ovr。ovr即前面提到的one-vs-rest(OvR),而multinomial即前面提到的many-vs-many(MvM)。如果是二元逻辑回归,ovr和multinomial并没有任何区别,区别主要在多元逻辑回归上。
OvR和MvM有什么不同*?*
OvR的思想很简单,无论你是多少元逻辑回归,我们都可以看做二元逻辑回归。具体做法是,对于第K类的分类决策,我们把所有第K类的样本作为正例,除了第K类样本以外的所有样本都作为负例,然后在上面做二元逻辑回归,得到第K类的分类模型。其他类的分类模型获得以此类推。
而MvM则相对复杂,这里举MvM的特例one-vs-one(OvO)作讲解。如果模型有T类,我们每次在所有的T类样本里面选择两类样本出来,不妨记为T1类和T2类,把所有的输出为T1和T2的样本放在一起,把T1作为正例,T2作为负例,进行二元逻辑回归,得到模型参数。我们一共需要T(T-1)/2次分类。
可以看出OvR相对简单,但分类效果相对略差(这里指大多数样本分布情况,某些样本分布下OvR可能更好)。而MvM分类相对精确,但是分类速度没有OvR快。如果选择了ovr,则4种损失函数的优化方法liblinear,newton-cg,lbfgs和sag都可以选择。但是如果选择了multinomial,则只能选择newton-cg, lbfgs和sag了。
verbose:日志冗长度,int类型。默认为0。就是不输出训练过程,1的时候偶尔输出结果,大于1,对于每个子模型都输出。
warm_start:热启动参数,bool类型。默认为False。如果为True,则下一次训练是以追加树的形式进行(重新使用上一次的调用作为初始化)。
n_jobs:并行数。int类型,默认为1。1的时候,用CPU的一个内核运行程序,2的时候,用CPU的2个内核运行程序。为-1的时候,用所有CPU的内核运行程序。
总结:
优点:实现简单,易于理解和实现;计算代价不高,速度很快,存储资源低。
缺点:容易欠拟合,分类精度可能不高。
其他:
Logistic回归的目的是寻找一个非线性函数Sigmoid的最佳拟合参数,求解过程可以由最优化算法完成。
改进的一些最优化算法,比如sag。它可以在新数据到来时就完成参数更新,而不需要重新读取整个数据集来进行批量处理。
机器学习的一个重要问题就是如何处理缺失数据。这个问题没有标准答案,取决于实际应用中的需求。现有一些解决方案,每种方案都各有优缺点。
我们需要根据数据的情况,这是Sklearn的参数,以期达到更好的分类效果。
ROC,AUC
3.sklearn中计算AUC值的方法
from sklearn.metrics import roc_auc_score
auc_score = roc_auc_score(y_test,y_pred)