python 特征工程的实现流程

1.特征的提取

    数据特征的提取可以利用(pandas,numpy)根据业务的需求与分析提出相关的特征,图像可以用 python的 pyradiomic 包提取所有特征值。pyradiomics包的github地址 https://github.com/Radiomics/pyradiomics。安装等信息大神介绍的很详细,这对于我们的小伙伴们应该是 so easy 的,值的注意的是 pyradiomics的包的版本是有大的差异的。

 

2.特征的选择

     特征的选择方法可以有:VarianceThreshold(threshold=xx) 过滤掉小于方差阀值xx的特征,SelectKBest(xx, k=xx)选择排名前k个的特征,SelectPercentile(xx,percentile=xx)  只保留指定百分比xx得分最高的特征 ......

    方法的相关参数解释请参照连接:https://blog.csdn.net/weixin_39777626/article/details/79936169

 

3.机器模型的选择

    参照数据与业务的实现选择不同的训练模型:离散型数据(预期的值是不连续的自然数)适用于分类,连续型数据适用于回归。

    模型的应用分为:分类,回归,聚类,降维

    相关文档参照:https://blog.csdn.net/u011630575/article/details/78637517

 

4.模型的对比

    sklearn 提供有对模型对比的方法:model_selection 中  cross_val_score (交叉验证),GridSearchCV(表格搜索)

 

5.数据的训练

    依靠强大的sklearn  数据的训练相对的简单。这时会涉及到数据的预处理 ,用sklearn 的 preprocessing 模块对数据进行标准化,归一化。对数据的分配有自己掌握(训练数据,测试数据)

 

6.模型的保存

    两种方式:sklearn.externals  的  joblib  与   pickle

 

7.预测(predict)

你可能感兴趣的:(python 特征工程的实现流程)