2019-02-24

本周主要在做项目Project: Finding Donors for CharityML

一个完整的数据分析项目包括数据清洗,探索和分析,但是由于主要侧重点在于机器学习sklearn方法的掌握,所以只关注在选择algorithm,还有预测,并且对模型的好坏进行评估方面。这里不会贴出完整的项目代码。课程完结之后会上传到github上。

1、对于高度倾斜的特征分布,使用对数变换明显减少了异常值引起的值的范围。


2、标准化数值特征sklearn.preprocessing.MinMaxScaler

3、将数据集拆分成训练集和测试集from sklearn.model_selection import train_test_split

4、评估模型性能=(1+2)⋅⋅ / (2⋅)+

5、选用最优模型参数from sklearn.model_selection import GridSearchCV

你可能感兴趣的:(2019-02-24)