# Datawhale 零基础入门数据挖掘-Task3 特征工程
**赛题:零基础入门数据挖掘 - 二手车交易价格预测**
地址:[https://tianchi.aliyun.com/competition/entrance/231784/introduction?spm=5176.12281957.1004.1.38b02448ausjSX](https://tianchi.aliyun.com/competition/entrance/231784/introduction?spm=5176.12281957.1004.1.38b02448ausjSX)
sklearn官网:
https://scikit-learn.org/stable/index.html
sklearn.preprocessing:数据预处理
sklearn.Impute:填补缺失值
sklearn.feature_selection:特征选择
sklearn.decomposition:降维算法
sklearn.preprocessing.MinMaxScaler 数据归一化
公式:
sklearn.preprocessing.StandardScaler 数据标准化
公式:
sklearn. impute.SimpleImputer 填补缺失值。
sklearn.preprocessing.LabelEncoder 将分类标签转换为分类数值
sklearn.preprocessing.OrdinalEncoder将分类特征转换为分类数值
sklearn.preprocessing.OneHotEncoder 独热编码,创建哑变量
sklearn.preprocessing.LabelBinarizer 标签做哑变量
sklearn.preprocessing.Binarizer 根据阈值将数据二值化(将特征值设置为0或1)
sklearn.preprocessing.KBinsDiscretizer 将连续变量划分为分类变量的类,将连续型变量排序后按顺序分箱编码
sklearn.feature_selection.VarianceThreshold 舍弃所有方差小于参数threshold的特征,不填默认为0,即删除所有记录相同的特征。
sklearn.feature_selection.chi2 计算每个特征和标签之间的卡方统计量,并按高到低排名
sklearn.feature_selection.f_classif F检验分类,用于标签是离散型变量的数据
sklearn.feature_selection.f_regression F检验回归,用于标签是连续型变量的数据
sklearn.feature_selection.mutual_info_classif 互信息分类
sklearn.feature_selection.mutual_info_regression 互信息回归
sklearn.feature_selection.SelectFromModel
class sklearn.feature_selection.SelectFromModel (estimator, threshold=None, prefit=False, norm_order=1,max_features=None)
sklearn.feature_selection.RFE
class sklearn.feature_selection.RFE (estimator, n_features_to_select=None, step=1, verbose=0)
sklearn.decomposition.PCA 主成分分析(PCA)
sklearn.decomposition.IncrementalPCA 增量主成分分析(IPCA)
sklearn.decomposition.KernelPCA 核主成分分析(KPCA)
sklearn.decomposition.MiniBatchSparsePCA 小批量稀疏主成分分析
sklearn.decomposition.SparsePCA 稀疏主成分分析(SparsePCA)
sklearn.decomposition.TruncatedSVD 截断的SVD (aka LSA)
sklearn.decomposition.FactorAnalysis 因子分析(FA)
sklearn.decomposition.FastlCA 独立成分分析的快速算法
sklearn.decomposition.DictionaryLearning 字典学习
sklearn.decomposition.NiniBatchDictionaryLearning 小批量字典学习
sklearn.decomposition.dict_learning 字典学习用于矩阵分解
sklearn.decomposition.dict_learning_online 在线字典学习用于矩阵分解
sklearn.decomposition.LatentDirichletAllocation 具有在线变分贝叶斯算法的隐含狄利克雷分布
sklearn.decomposition.NMF 非负矩阵分解(NMF)
sklearn.decomposition.SparseCoder 稀疏编码