sklearn

文章目录

  • 来源
  • 数据预处理
  • 模型
      • 交叉验证迭代器
        • 分类
      • 超参数
  • 模型的评估
        • 分类模型
        • 回归模型
        • 聚类模型
        • 直观化

来源

数据预处理

preprocessing
train_test_split
MinMaxScaler->[0,1]
MaxAbsScaler->[-1,1]
含极端值的处理Rebust…
非线性转换:OneHotEncoder
缺失值插补:SimpleImputer
标记缺失值:MissingIndicator

模型

random_state
机器学习

  • 监督学习
    • 分类
      预测值y为有限的标签值集合
      • 支持向量机
        sklearn.svm.SVC()
      • K-近邻
        sklearn.neighbors.KNeighborsClassifier()
      • 决策树
        sklearn.tree.DecisionTreeClassifier()
    • 回归
      预测值y是一个连续的目标变量
      • 简单回归分析
        sklearn.linear_model.LinearRegression()
      • 带惩罚项的回归模型
        • Lasso
          sklearn.linear_model.Lasso
        • Ridge
          sklearn.linear_model.Ridge
  • 非监督学习
    • K-均值聚类
      sklearn.cluster.KMeans()
    • 分层聚类
      sklearn.SpectralClustering()
  • 降维技术
    • 主成分分析
      sklearn.decomposition.PCA()

交叉验证迭代器

cross_val_score
cross_validate

分类

  • KFold
  • StratifiedKFold
  • ShuffleSplit

超参数

  • GridSearchCV

  • RandomizedSearchCV

模型的评估

分类模型

  • ROC
    roc_curve
    roc_aur_score

回归模型

metrices模块

  • explain_variance_score
  • f2_score
  • mean_squared_error

聚类模型

  • sihouette coefficient
    轮廓系数

直观化

  • 验证曲线
    从而发现是否过拟合
  • 学习曲线
    模型从数据中学习的进步

你可能感兴趣的:(python,sklearn,机器学习,python)