机器学习/深度学习实战——十行代码预测kaggle房价(automl)

文章目录

    • 1. 下载和安装autogluon
    • 2. 训练模型
    • 3. 预测并保存结果
    • 4. 既然automl已经这么强大了,为什么还需要做数据分析和深度建模呢?

沐神提供在动手学深度学习课程中提供的代码,我在本地进行了复现,这里整理一下。关于数据分析、预处理、用传统机器学习方法进行网络训练可以参考我之前的几篇博客。

数据分析

数据预处理

应用机器学习回归分析算法进行建模和预测

这里说明一下:使用autogluon等自动建模的方法进行自动特征提取、应用多分类器训练数据、优化模型得到的结果是比较好的。但是我自己对数据进行整理和分析得到的结果会更好。也说明了在使用automl方法的同时加上一些数据预处理操作会让结果变得更好。

使用autogluon方法得到的结果在kaggle上的排名接近5000名。

1. 下载和安装autogluon

# 创建并激活python3.8的环境
conda create -y --force -n ag python=3.8 pip
conda activate ag

# 安装autogluon
pip install "mxnet<2.0.0"
pip install autogluon

2. 训练模型

from autogluon.tabular import TabularDataset,TabularPredictor

# 训练
train_data = TabularDataset('./data/California house price/house-prices-advanced-regression-techniques/train.csv')

id,label = 'Id','SalePrice'
predictor = TabularPredictor(label=label).fit(train_data.drop(columns=[id]))

3. 预测并保存结果

# 预测
import pandas as pd

test_data = TabularDataset('./data/California house price/house-prices-advanced-regression-techniques/test.csv')
preds = predictor.predict(test_data.drop(columns=[id]))
submission = pd.DataFrame({id:test_data[id],label:preds})
submission.to_csv('./kaggle_submission/submission_4.csv',index=False)

end- - - 训练模型五行代码、测试并保存结果五行代码。

4. 既然automl已经这么强大了,为什么还需要做数据分析和深度建模呢?

  • 请不要忽略,做AI/ml/dl的人大部分时间其实都是花费在了数据处理工作上,包括数据收集、数据分析、数据清洗、数据重构、数据预处理等等工作,而剩下的小部分工作才是模型调优。所以不管如何,对数据的处理都是至关重要的。
  • Automl当前还只能处理一些基础的情况(节省模型调优的时间)

最后再总结一些automl的文章吧:

What is automated machine learning (AutoML)?

IBM: Learn how AutoML can help you build repeatable and explainable AI solutions.

关于AutoML,你想知道的都在这里!

Taking Human out of Learning Applications: A Survey on Automated Machine Learning
大佬笔记:
分享一篇比较全面的AutoML综述

7 个 AutoML 库:应对机器学习的下一波浪潮

你可能感兴趣的:(动手学深度学习:pytorch,房价预测,automl,autogluon,自动训练模型,深度学习)