目录
1 概述
2 使用TPOT
2.1 TPOT代码
2.2 评估函数
2.3 内置TPOT配置
2.4 定制TPOT的操作符和参数
2.5 NOTE
3 TPOT API
4 参考文献
首先,什么是自动化机器学习?
正如Sebastian Raschka描述的那样,假如说计算机程序是关于自动化的,那么机器学习可以看做是“关于自动化的自动化”。那么自动化机器学习就是关于自动化的自动化的自动化。程序通过管理重复的任务来减轻我们的压力;机器学习帮助计算机如何最好的处理这些重复的任务;自动化机器学习帮助计算机学习如何优化上面的结果。
这种思想很有用处,尽管我们之前会担心调超参数。自动化机器学习通过尝试一些列不同的方法,最终会采用最好的方式来调参,从而得到最优的结果。
TPOT是一种基于遗传算法优化机器学习管道(pipeline)的Python自动机器学习工具。简单来说,就是TPOT可以智能地探索数千个可能的pipeline,为数据集找到最好的pipeline,从而实现机器学习中最乏味的部分。
从下图中我们可以看到,TPOT可以自动地完成特征工作(特征选择,特征预处理,特征构建等),同时也可以进行模型的选择和参数的调优。
机器学习pipeline
更重要地是,一旦TPOT完成搜索,TPOT同时也提供了Python代码。通过这个代码,我们可以具体地知道TPOT获得最优性能时的具体pipeline的内容,这对于后续修改是十分方便的!
TPOT——pipeline
在官方文档的基础上,自己整理出了如下的内容。
TPOT的接口,与scikit-learn很类似。
TPOT可以像任何常规的Python模块一样导入:
from tpot import TPOTClassifier
然后创建一个TPOT实例如下:
pipeline_optimizer = TPOTClassifier()
当然,TPOTRegressor()也可以。
一些带有定制TPOT参数的示例代码可能如下:
pipeline_optimizer = TPOTClassifier(generations=5, population_size=20, cv=5, random_state=42, verbosity=2)
现在,可以利用fit函数来寻找最优的管道:
pipeline_optimizer.fit(X_train, y_train)
fit函数初始化了遗传算法,以找到基于平均k倍交叉验证的最高评分管道,然后对整个提供的样本进行训练,TPOT实例可以作为一个合适的模型使用。
然后,可以使用score函数来评估测试集中的最终管道:
print(pipeline_optimizer.score(X_test, y_test))
最后,可以把TPOT将相应的Python代码导出到文本文件中:
pipeline_optimizer.export('tpot_exported_pipeline.py')
下面是一个完整的示例脚本,使用TPOT优化管道,对其进行评分,并将最好的管道导出到文件中。
from tpot import TPOTClassifier
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
digits = load_digits()
X_train, X_test, y_train, y_test = train_test_split(digits.data, digits.target,
train_size=0.75, test_size=0.25)
pipeline_optimizer = TPOTClassifier(generations=5, population_size=20, cv=5,
random_state=42, verbosity=2)
pipeline_optimizer.fit(X_train, y_train)
print(pipeline_optimizer.score(X_test, y_test))
pipeline_optimizer.export('tpot_exported_pipeline.py')
TPOT允许自定义评分函数。具体例子可以参看Scoring Functions。
TPOT提供了一些默认的操作符和参数配置,它可以很好地优化机器学习管道。下面是TPOT当前内置配置的列表。它有4种:
除了TPOT所带来的默认配置之外,在某些情况下,限制TPOT所考虑的算法和参数是很有用的(用于减少寻优的时间等)。出于这个原因,TPOT允许用户为TPOT提供其操作符和参数的自定义配置。
自定义TPOT配置必须采用嵌套字典格式,举一个例子
from tpot import TPOTClassifier
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
digits = load_digits()
X_train, X_test, y_train, y_test = train_test_split(digits.data, digits.target,
train_size=0.75, test_size=0.25)
tpot_config = {
'sklearn.naive_bayes.GaussianNB': {
},
'sklearn.naive_bayes.BernoulliNB': {
'alpha': [1e-3, 1e-2, 1e-1, 1., 10., 100.],
'fit_prior': [True, False]
},
'sklearn.naive_bayes.MultinomialNB': {
'alpha': [1e-3, 1e-2, 1e-1, 1., 10., 100.],
'fit_prior': [True, False]
}
}
tpot = TPOTClassifier(generations=5, population_size=20, verbosity=2,
config_dict=tpot_config)
tpot.fit(X_train, y_train)
print(tpot.score(X_test, y_test))
tpot.export('tpot_mnist_pipeline.py')
这样,TPOT寻找最优的pipeline,就只会在tpot_config中寻找了,无疑大大减少了时间复杂度,当然,准确性能会下降。
搜索整个管道空间是特别耗时的。认识到原因是必要的,在默认的TPOT参数下(100 generations with 100 population size),TPOT将在完成前评估1万个管道配置。考虑一个网格搜索1万个超参数组合用于机器学习算法以及网格搜索需要多长时间。用10倍的交叉验证来评估这1万个模型,这意味着大约有10万个模型在一个网格搜索的训练数据中被匹配和评估。这是一个耗时的过程,即使对于像决策树这样的简单模型也是如此。
典型的TPOT运行将需要数小时到数天才能完成(除非是一个小数据集),但是可以中断运行,并看到目前为止最好的结果。TPOT还提供warm_start参数,可以从中断的地方重新启动之前运行的TPOT。
以TPOTRegressor为例,分类问题一样。
class tpot.TPOTRegressor(generations=100, population_size=100,
offspring_size=None, mutation_rate=0.9,
crossover_rate=0.1,
scoring='neg_mean_squared_error', cv=5,
subsample=1.0, n_jobs=1,
max_time_mins=None, max_eval_time_mins=5,
random_state=None, config_dict=None,
warm_start=False,
memory=None,
periodic_checkpoint_folder=None,
early_stop=None,
verbosity=0,
disable_update_check=False)
在默认情况下,TPOTRegressor将搜索广泛的监督的回归模型,包括预处理,特征选择,学习器和它们的超参数。当然,TPOTRegressor可以完全自己定制。
参数,属性和方法的详情可以参考如下。
下面列出主要的参数和方法:
参数:
一般来说,值越大,性能越好。
TPOT将评估population_size+generations×offspring_size的规模。
一般来说,值越大,性能越好。
'neg_median_absolute_error', 'neg_mean_absolute_error', 'neg_mean_squared_error', 'r2'
0,TPOT将不会打印任何东西,
1,将打印很少的信息,
2,TPOT将会打印更多的信息并提供一个进度条
3,TPOT将打印所有内容,并提供一个进度条
方法:
【1】TPOT官方文档
【2】TPOT github