关于AutoML系统的思考

不说NAS和AutoDL(我认为CV和NLP中的常规任务完全是可以Auto的),对表单数据,一个AutoML系统真的很难真正Auto,我自己感觉有下面几点的问题。

  • 看了一些比赛的数据集,发现很多真实的业务是非常复杂的,建模方式没有那么直接,比如19年魔镜杯,预测用户每个月的还款日期和金额,需要思考一下怎么建模,好像一般是做成当成多分类来做。

  • 不能单纯的分成回归和分类问题。比如在预测性维护中,可能是对一个时间序列做分类。时间序列和非时间序列处理起来是差很多的,需要分成两部分来做。还有的数据集,包含时间序列的表和非时间序列的表,这样就更复杂。

  • 评价指标的确定。 常用的就那几种,AUC, F1, RMSE, MAP等, 但还有很多是不太常见的,我看到了比如CSPR, MCC, 可决系数(coefficient of determination)。

  • 空间数据。 个人认为,常规的特征工程,很难挖到空间方面的信息。比如可能需要对一些坐标做geohash,做graph embedding。如果是时空数据挖掘,就更复杂了。

  • 特定领域的数据。比如通信领域的数据可能包含IMEI,在预处理阶段,这一列数据需要靠人的知识去判断是否要解析出来,是否解析影响可能会非常大。多列之间的相互关系,也不太能auto,不是多列组合后的统计特征,而是说一个样本内,某几列的相互关系,比如某几列在一个样本内取rank。 除非做特征工程时,哪几类数据是相关的。

  • 有些训练集没有显式的label,不能随机划分验证集的一些训练集。比如给定用户的历史交易数据,预测用户未来一段时间内的购买次数。

你可能感兴趣的:(ML)