瓶颈分析 -- 从样本到训练流程优化

训练模型优化方案:

时间瓶颈分析:

流程
相同打分-》抽样-》离散化 -》样本转labeledPoint -》lr train --》特征有效性分析

场景:
每人目录下有多个模型,只有 正则化参数不同

当前方案:
参数不同,重跑 整个流程 相同打分-》抽样-》离散化 -》样本转labeledPoint -》lr train --》特征有效性分析

优化方案:
只是模型训练的参数不同,可以在模型中添加initweight,整个流程:耗时144分钟,优化后,只需要6分钟,只需4%的时间,即时间效率提升24倍。

瓶颈分析 -- 从样本到训练流程优化_第1张图片
Paste_Image.png

空间瓶颈分析:

流程:相同打分-》抽样-》离散化 -》样本转labeledPoint -》lr train --》特征有效性分析

场景:每人目录下有多个模型,只有 正则化参数不同

优化方案:打分、抽样、离散化、样本转labeledPoint 这些数据都可以共用。仅仅参数不同,只需要1/10的空间。即空间效率提升10倍。

瓶颈分析 -- 从样本到训练流程优化_第2张图片
Paste_Image.png

评估:

“参数不同”的场景占比多少?假如占比为ratio,则优化后为 空间消耗总量* ratio*0.1

举例:

我的空间消耗15T ,“参数不同”的场景占1/3,即 此场景为5T,优化后,只需要0.5T,即500G。节省30%左右。

你可能感兴趣的:(瓶颈分析 -- 从样本到训练流程优化)