xgb模型准确性很低的调优

  • 基于spark xgb 对于潜在新用户的弱特征进行建模,都是用关联的老用户的业务统计值、标签的统计值建模。
  • label_1 :历史邀请发生注册的用户,label_0:这些邀请的老用户关联的所有的潜在新用户,未发生注册。
  • 第一版的准确性只有55%。
  • 因为这些潜在新客,无法获取其自身的相关特征,只能根据一度关系获取特征,故无法从特征上继续着手。
  • 将label_1 为注册,改为发生业务1,准确性提升到65%;改为业务2,还维持在57%。
  • 将潜在新客的特征中,有一个特征关联了多少个老用户,做过滤。取uv_total > 3,作为负样本,发生业务1的作为负样本,同时在建模的时候,将uv_total去掉,避免因uv_total在正负样本中的差异,而影响模型效果。结果在业务1上模型准确性提升到72%,其他几个业务提升到70%。
    结论:
    弱模型在无法新增有效特征的时候,考虑将特征的覆盖度做优化。uv_total <4时,很多特征的覆盖就很少。
    问题:
    加上uv_total 对负样本进行过滤,会导致负样本的所有统计特征的值会普遍偏大,导致样本特征有偏,也会对模型效果带来影响!!!

你可能感兴趣的:(xgb模型准确性很低的调优)