哈尔滨工业大学2022年数据挖掘期末考试

  1. 给出三种特征构造的方式(可以从数值型,类别型,时间序列和文本的角度出发)(6分)

  2. 线下评价(均方根误差,召回率,精确度,平均绝对误差),线上评价(转化成交率=成交的总笔数/进店顾客总数),假设你自己设计了一个电影推荐系统,请从以上任选两个评价指标(或者自己构造两个新的)来评价你的推荐系统(6分)

  3. 社会网络问题。(6分)
    哈尔滨工业大学2022年数据挖掘期末考试_第1张图片

  4. 处理不平衡数据问题(10分)
    1)不平衡数据会造成什么影响(从召回率和精确度的角度分析)?
    2)怎样解决不平衡数据问题?

  5. GBDT问题(6分)
    1)GBDT的特点是什么?
    2)GBDT的节点是怎么选取某个特征的某个值的?
    3)在一轮训练完成后,如何确定各个特征的重要程度?

  6. 当数据较多时,查询获取近邻信息(最近邻,K近邻)需要耗费很长时间。请设计一种方法加快近邻信息的获取(6分)

  7. 请自行设计一种自动调参的方法(10分)

  8. 自动化机器学习会在训练结束后展示很多模型,综合定量分析,请选取一个最佳的模型(10分)

你可能感兴趣的:(作业,数据挖掘)