零基础入门推荐系统 Task01:赛题理解+Baseline(3天)

学习文档:https://github.com/datawhalechina/team-learning-rs/blob/master/RecommandNews/%E8%B5%9B%E9%A2%98%E7%90%86%E8%A7%A3%2BBaseline.ipynb

跟着跑了一下baseline,记录一下遇到的不熟的函数和问题:

  • drop_duplicates :去除重复数据
drop_duplicates((['user_id', 'click_article_id', 'click_timestamp']))
  • reset_index():重置索引
DataFrame.reset_index(level=None, drop=False, inplace=False, col_level=0, col_fill='')
  • defaultdict(int)
    defaultdict类返回一个类似于的字典对象,第一个参数给default_factory属性赋值,其它的参数都传递给dict构造器。通俗来说就是defaultdict类的初始化函数接收一个类型作为参数,当访问的键不存在,实例化一个值作为默认值。(https://blog.csdn.net/Alen_1996/article/details/87916039)如果是int,当key不存在时,对应0(https://www.jianshu.com/p/bbd258f99fd3)

有关itemCF部分补充这里的文档进行学习:https://github.com/datawhalechina/team-learning-rs/blob/master/RecommendationSystemFundamentals/02%20%E5%8D%8F%E5%90%8C%E8%BF%87%E6%BB%A4.md

需要后续再查的问题:逆用户频率(IUF, Inverse User Frequence)

你可能感兴趣的:(零基础入门推荐系统 Task01:赛题理解+Baseline(3天))