推荐和搜索是近年来信息分发的重要方式,小红书UGC社区让人印象深刻,其推荐系统有何特别之处?学界对搜推系统召回阶段有哪些主要进展和主流方法?面对大语言模型的兴起,推荐和搜索的发展有哪些机遇和挑战?
为联结计算技术领域企业技术高管和专家学者,探讨技术发展趋势,由 CCF CTO Club 发起的 CCF C³ 活动在 3 月 30 日走进小红书,多位来自行业的专家和学者以 “智能推荐与搜索”为主题,与现场 40 余位嘉宾深入探讨交流。同时,活动全程在“中国计算机学会”、“小红书技术REDtech”、“机器之心”、”量子位“等多平台同步直播,共吸引 16000+ 人在线观看,直播数据创 CCF C³ 活动历史新高。
CCF 副秘书长、企工委主任、亿邦动力 CEO- 王超 主持活动
活动现场由 CCF 副秘书长、企工委主任、亿邦动力 CEO 王超主持。CCF 副理事长、创新工场首席科学家、澜舟科技创始人兼 CEO 周明,小红书技术副总裁风笛分别致辞,周明代表 CCF 为活动承办方小红书颁发 CCF C³ 活动承办单位感谢牌。本活动邀请风笛和武汉大学国家网络安全学院教授李晨亮,就《小红书推荐系统的技术创新与实践》和《搜推系统召回阶段的前沿进展》作主题报告分享。在圆桌论坛《智能推荐未来的展望》中,风笛作为主持人,与中国人民大学杰出学者特聘教授、北京智源人工智能研究院智源学者徐君,天津大学副教授、华为诺亚方舟决策推理实验室主任郝建业,中国科学院计算技术研究所副研究员敖翔,汇量科技首席人工智能官朱小强 ,小红书社区技术负责人夏侯共同对话,分享真知灼见,探讨推荐和搜索的未来。
CCF 副理事长、创新工场首席科学家澜舟科技创始人兼 CEO- 周明 致辞
作为当下发展迅速的移动互联网平台,小红书正成为跨代际人群的生活百科全书。社区每天都会产生大量图文、视频、评论互动等信息,这些多模态数据让小红书App成为推荐、搜索的最佳实践场所,同时也提出不小的技术挑战。风笛在分享《小红书推荐系统的技术创新与实践》主题报告时,先从企业整体视角出发,解读小红书推荐系统背后的核心理念,再详细阐述技术难题和应对策略。
小红书技术副总裁- 风笛
风笛介绍小红书业务时表示,小红书的主要目标用户经过不同的业务发展阶段已经从最初的“高消费能力的女性群体”向外泛化,希望服务更广泛的人群。近三年,小红书用户数量增长迅速,截至去年底,月活用户超过2.6亿、月度活跃创作者超过2000万。目前,小红书的定位是一个普通人帮助普通人的内容分享社区,聚集多元生活方式,核心理念是“Inspire Lives 分享和发现世界的精彩“。作为一个内容丰富的UGC社区,小红书鼓励每个用户发布的内容都能被全世界看到,这就意味着它的推荐系统不同于业界的常规做法,更注重平权分发而非仅仅追求效率。这需要一个更加去中心化的流量分发机制,对算法模型是不小的挑战。
结合小红书业务特点,风笛详细阐述了推荐系统的四点主要挑战:多模异构内容推荐、去中心化分发、兴趣多样性和人群破圈,以及成本控制算力优化。小红书人的工作方式是“走进用户”,重视用户体验的态度也融入到了小红书App中,例如坚持使用双列的产品形态,是为了给用户自由选择的权利。传统人工定义的层次化标签,无法完整刻画图文和视频内容;小红书技术团队基于10亿量级的图文、视频笔记,将多模态预训练运用到推荐系统中,获得内容的向量化表征;未来将打通内容表征和行为表征,两域联合建模。
如何在平衡全局效率约束下做潜力预估和流量分配?为应对业界公认的冷启动难题,小红书高时效推荐系统从“天级更新”升级为“分钟级更新”,这对新笔记冷启动和扶持小众内容均有增益。为优化用户体验,避免用户落入信息茧房,风笛表示会设置各种指数遗忘策略,对用户的实时兴趣做降权,保证兴趣多样性,缓解追打密集。这样既能平衡用户的用户的长期兴趣与短期兴趣,亦能促进社区生态繁荣。
此外,为让有共同兴趣的用户充分沟通,小红书推荐系统追求的是非全局效率最优,简言之就是“人以群分”,让每篇笔记内容、每位用户都能在自己的兴趣圈层进行交流。在小红书社区,和用户交朋友,让真诚流动,让小众内容长起来,让人与人的连接更紧密。分享最后,风笛也抛出了两个小问题供业内思考,如何做高效的兴趣探索和如何对留存进行建模。
在数据爆炸的时代,每个人都需要进行信息检索。推荐和搜索是最主要的方式,而人机对话也逐步成为主流。在工业界同样如此,搜推系统的召回阶段非常关键:在实际业务场景中,如何在亿级商品中快速找到用户感兴趣的候选商品?这一步决定了精排阶段的成功与否。武汉大学李晨亮教授带来了《搜推系统召回阶段的前沿进展》主题报告。在报告中,他介绍近几年搜推系统召回阶段的主要进展和主流方法,结合相关前沿工作,探讨未来的发展趋势。
武汉大学国家网络安全学院教授- 李晨亮
在召回阶段,业界对于响应时延的苛刻要求,导致无法应用能力更强但是计算开销更大的模型方法。李晨亮教授指出:“召回的首要目标是保证低时延,同时满足效率和性能,对当前研究依然是不可逾越的挑战,这不是技术,反而是一门艺术“。他重点介绍了表征学习、交互式学习两种方法,并围绕“双塔模型/深度网络模型、多兴趣建模、长尾数据处理、外部数据丰富场景语义”这四个方向来提炼商品和用户的表征,精准识别用户需求。其中,如何处理长尾数据的工作与小红书社区理念背后的推荐机制不谋而合。
在主题报告分享结束后,风笛作为圆桌论坛主持人,与中国人民大学教授徐君、天津大学教授郝建业、中科院研究员敖翔、汇量科技首席人工智能官朱小强、小红书社区技术负责人夏侯,及现场嘉宾围绕《智能推荐未来的展望》进行深入探讨。智能推荐和搜索作为经典问题,在产业实践和前沿探索中都非常重要。近期,ChatGPT的火爆引起了社会各界对大语言模型、AIGC等热点话题的关注。风笛发问:“它们的爆发,对推荐和搜索的发展会带来哪些机遇和挑战呢?”开启了圆桌论坛的讨论。各位嘉宾根据自身经验出发,分别发表了看法。
中国人民大学杰出学者特聘教授、北京智源人工智能研究院智源学者- 徐君
主要研究搜索的徐君教授结合微软 New Bing 的例子,阐述了大语言模型的兴起,会改变传统互联网的搜索习惯和广告盈利模式。郝建业教授指出,传统的推荐系统基于有限的用户数据,通过过拟合的方式进行相似内容的分发,但其实无法真正了解用户的心智变化;期待未来推荐与大模型的结合,推荐能实现真正的“智能化”、“个性化”、“人性化”。敖翔提出要积极拥抱新工具,一方面不要完全相信模型给出的结果,需要根据不同场景进行评估,另一方面要多思考如何利用大模型,实现更多的价值。
天津大学副教授、华为诺亚方舟决策推理实验室主任- 郝建业
推荐和搜索技术的本质是为消费者提供更准确、优质的信息,以实现构建美好世界的初衷,正如风笛分享所言,小众的社区需要更有效的曝光和相符的用户群体。然而,大语言模型是否会取代推荐系统?来自工业界的朱小强持短期保守、长期激进的态度。短期内,大语言模型为企业提供私有数据之外的常识;而从长期来看,当人们获取信息方式发生变化,信息分发技术会迎来新的冲击,原有的推荐形态和模型可能需要重新构建,这是一把悬在我们头上的剑。夏侯提出未来3至5年面临的挑战:传统的搜索和推荐都是基于用户点击触发的行为模式。过去单纯以用户点击而驱动的算法分发模式,正走向用户行为+内容理解双轮并驱的分发模式,能否真正实现搜推一体化,更好地提升用户行为效率呢?
中国科学院计算技术研究所副研究员- 敖翔
随后,风笛为每位嘉宾准备了特别问题,邀请大家一一分享。徐君教授拥有丰富的产学研经验,分享了智能信息检索领域的最新进展,即如何发现并去除用户反馈中的偏差。ChatGPT 带火了 RLHF(基于人类反馈的强化学习),郝建业教授阐述了 RLHF 与传统强化学习的区别,以及对推荐的启发:从数据质量抓取入手,先建立一个非常精准的长期用户兴趣的大模型,在此基础上做创新工作。谈及“在保护用户隐私和安全的前提下,如何应用金融反欺诈的经验来应对 AICG 在推荐系统中的滥用“时,敖翔同样认为建立一个精准的用户行为模型非常重要。我们需要打破公司内部的数据墙,将数据打通,实现多模态、长周期的全量用户数据分析,以便更好地理解用户行为和意图。朱小强详细分享了过亿 DAU 的大 APP 和几百万的小 APP,在推荐算法和数据建模的不同之处。设计推荐系统,需要考虑法律、隐私、安全、数据等问题。“没有高质量的数据,只谈技术,无疑是空中楼阁。“他强调了好数据的重要性,并分享了实践洞察。大模型能打破国界、语言的障碍,理解不同国家和地区的用户行为和文化,更好地为用户提供推荐服务。为在用户规模、社区封闭性、商业化开放性之间做权衡,夏侯谈及小红书智能推荐业务面临的三大挑战:系统复杂度、目标多样性、内容多样性。
汇量科技首席人工智能官- 朱小强
最后,各位嘉宾就“下一代推荐系统技术形成大一统的可能性“、“数据、算力等资源对智能推荐的产业格局影响”开展深度讨论。面对大语言模型,我们应积极拥抱新事物、谨慎地审视它,做更加个性化、智能化的推荐与搜索!或许,智能推荐技术将成为未来的底层操作系统,AI 领域向其他学科领域输出的那一天,就要来了。
CCF 希望通过 CCF C³ 活动搭建中国企业技术交流平台,通过两年 18 场的活动努力,已经在计算机、互联网、AI及相关领域建立起良好口碑。CCF C³ 活动第 18 场走进小红书,非常感谢多位讲者及圆桌嘉宾的精彩分享,现场交流气氛热烈。本活动全程有录播回看视频,欢迎在“小红书技术REDtech”视频号及B站、“CCF数字图书馆”查阅。小红书长期重视技术发展及人才培养,愿和全行业共同进步,期待下次相遇!