《越人歌》
今夕何夕兮,搴舟中流。
今日何日兮,得与王子同舟。
蒙羞被好兮,不訾诟耻。
心几烦而不绝兮,得知王子。
山有木兮木有枝,心悦君兮君不知。
更多干货内容请关注微信公众号“AI 前线”,(ID:ai-front)
这是一首春秋时期有名的同性爱情诗歌。自古以来,描写同性爱情的作品数不胜数,但由于传统道德理念上的限制,同性恋情在中国长期以来成为不为大众所知的行为。近来相关管理部门对网络中有关同性恋的内容和信息的一些处理方式似乎让外界觉得,这个群体的处境仍比较艰难。而男同社交应用 Blued 的成功,让这个群体有了某种程度上的归属感,并证明了这个市场巨大的潜力。很少有人知道,它的成功和人工智能的进步有着密不可分的关系。
很荣幸,7 月 6 日在深圳举办的 ArchSummit 全球架构师技术峰会邀请到了 Blued 数据科学家王英杰现场分享《社交网络中的 AI 图像技术应用》话题。借此机会,AI 前线采访了王英杰,就 AI 在 Blued 的应用以及效果作详细的解读。
(以下是采访整理内容)
相比一些欧美国家,中国对同性恋的包容度似乎还是更低一些,但这并不能阻挡这个群体的生存发展,以及消费能力的增长。Blued 就诞生在这样的环境下。
和其他互联网企业一样,Blued 也开始通过时下最热门的技术——人工智能,应用于产品日常运营中,以应对越来越多涌入的新用户,以此改善体验。
面对数量巨大的用户和社交网络数据信息,如何为每个人找到身边的好友并根据用户兴趣进行匹配,成为 Blued 算法工程师面临的极大挑战。图像、视频、动态图片对于社交网站的重要性不言而喻,算法工程师很大一部分工作就是处理与视觉信息相关的数据,AI 成为他们解决问题的最佳利器。
据 Blued AI 算法部数据科学家王英杰的介绍,Blued 在平台的图像社交业务中已经广泛采用 AI 技术。
他们从 LGBT 人群的陌生人社交切入市场,逐渐转向兴趣社交和泛娱乐化平台,拓展出了很多使用场景。在这些使用场景下,用户可以在 Blued 上发布人脸头像、相册、图片动态、小视频、直播等。鉴于视觉信息在社交产品的重要地位,用户期望浏览兴趣标签下的高颜值照片,用小视频快速了解真实的对方,观看推荐的主播直播。Blued 上社交、内容、商业化模块都已有落地的应用在深度使用 AI 图像技术。
在社交产品上,使用人脸检测的技术筛选头像照片中含人脸的照片,并对得到的人脸特征做相似性分析;对含人图片进行体型胖瘦的分类,通过检测模型提取了一些身材和服饰上的标签,这些特征对于构建社交推荐产品的模型是非常重要的特征;使用图像分类的技术剔除掉不含人的小视频;以及使用图像检测结合图像分类的技术提取主播推荐的特征值等。
在变现业务方面,Blued 基于图像和短视频的内容 feed 流推荐产品,已经推出了商业化广告模块;图像算法在头像认证、隐私保护上的应用也是会员和增值服务等变现业务的重要组成部分。
具体到 AI 图像技术解决方案和应用算法的内部机制,王英杰解释道,Blued 的 AI 图像技术方案根据产品需求,首先拆解出几个核心的图像任务,选取适合的网络模型,如人脸检测模型、人脸识别模型、图像标签检测模型、图像分类模型等;之后利用平台上生产的大量图片做训练和微调,不断迭代完些基础模型;最后在不同的业务场景上,组合使用这些模型,并在使用的过程中根据测试结果随时调整模型输出阈值参数。从算法机制上讲,模型的迭代,数据的累积,参数的调整,形成三个并行的演进过程。同时,数据的累积促成模型的迭代,模型迭代后参数不断优化调整,参数优化调整后获得质量更好的数据积累,从而推动 () 整个系统进化。
通过这套在 Blued 内部运行了半年的技术解决方案,Blued 解决了以前靠人工审核、人工运营、产品规则解决不了的问题和实现不了的效果。比如在一些应用了 AI 技术的产品模块上,有超过 30% 的 UV 增长,人均 PV 有超过 60% 的增长,推荐成功率比人工精选提高 2 倍以上。现在,Blued 的算法模型基本上每个月都有大的迭代更新,但在与内容生产环节的配合上,和内容消费的社交转化倾向性上,还有很多需要不断完善算法、优化目标的地方。
为了体验这款产品的性能如何,AI 前线对该产品进行了体验测试。在注册 Blued 账号后,系统会通过用户选择的兴趣标签进行推荐。那么,Blued 的推荐排序机制是怎样运作的呢?
AI 前线了解到,Blued 数据平台会收集用户注册填写的基本资料信息,并结合用户在平台的内容浏览行为产生兴趣标签,Blued 会进一步探索用户的社交关系链,并将这些数据导入推荐系统。另外,在推荐算法的基础上,Blued 还会考虑用户定义的过滤和筛选条件进行排序,但主要还是以登陆时间和距离远近为原则。
Blued 并不是一家普通的网站,它的用户是一个特殊的群体,因此具有一些不同于普通网站的特点,并因此让工程师们面临“不同寻常”的挑战。Blued 的 AI 之路走的并非一帆风顺,很多时候,工程师们面临着应接不暇的挑战。
王英杰向 AI 前线坦承,目前,Blued 最大的技术瓶颈,是云端大规模数据并行运算,以及移动端模型运算效率问题。前者的难点在于模型计算平台和数据存储平台目前还没有打通,这一问题云计算服务已经在着手解决了。后者的难点在于目前的方案在效率和性能上还没有达到很好的平衡点,因为在移动端对算力和功耗要求较高。但王英杰相信,随着移动端技术的快速发展,这个瓶颈很快就能突破。
Blued 用户也有不同的特点,包括兴趣标签细分程度更大,用户资料真实性的甄别难度更高,用户反馈行为的分布上更不均衡,用户的频繁访问次数更多等。这些都给算法的数据和算力提出更多挑战。
而这些难题并非无解。在数据问题上的挑战,Blued 通过提取更多特征,尝试各种聚类和分类算法,特别是对数据缺失不敏感的模型,以及不依赖用户反馈行为的模型等来解决。在算力问题上,则把计算压力分配在离线计算、近线计算和在线计算上,根据数据随时调整各个部分的计算频次和计算量。
另外,社交网站往往是色情信息的“重灾区”,作为主要为 LGBT 人群提供服务的应用,Blued 还承担着向用户科普、宣传艾滋病等疾病防治方面的任务。Blued 同样在面临着这样的挑战,具体体现在色情图像、文字、低俗内容识别等任务上。
对此,Blued 在社区管理中通过人工审核团队制定严格规范的识别标准,在模型的训练和推理过程中考虑到不同分类检测类别在准确率和召回率上的不同要求,比如色情内容的检测需要更高的准确率,性感内容的检测需要更高的召回率,这反过来提高了人工审核团队的复审效率。Blued 告诉 AI 前线,他们在低俗内容的识别上面临的挑战更大一些,具体体现在 1. 判断标准随时间会发生较大的变化,而且变化较快,需要不断增减需要检测的类别;2. 样本准确标记难度大,模型的准确率和召回率也都比较难保证。目前,Blued 还在采取诸如尝试不断完善这个模型动态更新的流程,加大人工审核的力度,增加用户举报反馈的入口等措施来解决这个问题。
利用 AI 技术在产品和服务中的布局已经铺展开来,未来在技术上还会进行更多的探索。
Blued 的技术规划是 AI 优先,强调对于细分人群的个性化运营,把兴趣社交知识数据化、模型化。基于不同类型细分人群的社交需求,设计合理的产品场景,找到合适的特征,选择匹配的模型,设计如何选取正负样本和细化的优化目标函数。在这个过程中,新的产品想法成为可能,产品和运营的经验知识也在模型的训练过程中被数据化。
未来 AI 技术一定会在 Blued 产品上越来越多的体现出来,不只是兴趣社交领域,Blued 还表示将探索新的商业化机会,比如新社交和新电商的结合等。
王英杰,Blued 数据科学家,目前在 Blued(北京蓝城兄弟信息技术有限公司)AI 算法部,负责图像和推荐相关工作,包括社交、内容、直播、风控等的 AI 技术方案和实施。2007 年博士毕业于北京邮电大学,拥有多项国内和国外专利,有丰富的图像深度学习和图像处理技术经验。