领英人工智能研发总监 张梁
11 月 8-9 日,CSDN 和 AICamp 联合举办的AI开发者大会在京举行。领英(LinkedIn)人工智能研发总监张梁发表了《AI 在大规模招聘求职上的应用》的主题演讲,并接受了 AI科技大本营的专访。
张梁在分享中表示,人工智能于领英而言是氧气般的存在,是所有用户体验的 DNA,贯穿其社交联系、职位推荐、智能问答等多个应用。
目前,领英在全球已有 5 亿 9000 万用户,其中中国用户 4400 万,如何利用大数据和人工智能技术来为数亿的求职者和招聘者提供高效服务?这篇文章将为你揭秘。
张梁演讲
作为在领英工作六年的开发者和程序员,今天我想和大家分享领英这一全球最大的职场社交平台在世界做了什么,在中国做了什么,以及人工智能技术在领英如何被应用,我们是如何通过人工智能来解决诸多问题的。
目前,领英在全球有 5 亿 9000 万用户、3000 万家公司、2000 万个工作,这是领英的全球经济图谱。领英致力于连接全球职场人士,并协助他们事半功倍,发挥所长。我们希望连接全世界的同行,为他们提供更多的职业发展机会。
在中国,我们有 4400 万用户,领英中国的商业和各方面都发展得非常迅速。
人工智能——领英的“氧气”
人工智能是领英所有用户体验的 DNA,它就像是领英的氧气,是我们一切工作的驱动力,我们将人工智能技术应用到了领英所有的产品中。在恰当的时间、恰当的地点给恰当的用户推荐恰当的内容,这是领英人工智能研发部门的使命。
我们很多产品都深入地应用了人工智能,比如你所认识的人、我们主页上的内容、职位推荐、搜索、为招聘专员和销售专员专门定制的产品……
目前,每天领英平台上被处理的数据达到了 2PB 的规模,领英的机器学习模型动辄拥有上十亿甚至上百亿个参数,每个星期都会有上百个 AB 在线测试在运行,由此可见,领英 AI 体量是非常庞大的。那么如何在这样一个大规模的计算平台上、在几百毫秒延迟的范围内,提升用户的使用体验呢?这是一个很大的挑战。
领英的职位推荐系统
职位推荐是领英的主打产品。那么在这方面,我们是如何应用人工智能来解决具体的技术问题呢?
用户在领英上传个人简历,平台会推荐适合求职者的工作职位,但首先,领英需要了解你的背景,从哪个学校毕业,在哪些公司工作过,拥有哪些技能……根据以上,我们可以预测哪些工作可能比较适合求职者。领英做的第一步是建立知识图谱和研发针对自然语言的标准化技术。我们针对每位用户的简历,使用基于深度学习模型的标准化技术来实现信息抓取,比如 LSTM, CNN 等等。对于工作职位,我们也做了同样的事情。
六七年前,我们的职位推荐一开始做的是做线性模型,比如说求职者是一个软件工程师,我们就会推荐一个软件工程师的职位。但后来我们发现,根据用户简历和工作职位的描述来做推荐,不一定能够完全实现个性化,我们还希望根据用户之前的职位申请,为他推荐更多类似的职位,我们将其称之为深度的个性化。我们因而研发了 Generalized Linear Mixed Model(GLMix),针对每个用户和每个职位建立一个单独为他们服务的模型,这样使得我们模型的参数量达到了上百亿的规模。同时也成功地把职位申请的数量提高了 30%。领英中国团队把这个模型用在中国的数据上,又将职位申请的数量额外提高了 11%。
进一步地,我们建立了一个 Deep&Wide 的模型,其中整合了深度学习,树状结构模型,以及 GLMix,我们发现这个模型的效果非常好,也极大地提升了领英的用户体验。为了实时更新上百亿的模型参数以及在毫秒级别内满足用户的职位推荐需求,领英搭建了大规模运算平台来实现人工智能模型的技术。这个平台包括线下和线上两个模块:线下模块自动收集用户的反馈、基于 Spark 自动训练,之后把模型结果和参数上传到线上。线上我们使用自己的实时数据传输和搜索引擎技术来实现低延迟的模型运算。并且,领英专门研发了一个叫做 Pro-ML 的“人工智能自动化”系统,为所有工程团队集中管理特征和机器学习模型。这一系统为机器学习模型的整个开发、培训、部署、测试提供单一化平台,已经极大加快了领英开发及上线新产品的速度。
我们在职位推荐方面也遇到过一些有意思的问题。下图说的是一个边际收益递减的例子,比如我是一个招聘专员,刚刚发布了一个工作到网上,那么我收到的第一份申请是最有价值的,因为我之前一个申请都没有收到。但等到第 100 个人申请的时候,这个边际价值就不一定比以前多了,因为 100 到 101 和从 0 到 1 完全不是一回事。等到有上万个工作申请的时候,可能反馈就是,我们不小心收了 1 万份简历,我们看不过来,可能最后也就能看前 100 个。
这时就体现了一个问题,我们不应只从求职者的角度去考虑问题,也要考虑招聘者的思维。因为招聘的成功率体现了平台的价值,如果现在这个平台上面有几千万个工作,可能 1% 的工作是 Google,Facebook,百度,小米,京东这些最知名的公司,他们收的简历数量非常大,但也有一些公司收集的简历可能没有那么多,或者完全没有,那么这个平台价值对他们就没有体现出来。为什么没有体现出来呢?因为我们这个平台的目的是为了服务全世界所有的公司,是希望所有的人能够找到他们合适的工作。并且,对于这些大公司来说,每个职位发出去,收到的上万个简历中可能只能有时间看前 100 个,这也是浪费社会资源的一种表现。
所以在领英的平台上做职位推荐,我们有几点要注意:第一,我们要保证每个人都能找到适合的工作,第二,我们要保证每一份工作不会收到太多、或太少的申请,我们要从整个产品的体验以及整个平台的效率去考虑这个问题。
在经济学上,这是一个市场效率优化的问题。这个市场有三方角色,第一方是找工作的,申请越多机会相对来说就会越大;第二方是招聘专员,他们希望每一个工作职位发出去,有足够多的人申请,但也不能太泛滥,最好是人选恰好就是想找的那一位;第三方就是领英这个平台,这个平台想要通过这个职位推荐的市场得到收入。那么如何把这三方的利益综合起来考虑,达到市场效率的最优化,建立市场长期发展的生态,这本身就是一个很难的问题,这也是我们这一两年内一直在做的事情。
我们在 2016 年的 KDD 有一篇论文,谈的就是如何平衡这三方需求。我们可以做到在不影响用户体验的前提下,让工作职位的申请数量更加均匀。如果用熵(entropy)来度量每个职位申请数量的均匀度的话,这个方法使得熵增加了 12%。
领英在智能问答领域的探索
智能问答在领英有很多可能的应用。比如刚才招聘这个案例,就可以做一个智能问答系统:求职者来让我推荐工作,招聘方想了解适合某一职位在某一地区符合资格的人数,这些都是很有价值的问题,我们希望将来能够有这样一个智能问答系统,可以服务于领英平台上的所有用户。
原则上,智能问答系统的开发通常分为四步:第一,首先要做自然语言的处理;第二,对于对话实时信息的跟踪;第三,根据现在已知的信息和对具体问题的理解,能够知道下一步要做什么;第四,根据下一步要做的,将它转换成自然语言,给出一个回答。
在领英公司的内部,每天会很多人来问数据科学家关于领英数据的问题,为了让这一过程更加自动化,同时减轻数据科学家们的负担,我们希望通过制造一个机器人来自动回答这样的问题。我们给这个机器人取名叫做安娜(Analytics Bot)。
Ana 现在的主要功能有两个,第一是回答关于某个具体数据指标的定义。比如,领英内部有一个数据指标叫 contributor,即每天主页上有多少人分享,多少人评论等等,如果用户问 contributor 是什么,Ana 就能够给出回答。第二个功能是某个数据指标在某几个维度上的数值。比如领英主页过去 7 天有多少中国用户访问,Ana 就会把这个问题自动转化为 SQL 的语句来查询我们内部的数据库,然后给出答案。
领英中国
领英中国目前有 4400 万用户,在领英全球近 6 亿用户中占了很大比重。领英中国很重要的一个使命就是,希望能够通过我们这个全球最大的职场社交网络,将职场人士,例如中国的 AI 开发者和全球的 AI 开发者联系起来,我们一直致力于实现这个宏伟的使命和愿景。
另外,在中国北京和美国硅谷的 Sunnyvale,领英有一个 60 人的国际研发团队,这个团队有 20 余名成员常驻硅谷,实时分享总部最新产品计划和资源,有超过 40 名成员常驻北京,专攻适合本地会员的产品与服务。这两地团队的工作无缝衔接,交换互通,保证在紧跟全球最新技术趋势的同时,高效实现产品本地化。
值得强调的是,在领英,我们有四分之一的工程师是女性,我们非常重视多元、包容、归属感,这个本身也是领英的一大特色和优势。我们鼓励员工平衡工作和生活,将优秀的工程师文化和前沿的全球视角带入国内;我们支持员工学习和深造,通过主办Learning InDay 等企业文化活动,鼓励员工提升更广泛的技能、开拓更广阔的自我发展空间。
张梁专访
AI科技大本营:您目前在领英主要负责什么业务?可以简单介绍一下您目前的工作内容吗?
张梁:目前,我担任领英主页搜索业务负责人和领英人工智能研发总监。在过去的 6 年中,我负责研发了公司诸多重要的人工智能项目,主要聚焦于将尖端人工智能技术大规模地应用在面向用户的互联网产品中,努力提升领英全球超过 5.9 亿会员的使用体验。
此外,我的工作还涵盖了领英众多关键产品的用户体验优化,包括广告、搜索、主页、工作推荐、电邮及短信推送。
AI科技大本营:领英的人工智能技术体系是怎样搭建的?如何保证高效、敏捷的研发?
张梁:领英正在建立一个“人工智能自动化”体系,通过该体系可以管理公司每一个组的功能和模型。具体来说,每个人工智能系统都只可利用特定类型的数据,这种限制是由模型中内置的 "功能" 所决定的。这些功能描述了我们认为可能有助于提出更好建议的各种信息。例如,你的职位头衔可以作为一个特征,利用它来匹配未来的新工作机会。我们的专家和A/B测试框架教给人工智能系统如何使用这些特征,根据已有数据来推送更适合的推荐信息,例如使用“实习生”职位的用户更关注初级开发工程师信息,而非高级开发工程师。这项工作非常耗时。
在领英,我们为多项产品开发了数百个模型及数十万个特征。我们由此建立了名为 Pro-ML 的“人工智能自动化”平台,通过单独一个系统为所有工程团队集中管理特征和机器学习模型。这一系统为机器学习模型的整个开发、培训、部署、测试提供单一化平台,加快领英开发及上线新产品的速度。
AI科技大本营:人才解决方案、营销解决方案、高级用户订阅……目前领英的核心产品中,人工智能在其中分别有哪些应用?
张梁:在领英,人工智能就像是氧气,存在于我们构建的每一款产品、我们平台的每一种体验中。
我们并非随机选择在某项功能中使用人工智能,而是从整个平台的角度来考量如何布局。这样不仅会保证规范化,更能提供整体连贯的人工智能体验。
在领英,人工智能随处可见,人工智能正在逐步渗透到用户体验的方方面面。人工智能帮助个人用户建立社交联系、求职、学习,帮助企业用户提升广告效果、精准招人。
一些公司将人工智能视作对特定经验的优化,而领英则在产品设计之初便引入了人工智能和机器学习专家,领英计划未来将人工智能应用到更多体系中。
人工智能在领英上的具体应用非常广泛,比如:
社交联系:领英推荐用户与相关适合的人建立联系,这个是基于“您可能认识的人”(People You May Know)这一功能,纯机器主导的建议帮助用户对接适合的联系人。
内容推送:利用人工智能给用户推送与其相关、对其有用的内容;人工智能使领英上文章推送的数量增加了10%-20%;借助机器学习,运用大规模线性程序减少用户收到无用邮件和通知的数量。
广告投放:利用人工智能将广告投放给最相关的用户,通过分析会员的喜好、点击和访问活动等属性找到适合的人群,提高销售的投资回报率;通过人工智能为销售人员扩大目标受众数量,找到更多拥有类似背景的目标对象。
招聘:招聘人员在为某一特定职位寻找候选人时,收到的站内推荐都是基于人工智能和机器学习产生;通过人工智能改善产品功能,使得HR在招聘时收到的站内信回复比率提高了45%。
求职:利用人工智能提升“可能感兴趣的工作”(Jobs You May Be Interested In)这一功能的个性化程度,使得领英上用户工作申请的数量提升了 30%;用户在申请工作的过程中缺少某种对应技能,领英会向用户推荐最合适的学习课程,这里涉及的搜索和推荐功能很大程度上依赖人工智能;利用层次贝叶斯模型推断薪酬。
AI科技大本营:在人工智能领域,领英与哪些企业开展过合作?
张梁:我们和世界上很多著名的科技公司都开展过合作。例如,我们将著名的数据推送系统 Kafka 作为管理领英所有信息的“中央神经系统”。在深度学习流程中广泛地使用了谷歌打造的 TensorFlow。我们在数据处理中广泛使用 Spark 和 Scala,在数据分析中使用 Pig 和 Hive。我们还与微软开展合作,从而利用 Azure 云平台上的人工智能服务。领英会采用微软文本分析 API 对推送内容进行动态翻译。
AI科技大本营:领英的人工智能应用收获了哪些成效?
张梁:领英的人工智能系统为那些正在找工作的会员提供了极大的帮助。自领英上线了一个新的为会员推送“可能感兴趣的职位”的个性化人工智能模型之后,工作职位申请数量随之增长了 30%。
领英同时为会员和招聘专员提供了很多人工智能技术驱动下的用户体验优化和产品更新,从而使工作职位申请量实现了 40% 的年度增长。
通过利用人工智能改进的领英招聘解决方案已经使招聘站内信的回复率提高了 45%,同时还减少了我们向会员短信推送的数量。
人工智能成功地优化了领英主页上会员的文章阅读体验,文章的点击率提高了 10% - 20%。
AI科技大本营:领英是如何管理海量数据,并从中挖掘价值的?
张梁:在领英,我们拥有高度结构化的数据集,这是我们的优势所在。
我们将数据应用于:为用户推荐新技能、新培训课程和新职位;协助招聘人员找到合适的人选;让求职者找到合适的工作;推荐精准的广告;向用户推送他们感兴趣的消息和内容。
具体来看,我们应用超过 10 亿个数据点(职位、技能、公司、会员等等)来构建领英知识图谱。这些图谱中形成超过 500 亿个关系纽带,我们以此来开发相应的推荐系统。这些标准化数据在领英模型和产品中得到应用,为客户和会员定制他们每一步的使用体验。(从“您可能感兴趣的招聘”、“招聘者”到为会员推荐信息流内容)。
此外,数据将助力公司愿景的实现:我们使用这些数据来构造我们的“经济图谱”——即人、技能和职位之间的联系。
我们与处理类似问题的其他公司的区别在于,我们采用“会员为先”的人工智能算法;一般公司将人工智能视为对现有体验的优化。但我们在最初的产品设计过程中就让人工智能和机器学习专家参与进来。
没有很多公司从会员所观所感的方方面面去考虑问题,而在领英,我们希望通过人工智能,为会员在领英上的所有互动提供个性化体验,而不是仅考虑某一刻TA的互动操作。这在复杂系统设计中经常会被忽略,最终很可能仅仅优化了本地操作,而不是全球性的优化。
AI科技大本营:大数据、机器学习在领英都有哪些应用?如何做到真正的数据驱动?
张梁:我们已经进入了大数据时代,利用人工智能对数据加以分析得到对环境和业务全面的洞察,引发新一轮产业革命。领英始终致力于利用人工智能、机器学习等新科技,对数据加以研究和测算,为个人会员、企业客户和社会提供洞察,最终实现领英的愿景:为全球 30 亿劳动力的每一位创造经济机会。
人工智能有各种分支,机器学习是其中之一,还包括搜索、本体管理和创建、常识和推论、模式识别、统计推断等。我们使用机器学习作为解决一系列问题的工具。
深度学习是机器学习的一个流行分支,它使用人工神经网络来解决问题。领英采用多种方式应用深度学习和神经网络。
举例来说,我们将这两种工具配合线性文本分类器一起使用,在信息流创建之初便检测其中的垃圾邮件或恶意内容;我们还使用神经网络来帮助理解领英上被分享的各种内容(从新闻报道、职位到在线课程),以便为会员和客户提供更精准的推荐和搜索产品;最近,我们使用了“序列到序列学习”这一复杂的深度学习方法,进一步优化会员体验,例如显示相关搜索项,以及对领英上留言的智能回复等。
AI科技大本营:很多人认为人工智能是不需要人力投入的自动化流程,真的是这样吗?
张梁:实际上并非如此。我们人工智能系统中所使用的非常多的数据,以及人工智能系统的部署方式都依赖于人力的投入。以领英档案数据为例,几乎所有会员数据都是由会员自己自行输入的。因此,同一个职位在一家公司可能称为“资深软件工程师”,而在另一家公司则称为“研发负责人”。汇总上百万份会员档案后,你会发现,在职位名称错综复杂的情况下为招聘者提供良好的搜索体验是一件极具挑战的事情。将数据标准化成人工智能系统可以理解的形式是打造良好搜索体验非常重要的第一步,而这一过程需要人工和机器的共同努力。
我们的分类学家创建了职位分类体系,然后采用机器学习模型(LSTM 模型、其他神经网络等等)进一步将大量职位进行关联。了解这些关联后,我们就可以进一步推断出每名会员在档案内容之外具备的深层次技能;例如,具有“机器学习”技能的会员同时也了解“人工智能”。这就是构建领英知识图谱分类和关联体系的一个实例。从这里可以看出,我们的人工智能方法既不是彻底的机器驱动,也不是彻底的人工驱动,而是二者的结合。我们认为,机器和人工密切协作才是最好的解决方案。
AI科技大本营:您认为领英人工智能的未来发展方向在哪里?
张梁:为全球 30 亿劳动力中的每一位都创造经济机会”这是领英的愿景,也暗含了领英人工智能的未来发展方向。领英利用数据来实现这一愿景,我们正在利用人工智能分析各种数据趋势、与各大研究机构合作获取匿名数据进行分析,希望能够了解数据规律,不断提升信息的利用效率,从而扩大全球就业机会。
我相信,未来人工智能这一重要工具将极大地提高人类在面临重大问题时的能力,并且长远来看,它将协助实现人类经济成果的转型。人工智能将极大促进人类使用资源的能力,从而提高世界的整体效率。