在今年2050大会上,徐桢虎分享了封面传媒与人工智能结合的一些应用与实践,今天小封就将这些干货分享给大家,看看实践得出的结果。
PS:分享内容共有4千余字,阅读全文需要约8min,建议可先收藏再浏览。
本次内容分享人:徐桢虎
分享人简介:
西南交通大学计算机专业硕士毕业,研究方向为数据仓库与数据挖掘,现任封面传媒总经理助理兼数据研究部总监,主要从事媒体领域AI应用和落地的研究。
1、媒体转型与封面新闻的故事
在正式开始之前,我想先给大家讲一下媒体的演变。
从17世纪50年代报纸发明以来,报纸一直是人们获取资讯的最主要、最核心的渠道。这种情况一直持续到上个世纪20年代,直到电视的出现。电视部分取代了报纸在第一时间获取资讯和信息的地位,但报纸仍是最主要的渠道。
上个世纪90年代后期,自互联网发明以来,相比其他传播媒介,互联网能够更快地传播信息,但当时报纸的读者仍然很多。压垮报纸作为人们获取信息的主要渠道的最后一根稻草,是2008年-2009年年间智能手机的流行。
传播载体的进化越来越快,目前来看,移动互联网对传播场景的改变最为深刻,但这并不意味着手机将会是媒介的最终形态和最终载体。
封面新闻从传统媒体转型而来。2015年10月28日,为了推动《华西都市报》的整体转型,封面传媒成立;2016年5月4日,封面新闻APP上线,定位亿万年轻人的生活方式;2016年10月18日,我们提出将封面新闻打造成“智媒体”的口号。现在的封面新闻既是一家媒体机构,也是一家科技公司,我们致力于“AI+媒体”的探索和实践。
《华西都市报》是中国的第一家都市报,我们做了二十多年的媒体新闻,有着丰富、专业的媒体运营经验。目前全国性新闻客户端已超过230个,其中大多数由传统媒体开设,普遍沿用和挂靠原有新闻网站资质,并无独立资质。
封面新闻拥有一类互联网新闻信息服务采访资质,这在国内只有两家,一是封面新闻,一是澎湃新闻。此外,我们也和头部平台一起共建合作媒体实验室,为了解决内容生产的痛点,实现快速迭代优化,我们的内容与技术团队已展开深度融合。
2、媒体智能化的目的及其具体应用
要谈媒体智能化的具体应用,首先要了解智能化的目的。媒体智能化的目的可分为三个方面:
深度改变传播:从传播者、内容渠道、传播对象到最终的传播效果,都将发生全方位的改变。新技术会深度参与到新闻素材的收集、筛选、成文、审查和内部分发。
AI赋能:这并不是说让AI技术取代媒体,而是赋能,即让人做人更擅长的事,让机器来做机器擅长的事。具有原创采编权的媒体人的专业优势和AI的高效智能生产将会更为完美结合。
与更多新技术结合:新技术在媒体传播方面的应用很广,如MR呈现新闻实景、信息安全、版权系统、数字资产管理视频流、物联网+大数据……这些新技术应用都给了媒体更为丰富的想象空间。
下面我重点介绍下封面新闻智能化的一些应用,主要包括三部分。
第一部分是自然语言处理(NLP)的应用。这部分技术主要用在封面新闻APP中,其中包括新闻的推荐、搜索、敏感词、新闻的分类摘要、新闻知识图谱等相关应用。
第二部分是视频应用,包括视频理解、审核、视频标签体系的建设、短视频的制作。
第三部分是内容生产的自动化,包括三审三校、纠错、标签优化和考核打分。媒体内容生产和新媒体不完全一样,前者有一套比较传统且复杂的流程,其中的新闻审核极其严格。
自然语言处理(NLP)的应用
下图是封面新闻用户画像的一个特征模型,主要包含了几个大类:用户的基本属性、关注新闻的类别、APP使用偏好、用户的社会特征和价值属性、用户的个人偏好。
这部分数据除了用于数据分析之外,还会被用到封面新闻的推荐算法中,推荐算法里包括内容特征、用户行为特征、用户画像、敏感信息过滤机制和黑白名单。
推荐的技术细节这里我不做过多阐述。封面新闻的推荐主要有三层:第一层是召回,第二层是Rank层,第三层是Rerank层。召回层主要是看重内容特征的应用和搜索排序,Rank层主要看中用户在app上的行为和特征信息,根据用户的兴趣度对文章再一次进行排序,最后的Rerank层跟算法关系不大,主要是一些敏感信息的过滤,包括黑白名单以及文章分类的权重的判定。
对于资讯类APP来说,新闻的搜索是一个比较典型的应用场景。之前封面新闻的搜索的用户点击不是很好,对此我们做了以下几件事来进行优化:
一是增加用户的历史收藏和历史搜索记录;
二是增加每天热搜资讯,包括每天热点新闻;
三是聚合封面新闻APP上的用户话题。
具体来看,目前封面新闻在新闻的搜索、分类摘要方面的应用有:
1. 分析当天新闻热点、热搜、热门话题,促进用户点击和交互;
2. 文章自动抽取摘要、实时语音播报,“视听读聊”多个场景;
3. 实现在全国34个省区市自动抓取、地理定位、智能分发。
在新闻知识图谱方面,应用场景主要有两部分:第一部分是对于事件的深度挖掘,包括把握新闻事件的脉络,挖掘新闻人物之间的关系,目前主要运用在娱乐事件场景中;第二部分是在体育赛事资讯中的知识应用。
下图中,是一个比较典型的知识图谱应用。
在这个三元组里我们会把娱乐新闻的每个标题按照人物和事件分成两大类,事件会有更具体、更详细的标签。一些娱乐八卦则可以直接映射到下面的人物关系图,比如说某一个事件的相关人物、人物关系、相关动态。
新闻主题的聚合也可以运用知识图谱来实现,可以方便地把新闻的前因后果和相关新闻聚合在一起,方便新闻编辑制作相应的专题,比如像医患关系、教育、高房价、明星情变等热点话题。
第二部分是在体育赛事资讯的应用。这方面的应用开始得比较早,从2016年就在进行,在当年的里约奥运会以及18年的世界杯中都有应用。尤其在一些大型体育赛事中,可以挖掘很多背景信息,包括体育项目、场馆、球员、运动员信息,用户点击进去就可以获取到具体人物或其他具体的体育知识图谱信息。
视频应用
视频理解和审核这部分我们和外部供应商合作,但我们并非简单地购买服务。针对一些涉黄、涉暴、涉政的场景,我们还展开了深度合作,会做一些定制化的应用和开发。
至于视频标签体系建设,我们将其分为三层标签,分别是视频的主类别、子类别、关键词和定制主题。
3AI在媒体中的主要应用场景
AI技术在封面新闻中的应用主要有三个场景:
第一是内容生产场景,主要是包括机器写作、智能分发、还有辅助写稿以及MR传播、AI主播;
第二是社交互动场景,其中包括较多的人机交互场景,包括人脸识别、积分反作弊;
第三是活动营销的场景。
内容生产场景下的应用
第一类是从数据到模板再到算法,典型应用包括机器写作和聊天机器人;
第二类型是从算法生成到人工筛选或标注,最后再进行迭代的优化,典型应用包括古体诗、现代诗、短文的生成、对联、歌词等。
机器写作
以机器写作为例来看,它在流程上主要是一个触发的机制,从触发机制上说的话主要有三大类,包括数据、时间、事件的触发,不同类型有着不同的区分。我们重点考虑以下几个方面:内容选取、内容生成质量的判定、内容的丰富增强。
讲一个具体的实例,这是一个地震新闻生成的一个案例。
首先我们会拿到机构的数据。我们和成都地震减灾所有合作关系,可以拿到他们的实时数据。获取了数据,有了相应的地震信息之后,我们会去检索后台的知识库,这个知识库包括百万级的地理数据检索系统、过去50年的全球历史地震数据信息、当地的一些百科、天气等相关的知识图谱。
这些工作完成后会汇总生成图文素材,进行模板渲染、文章质量判定和安全性的检测,最后再推送到分发渠道上。
生成的内容包含地理信息、地震详情、历史上地震的发生情况,该区域内的地震发生情况,附近的天气等,这些内容都有比较完整的图文呈现。以上内容都可以在几秒钟之内就生成,非常实用。
机器写诗
这是我们的机器写诗。其中有古体诗,也有现代诗,我们在封面新闻APP及《华西都市报》上开设了一个专栏,专门刊登这些诗。
可视化视频生成
可视化视频生成主要应用场景是财经金融和突发报道,以财经新闻居多,如股票异动、大盘回顾、基金速报。这幅图由MGC机器写作视频生成系统生成,包含了一些财经政策、大盘回顾、股市行情。
大屏可视化
这部分主要是对这些技术应用的展示,我们用得最多的两个知识库,一个是体育知识库,一个是娱乐知识库。还有生活资讯,主要是商场的一些购物资讯在地图上的呈现。右边是反作弊的一些统计和机器写作的文章。
在2018年世界杯的时候,AI的应用主要包括:新闻自动分类,包括各支球队、球员、整个赛程方面的新闻分类;机器人预测比分,为此我们做了积分竞猜的活动;对球队、球员进行定向的关注和推送,只要关注这个球队,就能收到关于这个球队所有的资讯推送。
4AI对新闻生产流程的智能化变革
AI对于新闻生产流程的智能化变革,主要体现在三个平台:
第一是智慧内容平台,主要做热点的监控、全网采集、内容管理和融合驱动型直播应用。
第二是智能技术平台,包括机器写作、算法推荐、视频生成和文本理解;
第三是智识管理平台,包括传播效果监测、版权追踪追溯,考核自动化、内容价值观。
封巢—内容生产智能化平台
封巢是封面新闻基本上从零打造的一套内容生产的智能化平台。它主要解决的是媒体内容生产最主要的几个流程,策、采、编、审、发、考。我们主要是通过技术倒逼,然后流程再造,这整个流程虽然并非适用于每一家媒体,但是对于传统媒体而言,整个流程都是一个必要的过程。封面新闻是从传统媒体转型而来,所以我们也是在用户需求和技术能力之间寻找平衡点。
这套系统包括热点的监控系统、全网的采集系统,还有内容管理、传播分析,还有一个基础管理系统。它们三端合一,编辑和记者有不同的应用场景,包括PC端、大屏端和APP端(记者和编辑专用)。对于记者,尤其是长期在外跑新闻的记者,以前信息可能通过QQ、邮件这些方式来传输,现在可以通过我们内部生产的APP,直接上传所有的新闻素材。
封巢里面也有一些小工具,比如辅助写作。记者在写稿的过程中,直接输入新闻标题和新闻正文,会实时生成文章的主题词、敏感词、标签、文章的摘要和建议推送的频道。另外也能链接一些根据关联词索引的相关内容,其中有历史相关文章的推荐和排序,记者可以点击阅读全文,把相关文章的素材插入当前文章中。
我们也成立了“人工智能与未来媒体实验室”, 研究方向主要是视频理解、AI辅助创作、内容传播创新,主要是为了推动人工智能与传统媒体的技术创新融合。我们希望成为国内智媒体的标杆,把技术产品化、应用平台化。
以上就是本次分享的全部内容,你学到了吗?
【福利来啦】如果想要更加深入与我们探讨人工智能与智媒体相关问题,可以留言向小封获取微信哦~
保存扫描此二维码可关注我们的官方微信公众号获取更多相关知识内容哦!