【阅读笔记】百度NLP | 智能写作(Writing-bots)设计精华

已经是17年4月的问答采访式报道,主要看构架模型以及升级方式。

原文

截止2017年4月。百度智能写作(Writing-bots)文章可涵盖社会、财经、娱乐等 15 个大类,并可实现体育新闻、热点新闻等多领域全机器创作。

百度智能写作机器人在语言组织、语法和逻辑处理方面都已具备了相当的能力,甚至可以熟练地使用专业术语对新闻事件进行分析,写作质量几乎可以贴近人类的水平。

原文里虽然如此评价,但是熟练地专业术语反而是feature engineering的强项。换而言之,这是一个四两拨千斤的用简单操作换取读者大量好感的方法。而并不是智能本身有多高级。例子里是一篇关于篮球赛的报道。其中光球员名字就占去了不少篇幅。让我感到期许的是,那段关于第三节1分48秒哈登得分的描写是否是bot通过对视频的分析得到的结果。如果是,那就真值得钦佩。

1. Writing-bots历史:

2016 年,百度确立了「搜索+信息流」双向智能适配的信息分发 2.0 模式

资讯流产品和百家号的迅速发展,用户资讯阅读需求呈现出了较大的增长

(能够知道用户有哪些阅读需求是个重点)

发现用户感兴趣的内容,比如彩票、股票、旅游等话题,却很少有资讯文章涉及,因而存在着大量资源的短缺

通过机器写作的方式,聚合全网信息和百度优质资源,快速生产文章满足用户的需求,实现用户兴趣点的快速(分钟级快讯)、高效(省时省力)、高覆盖(中长尾)满足和资讯内容的深度定制以及个性化推荐

在内容生态里面帮助生态自建(闭环?)

2. Writing-bots的产品:(吸取其产品设计和用户侧写的精华)

产出的文章主要有三种类型:速报类、知识类和资讯聚合类。

1. 速报类,如比赛信息、股讯快报等,对时效性要求比较高,需要瞬时将结果生成文章。

2. 知识类主要是科普类的文章,如教育(诗词、历史知识)、生活(菜谱,保健知识)、旅游等。知识类文章的数据内容主要来自百度的知识库和全网优质资源,通过对优质数据资源的组织聚合和计算推理,为用户提供更加丰富的知识和信息。

3. 资讯聚合类是基于全网实时资讯数据,根据用户关注点,生成用户感兴趣的、以话题为中心的资讯文章,比如某一个电影热映,我们会对电影的主演、之前的作品等信息做一些扩展和盘点;对于热点事件,我们会对事件的发展过程和关键信息进行分析聚合,形成事件脉络,便于用户了解事件全貌等。这类文章是在现有的资讯信息基础上,重新智能聚合生成新的文章。

从技术方案上看,主要分为两类:

一类是基于结构化数据、知识库或优质资源直接生成的文章。速报和大部分知识类文章是基于这类技术方案。这类文章因为直接从数据通过分析聚合或知识推理生成原始稿件,因此可以说是原创。

(我认为知识类文章是对已有资料进行整合统筹,属于衍生物,好比综述。不属于内容原创。不过相对于下面的“二次创作”,是把“原创”弯过来理解,也能强词夺理。)

另一类是在已有稿件的基础上通过内容分析聚合生成的新的文章。大部分资讯聚合类文章,如话题盘点、事件脉络、热门要闻回顾等都属于此类。因为是基于已有稿件内容创作新的稿件,因此可以看作是二次创作。当然,我们也可以在一篇文章的生成中结合上述两种技术,进行混合创作。

3. 技术实现,创作流程。 (注意!这是一年前的内容,而且肯定不是准确的。只能参考。)感叹强大的生态链闭环啊。

【阅读笔记】百度NLP | 智能写作(Writing-bots)设计精华_第1张图片

百度拥有一张完整的网。网上的热点可以清晰感知。同时拥有撑到的数据库可以提供素材。最后推送到各种相关渠道。

基本创作流程:

数据采集,数据分析、自动写稿、审核签发等环节。

其中核心流程「自动写稿」部分通常还包括文档规划(document planning)、微观规划(micro-planning)和表层实现 (surface realization) 三个阶段。

分别解决稿件写什么、怎么写以及如何润色呈现的问题。

比如文档规划,需要确定写什么内容,采用什么结构来写,微观规划则更加细致化,具体要确定怎么来写每个段落、每个句子、每个标题以及内部的结构组织等。表层生成,则是对文章整体的润色和改写,比如如何调整文章格式、给文章配图等。

4. 百度智能写作有哪些特点和优势?

文章类型和话题源于实际的用户和产品需求。根据对资讯流产品内容分布和用户兴趣点分布的分析,百度确定了三类文章类型:速报类、知识类和资讯聚合类,分别用于改善产品中三类需求满足问题:高时效性需求,中长尾需求,和热点话题信息的高效获取需求。

在具体话题的选择上,根据用户兴趣点分布确定话题覆盖优先级。目前百度智能写作的文章已经涵盖电影,美食、旅游、汽车、创业、房地产等 50 多个话题,涉及社会、财经、娱乐等 15 个领域。

在数据方面,除了海量的全网优质数据,百度拥有大量的自建高质量数据,包括百度阿拉丁(优质资源开放平台)、百度知道、百度百科、知识图谱等,不仅可以支持基于结构化数据的文章生成,还可以支持基于内容聚合方式的文章生成。百度阿拉丁的时效性结构化数据,如体育比赛、彩票、股票信息、恶劣天气预警等,是速报类文章生成的数据基础。百度百科、百度知道和知识图谱是知识类文章生成的重要数据来源。以百度百科中的城市百科为例,城市百科中包含了大部分城市的景点、美食、文化排行榜数据,这些数据与对应景点、美食的描述数据相结合就可以生成城市旅游、美食、文化的介绍文章。同时,基于海量的用户行为日志数据,可以准确地捕捉对这些内容感兴趣的用户,就可以实现生成内容的个性化推荐和满足。

在技术方面,百度在内容理解、语言生成、知识推理、机器学习等方面的技术积累,是智能机器写作的重要技术基础。以资讯聚合类文章生成为例: 首先,聚合类文章的话题选择和资讯内容获取是基于内容理解和用户理解技术。利用百度自建的关注点图谱(主题、实体、事件标签以及标签间的关系)和标签预测技术,我们为每篇资讯内容打上关注点标签,同时根据用户的搜索或阅读行为可以获得用户的关注点标签,即用户的兴趣点。这样就获得了用户感兴趣的话题,同时基于内容标签可以获得相关话题的资讯内容。其次,基于内容理解和生成技术对于同一话题的内容进行压缩和聚合,相关技术包括:事件分析,话题聚类,事件脉络抽取,自动摘要,标题生成、结构生成等,而机器学习和知识推理是这些技术实现的基本方法。图 3 以事件脉络型文章的生成为例说明聚合类文章写作中所依赖的主要技术。可以看到,百度深厚的技术积累为智能机器写作提供了有力的技术支撑。

【阅读笔记】百度NLP | 智能写作(Writing-bots)设计精华_第2张图片


技术上最大的难点是什么?

 人类作者在撰写文章时通常会对数据、内容和话题进行深入理解,并可以进行演绎、推理和联想,从而完成更深入的报道,充分表达自己的观点和立场。而相比之下,机器则更长于数据分析和规范的写作,在自然语言深入理解,以及让稿件具有观点和立场等方面还有很大的提升空间。

(简单说:机器只能客观描述,很难提供主观观念。即使有,也是通过feature engineering或者引用别人,然后二次创作得到。)

就目前而言,智能写作会更聚焦用户需求,偏重数据分析和客观文章的撰写,致力于帮助内容创作者减少重复劳动,节省更多精力去撰写更加优质的深度内容。

(这一点很神髓——减少重复劳动,节省更多精力去撰写更加优质的深度内容。这边是AI与人最和谐的关系。)

百度推出了战略级产品百家号,并以百亿分成鼓励内容原创,如何看待智能写作机器人与内容生产者的关系?

智能写作与内容生产者之间主要有两层关系:

一是「代替」,将作者的重复性、规范性写作和客观数据聚合类劳动用机器进行替代,让作者可以更好的投入到深度文章的创作。

二是「服务」,人工智能可以通过大数据帮助编写深度文章的作者,进行语料、素材的高效率搜集与初级加工工作,同时也可以基于行业的深度结构化数据完成基础数据分析及文章生成工作,服务于内容生产者,提升他们的写作效率。而这也正是我们智能写作的未来的发展目标——人机混合编辑。

智能写作首先肯定是速度快,可以在短时间内搜集大量数据和信息完成创作,其次是有特别强的数据分析、收集能力。人一天看一百篇文章就很多了,但是机器则可以不知疲倦不停学习,随时随地收集和生产内容。尽管人类写作相对机器而言,时间较长,成本也较高,但人可以对一个事件进行演绎、联想,从更加丰富的层面上进行创作,表达自己的观点和立场,因而在深度撰写方面具有难以替代的优势.

(人会灵感枯竭。如果使用得当会成为帮助作者生产优质内容的贴心助理。)



end

你可能感兴趣的:(【阅读笔记】百度NLP | 智能写作(Writing-bots)设计精华)