来自:python遇见NLP
2020年8月25日,百度语言与知识技术峰会于上午10点线上举行。由百度 CTO王海峰主持,为我们介绍了百度NLP十年来的发展,并发布产品、数据、算力。
2010年百度自然语言处理部成立,经过这10年的发展,百度获得了包括国家科技进步奖在内的20多个奖项,30多个竞赛冠军,发表了300多篇论文,申请了两千多项专利。
人工智能技术的发展,让老一辈科学家的科学畅想逐渐成为现实,我们可以透过机器翻译的发展历程,看到人工智能技术的演进。
十年来,百度如何布局和发展?王海峰表示:始终注意和把握两个趋势,即技术发展趋势和产业发展趋势,并力争引领趋势。
经过十余年的发展,百度NLP已形成完整的技术布局。
各部分关键技术和最新进展
首先是知识图谱,知识图谱是以结构化的形式描述真实世界中的实体、属性、关系等,是机器认知世界的重要基础,那么,如何构建知识图谱呢?互联网上有非常丰富的数据,比如以百度搜索引擎为例,搜索引擎背后是万亿级的网页,而每个网页又有很多知识,从这些多元异构的大规模数据中构建知识图谱,就可以得到非常庞大的知识图谱,而为此百度创新提出了一整套构建方法,包括:无标签大数据开放知识挖掘技术、知识体系自扩展的知识图谱自学习技术以及融合多源异构数据的知识补全和整合技术,开放知识挖掘技术从大规模开放文本中通过远距离监督学习构建大规模高质量训练语料,基于多维数据分析和语言理解技术自动获取知识挖掘模板,进而挖掘到大规模知识。有了这个基础的挖掘以后,做知识体系的自动扩展,我们先从大数据里得到一些候选的三元组,基于此再做类别关系的自动学习和属性体系的自动扩展,这里涉及到实体类别的判定、属性的聚类和更新,进而形成类别上下位体系和属性关系体系等等,进而进行图谱的更新,前两项工作做完之后,我们用基于语义空间变换的实体归一技术,融合多元数据进行知识的进一步补全和整合。基于上述技术百度构建了世界上最大规模的知识图谱。百度知识图谱现在已经拥有50亿实体和5500亿事实,图谱的类型也更加多样化,除了基础的实体图谱,
针对不同的应用场景和知识形态构建了不同的知识图谱,比如针对行业应用,有行业知识图谱,针对事件,根据发展脉络形成事件图谱,并可以进行小时级的更新,不断赋及动态产生的新知识。关联用户兴趣与互联网信息构成了关注点图谱,同时把语音、视频、图片等各种模态的信息融合进来构成多模态的知识图谱,现在我们的知识图谱应用于百度搜索等各类产品,也开放出来供各行各业使用,每天的调用量已经超过400亿次,比如在医疗行业,我们有医疗知识图谱,已经支持很多医疗机构的智能化应用,在金融行业,我们的知识图谱帮助金融机构做风控智能客服等等。有了知识我们来看看语言理解技术是怎么样基于知识得到增强的,首先是基础的语义表示,近两年,语义表示的技术很多,我们提出的知识增强的语义理解框架ERNIE在深度学习的基础上,融入了
知识,效果大幅提升,进一步的通过持续学习技术,不断吸收海量数据中的词汇、结构、语义等方面的知识,就像人类学习一样,知识增强和持续学习是ERNIE的两个核心创新点,在自然语言理解领域,最有影响力的评测Glue上ERNIE在10个任务平均得分首次突破90分大关,刷新该榜单历史,并且超越了人类得分,再来看持续学习的效果,在基线系统的基础上,通过持续学习的机制,在我们为系统增加百科知识、对话知识、篇章结构知识等等的时候,我们可以看到模型效果在持续提升,这是一个非常好的特性,跟人不断学习,不断进步,是类似的,这是我们非常希望看到的人工智能算法可以达到的效果,有了知识图谱和语义表示之后,我们可以进一步做语言的理解,这里以阅读理解为例,把知识作为背景信息融入文本的理解过程中,显著提升阅读理解的效果,例如:但使龙城飞将在,不教胡马度阴山这句诗,我相信大家都很熟系,那么,它的作者是谁呢?我们通过这段话看到,这段话里呢,有两个名字,一个是李广,一个是王昌龄,如果我们仅仅是简单的选其中一个名字作为答案,那就有50%的概率就错掉了,为了更好地找到正确答案呢,我们就需要融入知识,深入理解,从而知道王昌龄是这首诗的作者,而李广是诗中描述的飞将,我们的阅读理解技术,也在国际评测中得到了非常好的成绩,人类理解语言,除了阅读之外,还有人与人之间的交流,也就是对话,我们如何做对话的理解呢?首先从大规模跨任务的对话知识中,学习通用的语义表示,然后再利用小样本学习,为什么要小样本学习呢?我们有了前面语义表示的基础之后,真正要应用到一个新的领域的时候,往往这个新领域里,我们能拿到的语料数据并不多,这时候用小样本学习,快速提升新任务的对话理解能力,就变得非常重要,这里面涉及到,学习跨任务的对话知识,增强新任务小样本的学习能力,我们通过这样一套算法,使得一个新领域的对话效果可以得到迅速的提升,刚才讲了知识图谱、语义表示以及在此基础上的语言理解,人认知世界的时候,不仅仅是用自然语言,而往往是多模态的语音、视觉、语言等各种信号的综合运用,因此,我们从自然语言扩展到跨模态的语义理解,这时候涉及到语音、视觉等,不过要突破跨模态语义理解,会面临两大难题:一是不同模态的信息相互独立,彼此缺乏关联,二是不同模态的信息异构,与空间难以融合。针对这些难题,百度研制了知识增强的开模态深度语义理解方法,一方面,从多元异构大数据中构建大规模知识图谱,可以作为关联跨模态信息的桥梁,另一方面,语言可以描述不同模态信息的语义,通过知识增强的自然语言语义表示方法,解决不同模态语义空间的融合表示难题,从而突破跨模态语义理解的技术瓶颈,首先来看,图像和语言一体化的理解,以OCR为例,这里
的一张票据,我们把它拍成一张图片,首先要识别它的文字符号,同时识别它的版面结构等视觉信息,跟语言形成统一的语义表示,进而得到很好地识别效果,不仅是票据表格,卡证等等的识别,也都得益于跨模态深度语义理解技术得到了更好的效果,语音也是一样,语音其实和文字本来就有很强的关联,人发出的声音,声音背后其实是语言,过去几十年的发展,做语音识别的人就在做语义识别,做语言理解的人,则从语音识别的结果开始进行语言理解,相互之间是割裂的,现在我们把语言和语音进行一体化的理解,在语音识别阶段,融合进来语义模型,并进行语音语义融合排序,这样既提升了语音识别的结果,同时也为语言理解打下了更好的基础,在上述探索的基础上,基于预训练方法,我们进一步将场景图知识融入到视觉语言的预训练过程,从而提升跨模态的推理能力,该技术在多个跨模态任务上取得了很好地效果,前面讲了大规模知识图谱构建、语义表示、语言理解以及在此基础上的跨模态深度语义理解,下面我们看一下,基于这些技术突破为搜索引擎带来了哪些变化,传统的搜索引擎,通常是输入一个或者几个关键词,做一些简单的需求理解,而传统搜索引擎的核心则是排序,通过排序最后输出一个网页排序的结果,而过去这些年,百度搜索已经完全进化成了一个智能搜索引擎,首先从输入来看,体现在已经不仅仅是几个关键词,甚至也不只是一段文字写的一句话,而是可以是语音、图片,理解这些输入的信息,就是理解用户的需求,涉及到语言理解,也涉及到跨模态理解,另一方面是理解互联网上大量的内容,这样用户的需求,才能跟信息匹配得上,有了需求和候选信息以后做排序,而排序呢现在也是基于深度学习和语义表示融合起来的方法,还有结果的呈现,大家应该都会感受到,现在很多时候,搜索引擎会直接给一个答案,而且往往是图文并茂的多模态的答案,这些答案可以来自知识图谱,也可以来自对网页进行深度理解之后,找到的答案,当然啦,如果是知识图谱,知识图谱本身也是在不断更新的使得答案更加及时,更加精准,我们在这里看到不同的例子,有的是文字输入,有的是图像输入,有的是语音输入等等,语音既可以是输入的纯粹的中文,也可以进行中英文混合的输入,通过我们的知识图谱、语言理解、跨模态语义理解等技术,智能搜索可以帮助用户更加高效、精准、便捷的获取知识和信息,智能搜索进一步发展,搜索将无处不在。互联网也越来越发达,互联网上有大量的数据、知识和信息,从而形成了对真实世界的一个镜像,而搜索引擎通过抓取互联网上的内容,并且进行分析处理,实际上已经形成了对互联网的一个镜像,因此搜索引擎也间接地形成了真实世界的镜像,而搜索引擎有了人工智能技术的加持之后,进化成智能搜索引擎,每天被大量的使用,在使用的过程中,它背后的数据、知识、算法等都在不断的更新,这样搜索引擎,通过对真实世界的镜像,已经形成了一个非常庞大的对于真实世界的认知,我们知道,通用人工智能还很遥远,但随着这个认知不断增强,可以不断的朝通用人工智能的方向迈进,在自然语言处理技术中,还有一个重要的任务是语言生成,语言生成技术是研究让机器使用自然语言进行表达和写作,基于预训练技术的成功经验,我们提出了基于多流机制的语言生成预训练技术,在语言生成的过程中,兼顾词、短语等不同粒度的语义信息,显著提升了生成效果,同时,应用效果也有大幅提升,百度也探索了多文档摘要生成,通过图结构语义表示,引入篇章知识,一方面增强了长文本的语义表示能力,另一方面,解决了,跨文档语义关系建模难题,在单文档和多文档摘要上,都取得了很大的效果提升,语言生成技术在结合其他语言与知识技术,我们打造了智能创作平台,包括辅助创作和自动创作等能力,在各个环节,全方位帮助进行智能创作,现已有20多家媒体在使用,日调用量超过35万次,有了知识以及语言理解和生成,我们来看一下,这些技术的综合应用--对话系统,首先是基于知识的对话框架,基于知识理解对话意图,规划对话路径,满足用户需求,同时基于用户的反馈,学习和积累知识,基于知识的对话框架使得对话系统体验更好、效率更高。在上述的对话框架下,我们提出了知识图谱驱动的对话控制技术,利用知识图谱提供的语义内容和关联信息,帮助对话系统,自动规划话题路径,知识之间的关联关系使得话题可以自然切换,显著提高对话流畅度和逻辑性,在对话生成方面,百度研发了首个基于隐空间的大规模开放域对话模型,借助隐空间建模不同的对话回复方式,在对话合理性,内容丰富度,吸引力等方面,效果突出,中英文效果上都超越了最好的模型和系统,在基于知识的对话框架里,我们实现了在线交互学习,通过主动向用户发起澄清交互,利用用户的反馈,学习新的知识,持续优化对话效果,整和上述技术,百度研制了智能对话定制与服务平台,帮助开发者高效构建智能对话系统,实现规模化应用,以上介绍了知识图谱以及针对一种语言的理解、生成对话的技术,在人工智能领域,还有一个经典难题,就是我们开头提到的翻译,打破不同语言之间的沟通交流障碍,百度自2010年开始研发大规模互联网机器翻译,在大规模翻译知识获取、翻译模型、多语言翻译、同声传译等方面创新突破,研发了领先的互联网翻译系统,产品形式多样,实现了机器翻译的大规模产业化应用,在机器翻译技术方面提出了多智能体联合学习等多项创新技术,效果领先,并在国际评测中获得第一,机器同声传译方面,首次提出了基于语义单元的同传模型,结合全局话题及上下文信息,进行翻译,实现了高质量、低延迟的同声传译系统,达到了与人类译员相当的速度和水平,针对很多语种数据稀缺问题,提出了稀缺语种分组混合训练算法和多语言联合编码框架,实现了200多种语言的互相之间的翻译,截止目前,百度翻译已经支持200多种语言,每天响应超过千亿字符的翻译请求,支持超过40多万家第三方应用,机器翻译帮人们跨越语言鸿沟,促进国际经济贸易与文化交流,在我们的生产生活中,发挥了越来越重要的作用。过去10年,这些技术结出了累累硕果,也获得到了广泛应用,这些技术成果对百度更快更好的应用于各行各业,助力产业智能化升级提供了有利保障,百度语言与知识技术以平台化的方式输出,赋能互联网、金融、医疗、教育等千行万业提升智能化水平,这是基于百度语言与知识技术的产品全景,基础平台是语义理解技术与平台文心,能力引擎包括知识图谱技术、文本理解与生成技术以及机器翻译技术,定制化平台包括文档分析平台、对话定制平台、智能创作平台以及知识生产和应用的知识中台,基于这些能力和平台,支撑智能搜索、智能推荐、智慧城市、智慧医疗等各行各业的应用。
百度语言与知识产品(5款)发布
文心
首先介绍语义理解技术与平台,可持续学习的知识增强与语义理解技术ERNIE,去年一经推出,全面刷新了各项NLP任务的效果,百度在ERNIE核心技术基础上,延展开发了语义理解技术与平台,并取了中文名文心,意义取自文心雕龙,随着企业智能化转型的深入,让机器做文本处理的需求广泛存在,通用算法API已经无法满足这么多场景了,而传统NLP定制的方法成本高,耗时长,可迭代性差,文心就是帮助企业开发者更低门槛,更方便的将最新的语义理解技术,应用于自己的场景当中。文心基于深度学习平台飞桨打造,充分享受到飞桨的高性能并行计算能力和推理预测能力,依托领先的语义理解核心技术,集成优秀的预训练模型,全面的NLP算法集,端到端开发套件和平台化服务,提供一站式NLP开发与服务,让开发者更简单、高效的定制企业级NLP模型,文心基于预训练结合微调的全新NLP研发范式,针对数据处理、模型训练、模型评估、模型部署等环节,提供了一整套的工具,一站式的满足NLP模型开发者在开发当中的各个环节的需求,针对不同企业NLP开发者需求,文心提供公有云、私有化两种服务,文心全面的降低了NLP定制开发的成本,我们可以从三个方面来看,首先是数据标注成本的降低,文心具备非常强的语义理解能力,能够极大量的降低数据标注成本,例如训练一个准确率达到90
%的模型,传统的方法平均需要5100条数据,而在文心上,平均只需要220条数据,可以降低90%的数据标注量,第二方面,看看算力的成本下降,NLP技术到了预训练时代,想要取得一个效果出色的NLP模型,少不了基于预训练模型的研发,而自研预训练模型,依赖大规模分布式算力投入,成本非常高昂,文心集成了ERNIE预训练模型,企业只需要在单机上微调就可以取得世界领先效果的NLP模型,极大地降低了算力成本,第三,在开发时长方面,基于文心提供的预训练发开范式和全流程的开发工具,开发者仅需要配置或者编写少量的代码就可以完成从模型训练模型评估,从模型调优到模型部署整个的研发流程,传统研发需要一周的工作量,一天现在就可以完成了,文心语义理解与技术平台经过了大量真实场景淬炼,具备优秀的工业级落地实例,当前文心已经应用于百度的广泛的产品当中,包含有搜索引擎、推荐系统、智能音箱、智能客服等等,同时文心已经累计支持了业界2万余名的开发者,覆盖了金融、通讯、教育、电商等各行业,显著的提升了企业应用效果和效率,文心为企业开发者提供全面的NLP定制能力。
TextMind
当在企业的文本智能化具体场景当中,文档解析是很重要,很迫切的一个场景,此次全新发布的智能文档分析平台TextMind为企业提供一站式的文档规范化解析方案,合同式企业商业活动当中很重要的证明文书,传统的人工审核方式存在着效率低下,漏查漏报的风险,为企业的商业活动会造成很大的风险,通过人工智能辅助审核的方式,可以极大地提升审核效率,降低漏审的风险,TextMind是针对此类场景的企业文档分析平台,目前已提供包括合同比对、合同审核、合同解析等在内的一站式解决方案,同时TextMind和知识图谱的能力结合,能够发现更多在合同当中隐含的法律风险,TextMind的底层基于OCR和NLP技术,以文挡解析为核心能力,具备文档比对、审核的能力,支持丰富的应用,它的特点可以总结为多、快、好、省四个字,多是指支
持多种格式、20类文档,快是能够显著的提升企业文档处理效率,例如,企业报销场景,之前一般需要3-5个工作日,现在一分钟就可以完成,好是指效果好,TextMind预置了多项文档解析能力,例如简历解析、合同比对、银行回单解析等等,支持开箱即用,不用优化就可以有很好地效果,同时内置的openkv抽取工具,用户无需做任何标注,就能自定义文档解析的模型,对于常用的解析字段,可以达到100%的准确率,非常用字段,可以达到90%以上的准确率,那么相当于其他工具,需要每个字段进行1000个以上的标注数据训练之后的效果,第四点是省,在文档规范化解析的人力成本上,可以降低80%以上。
上面两项是语义理解的产品,下面介绍语义生成的产品。
智能创作平台
2019年初百度智能创作平台正式上线,本次平台升级发布推出面向媒体行业的场景方案,智能创作平台已经具备了丰富的辅助创作和自动创作的多项能力,广泛的服务于内容创作单位与个人,推出图文转换视频能力上线以来的4个月时间里,7000多家客户使用了,自动创作短视频有15万,相当于一个人至少要工作100年,一年多以来的自动创作文章有累计200多万,一个10人的团队需要工作至少45年才能达到这样的产能,在媒体行业,已经落地了有20多家机构,包括有人民日报、央视网等等,这些合作让我们更理解媒体行业的需求,逐步围绕策、采、编、审建立起场景方案,本次百度推出智能策划、智能采编和智能审校三大场景方案,首先看智能策划,如今资讯信息爆发,信息庞杂零散,发展变化极快,人们难以去把握要点和热点,对于关注的信息也难以持续的进行追踪和深入分析,我们在平台上汇聚了全网数据资源,利用知识图谱与自然语言处理的技术,对数据进行深度的理解和分析,围绕媒体行业推出系列智能策划场景方案,高时效性的汇聚全网主流媒体线索,关联分析得到行业地域的热点信息,针对专题深度挖掘和监测,用智能化的数据工具,帮助媒体人丰富选题思路,提升创作效率,那么5G+高新技术+人工智能的媒体创新与应用推动下,媒体内容的采编,在丰富性、多元化、高时效性上的要求越来越高,因而基于融合文本、视觉、语音的跨模态的AI技术,百度也推出了智能采编方案,业界领先的AI技术进行了加持,助力多元媒体内容素材的理解、检索和推荐,那么不仅在文章创作上提供多样应用的工具,在视频生产上,也整合了视频编辑、图文与视频互相转换等实用能力,助力媒体人高效生产,将更多的精力用于创新和创意,实际应用当中,帮助视频生产速度达到原有的6倍,一年可节省约500万成本,本场景方案将于10月邀测使用,第三个场景方案是智能审校,媒体行业有着非常严格的审校环节,人工成本很高,压力很大,智能审校场景方案结合多项实用能力,包括有面向错别字、语法、专有名词的纠错、一致性的检查、格式校对等等,并提供api云端服务接口、轻量级插件等使用方式,用机器一定程度上替代人来开展相对机械的或者是知识和大数据就可以明确指导的审校工作,让媒体人有更多精力投入到更具有创造性的工作当中,这个场景方案,也是会在10月份邀测使用,以上是面向媒体创作新推出的三个场景方案,下面介绍对话方向上的产品升级。
UNIT
去年5月百度推出UNIT3.0智能对话引擎,UNIT再次升级,进一步降低任务式对话、智能问答的定制成本,并融合通用对话能力提升交互体验,我们先来看看UNIT的全景图,UNIT本身提供了低成本、专业的、全方位智能对话能
力与建设服务,和语音技术平台联合配合,在重点应用场景推出了预置的场景化解决方案,一方面直接服务于智能对话系统的开发者,另一方面,通过智能云、小度车载OS、DuerOS等进行输出,同时也会提供培训、认证、顾问等生态服务,自发布以来,UNIT上已经有2.7万多的开发者,累计知识条目总量达到2.4亿,支撑了超过10万个智能对话应用,与最终用户总计进行了超过4200亿次的交互,为了让开发者更加高效的获得高质量的对话理解能力,UNIT本次重点升级了三项技术,数据标注的成本进一步降低有30%以上,首先是前面已经介绍了小样本意图理解能力升级,已经更新到UNIT当中,每个意图提供大约10个标注样本,就可以达成高准确率的意图识别,显著的降低了数据标注成本,同义词的富集是另一项成本很高的工作,为了保证自定义词槽的识别效果,开发者往往需要针对说法多变的词槽值提供若干的同义词,UNIT基于开发者给定的自定义词槽值自动为开发者推荐了口语化的同义词,而词槽和词槽之间的关联关系也非常重要,比如说,别走北四环,这其实是一个否定的说法,还有像点三杯咖啡,一杯热的,两杯加冰的,这种复杂的词槽之间有关联的表达方式,即使我们把词槽都识别正确了,但是在业务上还是需要复杂的逻辑才能够真正分析清楚实际的需求,现在呢UNIT基于最新升级的依存句法分析技术和通用关键词识别技术,为开发者带来了词槽修饰关系的识别能力,修饰关系包含有对单一词槽的否定修饰,以及两个词槽之间的数量和偏正等关系,具备修饰关系的词槽在用对话理解结果当中会被自动关联,也会显著的降低开发者的分析难度,表格问答是通过对表格的分析,自动化的构建基于表格内在知识的这样一个能力,通过结合所构建的知识,能够对用户所提出的问题,进行自动的理解,分析出相应的答案,同时对口语化Query的特定优化,另表格问答具备了非常好的口语化交互效果,更适合在对话场景当中使用。开发者只需要上传业务数据表格,经过在UNIT上自动的一分钟分析后,产出的问答机器人,就可以准确的回答大部分基于这些表格的事实性问题,那么我们再加上有一小时左右的人工智能辅助调优之后,问答机器人达到的水平相当于以往通过至少两周的人工整理FAQ建设的问答系统的水平,以往在UNIT平台上,开发者可以自定义任务式的对话系统,但是聚焦于执行具体任务的对话机器人,经常会出现用户面对它却不知道该说点什么的这样一个状态,前面已经介绍过业界领先的PLATO技术,现在也已经集成到UNIT当中,PLATO除了能够作为通用对话技能单独被使用,UNIT还推出了新一代融合任务式对话和通用对话的引擎,利用这种通用对话的主动式人性化交互,提升用户的体验,同时动态分析当前的对话进程,适当的用推荐引导的方式,尝试触发任务式对话,满足用户的具体需求,这样可以使得开发者基于UNIT所开发的对话能力更加的流畅和自然,以上是UNIT平台的三大升级点,让对话系统有更低的定制成本和更好的交互体验。
AI同传会议解决方案
基于机器翻译技术的AI同传,伴随近几年的技术突破,结合产品的设计,AI同传已经逐渐走向实用,百度自2017年推出同传系统以来,百度AI同传已经有丰富的产品形态,包括有桌面助手,翻译App同传功能等等,本次我们聚焦在全新发布的AI同传会议解决方案上,百度的解决方案覆盖会议全场景,提供全流程的服务,致力于成为你的随身会议同传专家。一台电脑、一部手机快速的搭建一套同传服务,本次推出的AI同传会议解决方案,覆盖会议全场景,
无论线上远程会议室,还是线下会议,无论主题演讲,还是多人讨论,使用这一套解决方案,都可以做到每一场会议,都能彼此听懂,在邀测期间我们已经支持了上百场会议,覆盖了数十个领域,是一套经过了实践检验、成熟可靠的解决方案,这套解决方案的另一个特点,是在会议的每一个环节,服务都不缺席,当下全球各种领域的交流大爆发,在会议前,需要根据会议涉及的特定领域进行术语定制,以应对纷繁的专业议题中独有的释义,让翻译更准确,在会议中,支持双语字母投屏和手机边看边听,当然在会议中,也可以随时进行术语的干预,并可以实时生效,在会议结束后,还会自动生成会议记录,并保存到网盘当中,随时可以再回过头来查看,同时这套方案中使用的AI同传技术也同步面向所有开发者进行开放,最后总结一下,基于百度语言与技术的丰厚积累,我们本次发布了文心、TextMind、AI同传会议解决方案三项新的产品,以及六项重要升级。
前面介绍了百度语言与知识技术的发展历程,最新成果,以及面向产业应用发布的新产品,我们看到深度学习的发展,知识的引入和运用,使语言与知识技术取得了显著进步,产业应用越来越深入和广泛,不过,语言与知识技术的进一步发展,仍然有很多技术难题需要我们去研究和解决,首先复杂知识表示和快速构建技术,对于产业应用,一个企业如何更快速、高效的构建知识,应用知识,使知识进一步广泛应用所需要解决的问题,其次,知识与深度学习进一步融合,深度学习技术从大量的数据中学习,训练模型,但难以充分学习和利用更深层次的知识,因此,进一步融合知识与深度学习,探索学习机制,是重要且前沿的研究课题,第三,深度融合感知与认知技术的跨模态语义理解,在实际应用中场景复杂多变,歧义情况严重,机器需要综合利用语音、文字、图像、视频等跨模态信息,获得对事件的统一认知和理解,这方面还有很多值得继续研究的问题,还有模型的可解释性,鲁棒性,这也是当前人工智能技术和应用要解决的普遍共性问题,对于技术突破与产业应用都具有重要意义。
数据和算力两大计划发布
千言计划
当前制约中文信息技术处理领域发展的一个瓶颈问题就是缺少标准的开源中文数据集,和可以快速上手的基线系统
——孙乐(中国科学院软件研究所特聘研究员
中国中文信息学会副理事长兼秘书长)
我们清晰的看到,语言与知识技术在发展过程中也迎来了新的趋势和挑战,除了这些技术挑战,语言与知识技术在大规模产业化应用中,也面临新的难题,一共有三个挑战,第一个是在大规模应用中,我们通常希望模型具有全面的处理多个子任务的能力,第二个挑战是在应用中很难保证,应用场景的数据分布与训练数据相同,因此要求模型在跨领域数据上有较好的泛化能力,第三个挑战是,目前基础神经网络的模型往往不够健壮,但在应用过程中,我们希望模型有足够的鲁棒性,才能保证应用的安全以及良好的用户体验,上述的这些挑战,是目前研发算法的过程中,重视不够的,在过去大多数技术研发,关注模型在单一数据上的效果,而对模型的全面性、泛化性、鲁棒性重视不足,为了应对在技术发展和大规模产业化应用中所面临的新的挑战,百度联合中国计算机学会、中国中文信息学会共同发起了千言数据集项目,千言是面向自然语言处理的中文开源数据共建计划,由来自国内多家高校和企业的数据研发者共同建设,千言的目标是覆盖丰富的任务类型,从复杂知识构建、语义理解、知识融合、跨模态融合等角度推进技术的进步,同时提供多维度综合评价的数据集,从而评价模型的全面性、泛化性、鲁棒性。
算力计划
除了数据以外,语言与知识技术发展中所面临的另外一个挑战是对算力的需求。近年来,尽管超大模型的深度学习取得了显著的技术提升,但在算力的需求也呈爆炸性增长的趋势,算力的缺乏已经成了许多开发者、研究人员科研过程中的一大障碍,为了应对算力需求的挑战,正式发布百度语言与知识算力助力计划,在这个计划中对外开放共享百度的算力,助力广大开发者和研究人员进行更好的技术研发,通过AI studio平台为语言与技术的开发者提供价值一亿元的算力支持,后续会邀请千言数据集的使用者、百度语言和知识开源开放技术用户以及更多的中文语言与知识技术开发者、研究人员免费使用这些算力。
图文素材来源:2020百度语言与知识技术峰会
说个正事哈
由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:
(1)点击页面最上方“深度学习自然语言处理”,进入公众号主页。
(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。
感谢支持,比心。
投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。
记得备注呦
推荐两个专辑给大家:
专辑 | 李宏毅人类语言处理2020笔记
专辑 | NLP论文解读
整理不易,还望给个在看!