探寻文本智能未来式,文心重磅升级文本处理功能

近日,百度语义理解平台文心(ERNIE)迎来重磅升级。新增文本实体抽取任务,升级定制文本分类网络,并在训练能力、部署方式等方面进行了一系列改进,进一步提升了NLP模型开发效率,开发者可在零门槛AI开发平台EasyDL体验文心新功能。

文心(ERNIE)是依托百度深度学习平台飞桨打造的语义理解技术与平台,集先进的预训练模型、全面的NLP算法集、端到端开发套件和平台化服务于一体,为企业和开发者提供一整套NLP定制与应用能力。

文心(ERNIE)官网地址:http://wenxin.baidu.com

为了让文心(ERNIE)的世界级技术突破转化为企业发展动能,在产业应用中发挥更大价值,文心还通过EasyDL平台提供了一整套简单高效的NLP开发能力。

EasyDL是百度大脑推出的零门槛AI开发平台,基于百度自主研发的深度学习平台飞桨,结合业界先进的工程服务技术打造,覆盖视觉与自然语言处理两大技术方向,支持一站式智能标注、模型训练、服务部署等全流程功能。开发者无须了解算法细节,最快5分钟即可上手定制模型。

图1:EasyDL文本处理开发服务全景图

截至目前,搭载文心的EasyDL文本处理能力调用量峰值超百万次,服务超千家合作伙伴,应用覆盖金融、安防、文创等多个领域,已助力众多企业迈出了智能化转型的关键一步。

此次文心在EasyDL文本处理功能上主要升级的功能如下:

新增文本实体抽取任务

文本实体抽取”作为文本挖掘和信息抽取的核心任务,支持从海量信息源中抽取出特定的事实信息,是信息检索、智能问答、智能对话等人工智能应用的重要基础。

文心全新上线的“文本实体抽取“任务,可以满足对文本中的命名实体进行快速有效的识别,比如抽取金融类文本中的企业主体、交易信息等。为提升该项能力的易用性,文心还提供系列配套开发服务,助力开发者更便捷地去完成。

· 在线智能标注,节约成本:针对数据准备难题,文心发布了“文本实体抽取”任务的数据标注工具,支持在文本中直接划选进行标注,给标注人员带来极佳的标注体验和更高的标注效率。

图2:文本实体抽取智能标注示意图

· 两种训练方案,弹性选择:开发者根据数据量情况灵活选择训练方案。若您准备的数据量较少(少于1000条),使用“高精度”算法会获得更好的训练效果;若您准备的数据量较充足,则可以使用“高性能”算法来训练模型,训练时长短,预测性能快。

· 预置模型与网络,开发更易:平台专业版在模型配置中,可以选择效果更优的ERNIE预训练模型和对应的预置网络,并支持网络代码修改,从源码级别提升模型定制灵活性,极大释放专家们的创造力。

升级文本分类-单标签任务

文本分类”可对文本内容进行自动分类和打标签。如在新闻推荐领域,《湖人大胜热火4-2夺第17座总冠军》属于体育类,《国家统计局4月CPI同比上涨3.3%》则属于经济类。

本次平台升级了文本分类(单标签任务)的模型网络,也提供高精度和高性能两种训练方案。基于平台提供的公开数据集(分类任务),使用“高精度”算法可得到90%以上的准确率;对于1W条以上的数据量,使用“高性能“算法可获得极致速度体验(通常15分钟左右可完成训练)。选择合理的训练方案,让模型训练达到事半功倍的效果。

提供更多高效开发能力

· 增加多机训练能力,加速模型训练

平台丰富了文本处理的多机训练能力,支持V100和P40两种GPU机型的训练方式,多个计算节点,加速模型训练;此外,平台还免费为每一位用户提供了50个小时的训练时长,0成本体验平台。

· 支持直接申请私有服务器部署,部署更快捷

此前,EasyDL文本处理已整合多种部署方式,包括弹性扩容的公有云API部署,通用设备端SDK与专项硬件适配SDK,本次优化还新增了模型本地私有服务器部署方式,可快速申请和获得所需的部署包,提供企业更多的AI落地方式选择。

图3:私有服务器部署入口

· 新增模型售卖与购买功能,节省成本提升效率

平台支持用户将训练好的“情感倾向分析”高精度算法模型发布到AI市场,供其他用户购买和再训练,开启模型交易新范式。您既可以作为模型的发布者,也可以是模型的购买者。对于已购买的模型,可以直接再训练和部署,大幅降低开发成本,并获得可预见的高精度模型效果。

图4:AI模型市场示意图

以上是本次升级带来的新增能力!深度学习背景下,实现NLP简单开发,就来EasyDL平台用文心!

未来,文心(ERNIE)将持续依托百度领先的技术实力,进一步释放AI技术的赋能效率,以更简单、普惠的方式进入NLP开发者世界,助力开发者创造更高商业价值。

你可能感兴趣的:(探寻文本智能未来式,文心重磅升级文本处理功能)