2021-04-19

博人眼球的270亿究竟是啥?没有具体介绍

  • 体验了一下,可能是打开方式不对,总感觉没那么带感,测试截图如下:
  • 背景:今日,阿里巴巴达摩院发布中文社区最大规模预训练语言模型PLUG,其参数规模达270亿。近期将开源阿里巴巴深度语言模型体系大部分重要模型。PLUG全名为Pre-training for Language Understanding and Generation,集语言理解与生成能力于一身,在小说创作、诗歌生成、智能问答等长文本生成领域表现突出。
    1、网站:https://nlp.aliyun.com/portal#/BigText_chinese
    下午2点左右点击3次都超时,试用还挺火爆
    image.png

    晚上11点再测了一下,感觉结果生硬,关键字搜索结果凑的
    image.png

    阿里响应还挺快,下午还没有红字提醒访问量大的问题,晚上就有提醒

2、情感偏向,不怎么准


image.png

3、行业的词汇待添加,目前电商用语较完整
分词的行业词汇还没有添加,估计只对电商的词分的比较准


image.png

4、词性标注也有问题,1季度居然是其他名词,不识别
同一个时间,自己分词为年,居然有中文的不识别为时间
image.png

image.png

5、中心词提取更诡异


image.png

6、文本纠错逗到不行
image.png
  • 我感觉离真正能够使用还有很久

  • 当然,现在80%的概率认为ok,不能苛刻要求全对,但重要的就是那20%,总之,中文的识别分析自动化目前还有提高空间

  • 我在想:
    是否是因为阿里这么多文本,不是标准的高质量的文本,再多也不够 ?
    难道学习方向上应该按标准的字词句篇组成形式来学习?
    现在是按实际使用的文本来学习概率,因为没有标准,参差不齐?
    还是说本来厉害的标准用语的使用人群没那么多时间逛淘宝,喜欢长时间刷淘宝的可能用语都比较随意?
    用比较随意的语言文本,再多,会不会也很难做标准的高雅的拿得出手的创作(小说创作、诗歌生成毕竟还是有审美门槛的)?

它山之石可以攻玉
我就想问:
这个中文最大规模预训练模型之于我们,可不可用?什么场景使用?怎么使用?

你可能感兴趣的:(2021-04-19)