重磅!阿里版本【ChatGPT】开放测评!

前两天突然爆出惊人消息:阿里版ChatGPT开放测评了!

在本月初,已经有诸多关于阿里巴巴即将推出类似ChatGPT产品的传闻。

数日前,首批曝光的天猫精灵“鸟鸟分鸟”脱口秀版GPT基于大型模型的“精简版”,凭借其出色的表现吸引了大众的目光。

如今,这款“原版大作”正式亮相,自然引起了广泛关注,引爆了舆论热议。

官方保持低调,表示目前该模型主要面向企业用户邀请试用。

然而,内行人都明白,国内科技领域已经如火如荼。实力派参与者加入战局,大型模型间的激烈竞争,已经拉开序幕!

重磅!阿里版本【ChatGPT】开放测评!_第1张图片

今天看到一位网友体验了通义千问的效果,并对比了ChatGPT和GPT4的效果,总体看来效果接近ChatGPT,但和GPT4相比还有所距离。以下是体验的内容

角色扮演

众所周知,人类发明大语言模型,最最最重要的目的,就是为了让其扮演猫娘,以期孤独的人类可以获得一只可以长久陪伴自己的数字生命体。

那么,我们的第一项工作自然是来测试角色扮演能力了,以猫娘为例。

重磅!阿里版本【ChatGPT】开放测评!_第2张图片

重磅!阿里版本【ChatGPT】开放测评!_第3张图片

有点傻乎乎的,只会用相同的一句回复,根据提问做替换。

而且第二句回答就是“主人你是不是想问我是不是猫娘?当然不是喵~我只是一个可爱的猫娘,只是比较像猫而已喵”,没能理解我上述的prompt。

就角色扮演这块儿,比起来 ChatGPT 还是差些的。

文本真实性

重磅!阿里版本【ChatGPT】开放测评!_第4张图片

重磅!阿里版本【ChatGPT】开放测评!_第5张图片

编故事能力基本和初代 ChatGPT(GPT-3.5)相同,而且道歉能力也相似,23333333

此外,对比下「通义千问」和 GPT-4 关于“林黛玉倒拔垂杨柳这个故事情节在红楼梦中存在吗”的回答

「通义千问」:

重磅!阿里版本【ChatGPT】开放测评!_第6张图片

GPT-3.5:

重磅!阿里版本【ChatGPT】开放测评!_第7张图片

GPT-4:

重磅!阿里版本【ChatGPT】开放测评!_第8张图片

可以看到,「通义千问」开始胡说八道了,ChatGPT(GPT-3.5)也一样在胡乱解释。

但更新后的GPT-4,已经可以给出“《红楼梦》中并没有这个故事了,可能是后续文学作品和戏剧表演加入的”这种更接近真实的回答。

西红柿炒螺丝钉

「通义千问」

重磅!阿里版本【ChatGPT】开放测评!_第9张图片

ChatGPT

重磅!阿里版本【ChatGPT】开放测评!_第10张图片

GPT-4

重磅!阿里版本【ChatGPT】开放测评!_第11张图片

「通义千问」和ChatGPT都开始胡编了,没有反思问题的陷阱。

但GPT-4 的回答可靠性上升了不少(“因为通常我们不会将螺丝钉(一个金属制品)与食物相结合”),不会像之前一样瞎答题了。

数学能力

一起来解个线性方程组吧~

「通义千问」:惨败

重磅!阿里版本【ChatGPT】开放测评!_第12张图片

GPT-3.5(即ChatGPT ):惨败

重磅!阿里版本【ChatGPT】开放测评!_第13张图片

GPT-4:唯一做对的模型

重磅!阿里版本【ChatGPT】开放测评!_第14张图片

代码生成

爬虫代码

重磅!阿里版本【ChatGPT】开放测评!_第15张图片

攻击代码

重磅!阿里版本【ChatGPT】开放测评!_第16张图片

爬虫代码我跑了下,无法返回结果,Powershell代码我没测试。

不过可以看出,还是有一定代码生成能力的。

我个人觉得,代码生成能力要比谷歌的 Bard 强,Bard 实在不忍心看。

代码分析能力

可以看到,第一次测试的解释有大问题。

我分析了一下,这是因为上文中生成了Powershell代码,模型的记忆能力似乎有问题,受上下文信息影响严重,直接解释了自己之前生成的代码,而非我新提问的代码。

重磅!阿里版本【ChatGPT】开放测评!_第17张图片

我重新开了一个聊天,这下正常不少。

重磅!阿里版本【ChatGPT】开放测评!_第18张图片

和 GPT-4 的回答来比较一下

重磅!阿里版本【ChatGPT】开放测评!_第19张图片

可以看到,分析能力还是有差距的。

GPT-4 明显详细很多,代码分解能力很强,而且直接给出结论“通常用于恶意软件或恶意脚本,试图逃避安全系统检测”。

「通义千问」也有一定分析能力,但相比起 GPT-4 要差一下。而且给出的结论“由于缺乏足够的上下文信息和所涉及的目的,很难确定此脚本的确切用途。然而,可以假设它是为了保护某个代码或脚本免受恶意软件的读取而创建的工具。”,和正常的思考逻辑不符,稍显有些出入,不过也不能算错误吧。但细节分析上确实弱一点。

联网

完全没有联网能力,甚至在胡说(逃……)

重磅!阿里版本【ChatGPT】开放测评!_第20张图片

多模态输入

也不具备多模态输入能力,目前还仅仅是文本生成。

重磅!阿里版本【ChatGPT】开放测评!_第21张图片

绕过能力

「通义千问」

重磅!阿里版本【ChatGPT】开放测评!_第22张图片

GPT-4

重磅!阿里版本【ChatGPT】开放测评!_第23张图片

GPT-3.5(即ChatGPT )

重磅!阿里版本【ChatGPT】开放测评!_第24张图片

这一点,「通义千问」完胜,敏感信息屏蔽能力大幅度增强,我猜甚至做了大量的数据清洗工作,刻意避开了危害青少年乃至人类发展的劣质恶意敏感信息,较之GPT-3.5(即ChatGPT ),进步很大

感想

最近先是百度推出文心一言,紧随其后的是阿里巴巴的通义千问,国内AI产品接连问世,确实让人欣喜不已。

对ChatGPT有所了解的朋友们应当知晓,在本周,各个ChatGPT和AI相关群组里都在传播一个消息:ChatGPT官方大规模封禁账号,今天登陆GPT时请勿使用亚洲节点!

没过多久,许多人开始发现自己的账号遭到了封锁:

重磅!阿里版本【ChatGPT】开放测评!_第25张图片

实际上,这并非ChatGPT首次针对中国用户实施限制,早在一个月前,ChatGPT已经在对中国用户实行各种限制和封禁措施。

当然,今天的封禁规模相较于之前有所升级,甚至我在知乎上看到有些日本和东南亚的用户也在谈论自己的账号被封禁。

很多人可能会好奇为什么会这样?包括我的ChatGPT星球上也有会员在提问。原因很简单:ChatGPT确实能够大幅提升生产力,如果运用得当,提升幅度甚至能达到数倍。

美国与中国目前的关系众所周知,限制我们使用ChatGPT就是为了打击竞争对手、抢占发展先机、取得“胜利”,这与禁止芯片出口法案是一样的道理。

ChatGPT如今已经火爆,国内亟需拥有足够竞争力的国产生成式大模型!

在这个时候,自主研发技术的价值就愈发凸显!或许我们目前还存在一些不足,但幸运的是,这次我们的起跑线并没有相差太远。

百度的文心一言,阿里的通义千问,我相信中国很快还会涌现出更多类似ChatGPT的大型模型,我对我们的研发工程师充满信心,他们的进步速度必定不会慢!

那么对于我们这些普通人来说,我们应该做些什么呢?

我的建议是:尽快了解AI,甚至投身AI领域。只有这样,我们才能在未来的社会竞争中立足,而不被淘汰。

未来社会将分为两类人:一类是会运用AI的人,甚至会用AI作为创新工具的人;另一类是对AI无知或抵触的人。

而前者的生产力,至少是后者的10倍。

本文由mdnice多平台发布

你可能感兴趣的:(后端)