超越GPT4 Turbo?科大讯飞发布星火认知大模型3.5版本

超越GPT4 Turbo?科大讯飞发布星火认知大模型3.5版本_第1张图片简介

1月30日,科大讯飞举行星火认知大模型V3.5升级发布会。科大讯飞董事长刘庆峰、研究院院长刘聪正式发布基于首个全国产算力训练的讯飞星火V3.5,七大核心能力全面提升。

功能展示多模交互

  • 多模理解:上传图片素材,大模型完成识别理解,返回关于图片的准确描述
  • 视觉问答:围绕上传图片素材,响应用户的问题,大模型完成回答
  • 多模生成:根据用户的描述,生成符合期望的合成音频和视频
  • 虚拟人视频:描述期望的视频内容,整合AI虚拟人,快速生成匹配视频

代码能力

  • 代码生成:智能生成单行或函数级代码建议;根据注释、函数名自动生成代码
  • 代码解释:类、函数及其作用逐一详解;支持逐行代码注释;学习海量范式,快速精准解读
  • 代码纠错:精准定位拼写、语法、逻辑错误;新老代码比较,支持一键修改
  • 单元测试:选中代码,一键生成单测用例;多主流单元测试框架;智能生成单元测试数据

本文生成

  • 商业文案:根据用户要求,创作具有吸引力与情感共鸣的商业文案
  • 营销方案:根据描述,创作多种形式的营销方案
  • 英文写作:使用英文完成多风格多任务的的长写作任务
  • 新闻通稿:根据新闻要素,创作严谨详实的新闻通稿

数学能力

  • 方程求解:包括一元二次方程、二元一次方程、三元一次方程等等
  • 几何问题:平面几何(如直线、圆、三角形等的性质)和立体几何(如体积、表面积、投影等)
  • 微积分处理:导数、积分等微积分相关的问题,涉及基本概念如极限、连续性、导数等
  • 概率统计:涉及随机变量、概率分布、假设检验等方面的内容

语言理解

  • 机器翻译:翻译多种语言的文字,包括英语、中文、法语、德语、西班牙语等常用语种
  • 文本摘要:根据文本提取简洁而准确的摘要,快速理解文章的核心观点
  • 语法检查:检查语法错误并提供正确的语法建议,使写作更加规范与专业
  • 情感分析:分析文本中的情感色彩,如正面、负面或中性,更好了解内容观点和态度

知识问答

  • 生活常识:提供有关日常生活的知识,如饮食、运动、旅游等方面的建议
  • 工作技能:提供工作方面的知识,如沟通技巧、时间管理技巧、团队协作等方面的建议
  • 医学知识:提供基本的健康保健知识以及疾病预防、诊断和治疗方面的建议
  • 历史人文:提供有关历史事件、文化传承、名人故事、名言警句等方面的文案

逻辑推理

  • 思维推理:通过分析问题的前提条件和假设来推理出答案或解决方案,给出新的想法和见解
  • 科学推理:使用已有的数据和信息进行推断、预测和验证等科学研究中的基本任务
  • 常识推理:在进行对话交流时,运用已有的常识知识来分析、解释和回应用户的提问或需求

实测结果讯飞星火认知大模型对外宣传数学能力超越GPT4 turbo,那么实测如何呢?超越GPT4 Turbo?科大讯飞发布星火认知大模型3.5版本_第2张图片

在SuperCLUE-Math6中文数据多步推理测评基准上,讯飞星火V3.5取得80.44的高分,较上一代讯飞星火V3.0有43.05分的提升;较GPT4略低3.42分,较GPT4-1106-Preview低7.32分。超越GPT4 Turbo?科大讯飞发布星火认知大模型3.5版本_第3张图片

讯飞星火V3.5在SC-Math6基准上准确率表现优异,取得78.81分,位列在榜国内模型中第二。两轮问题准确率差值在13.15分,在深入推理稳定性上较GPT4(差值7.93分)还有提升空间。

总结

从结果上来看,讯飞星火V3.5在数学多步推理能力上处于国内第一梯队但与GPT4还有一定差距。其中随着推理步骤的增加,讯飞星火V3.5在深入推理方面表现不俗,同时有很好的指令遵循能力。

你可能感兴趣的:(大模型,AIGC,AI,人工智能,AIGC)