2022年年末,ChatGPT聊天机器人的问世,标志着人工智能生成内容(Artificial Intelligence Generated Content,AIGC)类的人工智能(AI)技术将对科研人员的工作方式产生巨大影响。
ChatGPT是一个大型语言模型(Large Language Mode,LLM)的机器学习系统,可以自主地从数据中学习,在对大量的文本数据集进行训练后,可以输出复杂的、类人的的作品。它是加州旧金山的人工智能公司OpenAI和其他公司发布的一系列此类模型中最新的一个。ChatGPT引起了学界的兴奋,同时也引发了担忧。因为它是首批能够令人信服地用英语和其他语言与用户就广泛的话题进行交流的模型之一。ChatGPT具有免费的、易于使用,并不断地进行学习等特征。
AIGC对科学和社会有着深远的影响。研究人员和其他人已经使用ChatGPT和其他大型语言模型来撰写论文,与ChatGPT进行对话,总结文献,撰写和改进论文,以及确定研究差距和编写计算机代码,包括统计分析。很快,这项技术将发展到可以设计实验、撰写和完成手稿、进行同行评议和支持编辑部决定接受或拒绝来稿。
对话式人工智能可能会彻底改变研究实践和出版行业,既创造机会,也带来担忧。它可能会加速创新进程,缩短出版时间,并通过帮助人们流畅地写作,使科学更加公平,增加科学观点的多样性。然而,它也可能降低研究的质量和透明度,并从根本上改变我们作为人类研究者的自主权。ChatGPT和其他大型语言模型产生的文本令人信服,但往往是错误的,所以它们的使用会扭曲科学事实,传播错误信息。
我们认为,AIGC技术的使用是不可避免的,因此,禁止它是不行的。当务之急是,学术界应共同商讨这一潜在的颠覆性技术的影响的。在此,我们概述了五个关键问题,并提出了相应建议。
务必要人工持续对模型的校对
经过多年的发展,大型语言模型的数据集的质量和规模在不断增加,并通过采用人类反馈来校准这些模型的复杂方法,使它们突然变得比以前更加强大。大型语言模型将激发新一代搜索引擎的出现,能够对复杂的用户问题产生详细的、信息丰富的答案。
但使用对话式人工智能进行专门研究很可能会导致不准确的输出、带有偏见的输出和甚至出现剽窃的内容。我们给ChatGPT提出了一系列需要深入了解文献的问题和作业,发现它经常产生错误和误导性的文本。例如,当我们问 "有多少抑郁症患者在治疗后会复发?"时,它产生了一个过于笼统的文本,认为治疗效果通常是持久的。然而,许多高质量的研究表明,治疗效果会减弱,在治疗完成后的第一年,复发的风险在29%到51%之间。重复同样的查询产生了一个更详细和准确的答案。
接下来,我们要求ChatGPT总结一下《美国医学会精神病学杂志》上撰写的关于认知行为疗法(CBT)对焦虑相关疾病的有效性的系统回顾。ChatGPT编造了一个令人信服的回应,其中包含了一些事实错误、错误陈述和错误数据。例如,它说该评论文章是基于46项研究(实际上是基于69项),更令人担忧的是,它夸大了CBT的有效性。
这种错误可能是由于ChatGPT的训练集中没有相关的文章,未能提炼出相关的信息,或者无法区分可信和不太可信的来源。看来,经常导致人类误入歧途的偏见,如可获取性、数据选择和偏见,在对话式人工智能中也会重现,甚至经常被放大。
使用ChatGPT的研究人员有可能被错误或有偏见的信息所误导,并将其纳入他们的思维和论文中。由于光环效应(一种从少数突出的正面印象中过度归纳的倾向),注意力不集中的审稿人可能会被人工智能撰写的论文的华丽词藻所蒙蔽而接受。而且,由于这种技术通常是在没有可靠地引用原始来源或作者的情况下复制文本,使用这种技术的研究人员有可能不对早期的工作给予肯定,不知不觉地剽窃了许多未知的文本,甚至可能泄露了自己的想法。研究人员向ChatGPT和其他大语言模型透露的信息可能会被纳入模型,聊天机器人可以将其提供给其他人,而不被承认为原始来源。
假设研究人员在工作中使用大语言模型,学者们需要保持警惕。专家对事实检查和验证过程将是不可或缺的。即使大语言模型能够准确地加快摘要、评价和评论,高质量的期刊也需要加入人工验证步骤,甚至禁止某些情况下这种技术的应用。为了防止人类自动化偏见(过度依赖自动化系统),强调问责制的重要性将变得更加关键。我们认为,人类应该始终对科学实践负责。
现在已经有工具可以检测一篇文章是来自机器还是人类的可能性。这类工具对于检测论文工厂和掠夺性期刊不可避免地利用大语言模型制造内容可能很有用,但这类检测方法很可能被进化的AI技术和聪明的提示所规避。与其在人工智能聊天机器人和人工智能聊天机器人检测器之间进行徒劳的军备竞赛,我们认为学术界和出版商应该研究出如何以诚信、透明和诚实的方式使用大语言模型。
研究性论文中的作者贡献声明和致谢应清楚而具体地说明作者在准备稿件和分析时是否使用了ChatGPT等人工智能技术,以及使用的程度如何。他们还应该指出使用了哪些大语言模型。这将提醒编辑和审稿人更仔细地审查稿件,以发现潜在的偏见、不准确和不当的来源。同样地,科学期刊在使用大语言模型方面也应该透明,例如在选择提交的稿件时。
研究机构、出版商和资助者应该采取明确的政策,提高对对话式人工智能在准备所有可能成为出版记录一部分的材料方面的认识,并要求透明度。出版商可以要求作者证明这些政策得到了遵守。
就目前而言,大语言模型不应成为论文的作者,因为他们无法对自己的工作负责。但是,研究人员可能越来越难以确定大语言模型在其研究中的确切作用。在某些情况下,ChatGPT等技术可能会根据作者的提示生成论文的重要部分。在其他情况下,作者可能已经用人工智能作为语法或拼写检查器进行了多次修改和改进,但没有用它来编写文本。在未来,大语言模型可能会被纳入文本处理和编辑工具、搜索引擎和编程工具。因此,它们可能会对科学工作做出贡献,而作者不一定知道其贡献的性质或程度。这违背了今天对作者身份、剽窃和来源的二元定义,即某人要么是作者,要么不是,来源要么被使用,要么没有。政策将不得不进行调整,但完全透明将始终是关键。
由人工智能设计的发明已经引起了对专利法的根本性反思,并且已经就用于训练人工智能的代码和图像以及由人工智能产生的代码和图像的版权提起了诉讼(见go.nature.com/3y4aery)。在人工智能写的或辅助的论文中,研究人员和法律界也需要弄清楚谁拥有这些文本的权利。是写人工智能系统训练的文本的个人,还是生产人工智能的公司,或者是使用该系统来指导他们写作的科学家?同样,必须考虑和界定作者的定义。
目前,几乎所有最先进的对话式人工智能技术都是少数拥有人工智能开发资源的大科技公司的专有产品。OpenAI主要由微软资助,其他主要科技公司也在竞相发布类似的工具。鉴于少数科技公司在搜索、文字处理和信息获取方面的近乎垄断地位,这引起了相当大的道德担忧。
对研究界来说,最直接的问题之一是缺乏透明度。ChatGPT及其前身的基础训练集和大语言模型是不公开的,科技公司可能会隐瞒其对话式AI的内部运作。这与透明度和开放科学的趋势背道而驰,也使我们很难发现聊天机器人知识的起源或差距。例如,我们促使ChatGPT解释几个研究人员的工作。在某些情况下,它对那些根据h-index(一种衡量其工作影响的方法)可以被认为不太有影响力的科学家进行了详细的描述。虽然它对一组h- index在20左右的研究人员来说是成功的,但它却未能产生关于几个高引用率的著名科学家--甚至是那些h- index超过80的科学家的工作的任何信息。
为了应对这种不透明性,应该优先考虑开发和实施开源人工智能技术。大学等非商业组织通常缺乏必要的计算和财政资源,无法跟上大语言模型发展的快速步伐。因此,我们主张科学资助组织、大学、非政府组织(NGO)、政府研究机构和联合国等组织--以及科技巨头--对独立的非营利项目进行大量投资。这将有助于开发先进的开源、透明和民主控制的人工智能技术。
批评者可能会说,这样的合作将无法与大科技公司相抗衡,但至少有一个主要是学术性的合作,BigScience,已经建立了一个开源的语言模型,称为BLOOM。科技公司可能会从这样的计划中受益,将其模型和语料库的相关部分开源,希望能创造更多的社区参与,促进创新和可靠性。学术出版商应该确保大语言模型能够获得他们的完整档案,这样模型产生的结果才是准确和全面的。
随着学术界的工作量和竞争加剧,使用对话式人工智能的压力也在增加。聊天机器人提供了快速完成任务的机会,从努力完成学位论文的博士生到需要为他们的资助提案进行快速文献综述的研究人员,或者在时间压力下提交分析报告的同行评审员。
如果人工智能聊天机器人可以帮助完成这些任务,结果可以更快地发表,让学者们腾出手来专注于新的实验设计。这可以大大加快创新,并有可能导致许多学科的突破。我们认为这项技术有巨大的潜力,只要目前与偏见、出处和不准确有关的磨合问题被解决了。重要的是要检查和推进大语言模型的有效性和可靠性,以便研究人员知道如何将该技术明智地用于具体的研究实践。
有些人认为,由于聊天机器人只是学习其训练集中单词之间的统计关联,而不是理解它们的含义,所以L大语言模型永远只能回忆和综合人们已经做过的事情,而不能表现出科学过程中人类的某些方面,比如创造性和概念性思维。我们认为这是一个不成熟的假设,未来的人工智能工具可能能够掌握今天看来遥不可及的科学过程的各个方面。在1991年的一篇开创性的论文中,研究人员写道,人和智能技术之间的 "智能伙伴关系 "可以超越人单独的智力能力。这些智能伙伴关系可以超越人类的能力,将创新加速到以前无法想象的水平。问题是自动化可以和应该走多远?
人工智能技术可能会重新平衡学术技能组合。一方面,人工智能可以优化学术培训--例如,通过提供反馈来提高学生的写作和推理能力。另一方面,它可能会减少对某些技能的需求,如进行文献搜索的能力。它也可能引入新的技能,如提示工程(设计和制作用于提示对话式人工智能模型的文本的过程)。某些技能的丧失不一定是问题(例如,大多数研究人员不再亲自进行统计分析),但作为一个社会,我们需要仔细考虑哪些学术技能和特征对研究人员仍然是必不可少的。
如果我们只关心性能,随着人工智能技术的发展,人们的贡献可能会变得更加有限和模糊。在未来,人工智能聊天机器人可能会产生假设,制定方法,创建实验,分析和解释数据,并撰写论文。代替人类编辑和审稿人,人工智能聊天机器人也可以评估和审查文章。尽管我们离这种情况还有一段距离,但毫无疑问,对话式人工智能技术将越来越多地影响科学出版过程的所有阶段。
因此,包括伦理学家在内的学者们必须对使用人工智能创造知识生成的潜在加速度与研究过程中人类潜力和自主性的丧失之间的权衡进行辩论。人们的创造力和原创力、教育、培训以及与其他人的富有成效的互动,可能仍然是进行相关和创新研究的关键。
鉴于大语言模型的颠覆性潜力,研究界需要组织一场紧急而广泛的辩论。首先,我们建议每个研究小组立即召开会议,讨论并亲自尝试ChatGPT(如果他们还没有)。而教育工作者应该与学生谈论它的使用和伦理问题。在这个早期阶段,在没有任何外部规则的情况下,负责任的小组领导和教师必须确定如何诚实、正直和透明地使用它,并商定一些参与规则。应该提醒所有研究的贡献者,他们将对自己的工作负责,无论是否是用ChatGPT产生的。每个作者都应该负责仔细检查他们的文本、结果、数据、代码和参考文献。
第二,我们呼吁立即举办一个关于发展和负责任地使用大语言模型进行研究的国际论坛。作为第一步,我们建议为相关的利益相关者举行峰会,包括不同学科的科学家、技术公司、大型研究资助者、科学院、出版商、非政府组织以及隐私和法律专家。类似的峰会已经被组织起来,以讨论和制定应对其他颠覆性技术的准则,如人类基因编辑。理想情况下,这种讨论应该为所有相关方提供快速、具体的建议和政策。我们提出了一个非详尽的问题清单,可以在这个论坛上讨论(见下文的 "辩论问题")。
需要解决的一个关键问题是对研究中的多样性和不平等的影响。大语言模型可能是一把双刃剑。它们可以帮助实现公平竞争,例如通过消除语言障碍,使更多的人能够写出高质量的文章。但是,与大多数创新一样,高收入国家和享有特权的研究人员很可能会迅速找到利用大语言模型的方法,以加速他们自己的研究并扩大不平等。因此,重要的是,辩论要包括来自研究中代表性不足的群体和受研究影响的社区的人,以利用人们的生活经验作为重要资源。
科学与社会的许多其他领域类似,现在面临着人工智能技术侵犯其最珍视的价值观、实践和标准而引起的清算。重点应该放在拥抱机会和管理风险上。我们相信,科学将找到一种方法,从对话式人工智能中获益,而不会失去使科学工作成为最深刻和最令人满意的企业之一的许多重要方面:好奇心、想象力和发现。
可辩论问题
在一个关于对话式AI的论坛上讨论的问题。
- 哪些研究任务应该或不应该被外包给大型语言模型(LLM)?
- 哪些学术技能和特点对研究人员来说仍然是必不可少的?
- 在人工智能辅助的研究过程中,哪些步骤需要人类验证?
- 应如何改变研究诚信和其他政策以解决大语言模型的问题?
- 应如何将大语言模型纳入研究人员的教育和培训?
- 研究人员和资助者如何帮助独立的开源大语言模型的发展,并确保这些模型准确地代表科学知识?
- 对大语言模型应该有什么样的质量标准(例如,透明度、准确性、偏向性和来源),哪些利益相关者对这些标准以及大语言模型负责?
- 研究人员如何确保大语言模型促进研究中的公平,并避免扩大不公平的风险?
- 应该如何利用大语言模型来加强开放科学的原则?
- 大语言模型对科学实践的法律法规有什么影响(例如,与专利、版权和所有权有关的法律和法规)?
文章来源:https://www.nature.com/articles/d41586-023-00288-7