解包

论文翻译：Large language models in medicine 医学中的大语言模型

期刊名：nature medicine

标题：Large language models in medicine 医学中的大语言模型

作者：

Arun James Thirunavukarasu 1,2, Darren Shu Jeng Ting3,4,5, Kabilan Elangovan 6, Laura Gutierrez 6, Ting Fang Tan6,7 & Daniel Shu Wei Ting6,7,8

Abstract：

大型语言模型（LLM）可以响应自由文本查询，而无需经过相关任务的专门培训，这引起了人们对其医疗领域应用的兴奋和担忧。ChatGPT是一种生成型人工智能聊天机器人，通过对LLM进行复杂的微调而产生，其他工具也通过类似的过程被开发出来。在这里，我们概述了ChatGPT等LLM应用程序是如何开发的，并讨论了如何在临床环境中利用它们。我们考虑LLM的优势和局限性，以及它们在医学领域提高临床、教育和研究工作的效率和有效性方面的潜力。LLM聊天机器人已经被应用于一系列生物医学环境中，并取得了令人印象深刻但喜忧参半的结果。这篇综述是感兴趣的临床医生的入门读物，他们将确定LLM技术是否以及如何用于医疗保健，以造福患者和从业者。

Introduction：

大型语言模型（LLM）是一种人工智能（AI）系统，使用来自文章、书籍和其他基于互联网的内容的数十亿个单词训练而成。通常，LLM使用神经网络架构（术语表见方框1），利用深度学习来表示文本训练集中单词之间的复杂关联关系，深度学习已经在医学领域取得了令人印象深刻的结果1，2。通过这个可能是多阶段的、涉及不同程度的人类输入的训练过程，LLM学习单词在语言中如何相互使用，并可以将这些学习到的模式应用于完成自然语言处理任务。

自然语言处理描述了广泛的计算研究领域，目的是以一种模仿人类能力的方式促进语言的自动分析3。生成型人工智能开发人员的目标是生成一种模型，它们能够按需要生成内容，并与应用程序中的自然语言处理(如聊天机器人和文本预测)相结合，换句话说，就是“自然语言生成”任务4。经过多年的开发，现在已经出现了具有“少样本”或“零样本”性能的LLM（方框1），这意味着它们可以识别、解释和生成文本，而只需很少或不需要特定的微调5，6。一旦模型大小、数据集大小和计算资源足够大7，这些少样本和零样本特性就会出现。随着深度学习技术、强大的计算资源和用于训练的大型数据集的发展，LLM应用程序已经开始出现，并且可能颠覆在包括医疗保健在内的各个领域的认知。

ChatGPT（OpenAI）是一个LLM聊天机器人：一个生成型人工智能应用程序，现在可以生成文本以响应多模态的输入（以前只接受文本输入）12。其后端LLM是Generative Pretrained Transformer 3.5或4（GPT-3.5或GPT-4），如下所述13、14。ChatGPT的影响源于其对话的交互性，以及在包括医学在内的各个领域的认知任务中接近人类水平或等同于人类水平的表现14。ChatGPT在美国医学执照考试中取得了及格水平的成绩，有人建议LLM应用程序可用于临床，教育或研究环境14-16。然而，不依赖人类监督的机器自主决策模式，其潜在应用和能力是有争议的：笔试是未经验证的临床表现指标，缺乏良好的基准使得评估表现成为一项重大挑战。目前的LLM技术很可能会在密切监督下作为一种工具得到最有效的利用。

本文以ChatGPT为例，探讨了最先进的LLM在医学中的应用。首先，解释了LLM的开发，概述了开发这些模型所采用的模型架构和训练过程。接下来，讨论了LLM技术在医学中的应用，重点是已发表的用例。然后描述了LLM应用程序落地实施的技术限制和障碍，为有效的研究和开发指明了未来的方向。LLM目前处于医疗人工智能的前沿，在提高临床、教育和研究工作的效率和效果方面具有巨大的潜力，但它们需要广泛的验证和进一步的发展，以克服技术上的弱点。

Box 1：Glossary of common terms in LLM development 术语表

计算资源:训练和部署机器学习模型所需的硬件，包括处理能力、内存和存储。
深度学习:机器学习的一种变体，涉及具有多层处理“感知器”(节点)的神经网络，它们共同促进非结构化输入数据(例如，图像，视频和文本)的高级特征的提取。
少样本学习(few -shot learning):人工智能的开发目的是在只接触任务的几个初始示例的情况下完成任务，并对未见过的示例进行准确的归纳。
生成式人工智能:能够按需生成文本、图像或声音等内容的计算系统。
大型语言模型:一种使用深度神经网络学习自然语言中词与词之间关系的AI模型，使用大型文本数据集进行训练。
机器学习:人工智能的一个领域，其特点是使计算机能够根据输入数据学习并做出预测，从经验中学习。
模型大小:AI模型中参数的个数;LLM由通信节点层组成，每个通信节点层包含一组在训练期间优化的参数。
自然语言处理:人工智能研究的一个领域，专注于计算机与人类语言之间的交互。
神经网络:受生物神经网络启发的计算系统，包括“感知器”(节点)，通常分层排列，彼此通信并对输入数据进行转换。
参数:机器学习模型中的一个变量，它在训练期间被调整(通常是自动的)以最大化性能。在深度学习中，参数是由神经网络节点组成的“权重”或数据转换函数。
语义任务:自然语言处理任务需要在更深层次上理解语言输入的含义，而不仅限于最简单的表层水平的词汇和语法。
零样本学习：开发AI来完成任务，而无需接触任何先前的任务示例。

Development of LLM chatbots：大语言模型聊天机器人的开发

LLM的总大小并不是控制其效用的唯一重要因素:ChatGPT目前在医疗保健研究中引起了最大的兴趣，尽管它的初始后端GPT-3.5参数量并不是最大的(图1)5,11。这要归功于复杂的微调，特别是对人类输入问题的适当响应。ChatGPT及其后端LLM——GPT-3.5和GPT-4——提供了一个有用的案例研究，说明了开发最先进的LLM应用程序所需的架构、资源和训练过程，尽管最新的技术发展仍然是保密的。

第一版GPT (GPT-1)于2018年发布(参考文献19)。GPT1的训练是半监督的，首先进行无监督预训练，用以程序化语言中各个单词之间的关联关系，随后进行有监督的微调，以优化特定自然语言处理任务的性能。为了简化优化，结构化的输入问题(例如，因果顺序的段落、离散段落、选择题和答案)被转换为单一的线性单词序列19。对于预训练，GPT-1使用了BooksCorpus数据集，该数据集包含11,308本小说，包含约7400万个句子，或1 × 10 ^ 9个单词。这种新型模型的总体表现非常出色——在12项自然语言处理任务中的9项中优于定制模型，并且在许多情况下具有可接受的零样本性能。

GPT-2(于2019年发布)拥有15亿个参数，比其前身大10倍。它的训练数据来自WebText，这是一个来自800多万份文档的40gb数据集。GPT-2最初在几个自然语言处理任务(阅读理解、总结、翻译和问题回答)上进行了评估，其表现优于许多专门用于狭窄用例的定制模型，甚至在零样本环境下也是如此。GPT-2证明了大型模型以最先进水平执行不熟悉的任务的能力，但在文本摘要任务中表现明显较弱，其表现与定制模型相似或更差。在少样本环境或使用任务提示时，性能得到了提高，说明这些LLM能够整合提示信息，更好地实现用户的目标。

2020年，GPT-3发布，拥有1750亿个参数，比GPT-2(参考文献5、20)大100多倍。更广泛的训练赋予了它更强的少样本和零样本能力，在各种自然语言处理任务中取得了最先进的表现。训练数据集由5个语料库组成，总共包含45TB数据: Common Crawl(网页)、WebText2、Books1、Books2和Wikipedia5。总的来说，GPT-3的开发专门解决了其前辈的弱点，以设计迄今为止最复杂的LLM。GPT-4现在已经发布，并且在自然语言处理以及各种专业能力测试中取得了比GPT-3更高的性能。此外，GPT-4接受多模式输入:图像可以包含在用户查询中14。它的架构、开发和训练数据仍然是保密的，但GPT-4已经在ChatGPT的一个版本中实现，并且可以通过应用程序编程接口(API)访问14。

基于已发布的GPT模型的预训练任务被称为语言建模：预测序列或句子中的下一个和/或前一个“标记”(通常类似于“单词”)11,21。其他通过语言建模预训练的模型包括LLaMA、MT-NLG、对话应用语言模型(LaMDA)、Anthropic-LM、Pathways语言模型(PaLM)和Open Pretrained Transformer(OPT)(图1)11,22。存在许多可选的训练模式，从掩码语言建模(完形填空任务：预测序列中的掩码标记)和排列语言建模(使用随机采样的输入标记进行语言建模)到去噪自动编码(在故意损坏后恢复原始输入)和下一句预测(区分句子是否连续)。使用这些可选模式开发的模型包括Gato、DALL-E、Enhanced Language Representations with Informative Entities 带信息实体的增强语言表示(ERNIE), Bidirectional Encoder Representations from Transformers 来自转换器的双向编码器表示(BERT) and Bidirectional and Auto-regressive Transformers 双向自回归转换器(BART) (如图1所示)。

论文翻译：Large language models in medicine 医学中的大语言模型_第1张图片

图1：近年来LLM的发展：LLM按发布日期排序，最老的模型排在最前面。许多已经开发出了数十亿的参数。然而，参数规模显然不是衡量进展的唯一标准：许多以前的模型比目前医疗保健领域最好的模型具有更多的参数。例如，GPT-3(开发GPT-3.5的基础)仅具有1750亿个参数，而多个模型具有超过1万亿个参数。LLaMA(用作ChatGPT的许多开源替代品)的最大迭代只有650亿个参数。许多其他因素都会影响模型的效用，例如其训练数据和模式、微调协议和总体体系结构。GPT-4已经发布，但其架构是保密的，因此无法被纳入这个比较。

From LLM to generative AI chatbot：从LLM到生成AI聊天机器人

为了开发有用的应用程序，需要对LLM进行进一步的微调，正如在GPT-3.5的工程中所看到的那样，它对自由文本输入提示产生适当的响应(图2)。在这里，微调涉及将GPT-3暴露于一系列提示和响应中，而这些提示和响应是由扮演应用程序用户和AI助手角色的人类研究员生成的；这有助于模型学习如何正确回答自定义查询。接下来，使用奖励模型进行“从人类反馈中强化学习”（RLHF），模型的训练数据来源于人类打分员对GPT-3.5的问题响应的评分。这种奖励模型使自主决策的RLHF的规模远远大于人工评分所能达到的规模13。为了提高安全性，使用模型生成的输入查询和输出完成了进一步的自主对抗训练。

集成了GPT-4作为其后端LLM的ChatGPT后续版本目前还没有得到解释，因为新的架构，数据集和训练是保密的。然而，似乎类似的原则也适用于GPT-3.5和ChatGPT初始版本的训练，因为新旧模型容易出现类似的错误——尽管新的训练模式可能已经被开发出来，这种训练模式的数据来源于快速增长的用户群（图2，虚线箭头）。即使在单独的对话中，ChatGPT也表现出了非凡的“学习”能力，特别是通过提供挑战任务的示例来提高性能——也即从zero-shot到few-shot。用户提供的示例使LLM能够训练自己，类似于其初始开发中的微调过程。

除了ChatGPT之外，临床医生和患者也可以使用其他LLM聊天机器人。必应的AI聊天机器人（微软）使得用户可以访问GPT-4，而无需额外访问ChatGPT。Sparrow（DeepMind）是使用LLM“Chinchilla”构建的，通过利用谷歌搜索结果、人工反馈和广泛的初始化提示（长达591个单词，包含23个明确规则），减少了不准确和不适当的情况。ChatGPT的对抗性测试没有显示出类似的初始化提示，尽管这些测试是不确定的，因为ChatGPT的安全措施可能已经实现了隐藏初始指令的功能。使用OPT作为其后端LLM的BlenderBot 3（Meta Platforms）也利用互联网接入来提高准确性，BlenderBot 3在发布后可能会通过使用有机生成的数据继续提高性能，正如与ChatGPT的关系所述(图2，虚线箭头)。Google Bard最初是使用LaMDA构建的，但现在利用了PaLM 2，它在通用和特定领域的能力方面能与GPT-4相媲美。HuggingChat提供了一个免费访问的聊天机器人，其界面与ChatGPT类似，但使用Large Language Model Meta AI（LLaMA）作为其后端模型。最终，具有相对中等处理能力的个人可能会开发出最先进的LLM聊天机器人的廉价仿制品。

论文翻译：Large language models in medicine 医学中的大语言模型_第2张图片

图2：微调LLM（GPT-3.5）以开发LLM聊天机器人（ChatGPT）。
GPT-3通过使用来自互联网的大量文本数据集的单词预测任务进行训练，并经过微调以开发GPT-3.5。微调涉及将模型暴露于人类生成的输入输出对中，使模型学习如何对提问做出适当的响应。为了开发ChatGPT，使用了RLHF。RLHF采用了一种奖励模型，该模型使用人类对GPT-3.5在一系列提示下所产生输出的评分进行训练。这种奖励模型可以与更大的提示列表一起使用，以促进更大规模的训练，而不是人工对每个输出进行评分。GPT-4和后续版本的ChatGPT的架构和训练过程是保密的，但可能应用类似的原则，因为这两个模型都容易出现类似类型的错误。改编自欧阳等人。

以目前的形式，LLM还没有准备好替代医生，因为其专业检查的能力远远不够完善，这引发了严重的不准确和不确定性问题(除了伦理问题，如下所述)。尽管最近报告的各行各业benchmark的表现令人印象深刻，但仍需要进行具体的评估和验证，以证明在任意特定背景下的有效性和实用性。从根本上说，临床实践与正确回答考试问题不同，找到合适的基准来衡量LLM的临床潜力是一个巨大的挑战17。尽管如此，令人鼓舞的结果表明，现有的技术已经很好地影响临床实践，并且其进一步的发展可能会加速和扩大自然语言处理人工智能在医学中的应用。

Reducing economic, computational and environmental costs of development：减少开发的经济、计算和环境成本

GPT-3和GPT-4的开发依赖于一些最强大的可用计算硬件，由微软Azure提供。这种能源密集型基础设施碳排放量巨大，并且投入大量资金致力于提高硬件和软件效率，以尽量减少开发带来的环境成本。训练LLM所需的成本和能源一直呈下降趋势，预计到2030年左右将达到个人负担得起的水平(参考文献37)。然而，快速的创新正在以比预期更快的速度加速进步。如，研究人员使用GPT-3.5 API生成的查询和输出对LLaMA的小型版本(70亿个参数)进行了微调。子型号“羊驼”(Alpaca)实现了与GPT-3.5相似的性能，尽管其架构要小得多，培训时间以小时为单位，总成本低于600美元(参考文献31)。以更大的LLM为基础的模型，例如650亿个参数的LLaMA版本，如果用来自GPT-4、PaLM 2或随后开发的LLM的数据进行微调，可能会产生更令人印象深刻的结果。除了降低训练高性能模型的经济成本和环境影响外，这些方法还可以大大增加LLM的可及性。例如，大量减少开发高性能LLM所需的资源可以使这项技术民主化，允许更多的临床医生开发用于特定临床目的的工具，并使低收入和中等收入国家的研究人员能够开发和使用LLM应用程序。

然而，这种“仿制品”的发展可能会对投入大量资金开发最先进模型的公司产生严重影响。即使训练数据、模型架构和微调协议完全保密，就像GPT-4一样，提供大规模访问(例如通过API)允许外部研究人员从父模型中构建足够的问题和答案库，也能对开源的LLM进行微调，并且产生性能接近父模型的交互式子模型。廉价仿制品可能会损害激励该行业投资的竞争壁垒，并可能导致公司限制对其模型的访问。例如，如果没有约束性协议来限制竞争模型的开发，未来的前沿LLM可能就不会提供API访问。此外，子模型的激增带来了处理方面的另一层不确定性，加剧了下文所述的“黑匣子”问题。

Medical applications of LLM technology：LLM技术的医学应用

最近几个月，LLM技术的许多使用案例，特别是ChatGPT，已经被报道（图3）。高质量的研究对于确定新技术的优势和局限性至关重要，但是，在把基于LLM的创新性工具应用于临床、教育或研究方面，却鲜有有设计良好且务实的试验。

Clinical applications：临床应用

ChatGPT在美国医学执照考试中获得及格成绩，引起了医学界的特别关注，并且GPT-4的成绩明显高于其前身GPT-3.5（参考文献15,38）。Med PaLM 2（谷歌）是PaLM 2的一个版本，根据医学数据进行了微调，最近取得了最先进的成果，达到了接近人类临床医生专家水平39。当把ChatGPT对患者查询的回复与医生提供的回复进行比较时（空闲时间在社交网络上的回复），LLM的输出在质量和同理心方面是更优的。这导致人们认为人工智能已经准备好取代医生，但现实并没有那么戏剧性17，40-42。即使在医学生考试中，成绩也远非完美，没有报告的分数接近100%。ChatGPT已被证明无法通过医生的专家测试，并在回答现实患者有关心血管疾病预防的询问时提供了不准确的信息。尽管LLM展现出了解释临床诊断和回答相关问题的能力，但它往往无法提供适合患者个人情况的信息46–48。这些案例就宣告了：不能将机器自主决策的LLM用于决策或患者沟通，尤其是当患者经常无法区分LLM和人类临床医生提供的信息时。由于连续模型倾向于获得数量上的收益，而不是质量上的收益——容易受到相同弱点的影响，尽管频率较低——这可能是现状，至少在可预见的未来是如此。（这段没看懂）

特定领域的LLM可能通过提供新颖的功能而证明是有用的。Foresight是一种具有GPT架构的模型，使用811,336例患者电子健康记录的非结构化数据进行了微调。它在验证研究中证明了其预测的有效性。通用风险模型可以替代当前的大量工具，对患者进行分层和分诊。其他潜在的用途包括反事实模拟和虚拟临床试验，这可以通过促进有价值的风险回报推断来加速临床研究，从而可以告知研究人员哪些研究最有可能为患者提供价值51。新型架构，如混合价值感知转换器(HVAT)，可以通过整合纵向、多模态的临床数据来进一步提高LLM的性能。

ChatGPT在不需要专业知识、或用户提示中包含了相关知识的任务中表现出更强的性能5,22,32。与临床决策辅助工具相比，这为实施提供了更直接的前景。LLM能够快速吸收、总结和改写信息，从而减轻临床医生的管理负担。出院总结就是一个很有启发性的例子——涉及信息的解释和压缩，且几乎不需要解决问题或回忆的重复性任务。新兴的多模态模型将扩展功能并与更多数据源兼容;甚至医生的笔迹也可以被自动准确地解读。微软和谷歌的目标是在整个管理工作流程中分别集成ChatGPT和PaLM 2，允许来自视频通话、文档、电子表格、演示文稿和电子邮件的信息无缝地自动集成55,56。然而，在有患者健康风险的临床环境中使用，需要广泛的验证57。质量评估对于确保患者安全和行政效率不受损害至关重要，并且需要具体的治理结构来分配责任58。

Educational applications：教育应用

GPT-4和Med-PaLM 2在医学测试中的出色表现表明，对于那些目前在此类测试中只能达到较低水平的学生而言，LLM可能是一种的有用教学工具38,59。GPT-4的元提示功能允许用户明确描述聊天机器人在对话过程中所扮演的角色；有用的例子包括“苏格拉底导师模式”，它鼓励学生通过提出降低难度的问题来独立思考，直到学生们能够找到解决手头问题的方法。对话记录可以让人类教师监控进度，并迎合教学，直接解决学生的弱点。非营利教育机构可汗学院(Khan Academy)正在积极研究如何将GPT-4等人工智能工具应用于“Khanmigo”，以优化在线教学。Duolingo是一个主要免费的语言学习平台，它在角色扮演和答案解释功能中实现了GPT-4，以提高在线学习的交互性61。类似的工具可能也会促进医学教育。

然而，谨慎是有必要的，因为频繁的错误——尤其是在医学方面——以及缺乏一种伴随输出的不确定性指标：学生如何知道老师教的是否准确？这对LLM教师来说是一个相当大的问题。LLM可能会采纳一些谎言和偏见。尽管存在这些限制，LLM工具仍可以在专家监督下使用，以前所未有的规模高效地产出教学材料，如临床诊断、问题评估和内容摘要。多模态LLM可以让教师更快地整合和分析学生制作的不同格式的材料，其好处与临床用例中描述的类似。

Research applications：研究应用

与临床用例类似，LLM的不精确性排除了机器自主决策的可能性，但让其扮演辅助角色可能会显著提高效率。可以指示模型简洁地总结信息，详细地描述一组提供的结果，或者重写段落以满足特定的读者或受众。利用特定领域信息进行微调的模型可能表现出优异的性能，例如源自一个LLM（BERT），包括PubMedBERT和BioBERT64,65。这就可以减轻批判性评价、研究报告和同行审查的负担，这些是研究人员工作量的重要组成部分66。通过确保使用这些工具的临床医生和研究人员对其产出负责，有关问责制的问题将得到改善。

LLM可以促进新颖的研究，例如比以前更大规模的语言分析。示例包括ClinicalBERT、GPT-3.5和GatorTron，它们能够使研究人员有效地分析大量临床文本数据68–70。LLM也可能推动看起来联系不太明显的领域研究，因为基于文本的信息包含的不仅仅是人类语言。例如，遗传和蛋白质结构数据通常以文本形式表示，并适用于以LLM为基础的自然语言处理技术。模型已经产生了令人印象深刻的结果：AlphaFold从氨基酸序列推断蛋白质结构；ProGen产生具有可预测生物学功能的蛋白质序列；TSSNote CyaPromBERT找到了细菌DNA中的启动子区域71-73。最后，用于分析患者数据的生成人工智能应用程序也可用于合成人造数据，加之适当的质量评估，就可以扩大用于开发LLM和其他人工智能工具的训练语料库的规模，从而加强临床研究74。

Barriers to implementation of generative AI LLMs：生成人工智能LLM具体实施的障碍

有几个问题和限制阻碍了ChatGPT和其他类似应用程序的大规模临床部署（表1）。首先，训练数据集不足以确保生成的信息准确有用。其中一个原因是缺乏近期性：GPT-3.5和GPT-4（ChatGPT的后端LLM）主要使用截至2021年9月生成的文本进行训练（参考文献14,75）。由于包括医学在内的各个领域的研究和创新都在不断进行，缺乏最新的内容可能会加剧不准确性。在语言突然变化的情况下，比如当研究人员发明了新的术语，或者改变了用于描述新发现和新方法的特定词汇的使用方式时，这个问题尤其严重。思维模式的转变也会产生问题——例如，一些被认为不可能的事情实现了。经典的案例包括以前所未有的速度开发出了2019新冠病毒(COVID-19)疫苗，以及针对以前“无法治疗”的靶点的抗肿瘤药物，如KRAS。如果类似事件晚于训练数据集的阈值日期，模型将不可避免地对相关查询提供低质量的响应。因此，咨询医疗专业人员仍然至关重要。

表1：LLM的局限性以及如何在未来的发展中克服这些局限性
局限性	描述	缓解策略
近期性	GPT训练数据集不包括2021年9月之后创建的内容。所有预训练数据集都必须在任意日期“截止”。	-从最新来源收集培训数据。 -实时互联网接入（例如，Bing AI、Sparrow和BlenderBot 3）。
准确性	GPT-3的数据被限制为570GB。模型没有被训练着去“理解”；相反，它们仅限于学习单词之间的概率关联。培训数据来源于未经验证的网站和书籍。	-对训练数据进行验证。 -不确定性指标。 -利用微调来优化医学精度。 -通过智能提示(例如，思维链)进行自我完善。
连贯性	模型的输出是基于所学单词之间的关联，而不是理解输入查询或输出中使用的信息。捏造的事情也会被当成真实的呈现出来。	-重新开发模型架构和训练策略，以开发真正的语义知识。 -微调以消除不准确信息的呈现。
透明度和可解释性	目前还不清楚模型如何从输入查询、架构数据和算法中生成答案(称为“黑箱”问题)。目前还不清楚训练数据集的哪些部分被用于生成响应。	-要求输出数据集的哪些部分促成了模型的答案。 -“可解释的”AI研究和开发。
伦理问题	回答可能是危险的、歧视性的或冒犯性的。 -隐私和安全漏洞的风险。 -对模型输出的后果没有既定的问责机制。 -对于人工智能在医学中应该扮演什么角色，不应该扮演什么角色，没有达成共识。	-微调以减少不良输出的发生率。 -建立治理体系和监督机构。 -安装报告系统，供使用者标记危险回答。 -病人和医生参与的共识建立倡议。

第二，训练数据没有经过特定领域准确性的验证，这导致了“垃圾输入，垃圾输出”的问题——早在1864年，现代计算之父查尔斯·巴贝奇(Charles Babbage)就(更雄辩地)描述了这一点(参考文献78)。GPT-3.5是根据书籍、维基百科和更广泛的互联网数据进行训练的，没有设计任何机制来交叉检查或验证这些文本的准确性。尽管LLM的大小令人印象深刻，有1750亿个参数，GPT-3.5却只使用了570 GB的初始训练数据——仅仅是互联网上可用数据（估计为120 zb (1.2 × 10^14 GB) ）的一小部分。然而，多样化、高质量文本数据的相对稀缺可能会限制数据集，最近的评估表明，用于训练的新文本可能会在几年内耗尽36,80。此外，ChatGPT在响应查询时无法实时访问互联网，因此其知识库从根本上是有限的。可以在生成响应时访问互联网的替代应用程序已经被开发出来，如BlenderBot 3和Sparrow。

第三，LLM没有被训练成像人类一样理解语言。通过“学习”人类使用过的单词之间的统计学关联，GPT-3开发了一种成功预测哪个单词最适合完成一个短语或句子的能力。通过密集的微调和进一步的训练，后续的模型可能会发展出一种能力，使其能够对查询做出听起来合理、措辞连贯但不一定准确的回应。所谓的“幻觉”已经被广泛报道，即不准确的信息被发明(因为它没有在训练数据集中表示)并被清晰地支持；为了避免不恰当的拟人化，我们更倾向于使用另一个术语，如“事实捏造”。另一方面，LLM可能会受到激励而进行自我改进：思维链提示与自我一致性的鼓励相结合，促进了自主微调，使具有5400亿个参数的LLM的推理能力提高了5-10%。然而，由于准确性不一致和缺乏不确定性指标，需要谨慎部署。

第四，LLM处理是一个“黑匣子”，这就使处理和决策的可解释性受到挑战85。除非明确要求，否则LLM不会引用或对答复做出解释，解释的实际代表性也不清楚。这加剧了准确性问题，因为不清楚应该如何重新训练或微调模型以提高性能。这个问题最好通过参考另一种基于GPT-3的生成型人工智能DALL-E 2来说明，DALL-E是一种基于文本的提示生成图像响应的应用程序86。例如，担心皮肤癌的用户可以使用DALL-E2来了解黑色素瘤在他们皮肤上的外观，但生成的图像并不一定准确。类似的问题无疑会使ChatGPT复杂化，可能会导致错误的保证和中继诊断。（看不懂）可解释AI方案可能会提高可解释性，但在自然语言处理的背景下进行的此类研究相对较新，目前的机器学习技术似乎不足以真正产生信任。

第五，随着生成式人工智能模型的出现，伦理问题已经出现，这些模型能够产生与人类书面文本无法区分的回答。使用基于有偏见数据(例如，来自书籍和互联网的未经验证的内容)训练的模型可能会使这些偏见永久化。LLM应用所带来的许多其他风险已经被注意到，但这里的讨论主要集中在那些与临床环境最相关的风险。LLM认知辅助带来的研究加速可能会导致安全标准和伦理道德的下降。尽管ChatGPT被明确设计来降低这些风险，但问题仍然存在，并已被广泛报道，且对抗性提示可能被用来“越狱”ChatGPT，从而逃避其内置规则90,91。尽管为改善这些漏洞进行了大量工作，但GPT-4仍然容易受到对抗性提示方法的攻击，例如“相反模式”和“系统消息攻击”。大型科技公司、工业和学术界的许多知名人士都担心这些风险，一封呼吁暂停开发的公开信引起了全世界的关注。然而，LLM开发的代表领导人却不愿意签字，这表明创新将继续，开发者将对其发布产品的安全负责。

此外，安全和隐私问题与基于互联网的平台的使用密切相关，尤其是当由商业企业运营时92。如果禁止将患者可识别的数据作为模型的提示输入，那么这些问题可能会限制部署机会。GPT-4还通过同化其大量训练数据和多模态输入提示，从而引入了人员识别的风险32。在模型训练过程中个人数据的纳入是不可逆转的，这与1993年《通用数据保护条例》(General data Protection Regulation)“被遗忘权”等法律权利相冲突。最终，这些禁令和规定是由人类来遵守的，但自主决策的应用程序带来了一个严重的问责问题。

科学期刊迅速采取行动，停止了ChatGPT作为作者的认证，这表明该技术无法承担作者需要承担的责任，相反，它应该像任何其他帮助人类工作的方法工具一样被对待[94 - 96]。在更详细的用例出现之前，很难设想和设计出一种治理结构来建立人工智能对临床决策的责任。一个更基本的伦理问题在于LLM应该被允许协助或参与哪些任务。尽管可以提出功利主义的论点来证明任何被证明可以改善患者结果的干预措施都是合理的，但利益相关者必须就人工智能参与的可接受性达成共识——自主、半自主或作为一种完全从属的工具。

最后，衡量LLM在临床任务中的表现是一个相当大的挑战。早期的定量研究集中在考试上，这是在现实环境中对临床能力的未经验证的衡量方法。定性评估已被用于人工环境，如社交媒体领域，由志愿医生提供建议17。最终，使用LLM的临床干预措施应该在随机对照试验中进行测试，以评估对死亡率和发病率的影响，但应该使用什么样的基准来确定干预措施是否适合这种昂贵且有风险的试验呢？下一节将更深入地讨论这些悬而未决的问题以及回答这些问题的方法。

Directions for future LLM research and development：LLM的未来研发方向

上述限制提供了有用的指示，说明后续的研究和开发应该集中在哪里，以提高LLM应用的实用性（图3）。在训练过程中加入特定领域的文本可以提高临床任务的表现97。潜在的数据来源包括临床文本（例如，患者笔记和医疗信件）和准确的医疗信息（例如，指南和同行评审文献）。根据临床文本构建或微调的现有模型包括ClinicalBERT、Med PaLM 2和GatorTron，它们在生物医学自然语言处理任务中的综合表现优于各种通用LLM。最新的知识可以实时来源于互联网，而不是依赖于有限的预训练数据集；Bing AI和Google Bard已经具备了这一功能，ChatGPT也紧随其后，开始接受插件28。然而，医学笔记、科学文献和其他互联网材料中的频繁错误将继续阻碍LLM的表现；临床实践、科学探究和知识传播不会、也永远不会完美地执行。数据集质量可以通过二次验证来提高，但是涉及的文本量可能是手动质量评估不能完成的。机器学习解决方案——包括由专家进行初始人工评分，结果用于训练自动模型以处理更大规模的数据——在平衡效率和有效性方面可能是最佳的，如用于优化ChatGPT的奖励模型所示（图2）13。此外，由专家验证指导的特定任务微调（可能通过机器学习进行增强）可以提高输出的准确性和安全性。

目前，捏造的事实和其他错误抑制了对LLM输出的信心，需要密切监督，尤其是在高风险的医疗环境中14-16。在准确性提高到与人类专家性能相匹配或超过人类专家性能之前，不确定性指标的开发可以促进半自主角色的部署，前提是在应用程序无法提供有用信息的情况下引入负责任的临床医生。Google Bard最初实施的保护措施不允许该模型回答许多临床问题，但这种笼统的方法限制了医疗工具的开发和实施。

如果LLM被用作工具，则必须解决责任和信用问题96，101–103。同行评审期刊对这一问题采取了多种方法——一些完全禁止使用，另一些则要求明确描述用途40,94,104-106。剑桥大学出版社发布了明确的指导意见，总结为四点107。首先，人工智能的使用必须被声明并明确解释（与其他软件、工具和方法一样）；第二，人工智能不符合署名要求；第三，人工智能生成的文本不得违反抄袭政策；第四，作者需要对使用或不使用人工智能生成的文本的准确性、完整性和独创性负责。然而，目前尚不清楚法规将如何执行：尽管正在开发检测人工智能生成语言的工具，但其准确性目前非常差，尤其是在文本片段较短的情况下。“水印”协议可以通过可检测的签名来促进高质量的文本生成，以表明LLM的参与，但这目前尚未在最流行的模型中实现109。伦理问题和解决方案可能是针对具体用例的，但人类监督可能是一种成功的通用方法，可以降低风险，确保由责任的个人对临床决策负责。尽管这限制了半自主人工智能的潜在应用，但它们仍然可以使一些耗时的认知工作自动化，从而彻底改变临床工作。

在无法解释的黑盒模型87中，很难调查其他伦理问题。因此，尽管文献中有很多偏见的示例，但调查研究和缓解策略要有限得多。众包刻板印象对（CrowS Pairs）基准能够量化偏见，50%对应于“完美”不含美式刻板印象。令人担忧的是，所有参与测试的LLM都显示出偏见。然而，积极的开发降低了有偏见和危险输出的发生率，GPT-4对不被允许的内容请求作出响应的可能性比其前身GPT-3.5低82%。为了解决这些目前普遍存在的偏见，可以使用“数据陈述”来提供与数据集相关的上下文信息，这些信息将性能和结论的可推广性告知研究人员和消费者114。另一方面，通过提供新的研究方法和对人脑语言处理的见解，可解释的AI方案可以解决黑匣子问题，促进对偏见和其他伦理问题更深的理解，从而带来LLM应用之外的好处。

防护措施的价值仅取决于它们在面对对抗性攻击时的健壮性，否则恶意行为者的规避可能会损害降低风险的努力。由于广泛的定向训练，GPT-4比它的前辈更加健壮。然而，还需要进一步的工作来解决其剩余的弱点。外部研究人员能够通过API使用最先进的LLM生成的大规模数据来训练自己的模型，这可能没有任何保障措施，从而带来了额外的风险。GPT-4对其内部工作保密，以保护隐私，同时也保持竞争优势；而API访问可能会危及两者。随着LLM的能力不断扩大，必须特别注意保护隐私，因为可以使用模型从训练数据和输入查询中的不同信息中识别患者。临床医生还应注意，不要将可识别的数据输入可能存储数据并将其用于未知目的的数据平台。当在医学中开发和使用这些工具时，治理结构应该清楚地说明什么是允许的，什么是不允许的。

LLM在医学中应用的实验研究很少，因此迫切需要进行严格的研究，来对创新用例作出验证和证明。前瞻性临床试验应该是务实的，反映现实世界的临床实践，并且应该测试在可接受性、有效性和实用性方面有真正机会实施的干预措施。例如，人工智能辅助模型（而不是自主模型）应根据标准实践进行评估，因为众所周知，LLM的无监督部署不太可能实现。衡量成功或失败需要适当的指标，理想情况下可以是降低死亡率和/或发病率。其他创新终点可能包括文件质量(需要经过验证的质量评估)、工作效率和患者或医生满意度。其他创新终点可能包括文件质量(需要经过验证的质量评估)、工作效率和患者或医生满意度。一些人认为，开发和使用经过验证的基准来证明临床干预的真正潜力，将是大规模临床试验的必要前提，这些试验可能会为将LLM用于临床工作提供证据。然而，由于之前已经在随机对照试验中对非LLM的聊天机器人进行了测试，并且LLM代表了自然语言处理的一个有意义的进步，因此已经有理由将LLM干预用于临床试验。应尽可能使用指导方针，以最大限度地提高研究的质量，还需要进一步的工作来调整和开发适合NLP研究的框架。

在临床效率的背景下，需要进行研究，以确保LLM工具实际上减少了工作量，而不是给医疗保健专业人员带来更大的管理负担16,118。例如，电子健康记录被誉为数字健康的一项了不起的进步，但许多医生抱怨由此增加了琐碎的数据输入和行政工作118。有针对性的研究可以降低LLM引发类似问题的风险。此外，需要进行健康经济分析，以确定LLM应用程序的实施具有成本效益，而不是浪费的“白象”119。因此，应该鼓励来自不同学科的研究人员共同努力，提高已发表研究的质量和严谨性120。

Conclusion：

LLM已经彻底改变了自然语言处理，GPT-4和PaLM 2等最先进的模型现在在医学人工智能创新的前沿占据着核心地位。这项新技术在临床、教育和研究工作中有很多机会，尤其是伴随着新兴的多模态与插件工具的整合（图3）。然而，潜在的风险正在引起专家和更广泛的社会对安全、道德和在某些情况下可能取代人类的关注41。LLM应用程序的自主部署目前尚不可行，临床医生仍将负责为患者提供最佳和人道的护理14，16。然而，只要伦理和技术问题得到解决，经过验证的应用程序可能会成为改善患者和医疗保健从业者的宝贵工具。成功的验证将涉及务实的临床试验，以最大限度地减少偏见，以透明的报告来证明真正的益处。

你可能感兴趣的:(语言模型,人工智能,自然语言处理)

《北京市加快推动“人工智能+医药健康“创新发展行动计划（2025-2027年）》深度解读
引言随着新一轮科技革命和产业变革的深入推进，人工智能技术与医药健康的深度融合已成为全球科技创新的重要方向。北京市于2025年7月正式发布《北京市加快推动"人工智能+医药健康"创新发展行动计划（2025-2027年）》，旨在充分发挥北京在人工智能技术策源、头部医疗资源汇聚、健康数据高度富集等方面的突出优势，构建形成"人工智能+医药健康"创新和应用并举的产业生态体系，打造具有国际影响力的创新策源地、应
「源力觉醒创作者计划」_文心大模型开源：开启 AI 新时代的大门小黄编程快乐屋人工智能
在人工智能的浩瀚星空中，大模型技术宛如一颗璀璨的巨星，照亮了无数行业前行的道路。自诞生以来，大模型凭借其强大的语言理解与生成能力，引发了全球范围内的技术变革与创新浪潮。百度宣布于6月30日开源文心大模型4.5系列，这一消息如同一颗重磅炸弹，在AI领域掀起了惊涛骇浪，其影响之深远，意义之重大，足以改写行业的发展轨迹。百度这次放大招，直接把文心大模型4.5开源了，这操作就像往国内AI圈子里空投了一个超
四种微调技术详解：SFT 监督微调、LoRA 微调、P-tuning v2、Freeze 监督微调方法
当谈到人工智能大语言模型的微调技术时，我们进入了一个令人兴奋的领域。这些大型预训练模型，如GPT-3、BERT和T5，拥有卓越的自然语言处理能力，但要使它们在特定任务上表现出色，就需要进行微调，以使其适应特定的数据和任务需求。在这篇文章中，我们将深入探讨四种不同的人工智能大语言模型微调技术：SFT监督微调、LoRA微调方法、P-tuningv2微调方法和Freeze监督微调方法。第一部分：SFT监
2023年搜索领域的技术认证与职业发展指南搜索引擎技术搜索引擎 ai
2023年搜索领域的技术认证与职业发展指南关键词搜索领域、技术认证、职业发展、搜索引擎技术、人工智能搜索摘要本指南旨在为搜索领域的从业者和有志于进入该领域的人士提供全面的技术认证与职业发展参考。首先介绍搜索领域的概念基础，包括其历史发展和关键问题。接着阐述相关理论框架，分析不同认证背后的原理。架构设计部分展示搜索系统的组成与交互。实现机制探讨算法复杂度和代码优化。实际应用部分给出实施和部署策略。高
探索AI人工智能医疗NLP实体识别系统的架构设计 AI学长带你学AI 人工智能自然语言处理 easyui ai
探索AI人工智能医疗NLP实体识别系统的架构设计关键词：人工智能、医疗NLP、实体识别、系统架构、深度学习、自然语言处理、医疗信息化摘要：本文将深入探讨医疗领域NLP实体识别系统的架构设计。我们将从基础概念出发，逐步解析医疗文本处理的特殊性，详细介绍实体识别技术的核心原理，并通过实际案例展示如何构建一个高效可靠的医疗实体识别系统。文章还将探讨当前技术面临的挑战和未来发展方向，为医疗AI领域的从业者
AI智能体原理及实践：从概念到落地的全链路解析 you的日常人工智能大语言模型人工智能机器学习深度学习神经网络自然语言处理
AI智能体正从实验室走向现实世界，成为连接人类与数字世界的桥梁。它代表了人工智能技术从"知"到"行"的质变，是能自主感知环境、制定决策、执行任务并持续学习的软件系统。在2025年，AI智能体已渗透到智能家居、企业服务、医疗健康、教育和内容创作等领域，展现出强大的生产力与创造力。然而，其发展也伴随着技术挑战、伦理困境和安全风险，需要从架构设计到落地应用的全链条思考与平衡。一、AI智能体的核心定义与技
人工智能动画展示人类的特征 AGI大模型与大数据研究院 AI大模型应用开发实战 java python javascript kotlin golang 架构人工智能
人工智能，动画，人类特征，情感识别，行为模拟，机器学习，深度学习，自然语言处理1.背景介绍人工智能（AI）技术近年来发展迅速，已渗透到生活的方方面面。从智能语音助手到自动驾驶汽车，AI正在改变着我们的世界。然而，尽管AI技术取得了令人瞩目的成就，但它仍然难以完全模拟人类的复杂行为和特征。人类的特征是多方面的，包括情感、认知、社交和创造力等。这些特征是人类区别于其他生物的重要标志，也是人类社会文明发
文心一言插件：使用插件探索无限可能前端
文心一言作为一款强大的语言模型，为我们提供了丰富的功能和应用场景。而文心一言插件的出现，进一步拓展了其功能，为用户带来了更多的便利和可能性。本文将详细介绍文心一言插件的使用方法，并通过一个具体的实例展示其在实际应用中的强大之处。一、文心一言插件的安装和启用访问文心一言官方网站，登录你的账号。在页面左侧的菜单中，点击“插件”选项。在插件页面中，你可以浏览可用的插件列表，选择你需要的插件并点击“安装”
Python+AI十分钟自动生成小说！程序员：这工具让我月入5万+ 小筱在线人工智能人工智能开发语言
引言：AI写作革命已来，你准备好了吗？2025年的今天，AI写作已经从科幻概念变成了现实生产力。一位名叫李明的程序员在社交媒体上晒出他的收入截图：单月稿费突破5万元，而他的"秘密武器"竟是用Python开发的AI小说生成工具。这不是天方夜谭，而是正在发生的技术革命。随着GPT-4、Claude3等大语言模型的成熟，结合Python强大的自动化能力，任何人都可以在十分钟内生成一部完整的小说初稿。AI
DeepSeek Chat 虾条_花吹雪 Spring AI ai
SpringAI支持DeepSeek的各种AI语言模型。您可以与DeepSeek语言模型交互，并基于DeepSeek模型创建多语言会话助手。Prerequisites您需要使用DeepSeek创建一个API密钥来访问DeepSeek语言模型。在DeepSeek注册页面创建一个帐户，并在API密钥页面上生成一个令牌。SpringAI项目定义了一个名为Spring.AI.deepseek.api-ke
Chat Memory 虾条_花吹雪 Spring AI ai 人工智能
大型语言模型（LLM）是无状态的，这意味着它们不保留有关以前交互的信息。当您想在多个交互中维护上下文或状态时，这可能是一个限制。为了解决这个问题，SpringAI提供了聊天记忆功能，允许您在与LLM的多次交互中存储和检索信息。ChatMemory抽象允许您实现各种类型的内存来支持不同的用例。消息的底层存储由ChatMemoryRepository处理，其唯一职责是存储和检索消息。由ChatMemo
RNN案例人名分类器（完整步骤） AI扶我青云志 rnn 人工智能深度学习 nlp lstm gru
今天给大家分享一个NLP（自然语言处理）中的一个小案例，本案例讲解了RNN、LSTM、GRU模型是如何使用并进行预测的，一、案例架构人名分类器的实现可分为以下五个步骤:第一步:导入必备的工具包第二步:对data文件中的数据进行处理，满足训练要求第三步:构建RNN模型(包括传统RNN,LSTM以及GRU)第四步:构建训练函数并进行训练五步第:构建评估函数并进行预测二、实现步骤1.导包#导入torch
Spring AI 第二讲之 Chat Model API 第八节ZhiPu AI Chat 疼死老夫了人工智能
SpringAI支持知普人工智能的各种人工智能语言模型。您可以与知普人工智能语言模型互动，并基于知普人工智能模型创建多语言对话助手。先决条件您需要与ZhiPuAI创建一个API，以访问ZhiPuAI语言模型。在ZhiPuAI注册页面创建账户，并在APIKeys页面生成令牌。SpringAI项目定义了一个名为spring.ai.zhipuai.api-key的配置属性，你应将其设置为从APIKeys
动手实践OpenHands系列学习笔记3：LLM集成基础 JeffWoodNo.1 笔记人工智能
笔记3：LLM集成基础一、引言大型语言模型(LLM)是OpenHands代理系统的核心驱动力。本笔记将深入探讨LLMAPI调用的基本原理，以及如何在实践中实现与Claude等先进模型的基础连接模块，为构建AI代理系统奠定基础。二、LLMAPI调用基础知识2.1LLMAPI基本概念API密钥认证:访问LLM服务的身份凭证提示工程:构造有效请求以获取预期响应推理参数:控制模型输出的各种参数流式响应:增
Chat Model API 虾条_花吹雪 Spring AI java
聊天模型API为开发人员提供了将人工智能聊天完成功能集成到应用程序中的能力。它利用预训练的语言模型，如GPT（生成预训练转换器），以自然语言对用户输入生成类似人类的响应。API通常通过向人工智能模型发送提示或部分对话来工作，然后人工智能模型根据其训练数据和对自然语言模式的理解生成对话的完成或继续。然后将完成的响应返回给应用程序，应用程序可以将其呈现给用户或用于进一步处理。Spring人工智能聊天模
巅峰对决，超三十万奖金等你挑战！第十届信也科技杯全球AI算法大赛火热开赛！中杯可乐多加冰前沿资讯分享科技人工智能算法计算机视觉机器学习深度学习
信也科技今年跟IJCAI和CIKM这两大全球顶级AI会议合作，这场比赛被全球人工智能顶会CIKM收录为官方赛事单元，获奖选手有机会全球人工智能顶会创造更大的影响力。一、赛事概况随着深度伪造技术的高度发展，人工智能产业走深向实，生成合成技术开始呈现工具化和普及化趋势。在生成合成内容质量显著提升的当下，基于换脸攻击的身份冒用和欺诈事件在全球范围内激增，严重威胁个人隐私和公共数据安全。第十届信也科技杯全
OPENAI中Assistants API的实现原理及示例代码python实现 dzend aigc python ai
OPENAI中AssistantsAPI的实现原理及示例代码前言OPENAI是一家人工智能公司，致力于研究和开发人工智能技术。其中，AssistantsAPI是OPENAI推出的一项人工智能服务，可以帮助开发者快速构建智能助手。本文将介绍AssistantsAPI的实现原理，并提供使用Python实现的示例代码。AssistantsAPI实现原理AssistantsAPI的实现原理主要包括以下几个
Java+Python智能化云盘【Day3】关沐吖 Java+Python Ai智能云盘项目开发专栏 java python 开发语言
提示词工程Prompt简介：大模型必备Prompt提示词工程讲解什么是PromptEngineering提示词工程通过特定格式的文本输入引导AI模型生成期望输出的技术，明确地告诉模型你想要解决的问题或完成的任务也是大语言模型理解用户需求并生成相关、准确回答或内容的基础类比：给Java程序员的任务需求文档（越清晰明确，结果越符合预期）为什么需要学习？大模型就是你的员工，你可以有多个助手，OpenAI
【深度学习】神经网络剪枝方法的分类烟锁池塘柳0 机器学习与深度学习深度学习神经网络剪枝
神经网络剪枝方法的分类摘要随着深度学习模型，特别是大语言模型（LLM）的参数量爆炸式增长，模型的部署和推理成本变得异常高昂。如何在保持模型性能的同时，降低其计算和存储需求，成为了工业界和学术界的核心议题。神经网络剪枝（Pruning）作为模型压缩的关键技术之一，应运而生。本文将解析剪枝技术的不同分类，深入探讨其原理、优缺点。文章目录神经网络剪枝方法的分类摘要1为什么我们需要剪枝？2分类方法一：剪什
使用大模型预测胃穿孔的全流程系统技术方案大纲
目录一、项目概述二、项目背景三、建设目标四、建设内容（一）建设架构（二）核心功能（三）核心技术（四）预期成效（五）方案总结五、系统架构方案流程图六、实验验证证据七、健康教育与指导一、项目概述本项目旨在构建一套基于大模型的胃穿孔预测及全流程管理系统，通过整合术前、术中、术后各环节数据，利用先进的人工智能技术，实现对胃穿孔疾病的精准预测、手术方案优化、并发症风险预警以及术后护理指导等功能，为医疗决策提
表观遗传风暴：深圳AI-BioFab终极防御战全纪实
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站⚡《表观遗传风暴：深圳AI-BioFab终极防御战全纪实》副标题：抗癌疫苗灌装倒计时90秒惊现组蛋白叛乱，中国启动虫洞计算化解文明级生物危机2025年7月2日14:26光明科学城急电当第184支抗癌疫苗注入冷链罐的瞬间，B3层突爆刺眼蓝光！培养舱内数千细胞染色体疯狂解旋，量子钟在14:26:03
医疗影像诊断新范式：多模态AI在癌症早筛中的落地难题 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站医疗影像诊断新范式：多模态AI在癌症早筛中的落地难题——2025年临床转化瓶颈突破与多中心验证报告残酷现实：FDA2025Q1报告显示，87%的AI影像工具因临床转化失败止步于III期试验破局曙光：斯坦福-梅奥联合研究证实，多模态融合使肺结节良恶性判别AUC提升至0.98（单模态上限0.91）一
合成生物学奇点：AI驱动CRISPR超进化工厂2025投产纪实
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《合成生物学奇点：AI驱动CRISPR超进化工厂2025投产纪实》副标题：全球首座AI-BioFab落地深圳，蛋白质设计周期从3年压缩至11天，生物制造成本暴跌90%一、生物制造范式的历史性颠覆▶︎传统生物工程的三大世纪困局graphTDA[缓慢的试错循环]-->B[单基因改造耗时≥6个月]C[
Transformer已死？2025年十大替代架构实战评测
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站封面图建议：十大架构3D渲染图环绕碎裂的Transformer图标，背景为动态性能雷达图副标题：实测推理速度/显存占用/长文本能力，附迁移成本决策树一、争议源起：Transformer的时代性局限（2025版）graphLRA[Transformer痛点]-->B[显存黑洞：千亿模型推理需1.6
生物启发AI新突破：神经形态芯片+脉冲神经网络落地指南 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《生物启发AI新突破：神经形态芯片+脉冲神经网络落地指南》副标题：基于2025年英特尔Loihi3芯片的工业级部署实战（附能耗对比&代码库）封面建议：脉冲神经网络动态脉冲传导图覆盖在神经形态芯片显微结构上，标注「能效比：传统GPU的1/800」一、2025生物启发AI的临界点突破生物神经特性事件
《从Backprop到Diffusion：深度学习的算法进化树全景图》 HeartException 学习人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《从Backprop到Diffusion：深度学习的算法进化树全景图》**展开系统性解析。全文基于算法原理-技术突破-产业重塑的三层逻辑链，融合2025年最新研究成果与产业数据，呈现深度学习四十年的底层技术迁徙路径从Backprop到Diffusion：深度学习的算法进化树全景图副标题：一部算法
语言模型之谜：提示内容与格式的交响诗步子哥 AGI通用人工智能语言模型人工智能自然语言处理
当代人工智能领域中，语言模型（LLM）正以前所未有的规模和深度渗透到各行各业。从代码生成到数学推理，从问答系统到多项选择题，每一次技术的跃进都离不开一个看似简单却充满玄机的关键环节——提示（prompt）的设计。而在这场提示优化的探索中，内容与格式的双重奏正逐渐揭开其神秘面纱，谱写出一曲宏大的交响诗。本文将带您走进“内容格式集成提示优化（CFPO）”的奇幻世界，揭示如何透过细腻的内容雕琢和精妙的格
多模态大模型：技术原理与实战看清GPT的进化史和创新点 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
多模态大模型：技术原理与实战看清GPT的进化史和创新点1.背景介绍1.1人工智能的发展历程1.1.1早期人工智能1.1.2机器学习时代1.1.3深度学习的崛起1.2自然语言处理的演进1.2.1基于规则的方法1.2.2统计机器学习方法1.2.3深度学习方法1.3大语言模型的出现1.3.1Transformer架构的提出1.3.2GPT系列模型的发展1.3.3多模态大模型的兴起2.核心概念与联系2.1
《卷积神经网络到Vision Transformer：计算机视觉的十年架构革命》 HeartException 人工智能学习
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站题目《卷积神经网络到VisionTransformer：计算机视觉的十年架构革命》展开深度解析，全文采用技术演进史+架构对比+产业影响的三段式结构，附关键数据与趋势预测：卷积神经网络到VisionTransformer：计算机视觉的十年架构革命副标题：从局部感知到全局建模，一场改变AI视觉基石的
Alpha系统联结大数据、GPT两大功能，助力律所管理降本增效资讯分享周大数据 gpt
如何通过AI工具实现法律服务的提质增效,是每一位法律人都积极关注和学习的课题。但从AI技术火爆一下,法律人一直缺乏系统、实用的学习资料,来掌握在法律场景下AI的使用技巧。今年5月,iCourt携手贵阳律协大数据与人工智能专业委员会,联合举办了《人工智能助力律师行业高质量发展巡回讲座》,超过100家律所的律师参与活动。讲座上,iCourtAIGC研究员、AlphaGPT产品研发负责人兰洋,为贵州律协
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f