TechBeat人工智能社区

一篇综述洞悉医学大型语言模型的原理，应用和挑战

在过去的一年中，随着 GPT-4、LLaMA、Mistral，PaLM 等先进技术的突飞猛进，大型语言模型（Large Language Models）已经引领全球人工智能进入了一个全新的基础模型时代，这一时代不仅开启了技术创新的新篇章，也彻底重塑了各行各业的运作模式。特别是在医疗领域，这些变革显得尤为突出。医疗领域不仅是全球各国竞相投资的重点研究领域，而且与一个国家的医疗水平和综合国力密切相关。在这样的背景下，大型语言模型在医疗领域究竟能带来怎样的变革和影响？

近日，牛津大学的David A. Clifton，罗切斯特大学的罗杰波（Jiebo Luo）和亚马逊的Zheng Li领导的一个联合团队发布了一篇综述报告，介绍了医学大型语言模型在原理、应用和面临的挑战方面的最新进展（截止至2024年），通过深入探讨相关技术发展，提供宝贵的见解，为构建更加实用和高效的医学大型模型奠定坚实的基础。

论文题目： A Survey of Large Language Models in Medicine: Principles, Applications, and Challenges
论文地址： https://arxiv.org/abs/2311.05112
项目地址： https://github.com/AI-in-Health/MedLLMsPracticalGuide

近期，通用大型语言模型（LLMs）如PaLM、LLaMA、GPT系列和ChatGLM在多种自然语言处理（NLP）任务中展现出前所未有的进展。这些任务包括文本生成、文本摘要和问题回答等。受到这些模型在自然语言处理领域的成功启发，研究者们开始尝试将通用LLM调整应用于医学领域，从而催生了一系列医学专用的大型模型。例如，基于PaLM开发的MedPaLM和MedPaLM-2在美国医学许可考试（USMLE）上的表现，几乎与人类专家（87.0）持平，达到了86.5的竞争性准确率。此外，基于公开可用的LLM (例如LLaMA）衍生出的几个医学LLM包括ChatDoctor、MedAlpaca、PMC LLaMA、BenTsao和Clinical Camel等，正引发越来越多的关注，它们在协助医疗专业人员改善患者护理方面展现出巨大潜力。

尽管这些医学LLMs取得了令人鼓舞的成果，但在其开发和应用过程中，仍面临一些挑战。首先，许多模型主要关注生物医学NLP任务，如对话和问题回答，但其在临床实践中的实际应用价值往往被忽视。近期的研究开始探讨医学LLM在不同临床场景中的应用潜力，例如，电子健康记录（EHRs）的出院结论生成、健康教育和护理计划等。然而，这些研究多为案例研究，并依赖于临床医生对少量样本的人工评估，因此缺乏全面的评估数据集来衡量模型在实际临床场景中的表现。其次，大多数现有医学LLM的研究主要聚焦于医学问题回答的生物医学NLP性能，而忽略了文本摘要、关系提取、信息检索和文本生成等其他生物医学任务。这些研究空白激发了我们进行这项调查，旨在全面回顾LLM的发展及其在医学领域的应用，并探讨面临的挑战和机遇。

如图1所示，本综述旨在回答以下问题：

LLMs是什么？如何有效地构建医学LLMs？（第一章节）
当前医学LLM的评估方式是什么？它们相较于传统模型有何独特之处？（第二章节）
医学LLMs在临床环境中应如何应用？（第三章节）
在临床实践中实施医学LLMs时, 需要解决哪些挑战？（第四章节）
如何优化医学LLMs的构建，以增强其在临床环境中的适用性，最终为医学界带来积极的社会影响？（第五章节）

对于第一个问题，我们总结了现有医学LLMs的关键原则，详细介绍了它们的基本结构、参数数量以及用于模型开发的数据集。此外，我们还提供了这些模型构建过程中的关键见解，这对于希望根据特定需求（如计算限制、私有数据和本地知识库）定制医学LLM的研究人员和医疗从业者极具价值。

对于第二个问题，我们通过广泛的调查，对现有医学LLMs在十种生物医学NLP任务（包括判别和生成）上的性能进行了评估。这种全面的分析帮助我们理解医学LLMs在多个方面是如何超越传统医学人工智能模型的。通过展示它们的能力，我们旨在阐明医学LLMs在临床环境中部署时所带来的优势。

第三个问题着重于医学LLMs在临床环境中的实际应用。我们为七个临床应用场景提供了指南，详细说明了医学LLM的具体实施方式，并强调了在每个场景中能够发挥的能力。

第四个问题强调了在临床实践中部署医学LLM时必须克服的挑战。这些挑战包括生成幻觉（即产生连贯但事实不正确的输出）、模型的可解释性问题、伦理考量，以及医学LLM的法律和安全问题。我们还提倡对医学LLM进行更广泛的评估，比如信任度，以确保其在临床环境中的负责任和有效使用。

最后一个问题，我们展望了医学LLM的未来发展方向，并为那些希望推动该领域发展、最大化医学LLMs潜力的研究人员和从业者提供了指导。

通过回答这些问题并提供对医学LLM的全面视角，我们希望能促进对医学人工智能领域的更深入理解，更广泛的合作以及更快的进展。总结而言，本综述做出了以下贡献：

我们对医学领域中的大型语言模型进行了全面回顾，并总结了它们在十个生物医学下游任务中的表现。
我们强调了医学LLMs的临床应用，并为其在各种临床环境中的部署提供了实用指南。
我们识别并讨论了在临床实践中应用医学LLM时面临的挑战，旨在激励该领域的进一步研究和发展。

图 1: 医学大语言模型综述的整体结构

一、医学大型语言模型的原理

为了清晰起见，本节重点总结医学大语言模型的原理。现有的医学LLM主要是包括三种类型（1）从头开始进行预训练，（2）从现有的通用LLM中进行微调，或者（3）通过提示将普通LLM与医学领域对齐直接获得。因此，我们从预训练、微调和提示三种方法介绍了医学LLM的原理。

预训练

预训练是医学大型语言模型开发中的一个关键过程，它涉及在庞大的医学文本库上训练模型，以吸收和学习丰富的医学知识。这些文本通常包括结构化和非结构化的数据，如电子健康记录（EHR）、临床笔记、DNA序列和医学文献等。特别值得一提的是，PubMed、MIMIC-III临床笔记和PubMed Central（PMC）文献是医学LLM预训练中常用的三个主要医学语料库。模型可以选择在单一语料库或多个语料库的组合上进行预训练。例如，PubMedBERT和ClinicalBERT分别在PubMed和MIMIC-III上进行预训练。而BlueBERT结合了这两个语料库，BioBERT则同时在PubMed和PMC上进行预训练。此外，佛罗里达大学健康EHR也被用于GatorTron和GatorTronPT的预训练中。而MEDITRON则是在临床实践指南（CPG）上接受预培训，CPG主要用于指导医疗从业者和患者进行循证决策。

在预训练医学LLM时，通常会对通用LLM中常用的训练目标进行细化，包括掩蔽语言建模、下一句预测和下一个标记预测。例如，BERT系列模型如BioBERT、PubMedBERT、ClinicalBERT和GatorTron，主要采用掩蔽语言建模和下一句预测进行预训练。而GPT系列模型，如BioGPT和GatorTronGPT，则主要采用下一个令牌预测进行预训练。

预训练完成后，医学LLM通常会进行微调，然后在不同的生物医学人工智能任务中进行评估，以检验其理解和生成相关文本的能力。一旦经过预训练，LLM将掌握丰富的通用语言表示，这些表示可用于各种下游任务。为了在这些任务上获得强大的性能，LLM可以在一个小型、特定于任务的数据集上进行微调，即进一步训练。这使得模型能够使其通用语言表示适应目标任务的特定要求。大规模预训练与微调结合，已被证明能有效实现最先进的性能。

微调

从头开始训练医学LLMs是高成本和耗时的，因为它需要大量（例如几天甚至几周）的计算能力和体力。一种解决方案是用医学数据对通用语言大模型进行微调，研究人员提出了不同的微调方法，用于学习特定领域的医学知识并获得医学LLM。当前的微调方法包括监督微调（SFT）、指令微调（IFT）和参数有效调整。

监督微调（SFT）： 旨在利用高质量的医学语料库，可以是医患对话、医学问答和知识图谱。所构建的SFT数据用作预训练数据的延续，以进一步预训练具有相同训练目标的一般LLM，例如下一个令牌预测。SFT提供了一个额外的预培训阶段，使普通LLM能够学习丰富的医学知识并与医学领域保持一致，从而将其转变为专业的医学LLM。
指令微调（IFT）： 首先构建基于指令的训练数据集，这些数据集通常由指令输入输出三元组组成，例如指令问答。IFT的主要目标是增强模型遵循各种人工/任务指令的能力，使其输出与医学领域保持一致，从而生成专门的医学LLM。
参数高效调整： 旨在大幅降低微调通用LLM的计算和内存需求。主要思想是通过仅微调这些LLM中的最小参数子集（或附加参数），保持预训练LLM中大多数参数不变。常用的参数有效微调技术包括低秩自适应（LoRA）、前缀微调和适配器微调。

提示工程

与预训练相比，微调大大降低了计算成本，但它需要进一步的模型训练和高质量数据集的收集来进行微调，因此仍需要消耗一些计算资源和人工。相反，“提示”方法有效地将一般LLM（如PaLM）与医学领域（如MedPaLM）对齐，而无需训练任何模型参数。流行的提示方法包括零/少样本提示、思想链提示、自一致性提示和提示调整。

零/少样本提示旨在直接给出指令，提示LLM按照给定指令有效执行任务。零样本提示没有提供示例。在要求LLM执行任务之前，很少有样本提示会向LLM提供少量示例或任务演示。
思想链提示进一步提高了模型输出的准确性和逻辑性。具体来说，通过提示词，思维链提示旨在提示模型在处理下游（复杂）问题时生成推理的中间步骤或路径。
自一致性提示建立在思维链提示之上，以进一步增强回复的稳健性。它鼓励模型多次尝试生成同一问题的多个答案，然后在不同的尝试中选择最一致的答案，从而提高模型性。
提示调整旨在通过采用提示和微调技术来提高下游模型的性能。提示调整方法引入了可学习的提示，即。可训练的连续向量，可以在微调过程中进行优化或调整，以更好地适应不同的下游场景和任务。

图 2: 医学大语言模型的进化树

为了进一步展现医学大型语言模型的发展现状，我们制作了医学大模型在不同分支上的进化树（图 2）。此外，我们还尝试通过MedQA (USMLE-style) 数据集性能图（图 3）洞察医学大语言模型的能力发展，来分析现有的医学LLMs是否已经超过人类专家判断水平。

图 3: 通过MedQA (USMLE-style)性能图洞察医学大语言模型的发展

我们尝试通过不同结构的参数进化图（图 4）洞察医学大语言模型的发展。随着模型规模的扩大，哪种结构有可能在医学任务上能够出现类似于通用LLM模型的“涌现”（GPT 2 -> GPT 3)，从而实现超级医学大型语言模型。

图 4: 通过不同结构的参数进化图洞察医学大语言模型的发展

二、下游生物医学自然语言处理任务

在本节中，我们将介绍两种流行的下游任务：生成任务和判别任务，包括十种有代表性的下游任务，这些任务将进一步构建临床应用。我们首先描述了下游任务及其广泛使用的评估数据集，然后讨论了适用于这些任务的LLM，并比较了它们的性能。

判别任务：用于根据给定的输入数据将数据分类或区分为特定的类别。它们涉及对不同类型的数据进行区分，通常是对结构化文本或非结构化文本中的相关信息进行分类、分类或提取。具有代表性的判别任务包括问答、实体提取、关系提取、文本分类、自然语言推理、语义文本相似性和信息检索。
生成任务：与专注于理解和分类输入文本的判别性任务不同，生成性任务需要一个模型来根据给定的输入准确地生成流畅和合适的新文本。这些任务包括医学文本摘要、医学文本生成和文本简化。

图 5: GPT-3.5 turbo、GPT-4、最先进的任务特定微调模型和人类专家在11个数据集的7个下游生物医学NLP任务上的性能比较

图 5 中呈现的是各种医学LLM之间的性能对比。在这个对比中，我们观察到某些通用LLM（例如GPT-3.5-turbo和GPT-4）在多种下游任务上展现出了卓越的性能。这一点在问答任务中尤为突出，如图中的蓝线所示，GPT-4的表现不仅始终优于专门针对特定任务微调的模型，甚至与人类专家的表现（如紫线所示）相媲美。所评估的问答数据集包括MedQA（USMLE）、PubMedQA和MedMCQA等。

然而，当我们转向非问答任务时，发现通用LLM的性能往往不如特定任务微调的模型。例如，在使用NCBI疾病数据集进行的实体提取任务中，专门微调的BioBERT模型取得了89.36的F1分数，而GPT-4的表现仅为56.73。这种差异可能是因为问答任务本质上是封闭式的，即正确答案已经在有限的选项中提供。而在开放式的非问答任务中，模型必须在广泛的可能选项中预测正确答案，有时甚至没有任何候选答案可供参考。

总体来看，这些比较结果明确显示，当前的通用LLM在问答任务上具有强大的能力，但在其他任务类型上仍有改进空间。因此，我们建议在评估医学LLM时，应将其应用范围扩展到包括非问答任务在内的更广泛的任务类型，而不应仅限于医学问答任务。这种全面的评估方式将更好地反映医学LLM的真实能力和潜在的应用价值。

三、医学大型语言模型的临床应用

医学诊断：包括医生使用来自测试的客观医学数据和自我描述的主观症状来总结患者最可能出现的健康问题。
格式化和ICD编码：国际疾病分类（ICD）是一种标准化临床会议的诊断和程序（如手术）信息的方法。
临床报告生成：是指医护人员在每次患者就诊后必须完成的标准化文件。
医学教育：医疗保健专业领域特定角色的培训至关重要。医学教育既适用于专业人员，也适用于普通公众。大型语言模型可以通过不同的方式融入医学教育系统，包括回答问题、帮助学生准备医学考试以及担任苏格拉底式导师。
医疗机器人：医疗机器人可用于医学的许多方面，包括手术、运送病人、协助护士和医疗康复。
医学语言翻译：医学语言翻译主要有两个方面。一种是将医学术语从一种语言翻译成另一种语言。另一种是将专业医学对话翻译成非专业人员易于理解的表达。
心理健康支持：心理健康支持包括诊断和治疗。抑郁症是一种常见的心理健康问题，通过多种疗法进行治疗，包括认知行为疗法、人际心理疗法、心理动力疗法等。

四、医学大型语言模型的当前挑战

幻觉：LLM的幻觉是指生成的输出包含不准确或不真实信息的现象。
缺乏评估基准和指标：目前的基准和指标往往无法评估LLM的整体能力，尤其是在医疗领域。例如，MedQA（USMLE）和MedMCQA对问答任务提供了广泛的覆盖，但未能评估重要的LLM特定指标，包括可信度、有用性、可解释性和忠诚度。因此，必须开发特定于领域和LLM的基准和指标。
领域数据限制：与用于训练通用LLM的数据集相比，医学领域中的当前数据集仍然相对较小。
新知识适应：LLM接受广泛数据训练以学习知识。一旦经过训练，通过再训练将新知识注入LLM昂贵且低效。
人类行为对齐：行为一致性是指确保LLM的行为与其任务目标一致的过程。现有工作已用于将LLM与一般人类行为相一致，但一般人类和医疗专业人员之间的行为存在差异，因此在医疗领域采用LLM仍然具有挑战性。
道德、法律和安全问题：人们对在医学领域使用大语言模型提出了担忧，重点关注伦理、问责制和安全性。

五、医学大型语言模型的未来方向

引入新的评测基准：传统的基准主要衡量医学问答的准确性，但不能充分掌握医学大型预览模型所需的全方位临床技能。人们对使用以人为中心的标准化医学考试进行评估提出了批评，认为通过这些考试并不一定反映LLM在现实世界临床环境中所需的细微专业知识方面的熟练程度。因此，人们正在就需要更全面的基准达成共识。这些能力应包括从权威医学参考文献中获取信息、适应不断发展的医学知识以及明确传达不确定性等。此外，考虑到医疗保健的敏感性，这些基准还应评估公平、道德和公平等因素，这些因素虽然至关重要，但会带来量化挑战。其目的是创建更有效地反映实际临床场景的基准，从而更准确地衡量LLM是否适合担任医疗顾问角色。
集成时间序列、视觉和音频数据集成的多模态医学大模型：现有方法提出了集成视觉和语言的各种基于多模态医学大模型的框架，以采用医学图像-文本对进行微调，从而使医学大模型能够有效地理解输入的医学图像。近来研究者认为将视觉、音频和语言输入集成在大模型中中会极大地帮助牙科诊断，然而，只有极少数的医学LLM可以处理时间序列数据，如心电图（ECG）和血压计（PPG），尽管这些数据对医学诊断和监测很重要。
医学代理（Agents）：基于LLM的代理（即设计用于执行特定医疗任务或功能的智能系统或软件）通过类似人类的行为，如角色扮演和通信，在解决复杂任务（如软件设计、分子动力学模拟）方面取得了重大进展。然而，在医学领域内有效地整合这些Agents仍然是一个挑战。医学领域涉及许多角色和决策过程，尤其是在疾病诊断中，通常需要一系列研究，包括CT扫描、超声波、心电图和血液测试。
大语言模型在医学子领域发展：目前医学大模型的研究主要集中在普通医学上，这可能是因为该领域的数据可用性更高。这导致医学大模型在“康复治疗”和“运动医学”等专业领域的应用代表性不足。鉴于不运动对全球健康构成的挑战，后者尤其具有巨大的潜力。世界卫生组织将不运动确定为非传染性疾病的主要风险因素，影响了全球四分之一以上的成年人口。
跨学科合作：正如跨学科合作在核能生产等安全关键领域至关重要一样，医学和技术界之间开发医学大模型的合作对于确保人工智能在医学中的安全性和有效性至关重要。医学界主要由科技公司提供大模型，而不质疑他们的数据训练，这是一种次优情况。因此，需要鼓励相关医务人员积极参与创建和部署医疗大模型，提供相关的训练数据，定义医学大模型的预期收获，并在现实世界中进行测试以评估这些优势。

关于TechBeat人工智能社区

▼

TechBeat(www.techbeat.net)隶属于将门创投，是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验，加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地，分享自己最新工作的沃土，在AI进阶之路上的升级打怪的根据地！

更多详细介绍>>TechBeat，一个荟聚全球华人AI精英的学习成长社区

大语言模型LLM原理篇
大模型席卷全球，彷佛得模型者得天下。对于IT行业来说，以后可能没有各种软件了，只有各种各样的智体（Agent）调用各种各样的API。在这种大势下，笔者也阅读了很多大模型相关的资料，和很多新手一样，开始脑子里都是一团乱麻，随着相关文章越读越多，再进行内容梳理，终于理清了一条清晰的脉络。笔者写原理篇时心情是有些惴惴不安的，因为毕竟对大模型的研究有限，缺乏深度。但是，还是觉得有必要记录一下学习理解心得，
大语言模型（LLM）笔记笑衬人心。大模型学习语言模型笔记人工智能
一、什么是大语言模型（LLM）？LLM（LargeLanguageModel）是基于Transformer架构构建，并在海量文本语料上训练出的具备自然语言理解和生成能力的深度神经网络模型。其本质任务是**预测下一个token（词/字/符号）**的概率分布，但通过大规模参数和数据的支持，表现出类人智能的行为。二、核心架构：Transformer由Google在2017年提出，是目前LLM的主流架构。
[论文阅读] 人工智能 + 软件工程 | 揭秘ChatGPT在软件开发问题解决中的有效性：一项实证研究张较瘦_ 前沿技术论文阅读人工智能软件工程
揭秘ChatGPT在软件开发问题解决中的有效性：一项实证研究论文：WhatMakesChatGPTEffectiveforSoftwareIssueResolution?AnEmpiricalStudyofDeveloper-ChatGPTConversationsinGitHubarXiv:2506.22390WhatMakesChatGPTEffectiveforSoftwareIssueRe
[论文阅读] 人工智能 + 软件工程 | 代码注释不一致问题研究：从数据革新到端到端解决方案张较瘦_ 前沿技术论文阅读人工智能软件工程
代码注释不一致问题研究：从数据革新到端到端解决方案原文：CCISOLVER:End-to-EndDetectionandRepairofMethod-LevelCode-CommentInconsistencyarXiv:2506.20558CCISolver:End-to-EndDetectionandRepairofMethod-LevelCode-CommentInconsistencyRe
数字孪生：未来城市管理的革命性技术大有数据可视化信息可视化
一、数字孪生技术概述数字孪生技术是一种通过创建虚拟模型与物理实体之间实时交互的技术。它借助物联网、大数据、云计算、人工智能等前沿技术，实现对物理实体的精准映射与动态仿真。数字孪生的核心在于构建一个与物理世界相对应的虚拟模型，该模型能够实时反映物理实体的状态，并通过数据分析与模拟优化其性能。在城市管理领域，数字孪生技术为城市管理者提供了一种全新的视角和工具。城市是一个复杂的巨系统，涉及基础设施、交通
人类编程时代即将终结？OpenAI首席产品官预测AI将在今年底全面超越人类程序员前端javascript
ReactHook深入浅出CSS技巧与案例详解vue2与vue3技巧合集VueUse源码解读近日，OpenAI首席产品官KevinWeil在接受采访时表示，人工智能的发展速度远超预期，今年底就有可能在编程领域永久性地超越人类程序员。这一观点立即引发了行业热议，也让程序员们对未来产生了深刻的思考。人工智能的进展速度远超想象在与VarunMayya和TanmayBhat共同主持的YouTube节目《O
Python大数据分析&人工智能教程 - Django-Celery异步处理（深入解析与实战案例） AI_DL_CODE python 数据分析 Django Celery异步处理 Celery
文章目录1.概念介绍1.1Django框架概述1.2Celery异步任务队列1.3AMQP协议与消息路由2.环境搭建2.1安装Django和Celery2.2配置Redis作为消息代理3.Celery架构与工作原理3.1Celery组件介绍3.2任务生命周期3.3任务调度与执行3.3.1定时任务3.3.2异步任务调用3.3.3任务结果查询4.Django与Celery集成4.1创建Celery实例
智能之火，重塑创造：大模型如何点燃新一代开发引擎？黑巧克力可减脂 AIGC 人工智能 AIGC
导言：普罗米修斯之火再现在科技演进的长河中，每一次生产力的跃迁都伴随着工具的质变。从蒸汽机轰鸣到电力普及，再到信息高速公路的铺就，人类驾驭能量的能力不断突破。今天，我们站在一个崭新的临界点上：大语言模型（LLM）正将人工智能的“普罗米修斯之火”引入软件开发的核心腹地。这不再仅仅是效率的优化，更是对开发者角色、开发流程乃至软件本质的深度重塑。GitHubCEOThomasDohmke曾断言：“Cop
Python大数据分析&人工智能教程 - Django-RestFramework框架（深入解析+实操案例） AI_DL_CODE python 数据分析 django RestFramework框架
文章目录1.Django-RestFramework基础1.1Django-RestFramework概述1.2安装与配置1.3构建第一个API1.3.1定义模型1.3.2创建序列化器1.3.3定义视图1.3.4配置URL路由1.4进阶功能1.4.1权限控制1.4.2限流1.5实战案例1.5.1创建图书1.5.2查询图书1.5.3更新图书1.5.4删除图书2.序列化器(Serializers)2.
智能新纪元：大语言模型如何重塑电商“人货场”经典范式黑巧克力可减脂 AIGC 语言模型人工智能自然语言处理
开篇引言“善战者，求之于势，不责于人。”——《孙子兵法·兵势篇》当全球电商交易额突破6.3万亿美元（Statista2024），增长引擎却显露疲态。流量红利消退、同质化竞争加剧、消费者需求碎片化——传统“人货场”理论正遭遇前所未有的挑战。而大语言模型（LLM）的出现，恰似一柄重铸商业逻辑的“科技之锤”，正在为电商领域开启一场静水深流的革命性变革。基石重塑：当“人货场”遇见大模型智能经典理论再审视：
AI:微调框架 LLaMA-Factory（Large Language Model Factory） xyzroundo AI 人工智能 llama 语言模型 sft llama-factory AI
LLaMA-Factory（LargeLanguageModelFactory）是由北航团队开源的高效大语言模型（LLM）微调框架，旨在简化大型语言模型的定制化训练流程，支持超过100种主流模型和多种先进微调技术。以下从核心功能、安装部署、微调流程和应用场景四个方面详细介绍：一、核心功能与特点广泛的模型支持支持LLaMA3、Mistral、Qwen、ChatGLM、Gemma、Phi、Yi、Bai
Python从0到100完整学习指南（必看导航）是Dream呀 Python python 人工智能爬虫 web 神经网络算法深度学习
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学业升学和工作就业的先行者！【优惠信息】•新专栏订阅前1000名享9.9元优惠•订阅量破10
【机器学习&深度学习】模型微调的基本概念与流程一叶千舟深度学习【理论】机器学习深度学习人工智能
目录前言一、什么是模型微调（Fine-tuning）？二、预训练vs微调：什么关系？三、微调的基本流程（以BERT为例）1️⃣准备数据2️⃣加载预训练模型和分词器3️⃣数据编码与加载4️⃣定义优化器5️⃣开始训练6️⃣评估与保存模型四、是否要冻结BERT层？五、完整训练示例代码5.1环境依赖5.2执行代码总结：微调的优势前言在自然语言处理（NLP）快速发展的今天，预训练模型如BERT成为了众多任务
FastGPT与MCP：解锁AI新时代的技术密码挑战者666888 AI模型应用实战迁移学习集成学习文心一言
一、AI浪潮中的新星：FastGPT与MCP登场在当今科技飞速发展的时代，人工智能（AI）已成为推动各行业变革的核心力量。从智能语音助手到复杂的图像识别系统，AI的应用无处不在，而其中的关键技术——语言模型和集成平台，更是备受关注。FastGPT和MCP（Multi-ComponentPlatform）作为这一领域的新兴代表，正逐渐崭露头角，为AI的发展注入新的活力。FastGPT，以其高效的推理
前沿技术推动机器人的智能化升级 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据机器人 ai
前沿技术推动机器人的智能化升级关键词：机器人智能化、人工智能、机器学习、计算机视觉、自主导航、人机交互、边缘计算摘要：本文深入探讨了前沿技术如何推动机器人从传统自动化向智能化升级的演进过程。文章首先分析了机器人技术发展的历史脉络和当前挑战，然后详细阐述了人工智能、机器学习、计算机视觉等关键技术如何赋能机器人智能化。通过算法原理分析、数学模型构建和实际项目案例，展示了智能机器人的核心技术实现路径。最
提升首屏加载的秘密武器：一文讲透 CDN 加速核心逻辑网罗开发实战源码前端 json javascript
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
量化AI价值的30个关键指标 mao_feng 人工智能 AI
摘要：量化AI的战略价值人工智能（AI）成功集成到业务运营中超越了单纯的技术部署;它需要一种严格、可量化的方法来展示其价值。本报告系统地分类并解释了评估AI优势的基本指标，从核心模型性能到总体战略和道德考虑因素。必须制定多方面的衡量策略，将技术AI指标与运营效率、客户体验、财务绩效、战略优势和负责任的AI实践等有形业务成果直接联系起来。稳健的关键绩效指标（KPI）不仅仅是问责制的工具;它们是持续改
【AI大模型】23、构建你的西部世界：AI小镇具身智能实战指南无心水 AI大模型人工智能 AI小镇搭建具身智能实战智能体系统架构提示语工程优化虚拟社会构建 AI大模型
引言：从代码到虚拟社会的奇妙旅程在人工智能领域，具身智能的发展正引领着一场新的革命。当我们谈论构建一个类似《西部世界》的虚拟社会时，我们不仅在创造一个数字游乐场，更是在探索智能体如何在模拟环境中展现出类似人类的认知、社交和决策能力。本文将带领你踏上一段激动人心的旅程，从底层架构到上层应用，全面解析如何利用提示语工程构建一个充满活力的AI小镇。想象一下，你将成为这个虚拟世界的造物主，通过精心设计的提
大模型系列——提示词工程：从原理、实践到未来的一部系统性综述猫猫姐大模型人工智能大模型提示词
提示词工程：从原理、实践到未来的一部系统性综述摘要本文系统性地阐述了提示词工程（PromptEngineering）这一关键领域，它作为释放大语言模型（LLM）潜能的核心人机交互范式。报告从LLM的“下一个词预测”基本机制出发，追溯了提示词工程从GPT-3时代“上下文学习”的偶然发现到当前系统化、工程化的演进历程。本文深度剖析了多种高级提示框架，包括旨在激发模型逐步推理的“思维链”（Chain-o
九章数学体系：定义域无界化——AI鲁棒性的“隐形杀手“ 九章数学体系数学建模拓扑学人工智能神经网络
九章数学体系：定义域无界化——AI鲁棒性的"隐形杀手"摘要传统人工智能模型在面对边缘场景时常常表现出鲁棒性不足的问题，本文深入分析发现，这种现象的本质根源在于模型缺乏显式的定义域约束，导致无界化假设成为影响AI鲁棒性的"隐形杀手"。文章系统阐述了无界假设如何引发对抗样本脆弱性和数值不稳定等核心问题，并引入九章数学体系的定义域约束理论，为解决这些问题提供了全新的数学视角和工程实现路径。研究表明，通过
从单一设备到万物互联：鸿蒙生态崛起的未来之路王子良. 经验分享 harmonyos 华为
目录一、引言：开启智能时代的钥匙二、鸿蒙生态概述：跨设备协同的核心价值三、开发者机遇与挑战：抓住鸿蒙崛起的机会四、鸿蒙生态崛起的前景：万物互联的未来五、开发者在鸿蒙生态中的实践机遇与挑战1.跨设备开发的机遇2.与人工智能和物联网结合的创新空间3.持续创新与生态完善的挑战六、鸿蒙生态未来的多维发展：智能硬件与大数据的深度结合1.智能硬件与大数据的结合2.在智能家居与城市管理中的应用3.行业领域的深度
考取华为HCIE-AI有什么用？博睿谷IT99_ 华为人工智能华为认证职业规划
在人工智能技术重塑各行各业的浪潮中，掌握核心AI能力成为专业人士的制胜关键。华为推出的HCIE-AISolutionArchitect（华为认证ICT专家-AI解决方案架构师），正是面向这一领域顶尖人才设立的最高级别认证。主要是为了培养和认证掌握人工智能解决方案架构、设计与应用知识，具备大模型业务场景分析、大模型训练与微调、模型推理部署能力的专家级人才。一、HCIE-AI：专家级能力的权威认证HC
Cursor黑科技：AI编程实战技术文章 yuehui001 科技 AI编程
引言概述AI编程工具的发展现状Cursor在AI编程领域的独特定位文章目标：展示Cursor的核心功能与实战应用Cursor的核心功能解析智能代码补全：基于上下文的代码生成能力自然语言转代码：通过对话式交互生成完整功能模块代码重构与优化：自动化识别并改进代码质量错误诊断与修复：实时分析代码逻辑并提供解决方案实战场景一：快速原型开发需求描述转化为可执行代码的流程示例：构建一个简易待办事项应用对比传统
多模态实操第一弹：多模态AI是什么？能做什么？江凯吴杰多模态的尝试人工智能
多模态AI专栏第一期：多模态人工智能概述与应用你是否想过，AI如何像人一样同时"看、听、说"？本期专栏将带你深入了解多模态AI的核心原理、发展脉络、关键技术、典型应用，并为后续实战打下坚实基础。最后，我们将详细介绍本系列所用的ERIT数据集及其任务背景。目录1.什么是多模态AI？2.多模态AI的发展历程3.多模态AI的核心技术4.多模态AI的应用场景5.多模态AI的挑战与机遇6.专栏预告与ERIT
ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等深度科研 Yolo566Q chatgpt 语言模型数据分析
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等 xiao5kou4chang6kai4 人工智能深度学习机器学习 rnn 语言模型 lstm 深度学习机器学习人工智能 DeepSeek
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
十分钟了解人工智能的过去、现在与未来 ithadoop 人工智能人工智能
十分钟了解人工智能的过去、现在与未来人工智能(AI)作为重塑人类社会的技术革命，正以前所未有的速度改变着我们的工作方式、生活方式和思维方式。从1943年人工神经元模型的提出，到2025年AI应用场景的全面爆发，AI发展经历了多个关键阶段。在接下来的十分钟里，我们将通过图文解说，快速了解AI从萌芽到现在的历程，以及未来可能带来的机遇与挑战。一、人工智能的过去：从理论奠基到技术突破1.萌芽阶段(194
ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模 asyxchenchong888 chatgpt 语言模型机器学习
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等科研应用科研的力量人工智能 ChatGPT chatgpt 语言模型数据分析
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
探索 AI 系统提示与模型资源库：`system-prompts-and-models-of-ai-tools` 几道之旅人工智能智能体及数字员工人工智能
在当今的人工智能领域，系统提示和工具模型的优化与应用对于提升AI助手的性能和响应质量至关重要。x1xhlol开源的system-prompts-and-models-of-ai-tools仓库为开发者们提供了一个丰富的资源集合，涵盖了多种AI工具的系统提示、工具和模型。仓库概述这个仓库包含了超过7500行的代码和文档，详细介绍了多个知名AI工具的系统提示和相关模型，其中包括FULLv0、Curso
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo