嗯，这是一个好名字

大语言模型的关键技术（二）

一、Transformer 语言模型存在明显的扩展效应：

更大的模型/数据规模和更多的训练计算通常会导致模型能力的提升。

1、扩展效应的原因：

模型规模：增加模型的规模，即增加模型的参数数量和层数，通常会提高模型的表示能力。更大的模型可以学习更多的特征和复杂的模式，从而更好地拟合训练数据和解决各种任务。
训练数据：增加训练数据的规模有助于模型更好地泛化到不同的数据分布，减少过拟合，并提高模型在各种任务上的性能。更多的数据可以帮助模型更好地捕捉数据中的隐含规律。
训练计算资源：增加训练计算资源，如 GPU 或 TPU 的数量，可以加速模型的训练过程，并允许使用更大的批量大小。这有助于加速训练过程，同时提高了模型的性能。

2、应用领域：

扩展效应的应用领域涵盖了深度学习的各个领域，包括自然语言处理、计算机视觉、强化学习和语音识别等。在自然语言处理中，Transformer 模型的扩展效应尤为明显，尤其是在大规模预训练的神经语言模型（如 GPT 和 BERT）中。

3、挑战和权衡：

尽管扩展效应可以带来显著的性能提升，但它也伴随一些挑战和权衡：

更大的模型需要更多的计算资源，可能导致昂贵的训练成本。
更多的训练数据可能不容易获得，特别是对于特定领域的数据。
过度扩展模型可能导致性能收益的递减，因为模型的规模和计算需求会增加。

因此，研究人员和工程师需要在模型规模、训练数据和计算资源之间进行权衡，以找到适合其任务和资源预算的最佳组合。扩展效应是深度学习领域的一个激动人心的研究方向，可以帮助改进模型性能和推动技术的进步。

二、分布式训练算法DeepSpeed 和 Megatron-LM

DeepSpeed 和 Megatron-LM 都是用于分布式深度学习训练的框架或库，旨在提高大规模模型的训练效率和性能。它们分别由 Microsoft 和 NVIDIA 开发，并在深度学习社区中备受关注。以下是对这两个工具的简要介绍：

1、DeepSpeed

DeepSpeed 是由 Microsoft 开发的开源深度学习优化引擎，旨在提高大规模深度学习模型的训练效率和性能。它提供了一系列功能和技术，可以帮助深度学习研究人员和工程师更轻松地训练大型模型。以下是关于 DeepSpeed 的更详细介绍：

DeepSpeed:

开发者：DeepSpeed 由 Microsoft 开发，是一个开源的深度学习优化引擎。它旨在帮助深度学习研究人员和工程师更有效地训练大规模模型。
目标：DeepSpeed 的目标之一是提高深度学习训练的效率，尤其是对于大型模型。它通过采用一系列技术，如优化通信、模型并行和数据并行，来加速训练过程。
功能：DeepSpeed 提供了一系列功能，包括分布式训练、混合精度训练、优化的数据加载和通信、模型并行和数据并行等。这些功能帮助用户更轻松地训练大型模型，同时减少训练过程中的内存和计算资源需求。
支持的框架：DeepSpeed 可以与多种深度学习框架（如 PyTorch 和 TensorFlow）一起使用。

主要功能和特点：

分布式训练：DeepSpeed 支持分布式训练，可以在多台机器和多个 GPU 上并行训练大型模型。它采用了数据并行和模型并行的技术，使用户能够有效地利用多个计算资源。
优化通信：DeepSpeed 通过采用优化的通信算法，减少了分布式训练中的通信开销，从而加速了训练过程。这对于大型模型来说尤为重要，因为数据传输可能成为性能瓶颈。
混合精度训练：混合精度训练是一种通过使用半精度浮点数（float16）来加速训练的技术。DeepSpeed 支持混合精度训练，减少了内存和计算资源的需求，同时保持模型性能。
数据加载和通信优化：DeepSpeed 通过数据加载和通信的优化，可以有效地减少内存占用和提高训练效率。这对于大规模模型和大规模数据集的训练非常重要。
模型并行和数据并行：DeepSpeed 提供了模型并行和数据并行的支持。这意味着它可以有效地拆分和并行化大型模型的训练，使其适用于具有大量参数的深度学习模型。
多框架支持：DeepSpeed 可以与多种深度学习框架（如 PyTorch、TensorFlow 等）一起使用，使其具有广泛的适用性。
开源社区：DeepSpeed 是一个开源项目，具有活跃的社区支持，用户可以共享经验、提交问题和贡献代码。

应用领域：

DeepSpeed 可以应用于各种深度学习任务，包括自然语言处理、计算机视觉、强化学习等。它特别适用于训练大型深度学习模型，如大型神经语言模型（NLP）和深度神经网络（DNN）。

总之，DeepSpeed 是一个旨在提高大型深度学习模型训练效率和性能的强大工具，通过分布式训练、混合精度训练和通信优化等技术，使用户能够更有效地处理大规模深度学习任务。如果您需要更详细的信息或使用指南，建议访问 DeepSpeed 的官方网站或查看其文档和示例。

2、 Megatron-LM

Megatron-LM:

开发者：Megatron-LM 是由 NVIDIA 开发的开源库，旨在支持大型自然语言处理（NLP）模型的分布式训练。
目标：Megatron-LM 的主要目标是为自然语言处理任务提供高性能的大型模型，包括 GPT 系列等。它专注于 NLP 模型的训练和推理。
功能：Megatron-LM 提供了多种分布式训练策略，包括模型并行、数据并行和混合精度训练。它还包括用于自然语言处理任务的特定工具和库。
支持的框架：Megatron-LM 主要与 PyTorch 一起使用，特别是在大型 NLP 模型的训练中。

Megatron-LM 是由 NVIDIA 开发的开源库，旨在支持大型自然语言处理（NLP）模型的分布式训练。它专注于提供高性能的大型 NLP 模型的训练和推理。以下是关于 Megatron-LM 的更详细介绍：

主要功能和特点：

分布式训练：Megatron-LM 提供了强大的分布式训练功能，可以在多台机器和多个 GPU 上并行训练大型 NLP 模型。它支持数据并行和模型并行，以有效利用多个计算资源。
模型规模：Megatron-LM 专注于支持大型 NLP 模型的训练，包括 GPT-3 和其他类似规模的模型。它提供了工具和技术来管理大规模的模型参数。
混合精度训练：与 DeepSpeed 一样，Megatron-LM 也支持混合精度训练，这有助于减少内存和计算资源的需求，同时保持模型性能。
NLP 应用支持：Megatron-LM 的设计重点是自然语言处理应用，特别是大型语言模型的训练。它提供了针对 NLP 任务的工具和库，以帮助用户轻松训练和评估模型。
优化算法：Megatron-LM 包括一些用于分布式深度学习训练的优化算法，以提高训练的效率和性能。这包括通信优化和模型并行技术。
PyTorch 支持：Megatron-LM 主要与 PyTorch 框架一起使用，使其更容易与现有的 PyTorch 项目集成。
开源社区：Megatron-LM 是一个开源项目，具有活跃的社区支持，用户可以共享经验、提交问题和贡献代码。

应用领域：

Megatron-LM 通常用于自然语言处理任务，包括文本生成、文本分类、文本摘要、机器翻译等。它特别适用于需要处理大规模文本数据的应用，例如大型语言模型的训练和部署。

总之，Megatron-LM 是一个专注于大型 NLP 模型的分布式训练的强大工具，它为研究人员和工程师提供了处理大规模自然语言处理任务的高性能解决方案。如果您需要更详细的信息或使用指南，建议访问 Megatron-LM 的官方网站或查看其文档和示例。

总的来说，DeepSpeed 和 Megatron-LM 都是旨在加速大规模深度学习模型的分布式训练的工具，但它们的重点和功能略有不同。DeepSpeed 更加通用，适用于多种深度学习任务，而 Megatron-LM 更专注于自然语言处理领域的大型模型。使用哪个工具通常取决于您的具体需求和应用领域。

三、能力引导

在大规模语料库上预训练之后，LLM具备了作为通用任务求解器的潜在能力。然而，当 LLM 执行一些特定任务时，这些能力可能不会显式地展示出来。作为技术手段，设计合适的任务指令或具体的 ICL 策略可以激发这些能力。例如，通过包含中间推理步骤，CoT提示已被证明对解决复杂的推理任务有效。

以下是一些关于如何激发 LLM 潜在能力的关键概念：

任务指令：为了引导 LLM 在特定任务上执行，您可以为模型提供明确的任务指令或问题陈述。这有助于模型理解它需要执行的任务，并生成相关的输出。例如，对于问答任务，您可以将问题和上下文提供给模型，以引导其生成答案。
ICL（任务决策级别）策略：ICL 策略是指通过任务的决策级别来定义任务。这可以包括定义任务的目标、所需的推理步骤以及任务的难度。设计合适的 ICL 策略可以帮助 LLM 更好地解决特定任务，尤其是复杂的推理任务。这有助于模型在任务中表现出更强的通用性。
CoT 提示：CoT（Compositional Task Learning）提示是一种任务指令，通过引导模型执行中间推理步骤，帮助模型解决复杂的推理任务。这种提示要求模型将任务分解为多个子任务，从而更好地理解问题的结构。这可以提高模型在复杂任务上的性能。
多模态输入：为 LLM 提供多模态输入，如文本、图像和声音，可以增加其通用性。这样的输入多样性可以使模型更好地应对不同类型的任务，包括跨模态任务。
微调：在预训练之后，通常需要在特定任务上进行微调，以进一步提高模型性能。微调是将模型在任务特定数据上进行训练，使其适应特定任务的过程。这有助于模型更好地执行该任务。

总的来说，LLM 具备广泛的通用性和潜在的任务求解能力，但需要适当的任务指令、策略和数据来激发这些能力。设计有效的任务提示和决策级别策略是非常重要的，以确保模型在各种任务上表现出强大的性能。这也是大型语言模型的持续研究和开发领域。

1、任务决策级别

任务决策级别（ICL，Instruction-based Compositional Learning）策略是一种方法，用于引导大型语言模型（LLM）执行特定任务，并在任务中进行决策。这个策略的目标是通过将任务拆分为更小的子任务，引导模型进行推理和决策，从而提高模型在复杂任务上的性能。以下是关于 ICL 策略的详细介绍：

主要特点和原理：

任务拆分：ICL 策略涉及将任务分解为多个子任务或决策级别。每个子任务通常需要模型执行特定的推理步骤或决策。这种任务拆分有助于模型更好地理解任务的结构和逻辑。
任务分层：在 ICL 中，任务通常是分层的，其中较高级别的任务依赖于较低级别的子任务。例如，对于问题回答任务，高级别任务可能是回答问题，而低级别任务可能是识别相关的信息段落或事实。
任务指令：每个子任务都伴随着任务指令，为模型提供了关于如何执行该任务的信息。任务指令通常是文本描述，描述了子任务的目标和要求。
多层次推理：ICL 策略要求模型执行多层次的推理。模型根据任务指令和已知信息执行初级推理，然后将结果传递给更高级别的任务，从而形成更复杂的推理链。
通用性和复杂性：ICL 策略旨在增加模型在不同任务上的通用性，特别是在涉及复杂推理或多步决策的任务上。这可以使模型更好地执行任务，而不仅仅是生成表面文本。

应用领域：

ICL 策略可应用于多种自然语言处理任务，包括问答、文本生成、推理任务、逻辑推理和多步问题解决。这些任务通常需要深层次的推理和决策能力，因此 IC 方式对于提高模型的性能非常有帮助。

挑战和研究方向：

虽然 ICL 策略可以提高模型的性能，但它也面临一些挑战，包括：

任务拆分和层次结构的定义需要人工设计，可能需要专业知识。
指导模型执行多层次推理需要更多的计算资源和数据。
模型需要具备足够的通用性，以适应不同类型的任务和子任务。

因此，研究人员正在不断改进 ICL 策略，以使其更有效地应用于各种任务。这是大型语言模型和自然语言处理领域的一个活跃研究方向。

2、CoT

CoT（Compositional Task Learning）提示是一种用于引导大型语言模型（LLM）执行复杂任务的任务指令或策略。CoT 提示强调将任务分解为多个子任务和中间推理步骤，以帮助模型更好地理解任务的结构，执行逐步推理，并提高在复杂推理任务上的性能。以下是关于 CoT 提示的详细介绍：

主要特点和原理：

任务分解：CoT 提示要求将复杂任务分解为多个子任务或中间推理步骤。每个子任务都有一个任务指令，描述了子任务的目标和要求。这有助于模型理解任务的结构和逻辑。
中间推理步骤：对于每个子任务，CoT 提示要求模型执行中间推理步骤，以生成中间结果。这些中间结果可以是一些关键信息、中间论证或子任务的答案。
层次结构：CoT 提示通常采用任务层次结构，其中较高级别的任务依赖于较低级别的中间结果。这样，任务分解为多个层次，每个层次都有特定的任务指令和中间推理步骤。
多步推理：CoT 提示要求模型进行多步推理，以将中间结果合并到最终任务的答案中。这强调了逐步推理的过程，模型需要在多个子任务之间传递信息。
通用性和复杂性：CoT 提示旨在提高模型在复杂任务上的通用性和性能，特别是那些涉及多步推理和逻辑决策的任务。

应用领域：

CoT 提示可应用于各种自然语言处理任务，包括问答、文本生成、推理任务、逻辑推理、科学问题解决等。这些任务通常需要深层次的推理和决策，因此 CoT 提示对于提高模型的性能非常有帮助。

挑战和研究方向：

CoT 提示的设计和应用涉及一些挑战，包括：

定义合适的任务分解和中间推理步骤需要专业知识和任务特定的见解。
模型需要具备足够的通用性，以适应不同类型的任务和子任务。
训练模型以执行多步推理可能需要更多的计算资源和数据。

研究人员正在不断改进和探索 CoT 提示的使用，以使其更有效地应用于各种任务。这是大型语言模型和自然语言处理领域的一个活跃研究方向。

3、指令微调

对大型语言模型（LLM）进行指令微调是一种有效的方法，可以让模型执行特定的任务，而不仅仅是进行自由文本生成。在指令微调中，您提供了任务描述或指令，以明确指导模型执行任务。以下是一些示例任务描述的方式，可以用于指令微调：

问答任务：对于问答任务，您可以使用任务描述，如 "回答以下问题："，然后提供一个问题，模型将根据该问题生成答案。
文本摘要：如果您想让模型生成文本摘要，您可以使用任务描述，如 "生成以下文本的摘要："，然后提供要摘要的文本。
翻译任务：对于机器翻译任务，您可以使用任务描述，如 "将以下文本翻译成英语："，然后提供需要翻译的文本。
分类任务：如果您希望模型执行文本分类任务，您可以使用任务描述，如 "对以下文本进行分类："，然后提供文本和类别标签，模型将为文本分配适当的类别。
情感分析：对于情感分析任务，您可以使用任务描述，如 "分析以下文本的情感："，然后提供要分析情感的文本。
代码生成：如果您希望模型生成特定类型的代码，您可以使用任务描述，如 "生成以下任务的 Python 代码："，然后提供任务描述，模型将生成相关的代码。
问题生成：对于问题生成任务，您可以使用任务描述，如 "为以下文本生成一个问题："，然后提供相关文本，模型将生成问题。

任务描述通常作为指导性的前缀或引导性文本，放在输入文本之前，以告知模型它需要执行什么任务。这些描述可以是自然语言表达的，使得与模型进行交互变得更容易，而不需要复杂的编程或特定的标记。

指令微调通常需要特定的任务数据，其中包含了任务描述和相应的输入。模型会通过在这些数据上进行微调，学习执行特定任务。这种方法可以使 LLM 更好地适应不同类型的任务和指令，从而增强其通用性。

4、InstructGPT

"InstructGPT" 是一种基于人类反馈的微调方法，旨在使大型语言模型（LLM）能够根据给定的指令执行特定任务。这种方法使用强化学习技术，通过人类生成的反馈来引导模型进行微调，以提高其执行任务的能力。以下是关于 InstructGPT 的一些详细信息：

主要特点和原理：

微调过程：InstructGPT 的微调过程包括将模型暴露给人类生成的指令和相应的示例，以指导模型执行特定任务。这些指令可以是自然语言文本，描述了任务的目标和要求。
示例和反馈：除了指令外，示例也是微调的一部分。示例是与指令相关的任务示例，用于帮助模型更好地理解任务。人类生成的示例和反馈用于评估模型生成的输出，以确定其质量。
奖励信号：强化学习技术在 InstructGPT 中使用了奖励信号。这些奖励信号来自于人类评价，用于评估模型的输出是否与期望的任务目标匹配。模型根据奖励信号来调整其生成的输出，以优化任务执行。
迭代微调：微调过程通常是迭代的，模型通过不断接受反馈和奖励信号，逐渐提高其执行任务的能力。这有助于模型在不断学习和改进中适应不同类型的任务。
通用性：InstructGPT 的目标是提高模型的通用性，使其能够执行各种任务，而不仅仅是文本生成。这使得模型能够根据不同的指令和示例执行不同类型的任务，如问答、摘要、翻译等。

应用领域：

InstructGPT 可应用于各种自然语言处理任务，包括文本生成、问答、任务执行、文本摘要等。它的通用性使其成为一个非常有用的工具，用于自动执行特定任务。

挑战和研究方向：

微调和强化学习方法通常需要大量的人类生成示例和反馈数据，这可能是昂贵和耗时的。因此，研究人员正在不断研究如何改进微调方法，以减少数据需求，提高效率。此外，保证模型生成的输出的安全性和准确性也是一个重要的研究方向。

总的来说，InstructGPT 是一种有效的微调方法，通过人类反馈和强化学习技术，使模型能够根据指令执行特定任务。这种方法在自然语言处理任务的执行中具有广泛的应用前景。

四、LLM的局限性

大型语言模型（LLM）的一些局限性以及如何通过外部工具来弥补这些不足。以下是关于这个问题的一些详细信息：

LLM的局限性：

文本生成训练：大型语言模型是通过在大规模文本语料库上进行文本生成训练而构建的。因此，它们在自然语言文本生成方面表现出色。然而，在一些不适合以文本形式表达的任务上表现不佳，如数字计算或执行具体的数学操作。
知识和信息限制：LLM 的能力受限于其预训练数据。它们不能提供超出训练数据范围的最新信息，也无法进行实时知识更新。这意味着它们无法回答需要特定领域最新知识的问题。

外部工具的应用：

为了解决LLM的局限性，可以利用外部工具或资源来弥补这些不足：

计算任务：对于数字计算等任务，外部计算工具或编程环境可以用于执行特定的数学操作。LLM可以生成数学问题，然后将其传递给外部工具，以获取计算结果。
数据库查询：对于需要从数据库中检索信息的任务，LLM可以生成数据库查询语句，并将其发送给数据库以检索所需信息。
领域知识引入：外部工具或库可以用于引入特定领域的知识，以帮助LLM更好地理解和执行特定领域的任务。例如，将自然语言处理模型与领域专家的知识相结合。
信息检索：对于需要最新信息的任务，LLM可以使用信息检索工具来检索最新的新闻、文章或数据，以获取相关信息。

研究和发展：

外部工具与LLM的结合是一个活跃的研究领域，被称为"外部知识引入"或"外部资源利用"。研究人员不断尝试开发方法，以更好地整合外部工具，以改善LLM的性能和通用性。这包括探索如何自动选择适当的外部工具、如何有效地与外部工具进行交互，以及如何处理外部工具可能带来的错误。

总的来说，外部工具可以在一定程度上弥补LLM的不足，使它们能够执行更广泛的任务，包括那些需要特定领域知识或操作的任务。这是大型语言模型和自然语言处理领域的一个重要研究方向。

高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？ ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 机器学习算法深度学习人工智能
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？在大语言模型（LLM）中，最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息，这是由LLM的核心架构（以Transformer为基础）决定的，具体可以从以下角度理解：1.核心机制：自注意力（Self-Attention）的作用现代LLM（如GPT系列、Qwen等）均基于Transformer架构，其核心是自注意力机制。在
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
AI MCP教程之什么是 MCP？利用本地 LLM 、MCP、DeepSeek 集成构建您自己的 AI 驱动工具知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 mcp deepseek
介绍利用模型上下文协议(MCP)的工具吸引了我们的注意力—将AI变成触手可及的生产力引擎。它们巧妙、高效，让人难以抗拒。但如果您可以将这样的功能添加到自己的工具中，会怎么样呢？在本指南中，我将引导您构建一个具有本地运行的大型语言模型(LLM)和MCP集成的AI工具-让您以类似的方式自动执行利用MCP的工具您喜欢的任务。推荐文章《AnythingLLM教程系列之12AnythingLLM上的Olla
24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介最初的DeepSeekR1是一个拥有6710亿个参数的语言模型，UnslothAI团队对其进行了动态量化，将模型大小减少了80%（从720GB减少到131GB），同时保持了强大的性能。当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。推荐文章《本地构建AI智能分析助手之01快速安装，使用PandasAI和Ollama进行数据分析，用自然语言向你公司的数据提问为决策
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
GPT实操——利用GPT创建一个应用狗木马深度学习 gpt-3 gpt
功能描述信息查询：用户可以询问各种问题，如天气、新闻、股票等，机器人会返回相关信息。任务执行：用户可以要求机器人执行一些简单的任务，如设置提醒、发送邮件等。情感支持：机器人可以与用户进行情感交流，提供安慰和支持。个性化设置：用户可以自定义机器人的回复风格和偏好。技术栈前端：React.js后端：Node.js+Express数据库：MongoDB自然语言处理：OpenAIGPT-3API其他工具：
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
【实战AI】macbook M1 本地ollama运行deepseek 东方鲤鱼 chat AI macos ai llama AIGC chatgpt
由于deepseek官网或者Aapi调用会有网络延迟或不响应的情况，故在本地搭建部署；前提条件1.由于需要拉取开源镜像，受网络限制，部分资源在前提中会下载的更快！请自行；2.设备macbookM132G下载ollamaOllama是一款跨平台推理框架客户端（MacOS、Windows、Linux），专为无缝部署大型语言模型（LLM）（如Llama2、Mistral、Llava等）而设计。通过一键式
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
Python爬虫实战：使用最新技术爬取新华网新闻数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 音视频
一、前言在当今信息爆炸的时代，网络爬虫技术已经成为获取互联网数据的重要手段。作为国内权威新闻媒体，新华网每天发布大量高质量的新闻内容，这些数据对于舆情分析、市场研究、自然语言处理等领域具有重要价值。本文将详细介绍如何使用Python最新技术构建一个高效、稳定的新华网新闻爬虫系统。二、爬虫技术选型2.1技术栈选择在构建新华网爬虫时，我们选择了以下技术栈：请求库：httpx（支持HTTP/2，异步请求
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
LLaMA-Omni 深度解析：打开通往无缝人机语音交互的大门 kakaZhui 前沿多模态大模型：论文与实战 llama 交互 LLM TTS 语音识别语音合成人工智能
一、引言：语音交互大模型今天我们来看语音交互大模型LLaMA-Omni，它由中国科学院计算技术研究所的研究者们推出，是一个基于强大的Llama-3.1-8B-Instruct构建的语音语言模型。LLaMA-Omni不仅实现了低至226ms的惊人交互延迟，还能同时生成高质量的文本与语音回复，真正意义上让大语言模型（LLM）具备了“听说”的能力。这篇博客将带你由浅入深，全方位地探索LLaMA-Omni
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python 实战人工智能数学基础：推荐系统应用 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.背景介绍2.核心概念与联系2.1用户画像2.2相似性计算2.2.1基于物品的相似度2.2.2基于用户的相似度2.3协同过滤算法2.3.1基于用户的协同过滤算法2.3.2基于物品的协同过滤算法2.3.3基于上下文的协同过滤算法3.核心算法原理和具体操作步骤以及数学模型公式详细讲解3.1基于用户的协同过滤算法3.2基于物品的协同过滤算法3.3混合协同过滤算法3.
在LLM快速迭代时代构建持久AI应用：架构设计与实施策略
引言：技术浪潮下的开发困境大型语言模型(LLM)的发展速度令人瞠目：从GPT-3到GPT-4，从Claude1到Claude3，从Llama1到Llama3，迭代周期正在从"年"缩短到"月"。作为一名AI应用开发者，我亲身经历了这种技术浪潮带来的挑战：昨天精心调优的prompt今天可能失效；上个季度集成的模型这个季度已有更优选择；刚完成的功能设计瞬间被新模型的能力超越。在如此快速变化的环境中，如何
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息

大语言模型的关键技术（二）

一、Transformer 语言模型存在明显的扩展效应：

1、扩展效应的原因：

2、应用领域：

3、挑战和权衡：

二、分布式训练算法DeepSpeed 和 Megatron-LM

1、DeepSpeed

2、 Megatron-LM

三、能力引导

1、任务决策级别

2、CoT

3、指令微调

4、InstructGPT

四、LLM的局限性

你可能感兴趣的:(语言模型,人工智能,自然语言处理)