lichunericli

大模型微调知识

在模型基础上做全参数微调，需要多少显存？

要确定全参数微调所需的显存量，需要考虑以下几个因素：

模型的大小：模型的大小是指模型参数的数量。通常，参数越多，模型的大小就越大。大型的预训练模型如Bert、GPT等通常有数亿到数十亿个参数，而较小的模型可能只有数百万到数千万个参数。模型的大小直接影响了所需的显存量。
批量大小：批量大小是指在每次训练迭代中一次性输入到模型中的样本数量。较大的批量大小可以提高训练的效率，但也需要更多的显存。通常，全参数微调时，较大的批量大小可以提供更好的性能。
训练数据的维度：训练数据的维度是指输入数据的形状。如果输入数据具有较高的维度，例如图像数据，那么所需的显存量可能会更大。对于文本数据，通常需要进行一些编码和嵌入操作，这也会增加显存的需求。
训练设备的显存限制：最后，需要考虑训练设备的显存限制。显卡的显存大小是一个硬性限制，超过显存限制可能导致训练失败或性能下降。确保所选择的模型和批量大小适应训练设备的显存大小。

综上所述，全参数微调所需的显存量取决于模型的大小、批量大小、训练数据的维度以及训练设备的显存限制。在进行全参数微调之前，建议先评估所需的显存量，并确保训练设备具备足够的显存来支持训练过程。

为什么SFT之后感觉LLM傻了?

在进行Supervised Fine-Tuning（SFT）之后，有时可能会观察到基座模型（如语言模型）的性能下降或产生一些“傻”的行为。这可能是由于以下原因：

数据偏移：SFT过程中使用的微调数据集可能与基座模型在预训练阶段接触到的数据分布有所不同。如果微调数据集与预训练数据集之间存在显著的差异，模型可能会在新任务上表现较差。这种数据偏移可能导致模型在新任务上出现错误的预测或不准确的输出。
非典型标注：微调数据集的标注可能存在错误或不准确的标签。这些错误的标签可能会对模型的性能产生负面影响，导致模型产生“傻”的行为。
过拟合：如果微调数据集相对较小，或者模型的容量（参数数量）较大，模型可能会过拟合微调数据，导致在新的输入上表现不佳。过拟合可能导致模型过于依赖微调数据的特定样本，而无法泛化到更广泛的输入。
缺乏多样性：微调数据集可能缺乏多样性，未能涵盖模型在新任务上可能遇到的各种输入情况。这可能导致模型在面对新的、与微调数据集不同的输入时出现困惑或错误的预测。

为了解决这些问题，可以尝试以下方法：

收集更多的训练数据，以增加数据的多样性和覆盖范围。
仔细检查微调数据集的标注，确保标签的准确性和一致性。
使用正则化技术（如权重衰减、dropout）来减少过拟合的风险。
进行数据增强，通过对微调数据进行一些变换或扩充来增加多样性。
使用更复杂的模型架构或调整模型的超参数，以提高模型的性能和泛化能力。

通过这些方法，可以尽量减少Supervised Fine-Tuning之后模型出现“傻”的情况，并提高模型在新任务上的表现。

SFT 指令微调数据如何构建?

构建Supervised Fine-Tuning（SFT）的微调数据需要以下步骤：

收集原始数据：首先，您需要收集与目标任务相关的原始数据。这可以是对话数据、分类数据、生成任务数据等，具体取决于您的任务类型。确保数据集具有代表性和多样性，以提高模型的泛化能力。
标注数据：对原始数据进行标注，为每个样本提供正确的标签或目标输出。标签的类型取决于您的任务，可以是分类标签、生成文本、对话回复等。确保标注的准确性和一致性。
划分数据集：将标注数据划分为训练集、验证集和测试集。通常，大部分数据用于训练，一小部分用于验证模型的性能和调整超参数，最后一部分用于最终评估模型的泛化能力。
数据预处理：根据任务的要求，对数据进行预处理。这可能包括文本清洗、分词、去除停用词、词干化等处理步骤。确保数据格式和特征表示适合模型的输入要求。
格式转换：将数据转换为适合模型训练的格式。这可能涉及将数据转换为文本文件、JSON格式或其他适合模型输入的格式。
模型微调：使用转换后的数据对基座模型进行微调。根据任务的要求，选择适当的微调方法和超参数进行训练。这可以使用常见的深度学习框架（如PyTorch、TensorFlow）来实现。
模型评估：使用测试集对微调后的模型进行评估，计算模型在任务上的性能指标，如准确率、召回率、生成质量等。根据评估结果对模型进行进一步的优化和调整。

通过以上步骤，您可以构建适合Supervised Fine-Tuning的微调数据集，并使用该数据集对基座模型进行微调，以适应特定任务的需求。

领域模型Continue PreTrain数据如何选取？

在领域模型的Continue PreTrain过程中，数据选取是一个关键的步骤。以下是一些常见的数据选取方法：

领域相关数据：首先，可以收集与目标领域相关的数据。这些数据可以是从互联网上爬取的、来自特定领域的文档或者公司内部的数据等。这样的数据可以提供领域相关的语言和知识，有助于模型在特定领域上的表现。
领域专家标注：如果有领域专家可用，可以请他们对领域相关的数据进行标注。标注可以是分类、命名实体识别、关系抽取等任务，这样可以提供有监督的数据用于模型的训练。
伪标签：如果没有领域专家或者标注数据的成本较高，可以使用一些自动化的方法生成伪标签。例如，可以使用预训练的模型对领域相关的数据进行预测，将预测结果作为伪标签，然后使用这些伪标签进行模型的训练。
数据平衡：在进行数据选取时，需要注意数据的平衡性。如果某个类别的数据样本较少，可以考虑使用数据增强技术或者对该类别进行过采样，以平衡各个类别的数据量。
数据质量控制：在进行数据选取时，需要对数据的质量进行控制。可以使用一些质量评估指标，如数据的准确性、一致性等，来筛选和过滤数据。
数据预处理：在进行数据选取之前，可能需要对数据进行一些预处理，如分词、去除停用词、标准化等，以准备好输入模型进行训练。

在数据选取过程中，需要根据具体任务和需求进行适当的调整和定制。选择合适的数据可以提高模型在特定领域上的性能和泛化能力。

领域数据训练后，如何缓解模型遗忘通用能力？

大模型的通用能力主要指的是人工智能模型，特别是深度学习模型，在处理不同类型任务时的广泛适用性和灵活性。这些能力通常包括但不限于以下几个方面：
1. **自然语言处理（NLP）**：大模型能够理解和生成自然语言，用于翻译、摘要、问答、文本生成等任务。
2. **计算机视觉**：模型能够理解和解释视觉信息，进行图像分类、物体检测、图像生成等任务。
3. **多模态学习**：模型能够处理和理解多种类型的数据，如文本、图像、声音等，并进行跨模态的关联和分析。
4. **迁移学习**：模型能够在新的任务上快速适应，利用之前学习到的知识来提高学习效率和准确性。
5. **少样本学习**：即使只有少量样本，模型也能识别和泛化新的概念或类别。
6. **自监督学习**：模型能够从无标签的数据中学习，通过预测数据中的缺失部分或发现数据中的结构来学习。
7. **强化学习**：模型能够通过与环境的交互来学习最优策略，以实现特定目标。
大模型通常指的是具有大量参数和深层次结构的模型，如Transformer模型。这些模型通过在海量数据上进行训练，能够捕捉到数据中的复杂模式和关系，因此在多种任务上展现出强大的通用能力。
值得注意的是，虽然大模型具有强大的通用能力，但在实际应用中，也需要考虑其潜在的风险和挑战，如数据隐私、算法偏见、能耗等问题。同时，根据中国的相关法律法规和社会主义价值观，大模型的应用也需要符合国家的规定和要求。

当使用领域数据进行训练后，模型往往会出现遗忘通用能力的问题。以下是一些缓解模型遗忘通用能力的方法：

保留通用数据：在进行领域数据训练时，仍然需要保留一部分通用数据用于模型训练。这样可以确保模型仍然能够学习到通用的语言和知识，从而保持一定的通用能力。
增量学习：使用增量学习（Incremental Learning）的方法，将领域数据与通用数据逐步交替进行训练。这样可以在学习新领域的同时，保持对通用知识的记忆。
预训练和微调：在领域数据训练之前，可以使用大规模通用数据进行预训练，获得一个通用的基础模型。然后，在领域数据上进行微调，以适应特定领域的任务。这样可以在保留通用能力的同时，提升领域任务的性能。
强化学习：使用强化学习的方法，通过给模型设置奖励机制，鼓励模型在领域任务上表现好，同时保持一定的通用能力。
领域适应技术：使用领域适应技术，如领域自适应（Domain Adaptation）和领域对抗训练（Domain Adversarial Training），帮助模型在不同领域之间进行迁移学习，从而减少遗忘通用能力的问题。
数据重采样：在进行领域数据训练时，可以使用数据重采样的方法，使得模型在训练过程中能够更多地接触到通用数据，从而缓解遗忘通用能力的问题。

综合使用上述方法，可以在一定程度上缓解模型遗忘通用能力的问题，使得模型既能够适应特定领域的任务，又能够保持一定的通用能力。

领域模型Continue PreTrain，如何让模型在PreTrain中学到知识？

在领域模型的Continue PreTrain过程中，可以采取一些策略来让模型在预训练过程中学习到更多的知识。以下是一些方法：

多任务学习：在预训练过程中，可以引入多个任务，使得模型能够学习到更多的知识。这些任务可以是领域相关的任务，也可以是通用的语言理解任务。通过同时训练多个任务，模型可以学习到更多的语言规律和知识。
多领域数据：收集来自不同领域的数据，包括目标领域和其他相关领域的数据。将这些数据混合在一起进行预训练，可以使得模型在不同领域的知识都得到学习和融合。
大规模数据：使用更大规模的数据进行预训练，可以让模型接触到更多的语言和知识。可以从互联网上爬取大量的文本数据，或者利用公开的语料库进行预训练。
数据增强：在预训练过程中，可以采用数据增强的技术，如随机遮挡、词替换、句子重组等，来生成更多的训练样本。这样可以增加模型的训练数据量，使其能够学习到更多的知识和语言规律。
自监督学习：引入自监督学习的方法，通过设计一些自动生成的标签或任务，让模型在无监督的情况下进行预训练。例如，可以设计一个掩码语言模型任务，让模型预测被掩码的词语。这样可以使模型在预训练过程中学习到更多的语言知识。

综合使用上述方法，可以让模型在预训练过程中学习到更多的知识和语言规律，提升其在领域任务上的性能。

进行SFT操作的时候，基座模型选用Chat还是Base?

在进行Supervised Fine-Tuning（SFT）操作时，基座模型的选择也可以根据具体情况来决定。与之前的SFT操作不同，这次的目标是在特定的监督任务上进行微调，因此选择基座模型时需要考虑任务的性质和数据集的特点。

如果您的监督任务是对话生成相关的，比如生成对话回复或对话情感分类等，那么选择ChatGPT模型作为基座模型可能更合适。ChatGPT模型在对话生成任务上进行了专门的优化和训练，具有更好的对话交互能力。

然而，如果您的监督任务是单轮文本生成或非对话生成任务，那么选择Base GPT模型作为基座模型可能更合适。Base GPT模型在单轮文本生成和非对话生成任务上表现良好，可以提供更准确的文本生成能力。

总之，基座模型的选择应该根据监督任务的性质和数据集的特点进行权衡。如果任务是对话生成相关的，可以选择ChatGPT模型作为基座模型；如果任务是单轮文本生成或非对话生成，可以选择Base GPT模型作为基座模型。

领域模型微调指令&数据输入格式要求？

领域模型微调是指使用预训练的通用语言模型（如BERT、GPT等）对特定领域的数据进行微调，以适应该领域的任务需求。以下是领域模型微调的指令和数据输入格式的要求：

指令要求：

定义任务：明确所需的任务类型，如文本分类、命名实体识别、情感分析等。
选择预训练模型：根据任务需求选择适合的预训练模型，如BERT、GPT等。
准备微调数据：收集和标注与领域任务相关的数据，确保数据集具有代表性和多样性。
数据预处理：根据任务的要求，对数据进行预处理，例如分词、去除停用词、词干化等。
划分数据集：将数据集划分为训练集、验证集和测试集，用于模型的训练、验证和评估。
模型微调：使用预训练模型和微调数据对模型进行微调，调整超参数并进行训练。
模型评估：使用测试集评估微调后的模型的性能，计算适当的评估指标，如准确率、召回率等。
模型应用：将微调后的模型应用于实际任务，在新的输入上进行预测或生成。

数据输入格式要求：

输入数据应以文本形式提供，每个样本对应一行。
对于分类任务，每个样本应包含文本和标签，可以使用制表符或逗号将文本和标签分隔开。
对于生成任务，每个样本只需包含文本即可。
对于序列标注任务，每个样本应包含文本和对应的标签序列，可以使用制表符或逗号将文本和标签序列分隔开。
数据集应以常见的文件格式（如文本文件、CSV文件、JSON文件等）保存，并确保数据的格式与模型输入的要求一致。

根据具体的任务和模型要求，数据输入格式可能会有所不同。在进行领域模型微调之前，建议仔细阅读所使用模型的文档和示例代码，以了解其具体的数据输入格式要求。

领域模型微调领域评测集如何构建？

构建领域评测集的过程可以参考以下步骤：

收集数据：首先需要收集与目标领域相关的数据。这可以包括从互联网上爬取文本数据、使用已有的公开数据集或者通过与领域专家合作来获取数据。确保数据集具有代表性和多样性，能够涵盖领域中的各种情况和语境。
标注数据：对收集到的数据进行标注，以便用于评测模型的性能。标注可以根据任务类型来进行，如文本分类、命名实体识别、关系抽取等。标注过程可以由人工标注或者使用自动化工具进行，具体取决于数据集的规模和可行性。
划分数据集：将标注好的数据集划分为训练集、验证集和测试集。通常，训练集用于模型的训练，验证集用于调整超参数和模型选择，测试集用于最终评估模型的性能。划分数据集时要确保每个集合中的样本都具有代表性和多样性。
设计评测指标：根据任务类型和领域需求，选择合适的评测指标来评估模型的性能。例如，对于文本分类任务，可以使用准确率、召回率、F1值等指标来衡量模型的分类性能。
进行评测：使用构建好的评测集对微调后的模型进行评测。将评测集输入模型，获取模型的预测结果，并与标注结果进行比较，计算评测指标。
分析和改进：根据评测结果，分析模型在不同方面的表现，并根据需要进行模型的改进和调整。可以尝试不同的超参数设置、模型架构或优化算法，以提高模型的性能。

重复以上步骤，不断优化模型，直到达到满意的评测结果为止。

需要注意的是，构建领域评测集是一个耗时且需要专业知识的过程。在进行领域模型微调之前，建议与领域专家合作，确保评测集的质量和有效性。此外，还可以参考相关研究论文和公开数据集，以获取更多关于领域评测集构建的指导和经验。

领域模型词表扩增是不是有必要的？

领域模型的词表扩增可以有助于提升模型在特定领域任务上的性能，但是否有必要取决于具体的情况。以下是一些考虑因素：

领域特定词汇：如果目标领域中存在一些特定的词汇或术语，而这些词汇在通用的预训练模型的词表中没有覆盖到，那么词表扩增就是必要的。通过将这些领域特定的词汇添加到模型的词表中，可以使模型更好地理解和处理这些特定的词汇。
领域特定上下文：在某些领域任务中，词汇的含义可能会受到特定上下文的影响。例如，在医学领域中，同一个词汇在不同的上下文中可能具有不同的含义。如果领域任务中的上下文与通用预训练模型的训练数据中的上下文有较大差异，那么词表扩增可以帮助模型更好地理解和处理领域特定的上下文。
数据稀缺性：如果目标领域的训练数据相对较少，而通用预训练模型的词表较大，那么词表扩增可以帮助模型更好地利用预训练模型的知识，并提升在目标领域任务上的性能。

需要注意的是，词表扩增可能会增加模型的计算和存储成本。因此，在决定是否进行词表扩增时，需要综合考虑领域特定词汇的重要性、数据稀缺性以及计算资源的限制等因素。有时候，简单的词表截断或者使用基于规则的方法来处理领域特定词汇也可以取得不错的效果。最佳的词表扩增策略会因特定任务和领域的需求而有所不同，建议根据具体情况进行评估和实验。

如何训练自己的大模型？

训练自己的大模型通常需要以下步骤：

数据收集和准备：首先，需要收集与目标任务和领域相关的大规模数据集。这可以包括从互联网上爬取数据、使用公开数据集或者与合作伙伴合作获取数据。然后，对数据进行预处理和清洗，包括去除噪声、处理缺失值、标准化数据等。
模型设计和架构选择：根据任务的特点和目标，选择适合的模型架构。可以基于已有的模型进行修改和调整，或者设计全新的模型。常见的大模型架构包括深度神经网络（如卷积神经网络、循环神经网络、Transformer等）和预训练语言模型（如BERT、GPT等）。
数据划分和预处理：将数据集划分为训练集、验证集和测试集。训练集用于模型的训练，验证集用于调整超参数和模型选择，测试集用于最终评估模型的性能。进行数据预处理，如分词、编码、标记化、特征提取等，以便输入到模型中。
模型训练：使用训练集对模型进行训练。训练过程中，需要选择合适的优化算法、损失函数和学习率等超参数，并进行适当的调整和优化。可以使用GPU或者分布式训练来加速训练过程。
模型调优和验证：使用验证集对训练过程中的模型进行调优和验证。根据验证集的性能指标，调整模型的超参数、网络结构或者其他相关参数，以提升模型的性能。
模型评估和测试：使用测试集对最终训练好的模型进行评估和测试。计算模型的性能指标，如准确率、召回率、F1值等，评估模型的性能和泛化能力。
模型部署和优化：将训练好的模型部署到实际应用中。根据实际需求，对模型进行进一步的优化和调整，以提高模型的效率和性能。

需要注意的是，训练自己的大模型通常需要大量的计算资源和时间。可以考虑使用云计算平台或者分布式训练来加速训练过程。此外，对于大模型的训练，还需要仔细选择合适的超参数和进行调优，以避免过拟合或者欠拟合的问题。

训练中文大模型的经验

训练中文大模型时，以下经验可能会有所帮助：

数据预处理：对于中文文本，常见的预处理步骤包括分词、去除停用词、词性标注、拼音转换等。分词是中文处理的基本步骤，可以使用成熟的中文分词工具，如jieba、pkuseg等。
数据增强：中文数据集可能相对有限，可以考虑使用数据增强技术来扩充数据集。例如，可以使用同义词替换、随机插入或删除词语、句子重组等方法来生成新的训练样本。
字词级别的表示：中文中既有字级别的表示，也有词级别的表示。对于字级别的表示，可以使用字符嵌入或者字级别的CNN、RNN等模型。对于词级别的表示，可以使用预训练的词向量，如Word2Vec、GloVe等。
预训练模型：可以考虑使用已经在大规模中文语料上预训练好的模型作为初始模型，然后在目标任务上进行微调。例如，可以使用BERT、GPT等预训练语言模型。这样可以利用大规模中文语料的信息，提升模型的表达能力和泛化能力。
中文特定的任务：对于一些中文特定的任务，例如中文分词、命名实体识别、情感分析等，可以使用一些中文特定的工具或者模型来辅助训练。例如，可以使用THULAC、LTP等中文NLP工具包。
计算资源：训练大模型需要大量的计算资源，包括GPU、内存和存储。可以考虑使用云计算平台或者分布式训练来加速训练过程。
超参数调优：对于大模型的训练，超参数的选择和调优非常重要。可以使用网格搜索、随机搜索或者基于优化算法的自动调参方法来寻找最佳的超参数组合。

需要注意的是，中文的复杂性和语义特点可能会对模型的训练和性能产生影响。因此，在训练中文大模型时，需要充分理解中文语言的特点，并根据具体任务和需求进行调整和优化。同时，也可以参考相关的中文自然语言处理研究和实践经验，以获取更多的指导和启发。

指令微调的好处？

在大模型训练中进行指令微调（Instruction Fine-tuning）的好处包括：

个性化适应：大模型通常是在大规模通用数据上进行训练的，具有强大的语言理解和表示能力。但是，对于某些特定任务或领域，模型可能需要更加个性化的适应。通过指令微调，可以在大模型的基础上，使用特定任务或领域的数据进行微调，使模型更好地适应目标任务的特点。
提升性能：大模型的泛化能力通常很强，但在某些特定任务上可能存在一定的性能瓶颈。通过指令微调，可以针对特定任务的要求，调整模型的参数和结构，以提升性能。例如，在机器翻译任务中，可以通过指令微调来调整注意力机制、解码器结构等，以提高翻译质量。
控制模型行为：大模型通常具有很高的复杂性和参数数量，其行为可能难以解释和控制。通过指令微调，可以引入特定的指令或约束，以约束模型的行为，使其更符合特定任务的需求。例如，在生成式任务中，可以使用基于指令的方法来控制生成结果的风格、长度等。
数据效率：大模型的训练通常需要大量的数据，但在某些任务或领域中，特定数据可能相对稀缺或难以获取。通过指令微调，可以利用大模型在通用数据上的预训练知识，结合少量特定任务数据进行微调，从而在数据有限的情况下获得更好的性能。
提高训练效率：大模型的训练通常需要大量的计算资源和时间。通过指令微调，可以在已经训练好的大模型的基础上进行微调，避免从头开始训练的时间和资源消耗，从而提高训练效率。

指令微调的好处在于在大模型的基础上进行个性化调整，以适应特定任务的需求和提升性能，同时还能节省训练时间和资源消耗。

预训练和微调哪个阶段注入知识的？

在大模型训练过程中，知识注入通常是在预训练阶段进行的。具体来说，大模型的训练一般包括两个阶段：预训练和微调。

在预训练阶段，使用大规模的通用数据对模型进行训练，以学习语言知识和表示能力。这一阶段的目标是通过自监督学习或其他无监督学习方法，让模型尽可能地捕捉到数据中的统计规律和语言结构，并生成丰富的语言表示。

在预训练阶段，模型并没有针对特定任务进行优化，因此预训练模型通常是通用的，可以应用于多个不同的任务和领域。

在微调阶段，使用特定任务的数据对预训练模型进行进一步的训练和调整。微调的目标是将预训练模型中学到的通用知识和能力迁移到特定任务上，提升模型在目标任务上的性能。

在微调阶段，可以根据具体任务的需求，调整模型的参数和结构，以更好地适应目标任务的特点。微调通常需要较少的任务数据，因为预训练模型已经具备了一定的语言理解和泛化能力。

因此，知识注入是在预训练阶段进行的，预训练模型通过大规模通用数据的训练，学习到了丰富的语言知识和表示能力，为后续的微调阶段提供了基础。微调阶段则是在预训练模型的基础上，使用特定任务的数据进行进一步训练和调整，以提升性能。

让模型学习某个领域或行业的知识，是预训练还是微调？

如果你想让大语言模型学习某个特定领域或行业的知识，通常建议进行微调而不是预训练。预训练阶段是在大规模通用数据上进行的，旨在为模型提供通用的语言理解和表示能力。

预训练模型通常具有较强的泛化能力，可以适用于多个不同的任务和领域。然而，由于预训练模型是在通用数据上进行训练的，其对特定领域的知识和术语可能了解有限。

因此，如果你希望大语言模型能够学习某个特定领域或行业的知识，微调是更合适的选择。在微调阶段，你可以使用特定领域的数据对预训练模型进行进一步训练和调整，以使模型更好地适应目标领域的特点和需求。微调可以帮助模型更深入地理解特定领域的术语、概念和语境，并提升在该领域任务上的性能。

微调通常需要较少的任务数据，因为预训练模型已经具备了一定的语言理解和泛化能力。通过微调，你可以在预训练模型的基础上，利用特定领域的数据进行有针对性的调整，以使模型更好地适应目标领域的需求。

总之，如果你希望大语言模型学习某个特定领域或行业的知识，建议进行微调而不是预训练。微调可以帮助模型更好地适应目标领域的特点和需求，并提升在该领域任务上的性能。

多轮对话任务如何微调模型？

微调大语言模型用于多轮对话任务时，可以采用以下步骤：

数据准备：收集或生成与目标对话任务相关的数据集。数据集应包含多轮对话的对话历史、当前对话回合的输入和对应的回答。
模型选择：选择一个合适的预训练模型作为基础模型。例如，可以选择GPT、BERT等大型语言模型作为基础模型。
任务特定层：为了适应多轮对话任务，需要在预训练模型上添加一些任务特定的层。这些层可以用于处理对话历史、上下文理解和生成回答等任务相关的操作。
微调过程：使用多轮对话数据集对预训练模型进行微调。微调的过程类似于监督学习，通过最小化模型在训练集上的损失函数来优化模型参数。可以使用常见的优化算法，如随机梯度下降（SGD）或Adam。
超参数调整：微调过程中需要选择合适的学习率、批次大小、训练轮数等超参数。可以通过交叉验证或其他调参方法来选择最佳的超参数组合。
评估和调优：使用验证集或开发集对微调后的模型进行评估。可以计算模型在多轮对话任务上的指标，如准确率、召回率、F1分数等，以选择最佳模型。
推理和部署：在微调后，可以使用微调后的模型进行推理和部署。将输入的多轮对话输入给模型，模型将生成对应的回答。

需要注意的是，微调大语言模型用于多轮对话任务时，数据集的质量和多样性对模型性能至关重要。确保数据集包含各种对话场景和多样的对话历史，以提高模型的泛化能力和适应性。

此外，还可以使用一些技巧来增强模型性能，如数据增强、对抗训练、模型融合等。这些技巧可以进一步提高模型在多轮对话任务上的表现。

微调后的模型出现能力劣化，灾难性遗忘是怎么回事？

灾难性遗忘（Catastrophic Forgetting）是指在模型微调过程中，当模型在新任务上进行训练时，可能会忘记之前学习到的知识，导致在旧任务上的性能下降。这种现象常见于神经网络模型的迁移学习或连续学习场景中。在微调大语言模型时，灾难性遗忘可能出现的原因包括：

数据分布差异：微调过程中使用的新任务数据与预训练数据或旧任务数据的分布存在差异。如果新任务的数据分布与预训练数据差异较大，模型可能会过度调整以适应新任务，导致旧任务上的性能下降。
参数更新冲突：微调过程中，对新任务进行训练时，模型参数可能会被更新，导致之前学习到的知识被覆盖或丢失。新任务的梯度更新可能会与旧任务的梯度更新发生冲突，导致旧任务的知识被遗忘。

为了解决灾难性遗忘问题，可以尝试以下方法：

重播缓冲区（Replay Buffer）：在微调过程中，使用一个缓冲区来存储旧任务的样本，然后将旧任务的样本与新任务的样本一起用于训练。这样可以保留旧任务的知识，减少灾难性遗忘的发生。
弹性权重共享（Elastic Weight Consolidation）：通过引入正则化项，限制模型参数的变动范围，以保护之前学习到的知识。这种方法可以在微调过程中平衡新任务和旧任务之间的重要性。
增量学习（Incremental Learning）：将微调过程分为多个阶段，每个阶段只微调一小部分参数。这样可以逐步引入新任务，减少参数更新的冲突，降低灾难性遗忘的风险。
多任务学习（Multi-Task Learning）：在微调过程中，同时训练多个相关任务，以提高模型的泛化能力和抗遗忘能力。通过共享模型参数，可以在不同任务之间传递知识，减少灾难性遗忘的影响。

综上所述，灾难性遗忘是在模型微调过程中可能出现的问题。通过合适的方法和技术，可以减少灾难性遗忘的发生，保留之前学习到的知识，提高模型的整体性能。

微调模型需要多大显存？

微调大语言模型所需的显存大小取决于多个因素，包括模型的大小、批次大小、序列长度和训练过程中使用的优化算法等。

对于大型语言模型，如GPT-2、GPT-3等，它们通常具有数亿或数十亿个参数，因此需要大量的显存来存储模型参数和梯度。一般来说，微调这些大型语言模型需要至少16GB以上的显存。

此外，批次大小和序列长度也会对显存需求产生影响。较大的批次大小和较长的序列长度会占用更多的显存。如果显存不足以容纳整个批次或序列，可能需要减小批次大小或序列长度，或者使用分布式训练等策略来解决显存不足的问题。

需要注意的是，显存需求还受到训练过程中使用的优化算法的影响。例如，如果使用梯度累积（Gradient Accumulation）来增加批次大小，可能需要更大的显存来存储累积的梯度。

综上所述，微调大语言模型所需的显存大小取决于模型的大小、批次大小、序列长度和训练过程中使用的优化算法等因素。在进行微调之前，需要确保显存足够大以容纳模型和训练过程中的数据。如果显存不足，可以考虑减小批次大小、序列长度或使用分布式训练等策略来解决显存不足的问题。

大模型LLM进行SFT操作的时候在学习什么？

在大语言模型（LLM）进行有监督微调（Supervised Fine-Tuning）时，模型主要学习以下内容：

任务特定的标签预测：在有监督微调中，模型会根据给定的任务，学习预测相应的标签或目标。例如，对于文本分类任务，模型会学习将输入文本映射到正确的类别标签。
上下文理解和语言模式：大语言模型在预训练阶段已经学习到了大量的语言知识和模式。在有监督微调中，模型会利用这些学习到的知识来更好地理解任务相关的上下文，并捕捉语言中的各种模式和规律。
特征提取和表示学习：微调过程中，模型会通过学习任务相关的表示来提取有用的特征。这些特征可以帮助模型更好地区分不同的类别或进行其他任务相关的操作。
任务相关的优化：在有监督微调中，模型会通过反向传播和优化算法来调整模型参数，使得模型在给定任务上的性能最优化。模型会学习如何通过梯度下降来最小化损失函数，从而提高任务的准确性或其他性能指标。

总的来说，有监督微调阶段主要通过任务特定的标签预测、上下文理解和语言模式、特征提取和表示学习以及任务相关的优化来进行学习。通过这些学习，模型可以适应特定的任务，并在该任务上表现出良好的性能。

预训练和SFT操作有什么不同？

大语言模型的预训练和有监督微调（Supervised Fine-Tuning）是两个不同的操作，它们在目标、数据和训练方式等方面存在一些区别。

目标：预训练的目标是通过无监督学习从大规模的文本语料库中学习语言模型的表示能力和语言知识。预训练的目标通常是通过自我预测任务，例如掩码语言模型（Masked Language Model，MLM）或下一句预测（Next Sentence Prediction，NSP）等，来训练模型。有监督微调的目标是在特定的任务上进行训练，例如文本分类、命名实体识别等。在有监督微调中，模型会利用预训练阶段学到的语言表示和知识，通过有监督的方式调整模型参数，以适应特定任务的要求。
数据：在预训练阶段，大语言模型通常使用大规模的无标签文本数据进行训练，例如维基百科、网页文本等。这些数据没有特定的标签或任务信息，模型通过自我预测任务来学习语言模型。在有监督微调中，模型需要使用带有标签的任务相关数据进行训练。这些数据通常是人工标注的，包含了输入文本和对应的标签或目标。模型通过这些标签来进行有监督学习，调整参数以适应特定任务。
训练方式：预训练阶段通常使用无监督的方式进行训练，模型通过最大化预训练任务的目标函数来学习语言模型的表示能力。有监督微调阶段则使用有监督的方式进行训练，模型通过最小化损失函数来学习任务相关的特征和模式。在微调阶段，通常会使用预训练模型的参数作为初始参数，并在任务相关的数据上进行训练。

总的来说，预训练和有监督微调是大语言模型训练的两个阶段，目标、数据和训练方式等方面存在差异。预训练阶段通过无监督学习从大规模文本数据中学习语言模型，而有监督微调阶段则在特定任务上使用带有标签的数据进行有监督学习，以适应任务要求。

样本量规模增大，训练出现OOM错

当在大语言模型训练过程中，样本量规模增大导致内存不足的情况出现时，可以考虑以下几种解决方案：

减少批量大小（Batch Size）：将批量大小减小可以减少每个训练步骤中所需的内存量。较小的批量大小可能会导致训练过程中的梯度估计不稳定，但可以通过增加训练步骤的数量来弥补这一问题。
分布式训练：使用多台机器或多个GPU进行分布式训练可以将训练负载分散到多个设备上，从而减少单个设备上的内存需求。通过分布式训练，可以将模型参数和梯度在多个设备之间进行同步和更新。
内存优化技术：使用一些内存优化技术可以减少模型训练过程中的内存占用。例如，使用混合精度训练（Mixed Precision Training）可以减少模型参数的内存占用；使用梯度累积（Gradient Accumulation）可以减少每个训练步骤中的内存需求。
减少模型规模：如果内存问题仍然存在，可以考虑减少模型的规模，例如减少模型的层数、隐藏单元的数量等。虽然这可能会导致模型性能的一定损失，但可以在一定程度上减少内存需求。
增加硬件资源：如果条件允许，可以考虑增加硬件资源，例如增加内存容量或使用更高内存的设备。这样可以提供更多的内存空间来容纳更大规模的训练数据。
数据处理和加载优化：优化数据处理和加载过程可以减少训练过程中的内存占用。例如，可以使用数据流水线技术来并行加载和处理数据，减少内存中同时存在的数据量。

综上所述，当在大语言模型训练中遇到内存不足的问题时，可以通过减小批量大小、分布式训练、内存优化技术、减少模型规模、增加硬件资源或优化数据处理等方式来解决。具体的解决方案需要根据具体情况进行选择和调整。

大模型LLM进行SFT 如何对样本进行优化？

对于大语言模型进行有监督微调（Supervised Fine-Tuning）时，可以采用以下几种方式对样本进行优化：

数据清洗和预处理：对于有监督微调的任务，首先需要对样本数据进行清洗和预处理。这包括去除噪声、处理缺失值、进行标准化或归一化等操作，以确保数据的质量和一致性。
数据增强：通过数据增强技术可以扩充训练数据，增加样本的多样性和数量。例如，可以使用数据扩充方法如随机裁剪、旋转、翻转、加噪声等来生成新的训练样本，从而提高模型的泛化能力。
标签平衡：如果样本标签不平衡，即某些类别的样本数量远远多于其他类别，可以采取一些方法来平衡样本标签。例如，可以通过欠采样、过采样或生成合成样本等技术来平衡不同类别的样本数量。
样本选择：在有限的资源和时间下，可以选择一部分具有代表性的样本进行微调训练。可以根据任务的需求和数据分布的特点，选择一些关键样本或难样本进行训练，以提高模型在关键样本上的性能。
样本权重：对于一些重要的样本或困难样本，可以给予更高的权重，以便模型更加关注这些样本的学习。可以通过调整损失函数中样本的权重或采用加权采样的方式来实现。
样本组合和分割：根据任务的特点和数据的结构，可以将多个样本组合成一个样本，或将一个样本分割成多个子样本。这样可以扩展训练数据，提供更多的信息和多样性。
样本筛选和策略：根据任务需求，可以制定一些样本筛选和选择策略。例如，可以根据样本的置信度、难度、多样性等指标进行筛选和选择，以提高模型的性能和泛化能力。

总的来说，对大语言模型进行有监督微调时，可以通过数据清洗和预处理、数据增强、标签平衡、样本选择、样本权重、样本组合和分割、样本筛选和策略等方式对样本进行优化。这些优化方法可以提高训练样本的质量、多样性和数量，从而提升模型的性能和泛化能力。具体的优化策略需要根据任务需求和数据特点进行选择和调整。

模型参数迭代实验

模型参数迭代实验是指通过多次迭代更新模型参数，以逐步优化模型性能的过程。在实验中，可以尝试不同的参数更新策略、学习率调整方法、正则化技术等，以找到最佳的参数配置，从而达到更好的模型性能。

下面是一个基本的模型参数迭代实验过程：

设定初始参数：首先，需要设定初始的模型参数。可以通过随机初始化或使用预训练模型的参数作为初始值。
选择损失函数：根据任务的特点，选择适当的损失函数作为模型的优化目标。常见的损失函数包括均方误差（MSE）、交叉熵损失等。
选择优化算法：选择适当的优化算法来更新模型参数。常见的优化算法包括随机梯度下降（SGD）、Adam、Adagrad等。可以尝试不同的优化算法，比较它们在模型训练过程中的效果。
划分训练集和验证集：将样本数据划分为训练集和验证集。训练集用于模型参数的更新，验证集用于评估模型性能和调整超参数。
迭代更新参数：通过多次迭代更新模型参数来优化模型。每次迭代中，使用训练集的一批样本进行前向传播和反向传播，计算损失函数并更新参数。可以根据需要调整批量大小、学习率等超参数。
评估模型性能：在每次迭代的过程中，可以使用验证集评估模型的性能。可以计算准确率、精确率、召回率、F1值等指标，以及绘制学习曲线、混淆矩阵等来分析模型的性能。
调整超参数：根据验证集的评估结果，可以调整超参数，如学习率、正则化系数等，以进一步提升模型性能。可以使用网格搜索、随机搜索等方法来寻找最佳的超参数配置。
终止条件：可以设置终止条件，如达到最大迭代次数、模型性能不再提升等。当满足终止条件时，结束模型参数迭代实验。

通过模型参数迭代实验，可以逐步优化模型性能，找到最佳的参数配置。在实验过程中，需要注意过拟合和欠拟合等问题，并及时调整模型结构和正则化技术来解决。同时，要进行合理的实验设计和结果分析，以得到可靠的实验结论。

你可能感兴趣的:(LLM,人工智能,语言模型)

算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？ ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 机器学习算法深度学习人工智能
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？在大语言模型（LLM）中，最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息，这是由LLM的核心架构（以Transformer为基础）决定的，具体可以从以下角度理解：1.核心机制：自注意力（Self-Attention）的作用现代LLM（如GPT系列、Qwen等）均基于Transformer架构，其核心是自注意力机制。在
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 计算机视觉人工智能机器学习算法深度学习
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的有个假设：就是最后一个词语融合了前面词语的信息减法操作主要用于提取模型内部表征中的"诚实性"概念向量。具体来说，这是通过对比诚实和不诚实场景下的模型隐藏状态实现的。importtorchfromtransformersimportAutoModelForCausalLM,AutoTokenizer,AutoConfigimportnum
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
LLM-生成器判别器的实现
总结首先，使用GPT模型获取每个词的生成概率pLLMp_{LLM}pLLM。然后，使用训练好的生成判别器，对每个可能的生成结果进行打分，得到pθ(c∣x1:t)p_\theta(c|x_{1:t})pθ(c∣x1:t)。最后，结合两者的输出，用贝叶斯规则调整每个词的概率，选择调整后的概率最高的词作为输出。通过这样的组合，生成过程可以更好地满足预期需求，如生成符合特定风格或格式的文本。要在使用已经预
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
AI MCP教程之什么是 MCP？利用本地 LLM 、MCP、DeepSeek 集成构建您自己的 AI 驱动工具知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 mcp deepseek
介绍利用模型上下文协议(MCP)的工具吸引了我们的注意力—将AI变成触手可及的生产力引擎。它们巧妙、高效，让人难以抗拒。但如果您可以将这样的功能添加到自己的工具中，会怎么样呢？在本指南中，我将引导您构建一个具有本地运行的大型语言模型(LLM)和MCP集成的AI工具-让您以类似的方式自动执行利用MCP的工具您喜欢的任务。推荐文章《AnythingLLM教程系列之12AnythingLLM上的Olla
使用 Ollama 、 DeepSeek和QWEN的模型上下文协议 (MCP) ，使用本地 LLM 教程的 MCP 服务器知识大胖 NVIDIA GPU和大语言模型开发教程服务器运维人工智能 qwen2vl deepseek
简介模型上下文协议：MCP服务器据称是AI领域的下一个重大改变者，它将使AI代理变得比我们想象的更加先进。MCP或模型上下文协议由Anthropic去年发布，它可以帮助LLM连接软件并对其进行控制。但有一个问题大多数MCP服务器都与ClaudeAI兼容，尤其是ClaudeAI桌面应用程序，但它们有自己的限制。有没有办法我们可以使用本地LLM运行MCP服务器？是的，在这个特定的逐步详细教程中，我们将
24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介最初的DeepSeekR1是一个拥有6710亿个参数的语言模型，UnslothAI团队对其进行了动态量化，将模型大小减少了80%（从720GB减少到131GB），同时保持了强大的性能。当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。推荐文章《本地构建AI智能分析助手之01快速安装，使用PandasAI和Ollama进行数据分析，用自然语言向你公司的数据提问为决策
在 Obsidian 中本地使用 DeepSeek — 无需互联网！知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek
简介您是否想在Obsidian内免费使用类似于ChatGPT的本地LLM？如果是，那么本指南适合您！我将引导您完成在Obsidian中安装和使用DeepSeek-R1模型的确切步骤，这样您就可以在笔记中拥有一个由AI驱动的第二大脑。推荐文章《24GBGPU中的DeepSeekR1：UnslothAI针对671B参数模型进行动态量化》权重1，DeepSeek类《在RaspberryPi上运行语音识别
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
OpenWebUI系列之如何通过docker自动将其更新到OpenWebUI最新版本知识大胖 NVIDIA GPU和大语言模型开发教程 docker llm openwebui
实战需求OpenWebUI是一个可扩展、功能丰富且用户友好的自托管WebUI，旨在完全离线运行。它支持各种LLM运行器，包括Ollama和OpenAI兼容API。如何通过docker自动将其更新到OpenWebUI最新版本？系列文章《OpenWebUI系列之如何通过docker更新到OpenWebUI的最新版本》权重0，本地类、opewebui类《OpenWebUI系列之如何通过docker自动将
AnythingLLM教程系列之 12 AnythingLLM 上的 Ollama 与 MySQL+PostgreSQL 知识大胖 NVIDIA GPU和大语言模型开发教程 mysql postgresql 数据库 anythingllm ollama
简介一款全栈应用程序，可让您将任何文档、资源或内容转换为上下文，任何LLM都可以在聊天期间将其用作参考。此应用程序允许您选择要使用的LLM或矢量数据库，并支持多用户管理和权限。本文将介绍如何在AnythingLLM上将Ollama与MySQL+PostgreSQL连接起来。系列文章如何安装《无需任何代码构建自己的大模型知识库：AnythingLLM最易于使用的一体化AI应用程序，可以执行RAG、A
AnythingLLM教程系列之 09 AnythingLLM 支持自定义音频转录提供程序知识大胖 NVIDIA GPU和大语言模型开发教程 llama3 anythingllm llm
什么是AnythingLLM?AnythingLLM是最易于使用的一体化AI应用程序，可以执行RAG、AI代理等操作，且无需任何代码或基础设施难题。您需要为您的企业或组织提供一款完全可定制、私有且一体化的AI应用程序，该应用程序基本上是一个具有许可的完整ChatGPT，但具有任何LLM、嵌入模型或矢量数据库。如何安装《无需任何代码构建自己的大模型知识库：AnythingLLM最易于使用的一体化AI
AnythingLLM教程系列之 04 AnythingLLM 允许您以正确的格式导出聊天日志，以构建 GPT-3.5 和 OpenAI 上其他可用模型的微调模型（教程含安装步骤）知识大胖 NVIDIA GPU和大语言模型开发教程 llama3 ai anythinllm llama
什么是AnythingLLM?AnythingLLM是最易于使用的一体化AI应用程序，可以执行RAG、AI代理等操作，且无需任何代码或基础设施难题。您需要为您的企业或组织提供一款完全可定制、私有且一体化的AI应用程序，该应用程序基本上是一个具有许可的完整ChatGPT，但具有任何LLM、嵌入模型或矢量数据库。如何安装《无需任何代码构建自己的大模型知识库：AnythingLLM最易于使用的一体化AI
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
LLM 大模型学习必知必会系列(十三)：基于SWIFT的VLLM推理加速与部署实战汀、人工智能 LLM技术汇总人工智能自然语言处理 LLM Agent vLLM AI大模型大模型部署
LLM大模型学习必知必会系列(十三)：基于SWIFT的VLLM推理加速与部署实战1.环境准备GPU设备:A10,3090,V100,A100均可.#设置pip全局镜像(加速下载)pipconfigsetglobal.index-urlhttps://mirrors.aliyun.com/pypi/simple/#安装ms-swiftpipinstall'ms-swift[llm]'-U#vllm与
[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
【实战AI】macbook M1 本地ollama运行deepseek 东方鲤鱼 chat AI macos ai llama AIGC chatgpt
由于deepseek官网或者Aapi调用会有网络延迟或不响应的情况，故在本地搭建部署；前提条件1.由于需要拉取开源镜像，受网络限制，部分资源在前提中会下载的更快！请自行；2.设备macbookM132G下载ollamaOllama是一款跨平台推理框架客户端（MacOS、Windows、Linux），专为无缝部署大型语言模型（LLM）（如Llama2、Mistral、Llava等）而设计。通过一键式
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
思维链革命：让大模型突破“机器思考”的边界 John Song AI 人工智能思维链2.0 CoT 多模态思维链元认知优化
以下是对LilianWeng思维链技术深度解析文章（原文链接）的博客化重构，融合技术本质与应用实践：思维链革命：让大模型突破“机器思考”的边界——解析ChainofThought技术体系与下一代推理架构一、从黑箱到透明思考：CoT的核心突破传统LLM困境：“大模型如同天才自闭症患者——知识渊博却无法展示思考路径”CoT解决方案：#标准CoT提示模板prompt="""问题：小明有5个苹果，吃掉2个
LLM Agent在多模态任务中的推理机制详解
文章目录一、引言二、多模态LLMAgent的基本架构2.1系统组成2.2工作流程图三、多模态表示与对齐3.1跨模态嵌入空间3.2模态对齐技术四、多模态推理策略4.1基于提示的推理(Prompt-basedReasoning)4.2多模态思维链(CoT)推理4.3多模态工具使用五、实现案例：多模态问答系统5.1系统架构5.2示例应用六、高级多模态推理技术6.1多模态递归推理6.2多模态记忆与检索6.
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

大模型微调知识

在模型基础上做全参数微调，需要多少显存？

为什么SFT之后感觉LLM傻了?

SFT 指令微调数据如何构建?

领域模型Continue PreTrain数据如何选取？

领域数据训练后，如何缓解模型遗忘通用能力？

领域模型Continue PreTrain，如何让模型在PreTrain中学到知识？

进行SFT操作的时候，基座模型选用Chat还是Base?

领域模型微调 指令&数据输入格式要求？

领域模型微调 领域评测集如何构建？

​​​​​​​领域模型词表扩增是不是有必要的？

​​​​​​​如何训练自己的大模型？

​​​​​​​训练中文大模型的经验

​​​​​​​指令微调的好处？

​​​​​​​预训练和微调哪个阶段注入知识的？