lichunericli

大模型题库

你能解释一下Transformer架构及其在大型语言模型中的作用吗？

Transformer架构是一种深度神经网络架构，于2017年由Vaswani等人在他们的论文“Attention is All You Need”中首次提出。自那以后，它已成为大型语言模型（如BERT和GPT）最常用的架构。
Transformer架构使用注意机制来解析输入序列，例如句子或段落，专门用于自然语言处理（NLP）应用。与传统的循环神经网络（RNN）不同，Transformer采用自注意力技术，使其能够同时关注输入序列的多个部分。
在大型语言模型中，Transformer架构用于创建输入文本的深层表示，然后可以用于各种NLP任务，如文本分类、命名实体识别和文本生成。这些模型在大量文本数据上进行了预训练，使它们能够学习数据中的模式和关系，然后可以进行特定的NLP任务的微调。
总的来说，Transformer架构通过提供强大而灵活的架构，彻底改变了NLP领域，特别适用于处理大量文本数据。在大型语言模型中的使用已经在各种NLP任务的性能上实现了显著的改进，并使从业者更容易将最先进的NLP模型集成到他们的项目中。

你如何在以前的项目中使用预训练模型来执行NLP任务？

假设您是一家金融科技初创公司的有经验的软件工程师：
在我之前的一个项目中，我利用预训练模型来提高我们的客户支持聊天机器人的准确性。该聊天机器人最初是在一小组客户咨询的小型数据集上训练的，但由于训练数据量有限，它在某些问题上表现不佳。
为了解决这个问题，我在公司更大的客户咨询数据集上对一个预训练的BERT模型进行了微调。这使模型能够学习数据中的特定模式和关系，从而显著提高了聊天机器人在测试集上的准确性。
除了提高聊天机器人的性能外，使用预训练模型还节省了大量时间和资源，与从零开始训练模型相比。这使我们能够迅速部署更新后的聊天机器人，提供更好的客户体验。
总的来说，预训练模型已经证明在我的NLP项目中是一个有价值的工具，提供高性能和资源节省，并我期待在将来的项目中继续使用它们。

你能解释微调以及它如何用于定制预训练模型以适应特定任务？

微调是一种将预训练模型适应特定任务的过程。它涉及在特定任务的较小数据集上训练预训练模型，使模型能够学习任务特定的特征并适应任务的数据分布。
例如，像BERT或GPT-2这样的预训练语言模型可以针对特定的NLP任务，如情感分析或命名实体识别，进行微调。在这种情况下，微调过程涉及使用特定任务的标记示例的小型数据集来训练模型，通过更新模型参数来改善模型在任务上的性能。
微调过程可以通过使用反向传播和梯度下降等训练算法来更新模型的参数来完成，就像在任何其他机器学习任务中一样。然而，由于模型已经在大量文本数据上进行了预训练，它已经对语言有很强的理解，可以更快地学习任务特定的特征，而不需要从零开始训练模型。
微调具有几个优点。它允许将预训练模型适应特定任务和领域，提高模型在特定任务上的性能。与从头开始训练模型相比，它还节省时间和计算资源，因为预训练模型提供了性能的强大基线。
总的来说，微调是一种用于定制预训练模型以适应特定任务的强大技术，并已成为NLP项目中的常见实践。

将大型语言模型集成到生产系统的过程:

将大型语言模型集成到生产系统通常涉及多个步骤，包括对输入数据进行预处理、定义模型架构、训练模型以及在生产环境中部署模型。以下是该过程的高层概述：

1. 预处理输入数据：首先，需要对输入数据进行预处理，以确保可以输入模型。这可能包括数据清洗、将文本转换为数值表示以及将数据分为训练和测试集。

2. 定义模型架构：接下来，需要定义模型架构。这涉及选择一个预训练语言模型，如BERT或GPT-2，并对其进行微调以适应特定任务。模型架构可能还包括其他层和组件，如分类器，以执行所需的任务。

3. 训练模型：一旦模型架构被定义，下一步是在经过预处理的数据上训练模型。这涉及使用训练算法，如随机梯度下降，来更新模型参数，并提高模型在任务上的性能。

4. 评估模型：在模型经过训练后，评估模型在测试集上的性能非常重要。这可能包括计算指标，如准确度或F1分数，以评估模型的性能并确定需要改进的方面。

5. 部署模型：最后一步是在生产环境中部署模型。这可能涉及将经过训练的模型转换为可以部署在生产环境中的格式，如TensorFlow Serving或Flask，并将其集成到生产系统中。

6. 监控和维护：一旦模型被部署，监控其性能并根据需要进行更新非常重要。这可能涉及重新训练模型以适应新数据、更新模型架构以及解决在生产环境中出现的任何问题。

你能举例说明你如何在以前的项目中优化模型性能吗？

以下是一位金融科技初创公司有经验的软件工程师的虚构答案：

一个例子是针对用于识别欺诈交易的模型。该模型最初是在大量历史交易数据上进行训练的，但由于数据不平衡，其性能不佳。为了解决这个问题，我使用了过采样技术来平衡数据并提高模型的性能。

除了过采样，我还通过微调超参数来优化模型性能。这包括调整学习速率、批量大小和训练周期数等参数，以找到能够实现最佳性能的值的组合。

最后，我还尝试了不同的模型架构，包括决策树和随机森林，以确定最适合该任务的模型。通过比较不同模型的性能，我能够选择表现最佳的模型并将其集成到生产环境中。

总的来说，优化模型性能涉及数据预处理、调整超参数和模型选择的组合。在我的以前的项目中，我通过利用这些技术改进了欺诈检测模型的性能，为我们的客户提供了更准确的解决方案。

你以前是否使用过大型语言模型中的注意机制？你能解释它们是如何工作的吗？

注意机制是许多最先进的NLP模型的重要组成部分，包括基于Transformer的模型，如BERT和GPT。

注意机制的工作原理是允许模型在进行预测时有选择地关注输入序列的不同部分。这是通过计算每个输入序列元素的一组注意分数来实现的，这些分数表示每个元素对于给定任务的重要性。然后，这些注意分数用于加权输入元素，并生成加权和，作为模型下一层的输入。

在高层次上，注意机制允许模型根据手头的任务动态地调整其关注点。例如，在机器翻译任务中，注意机制可能在不同时间关注源句子中的不同单词，使模型能够有选择地关注生成翻译时的重要信息。

在实践中，注意机制是通过一组参数来实现的，称为注意权重，这些参数在训练过程中学习。这些注意权重用于计算注意分数并生成输入元素的加权和。注意权重可以看作是模型用于存储有关输入序列信息的一种记忆。

总的来说，注意机制在提高大型语言模型性能方面发挥了至关重要的作用，因为它允许模型有选择地关注输入序列的不同部分，并更好地捕捉元素之间的关系。

你如何处理大型语言模型的计算需求？

处理大型语言模型的计算需求可能是一个挑战，尤其是在模型必须集成到生产环境中的实际应用中。以下是在项目中管理计算需求的一些策略：

- 硬件优化：大型语言模型需要大量的计算资源，如高端GPU或TPU。为了满足模型的需求，重要的是使用适当的硬

以下是将上述文本翻译成中文：

你如何处理大型语言模型的计算需求？

处理大型语言模型的计算需求可能是一个挑战，尤其是在模型必须集成到生产环境中的实际应用中。以下是在项目中管理计算需求的一些建议：

- 硬件优化：大型语言模型需要大量的计算资源，包括高端GPU或TPU。为了满足模型的需求，使用适当的硬件非常重要，无论是使用云端GPU还是投资于本地硬件。

- 模型修剪：模型修剪涉及移除模型的多余或不重要的组件，可以显著减少模型的计算需求而不损害性能。这可以通过权重修剪、结构修剪和激活修剪等技术来实现。

- 模型量化：量化涉及减少模型权重和激活的精度，可以显著减少模型的内存需求和计算需求。这可以通过量化感知训练或后训练量化等技术来实现。

- 模型蒸馏：模型蒸馏涉及训练一个较小的模型来模仿较大模型的行为。这可以显著减少模型的计算需求而不损害性能，因为较小的模型可以更高效地训练，并且可以在资源有限的环境中部署。

- 并行处理：并行处理涉及将模型的工作负载分布到多个GPU或处理器上，可以显著减少运行模型所需的时间。这可以通过数据并行处理、模型并行处理或管道并行处理等技术来实现。

通过使用这些策略的组合，可以有效地管理大型语言模型的计算需求，确保模型能够在实际应用中得以有效部署。

你能谈谈在使用大型语言模型时遇到的挑战或限制吗？

在NLP项目中使用大型语言模型可能会面临一些挑战和限制。一些常见的挑战包括：

- 计算需求：大型语言模型需要大量的计算资源，如高端GPU或TPU，这可能会在资源有限或需要实时应用的环境中造成部署困难。

- 内存需求：存储大型语言模型的参数需要大量内存，这使得在内存受限的环境中部署或对较小数据集进行微调变得具有挑战性。

- 解释性不足：大型语言模型通常被视为黑盒，难以理解其推理和决策，而这在某些应用中很重要。

- 过拟合：在小数据集上微调大型语言模型可能会导致过拟合，降低对新数据的准确性。

- 偏见：大型语言模型是在大量数据上训练的，这可能会引入模型的偏见。这可能在要求结果中保持中立和公平的应用中构成挑战。

- 道德关切：使用大型语言模型可能会对社会产生重大影响，因此必须考虑伦理问题。例如，通过语言模型生成假新闻或带有偏见的决策可能会带来负面后果。

你能解释NLP中生成模型和判别模型的区别，并举出一个示例吗？

在NLP中，生成模型和判别模型是用于执行不同NLP任务的两个广泛类别的模型。

生成模型关注学习底层数据分布并从中生成新样本。它们建模输入和输出的联合概率分布，旨在最大化生成观察数据的可能性。在NLP中的一个生成模型示例是语言模型，其目标是基于先前的单词来预测序列中的下一个单词。

判别模型则关注学习输入-输出空间中正负示例之间的边界。它们建模给定输入情况下输出的条件概率分布，旨在最大化对新示例的分类准确性。在NLP中的一个判别模型示例是情感分析模型，其目标是根据文本内容将文本分类为积极、消极或中性。

总之，生成模型的目标是生成数据，而判别模型的目标是对数据进行分类。

一、基础篇

1. 目前主流的开源模型体系有哪些？

2. prefix LM 和 causal LM 区别是什么？

3. 涌现能力是啥原因？

4. 大模型LLM的架构介绍？

5. 你比较关注那些主流的开源大模型？

6. 目前大模型模型结构都有那些？

7. prefix LM 和 causal LM、encoder-decoder 区别及各自有什么优缺点？

8. 模型幻觉是什么？业内解决方案是什么？

9. 大模型的 Tokenizer 的实现方法及原理？

10. ChatGLM3 的词表实现方法？

11. GPT3、LLAMA、Chatglm 的Layer Normalization 的区别是什么？各自的优缺点是什么？

12. 大模型常用的激活函数有那些？

14. Multi-query Attention 与 Grouped-query Attention 是否了解？区别是什么？

15. 多模态大模型是否有接触？落地案例？

二、大模型（LLMs）进阶面

1. llama 输入句子长度理论上可以无限长吗？

2. 什么是 LLMs 复读机问题？

3. 为什么会出现 LLMs 复读机问题？

4. 如何缓解 LLMs 复读机问题？

5. LLMs 复读机问题

6. llama 系列问题

7. 什么情况用Bert模型，什么情况用LLaMA、ChatGLM类大模型，咋选？

8. 各个专业领域是否需要各自的大模型来服务？

9. 如何让大模型处理更长的文本？

10. 大模型参数微调、训练、推理

11. 如果想要在某个模型基础上做全参数微调，究竟需要多少显存？

12. 为什么SFT之后感觉LLM傻了?

13. SFT 指令微调数据如何构建?

14. 领域模型Continue PreTrain 数据选取？

15. 领域数据训练后，通用能力往往会有所下降，如何缓解模型遗忘通用能力？

16. 领域模型Continue PreTrain ，如何让模型在预训练过程中就学习到更多的知识？

17. 进行SFT操作的时候，基座模型选用Chat还是Base?

18.领域模型微调指令&数据输入格式要求？

19. 领域模型微调领域评测集构建？

20. 领域模型词表扩增是不是有必要的？

21. 如何训练自己的大模型？

22. 训练中文大模型有啥经验？

23. 指令微调的好处？

24. 预训练和微调哪个阶段注入知识的？

25. 想让模型学习某个领域或行业的知识，是应该预训练还是应该微调？

26. 多轮对话任务如何微调模型？

27. 微调后的模型出现能力劣化，灾难性遗忘是怎么回事？

28. 微调模型需要多大显存？

29. 大模型LLM进行SFT操作的时候在学习什么？

30. 预训练和SFT操作有什么不同

31. 样本量规模增大，训练出现OOM错

32. 大模型LLM进行SFT 如何对样本进行优化？

33. 模型参数迭代实验

34.为什么需要进行参选微调？参数微调的有点有那些？

35.模型参数微调的方式有那些？你最常用那些方法？

36.prompt tuning 和 prefix tuning 在微调上的区别是什么？

37. LLaMA-adapter 如何实现稳定训练？

38. LoRA 原理与使用技巧有那些？

39. LoRA 微调优点是什么？

40. AdaLoRA 的思路是怎么样的？

41. LoRA 权重合入chatglm模型的方法？

42. P-tuning 讲一下？与 P-tuning v2 区别在哪里？优点与缺点？

43. 为什么SFT之后感觉LLM傻了?

44. 垂直领域数据训练后，通用能力往往会有所下降，如何缓解模型遗忘通用能力？

45. 进行SFT操作的时候，基座模型选用Chat还是Base?

46. 领域模型词表扩增是不是有必要的？

47. 训练中文大模型的经验和方法

48. 模型微调用的什么模型？模型参数是多少？微调模型需要多大显存？

49. 预训练和SFT操作有什么不同？

50. 训练一个通用大模型的流程有那些

51.DDO 与 DPO 的区别是什么？

52. 是否接触过 embeding 模型的微调方法

53.有哪些省内存的大语言模型训练/微调/推理方法？

54. 大模型（LLMs）评测有那些方法？如何衡量大模型的效果？

55.如何解决三个阶段的训练（SFT->RM->PPO）过程较长，更新迭代较慢问题？

56. 模型训练的数据集问题：一般数据集哪里找？

57.为什么需要进行模型量化及原理？

58.大模型词表扩充的方法及工具？

59.大模型应用框架

60.搭建大模型应用遇到过那些问题？如何解决的？

61.如何提升大模型的检索效果

62.是否了解上下文压缩方法？

63.如何实现窗口上下文检索？

64.开源的 RAG 框架有哪些，你比较了解？

65. 大模型应用框架 LangChain 和 LlamaIndex 各种的优势有那些？

66. 你使用的向量库有那些？各自有点与区别？

67. 使用外部知识数据库时需要对文档进行分块，如何科学的设置文档块的大小？

68. LLMs 受到上下文长度的限制，如果检索到的文档带有太多噪声，该如何解决这样的问题？

69. RAG（检索增强生成）对于大模型来说，有什么好处？

三、大模型（LLMs）langchain面

什么是 LangChain?

LangChain 包含哪些核心概念？

什么是 LangChain Agent?

如何使用 LangChain ?

LangChain 支持哪些功能?

什么是 LangChain model?

LangChain 包含哪些特点?

LangChain 如何使用?

LangChain 存在哪些问题及方法方案？

LangChain 替代方案？

LangChain 中 Components and Chains 是什么？

LangChain 中 Prompt Templates and Values 是什么？

LangChain 中 Example Selectors 是什么？

LangChain 中 Output Parsers 是什么？

LangChain 中 Indexes and Retrievers 是什么？

LangChain 中 Chat Message History 是什么？

LangChain 中 Agents and Toolkits 是什么？

LangChain 如何调用 LLMs 生成回复？

LangChain 如何修改提示模板？

LangChain 如何链接多个组件处理一个特定的下游任务？

LangChain 如何Embedding & vector store？

LangChain 低效的令牌使用问题

LangChain 文档的问题

LangChain 太多概念容易混淆，过多的“辅助”函数问题

LangChain 行为不一致并且隐藏细节问题

LangChain 缺乏标准的可互操作数据类型问题

四、大模型分布式训练

大模型进行训练，你用的是什么框架？

业内常用的分布式AI框架，你什么了解？

数据并行、张量并行、流水线并行的原理及区别？

推理优化技术 Flash Attention 的作用是什么？

推理优化技术 Paged Attention 的作用是什么？

CPU-offload，ZeRO-offload 了解?

ZeRO，零冗余优化器的三个阶段？

混合精度训练的优点是什么？可能带来什么问题？

Megatron-DeepSpeed 方法？

Megatron-LM 方法

五、大模型（LLMs）推理

为什么大模型推理时显存涨的那么多还一直占着？

大模型在gpu和cpu上推理速度如何？

推理速度上，int8和fp16比起来怎么样？

大模型有推理能力吗？

大模型生成时的参数怎么设置？

有哪些省内存的大语言模型训练/微调/推理方法？

如何让大模型输出合规化

应用模式变更

高通 QCS8550 大模型性能深度解析：从算力基准到场景实测的全维度 Benchmark 伊利丹~怒风 Qualcomm 人工智能 AI编程 python arm 自然语言处理
前言在人工智能技术狂飙突进的时代，大模型正以前所未有的速度重塑各行业生态，从智能客服到多模态交互，从边缘推理到端侧部署，其应用场景不断拓展。而这一切革新的背后，离不开底层硬件的强力支撑。高通QCS8550作为面向下一代智能设备的旗舰级计算平台，凭借高达48TOPS的AI算力与先进的第七代高通AI引擎，在大模型性能表现上极具竞争力。其异构多核架构不仅能高效处理复杂的神经网络计算，还通过软硬件协同优化
【LlamaIndex核心组件指南 | 模型篇】一文通晓 LlamaIndex 模型层：LLM、Embedding 及多模态应用全景解析
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
从零开始理解零样本学习：AI人工智能必学技术 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战 ai
从零开始理解零样本学习：AI人工智能必学技术关键词：零样本学习、人工智能、机器学习、知识迁移、语义嵌入摘要：本文旨在全面深入地介绍零样本学习这一在人工智能领域具有重要意义的技术。首先阐述零样本学习的背景和基本概念，通过详细的解释和直观的示意图让读者建立起对零样本学习的初步认识。接着深入剖析其核心算法原理，结合Python代码进行详细说明，同时引入相关数学模型和公式并举例阐释。通过项目实战部分，带领
Prompt Engineering for Large Language Models 三月七꧁ ꧂ 论文合集llm+prompt prompt 语言模型人工智能自然语言处理 pdf javascript 前端
题目大型语言模型的快速工程简介随着OpenAI的ChatGPT和Google的Bard等软件的普及，大语言模型（LLM）已经渗透到生活和工作的许多方面。例如，ChatGPT可用于提供定制食谱，建议替换缺失的成分。它可用于起草研究提案、用多种编程语言编写工作代码、在语言之间翻译文本、协助政策制定等等（Gao2023）。用户通过“提示”或自然语言指令与大型语言模型进行交互。精心设计的提示可以带
[Python]-基础篇1- 从零开始的Python入门指南踏雪无痕老爷子 Python python 开发语言
无论你是尚未接触编程的新手，还是想从其他语言转向Python的开发者，这篇文章都是你的入门课。一、Python是什么？Python是一种解释型、高级、通用型编程语言，以简洁明了、简单易用着称。它可以应用于网站开发、自动化脚本、数据分析、人工智能、系统操作等多种场景。二、如何安装Python步骤：访问Python官方网站选择目前最新的Python3.x版本下载Windows用户请务必勾选“AddPy
RAG应用的评估（一） AI老炮 AIGC ai 机器学习人工智能语言模型
前言上篇文档主要是对Advanced-RAG的定义、策略和适用场景做了一个细致的分析，那么当我们准备将一个基于大模型的RAG应用投入生产时，如何去判断这个RAG是否合理呢？下面有一些问题是需要提前考并应付的：LLM输出的不确定性会带来一定的不可预知性。一个RAG应用在投入生产之前需要科学的测试以衡量这种不可预知性。在LLM应用上线后的持续维护中,需要科学、快速、可复用的手段来衡量其改进效果,比如回
MCP-Proxy：开发多LLM & 多MCP 支持并安全访问MCP Server的秘密 IT古董技术杂谈安全 MCP MCP-Proxy
在构建多模型、多协议、可控可信的大模型接入平台时，MCP-Proxy扮演着关键中枢。它不仅要支持多个LLM接入，还要保障对后端MCPServer的安全访问、请求审计、能力切换与资源隔离。什么是MCP/MCP-Proxy？MCP（ModelCapabilityProtocol）是新一代模型能力调用协议，类似于OpenAI的API，但可支持：多厂商大模型（OpenAI、DeepSeek、Yi、Chat
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
潜入思维的海洋：SoftCoT++如何让语言模型更聪明步子哥智能涌现语言模型人工智能自然语言处理
在人工智能的浩瀚星空下，大型语言模型（LLMs）如同一颗颗璀璨的恒星，照亮了从文本生成到复杂推理的广阔领域。然而，这些模型在推理任务中往往像是在迷雾中航行——尽管它们能抵达目的地，却常常因为固定的思维路径而错过更优的航线。2025年5月，一篇题为《SoftCoT++:Test-TimeScalingwithSoftChain-of-ThoughtReasoning》的论文如同一盏明灯，照亮了如何让
BI+AI实战：我们如何用3秒完成车企供应链推演 qq_43696218 人工智能
一、BI+AI引领财务分析新纪元在财务数据分析领域，奥威BI+AI正以革命性的姿态颠覆传统。当金蝶、用友等工具仍深陷报表泥潭时，奥威BI+AI通过深度融合商业智能（BI）与人工智能（AI），实现了从滞后报表到实时洞察的飞跃。这不仅极大地提升了财务分析的效率，更为企业的战略决策提供了前所未有的精准支持。二、BI+AI的核心技术优势‌实时动态分析‌o奥威BI+AI摒弃了静态数据集，依托原始科目余额表实
DeepSeek-V3 通俗详解：从诞生到优势，以及与 GPT-4o 的对比码事漫谈 AI ai
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站1.DeepSeek的前世今生1.1什么是DeepSeek？DeepSeek是一家专注于人工智能技术研发的公司，致力于打造高性能、低成本的AI模型。它的目标是让AI技术更加普惠，让更多人能够用上强大的AI工具。1.2DeepSeek-V3的诞生DeepSeek-V3是DeepSeek公司推出的最新一代A
企业级AI开发利器：Spring AI框架深度解析与实战_spring ai实战 AI大模型-海文人工智能 spring python 算法开发语言 java 机器学习
企业级AI开发利器：SpringAI框架深度解析与实战一、前言：Java生态的AI新纪元在人工智能技术爆发式发展的今天，Java开发者面临着一个新的挑战：如何将大语言模型（LLMs）和生成式AI（GenAI）无缝融入企业级应用。传统的Java生态缺乏统一的AI集成方案，开发者往往需要为不同AI供应商（如OpenAI、阿里云、HuggingFace）编写大量重复的接口适配代码，这不仅增加了开发成本，
图扑软件智慧云展厅，开启数字化展馆新模式智慧园区可视化 5g 人工智能大数据安全云计算
随着疫情的影响以及新兴技术的不断发展，展会的发展形式也逐渐从线下转向线上。通过“云”上启动、云端互动、双线共频的形式开展。通过应用大数据、人工智能、沉浸式交互等多重技术手段，构建数据共享、信息互通、精准匹配的高精度“云展厅”，突破时空壁垒限制。图扑软件运用HT强大的渲染功能，数字孪生“云展位”，1:1复现实际展厅内部独特的结构造型和建筑特色。也可以第一人称视角漫游，模拟用户在展厅内的参观场景，在保
转行要趁早！网络安全行业人才缺口大，企业招聘需求正旺！
网络安全行业具有人才缺口大、岗位选择多、薪资待遇好、学历要求不高等优势，对于想要转行的人员来说，是一个非常不错的选择。人才缺口大网络安全攻防技术手段日新月异，特别是现在人工智能技术飞速发展，网络安全形势复杂严峻，人才重要性凸显。教育部《网络安全人才实战能力白皮书》数据显示，到2027年，我国网络安全人员缺口将达327万。近期发布的《2024年网络安全产业人才发展报告》中提到，沿用ISC2的人才缺口
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
误差的回响：反向传播算法与神经网络的惊天逆转田园Coder 人工智能科普人工智能科普
当专家系统在20世纪80年代初期大放异彩，成为人工智能实用化的耀眼明星时，另一股曾经被宣判“死刑”的力量——连接主义（神经网络）——正在寒冬的冻土下悄然涌动，孕育着一场惊天动地的复苏。马文·明斯基和西摩·帕尔特在1969年《感知机》专著中那精准而冷酷的理论批判，如同沉重的封印，将多层神经网络的研究禁锢了近二十年。他们指出的核心死结——缺乏有效算法来训练具有隐藏层的网络——仿佛一道无法逾越的天堑。单
【Html实现“心形日出”（附效果+源代码）】| JavaScript面试题：解释一下异步编程中的回调函数、Promise和Async/Await的概念。它们有什么区别？追光者♂ html5 css3 心形日出前端特效 JS面试题 Promise Async/Await
风会带走你曾经存在过的证明。——虞姬作者主页：追光者♂个人简介：[1]计算机专业硕士研究生[2]2023年城市之星领跑者TOP1(哈尔滨)[3]2022年度博客之星人工智能领域TOP4[4]阿里云社区特邀专家博主[5]CSDN-人工智能领域优质创作者无限进步，一起追光！！！
青少年编程与数学 01-012 通用应用软件简介 15 人工智能助手明月看潮生编程与数学第01阶段青少年编程人工智能应用软件编程与数学
青少年编程与数学01-012通用应用软件简介15人工智能助手一、什么是人工智能助手二、人工智能助手的产生和发展（一）早期探索阶段（二）技术突破阶段（三）广泛应用阶段三、人工智能助手的主要功能（一）信息查询（二）日程管理（三）设备控制（四）知识问答四、人工智能助手的商业模式（一）广告收入（二）增值服务（三）数据服务（四）硬件销售五、DeepSeek（一）基本情况（二）技术水平（三）产品功能（四）市场
虚拟空间中的AI协作与任务 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 AI人工智能与大数据大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
虚拟空间与AI概述在当今信息化和数字化的时代，虚拟空间（VirtualSpace）已成为人们生活和工作的重要一部分。虚拟空间是一种通过计算机技术构建的虚拟环境，它能够模拟和增强现实世界中的各种交互和体验。而人工智能（AI）作为计算机科学的一个分支，通过模拟人类的认知能力来实现自动化和智能化的决策。虚拟空间与AI的结合，不仅为人类带来了全新的交互方式，也为各行业的发展注入了强大的动力。虚拟空间的定义
AI Agent: AI的下一个风口智能体在元宇宙里的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AIAgent:AI的下一个风口智能体在元宇宙里的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：AIAgent,元宇宙,虚拟角色,智能交互,人工智能,虚拟世界,智能体架构,交互式应用1.背景介绍1.1问题的由来随着虚拟现实(VR)、增强现实(AR)和区块链技术的不断发展，元宇宙(Metaverse)的概念逐渐兴起。元宇宙是一个由虚拟世界
攻击者利用热门AI发动黑帽SEO攻击，通过污染搜索结果传播窃密木马 FreeBuf- 人工智能
伪装成AI主题网站的恶意页面|图片来源：ZscalerZscaler威胁实验室研究人员发现一起精心策划的恶意软件攻击活动，攻击者利用ChatGPT和LumaAI等人工智能(AI)工具的热度，通过黑帽SEO（搜索引擎优化）技术劫持搜索引擎结果，诱导用户落入恶意软件陷阱。Zscaler警告称："这些攻击背后的威胁行为者正在利用ChatGPT和LumaAI等AI工具的热度。"这些欺诈活动至少从2025年
Python/Java/Php/C#/Go/C/C++这几个主力语言，谁到底真的不行 dotNET跨平台 java c#开发语言
1.前言阿里最近又进行了史诗级的大裁员，IT行业肉眼可见的持续性衰退与没落。当潮水退却，才能看出谁在裸泳。作为当今计算机编程界的几大主力语言，谁才真正的裸泳者呢？2.描述1.Python:Python作为一款解释性的动态语言，它很早就诞生了。它的第一个发行版1991年出世，比Java还要早四年。可惜命运不济，一直没有大的作为。到了2014年人工智能的风口悄然兴起，Python一路高歌猛进。到了20
人工智能-基础篇-5-建模方式（判别式模型和生成式模型）
机器学习包括了多种建模方式，其中判别式建模（DiscriminativeModel）和生成式建模是最常见的两种。这两种建模方式都可以通过深度学习技术来实现，并用于创建不同类型的模型。简单来说：想要创建一个模型，依赖需求需要合适的建模方式来创建这个模型。通常建模方式主要分为两大类。一类是判别式模型，针对输入数据给出特定的输出。如：判断一张图片是猫还是狗，直接学习“猫”和“狗”的特征差异（如耳朵形状、
PyTorch教程：LSTM语言模型的动态量化技术解析怀灏其Prudent
PyTorch教程：LSTM语言模型的动态量化技术解析tutorialsPyTorchtutorials.项目地址:https://gitcode.com/gh_mirrors/tuto/tutorials前言在深度学习模型部署过程中，模型大小和推理速度是两个至关重要的考量因素。PyTorch提供的动态量化技术能够在不显著影响模型准确率的前提下，有效减小模型体积并提升推理速度。本文将深入解析如何对
【机器学习】数学基础——张量（傻瓜篇）一叶千舟深度学习【理论】机器学习人工智能
目录前言一、张量的定义1.标量（0维张量）2.向量（1维张量）3.矩阵（2维张量）4.高阶张量（≥3维张量）二、张量的数学表示2.1张量表示法示例三、张量的运算3.1常见张量运算四、张量在深度学习中的应用4.1PyTorch示例：张量在神经网络中的运用五、总结：张量的多维世界延伸阅读前言在机器学习、深度学习以及物理学中，张量是一个至关重要的概念。无论是在人工智能领域的神经网络中，还是在高等数学、物
深度学习详解：通过案例了解机器学习基础 beist 深度学习机器学习人工智能
引言机器学习（MachineLearning，ML）和深度学习（DeepLearning，DL）是现代人工智能领域中的两个重要概念。通过让机器具备学习的能力，机器可以从数据中自动找到函数，并应用于各种任务，如语音识别、图像识别和游戏对战等。在这篇笔记中，我们将通过一个简单的案例，逐步了解机器学习的基础知识。1.1机器学习案例学习1.1.1回归问题与分类问题在机器学习中，根据所要解决的问题类型，任务
大语言模型(LLM)量化基础知识(一) -派神- RAG NLP ChatGPT 语言模型人工智能自然语言处理
承接各类AI相关应用开发项目(包括但不限于大模型微调、RAG、AI智能体、NLP、机器学习算法、运筹优化算法、数据分析EDA等)!!!有意愿请私信!!!随着大型语言模型(LLM)的参数数量的增长,与其支持硬件（加速器内存）增长速度之间的差距越来越大，如下图所示：上图显示，从2017年到2022年，语言模型的大小显著增加：2017年：Transformer模型（0.05B参数）2018年：GPT（0
大模型读过的书，终将成为人类的新血肉：一场知识炼金术的深度剖析黑巧克力可减脂 AIGC AIGC 人工智能
“吾生也有涯，而知也无涯。以有涯随无涯，殆已！”庄子千年前的慨叹，在信息爆炸的今天更显沉重。人类个体穷尽一生，所能阅读、理解、吸收的书籍不过沧海一粟。然而，一种前所未有的“数字读者”正在悄然改变这一困境——大语言模型以其近乎贪婪的“阅读”能力，正对浩如烟海的书籍进行前所未有的批量处理与深度总结。这并非冰冷的机械扫描，而是一场静默却影响深远的知识炼金术。巨量“吞噬”：大模型如何“阅读”万卷书？数据洪
配置不当的MCP服务器使AI代理系统面临入侵风险 FreeBuf- 服务器人工智能运维
风险概述：默认配置暴露命令执行漏洞数百台用于连接大语言模型（LLM）与第三方服务、数据源及工具的模型上下文协议（ModelContextProtocol，MCP）服务器存在默认配置缺陷，可能导致用户面临未授权的操作系统命令执行等风险。随着代理型AI（AgenticAI）的兴起，MCP服务器正迅速成为增强AI模型推理上下文的关键工具。但安全研究人员警告，大量公开共享的MCP服务器存在不安全配置，攻击
从实验到生产：DeepSeek大模型工程化部署的关键步骤与风险控制一ge科研小菜菜人工智能人工智能
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注一、引言：大模型部署迈入“工程化时代”随着DeepSeek等开源大语言模型（LLM）的发展，大模型不再是AI实验室的专属工具，越来越多的企业正尝试将其纳入业务生产系统，应用于客服问答、合同审查、数据分析、自动写作等场景。但模型的能力≠可用的系统。从模型下载到模型上线，中间隔着“部署的鸿沟”：资源配置、服务稳定性、响应效率、安全控制、上线合规……一
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息

大模型题库

你能解释一下Transformer架构及其在大型语言模型中的作用吗？

你如何在以前的项目中使用预训练模型来执行NLP任务？

你能解释微调以及它如何用于定制预训练模型以适应特定任务？

将大型语言模型集成到生产系统的过程:

你能举例说明你如何在以前的项目中优化模型性能吗？

你以前是否使用过大型语言模型中的注意机制？你能解释它们是如何工作的吗？

你如何处理大型语言模型的计算需求？

你能谈谈在使用大型语言模型时遇到的挑战或限制吗？

你能解释NLP中生成模型和判别模型的区别，并举出一个示例吗？

一、基础篇

二、大模型（LLMs）进阶面

三、大模型（LLMs）langchain面

四、大模型分布式训练

五、大模型（LLMs）推理

你可能感兴趣的:(LLM,人工智能,语言模型)