HxShine

kaggle大模型竞赛优胜方案总结与思考

大家好，我是HxShine。

LLM的Reward模型该如何训练呢？今天对Kaggle LLM比赛LLM Science Exam 的一些优胜方法做一个总结，这是Kaggle竞赛平台第一次举办LLM相关比赛，赛题就是探索如何训练一个science-based Reward Model。

优胜方案中，如何利用RAG（检索增强）方法提高模型的上限，如何通过传统方法以及向量检索方法提高检索知识的质量，如何使用LoRA，QLoRA等技术对LLaMa2等系列进行微调，甚至在16GB内存的GPU上对70B大小的LLM进行推理[7]等很多技术都值得我们学习，相信大家看完会有所收获。

一、概述

Title：Kaggle - LLM Science Exam Use LLMs to answer difficult science questions

比赛排行榜：https://www.kaggle.com/competitions/kaggle-llm-science-exam/leaderboard

1 Motivation

Reward模型：简单来说就是用于判断LLM的输出哪个更好，辅助提升LLM的输出质量。它是一种用于强化学习的技术，用于改进生成式对话系统的性能，基本思想是通过奖励函数来引导模型生成更好的回复，
Reward模型是强化学习提高LLM表现的关键之一。Reward模型该如何建模？可以利用那些数据？如何训练？大模型好还是小模型好？都还有待进一步探索。
如何尽可能低成本的训练好的Reward模型？OpenAI的Reward模型用的是6B左右的模型[1]，成本更低的Reward模型方案也值得探索，该比赛通过限制GPU数量和推理时间来挖掘成本低，精度高的Reward模型训练方案。

2 Definition

赛题：从大模型生成的5个候选结果挑选3个最好的结果。即对于每一个问题prompt，LLM生成A、B、C、D、E五个答案，正确的答案answer只有一个，从LLM生成的5个结果中，选择前三的答案进行输出。其利用MAP@3计算分数。下面给出一个样例数据：

Prompt：

Which of the following statements accurately describes the impact of Modified Newtonian Dynamics (MOND) on the observed ""missing baryonic mass"" discrepancy in galaxy clusters?

A：

MOND is a theory that reduces the observed missing baryonic mass in galaxy clusters by postulating the existence of a new form of matter called "fuzzy dark matter."

B：

MOND is a theory that increases the discrepancy between the observed missing baryonic mass in galaxy clusters and the measured velocity dispersions from a factor of around 10 to a factor of about 20.

C：

MOND is a theory that explains the missing baryonic mass in galaxy clusters that was previously considered dark matter by demonstrating that the mass is in the form of neutrinos and axions.

D：

MOND is a theory that reduces the discrepancy between the observed missing baryonic mass in galaxy clusters and the measured velocity dispersions from a factor of around 10 to a factor of about 2.

E：

MOND is a theory that eliminates the observed missing baryonic mass in galaxy clusters by imposing a new mathematical formulation of gravity that does not require the existence of dark matter.

Answer:

评价指标：MAP@3: Mean Average Precision @ 3， @3=1 ∑ =1 ∑ =1 ( ,3) ( )× ( )

资源要求：CPU或者GPU推理时间都不能超过9小时，不能接入外部网络。

训练数据：200条评估数据。

测试集：大概4000条数据。

3 难点分析

建模方法：题目要求我们对LLM生成的science-based的结果进行排序，其强烈依赖于STEM相关知识，如何对其建模非常关键，包括中后期大家发现引入外部知识（RAG）来进行增强可以极大的提升模型的上限。
建模数据：比赛只提供了200条测试数据，没有训练数据，同时待预测的数据大概4000+左右，20%在A榜，80%在B榜。
资源限制：比在只提供2*T4或者1*P100的GPU，时间限制为不超过9小时。

二、Methods

1 RAG vs Finetuning？[2]

RAG：这种方法将检索（或搜索）的能力集成到LLM中。它结合了一个检索系统和一个大模型，前者从大型语料库中获取相关文档片段，后者使用这些片段中的信息生成答案。本质上，RAG 帮助模型“查找”外部信息以改进其响应。

微调：这是采用预先训练的 LLM 并在较小的特定数据集上对其进行进一步训练的过程，以使其适应特定任务或提高其性能。通过微调，我们根据数据调整模型的权重，使其更适合我们应用程序的独特需求。

RAG+微调：在外部知识要求高的情况下，优先RAG，需要模型适配（风格行为词汇）等，就需要微调，两者要求都高的话，需要结合使用[5]。

三、关键优化思路总结

总体上，RAG + LLM结合的模型可以在知识来源、检索方法、基座模型及其尺寸、是否需要微调等多个方面进行优化，针对本次比赛，对我收集到的一些方法进行对比，方便大家参考。

1 检索增强与检索质量为王！

说明：主要探索不用RAG检索增强以及用了RAG检索增强的效果差异，如果不用RAG，模型很快就会到达瓶颈。

基座模型	方法	说明	LB分数	链接
deberta	without context	不利用检索的结果进行增强	0.732	https://www.kaggle.com/code/radek1/new-dataset-deberta-v3-large-training
deberta	wiki as context	利用wiki百科的数据进行增强	0.819	https://www.kaggle.com/code/cdeotte/how-to-train-open-book-model-part-1https://www.kaggle.com/code/cdeotte/how-to-train-open-book-model-part-2
deberta	stem(270k)as context	利用stem相关的高质量结果进行检索增强	0.862	https://www.kaggle.com/code/mbanaei/86-2-with-only-270k-articles
LLM（7b/17b）	without context	直接用LLM，不用检索增强，很快就遇到瓶颈了	0.84	https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446422
LLM（7b/17b）	wiki as context	利用wiki百科的检索数据来增强，同时基座模型用7B/13B左右的模型	0.90+	https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446422v

总结1：没有检索增强RAG的引入，很快达到性能瓶颈。没有引入RAG，分数大概是0.73～0.84，第一名的解决方案[4]也提到如果没有检索增强，很快就遇到性能瓶颈，所以他们在RAG检索以及质量优化上都做了不少工作。

总结2：知识以及知识的质量非常关键，几乎是本场比赛的决定因素之一。例如同样的模型（deberta系列），270k的高质量数据LB分数可以到0.862左右，wiki的上下文LB分数只能到0.819左右，同时without context情况下LB只有0.732。另外第一名的解决方案[4]也探索了多种embedding的方案来检索高质量的上下文。15rd place solution[6]几乎把全部精力都放在检索端。

2 有哪些好的检索方法？

方法	说明	LB	链接
tfidf	利用tfidf传统方法来做检索增强	0.862	https://www.kaggle.com/code/mbanaei/86-2-with-only-270k-articles
tfidf+embedding	结合多类检索方法来做增强，甚至可以在检索测做TTS	0.905	tfidf方案：https://www.kaggle.com/code/mbanaei/86-2-with-only-270k-articlesembedding方案：https://www.kaggle.com/code/dangnguyen97/wikipedia-rag
bm25（elastic sedarch）	利用bm25传统方法来做检索增强	0.9+?（第4名用了多种检索增强的方法来做，最终PB分数0.927）	https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446307https://www.kaggle.com/code/linshokaku/4th-elasticsearch-retrieval-example
embedding model	主要的考察点在用哪种embedding模型效果好？第一名尝试了MTEB Leaderboard上top-20模型，最终挑选了5个最好的模型模型	0.90+	https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446422
ranker model	在检索的基础上，利用ranker模型进一步筛选更高质量的结果	0.90+	https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446816
检索位置的影响（选项ABCDE不同位置有影响）	TTS增强：根据context或者答案的顺序来做TTS，增加多样性。有效果但是不太稳定。在final classification head添加每个选项的average logits，效果不错并且稳定。	0.90+，上限比较高!	https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446422

总结1：传统检索方法效果也不错。在LLM领域，向量检索不一定比传统检索方法tfidf以及bm25效果好，特别是没有经过垂直领域的训练的embedding模型。例如86-2-with-only-270k-articles[2]中利用tfidf检索，效果比向量检索还稍微好一点。同时4th[2]方法，用elastic_search来检索文档（原理是bm25算法），也取得一个不错的效果。

总结2：检索的质量非常重要。为了提高检索质量，86-2-with-only-270k-articles[2]方法过滤筛选了270k相关的数据，效果相对于原始的wiki数据有了明显的提升。第一名的解决方案[4]提到筛选更相关的一些数据用处不大，可能是其挑选的embedding模型效果不错了，不会检索出质量不太好的结果出来。第15名的方法[6]利用ranker模型进一步筛选高质量的检索结果来提高最终表现。

总结3：检索侧可以用到的优化的方法：传统检索方法（es,tfidf,bm25,Lucene等）+ 向量检索（开源embedding模型, SimCSE[6]）+ 训练Ranker模型[6]。

3 基座模型该如何选择？

方法	模型	说明	最高排名	链接
传统模型	deberta + finetuning + RAG	deberta系列模型做微调后，结合RAG效果也不错，重点是需要优化检索效果	4rd private:0.927	https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446307
中等模型（7B/13B）	Llama-2-7bMistral-7B-v0.1xgen-7b-8k-baseLlama-2-13b + finetuning + RAG	7B/13B左右的模型，经过微调，同时结合RAG，在做融合，效果比较好	1rdprivate:0.933	https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446358
大模型(70B)	debertas + Platypus(70B for hard question) + Xwin(70B) + reranker，其中Platypus(70B for hard question)以及reranker带来的提升比较大	大模型主要是解决hard question，带来一定提升	3rdprivate:0.928	https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446358

总结1：小模型微调+高质量的检索结果上限也不错。第四名最终只用了deberta模型，另外在检索测利用es等方法做了很多优化，在检索侧做了TTS，最终拿到了第四名。

总结2：大模型微调（7B或者13B左右的模型）可能比小模型微调的上限更高。第一名利用7B左右的模型微调+RAG，一直摇摇领先。

总结3：70B模型zero-shot通用效果就不错，但是在有些方面还打不过微调后的小模型。70B+zero-shot模型大概能达到0.872，总体上表现还不错，但是离要拿到奖牌还有一定距离，微调70B左右的模型效果可能更好，但资源需求也更大，并且不方便做模型融合。

总结4：基座模型可能没那么重要，具体效果的话大概如下：7b/13b + fine-tuning > deberta + fine-tuning > 70b + zero-shot。

4 是否需要对模型在该领域数据上进行微调？

方法	是否微调	分数	链接
longformer/deberta + RAG	不微调	0.862(with RAG， longformer 未微调)0.89(with RAG, deberta微调)	https://www.kaggle.com/code/mbanaei/86-2-with-only-270k-articles
deberta + 微调 + RAG	微调	0.762(without RAG)0.90+(with RAG)	https://www.kaggle.com/code/mewmlelswm/lb-0-762-train-4-fold-and-ensemblehttps://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446307
LLama7BMistral 7B	不微调	0.656(without RAG)0.853(with RAG)	https://www.kaggle.com/code/zzy990106/llama-7b-inferhttps://www.kaggle.com/code/goelyash/llm-science-mistral-7b
7B LLama2 + 微调 + RAG	微调	0.84+(without RAG)0.90+(with RAG)	https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446358
70B LLM + zero-shot + RAG	不微调	0.872(with RAG)	https://www.kaggle.com/code/zulqarnainali/explained-platypus2-70b-wikipedia-rag
70B LLM + 微调 + RAG	微调	0.914（with RAG）	https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446414

总结1：微调特别是小模型微调，能带来不错的提升。deberta模型微调+模型融合也能到0.927左右的分数，和其他模型的最终结果差异没那么大。

总结2：7B/13B左右的模型微调上限可能高于deberta系列模型的微调。第一名提到其7B左右的模型微调效果就已经很不错了（LB 0.92+），融合deberta模型已经不能带来提升了。

总结3：70B大小的模型其zero-shot能力已经相当不错了【需要结合RAG】。开源70B模型+zero-shot+RAG能达到PB 0.872的分数，效果还不错。

四、优胜方案要点分析

leaderboard	方法概述	关键因素	分数
1rd place solution	基座模型：Llama-2-7b，Mistral-7B-v0.1，xgen-7b-8k-base，Llama-2-13b + 是否微调：finetuning检索增强：1. 探索MTEB top20 embedding模型，挖掘最好的5个。2. 探索更高的数据质量。3. 检索侧做TTS融合。验证策略：6k STEM数据。工程：推理加速，包括对context+prompt结果做缓存，优化推理速度，从而可以进行多模型融合。	检索质量，基座模型，工程能力	private:0.933
3rd place solution	基座模型：debertas + Platypus(70B for hard question) + Xwin(70B)排序模型：reranker +0.912->0.927提升挺大的。更高的数据质量：利用https://github.com/attardi/wikiextractor收集更高质量的wiki数据	数据质量，模型融合Platypus(70B for hard question)reranker筛选更高质量的context总结：相当于利用70B模型有更好的通用能力来解决小模型表现不太好的case从而进行融合。	private:0.928
4rd place solution	基座模型：Deberta v3 Large检索方法：Elasticsearch检索排序：edit distance + sentence-transformers	检索质量：高质量的检索结果，以及在检索侧做很多TTS优化融合工作带来的提升。	private:0.927
5rd place solution	基座模型：Mistral 7B + Llama-70B微调方法：QLoRA检索方法：BM-25（Lucene），参考https://www.kaggle.com/code/strifonov/pyserini-scibert + 向量检索高质量数据：自己处理了wikipedia的数据增强方法：TTA融合方法：7B模型简单问题（40%），70B模型苦难问题（60%），更长的context+70B模型预测前两个困难样本（5%）	融合方法：困难问题用70B模型来解决检索质量：BM25 + 向量检索结合TTA增强等	private:0.926, public:0.928
7rd palce solution	基座模型：Deberta + LLM检索方法：tfidf + sentence-transformer验证集：130k STEM数据训练：QLoRA SFT训练（7B/13B）多级模型融合方法：简单模型解决阈值高的问题，模型融合解决稍微复杂一点的问题，LLM模型融合解决hard example	融合方法+检索方法	private:0.925, public:0.931
10rd palce solution	数据：dumps数据，cirrus数据，270k两种数据。检索方法：tfidf+向量（bge，gte，e5）切片方法：sliding window，top 10 chunks模型：deberta	检索质量	private:0.922
14rd palce solution	数据：cirrussearch wiki dump（质量更好点）检索：向量检索（gte，bge，e5）模型：deberta 256融合：TTA（检索结果）	检索结果融合：不同排序的context融合[ 0, 1, 2, 3, 4, 5][ 0, 6, 7, 8, 9, 10][ 0, 11, 12, 13, 14, 15][ 0, 16, 17, 18, 19, 20]	private:0.920
15rd palce solution	数据：6800k wikipedia + 270k检索方法：tfidf + sentence model（simcse训练）检索排序：6800k wiki -> sentence top1000 -> LBGRanker -> top30 -> sentence model -> top20 -> LB 0.885270k tfidf/sentence -> top5/top8 paragraphs模型：deberta	检索优化+排序模型+检索侧TTS	private:0.920，public:0.934

总结1：RAG检索对于最终效果非常重要。包括不断优化检索数据质量，利用多种检索策略（基于传统方法or基于向量），还可以通过ranker等方法筛选更好的结果。另外检索侧基于不同不用顺序的context做TTS也能带来不错的提升。

总结2：小模型微调效果也不错，大模型（70B）zero-shot能力非常强，大模型胜在通用能力。例如3rd方法采用小模型解决简单问题，大模型解决hard问题的融合策略。

总结3：7B/13B大小的模型可能会成为NLP竞赛的主力军。其模型上限效果不错，可能比deberta类似大小的模型效果更好，同时训练所需资源也较小。

详细解决思路可以参考：https://www.kaggle.com/competitions/kaggle-llm-science-exam/leaderboard

五、总结

RAG检索对于最终效果非常重要。包括不断优化检索数据质量，利用多种检索策略，基于传统方法（es，bm25，tfidf等），基于向量（开源方法，SimCSE训练），还可以通过ranker等方法筛选更好的结果都能带来不错的提升。
如何有效的检索上下文知识，如何有效的处理长文本知识是难点，还有待进一步探索。本次比赛发现，在检索侧基于不同组合，不同顺序的检索结果做TTS（一种数据侧做融合的方法）能带来非常不错的提升[4][8]。这意味着如果我们在检索侧，长文本理解侧可以做得更好，可能我们不会太依赖检索侧的TTS融合方法，从而降低推理成本。
大模型的zero-shot能力比较强，胜在通用能力不错。其意味着不微调就可以在很多任务上取得不错的效果。在本次竞赛中开源的70B模型+zero-shot+RAG效果0.875。
大模型for hard sample + 小模型for simple sample可能是一种不错的融合方式。利用了大模型的通用能力不错，在hard样本上也有着比较强的泛化能力，同时小模型易于训练，微调后在简单样本上表现好的特点。3rd place solution[9]就主要用的这种方法。
小模型(deberta等)特定领域做微调效果也有一定的发挥之力，同时其有成本优势。deberta微调+RAG可以到0.89左右，利用模型融合甚至可以到前几名0.92+。
7B/13B大小的模型可能会成为NLP竞赛的主力军。其模型上限效果不错，可能比deberta类似大小的模型效果更好，同时训练所需资源也较小。
强大的工程能力对LLM的继续发展也非常有用。例如让模型一层一层推理在16GB内存的GPU运行70B大模型[7]，以及第一名方案中，对context+prompt结果做缓存，可以减少大量重复上下文或者系统消息(system message)的tokens数量，从而优化LLM推理时间[4]。
总结提分点：RAG【检索方法，排序方法，TTS策略】 >> 13b+微调 > deberta/longformer + 微调 > 70b zero-shot。

六、References

[1] Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[J]. Advances in Neural Information Processing Systems, 2022, 35: 27730-27744.

[2] RAG vs Finetuning — Which Is the Best Tool to Boost Your LLM Application?https://towardsdatascience.com/rag-vs-finetuning-which-is-the-best-tool-to-boost-your-llm-application-94654b1eaba7

[3] 利用tfidf传统方法检索相关文档：https://www.kaggle.com/code/hxshine/86-2-with-only-270k-articles?scriptVersionId=144092114

[4] 1rd Place Solution：https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446422

[5] 大模型Kaggle比赛首秀冠军方案总结:https://mp.weixin.qq.com/s/mhLOYWA9KEDANVdkoUpP-Q

[6] 15rd place solution: https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446816

[7] 利用16GB内存运行70B大模型：https://www.kaggle.com/code/zulqarnainali/explained-platypus2-70b-wikipedia-rag

[8] 4rd Place Solution：https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446307

[9] 3rd Place Solution：https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446358

七、更多文章精读

ICLR 2023 | Self-Consistency: Google超简单方法改善大模型推理能力

LLama2详细解读 | Meta开源之光LLama2是如何追上ChatGPT的？

大模型开源之光LLaMA2今天发布了，再来读下LLaMA1原文吧

Meta AI | 指令回译：如何从大量无标签文档挖掘高质量大模型训练数据？

TOT(Tree of Thought) | 让GPT-4像人类一样思考

OpenAI ｜ Let’s Verify Step by Step详细解读

进技术交流群请添加我微信:FlyShines

请备注昵称+公司/学校+研究方向，否则不予通过

如果觉得文章能够帮助到你，点赞是对我最好的支持!

颠覆智能助手的游戏规则！LangGraph MCP助你构建通用AI助手！大模型. 人工智能 powerpoint 算法 redis 缓存大模型
LangGraphMCP：构建你的智能助手在当今快速发展的科技时代，智能助手已经成为我们生活中不可或缺的一部分。而LangGraphMCP的出现，将为你带来前所未有的便利！它基于LangGraph和模型上下文协议（MCP），为构建通用AI助手提供了强大的支持。主要功能无缝集成：能够将LLM（大语言模型）应用与各种外部数据源和工具进行无缝连接。想象一下，构建一个智能助手，能够实时获取所需信息，助你高
PlanLLM: 首个支持开放词汇与封闭集任务的跨模态视频程序规划框架数据集
2025年1月7号，由杨德杰、赵子敬、刘洋联合提出PlanLLM，一种基于可微调大型语言模型（LLM）的跨模态联合学习框架，用于解决视频程序规划任务。通过引入LLM增强规划模块和互信息最大化模块，PlanLLM突破了现有方法依赖封闭集标签和固定语义描述的限制，实现了对新步骤和任务的泛化能力。该方法在COIN、CrossTask、NIV三个基准数据集上取得显著性能提升，展现了其在弱监督学习中的有效性
Ollama 基本概念 Mr_One_Zhang 学习Ollama ai
Ollama是一个本地化的、支持多种自然语言处理（NLP）任务的机器学习框架，专注于模型加载、推理和生成任务。通过Ollama，用户能够方便地与本地部署的大型预训练模型进行交互。1.模型（Model）在Ollama中，模型是核心组成部分。它们是经过预训练的机器学习模型，能够执行不同的任务，例如文本生成、文本摘要、情感分析、对话生成等。Ollama支持多种流行的预训练模型，常见的模型有：deepse
CSDN社区，到底该不该用DeepSeek AI生成文章？ Small踢倒coffee_氕氘氚 python 经验分享
##引言在当今数字化时代，人工智能（AI）技术正以惊人的速度发展，逐渐渗透到各个行业和领域。作为AI技术的一个重要分支，自然语言处理（NLP）在内容创作、文本生成等方面展现出了巨大的潜力。DeepSeekAI作为一款先进的AI写作工具，能够自动生成高质量的文章，极大地提高了内容创作的效率。然而，随着AI生成内容的普及，CSDN社区中的开发者、技术爱好者和内容创作者们开始思考一个问题：我们到底该不该
AI大模型学习路线：从入门到精通的完整指南【2025最新】 AI大模型-大飞人工智能学习大模型 LLM AI 程序员大模型学习
引言近年来，以GPT、BERT、LLaMA等为代表的AI大模型彻底改变了人工智能领域的技术格局。它们不仅在自然语言处理（NLP）任务中表现卓越，还在计算机视觉、多模态交互等领域展现出巨大潜力。本文旨在为开发者、研究者和技术爱好者提供一条清晰的学习路径，帮助读者逐步掌握大模型的核心技术并实现实际应用。一、基础阶段：构建知识体系数学与理论基础线性代数：矩阵运算、特征值与奇异值分解是大模型参数优化的基础
从LLM出发：由浅入深探索AI开发的全流程与简单实践（全文3w字）码事漫谈 AI 人工智能
文章目录第一部分：AI开发的背景与历史1.1人工智能的起源与发展1.2神经网络与深度学习的崛起1.3Transformer架构与LLM的兴起1.4当前AI开发的现状与趋势第二部分：AI开发的核心技术2.1机器学习：AI的基础2.1.1机器学习的类型2.1.2机器学习的流程2.2深度学习：机器学习的进阶2.2.1神经网络基础2.2.2深度学习的关键架构2.3Transformer架构：现代LLM的核
深入解析两大AI模型的架构与功能草莓屁屁我不吃人工智能 chatgpt
在人工智能（AI）领域，自然语言处理（NLP）一直是研究的热点之一。随着技术的不断进步，我们见证了从简单的聊天机器人到复杂语言模型的演变。其中，Google的Gemini和OpenAI的ChatGPT作为两大代表性模型，各自在技术和应用上展现出了卓越的性能。本文将详细解析Gemini和ChatGPT的系统架构、功能特性及其背后的技术原理。Gemini模型详解技术背景与架构Gemini，顾名思义，意
【人工智能】Model Context Protocol (MCP) 是一个开放协议，标准化了应用程序向大型语言模型（LLMs）提供上下文的方式本本本添哥 013 -AIGC 人工智能大模型人工智能语言模型 php
一、ModelContextProtocol(MCP)概述MCP，ModelContextProtocolMCP，是一个开放协议。MCP，标准化了应用程序向大型语言模型（LLMs）提供上下文的方式。‌MCP，旨在标准化应用程序如何为大型语言模型（LLM）提供上下文信息。MCP，提供了一个标准的接口，使得LLM可以无缝集成各种外部数据源和工具，从而扩展其能力和应用场景。二、MCP的定义和作用MCP定
大模型系列——正式推出 Spring AI MCP：用于 MCP（模型上下文协议）的 Java SDK 不二人生大模型人工智能大模型
大模型系列——正式推出SpringAIMCP：用于MCP（模型上下文协议）的JavaSDK我们很高兴推出SpringAIMCP，它是模型上下文协议（ModelContextProtocol，MCP）的强大JavaSDK实现。SpringAI生态系统的这一新成员为Java平台带来了标准化的AI模型集成能力。MCP是什么？模型上下文协议（MCP）是一种开放式协议，它规范了应用程序为大型语言模型（LLM
MCP（Model Context Protocol）模型上下文协议理论篇1 - 架构 AIQL MCP(Model Context Protocol)架构 ai 人工智能 MCP
核心架构理解MCP如何连接客户端、服务器和LLM模型上下文协议(MCP)建立在灵活、可扩展的架构之上，能够实现LLM应用程序和集成之间的无缝通信。本文档涵盖了核心架构组件和概念。概述MCP采用客户端-服务器架构，其中：主机(Hosts)是发起连接的LLM应用程序（例如DesktopApp或IDE）。客户端(Clients)在主机应用程序内部与服务器保持1对1的连接。服务器(Servers)为客户端
linux系统安全 IT小饕餮 linux基础 linux 系统安全运维
管理终端登录[root@localhost~]#grep"/sbin/nologin$"/etc/passwd表示禁止终端登录，应确保不被人改动输出结果：bin：x:1:1:bin:/bin:/sbin/nologindaemon：x:2:2:daemon:/sbin:/sbin/nologinadm：x:3:4:adm:/var/adm:/sbin/nologinlp：x:4:7:lp:/var
小语言模型（SLM）技术解析：如何在有限资源下实现高效AI推理硅基打工人 AI 人工智能语言模型自然语言处理
引言：为什么小语言模型（SLM）是2025年的技术焦点？2025年，人工智能领域正经历一场“由大变小”的革命。尽管大语言模型（LLM）如GPT-4、GeminiUltra等在复杂任务中表现惊艳，但其高昂的算力成本、庞大的参数量（通常超过千亿）和依赖云端的特性，使得实际落地面临诸多瓶颈。**小语言模型（SmallLanguageModel,SLM）**应运而生，凭借其高效性、经济性和本地化部署能力，
【NLP】 3. Distributional Similarity in NLP（分布式相似性） pen-ai NLP 机器学习自然语言处理分布式人工智能
DistributionalSimilarityinNLP（分布式相似性）分布式相似性（DistributionalSimilarity）是自然语言处理（NLP）中的核心概念，基于“相似的单词出现在相似的上下文中”这一假设。它用于衡量单词之间的相似性，广泛应用于词向量、信息检索、文本分类等任务。1.分布式假设（DistributionalHypothesis）分布式相似性基于以下假设：“Yoush
【NLP】 9. 处理创造性词汇 & 词组特征（Creative Words & Features Model），词袋模型处理未知词，模型得分 pen-ai NLP 机器学习自然语言处理人工智能深度学习
这里写目录标题处理创造性词汇&词组特征（CreativeWords&FeaturesModel）1.处理否定（NegationHandling）2.词组特征（Bigrams&N-grams）3.结合否定传播与n-grams进行优化词袋模型（Bag-of-Words,BoW）1.BoW示例2.处理未知词3.为什么忽略未知词？4.处理未知词的方法计算模型得分（ScoreCalculation）处理创造
【开源所有代码-全在线智能音箱】树莓派智能音箱，自定义唤醒词，大模型LLM GPT对话南七小僧服务器开发人工智能 AI技术产品经理智能音箱 gpt
安装sounddevicepipinstallsounddevice安装portAudiosudoapt-getinstalllibportaudio2sudoapt-getinstalllibasound-devsudoapt-getinstallportaudio.devsudoapt-getinstallpython3-pyaudiopipinstallpyaudio安装wavepipins
大语言模型微调和大语言模型应用区别 AI Echoes 深度学习人工智能自然语言处理
大语言模型微调和大语言模型应用区别微调与应用LLM的区别微调大语言模型（LLM）是指取一个已经预训练好的模型，进一步用特定数据集训练，使其更好地适应某个任务或领域，比如为医疗聊天机器人优化医疗术语理解。应用LLM则是直接使用这些预训练模型来完成任务，如通过提示生成文本或回答问题，无需更改模型本身。研究表明，微调适合需要领域专精的任务，而应用更适合通用任务，效果因模型和任务复杂性而异。学习所需技术栈
【NLP】 5. Word Analogy Task（词类比任务）与 Intrinsic Metric（内在度量） pen-ai NLP 机器学习自然语言处理 word 人工智能
WordAnalogyTask（词类比任务）定义：WordAnalogyTask是用于评估词向量质量的内在指标（IntrinsicMetric）。该任务基于这样的假设：如果词向量能够捕捉单词之间的语义关系，那么这些关系应该能够在向量空间中保持一定的结构。示例：在一个理想的词向量空间中，单词之间的关系应该满足如下等式：king−man+woman≈queenking−man+woman≈queenk
大规模语言模型从理论到实践开源指令数据集 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大规模语言模型从理论到实践开源指令数据集1.背景介绍大规模语言模型（LargeLanguageModels,LLMs）近年来在自然语言处理（NLP）领域取得了显著的进展。诸如GPT-3、BERT等模型在各种任务中表现出色，从文本生成到翻译，再到问答系统，几乎无所不能。这些模型的成功离不开庞大的训练数据集和复杂的算法架构。然而，如何有效地构建和利用开源指令数据集，仍然是一个值得深入探讨的话题。2.核
使用Python和LangChain创建可调用工具的智能对话机器人：全面指南 m0_57781768 python langchain 机器人
使用Python和LangChain创建可调用工具的智能对话机器人：全面指南在当今技术迅猛发展的时代，人工智能（AI）和自然语言处理（NLP）技术的应用范围越来越广。尤其是对话机器人，它们不仅能与人类进行自然交互，还能通过调用外部API与各种系统对接，为用户提供更加智能和灵活的服务。本文将通过一系列实例和代码演示，向您展示如何利用Python编程语言和LangChain框架，创建能够使用外部工具（
kaggle-ISIC 2024 - 使用 3D-TBP 检测皮肤癌-学习笔记 supernova121 学习笔记
问题描述：通过从3D全身照片(TBP)中裁剪出单个病变来识别经组织学确诊的皮肤癌病例数据集描述：图像+临床文本信息评价指标：pAUC，用于保证敏感性高于指定阈值下的AUC主流方法分析（文本）基于CatBoost、LGBM和XGBoost三者的组合，为每个算法创建了XX个变体，总共XX个模型，进行集成学习。CatBoost在传统梯度提升决策树（GBDT）基础上，引入了一系列关键技术创新，以提升处理类
如何用deepseek炒股 Real Man★ python 机器学习人工智能
使用DeepSeek进行炒股的核心思路是利用其强大的数据处理和预测能力，辅助投资决策。以下是具体的应用方法和步骤：一、数据收集与处理获取市场数据股票数据：通过API（如Tushare、YahooFinance）获取历史股价、成交量、财务数据等。新闻与舆情：使用DeepSeek的NLP能力分析新闻、社交媒体和公告，提取市场情绪和事件影响。宏观经济数据：收集GDP、利率、通胀等数据，分析其对股市的影响
你的AI客服为何总抓不住客户核心诉求？（附特征优化方案）人工智能
1特征工程的意义nlp任务中，原始文本经数值映射后形成的词向量序列，难充分表达语言深层语义特征。就需引入文本特征增强技术：语义信息补全：突破单词语义局限，捕获词序关联特征模型适配优化：构建符合算法输入规范的矩阵结构评估指标提升：通过特征增强直接影响模型准确率、召回率等核心KPI如电商评论情感分析场景，单纯用词频特征可能导致"这个手机质量差得惊人"和"这个手机质量惊人地差"被判定为相同语义，此时bi
NLP复习3，手撕多头attention 地大停车第二帅 NLP学习自然语言处理人工智能
importmathimporttorchimportcollectionsimportnumpyasnpimporttorch.nnasnnclassMultiHeadAttention(nn.Module):def__init__(self,heads,d_model,dropout=0.1):super().__init__()#输入的特征维度self.d_model=d_model#每个头
【大模型UI\多模型回复UI】 Ai君臣 LLMS 微调 ui 大LLMS UI
文章目录1、开源大模型用户界面（UI）2、同时让多个模型回复UI1、开源大模型用户界面（UI）LobeChatOpenWebUI：这是一款功能丰富且用户友好的开源自托管AI界面，旨在完全离线运行。它支持多种大型语言模型（LLM），包括Ollama和兼容OpenAI的API。OpenWebUI提供直观的界面，支持多模型和多模态交互，具有全面的Markdown和LaTeX支持，以及本地RAG集成等功能
Assembly语言的自然语言处理花韵婷包罗万象 golang 开发语言后端
Assembly语言在自然语言处理中的应用引言自然语言处理（NaturalLanguageProcessing,NLP）作为人工智能的一个重要分支，致力于实现计算机与人类语言之间的互动。随着计算能力的提升以及大数据的蓬勃发展，NLP在各个领域的应用如火如荼。从语音识别、机器翻译到情感分析等，NLP正在改变我们与信息之间的互动方式。不过，当前主流的NLP研究通常是用高级编程语言（如Python、Ja
大模型的webui Zain Lau 人工智能 python 昇腾 Ascend 天数
exportXXX_LLM_C=~/xcore-llm/build/ReleaseexportCUDA_VISIBLE_DEVICES=2,3exportCUDACXX=/usr/local/cuda-12.3/bin/nvccnohup/usr/bin/python3/home/src/api_server/api_server.py--modelLLama2:7b-chat-hf_A800--
大模型+智能代理：自动化测试的终极组合？测试者家园软件测试质量效能人工智能人工智能软件测试质量效能职场和发展 AI赋能智能体 LLM
用ChatGPT做软件测试在软件测试领域，自动化测试的目标一直是提高测试效率、减少人工干预、提升缺陷发现率。然而，传统自动化测试仍然面临诸多挑战，例如脚本维护成本高、难以应对动态UI变化、测试数据生成受限，以及难以覆盖复杂业务逻辑。近年来，大模型（LLM,LargeLanguageModel）+智能代理（Agent）的结合，为自动化测试带来了新的可能性。这种“智能测试代理”能够利用大模型的自然语言
大语言模型原理与工程实践：大语言模型强化对齐 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：大语言模型强化对齐作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的迅猛发展，大语言模型（LargeLanguageModels，LLMs）如GPT-3、LaMDA等，在自然语言处理（NLP）领域取得了显著的突破。这些模型在问答、翻译、文本生成等方面展现出惊人的能力，但同时也引发了
LLM对齐方法作用：主要解决大型语言模型（LLMs）输出与人类价值观、需求和安全规范不一致的问题 ZhangJiQun&MXP 2021 AI python 2024大模型以及算力 2021数字交易数字资产语言模型安全人工智能机器学习自然语言处理算法
LLM对齐方法作用：主要解决大型语言模型（LLMs）输出与人类价值观、需求和安全规范不一致的问题对齐方法（AlignmentMethods）主要解决大型语言模型（LLMs）输出与人类价值观、需求和安全规范不一致的问题。其核心目标是让模型生成的内容更符合人类预期，同时确保伦理合规性和实用性。以下是对齐方法解决的具体问题及典型场景：1.安全性与伦理问题问题：基础LLMs可能生成有害内容（如暴力、歧视、
第20篇：从零开始构建NLP项目之电商用户评论分析：模型训练阶段 Gemini技术窝自然语言处理人工智能深度学习 AIGC 机器学习 nlp langchain
大家好，今天我们继续探讨如何从零开始构建一个NLP项目，特别是电商用户评论分析中的模型训练阶段。模型训练是NLP项目的核心环节，通过合理的调参和优化，可以显著提升模型性能。本文将详细介绍模型训练的步骤，并展示如何使用LangChain库进行模型训练、调参和优化。文章目录项目的背景和目标模型训练的详细步骤安装依赖包流程图1.准备数据2.定义模型3.训练模型4.评估模型5.调参与优化常见错误和注意事项
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">