狮子座明仔

NLP大模型微调答疑

什么情况用Bert模型，什么情况用LLaMA、ChatGLM类大模型，咋选？

答：Bert 的模型由多层双向的Transformer编码器组成，由12层组成，768隐藏单元，12个head，总参数量110M，约1.15亿参数量。NLU（自然语言理解）任务效果很好，单卡GPU可以部署，速度快，V100GPU下1秒能处理2千条以上。

ChatGLM-6B, LLaMA-7B模型分别是60亿参数量和70亿参数量的大模型，基本可以处理所有NLP任务，效果好，但大模型部署成本高，需要大显存的GPU，并且预测速度慢，V100都需要1秒一条。

所以建议：
1）NLU相关的任务，用BERT模型能处理的很好，如实体识别、信息抽取、文本分类，没必要上大模型；
2）NLG任务，纯中文任务，用ChatGLM-6B，需要处理中英文任务，用 chinese-llama-plus-7b 或者 chinese-alpaca-plus-7b-hf

ChatGLM-6B与LLaMA-7B的区别？

答：ChatGLM-6B是用的GLM模型结构，prefix LM，它的attention mask部分，prefix部分的token是互相能看到，模型设计之初考虑NLU任务和NLG任务。
GLM 模型结构：

LLaMA-7B是GPT模型结构，causal LM，它的attention mask部分，只有后面的token能看到前面的token，单向的从左到右，decoder only。

当前的主流大模型，除了T5是双向结构，GLM是prefix LM, 其他的全部是causal LM。

指令微调的作用？

答：有以下好处：

对齐人类意图，能够理解自然语言对话（更有人情味）
经过微调（fine-tuned），定制版的GPT-3在不同应用中的提升非常明显。OpenAI表示，它可以让不同应用的准确度能直接从83%提升到95%、错误率可降低50%。解小学数学题目的正确率也能提高2-4倍。（更准）
踩在巨人的肩膀上、直接在1750亿参数的大模型上微调，不少研发人员都可以不用再重头训练自己的AI模型了。（更高效）

关于指令微调的作用理解，补充一下下面的情形就理解了。

我们有个大模型训练好了，能力也很强，但是有个问题，模型不一定知道人类想干什么。举个例子：

假如我们问 GPT 一个问题: 世界上最高的山是哪座山?
我们想要的回答是: 喜马拉雅山。
但是预训练数据集中的数据可能是: "世界上最高的山是哪座山? 哪位小朋友知道呢, 告诉老师有小红花哦"
所以 GPT 很可能回复 "哪位小朋友知道呢, 告诉老师有小红花哦"，因为预训练阶段就是要求 GPT 去预测下一个词（next-word prediction）的任务。

这时候就体现了微调的必要性。

微调方法是啥？如何微调？

答：当前主流微调方法分为：Fine-tune和prompt-tune

fine-tune，也叫全参微调，bert微调模型一直用的这种方法，全部参数权重参与更新以适配领域数据，效果好。
prompt-tune, 包括p-tuning、lora、prompt-tuning、adaLoRA等delta tuning方法，部分模型参数参与微调，训练快，显存占用少，效果可能跟FT（fine-tune）比会稍有效果损失，但一般效果能打平。

链家在BELLE的技术报告《A Comparative Study between Full-Parameter and LoRA-based Fine-Tuning on Chinese Instruction Data for Instruction Following Large Language Model》中实验显示：FT效果稍好于LoRA。

peft的论文《ADAPTIVE BUDGET ALLOCATION FOR PARAMETER- EFFICIENT FINE-TUNING》显示的结果：AdaLoRA效果稍好于FT。

关于lora微调多补充几点：

基础模型的选择对基于LoRA微调的有效性有显著影响。
训练集越多效果越好
LoRA微调的方法在模型参数越大时体现的优势越明显

此结论参考技术报告《A Comparative Study between Full-Parameter and LoRA-based Fine-Tuning on Chinese Instruction Data for Instruction Following Large Language Model》。

LoRA微调方法为啥能加速训练？

答：有如下几个原因：

只更新了部分参数：比如LoRA原论文就选择只更新Self Attention的参数，实际使用时我们还可以选择只更新部分层的参数；
减少了通信时间：由于更新的参数量变少了，所以（尤其是多卡训练时）要传输的数据量也变少了，从而减少了传输时间；
采用了各种低精度加速技术，如FP16、FP8或者INT8量化等。
这三部分原因确实能加快训练速度，然而它们并不是LoRA所独有的，事实上几乎都有参数高效方法都具有这些特点。LoRA的优点是它的低秩分解很直观，在不少场景下跟全量微调的效果一致，以及在预测阶段不增加推理成本。

如何训练自己的大模型？

答：如果我现在做一个sota的中文GPT大模型，会分2步走：1. 基于中文文本数据在LLaMA-65B上二次预训练; 2. 加CoT和instruction数据, 用FT + LoRA SFT。

提炼下方法，一般分为两个阶段训练：
第一阶段：扩充领域词表，比如金融领域词表，在海量领域文档数据上二次预训练LLaMA模型；
第二阶段：构造指令微调数据集，在第一阶段的预训练模型基础上做指令精调。还可以把指令微调数据集拼起来成文档格式放第一阶段里面增量预训练，让模型先理解下游任务信息。

当然，有低成本方案，因为我们有LoRA利器，第一阶段和第二阶段都可以用LoRA训练，如果不用LoRA，就全参微调，大概7B模型需要8卡A100，用了LoRA后，只需要单卡3090就可以了。

第一阶段数据格式：

[
    {
      "content":"中华人民共和国最高人民法院 驳 回 申 诉 通 知 书（2022）最高法刑申122号 袁某银、袁某财：你们因原审被告人袁德银故意伤害一案，对江苏省南京市溧水区人民法院（2014）溧刑初字第268号刑事判决、南京市中级人民法院（2015）宁刑终字第433号刑事裁定不服，以被害人朱宽荣住院期间的ＣＴ（136678号）报告并未显示其左侧4、5、6、7、8肋骨骨折，出院记录及137470号、143006号ＣＴ报告均系伪造，江苏省高级人民法院（2019）苏刑申172号驳回申诉通知书对137470号ＣＴ报告的形成时间认定错误为由，向本院提出申诉，请求撤销原判，依法重新审理本案。本院依法组成合议庭认真审查后认为，原审认定原审被告人袁德银因邻里纠纷，殴打被害人朱宽荣致其左胸多发肋骨骨折，构成轻伤二级，其行为构成故意伤害罪，并无不当。关于你们提出的原审认定被害人朱宽荣轻伤二级的证据系伪造的申诉理由。首先，根据你们提供的136678号ＣＴ报告，朱宽荣于2015年2月12日入院时经ＣＴ检查被诊断为左侧多发肋骨骨折，该份ＣＴ报告虽未明确骨折的具体位置，但与出院记录记载的“左侧多发肋骨骨折（4、5、6、7、8）”并不矛盾。根据《人体损伤程度鉴定标准》的规定，肋骨骨折2处以上即构成轻伤二级，故鉴定意见认定朱宽荣的损伤构成轻伤二级并无不当。其次，你们主张出院记录、137470号和143006号ＣＴ报告系伪造，但并未提供证据证实。即使排除这两份ＣＴ报告，也不影响对本案事实的认定。再次，我院对申诉进行复查的对象是已经发生法律效力的判决、裁定，本案的生效裁判是（2014）溧刑初字第268号刑事判决和（2015）宁刑终字第433号刑事裁定，江苏省高级人民法院作出的驳回申诉通知书不属于我院复查的范围。综上，本院认为，你们的申诉不符合《中华人民共和国刑事诉讼法》第二百五十三条规定的应当重新审判的情形，予以驳回。望你们尊重人民法院的生效裁判，自觉服判息诉。特此通知。二〇二二年十二月十四日"
    }
]

第二阶段的数据样例：

[
    {
      "instruction": "酒驾撞人要判多久？",
      "input": "",
      "output": "《刑法》第一百三十三条规定:违反交通运输管理法规，因而发生重大事故，致人重伤、死广或者使公私财产遭受重大损失的，处三年以下有期徒刑或者拘役;交通运输肇事后逃逸，致人重伤的，处三年以上七年以下有期徒刑。交通肇事后逃逸致人死亡的，处七年以上有期徒刑。"
    },
    {
"instruction":"偷狗被派出所抓到，会怎么处理？",
   	 "input":"",
  	 "output":"取决于偷盗的狗的价值，可能按盗窃罪的罪名处理。如果价值达到犯罪标准，就构成盗窃罪，要承担刑事责任；如果不到犯罪标准，就是治安处罚、罚款或者拘留治安处罚这会涉嫌构成盗窃。如果不到一千元，则不会构成犯罪。如果超过一千元，则可能会是构成犯罪的。"}
]

给一个法律模型训练的参考示例：https://github.com/pengxiao-song/LaWGPT

训练中文大模型有啥经验？

答：链家技术报告《Towards Better Instruction Following Language Models for Chinese: Investigating the Impact of Training Data and Evaluation》中，介绍了开源模型的训练和评估方法：

还对比了各因素的消融实验：

消融实验结论：

扩充中文词表后，可以增量模型对中文的理解能力，效果更好
数据质量越高越好，而且数据集质量提升可以改善模型效果
数据语言分布，加了中文的效果比不加的好
数据规模越大且质量越高，效果越好，大量高质量的微调数据集对模型效果提升最明显。解释下：数据量在训练数据量方面，数据量的增加已被证明可以显著提高性能。值得注意的是，如此巨大的改进可能部分来自belle-3.5和我们的评估数据之间的相似分布。评估数据的类别、主题和复杂性将对评估结果产生很大影响
扩充词表后的LLaMA-7B-EXT的评估表现达到了0.762/0.824=92%的水平

他们的技术报告证明中文大模型的训练是可行的，虽然与ChatGPT还有差距。这里需要指出后续RLHF也很重要，我罗列在这里，抛砖引玉。

微调需要多少条数据？

答：取决于预训练数据和微调任务的数据分布是否一致，分布一致，100条就够，分布差异大就需要多些数据，千条或者万条以上为佳。

自己的任务复杂或者下游任务行业比较冷门，如药品名称识别任务，则需要较多监督数据。还有微调大模型时，一遍是记不住的。100条的微调数据，epochs=20才能稳定拟合任务要求。

涌现能力是啥原因？

答：根据前人分析和论文总结，大致是2个猜想：

任务的评价指标不够平滑；
复杂任务 vs 子任务，这个其实好理解，比如我们假设某个任务 T 有 5 个子任务 Sub-T 构成，每个 sub-T 随着模型增长，指标从 40% 提升到 60%，但是最终任务的指标只从 1.1% 提升到了 7%，也就是说宏观上看到了涌现现象，但是子任务效果其实是平滑增长的。

如何在已有LoRA模型上继续训练？

答：我理解此问题的情形是：已有的lora模型只训练了一部分数据，要训练另一部分数据的话，是在这个lora上继续训练呢，还是跟base 模型合并后再套一层lora，或者从头开始训练一个lora？

我认为把之前的LoRA跟base model 合并后，继续训练就可以，为了保留之前的知识和能力，训练新的LoRA时，加入一些之前的训练数据是需要的。另外，每次都重头来成本高。

大模型怎么评测？

答：当前superGLUE, GLUE, 包括中文的CLUE 的benchmark都在不太合适评估大模型。可能评估推理能力、多轮对话能力是核心。

论文《C-EVAL: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models》提出了中文大语言模型评估基准：C-EVAL，有一定借鉴意义。
github链接：https://github.com/SJTU-LIT/ceval
论文：https://arxiv.org/pdf/2305.08322v1.pdf
benchmark：https://cevalbenchmark.com/static/leaderboard.html

大模型的honest原则是如何实现的？模型如何判断回答的知识是训练过的已知的知识，怎么训练这种能力？

答：大模型需要遵循的helpful，honest， harmless的原则。
可以有意构造如下的训练样本，以提升模型准守honest原则，可以算trick了：

微调时构造知识问答类训练集，给出不知道的不回答，加强honest原则；
阅读理解题，读过的要回答，没读过的不回答，不要胡说八道。

各个专业领域是否需要各自的大模型来服务？

答：是，各行各业的大模型是趋势。

大模型有推理能力吗？

答：大模型有推理能力。有下面2个方面的体现：

ChatGPT拥有in-context correction的能力，即如果说错了，给出矫正，ChatGPT能“听懂”错在哪儿了，并向正确的方向修正。in-context correction要比in-context learning难了太多，描述越详细清楚，ChatGPT回答得越好。要知道，越详细的描述，在预训练的文本里越难匹配到的。
在询问ChatGPT互联网上并不存在内容的时候，能给出较好答案（如用ChatGPT学建模）；ChatGPT能通过信息猜你心中的想法；你可以制定一个全新的游戏规则让ChatGPT和你玩，ChatGPT可以理解。

预训练和微调哪个阶段注入知识的？

答：预训练阶段注入知识的，微调是在特定任务训练，以使预训练模型的通用知识跟特定任务的要求结合，使模型在特定任务上表现更好。

我想让模型学习某个领域或行业的知识，是应该预训练还是应该微调？

答：可以使用预训练和微调相结合的方式，先用篇章数据进行预训练以获取广泛的知识，再用问答对数据进行微调，使模型更好的学习到特定领域的知识。
当然，GPT大模型的预训练和微调，从实现方式来讲是没有什么差别的，都是decoder only的语言模型训练并更新参数，如果样本集小，没有大量的篇章文档数据，我认为只进行微调也能注入知识的，不必太纠结预训练。而且特定领域跟预训练模型的分布差别不大，也不用二次预训练。

多轮对话任务如何微调模型？

答：跟正常的指令微调方法一样，只是组织数据的时候把历史聊天记录拼接起来，作为上下文信息喂给模型。

{"prompt": "长城h3风扇不转。继电器好的。保险丝好的传感器新的风扇也新的这是为什么。就是继电器缺一个信号线", "response": "用电脑能读数据流吗？水温多少", "history": []}
{"prompt": "95", "response": "上下水管温差怎么样啊？空气是不是都排干净了呢？", "history": [["长城h3风扇不转。继电器好的。保险丝好的传感器新的风扇也新的这是为什么。就是继电器缺一个信号线", "用电脑能读数据流吗？水温多少"]]}

{"prompt": "是的。上下水管都好的", "response": "那就要检查线路了，一般风扇继电器是由电脑控制吸合的，如果电路存在断路，或者电脑坏了的话会出现继电器不吸合的情况！", "history": [["长城h3风扇不转。继电器好的。保险丝好的传感器新的风扇也新的这是为什么。就是继电器缺一个信号线", "用电脑能读数据流吗？水温多少"], ["95", "上下水管温差怎么样啊？空气是不是都排干净了呢？"]]}

微调后的模型出现能力劣化，灾难性遗忘是怎么回事？

答：所谓的灾难性遗忘：即学习了新的知识之后，几乎彻底遗忘掉之前习得的内容。这在微调ChatGLM-6B模型时，有同学提出来的问题，表现为原始ChatGLM-6B模型在知识问答如“失眠怎么办”的回答上是正确的，但引入特定任务（如拼写纠错CSC）数据集微调后，再让模型预测“失眠怎么办”的结果就答非所问了。

我理解ChatGLM-6B模型是走完 “预训练-SFT-RLHF” 过程训练后的模型，其SFT阶段已经有上千指令微调任务训练过，现在我们只是新增了一类指令数据，相对大模型而已，微调数据量少和微调任务类型单一，不会对其原有的能力造成大的影响，所以我认为是不会导致灾难性遗忘问题。

有几个trick方法可以改善此现象：

调整微调训练参数，微调初始学习率不要设置太高，lr=2e-5或者更小，可以避免此问题，不要大于预训练时的学习率。
微调训练集设置：应该选择多个有代表性的任务，每个任务实例数量不应太多（比如几百个）否则可能会潜在地导致过拟合问题并影响模型性能。
应该平衡不同任务的比例，并且限制整个数据集的容量（通常几千或几万），防止较大的数据集压倒整个分布。

微调模型需要多大显存？

答：

有哪些大模型的训练集？

答：预训练数据集togethercomputer/RedPajama-Data-1T「红睡衣」开源计划总共包括三部分：

高质量、大规模、高覆盖度的预训练数据集；
在预训练数据集上训练出的基础模型；
指令调优数据集和模型，比基本模型更安全、可靠。

预训练数据集RedPajama-Data-1T已开源，包括七个子集，经过预处理后得到的token数量大致可以匹配Meta在原始LLaMA论文中报告的数量，并且数据预处理相关脚本也已开源。
完整的RedPajama-Data-1T数据集需要的存储容量为压缩后3TB，解压后5TB。

CoT微调数据集：Alpaca-CoT 里面包括常用的alpaca，CoT等数据集，有中文的。

模型生成时的参数怎么设置？

答：生成模型预测调参建议：

建议去调整下 top_p, num_beams, repetition_renalty, temperature, do_sample=True;
数据生成有重复，调高repetition_renalty；
生成任务表达单一的，样本也不多的，可适当调低 temperature，生成的样子跟训练集的比较像；如果要复现训练集的效果，temperature=0.01即可。
以上是经验参数，具体调参根据任务而定，不是固定的。

参数解释：

top_p=0.9,
#Moderately increase the probability threshold of nucleus sampling to increase the quantity of candidate tokens and increase generation diversity.

temperature=1.0,
#The previous low temperature parameter could lead to a severe polarization in the probability distribution of generated words, which degenerates the generation strategy into greedy decoding.

do_sample=True,
#do_sample parameter is set to False by default. After setting to True, the generation methods turn into beam-search multinomial sampling decoding strategy.

no_repeat_ngram_size=6,
#Configure the probability of the next repeating n-gram to 0, to ensure that there are no n-grams appearing twice. This setting is an empirical preliminary exploration.

repetition_penalty=1.8,
#For words that have appeared before, in the subsequent prediction process, we reduce the probability of their reoccurrence by introducing the repetition_penalty parameter. This setting is an empirical preliminary exploration.

ChatGPT为啥用RL，PPO的作用是啥？

答：这是个开放性问题，目前在处理讨论中。

先说明RL后模型效果是提高的：
引用一下最近 Yoav 在他 gh-gist （很多干货）里面的观点，感兴趣的可以看下原文：https://gist.github.com/yoavg/6bff0fecd65950898eba1bb321cfbd81

多样性角度：RL 能提供更多样的回答，因为对于 Supervised Learning（SL），模型训练时只要稍微偏离训练样本就会受到惩罚，而实际上人类语言是会用各种不同方式表达相同意思，SL 这样就会让模型感到困惑，特别是泛化理解能力较好的模型。
负反馈角度：监督学习里只有正反馈，而 RL 可以提供负反馈信号，从形式学习理论来看，负反馈信号会更好些（说实话没看懂）。
自我知识感知角度：最有说服力的一条，首先按照现在 ChatGPT 主要应用场景，其中有一大类问题为”知识获取型“，这块和 RL 训练关系比较大。

因为对于此类问题，我们希望模型能给出一个真实有信服力的答案，同时不知道地时候拒绝回答，不要鬼扯。

模型最好能根据自己内部知识来回答，也就是知道自己知道什么，和不知道什么。这就需要用 RL 来训了，因为监督学习会教模型撒谎。

为什么呢，因为 SL 中间会出现两种情况：
模型本身有相关知识，知道答案，那么训练过程中就是给答案和问题联系起来，之后也能看到类似问题给出相关知识回答，还会觉得泛化性好，这是好的情况
模型本身没有相关知识，相当于学习了之前完全不知道的知识，因为数据量比较少，可能只是单纯地去记住少量数据，那么之后遇到类似问题，模型实际上没有相关知识，但模型还是会倾向于去回答，那么就只能去胡编乱造了，这就是为什么 SL 会教模型撒谎的解释

这里也放下John Schulman在UCB的talk：https://www.youtube.com/watch?v=hhiLw5Q_UFg，感兴趣的同学可以看下。

一周热点：微软攻克语音输入、文本输出难题-Phi-4-multimodal 数据分析能量站机器学习人工智能
微软Phi-4-multimodal模型是人工智能领域的一个重要进展，它标志着微软在多模态人工智能技术上的突破。以下是对该模型的详细解释：模型概述微软Phi-4-multimodal是一个能够同时处理文本、图像和语音的多模态大型语言模型。它通过创新的架构和训练方法，实现了在不同模态之间的无缝交互，为用户提供更自然、更智能的交互体验。模型架构该模型采用多模态Transformer架构，通过LoRA（
清华大学《DeepSeek赋能家庭教育》深度解析：AI如何重塑现代家庭教育模式硅基打工人 AI 人工智能经验分享大数据开源语言模型
引言：家庭教育的困境与AI的破局在数字化与智能化浪潮下，家庭教育面临多重挑战：家长教育能力不足、教育资源分配不均、亲子沟通效率低下、个性化需求难以满足等。清华大学发布的《DeepSeek赋能家庭教育》系列报告（共56页）提出了一种基于人工智能的解决方案，通过深度学习平台DeepSeek，为家庭教育注入科技动能。本文将从技术原理、核心功能、应用场景、伦理安全及未来展望等多维度展开分析。一、DeepS
小语言模型（SLM）技术解析：如何在有限资源下实现高效AI推理硅基打工人 AI 人工智能语言模型自然语言处理
引言：为什么小语言模型（SLM）是2025年的技术焦点？2025年，人工智能领域正经历一场“由大变小”的革命。尽管大语言模型（LLM）如GPT-4、GeminiUltra等在复杂任务中表现惊艳，但其高昂的算力成本、庞大的参数量（通常超过千亿）和依赖云端的特性，使得实际落地面临诸多瓶颈。**小语言模型（SmallLanguageModel,SLM）**应运而生，凭借其高效性、经济性和本地化部署能力，
AI开拓者指南：GenAI产品应用TIPs——从采购到使用（采购篇） ai开发
AI浪潮愈发澎湃的当下，生成式人工智能技术已成为企业创新与效率提升的重要工具。企业对生成式人工智能产品（以下简称为“GenAI产品”）的应用需求日益增长，其应用场景也愈发多样化：开展营销活动的过程中利用AI生成创意文案和视觉设计素材，极大地缩短了创作周期并降低了成本；使用AI客服机器人处理客户咨询，显著地提高了客户满意度和响应速度；使用AI还可以为客户提供个性化的产品推荐，提高销售转化率等等。然而
热门AI创作助手推荐【第一期】量子星澜文心一言 AI写作 chatgpt
星游AI创作助手人工智能在现代科技中的应用非常广泛，涵盖了诸多领域，包括但不限于以下几个方面：1.语音识别和自然语言处理：人工智能技术被广泛应用于语音识别和自然语言处理领域，例如智能助手、翻译系统、语音交互系统等。2.机器学习和数据分析：人工智能的机器学习算法被用于数据分析、预测建模、用户个性化推荐等领域，帮助企业做出更准确的商业决策。3.计算机视觉：人工智能在计算机视觉领域的应用包括图像识别、视
Spring深度学习 — 关于 Spring 搬运Gong Spring spring
前言作为一名Java程序猿，相信对Spring都不陌生，那么我们经常使用的Spring的发展史大家都了解过吗？它是如何来的？又是如何一步一步成长到了现在这种不可替代的重要地位？下面将对Spring进行一个整体认知和学习，对后面的深度学习起到铺垫作用。本文意在对知识点的温顾，如文中有写的不对的地方，还望不吝指教。一、Spring的发展史相信经历过不使用框架开发Web项目的70后、80后都会高如此感触
Prompt工程全解析：从入门到精通的终极指南二川bro 智能AI 人工智能 prompt
Prompt工程全解析：从入门到精通的终极指南发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，可以分享一下给大家。点击跳转到网站。https://www.captainbed.cn/ccc一、Prompt设计核心法则1.1角色定位法则[角色设定]你是一位资深全栈工程师，拥有10年React和Node.js开发经验[任务要求]为电商系统设计购物车模块，要求：1.支持商品增删改查2.实时计算总价
Python 3.12 新特性解析及对开发效率的提升叶间清风1998 python 开发语言
目录一、性能优化（一）FasterCPython（二）新的内存管理机制二、新语法和语言特性（一）Self-typeannotations（二）PatternMatchingEnhancements三、标准库更新（一）NewModulesandFunctions（二）ImprovementstoExistingModulesPython作为一种广泛应用于数据科学、人工智能、Web开发等众多领域的编程
RAG技术深度解析：从基础Agent到复杂推理Deep Search的架构实践小爷毛毛（卓寿杰）系统架构与解决方案搜索推荐架构语言模型人工智能自然语言处理
重磅推荐专栏：《大模型AIGC》《课程大纲》《知识星球》本专栏致力于探索和讨论当今最前沿的技术趋势和应用领域，包括但不限于ChatGPT和StableDiffusion等。我们将深入研究大型模型的开发和应用，以及与之相关的人工智能生成内容（AIGC）技术。通过深入的技术解析和实践经验分享，旨在帮助读者更好地理解和应用这些领域的最新进展一、什么是RAGAgent？1.从信息处理到智能生成在自然语言处
【NLP】 3. Distributional Similarity in NLP（分布式相似性） pen-ai NLP 机器学习自然语言处理分布式人工智能
DistributionalSimilarityinNLP（分布式相似性）分布式相似性（DistributionalSimilarity）是自然语言处理（NLP）中的核心概念，基于“相似的单词出现在相似的上下文中”这一假设。它用于衡量单词之间的相似性，广泛应用于词向量、信息检索、文本分类等任务。1.分布式假设（DistributionalHypothesis）分布式相似性基于以下假设：“Yoush
免费DeepSeek与ChatGPT（200美元/月）大比拼！小焱创作 chatgpt 人工智能人工智能写作 ai写作深度学习神经网络 ai
目录免费DeepSeek与ChatGPT（200美元/月）大比拼！免费DeepSeek与ChatGPT（200美元/月）大比拼！在人工智能领域，DeepSeek与ChatGPT无疑是两位耀眼的明星。前者以免费服务迅速崛起，后者则以200美元/月的订阅费维持其高端定位。两者之间的竞争，不仅引发了业界对AI技术发展的关注，更深刻地影响了现代生活的方方面面。本文将从基本概念、深层次解读、具体落地实操等多
【解锁机器学习：探寻数学基石】游戏乐趣机器学习人工智能
机器学习中的数学基础探秘在当今数字化时代，机器学习无疑是最具影响力和发展潜力的技术领域之一。从图像识别到自然语言处理，从智能推荐系统到自动驾驶，机器学习的应用无处不在，深刻地改变着我们的生活和工作方式。然而，在这看似神奇的机器学习背后，数学作为其坚实的理论基础，起着不可或缺的关键作用。毫不夸张地说，数学是打开机器学习大门的钥匙，是理解和掌握机器学习算法与模型的核心所在。想象一下，机器学习就像是一座
知识图谱与知识表示：人工智能的基石醉心编码 c/c++人工智能知识图谱
知识图谱与知识表示：人工智能的基石一、知识图谱：连接数据的桥梁1.1知识图谱的构成1.2知识图谱的应用二、知识表示：AI的推理基础2.1知识表示的定义2.2知识表示的形式三、从符号表示到向量表示3.1符号表示与向量表示3.2向量表示的优势四、智能的精华：推理与学习4.1推理的重要性4.2学习的局限性五、结论在人工智能领域，知识图谱和知识表示是两个核心概念，它们构成了AI理解、推理和学习的基础。本文
从LangChain到LangGraph：轻松迁移指南 tt_jishu langchain 前端 javascript python
引言在人工智能应用的开发过程中，从一个框架迁移到另一个框架可能是一个复杂的过程。本文将深入探讨如何从传统的LangChain代理迁移到LangGraph代理，这将为您的工具调用和对话管理带来更大的灵活性。主要内容1.安装和设置确保已安装所需的依赖包：%%capture--no-stderr%pipinstall-Ulanggraphlangchainlangchain-openai设置OpenAI
Python--读取mat文件一头大学牲程序--编程记录 python 开发语言深度学习机器学习
最近在进行学习深度学习过程中，遇到了以MATLAB的.mat格式存储的数据，需要用python读取出来处理，于是就找到了以下比较方便的三种python读取mat文件的方法：使用hdf5库来读取mat文件1.使用scipy.io来读取1.5知识小插曲2.使用hdf5来读取3.使用mat73来读取1.使用scipy.io来读取-如果你的matlab的版本比较旧，保存的.mat格式为‘-v7.3’以前的
AI笔记——语音识别 Yuki-^_^ 人工智能 AI 人工智能笔记语音识别
摘要：语音识别（AutomaticSpeechRecognition,ASR）是人工智能领域的一项重要技术，它将人类的语音信号转换成文字。随着科技的发展，语音识别已经成为现代生活和工作中不可或缺的一部分。本文旨在介绍语音识别的基本原理、关键技术、应用场景以及未来发展趋势。一、历史与发展语音识别技术的历史可以追溯到20世纪50年代，那时的技术基于规则和模板。随着计算能力的提升和深度学习方法的出现，语
Manus（一种AI代理或自动化工具）与DeepSeek（一种强大的语言模型或AI能力）结合使用任务自动化和智能决策 zzlyx99 人工智能自动化语言模型
一、Manus与DeepSeek差异十分好奇DeepSeek和Manus究竟谁更厉害些，DeepSeek是知识型大脑，Manus则是全能型执行者。即DeepSeek专注于语言处理、知识整合与专业文本生成。其核心优势在于海量参数支持的深度学习和知识推理能力，例如撰写论文、润色法律合同、解答专业问题等。Manus则更强调从规划到交付的闭环能力。它通过工具链调用（如浏览器、代码编辑器）自主执行复杂任务，
深度学习处理时间序列（2） yyc_audio 深度学习笔记深度学习人工智能
在数据中寻找周期性在多个时间尺度上的周期性，是时间序列数据非常重要且常见的属性。无论是天气、商场停车位使用率、网站流量、杂货店销售额，还是健身追踪器记录的步数，你都会看到每日周期性和年度周期性（人类生成的数据通常还有每周的周期性）。探索数据时，一定要注意寻找这些模式。（让人想到波，想到傅里叶变换）对于这个数据集，如果你想根据前几个月的数据来预测下个月的平均温度，那么问题很简单，因为数据具有可靠的年
大规模语言模型从理论到实践开源指令数据集 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大规模语言模型从理论到实践开源指令数据集1.背景介绍大规模语言模型（LargeLanguageModels,LLMs）近年来在自然语言处理（NLP）领域取得了显著的进展。诸如GPT-3、BERT等模型在各种任务中表现出色，从文本生成到翻译，再到问答系统，几乎无所不能。这些模型的成功离不开庞大的训练数据集和复杂的算法架构。然而，如何有效地构建和利用开源指令数据集，仍然是一个值得深入探讨的话题。2.核
使用Python和LangChain创建可调用工具的智能对话机器人：全面指南 m0_57781768 python langchain 机器人
使用Python和LangChain创建可调用工具的智能对话机器人：全面指南在当今技术迅猛发展的时代，人工智能（AI）和自然语言处理（NLP）技术的应用范围越来越广。尤其是对话机器人，它们不仅能与人类进行自然交互，还能通过调用外部API与各种系统对接，为用户提供更加智能和灵活的服务。本文将通过一系列实例和代码演示，向您展示如何利用Python编程语言和LangChain框架，创建能够使用外部工具（
机器视觉|手势识别：基于YOLOv5的手部检测与MediaPipe的关键点估计 RockLiu@805 机器视觉 YOLO
手势识别：基于YOLOv5的手部检测与MediaPipe的关键点估计在实时计算机视觉应用中，手部检测与关键点估计是实现手势识别的重要基础。本文将介绍一种基于深度学习的手势识别技术方案，通过结合YOLOv5物体检测网络和MediaPipe关键点检测框架，实现实时的手部定位与关键点提取。技术背景gesturerecognition作为计算机视觉领域的重要研究方向，在HCI（人机交互）、遥控行为分析、虚
智能编程新时代：DeepSeek加持下的开发工具革新 inscode_013
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE标题：智能编程新时代：DeepSeek加持下的开发工具革新在当今快速发展的科技领域，编程工具的智能化已经成为不可阻挡的趋势。随着人工智能技术的不断进步，开发者们迎来了前所未有的机遇和挑战。其中，集成DeepSeek模型的AI开发工具，正以其强大的功能和便捷的操作，引领着编程方式的革命性变革。本文将探讨这种创新工具的应用场景
智能编程新时代：DeepSeek加持下的开发利器 inscode_099
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE智能编程新时代：DeepSeek加持下的开发利器在当今快速发展的科技时代，编程工具的智能化已经成为不可阻挡的趋势。随着人工智能技术的不断进步，开发者们不再满足于传统的IDE（集成开发环境），而是渴望更加智能、高效的开发工具。在这种背景下，一款集成了DeepSeek-V3模型的AI开发工具应运而生，它不仅能够大幅提升开发效率
智能化编程新时代，DeepSeek加持下的开发革命 ObsidianRaven13
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE标题：智能化编程新时代，DeepSeek加持下的开发革命随着人工智能技术的飞速发展，编程领域正迎来一场前所未有的变革。从传统的手动编码到如今的智能辅助开发，这一过程不仅极大地提升了开发效率，还让编程变得更加简单和高效。在众多新兴工具中，基于DeepSeek模型的智能编程助手正在成为开发者的新宠。今天，我们将探讨这种工具如何
智能化开发新时代：DeepSeek加持下的编程革命 MoonbeamOwl67
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE标题：智能化开发新时代：DeepSeek加持下的编程革命在当今快速发展的科技时代，软件开发已经成为推动社会进步的重要动力。然而，对于许多开发者而言，编写高质量的代码仍然是一项充满挑战的任务。从复杂的算法设计到繁琐的调试过程，每一个环节都需要耗费大量的时间和精力。而随着人工智能技术的迅猛发展，一种全新的编程方式正在悄然改变这
基于深度学习的个性化新闻推荐系统设计与实现计算机毕设 sj52abcd 深度学习课程设计人工智能毕业设计
博主介绍：✌专注于VUE,小程序，安卓，Java,python,物联网专业，有17年开发经验，长年从事毕业指导，项目实战✌选取一个适合的毕业设计题目很重要。✌关注✌私信我✌具体的问题，我会尽力帮助你。研究的背景:随着互联网技术的发展和普及,人们越来越依赖互联网获取信息。然而,随着信息量的不断增加,用户在查找新闻时面临着信息过载的问题。为了解决这个问题,个性化新闻推荐系统被广泛应用。个性化新闻推荐系
python 人工智能实战案例 2401_86114612 pygame python java
大家好，今天我们要分享，python编程人工智能小例子python人工智能100例子，一起探索吧！1.背景介绍概述在这个世纪，人类已经处于数字化的时代，而这也让很多其他行业都进入了数字化领域python列表有哪些基本操作,python列表功能很重要吗。其中包括游戏行业。游戏行业的蓬勃发展促使机器学习的产生，通过计算机能够进行高效率地模拟人类的学习、决策过程，不断升级提升人类的能力。游戏领域中的AI
Python 在人工智能领域的实际6大案例 Solomon_肖哥弹架构人工智能机器学习 python
Python作为一种功能强大且易于学习的编程语言，在人工智能（AI）领域得到了广泛的应用。从机器学习到深度学习，从自然语言处理到计算机视觉，Python提供了丰富的库和框架，使得开发者能够快速实现各种AI应用。本文将通过多个实际案例，展示Python在人工智能领域的强大功能和应用前景。二、案例一：手写数字识别（MNIST）1.背景介绍手写数字识别是机器学习领域的经典入门项目，MNIST数据集包含了
深入探究YOLO系列的骨干网路编码实践 YOLO 深度学习计算机视觉
深入探究YOLO系列的骨干网路YOLO系列是目标检测领域中非常知名的算法。其通过将整个图像作为输入，并且直接在图像上通过一个单独的神经网络输出每个检测框的类别预测和边界框信息。为了更好地理解YOLO系列，我们需要先了解它所使用的骨干网路。骨干网络是深度学习模型中的核心部分，负责提取图像的特征。如今常用的骨干网络有VGG、ResNet和MobileNet等。YOLO系列算法采用的是Darknet骨干
《Python深度学习》第四讲：计算机视觉中的深度学习 earthzhang2021 2025讲书课专栏 python 深度学习计算机视觉 1024程序员节 numpy 算法人工智能
计算机视觉是深度学习中最酷的应用之一，它让计算机能够像人类一样“看”和理解图像。想象一下，计算机可以自动识别照片中的物体、人脸，甚至可以读懂交通标志。这一切听起来是不是很神奇？其实，这一切都离不开深度学习中的卷积神经网络（CNN）。今天，我们就来深入了解一下CNN是如何工作的。5.1卷积神经网络简介先来看下卷积神经网络（CNN）是什么。CNN是一种专门用于处理图像数据的神经网络。它的灵感来源于人类
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio