千与编程

Fine-tuning：个性化AI的妙术

在本篇文章中，我们将深入探讨Fine-tuning的概念、原理以及如何在实际项目中运用它，以此为初学者提供一份入门级的指南。

一、什么是大模型

ChatGPT大模型今年可谓是大火，在正式介绍大模型微调技术之前，为了方便大家理解，我们先对大模型做一个直观的抽象。

本质上，现在的大模型要解决的问题，就是一个序列数据转换的问题：

输入序列 X = [x1, x2, ..., xm]，输出序列Y = [y1, y2, …, yn]，X和Y之间的关系是：Y = WX。

我们所说的“大模型”这个词：“大”是指用于训练模型的参数非常多，多达千亿、万亿；而“模型”指的就是上述公式中的矩阵W。

在这里，矩阵W就是通过机器学习，得出的用来将X序列，转换成Y序列的权重参数组成的矩阵。

需要特别说明：这里为了方便理解，做了大量的简化。在实际的模型中，会有多个用于不同目的的权重参数矩阵，也还有一些其它参数。

二、大模型Fine-tuning的概念

Fine-tuning源于对已经训练好的模型进行微调的概念。传统的机器学习模型需要通过大量数据进行训练，而Fine-tuning则利用了在庞大数据集上训练好的大型深度学习模型。这些预训练模型，如ChatGPT大模型，已经通过数以亿计的文本数据学到了庞大的知识库。

在预训练模型的基础上进行额外训练，使其适应特定任务或领域。这一过程包括选择预训练模型，准备目标任务的数据，调整模型结构，进行微调训练，以及评估和部署。

微调的优点在于节省时间和资源，提高性能，但也存在过拟合风险和模型选择与调整的复杂性。总体而言，它是一种强大的技术，特别适用于数据受限或计算资源有限的情况。

三、大模型微调的方式

在 OpenAI 发布的 ChatGPT应用中，就主要应用了大模型微调技术，从而获得了惊艳全世界的效果。

而随着ChatGPT的火热，parameter-efficient fine-tuning和prompt-tuning技术似乎也有替代传统fine-tuning的趋势，本篇论文将简单描述预训练模型领域这三种微调技术及其差别。

3.1 full fine-tuning全量微调

大模型全量微调通过在预训练的大型模型基础上调整所有层和参数，使其适应特定任务。这一过程使用较小的学习率和特定任务的数据进行，可以充分利用预训练模型的通用特征，但可能需要更多的计算资源。

3.2 参数高效微调

PEFT技术旨在通过最小化微调参数的数量和计算复杂度，来提高预训练模型在新任务上的性能，从而缓解大型预训练模型的训练成本。

Prompt Tuning

Prompt Tuning的出发点，是基座模型(Foundation Model)的参数不变，为每个特定任务，训练一个少量参数的小模型，在具体执行特定任务的时候按需调用。

Prompt Tuning的基本原理是在输入序列X之前，增加一些特定长度的特殊Token，以增大生成期望序列的概率。

具体来说，就是将X = [x1, x2, ..., xm]变成，X` = [x`1, x`2, ..., x`k; x1, x2, ..., xm], Y = WX`。

如果将大模型比做一个函数：Y=f(X)，那么Prompt Tuning就是在保证函数本身不变的前提下，在X前面加上了一些特定的内容，而这些内容可以影响X生成期望中Y的概率。

Prefix Tuning

Prefix Tuning的灵感来源是，基于Prompt Engineering的实践表明，在不改变大模型的前提下，在Prompt上下文中添加适当的条件，可以引导大模型有更加出色的表现。

Prefix Tuning的出发点，跟Prompt Tuning的是类似的，只不过它们的具体实现上有一些差异。

而Prefix Tuning是在Transformer的Encoder和Decoder的网络中都加了一些特定的前缀。

具体来说，就是将Y=WX中的W，变成W` = [Wp; W]，Y=W`X。

Prefix Tuning也保证了基座模型本身是没有变的，只是在推理的过程中，按需要在W前面拼接一些参数。

LoRA

LoRA是跟Prompt Tuning和Prefix Tuning完全不相同的另一条技术路线。

LoRA背后有一个假设：我们现在看到的这些大语言模型，它们都是被过度参数化的。而过度参数化的大模型背后，都有一个低维的本质模型。

通俗讲人话：大模型参数很多，但并不是所有的参数都是发挥同样作用的；大模型中有其中一部分参数，是非常重要的，是影响大模型生成结果的关键参数，这部分关键参数就是上面提到的低维的本质模型。

LoRA的基本思路，包括以下几步：

首先, 要适配特定的下游任务，要训练一个特定的模型，将Y=WX变成Y=(W+∆W)X，这里面∆W主是我们要微调得到的结果；

其次，将∆W进行低维分解∆W=AB (∆W为m * n维，A为m * r维，B为r * n维，r就是上述假设中的低维)；

接下来，用特定的训练数据，训练出A和B即可得到∆W，在推理的过程中直接将∆W加到W上去，再没有额外的成本。

另外，如果要用LoRA适配不同的场景，切换也非常方便，做简单的矩阵加法即可：(W + ∆W) - ∆W + ∆W`。

四、Fine-tuning的步骤和流程

选择预训练模型： Fine-tuning的第一步是选择一个合适的预训练模型。这通常取决于任务的性质和需求。

备注：预训练模型是指在庞大的数据集上进行训练得到的模型。这些数据集通常是通过无监督学习或其他任务进行训练的。简单来说就是“模型的母体”。

准备微调数据集： Fine-tuning的成功与否密不可分于数据的质量。确保你的数据与模型预期的输入格式一致，进行必要的清理和标记。

备注：微调数据集是指在模型微调过程中所使用的数据集，比如原有大模型是识别动物类的大模型，现在我们准备了全部是猫狗的图片数据集，迁移模型的识别到识别猫狗上。

调整模型数据集输入： 根据具体任务，调整模型的输入以适应任务的特性。比如，文本分类任务可能需要在模型输入中包含任务相关的信息。

备注：本质上，就是调节模型识别的标签，比如原来识别的猫，现在让识别成狗，就是调整模型的标签输入

定义损失函数： 根据任务类型，定义适当的损失函数。这是模型优化的目标，对于分类任务，通常使用交叉熵损失。

备注：损失函数就好比你在玩打靶游戏，目标是尽量靠近靶心。当你射击命中靶心时，你会得到一个很小的损失分数，代表你的射击非常准确；而当你偏离靶心时，损失分数会相应增加，代表你离目标更远了。

在机器学习中，损失函数类似于靶心，我们的模型的预测结果就类比为射击的结果。损失函数衡量了模型预测值与真实值之间的差距，我们的目标是尽量减小这种差距，即尽量减小损失函数的值。

冻结部分模型： Fine-tuning中你可以选择冻结模型的一部分，特别是底层。这有助于保留预训练模型学到的通用特征。

备注：冻结部分模型可以用一个简单的例子来解释。假设你正在准备一道复杂的菜肴，这个菜需要煎牛排、炒蔬菜和做汁料。你已经有了一个非常熟练的牛排煎得恰到好处的步骤，这是你多年的经验总结出来的。但是你对于炒蔬菜和做汁料的处理方法还不是很熟悉。

那么在这个情况下，你可以决定冻结（保持不变）你熟练的牛排煎的步骤，因为你已经能够很好地完成它。你只需要专注于学习和改进炒蔬菜和做汁料的步骤，以充分利用你的努力。

选择优化器和学习率： 选择一个适当的优化器（如Adam）和学习率。预训练模型的学习率通常较小，因为它已经包含了大量的知识。

备注：优化器和学习率是机器学习中调整模型参数的重要工具。

我们可以将机器学习模型的参数调整过程类比为学生学习的过程。学习过程中，学生需要根据老师的指导不断调整学习策略，使得自己的学习效果越来越好。

优化器就像是学生的学习策略，它决定了如何根据反馈信息来更新模型的参数。不同的优化器有不同的策略，比如一些优化器会根据参数的梯度（导数）大小来调整参数的更新步长，而另一些优化器则会考虑参数的历史更新情况来调整步长。这些策略旨在使模型更好地逼近最优解，就像学生通过不断调整学习策略来提高学习效果一样。

学习率则类似于学生的学习步长，它决定了每次参数更新的幅度。如果学习率很小，那么参数更新的幅度会很小，学习过程会比较稳定但可能会收敛得比较慢；如果学习率很大，那么参数更新的幅度会很大，学习过程可能会比较震荡但可能会收敛得较快。选择合适的学习率可以帮助模型更快地找到最优解，就像选择合适的学习步长可以帮助学生更快地掌握知识一样。

进行微调训练： 利用准备好的数据和定义好的设置，开始模型的训练。迭代多个周期，直到在验证集上表现良好。

评估模型性能： 使用测试集来评估fine-tuned模型的性能。查看模型在任务上的表现，并根据需要进行调整。

备注：评估模型性能就好比是给学生考试一样，我们想知道学生掌握知识的程度。在考试中，我们通过评估学生的答题情况来得出一个分数，这个分数反映了学生在掌握知识方面的能力。

五、大模型微调开源项目

作者后来将各种大模型的高效微调，统一到了一个项目里：https://github.com/hiyouga/LLaMA-Factory(opens new window)

截止2023年10月29日，已经支持微调的模型型号有：

Model	Model size	Default module	Template
href="https://github.com/facebookresearch/llama" LLaMA	7B/13B/33B/65B	q_proj,v_proj	-
href="https://huggingface.co/meta-llama" LLaMA-2	7B/13B/70B	q_proj,v_proj	llama2
href="https://huggingface.co/bigscience/bloom" BLOOM	560M/1.1B/1.7B/3B/7.1B/176B	query_key_value	-
href="https://huggingface.co/bigscience/bloomz" BLOOMZ	560M/1.1B/1.7B/3B/7.1B/176B	query_key_value	-
href="https://huggingface.co/tiiuae/falcon-7b" Falcon	7B/40B	query_key_value	-
href="https://github.com/baichuan-inc/Baichuan-13B" Baichuan	7B/13B	W_pack	baichuan
href="https://github.com/baichuan-inc/Baichuan2" Baichuan2	7B/13B	W_pack	baichuan2
href="https://github.com/InternLM/InternLM" InternLM	7B/20B	q_proj,v_proj	intern
href="https://github.com/QwenLM/Qwen-7B" Qwen	7B/14B	c_attn	chatml
href="https://github.com/THUDM/ChatGLM3" ChatGLM3	6B	query_key_value	chatglm3
href="https://huggingface.co/microsoft/phi-1_5" Phi-1.5	1.3B	Wqkv	-

5.1 ChatGLM大模型微调

项目简介：基于 PEFT 的高效 ChatGLM 微调，兼容 ChatGLM 与 ChatGLM-2 模型，支持 Full Tuning、LoRA、P-Tuning V2、Freeze等微调方式。
备注: 关于这些微调方式，我来给你通俗易懂地解释一下：

Full Tuning（全参数微调）：就像你重新学习一门课程一样，这种微调方式会重新调整模型中所有参数，让模型在新的任务上学习适应最佳的参数配置。这样可以让模型更好地适应新的数据和任务，但可能需要花费更多的时间和计算资源。
LoRA（Layer-wise Relevance Adaption，逐层相关性适应）：这种微调方式是针对特定层次的调整，就好比给身体的不同部位做不同的锻炼一样。通过逐层调整，模型可以更灵活地适应新的任务，而不是一刀切地调整所有参数。
P-Tuning V2：这是谷歌提出的一种参数微调方法，它使用了预训练的大型语言模型来进行微调，以适应特定的应用场景。这种方式类似于在预训练的基础上进行精细化调整，以获得更好的性能。
Freeze（冻结）：就像冻结时间一样，这种微调方式会保持模型的某些部分不变。在微调时，你可以冻结一些不需要调整的模型参数，集中精力在需要调整的部分上，以节省时间和计算资源，同时保留已有的良好性能。

总的来说，这些微调方式都是为了让模型更好地适应新的任务或数据，但它们的策略和重点略有不同。选择合适的微调方式可以帮助我们更快地实现模型性能的提升，就好比选择合适的训练方式可以让我们更好地提高学习效果一样。

ChatGLM项目地址：GitHub - hiyouga/ChatGLM-Efficient-Tuning: Fine-tuning ChatGLM-6B with PEFT | 基于 PEFT 的高效 ChatGLM 微调

5.2 LLaMA大模型微调

项目简介：基于 PEFT 的高效 LLaMA 微调，兼容 LLaMA 与 LLaMA-2 模型。
项目地址：GitHub - hiyouga/LLaMA-Factory: Easy-to-use LLM fine-tuning framework (LLaMA, BLOOM, Mistral, Baichuan, Qwen, ChatGLM)

总结一下, 大模型的微调技术的诞生是源于大模型进行训练的成本，因为训练一次大模型类似以上的ChatGLM大模型微调以及LLaMA大模型微调，训练主机的显存需要20GB以上，一般的公司是承受不起的。
而且数据集比较大，所以训练一次的电费都不小，因此微调技术可以快速实现能力的迁移，这就是Fine-tuning的微调技术，实现个性化AI的应用。

python 加密与解密 mysouil 算法 python 算法
python加密与解密具体介绍python的加密与解密算法例如：RSA算法文章目录python加密与解密前言一、对称加密1、用途和特点：2、AES加密实现2.1加密2.2解密2.3测试二、非对称加密1、用途和特点：2、RSA加密实现2.1密钥生成2.2加密2.3解密2.4输入输出到文件2.5测试三、摘要算法（哈希算法）1、用途和特点：2、实现2.1MD5加密2.2SHA1加密2.3SHA224加密
【AI人工智能】DeepSeek R1：你需要知道的一切大名顶顶人工智能人工智能 AI DeepSeek 程序员计算机编程开源
我们将在本博客中介绍的关于DeepSeekR1的所有你需要知道的一切内容，请坚持认真读完，必有收获：DeepSeekR1简要概述主要特点与能力开源与可访问性模型架构强化学习训练变体与精简模型使用案例与应用从专有模型迁移到开源模型1.DeepSeekR1简要概述大语言模型（LLM）研究领域正在迅速发展，每一个新模型都在推动机器能力的边界。DeepSeekR1是由DeepSeek于2025年1月20日
Day32【AI思考】-数学可视化学习的专业工具与技巧全指南一个一定要撑住的学习者 #AI深度思考学习方法人工智能学习
文章目录数学可视化学习的**专业工具与技巧全指南**1、回答1：**一、专业数学可视化工具库****1.交互式动态平台****~~2.编程驱动工具~~****3.三维沉浸式工具****二、进阶可视化技巧****~~1.动态参数艺术~~****2.抽象概念具象化****3.历史可视化路径****三、学习资源矩阵****1.B站宝藏UP主****~~2.系统课程推荐~~****3.实战项目库****四
11种著名商业分析模型：战略决定布局，布局决定终局不会飞的杨人工智能大数据
简介：编者按：有很多企业做到了近百亿的规模，但依然处于机会成长阶段，其原因为企业的战略选择、决策制定和执行缺乏底层逻辑和数据支撑，也缺乏科学的流程和方法论。盲目的机会主义和短视现象，会导致决策思考与方案执行严重脱节，企业内部难以达成共识，执行变形，甚至资源浪费。要规避这种情况的出现，理性制定决策，可借鉴这11种商业分析模型。全文约7072字，建议阅读时间18分钟。导语阿里云创立于2009年，是阿里
【课程设计推荐】基于JSP的书店系统设计与实现想念@思恋课程设计 jsp java 课程设计 java jsp
关注【墨岚创客】，回复【毕设】，赠送免费毕设资源，具体联系方式见文末引言二十一世纪是一个集数字化，网络化，信息化的，以网络为核心的社会。当钱天白教授于1986年9月14日在北京计算机应用技术研究所内向德国卡尔斯鲁厄大学发出第一封电子邮件“穿越长城，走向世界”的时候，他也许不知道自己推开了中国信息时代的大门；1994年4月20日，中国科学院计算机中心通过美国Sprint公司连入Internet的64
对线性回归的补充——正规方程法梦醒沉醉数学基础线性回归机器学习
目录1.引言2.单变量线性回归的解析解3.多变量线性回归的解析解参考1.引言在单变量线性回归和多变量线性回归中，参数的更新都使用了梯度下降算法进行迭代，但是线性回归的参数最优值可以直接得到解析解。2.单变量线性回归的解析解模型：f(x)=wx+b\Largef(x)=wx+bf(x)=wx+b 优化目标：(w∗,b∗)=arg min⁡w∗,b∗∑i=1m[yi−f(xi)]2=arg
Nginx 日志分析与监控计算机毕设定制辅导-无忧学长 #Nginx nginx 运维
引言在当今互联网时代，Web服务的稳定运行和高效性能是至关重要的。Nginx作为一款高性能的HTTP和反向代理服务器，以其出色的稳定性、高效性和丰富的功能，被广泛应用于各类Web项目中，成为了Web服务架构中不可或缺的一部分。无论是大型互联网公司的高并发网站，还是小型企业的业务系统，Nginx都能发挥其强大的作用，承担着处理大量并发请求、实现负载均衡、保障服务稳定等重要任务。而Nginx日志，就像
【ETL：概念、流程与应用】三日看尽长安花 etl 数据仓库
ETL：概念、流程与应用目录什么是ETLETL的工作流程2.1数据抽取（Extract）2.2数据转换（Transform）2.3数据加载（Load）ETL的应用场景常见的ETL工具ETL的挑战与解决方法ETL与ELT的区别总结1.什么是ETLETL是数据处理的流程，表示“抽取（Extract
【数据仓库】三日看尽长安花系统架构师数据仓库
数据仓库：概念、架构与应用目录什么是数据仓库数据仓库的特点数据仓库的架构3.1数据源层3.2数据集成层（ETL）3.3数据存储层3.4数据展示与应用层数据仓库的建模方法4.1星型模型4.2雪花模型4.3星座模型数据仓库与数据库的区别数据仓库的应用场景数据仓库的优缺点分析数据仓库的未来趋势总结1.什么是数据仓库数据仓库（DataWarehouse,DW）是一种用于分析和报告的数据库系统，专门为大规模
【码道初阶】国服ad两种殊途同归的贪心算法详解Leetcode452弓箭射气球问题（与Leetcode435十分相似）宇智波牢大114514 码道初阶贪心算法算法 leetcode c++
用最少箭数引爆气球：贪心策略详解引言在解决LeetCode的「452.用最少数量的箭引爆气球」问题时，我们需要在保证射爆所有气球的前提下，找到最少的弓箭数量。本文将结合具体代码，深入解析该问题的贪心解法，用两种不同的循环写法来达成目的并揭示其与经典区间问题（Leetcode435.区间重叠问题）的异同。一、问题描述给定气球区间的数组points，其中每个区间表示气球的水平直径范围。弓箭可以从任意x
python-docx 设置页眉、页眉字体、页眉对齐方式布啦啦李 python-docx使用教程 python python-docx docx docx设置页眉 python-docx 页眉
本文目录前言一、docx设置页眉1、完整代码2、实际效果图3、常见问题二、docx设置页眉及对齐方式1、完整代码2、实际效果图3、常见问题①、对齐方式讲解②、字体号与Pt的对应关系三、docx设置页眉，两段文本，两端对齐1、完整代码2、实际效果图3、需要注意的问题①、为什么使用表格添加页眉？②、这样的页眉怎样处理字体呢？③、如果页眉有三段文字怎么办？④、表格宽度为什么是14.64呢？四、docx设
新媒体特点 Fadeland 媒体
1、变化快，更新快。信息更新及时。热得快，但也散得快。2、互动性强。评论点赞转发，通过互动，受众可以发表自己的想法，也增进了彼此的沟通。与用户轻松交流，给用户更好的体验。3、创新多，形式多样化。除去文字还有表情包，小视频等4、众化，平民化。门坎很低，有手机就行，所以应该经常在网上看到有人说“未来人人都是自媒体”。5、媒体的个性化很突出；经常发明出一些网络名言金句，网络段子。6、受众选择性的增多；新
运营定义与分类 Fadeland 学习产品运营媒体新媒体运营
1、互联网运营岗定义从广义角度说，一切围绕着网站产品进行人工干预的工作，都叫做运营。运营，就是公司领导者，带领员工一起做出产品，并且通过产品为用户提供价值。所以从广义角度去看运营的概念，只要你去一个公司上班，那么你就是整个公司运营的一份子。每一个有具体分工的人组合在一起，共同运营了一家公司。但我们通常提到的运营，指的都是狭义的运营，那什么是狭义的运营呢？狭义来讲，我们常提到的各种运营就是要把运营细
Nginx与Web安全：遵循OWASP最佳实践墨夶 Nginx学习资料1 nginx web安全 hibernate
在当今数字化时代，网络安全已成为企业不可忽视的重要环节。Web应用程序面临着各种威胁，包括SQL注入、跨站脚本攻击（XSS）、跨站请求伪造（CSRF）等。Nginx作为高性能的HTTP和反向代理服务器，提供了丰富的功能来增强Web应用的安全性。结合OpenWebApplicationSecurityProject(OWASP)的最佳实践，可以有效提升Web应用的安全防护水平。本文将详细介绍如何使用
浅色可视化大屏虽然经常被诟病，也有自己的用武之地呀大象数据工场前端 javascript 大数据
一、视觉舒适性与减轻疲劳在长时间的使用和观察中，浅色可视化大屏能够为用户带来更舒适的视觉体验，减轻视觉疲劳。与深色背景相比，浅色背景通常反射的光线较少，对眼睛的刺激相对较小。尤其是在需要长时间盯着大屏进行数据分析、监控或决策的场景下，这种视觉舒适性显得尤为重要。此外，对于一些对光线较为敏感的人群，如患有眼疾或容易出现视觉疲劳的人来说，浅色可视化大屏可能是更好的选择。它可以减少眼睛的不适感，提高工作
3D图形学与可视化大屏：渲染管线的概念、作用、各个阶段介绍。大美工控设计师 3d 3D建模图形算法
一、渲染管线的概念渲染管线是指在3D图形学中，将3D场景转换为2D图像的一系列处理过程。它就像一条生产线，将原始的3D数据（如顶点坐标、颜色、纹理等）经过一系列的加工和处理，最终生成可以在屏幕上显示的2D图像。渲染管线通常由多个阶段组成，每个阶段都有特定的任务和功能。这些阶段按照一定的顺序依次执行，前一个阶段的输出作为后一个阶段的输入，直到最终生成图像。二、渲染管线的作用实现3D场景到2D图像的转
【2025年最新】谷歌浏览器Mac版下载安装使用指南：建议收藏！ Java徐师兄常用软件 macos chrome 浏览器下载 chrome 下载安装 mac 谷歌浏览器下载
【2025年最新】谷歌浏览器Mac版下载安装使用指南：建议收藏！大家好，欢迎来到程序员徐公的技术小课堂！今天要给大家带来的是谷歌浏览器（Chrome）Mac版的安装与使用教程！Chrome作为全球最受欢迎的浏览器之一，凭借其简洁、高效和稳定的特性，成为了无数开发者和普通用户的首选浏览器。在本篇教程中，我将带你深入了解谷歌浏览器Mac版的安装、功能、特性以及一些隐藏的技巧。即使你是新手，也能轻松上手
边缘计算与交通管理的协作 AGI大模型与大数据研究院计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
边缘计算与交通管理的协作作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：边缘计算，交通管理，智能交通系统，数据处理，实时性，安全性，效率1.背景介绍1.1问题的由来随着城市化进程的加快，交通拥堵、能源浪费、环境污染等问题日益突出。传统的交通管理系统往往依赖于中心化的数据处理中心，对实时性、可靠性和处理能力的要求越来越高。然而，随着车联网、智能
C/C++面试题（八股文）四两白豆包 c语言数据库 c++
基础语法1.结构体内存对齐问题？·结构体内存成员按照声明顺序存储，第一成员地址和整个结构体地址相同；·未特殊说明时，按照结构体中size最大的成员对齐（若有double成员，按8字节对齐）；·C++11以后引入两个关键字alignas与alignof。其中alignof可以计算出类型的对齐方式，alignas可以指定结构体的对齐方式，但是alignas在某些情况下是不能使用的（若alignas小于
Baklib赋能企业实现高效数字化内容管理提升竞争力数字体验运营官其他
内容概要在数字经济的浪潮下，企业面临着前所未有的机遇与挑战。随着信息技术的迅猛发展，各行业都在加速推进数字化转型，以保持竞争力。在这个过程中，数字化内容管理成为不可或缺的一环。高效的内容管理不仅能够优化内部流程，还能提升客户体验，帮助企业在瞬息万变的市场环境中快速响应。“有效的数字化内容管理，能够帮助企业降低成本，提高效率，为业务创新提供重要支持。”以下表格展示了高效数字化内容管理对企业各方面的影
Day31-【AI思考】-深度学习方法论全解析——科学提升学习效率的终极指南一个一定要撑住的学习者 #AI深度思考学习方法人工智能
文章目录深度学习方法论全解析——科学提升学习效率的终极指南**一、影子跟读法（Shadowing）——听力突破核武器****二、番茄工作法（Pomodoro）——时间管理手术刀****三、费曼技巧（FeynmanTechnique）——知识内化加速器****四、康奈尔笔记（CornellNotes）——信息处理引擎**效能倍增组合技常见问题解决方案深度学习方法论全解析——科学提升学习效率的终极指南
Day31-【AI思考】-关键支点识别与战略聚焦框架一个一定要撑住的学习者 #AI深度思考学习方法人工智能
文章目录关键支点识别与战略聚焦框架**第一步：支点目标四维定位法****第二步：支点验证里程碑设计****第三步：目标网络重构方案****第四步：动态监控仪表盘**执行工具箱核心心法关键支点识别与战略聚焦框架让思想碎片重焕生机的灵魂：在当前纷繁复杂的目标清单中，哪一项是只要达成就能引发其他目标多米诺式突破的关键支点？这个支点是否具备可被验证的阶段性里程碑？”这个问题像精准的手术刀，旨在帮助您：识别
XXL-BOOT v1.0.0 ｜快速开发平台 javaadminrbac
ReleaseNotes1、【整合】项目更名XXL-BOOT，整合xxl-permission、xxl-code-generator多个历史项目；定位为快速开发平台，整合流行前后端技术能力，致力为中小企业与个人开发者打造开箱即用的快速开发解决方案。2、【规范】研发规范：基于标准分层架构设计，统一数据响应结构体，规范化项目目录结构。3、【规范】异常机制：严谨设计全局异常处理机制、ErrorPage异
DeepSeek R1 简易指南：架构、培训、本地部署和硬件要求前端javascript
CSS技巧与案例详解vue2与vue3技巧合集VueUse源码解读DeepSeek团队近期发布的DeepSeek-R1技术论文展示了其在增强大语言模型推理能力方面的创新实践。该研究突破性地采用强化学习（ReinforcementLearning）作为核心训练范式，在不依赖大规模监督微调的前提下显著提升了模型的复杂问题求解能力。技术架构深度解析模型体系：DeepSeek-R1系列包含两大核心成员：D
使用Ollama本地化部署DeepSeek 大模型llm人工智能
1、Ollama简介Ollama是一个开源的本地化大模型部署工具，旨在简化大型语言模型（LLM）的安装、运行和管理。它支持多种模型架构，并提供与OpenAI兼容的API接口，适合开发者和企业快速搭建私有化AI服务。Ollama的主要特点包括：轻量化部署：支持在本地设备上运行模型，无需依赖云端服务。多模型支持：兼容多种开源模型，如LLaMA、DeepSeek等。高效管理：提供命令行工具，方便用户下载
手眼标定：相机坐标系转换代码李大脑袋741 人工智能 python 计算机视觉
在我们机器人与相机的联动使用时，必须进行的操作为手眼标定，将相机的坐标系与机器人的末端坐标系进行转换。首先第1步为拍摄相机照片，并进行标定得到内参：如何matlab进行单目相机标定（全流程）_matlabcamerecalibrator-CSDN博客如何未直接获得外参，还需进行相机的外参求解：matlab进行相机标定求得外参_matlab求解外参函数-CSDN博客求解相机内参外参后，还需将相机拍摄
【算法设计与分析】实验5：贪心算法—装载及背包问题 XY_伊算法贪心算法数据结构排序算法 c++c语言
目录一、实验目的二、实验环境三、实验内容四、核心代码五、记录与处理六、思考与总结七、完整报告和成果文件提取链接一、实验目的掌握贪心算法求解问题的思想；针对不同问题，会利用贪心算法进行问题建模、求解以及时间复杂度分析；并利用JAVA/C/C++等编程语言开展算法编码实践（语言自选）。理解装载问题及背包问题的贪心求解策略；对比分析与动态规划求解问题的算法异同；能够利用贪心算法，开展装载问题及背包问题的
【人工智能时代】-Deepseek用到的技术架构 xiaoli8748_软件开发人工智能
以下是DeepSeek技术架构的详细介绍：1.混合专家架构（MoE）DeepSeek-V3采用了混合专家（Mixture-of-Experts,MoE）架构，这种架构通过将模型分解为多个“专家”网络来处理不同的输入特征。具体配置如下：层数：61层，其中58层为MoE层。专家数量：每层有257个专家（1个共享专家+256个路由专家），整个模型共有14,906个专家。激活机制：每个Token激活9个专
Matplotlib绘图-CSD演示辰往易 python 开发语言
目录前言一、CSD是什么？二、使用步骤1.引入库2.图形处理总结前言Matplotlib是Python的绘图库。它可与NumPy一起使用，提供了一种有效的MatLab开源替代方案。它也可以和图形工具包一起使用，如PyQt和wxPython。本文通过绘制简单的两个信号互谱密度（CSD）的演示，来学习绘制简单的图形。非专业人员，知识比较浅显，内容主要偏向编程，简单介绍在python中matplotli
Chrome浏览器删除网站cookies的解决方案爱编程的喵喵 Windows实用技巧 chrome cookie cookies
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了Chrome浏览器删除网站cooki
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb