Weiyaner

知识蒸馏介绍及比较

文章目录

1 知识蒸馏(knowledge)背景
2 知识蒸馏原理
- 2.1 概念
- 2.2 如何蒸馏
3 常见的几种BERT蒸馏模型
- 3.1 BERT蒸馏
- 3.2 Distiled BiLSTM
- 3.2 BERT-PKD（2019）——精调阶段的蒸馏
- 3.3 DistilBERT(hugging face2019)——预训练阶段蒸馏
- 3.4 TinyBERT（HW，2019）——两阶段蒸馏
- - 1 通用蒸馏
  - 2 针对特定任务的蒸馏
- 3.5 MobileBERT（ACL2020）

1 知识蒸馏(knowledge)背景

在训练模型时，我们通常采用复杂模型或者Ensemble方式来获取最好的结果，导致参数冗余严重，像BERT里有3亿参数。因此在前向预测时，需要对模型进行复杂的计算（或多个模型加权），导致工程性能较差。因此需要把复杂模型或者多个模型Ensemble（Teacher）学到的知识迁移到另一个轻量级模型（ Student ）上叫知识蒸馏。使模型变轻量的同时（方便部署），尽量不损失性能。

知识蒸馏是一种模型压缩常见方法，用于模型压缩指的是在teacher-student框架中，将复杂、学习能力强的网络学到的特征表示“知识蒸馏”出来，传递给参数量小、学习能力弱的网络。从而我们会得到一个速度快，能力强的网络，因此这是一个概念上的模型压缩方案。

从另一个角度来说，蒸馏可以使得student学习到teacher中更加软化的知识，这里面包含了类别间的信息，这是传统one-hot label中所没有的。由于蒸馏中软化标签的本质，因此蒸馏也可以被认为是一种正则化的策略。

2 知识蒸馏原理

2.1 概念

蒸馏的核心思想在于好模型的目标不是拟合训练数据，而是学习如何泛化到新的数据。所以蒸馏的目标是让学生模型学习到教师模型的泛化能力，理论上得到的结果会比单纯拟合训练数据的学生模型要好。

在蒸馏的过程中，我们将原始大模型称为教师模型（teacher），新的小模型称为学生模型（student），训练集中的标签称为hard label，教师模型预测的概率输出为soft label，temperature(T)是用来调整soft label的超参数。

2.2 如何蒸馏

上面提到了，蒸馏就是为了提升学生模型的泛化能力。

举个例子，在一个二分类任务中，教师模型的输出本该是0-1分类结果，但是这样的输出给student模型学习的话和原先的hard label没有什么区别，所以取出teacher model的概率输出q，并通过一个参数T进行平滑，是的TM（teacher model）的softmax变为：
$q_{i}=\frac{\exp \left(z_{i} / T\right)}{\sum_{j} \exp \left(z_{j} / T\right)}$
有了教师模型的输出后，学生模型的目标就是尽可能拟合教师模型的输出，新loss函数就变成了:
$L=(1-\alpha) C E(y, p)+\alpha C E(q, p) \cdot T^{2}$
其中CE是交叉熵 (Cross-Entropy)， $\mathrm{y}$ 是真实label， p是学生模型的预测结果， $\alpha$ 是蒸馏loss的权重。

这里要注意的是，因为学生模型要拟合教师模型的分布，所以在求p时的也要使用一样的参数T。另外，因为在求梯度时新的目标函数会导致梯度是以前的 $1/T^2$ ，所以要再乘上 $T^2$ ，不然T变了的话hard label不减小 $(T = 1)$ ，但soft label会变。

3 常见的几种BERT蒸馏模型

3.1 BERT蒸馏

在BERT提出后，如何瘦身就成了一个重要分支。主流的方法主要有剪枝、蒸馏和量化。

量化的提升有限，因此免不了采用剪枝+蒸馏的融合方法来获取更好的效果。

接下来将介绍BERT蒸馏的主要发展脉络，从各个研究看来，蒸馏的提升一方面来源于从精调阶段蒸馏->预训练阶段蒸馏，另一方面则来源于蒸馏最后一层知识->蒸馏隐层知识->蒸馏注意力矩阵。

3.2 Distiled BiLSTM

来源:https://arxiv.org/pdf/1903.12136.pdf
作者在2019年提出，把BERT-large蒸馏到了单层的BiLSTM中，参数量减少了100倍，速度提升了15倍。

教师模型:精调过的BERT-large
学生模型：BiLSTM+ReLU
目标函数：
数据增强：采用规则进行10+数据增强
- 用[MASK]随机替换单词
- 基于POS标签替换单词
- 从样本中随机取出n-gram作为新的样本

3.2 BERT-PKD（2019）——精调阶段的蒸馏

既然BERT有那么多层，是不是可以蒸馏中间层的知识，让学生模型更好地拟合呢？

BERT-PKD不同于之前的研究，提出了Patient Knowledge Distillation，即从教师模型的中间层提取知识，避免在蒸馏最后一层时拟合过快的现象（有过拟合的风险）。

教师模型：精调后的bert-base
学生模型：6/3层 transformer

3.3 DistilBERT(hugging face2019)——预训练阶段蒸馏

来源：https://arxiv.org/pdf/1910.01108.pdf

之前的工作都是对精调后的BERT进行蒸馏，学生模型学到的都是任务相关的知识。HuggingFace则提出了DistillBERT，在预训练阶段进行蒸馏。

效果：参数减小了40%，速度提升60%，表现为教师模型的97%。
教师模型：预训练的BERT-base
学生模型：6层transformer

3.4 TinyBERT（HW，2019）——两阶段蒸馏

既然精调阶段、预训练阶段都分别被蒸馏过了，理论上两步联合起来的效果可能会更好。

TinyBERT就提出了two-stage learning框架，分别在预训练和精调阶段蒸馏教师模型，其中，通用蒸馏可以帮助 student TinyBERT 学习到 teacher BERT 中嵌入的丰富知识，对于提升 TinyBERT 的泛化能力至关重要。特定于任务的蒸馏赋予 student 模型特定于任务的知识。这种两段式蒸馏可以缩小 teacher 和 student 模型之间的差距。

1 通用蒸馏

在通用蒸馏中，研究者使用原始 BERT 作为 teacher 模型，而且不对其进行微调，利用大规模文本语料库作为学习数据。通过在通用领域文本上执行 Transformer 蒸馏，他们获取了一个通用 TinyBERT，可以针对下游任务进行微调。然而，由于隐藏/嵌入层大小及层数显著降低，通用 TinyBERT 的表现不如 BERT。

2 针对特定任务的蒸馏

研究者提出通过针对特定任务的蒸馏来获得有竞争力的微调 TinyBERT 模型。而在蒸馏过程中，他们在针对特定任务的增强数据集上重新执行了提出的 Transformer 蒸馏（结构图如下）。

具体而言，精调的 BERT 用作 teacher 模型，并提出以数据增强方法来扩展针对特定任务的训练集。

此外，上述两个学习阶段是相辅相成的：通用蒸馏为针对特定任务的蒸馏提供良好的初始化，而针对特定任务的蒸馏通过专注于学习针对特定任务的知识来进一步提升 TinyBERT 的效果。

效果：参数量减少7.5倍，速度提升9.4倍的4层BERT，效果可以达到教师模型的96.8%，同时这种方法训出的6层模型甚至接近BERT-base，超过了BERT-PKD和DistillBERT。
教师模型：bert-base
学生模型：4/6层transformer

3.5 MobileBERT（ACL2020）

前文介绍的模型都是层次剪枝+蒸馏的操作，MobileBERT则致力于减少每层的维度，在保留24层的情况下

效果：减少了4.3倍的参数，速度提升5.5倍，在GLUE上平均只比BERT-base低了0.6个点，好于TinyBERT和DistillBERT。

MobileBERT压缩维度的主要思想在于bottleneck机制，如下图所示：

其中a是标准的BERT，b是加入bottleneck的BERT-large，作为教师模型，c是加入bottleneck的学生模型。Bottleneck的原理是在transformer的输入输出各加入一个线性层，实现维度的缩放。对于教师模型，embedding的维度是512，进入transformer后扩大为1024，而学生模型则是从512缩小至128，使得参数量骤减。

MobileBERT的蒸馏中，作者先用b的结构预训练一个BERT-large，再蒸馏到24层学生模型中。蒸馏的loss有多个：

Feature Map Transfer：隐层的MSE
Attention Transfer：注意力矩阵的KL散度
Pre-training Distillation

你可能感兴趣的:(自然语言处理,bert,知识蒸馏)

红 - 黑树和 B+树？百态老人笔记
红黑树是一种自平衡二叉查找树，由RudolfBayer发明，在1978年被LeoJ.Guibas和RobertSedgewick改称为“红黑树”。它的特点包括每个节点非红即黑；根节点是黑色；每个叶子节点都是黑色的空节点；如果一个节点是红色的，那么它的两个子节点都是黑色；从任一节点到其每个叶子的所有路径都包含相同数目的黑色节点。在Java集合框架中，很多部分如HashMap、TreeMap、Tree
DataWorks Copilot × DeepSeek-R1 来了！给你的智能数据开发加满 buff
DataWorksCopilot×DeepSeek-R1来了！DataWorksCopilot，作为一站式智能数据开发治理平台DataWorks的智能助手，借助AI推理和自然语言处理能力，通过提供代码辅助和智能应用开发功能，为开发者和企业用户带来便捷高效的数据开发体验。现在，DataWorksCopilot与DeepSeek-R1模型深度对接，支持DeepSeek-R1-671B模型与DeepSe
【第15章：量子深度学习与未来趋势—15.3 量子深度学习在图像处理、自然语言处理等领域的应用潜力分析】再见孙悟空_ #【深度学习・探索智能核心奥秘】深度学习机器学习人工智能音视频自然语言处理量子深度学习量子学习未来
一、开篇：为什么我们需要关注这场"量子+AI"的世纪联姻？各位技术爱好者们，今天我们要聊的这个话题，可能是未来十年最值得押注的技术革命——量子深度学习。这不是简单的"1+1=2"的物理叠加，而是一场可能彻底改写AI发展轨迹的范式转移。想象这样一个场景：你现在训练一个GPT-5级别的模型，不需要耗费价值上亿美元的算力资源，不需要等待数周的训练时间，甚至不需要纠结于模型参数是否过拟合。这就是量子深度学
语音与自然语言处理（NLP）：智能交互的核心技术给生活加糖！热门知识自然语言处理交互人工智能
随着人工智能（AI）技术的飞速发展，语音识别与自然语言处理（NaturalLanguageProcessing,NLP）成为了智能交互系统的核心技术。它们不仅改变了人们与计算机、设备的交互方式，也推动了众多行业的革新。从智能助手（如苹果的Siri、亚马逊的Alexa）到机器翻译、自动客服系统，语音和NLP技术正逐步融入日常生活，改善我们与数字世界的沟通方式。一、什么是语音识别与自然语言处理（NLP
Lua 5.1 参考手册 weixin_30822451
Lua5.1参考手册byRobertoIerusalimschy,LuizHenriquedeFigueiredo,WaldemarCeles云风译www.codingnow.comCopyright©2006Lua.org,PUC-Rio.Allrightsreserved.1-介绍Lua是一个扩展式程序设计语言，它被设计成支持通用的过程式编程，并有相关数据描述的设施。Lua也能对面向对象编程，
本地部署 DeepSeek：环境准备 + 详细步骤 + 高级部署方案 + 可视化工具集成 + 故障排除手册 + 性能优化建议 Katie。人工智能技术发展 ai deepseek 人工智能人工智能大模型
前言随着人工智能技术的迅猛发展，大语言模型（LLM）在多个行业中的应用日益广泛，从自然语言处理、内容生成到智能客服、医疗诊断等领域，AI正在深刻改变传统的工作方式和业务流程。DeepSeek作为一家新兴的AI公司，凭借其高效的AI模型和开源的优势，迅速在竞争激烈的AI市场中脱颖而出。其模型不仅在性能上表现出色，还通过开源策略吸引了大量开发者和企业的关注，形成了一个活跃的社区生态。然而，随着AI技术
全面解析：AI大模型入门教程，让你的学习之路不再迷茫，这个大模型学习路线非常详细收藏这篇就够了！ AGI大模型老王人工智能学习大模型 AI大模型大模型学习大模型教程大模型入门
前言AI大模型，作为当前人工智能领域的热点，凭借其强大的处理复杂数据和任务的能力，受到广泛的关注和应用。无论你是技术小白还是有一定基础的开发者，本教程都将带你从入门到实践，逐步掌握AI大模型的核心技术。基础知识大模型概述定义：AI大模型是一种拥有海量参数和强大计算能力的神经网络模型，能够处理复杂的数据和任务。应用：广泛应用于自然语言处理、图像识别、生成等领域。学习大模型的意义提升技术能力：掌握大模
CAP与BASE：分布式系统设计的灵魂与妥协后端java分布式
CAP理论CAP理论起源于2000年，由加州大学伯克利分校的EricBrewer教授在分布式计算原理研讨会（PODC）上提出，因此CAP定理又被称作布鲁尔定理（Brewer’stheorem）2年后，麻省理工学院的SethGilbert和NancyLynch发表了布鲁尔猜想的证明，CAP理论正式成为分布式领域的定理。简介CAP也就是Consistency（一致性）、Availability（可用性
知识图谱大模型系列之 11什么是 Neo4j LLM 知识图谱构建器？知识大胖 NVIDIA GPU和大语言模型开发教程知识图谱 neo4j 人工智能 llm
简介LLM知识图谱构建器是Neo4j的GraphRAG生态系统工具之一，可让您将非结构化数据转换为动态知识图谱。它与检索增强生成(RAG)聊天机器人集成，可实现自然语言查询和对数据的可解释洞察。推荐文章《使用ChatGPT从视频脚本创建知识图谱，使用GPT-4作为领域专家来帮助您从视频转录中提取知识（教程含完整源码）》权重2，知识图谱类《赋能知识图谱形成：利用BERTopic、DataMapPlo
大数据知识图谱之深度学习——基于BERT+LSTM+CRF深度学习识别模型医疗知识图谱问答可视化系统_bert+lstm 2301_76348014 程序员深度学习大数据知识图谱
文章目录大数据知识图谱之深度学习——基于BERT+LSTM+CRF深度学习识别模型医疗知识图谱问答可视化系统一、项目概述二、系统实现基本流程三、项目工具所用的版本号四、所需要软件的安装和使用五、开发技术简介Django技术介绍Neo4j数据库Bootstrap4框架Echarts简介NavicatPremium15简介Layui简介Python语言介绍MySQL数据库深度学习六、核心理论贪心算法A
深度剖析DeepSeek本地部署：技术、实践与优化策略 Abossss AI 论文 python ai 人工智能
一、引言1.1研究背景与意义近年来，人工智能技术以迅猛之势蓬勃发展，成为推动各行业变革的核心力量。其中，大语言模型（LLMs）作为人工智能领域的关键技术，在自然语言处理、智能客服、内容创作等众多领域展现出了强大的应用潜力，引发了学术界和产业界的广泛关注。OpenAI的GPT系列模型凭借其出色的语言理解与生成能力，在全球范围内掀起了AI应用的热潮；Google的BERT模型则在自然语言理解任务中取得
使用Python实现深度学习模型：知识蒸馏与模型压缩 Echo_Wish Python 笔记从零开始学Python人工智能 Python算法 python 深度学习开发语言
在深度学习领域，模型的大小和计算复杂度常常是一个挑战。知识蒸馏（KnowledgeDistillation）和模型压缩（ModelCompression）是两种有效的技术，可以在保持模型性能的同时减少模型的大小和计算需求。本文将详细介绍如何使用Python实现这两种技术。目录引言知识蒸馏概述模型压缩概述实现步骤数据准备教师模型训练学生模型训练（知识蒸馏）模型压缩代码实现结论1.引言在实际应用中，深
DeepSeek与ChatGPT的全面对比测试者家园人工智能 ChatGPT DeepSeek ChatGPT DeepSeek 人工智能质量效能
在人工智能（AI）领域，生成式预训练模型（GPT）已成为推动技术革新的核心力量。OpenAI的ChatGPT自发布以来，凭借其卓越的自然语言处理能力，迅速占据市场主导地位。然而，近期中国AI初创公司DeepSeek推出的R1模型，以其高效性和低成本，迅速引起全球关注。本文将深入探讨DeepSeek与ChatGPT的技术差异、性能表现以及各自的应用前景，旨在为读者提供全新的视角和启发。一、技术架构与
《AI对话秘籍：5个Prompt Engineering核心技巧让DeepSeek输出质量翻倍》 Athena-H Prompt Engineering 人工智能 prompt chatgpt gpt ai
引言随着自然语言处理技术的飞速发展，像ChatGPT这样的AI对话系统已经广泛应用于客服、教育、创作等多个领域。然而，如何高效地与这些语言模型进行交互，获得准确、相关且高质量的回复，成为了应用中的一个关键挑战。这时，PromptEngineering（提示词工程）便成为了一项必不可少的技能。PromptEngineering的核心目标是通过优化与模型的输入互动方式，让模型生成更加符合预期的输出。在
nlp技术 tqs_12345 人工智能自然语言处理
自然语言处理（NaturalLanguageProcessing,NLP）技术是一种计算机科学与人工智能的交叉领域，涉及机器对人类语言进行处理和理解的能力。以下是一些常见的NLP技术的示例：1.机器翻译：NLP技术可以帮助机器将一种语言翻译成另一种语言。例如，谷歌翻译使用NLP技术实现自动翻译，用户可以输入一段文本，然后谷歌翻译会自动将其翻译成其他语言。2.文本分类：NLP技术可以将文本分类到不同
一、大模型微调的前沿技术与应用伯牙碎琴大模型微调人工智能大模型微调 Deepseek
大模型微调的前沿技术与应用随着大规模预训练模型（如GPT、BERT、T5等）的广泛应用，大模型微调（Fine-Tuning,FT）成为了提升模型在特定任务中性能的关键技术。通过微调，开发者可以根据实际需求调整预训练模型的参数，使其更好地适应特定应用场景。本文将介绍大模型微调技术的前沿发展，分析不同微调方法的特点、适用场景以及优缺点，并对它们进行系统分类。微调技术的重要性大模型微调能够帮助开发者根据
《一文吃透！NLTK与SpaCy，自然语言处理的神兵利器》人工智能深度学习
在人工智能的璀璨星空中，自然语言处理（NLP）无疑是最为耀眼的领域之一。它让机器能够理解、处理和生成人类语言，极大地推动了智能交互的发展。而在Python的NLP工具库中，NLTK和SpaCy就像两把锋利的宝剑，各自散发着独特的光芒。今天，就让我们深入探究这两款工具的使用技巧与优势，为你的NLP之旅增添强大助力。一、NLTK：自然语言处理的瑞士军刀NLTK（NaturalLanguageToolk
2025年大模型与Transformer架构：技术前沿与未来趋势报告和老莫一起学AI transformer 架构深度学习人工智能产品经理学习大模型
_“欧米伽未来研究所”关注科技未来发展趋势，研究人类向欧米伽点演化过程中面临的重大机遇与挑战。将不定期推荐和发布世界范围重要科技研究进展和未来趋势研究。在人工智能的宏大版图中，Transformer架构无疑是一颗璀璨的明星。它的出现，彻底改变了自然语言处理、计算机视觉等诸多领域的发展轨迹。《2025年大模型与Transformer架构：技术前沿与未来趋势报告》深入剖析了Transformer架构的
AI 大模型创业：如何利用市场优势？ SuperAGI2025 计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
AI大模型创业：如何利用市场优势？1.背景介绍随着人工智能技术的不断发展，大模型（LargeModels）在商业化应用中日益受到关注。大模型是指在特定领域中应用广泛、参数量巨大的神经网络模型，如BERT、GPT-3、DALL-E等。这些大模型通过在大规模数据集上进行预训练，具备强大的泛化能力和适应性，能够广泛应用于自然语言处理（NLP）、计算机视觉（CV）、生成对抗网络（GAN）等多个领域。然而，
产品经理学习——AI产品 Li灿灿产品经理学习人工智能
本篇文章，主要是针对目前不同类型AI公司的产品经理职责和AI产品经理的模型进行介绍。AI产品分类AI产品分为软件型和软硬件结合型，软件型的AI产品主要是具备理解、推理和决策能力的AI，如NLP（自然语言处理）系统或者创造类，创作型内容如音乐、艺术和写作等。软硬结合型AI产品一般和传统领域相关，如医疗AI、教育AI和零售AI等。有些公司是纯粹的AI公司，对应的特点是专注于做底层的算法，做芯片技术，纯
智能客服平台的架构设计：实现高效、安全、可靠的服务运行 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战 LLM大模型落地实战指南自然语言处理人工智能语言模型编程实践开发语言架构设计
这篇文章将深入探讨智能客服平台的架构设计,以及如何实现高效、安全、可靠的服务运行。我会遵循您提供的要求和结构模板来撰写这篇文章。让我们开始吧。智能客服平台的架构设计,实现高效、安全、可靠的服务运行关键词：智能客服、架构设计、高效性、安全性、可靠性、微服务、自然语言处理、机器学习1.背景介绍在当今数字化时代,客户服务已成为企业与客户之间沟通的关键纽带。随着人工智能技术的快速发展,智能客服平台应运而生
深入解析LangChain：构建智能应用的全方位指南 AIGC大模型吱屋猪 langchain 语言模型人工智能自然语言处理 llama 百度机器学习
1.LangChain介绍与环境配置面试官：“你能先简单介绍一下LangChain吗？包括它的背景、主要功能，以及它在当前语言模型开发中的意义。”你："LangChain是一个开源框架，旨在简化和增强基于语言模型的应用开发。随着语言模型，特别是大型预训练模型的兴起，开发者逐渐认识到这些模型不仅可以生成文本，还可以被用于处理复杂的对话、数据分析以及其他需要自然语言处理的任务。然而，这些模型的集成和实
deepseek与gpt，核心原理对比 test猿 gpt
DeepSeek与GPT作为AI大模型，在自然语言处理等领域展现出强大的能力，它们的核心原理对比主要体现在模型架构、训练策略、资源效率以及应用场景优化等方面。一、模型架构DeepSeek混合专家（MoE）框架：DeepSeek采用了混合专家框架，其内部包含多个“专家”子模块，每个子模块专注于不同的任务或数据领域。例如，DeepSeek-R1拥有6710亿参数，但每次仅激活约370亿参数，通过动态选
教育小程序+AI出题：如何通过自然语言处理技术提升题目质量万岳科技系统开发人工智能小程序自然语言处理
随着教育科技的飞速发展，教育小程序已经成为学生与教师之间互动的重要平台之一。与此同时，人工智能（AI）和自然语言处理（NLP）技术的应用正在不断推动教育内容的智能化。特别是在AI出题系统中，如何通过NLP技术提升题目质量，成为教育领域中的一个重要课题。本文将介绍如何利用自然语言处理技术，通过AI出题系统自动生成高质量、个性化的题目，提升教育小程序的交互性与教学效果。一、自然语言处理（NLP）概述自
使用Python进行自然语言理解和意图识别毕业设计源码 sj52abcd python 课程设计开发语言毕业设计
博主介绍：✌专注于VUE,小程序，安卓，Java,python,物联网专业，有17年开发经验，长年从事毕业指导，项目实战✌选取一个适合的毕业设计题目很重要。✌关注✌私信我✌具体的问题，我会尽力帮助你。研究的背景:随着人工智能的发展，自然语言处理成为了人工智能领域的一个重要分支。在自然语言处理中，理解用户的意图是非常关键的一步。随着Python语言的广泛应用，Python成为了许多自然语言处理任务的
大模型prompt实例：知识库信息质量校验模块写代码的中青年大模型 prompt 人工智能 python 大模型 LLM
大模型相关目录大模型，包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容从0起步，扬帆起航。大模型应用向开发路径：AI代理工作流大模型应用开发实用开源项目汇总大模型问答项目问答性能评估方法大模型数据侧总结大模型token等基本概念及参数和内存的关系大模型应用开发-华为大模型生态规划从零开始的LLaMA-Factory的指令增
DeepSeek-R1 蒸馏 Qwen 和 Llama 架构企业级RAG知识库 qq_25467441 人工智能机器学习深度学习
“DeepSeek-R1的输出，蒸馏了6个小模型”意思是利用DeepSeek-R1这个大模型的输出结果，通过知识蒸馏技术训练出6个参数规模较小的模型，以下是具体解释：-**知识蒸馏技术原理**：知识蒸馏是一种模型压缩技术，核心是“教师-学生”模式。在该场景中，DeepSeek-R1作为“教师模型”，它是一个大型、复杂且性能强大的模型，具有丰富的语言知识和出色的处理能力。以Qwen或Llama架构为
Transformer以及BERT阅读参考博文 mumukehao 文本属性图文本属性图
Transformer以及BERT阅读参考博文Transformer学习：已有博主的讲解特别好了：李沐：Transformer论文逐段精读【论文精读】_哔哩哔哩_bilibili知乎：Transformer模型详解（图解最完整版）-知乎个人杂想：QKT∗VQK^{T}*VQKT∗V中，QKTQK^TQKT其实可以理解为相似性矩阵S，那么S∗VS*VS∗V其实就相当于相似性矩阵对原始的嵌入加权求和。
数字人技术在短视频中的应用 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
数字人、短视频、人工智能、计算机视觉、自然语言处理、虚拟主播、内容创作1.背景介绍短视频作为一种新兴的传播媒介，其内容形式丰富、传播速度快、用户粘性强，已成为当今互联网领域最热门的应用之一。随着技术的不断发展，数字人技术逐渐成熟，并开始在短视频领域得到广泛应用。数字人是指利用计算机技术模拟真实人类形象和行为的虚拟角色，其具备逼真的外形、流畅的肢体动作和自然的语言表达能力。数字人技术在短视频领域的应
deep seek m0_69576880 前端 ai
1.介绍:DeepSeek是一款由国内人工智能公司研发的大型语言模型，拥有强大的自然语言处理能力，能够理解并回答问题，还能辅助写代码、整理资料和解决复杂的数学问题。免费开源，媲美ChatGPT最近最火爆的AI对话程序。www.deepseek.com这是deepseek官网2.这是deepseek注册页面3.国产语言对话ai，大家有兴趣的可以去试试。不过chatgpt也进行了改变，大家也可以免费使
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他