kebijuelun

大模型基础知识汇总

本文总结大模型相关基础知识，用于大模型学习入门（持续更新中…）

文章目录

- NLP 基础知识
- - 传统 NLP 知识
  - - NLU 与 NLG 各种任务的差异
  - Transformer 相关知识
  - - Pre Norm与Post Norm的区别？
    - Bert 预训练过程
    - 手写 transformer 的 attention layer 并计算模型参数量
- 深度学习基础
- - - BN 和 LN 的区别
- 大模型基础知识
- - 训练框架
  - 开源大语言模型介绍
  - - Llama
    - ChatGLM and ChatGLM2
    - Bloom
  - Tokenizer
  - - tokenizer 计算方式，不同 tokenizer 的优缺点
    - BPE 介绍
  - position embedding
  - - 为什么要引入 position embedding
    - RoPE
    - Alibi
  - PEFT
  - - Pattern-Exploiting Training（PET）
    - P-tuning and P-tuningv2
    - LoRA
- 大语言模型推理
- - - 温度系数（Temperature）对大模型推理结果的影响
    - Huggingface generate 函数中的 top_p sampling、top_k sampling、greedy_search、beam_search 参数解释
- 大语言模型应用
- - - LangChain 介绍
- 推荐精读的博客/演讲
- 大语言模型前沿研究
- - - 大模型涌现分析
    - 大语言模型知识蒸馏

NLP 基础知识

传统 NLP 知识

NLU 与 NLG 各种任务的差异

NLU (Natural Language Understanding)：自然语言理解
NLG (Natural Language Generation)：自然语言生成
NLU 从语言中提取事实，而NLG则将NLU提取的见解用于创造自然语言

Transformer 相关知识

Pre Norm与Post Norm的区别？

参考：为什么Pre Norm的效果不如Post Norm？

定义：
- Pre Norm（Norm and add）： $x_{t+1} = x_{t} + F_{t}(Norm(x_{t}))$
- Post Norm（Add and Norm）： $x_{t+1} = Norm(x_{t} + F_{t}(x_{t})$
在同一训练设置下，同一设置之下，Pre Norm结构往往更容易训练，但最终效果通常不如Post Norm：
- Pre Norm更容易训练好理解，因为它的恒等路径更突出
- Pre Norm的深度有“水分”！也就是说，一个L层的Pre Norm模型，其实际等效层数不如L层的Post Norm模型，而层数少了导致效果变差了。Post Norm每Norm一次就削弱一次恒等分支的权重，所以Post Norm反而是更突出残差分支的，因此Post Norm中的层数更加“足秤”，一旦训练好之后效果更优。
Post Norm的结构迁移性能更加好，也就是说在Pretraining中，Pre Norm和Post Norm都能做到大致相同的结果，但是Post Norm的Finetune效果明显更好

Bert 预训练过程

Bert的预训练主要包含两个任务，MLM和NSP，Masked Language Model任务可以理解为完形填空，随机mask每一个句子中15%的词，用其上下文来做预测；Next Sentence Prediction任务选择一些句子对A与B，其中50%的数据B是A的下一条句子，剩余50%的数据B是语料库中随机选择的，学习其中的相关性。BERT 预训练阶段实际上是将上述两个任务结合起来，同时进行，然后将所有的 Loss 相加

手写 transformer 的 attention layer 并计算模型参数量

深度学习基础

BN 和 LN 的区别

BN 与 LN 定义：Batch Normalization 是对这批样本的同一维度特征做规范化处理， Layer Normalization 是对这单个样本的所有维度特征做规范化处理
- 区别：
  - LN中同层神经元输入拥有相同的均值和方差，不同的输入样本有不同的均值和方差；BN中则针对不同神经元输入计算均值和方差，同一个batch中的输入拥有相同的均值和方差
- 为什么 NLP 使用 LN 而不是 BN？
  - LN 不依赖于 batch 的大小和输入 sequence 的长度，因此可以用于 batchsize 为 1 和 RNN 中 sequence 的 normalize 操作
  - BN 不适用于 batch 中 sequence 长度不一样的情况，有的靠后面的特征的均值和方差不能估算；另外 BN 在 MLP 中的应用对每个特征在 batch 维度求均值方差，比如身高、体重等特征，但是在 NLP 中对应的是每一个单词，但是每个单词表达的特征是不一样的
  - 如果特征依赖于不同样本间的统计参数（比如 CV 领域），那么 BN 更有效(它抹杀了不同特征之间的大小关系，但是保留了不同样本间的大小关系)；NLP 领域 LN 更合适（抹杀了不同样本间的大小关系，但是保留了一个样本内不同特征之间的大小关系），因为对于 NLP 或序列任务来说，一条样本的不同特征其实就是时序上字符取值的变化，样本内的特征关系是非常紧密的
- 相同点：标准化技术目的是让每一层的分布稳定下来，让后面的层可以在前面层的基础上安心学习，加快模型收敛

大模型基础知识

训练框架

megatron-lm、deepspeed 介绍

开源大语言模型介绍

Llama

causal LM：严格遵守只有后面的token才能看到前面的token的规则
使用 RoPE 位置编码

ChatGLM and ChatGLM2

ChatGLM
- 使用 prefix LM：prefix部分的token互相能看到
- 使用 RoPE 位置编码
ChatGLM2
- 回归 decoder-only 结构，使用 Causal LM
- 使用 RoPE 位置编码

Bloom

BLOOM 使用 Alibi 位置编码

Tokenizer

tokenizer 计算方式，不同 tokenizer 的优缺点

BPE 介绍

position embedding

为什么要引入 position embedding

参考

对于任何一门语言，单词在句子中的位置以及排列顺序是非常重要的，它们不仅是一个句子的语法结构的组成部分，更是表达语义的重要概念。一个单词在句子的位置或排列顺序不同，可能整个句子的意思就发生了偏差。

I do not like the story of the movie, but I do like the cast.
I do like the story of the movie, but I do not like the cast.
上面两句话所使用的的单词完全一样，但是所表达的句意却截然相反。那么，引入词序信息有助于区别这两句话的意思。
Transformer模型抛弃了RNN、CNN作为序列学习的基本模型。我们知道，循环神经网络本身就是一种顺序结构，天生就包含了词在序列中的位置信息。当抛弃循环神经网络结构，完全采用Attention取而代之，这些词序信息就会丢失，模型就没有办法知道每个词在句子中的相对和绝对的位置信息。因此，有必要把词序信号加到词向量上帮助模型学习这些信息，位置编码（Positional Encoding）就是用来解决这种问题的方法。

RoPE

参考1，参考2，参考3

RoPE
- 二维情况下用复数表示的RoPE
  
  根据复数乘法的几何意义，该变换实际上对应着向量的旋转，所以我们称之为“旋转式位置编码”
- RoPE通过绝对位置编码的方式实现相对位置编码，综合了绝对位置编码和相对位置编码的优点
  - 绝对位置编码：最原始的正余弦位置编码（即sinusoidal位置编码）是一种绝对位置编码，但从其原理中的正余弦的和差化积公式来看，引入的其实也是相对位置编码。
    - 优势：实现简单，可预先计算好，不用参与训练，速度快
    - 劣势：没有外推性，即如果预训练最大长度为512的话，那么最多就只能处理长度为512的句子，再长就处理不了了。当然，也可以将超过512的位置向量随机初始化，然后继续微调
  - 相对位置编码：经典相对位置编码RPR式
    - 直接地体现了相对位置信号，效果更好。具有外推性，处理长文本能力更强
- 主要就是对attention中的q, k向量注入了绝对位置信息，然后用更新的q,k向量做attention中的内积就会引入相对位置信息了

Alibi

参考1，参考2

ALiBi (Attention with Linear Biases，22年ICLR)，是一种 position embedding 方法，允许Transformer 语言模型在推理时处理比其训练时更长的序列。
- ALiBi在不使用实际位置嵌入的情况下实现这一目标。相反，ALiBi计算某个键和查询之间的注意力时，会根据键和查询的距离来对查询可以分配给键的注意力值进行惩罚。因此，当键和查询靠近时，惩罚非常低，而当它们相距较远时，惩罚非常高。这个方法的动机很简单，即靠近的单词比远离的单词更重要。
- ALiBi方法的速度与正弦函数嵌入或绝对嵌入方法相当（这是最快的定位方法之一）。在评估超出模型训练序列长度的序列时，ALiBi优于这些方法和Rotary嵌入（这称为外推）方法（ALiBi的方式，训练快了11%，并且会减少11%的内存消耗）。
- position embedding并没有加在work embedding上，而是加在了Q*K^T上面

PEFT

Pattern-Exploiting Training（PET）

参考

它通过人工构建的模版与 BERT 的 MLM 模型结合，能够起到非常好的零样本、小样本乃至半监督学习效果，而且该思路比较优雅漂亮，因为它将预训练任务和下游任务统一起来了

P-tuning and P-tuningv2

P-tuning（GPT Understands, Too）（参考）
- P-tuning 重新审视了关于模版的定义，放弃了“模版由自然语言构成”这一常规要求，从而将模版的构建转化为连续参数优化问题，虽然简单，但却有效
- P-tuning直接使用[unused*]的token来构建模版，不关心模版的自然语言性
- 借助 P-tuning，GPT 在 SuperGLUE 上的成绩首次超过了同等级别的 BERT 模型，这颠覆了一直以来“GPT 不擅长 NLU”的结论
P-tuningv2

LoRA

参考1，参考2

低秩自适应 (Low-Rank Adaptation, LoRA)：冻结了预训练的模型权重，并将可训练的秩分解矩阵注入到 Transformer 架构的每一层，极大地减少了下游任务的可训练参数的数量，有效提升预训练模型在下游任务上的 finetune 效率
【背景】之前的 PEFT 方法是 adapter/prefix/promp/P-tuning，但是Adapter会引入很强的推理延迟（只能串行），prefix/prompt/P-tuning很难练，而且要占用context length，变相的降低模型能力
【详解】具体来说，就是考虑到语言模型（LLM 尤其如此）的参数的低秩属性（low intrinsic dimension），或者说过参数化，在做 finetune 的时候不做 full-finetune，而是用一个降维矩阵A和一个升维矩阵B去做finetune。如果我们认为原来的模型的某个参数矩阵为 $W_{0}$ ，那么可以认为原来经过全微调的参数矩阵为 $W_{0} + \Delta(W)$ ，但考虑到前面的低秩属性，在 lora 中我们可以简单认为 $\Delta(W)=BA$ (B 是降维矩阵，A是升维矩阵，其中 A 正常随机数初始化，B 全 0 初始化，从而保证训练初期的稳定性)，其中 BA 的秩相当于是你认为的模型实际的秩。这样的话在做推理的时候， $h=W_{0}x + BAx$ ，根本不会引入推理延迟，因为你只需要把训好的 lora 参数 $A B$ 加进模型初始权重 $W_{0}$ 中就可以了。在 Transformer 中 self-attention 和 mlp 模块都有对应的 params 矩阵，对应加上 lora 即可。
- llama 为了节省参数量一般只加在 q、v 上 (参考)，原论文实验是不会掉点
- bloom 一般加在 q、k、v 上

大语言模型推理

温度系数（Temperature）对大模型推理结果的影响

参考：What is Temperature in NLP / LLMs?

Huggingface generate 函数中的 top_p sampling、top_k sampling、greedy_search、beam_search 参数解释

参考：Huggingface 的 generate 方法介绍：top_p sampling、top_k sampling、greedy_search、beam_search

Greedy search 每次都选择概率最大的词作为单词序列中的下一个词
beam search（束搜索）：通过在每个时间步骤保留最有可能的 num_beams 个假设，最终选择具有最高概率的假设，从而降低错过隐藏的高概率词序列的风险
top-k sampling：在Top-K采样中，选择最有可能的 K 个下一个词，并将概率质量重新分配给这 K 个下一个词
Top-p (nucleus) sampling：与仅从最可能的 K 个单词中进行采样不同，Top-p 采样从概率累积超过概率 p 的可能性最小的单词集中进行选择

大语言模型应用

LangChain 介绍

参考：大语言模型集成工具 LangChain

LangChain 通过可组合性使用大型语言模型构建应用程序
【背景】大型语言模型 (LLM) 正在成为一种变革性技术，使开发人员能够构建他们以前无法构建的应用程序，但是单独使用这些 LLM 往往不足以创建一个真正强大的应用程序，当可以将它们与其他计算或知识来源相结合时，就有真的价值了。LangChain 旨在协助开发这些类型的应用程序
LangChain 主要功能：
- 实现统一接口，支持不同大语言模型的统一化调用
- 支持引入 google 搜索、python 解释器等外部工具
- 支持便捷 prompt 模板设置（并提供一些教科书 prompt 模板供参考）
- 支持智能体 (Agent) 等高阶应用

大语言模型前沿研究

大模型涌现分析

大模型涌现能力探讨：大型语言模型的涌现能力是幻象吗？
- 探索大语言模型表现出涌现能力的原因，初步结论是涌现能力主要是由研究人员选择一个非线性或不连续的评价指标导致的，另外探索了如何诱导涌现能力的出现，本文在视觉任务上通过对评价指标的修改复现了涌现现象。

大语言模型知识蒸馏

Fine-tune-CoT：旨在利用非常大的语言模型 (LMs) 的CoT推理能力来教导小模型如何解决复杂任务，蒸馏出来的小模型在某些数据集上精度甚至能超过 teacher 大模型

【LLaMA 3实战】3、LLaMA 3长文本处理终极指南：从128K上下文到百万级文档实战无心水 LLaMA 3 模型实战专栏 LLaMA LLaMA 3 长文本处理 Meta AI大模型 CSDN技术干货 LLaMA 3 前沿模型实战
引言：长文本处理的技术跃迁当LLaMA3将上下文窗口扩展至128Ktokens（约8万字），长文本处理技术迎来了革命性突破。这不仅意味着模型能处理更复杂的文档，更开启了"全局认知"的新可能——从法律合同的全条款审查到代码仓库的跨文件重构，从金融报告的时序分析到医疗病历的全周期追踪。本文将系统拆解LLaMA3长文本能力的技术内核，提供工程级优化方案与实战技巧，助你突破长文本处理的算力瓶颈与应用边界。
【LLaMA 3实战】2、LLaMA 3对话能力全解析：从架构革新到多智能体实战指南无心水 LLaMA 3 模型实战专栏 llama LLaMA 3对话能力全解析 LLaMA 3 AI大模型多智能体 CSDN技术干货 Meta
引言：LLaMA3对话能力的革命性突破当Meta发布LLaMA3时，其对话能力的跃升重新定义了开源大模型的边界。这款拥有128K上下文窗口的开源模型，不仅在MT-Bench评测中超越GPT-3.5，更通过分组查询注意力(GQA)等架构创新，实现了推理速度30%的提升。本文将从底层架构到应用实战，系统拆解LLaMA3对话能力的技术奥秘，包含核心机制解析、训练策略、工程优化及多智能体系统开发，助你全面
AI人工智能领域知识图谱在深度学习中的应用拓展
AI人工智能领域知识图谱在深度学习中的应用拓展关键词：知识图谱、深度学习、神经网络、图嵌入、知识表示学习、推理机制、应用场景摘要：本文深入探讨了知识图谱与深度学习的融合应用，系统性地分析了知识图谱在深度学习中的关键技术路径和应用场景。文章首先介绍了知识图谱的基本概念和表示方法，然后详细阐述了知识图谱与深度学习结合的多种技术路线，包括图神经网络、知识嵌入和推理机制等。接着通过具体案例展示了知识图谱增
[pytorch] pytorch_model.bin 和 training_args.bin 的区别心心喵 pytorch 深度学习 pytorch 神经网络
pytorch_model.bin和training_args.bin是与PyTorch框架和训练过程相关的两个文件。pytorch_model.bin:这是保存了PyTorch模型的二进制文件。在使用PyTorch进行深度学习训练时，经过训练的模型会被保存为这个文件，其中包含了模型的权重参数。这个文件可以被加载到PyTorch中，以便进行推理、评估或继续训练。training_args.bin:
【2025最新】AI大模型项目实战教程大揭秘！超详细攻略，手把手带你飞，记得收藏！大模型教程人工智能产品经理大模型大模型教程大数据大模型学习程序员
一、大模型开发整理流程1.1、什么是大模型开发我们将开发以大语言模型为功能核心、通过大语言模型的强大理解能力和生成能力、结合特殊的数据或业务逻辑来提供独特功能的应用称为大模型开发。开发大模型相关应用，其技术核心点虽然在大语言模型上，但一般通过调用API或开源模型来实现核心的理解与生成，通过PromptEnginnering来实现大语言模型的控制，因此，虽然大模型是深度学习领域的集大成之作，大模型开
自然语言处理(NLP)中的文本生成控制技术 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据自然语言处理 easyui 人工智能 ai
自然语言处理(NLP)中的文本生成控制技术关键词：文本生成、可控生成、语言模型、Prompt工程、解码策略、条件控制、评估指标摘要：本文深入探讨自然语言处理中文本生成控制技术的最新进展。我们将从基础概念出发，系统分析各种控制方法的原理和实现，包括Prompt设计、解码策略优化、条件控制机制等核心内容。文章将结合数学模型、算法实现和实际案例，全面展示如何实现高质量、可控的文本生成，并探讨该领域面临的
RAG系统的“聪明药”：如何用反馈回路让你的AI越用越聪明？许泽宇的技术分享人工智能
大家好，我是你们的AI技术侃侃而谈小能手。今天我们来聊聊RAG（Retrieval-AugmentedGeneration，检索增强生成）系统的进化之路——如何让它像喝了聪明药一样，越用越聪明，越聊越懂你。你是不是也有这样的体验？用ChatGPT、文档问答机器人，刚开始觉得还行，但用久了发现它总是“死脑筋”，问同样的问题，答得千篇一律，甚至一错再错。你想：“要是它能记住我的吐槽和建议，下次别再犯同
DiNA：扩张邻域注意力 Transformer AI专题精讲 Paper阅读 transformer 人工智能
摘要Transformer正迅速成为跨模态、跨领域和跨任务中应用最广泛的深度学习架构之一。在计算机视觉领域，除了持续发展的纯transformer架构，分层transformer也因其优越的性能和在现有框架中易于集成而受到广泛关注。这类模型通常采用局部化的注意力机制，如滑动窗口的NeighborhoodAttention（NA）或SwinTransformer的ShiftedWindowSelfA
解释神经网络的普适逼近定理（面试题200合集，中频、实用）快撑死的鱼算法工程师宝典（面试学习最新技术必备）深度学习人工智能
神经网络的普适逼近定理（UniversalApproximationTheorem,UAT）是理解为什么神经网络如此强大和灵活的理论基石之一。它为我们提供了信心，即在某些条件下，一个相对简单的神经网络结构原则上能够模拟出几乎任何复杂的函数。这个定理在深度学习领域中经常被提及，尤其是在讨论模型表达能力的时候。普适逼近定理（UniversalApproximationTheorem）概述普适逼近定理的
使用SQL-Ollama与自然语言交互SQL数据库的指南 antja_ 数据库 sql
#使用SQL-Ollama与自然语言交互SQL数据库的指南##技术背景介绍随着人工智能技术的发展，能够使用自然语言与SQL数据库交互的需求越来越大。这种技术可以帮助用户轻松访问和操作数据库，而无需深刻理解SQL语法。SQL-Ollama是一个专门设计的模板，利用Zephyr-7b模型，通过Ollama在本地运行推理，使这一过程变得简单而高效。##核心原理解析SQL-Ollama通过将自然语言转换为
【TVM 教程】PAPI 入门
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/性能应用程序编程接口（PerformanceApplicationProgrammingInterface，简称PAPI）是一个可在各种平台上提供性能计数器的库。在指定的运行期间，性能计数器提供处理器行为的准确底层信息，包含简单的指标，如总
文心大模型4.5及X1重磅上线，真实测评
2025年3月16日，人工智能领域迎来一场重要盛事——百度文心大模型4.5如期正式发布。与此同时，百度还惊喜推出了另一款全新模型——文心大模型X1。目前，文心大模型4.5和X1已在文心一言官网（https://yiyan.baidu.com/）正式上线，并免费向用户开放。其中，文心大模型4.5面向企业用户和开发者，用户可以通过登录百度智能云千帆大模型平台，轻松调用文心大模型4.5的API接口，快速
【LLaMA 3实战】6、LLaMA 3上下文学习指南：从少样本提示到企业级应用实战无心水 LLaMA 3 模型实战专栏 llama LLaMA 3实战 LLaMa 3上下文 AI入门程序员的AI开发第一课人工智能 AI
一、上下文学习（ICL）的技术本质与LLaMA3突破（一）ICL的核心原理与模型机制上下文学习（In-ContextLearning）的本质是通过提示词激活预训练模型的元学习能力，使模型无需微调即可适应新任务。LLaMA3的ICL架构通过以下机制实现突破：任务抽象：从示例中提取输入输出映射规则，如情感分析中的正负向判断模式模式泛化：将规则迁移到新输入，支持跨领域知识迁移动态适应：实时调整注意力分布
人工智能-基础篇-10-什么是卷积神经网络CNN（网格状数据处理：输入层，卷积层，激活函数，池化层，全连接层，输出层等） weisian151 人工智能人工智能 cnn 神经网络
卷积神经网络（ConvolutionalNeuralNetwork,CNN）是一种专为处理网格状数据（如图像、视频、音频）设计的深度学习模型。它通过模拟生物视觉机制，从原始数据中自动提取多层次的特征，最终实现高效的分类、检测或生成任务。1、核心概念与原理1、生物视觉启发局部感受野：模仿人类视觉皮层神经元仅响应局部区域刺激的特性，每个神经元关注输入数据的局部区域（如图像的一小块区域）。权值共享：同一
3 大语言模型预训练数据-3.2 数据处理-3.2.2 冗余去除——2.SimHash算法文本去重实战案例：新闻文章去重场景
SimHash算法文本去重实战案例：新闻文章去重场景一、案例背景与目标二、具体实现步骤与示例1.**待去重文本示例**2.**步骤1：文本预处理与特征提取**3.**步骤2：特征向量化与哈希映射**4.**步骤3：特征向量聚合**5.**步骤4：降维生成SimHash值**6.**步骤5：计算汉明距离与去重判断**三、工程化实现代码（Python简化示例）四、案例总结与优化点一、案例背景与目标假设
python系列教程246——多态人工智能AI技术 python系列教程 python 开发语言
朋友们，如需转载请标明出处：https://blog.csdn.net/jiangjunshow声明：在人工智能技术教学期间，不少学生向我提一些python相关的问题，所以为了让同学们掌握更多扩展知识更好地理解AI技术，我让助理负责分享这套python系列教程，希望能帮到大家！由于这套python教程不是由我所写（有时候有空也会参与编写），所以不如我的人工智能教程风趣幽默，学起来比较枯燥；但它的知
借助antd-design-x-vue实现接入通义千问大语言模型的对话功能（附源码）
说在前面现在大模型如此火热，想必你跟我也有同样的想法，实现一个自己的AI对话框，相比Dify等组件分享出来的对话框，自己实现起来可以更加灵活和适应需求。虽然Element,Antd都发布了各自的对话框组件，我说句实话，这个理解起来真没之前那种Button,Card这些组件来的简单，下面分享我的一个小Demo。功能拆解首先，官方帮我们实现了一个小的原型，附带了几乎所有的功能，地址如下：ant-des
多模态大语言模型arxiv论文略读（145）胖头鱼爱算法 #mllm_arxiv 语言模型人工智能自然语言处理论文笔记论文阅读
ReasoningLimitationsofMultimodalLargeLanguageModels.AcasestudyofBongardProblems➡️论文标题：ReasoningLimitationsofMultimodalLargeLanguageModels.AcasestudyofBongardProblems➡️论文作者：MikołajMałkiński,SzymonPawlo
多模态大语言模型arxiv论文略读（138）胖头鱼爱算法 #mllm_arxiv 语言模型人工智能自然语言处理论文笔记深度学习
UnderstandingtheRoleofLLMsinMultimodalEvaluationBenchmarks➡️论文标题：UnderstandingtheRoleofLLMsinMultimodalEvaluationBenchmarks➡️论文作者：BotianJiang,LeiLi,XiaonanLi,ZhaoweiLi,XiachongFeng,LingpengKong,QiLiu,
Python 解析 AI 在能源管理与智能电网中的应用头发在线失联 python 人工智能开发语言
```htmlPython解析AI在能源管理与智能电网中的应用Python解析AI在能源管理与智能电网中的应用随着全球对可持续发展的重视和能源需求的不断增长，能源管理与智能电网技术正在成为研究和实践的重要领域。在这个背景下，人工智能（AI）作为一项前沿技术，正被广泛应用于能源管理与智能电网中，以提高效率、优化资源分配并减少环境影响。本文将探讨Python如何在这一领域中发挥作用，并解析其具体应用场
微调大语言模型后，如何评估效果？一文讲清茫茫人海一粒沙人工智能
在做大语言模型（LLM）微调时，“怎么判断模型调得好不好”是必须回答的问题。无论是在研究、项目落地，还是面试中，评估方法都不能停留在“训练loss降了”这么简单。本文从评估目标、技术指标、业务适配、实战建议四个维度，讲清楚微调后的模型评估怎么做，为什么这么做。一，评估前，先搞清楚目标不同的微调目的，评估方式也不同：✅精调任务能力：判断模型是否更好完成分类、问答、摘要、代码生成等任务。✅领域适应：关
多模态大语言模型arxiv论文略读（140）
SemiHVision:EnhancingMedicalMultimodalModelswithaSemi-HumanAnnotatedDatasetandFine-TunedInstructionGeneration➡️论文标题：SemiHVision:EnhancingMedicalMultimodalModelswithaSemi-HumanAnnotatedDatasetandFine-T
如何实现聊天模型响应流式处理 yunwu12777 langchain
在现代人工智能应用中，流式处理聊天模型的响应成为一种常见需求，特别是在需要实时输出或大规模处理时。本文将详细介绍如何在Python中实现聊天模型的同步和异步流式处理，使用langchain库中提供的ChatAnthropic模型作为示例。技术背景介绍流式处理是指从模型逐步获取输出，而不是等待整个输出完成。这对于处理长文本生成或需要动态响应的应用场景特别有用。langchain库中的聊天模型实现了R
本地运行大型语言模型(LLM)的实践指南 yunwu12777 语言模型人工智能自然语言处理
技术背景介绍近年来，项目如llama.cpp、Ollama、GPT4All等的流行标志着在本地设备上运行大型语言模型（LLM）的需求日益增长。选择在本地运行LLM，至少有两个重要的好处：隐私和成本。隐私上，数据不需要发送到第三方，避免了商业服务条款的限制；成本方面，无需支付推理费用，尤其是对于那些需要大量计算的应用，如长时间的模拟和总结。核心原理解析在本地运行LLM，需要准备以下几个条件：开源LL
CPO-CNN-GRU-Attention、CNN-GRU-Attention、CPO-CNN-GRU、CNN-GRU四模型多变量时序预测对比 Matlab科研辅导帮 cnn gru 人工智能
✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。个人主页：Matlab科研工作室个人信条：格物致知，求助可私信。内容介绍多变量时序预测在诸多领域扮演着至关重要的角色，例如金融、气象和工业控制等。近年来，深度学习方法在时序预测任务中取得了显著的进展。本文旨在系统地比较四种基于卷积神经网络（CNN）和循环神经网络（GRU）的不同架构，包
构建私有视觉搜索应用：多模态大模型的应用实例 2301_80727036 自然语言处理
在当今的科技时代，视觉搜索功能已经不再是新鲜事物，许多智能手机用户都可以通过自然语言搜索照片。随着开源多模态大型语言模型（Multi-modalLLMs）的兴起，我们现在可以为自己构建这种视觉搜索应用，用于管理自己的私人照片收藏。本教程将向您展示如何通过代码示例，使用开源多模态LLM构建私有视觉搜索和问答系统。技术背景介绍多模态大模型结合了文本和图像处理能力，使得我们可以开发更智能的应用程序。通过
AI人工智能助力空间智能领域提升运营效率 AI智能探索者 AI Agent 智能体开发实战人工智能网络 ai
AI人工智能助力空间智能领域提升运营效率关键词：AI人工智能、空间智能领域、运营效率、智能算法、数据驱动摘要：本文聚焦于AI人工智能在空间智能领域的应用，旨在探讨其如何助力该领域提升运营效率。首先介绍了空间智能领域的背景和相关概念，阐述了AI在其中的核心作用和原理。接着详细讲解了相关核心算法，并结合数学模型进行分析。通过项目实战案例展示了AI在空间智能领域的具体应用和实现方式。同时探讨了实际应用场
人工智能的发展历程与未来展望唐骁虎 ai
人工智能的发展历程与未来展望一、人工智能的起源与早期发展1.1人工智能的定义与概念起源人工智能（AI）的定义与概念起源可追溯至20世纪中叶，当时一群具有远见的科学家和工程师开始探索机器是否能够模拟人类智能行为。1956年，在达特茅斯会议上，约翰·麦卡锡首次提出了“人工智能”这一术语，标志着该领域的正式诞生。AI的定义涉及创建能够执行需要人类智能的任务的机器，如视觉感知、语音识别、决策和语言翻译等。
DeepSeek：AI驱动的效率革命与实战案例解 weixin_45788582 人工智能 ai DeepSeek
在人工智能技术的浪潮中，DeepSeek作为一款专注实现AGI（通用人工智能）的先锋工具，正通过其强大的自然语言处理（NLP）与分布式计算能力，重新定义高效办公的边界。以下通过技术解析与实战案例，展现DeepSeek如何赋能个人与企业，开启职场效率革命。一、技术革新：DeepSeek的核心竞争力深度学习赋能DeepSeek的技术架构基于BERT、Transformer等先进深度学习模型，通过构建复
如何让人工智能使你的工作效率一日千里南风过闲庭人工智能 ai python
1.自动化重复性任务1.1识别并自动化日常任务提高工作效率的首要步骤是识别日常工作中重复性高且耗时的任务。根据麦肯锡全球研究院的报告，知识工作者大约有40%的时间花费在此类任务上。通过自动化这些任务，员工可以将更多时间投入到需要创造性思维和复杂决策的工作上。数据支持：一项针对500名知识工作者的调查显示，通过自动化日常任务，平均每天可以节省2小时的工作时间。这些任务包括数据录入、文件整理、邮件分类
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio

大模型基础知识汇总

文章目录

NLP 基础知识

传统 NLP 知识

NLU 与 NLG 各种任务的差异

Transformer 相关知识

Pre Norm与Post Norm的区别？

Bert 预训练过程

手写 transformer 的 attention layer 并计算模型参数量

深度学习基础

BN 和 LN 的区别

大模型基础知识

训练框架

开源大语言模型介绍

Llama

ChatGLM and ChatGLM2

Bloom

Tokenizer

tokenizer 计算方式，不同 tokenizer 的优缺点

BPE 介绍

position embedding

为什么要引入 position embedding

RoPE

Alibi

PEFT

Pattern-Exploiting Training（PET）

P-tuning and P-tuningv2

LoRA

大语言模型推理

温度系数（Temperature）对大模型推理结果的影响

Huggingface generate 函数中的 top_p sampling、top_k sampling、greedy_search、beam_search 参数解释

大语言模型应用

LangChain 介绍

推荐精读的博客/演讲

大语言模型前沿研究

大模型涌现分析

大语言模型知识蒸馏

你可能感兴趣的:(paper_reading,人工智能,llama,深度学习,语言模型,gpt)