脚步的影子

预训练语言模型的前世今生 - 从Word Embedding到BERT

一、预训练
- 1.1 图像领域的预训练
- 1.2 预训练的思想
二、语言模型
- 2.1 统计语言模型
- 2.2 神经网络语言模型
三、词向量
- 3.1 独热（Onehot）编码
- 3.2 Word Embedding
四、Word2Vec 模型
五、自然语言处理的预训练模型
六、RNN 和 LSTM
- 6.1 RNN
- 6.2 RNN 的梯度消失问题
- 6.3 LSTM
- 6.4 LSTM 解决 RNN 的梯度消失问题
七、ELMo 模型
- 7.1 ELMo 的预训练
- 7.2 ELMo 的 Feature-based Pre-Training
八、Attention
- 8.1 人类的视觉注意力
- 8.2 Attention 的本质思想
- 8.3 Self Attention 模型
- 8.4 Self Attention 和 RNN、LSTM 的区别
- 8.5 Masked Self Attention 模型
- 8.6 Multi-head Self Attention 模型
九、Position Embedding
十、Transformer
- 10.1 Transformer 的结构
- 10.2 Encoder
- 10.3 Decoder
- 10.4 Transformer 输出结果
十一、Transformer 动态流程展示
- 11.1 为什么 Decoder 需要做 Mask
- 11.2 为什么 Encoder 给予 Decoders 的是 K、V 矩阵
十二、GPT 模型
- 12.1 GPT 模型的预训练
- 12.2 GPT 模型的 Fine-tuning
十三、BERT 模型
- 13.1 BERT：公认的里程碑
- 13.2 BERT 的结构：强大的特征提取能力
- 13.3 BERT 之无监督训练
- 13.4 BERT之语言掩码模型（MLM）
- 13.5 BERT 之下句预测（NSP）
- 13.6 BERT 之输入表示
十四、BERT 下游任务改造
- 14.1 句对分类
- 14.2 单句分类
- 14.3 文本问答
- 14.4 单句标注
- 14.5 BERT效果展示
十五、预训练语言模型总结
十六、参考资料

Bert 最近很火，应该是最近最火爆的 AI 进展，网上的评价很高，从模型创新角度看一般，创新不算大。但是架不住效果太好了，基本刷新了很多 NLP 的任务的最好性能，有些任务还被刷爆了，这个才是关键。另外一点是 Bert 具备广泛的通用性，就是说绝大部分 NLP 任务都可以采用类似的两阶段模式直接去提升效果，这个第二关键。客观的说，把 Bert 当做最近两年 NLP 重大进展的集大成者更符合事实。

本文的主题是预训练语言模型的前世今生，会大致说下 NLP 中的预训练技术是一步一步如何发展到 Bert 模型的，从中可以很自然地看到 Bert 的思路是如何逐渐形成的，Bert 的历史沿革是什么，继承了什么，创新了什么，为什么效果那么好，主要原因是什么，以及为何说模型创新不算太大，为何说 Bert 是近年来 NLP 重大进展的集大成者。

预训练语言模型的发展并不是一蹴而就的，而是伴随着诸如词嵌入、序列到序列模型及 Attention 的发展而产生的。

DeepMind 的计算机科学家 Sebastian Ruder 给出了 21 世纪以来，从神经网络技术的角度分析，自然语言处理的里程碑式进展，如下表所示：

年份	2013 年	2014 年	2015 年	2016 年	2017 年
技术	word2vec	GloVe	LSTM/Attention	Self-Attention	Transformer

年份	2018 年	2019 年	2020 年
技术	GPT/ELMo/BERT/GNN	XLNet/BoBERTa/GPT-2/ERNIE/T5	GPT-3/ELECTRA/ALBERT

本篇文章将会通过上表显示的 NLP 中技术的发展史一一叙述，由于 19 年后的技术大都是 BERT 的变体，在这里不会多加叙述，读者可以自行加以了解。

一、预训练

1.1 图像领域的预训练

在介绍图像领域的预训练之前，我们首先介绍下卷积神经网络（CNN），CNN 一般用于图片分类任务，并且CNN 由多个层级结构组成，不同层学到的图像特征也不同，越浅的层学到的特征越通用（横竖撇捺），越深的层学到的特征和具体任务的关联性越强（人脸-人脸轮廓、汽车-汽车轮廓），如下图所示：

由此，当领导给我们一个任务：阿猫、阿狗、阿虎的图片各十张，然后让我们设计一个深度神经网络，通过该网络把它们三者的图片进行分类。

对于上述任务，如果我们亲手设计一个深度神经网络基本是不可能的，因为深度学习一个弱项就是在训练阶段对于数据量的需求特别大，而领导只给我们合计三十张图片，显然这是不够的。

虽然领导给我们的数据量很少，但是我们是否可以利用网上现有的大量已做好分类标注的图片。比如 ImageNet 中有 1400 万张图片，并且这些图片都已经做好了分类标注。

上述利用网络上现有图片的思想就是预训练的思想，具体做法就是：

通过 ImageNet 数据集我们训练出一个模型 A
由于上面提到 CNN 的浅层学到的特征通用性特别强，我们可以对模型 A 做出一部分改进得到模型 B（两种方法）：
1. 冻结：浅层参数使用模型 A 的参数，高层参数随机初始化，浅层参数一直不变，然后利用领导给出的 30 张图片训练参数
2. 微调：浅层参数使用模型 A 的参数，高层参数随机初始化，然后利用领导给出的 30 张图片训练参数，但是在这里浅层参数会随着任务的训练不断发生变化

通过上述的讲解，对图像预训练做个总结（可参照上图）：对于一个具有少量数据的任务 A，首先通过一个现有的大量数据搭建一个 CNN 模型 A，由于 CNN的浅层学到的特征通用性特别强，因此在搭建一个 CNN 模型 B，其中模型 B 的浅层参数使用模型 A 的浅层参数，模型 B 的高层参数随机初始化，然后通过冻结或微调的方式利用任务 A 的数据训练模型 B，模型 B 就是对应任务 A 的模型。

1.2 预训练的思想

有了图像领域预训练的引入，我们在此给出预训练的思想：任务 A 对应的模型 A 的参数不再是随机初始化的，而是通过任务 B 进行预先训练得到模型 B，然后利用模型 B 的参数对模型 A 进行初始化，再通过任务 A 的数据对模型 A 进行训练。注：模型 B 的参数是随机初始化的。

二、语言模型

想了解预训练语言模型，首先得了解什么是语言模型。

语言模型通俗点讲就是计算一个句子的概率。也就是说，对于语言序列 w1,w2,⋯,wn�1,�2,⋯,��，语言模型就是计算该序列的概率，即 P(w1,w2,⋯,wn)�(�1,�2,⋯,��)。

下面通过两个实例具体了解上述所描述的意思：

假设给定两句话 “判断这个词的磁性” 和 “判断这个词的词性”，语言模型会认为后者更自然。转化成数学语言也就是：P(判断，这个，词，的，词性)>P(判断，这个，词，的，磁性)�(判断，这个，词，的，词性)>�(判断，这个，词，的，磁性)
假设给定一句话做填空 “判断这个词的____”，则问题就变成了给定前面的词，找出后面的一个词是什么，转化成数学语言就是：P(词性|判断，这个，词，的)>P(磁性|判断，这个，词，的)�(词性|判断，这个，词，的)>�(磁性|判断，这个，词，的)

通过上述两个实例，可以给出语言模型更加具体的描述：给定一句由 n� 个词组成的句子 W=w1,w2,⋯,wn�=�1,�2,⋯,��，计算这个句子的概率 P(w1,w2,⋯,wn)�(�1,�2,⋯,��)，或者计算根据上文计算下一个词的概率 P(wn|w1,w2,⋯,wn−1)�(��|�1,�2,⋯,��−1)。

下面将介绍语言模型的两个分支，统计语言模型和神经网络语言模型。

2.1 统计语言模型

统计语言模型的基本思想就是计算条件概率。

给定一句由 n� 个词组成的句子 W=w1,w2,⋯,wn�=�1,�2,⋯,��，计算这个句子的概率 P(w1,w2,⋯,wn)�(�1,�2,⋯,��) 的公式如下（条件概率乘法公式的推广，链式法则）：

P(w1,w2,⋯,wn)=P(w1)P(w2|w1)P(w3|w1,w2)⋯p(wn|w1,w2,⋯,wn−1)=∏iP(wi|w1,w2,⋯,wi−1)�(�1,�2,⋯,��)=�(�1)�(�2|�1)�(�3|�1,�2)⋯�(��|�1,�2,⋯,��−1)=∏��(��|�1,�2,⋯,��−1)

对于上一节提到的 “判断这个词的词性” 这句话，利用上述的公式，可以得到：

对于上一节提到的另外一个问题，当给定前面词的序列 “判断，这个，词，的” 时，想要知道下一个词是什么，可以直接计算如下概率：

P(wnext|判断，这个，词，的)公式(1)�(��|判断，这个，词，的)公式(1)

其中，wnext∈V��∈� 表示词序列的下一个词，V� 是一个具有 |V||�| 个词的词典（词集合）。

对于公式（1），可以展开成如下形式：

P(wnext|判断，这个，词，的)=count(wnext，判断，这个，词，的)count(判断，这个，词，的)公式(2)�(��|判断，这个，词，的)=��(��，判断，这个，词，的)��(判断，这个，词，的)公式(2)

对于公式（2），可以把字典 V� 中的多有单词，逐一作为 wnext��，带入计算，最后取最大概率的词作为 wnext�� 的候选词。

如果 |V||�| 特别大，公式（2）的计算将会非常困难，但是我们可以引入马尔科夫链的概念（当然，在这里只是简单讲讲如何做，关于马尔科夫链的数学理论知识可以自行查看其他参考资料）。

假设字典 V� 中有 “火星” 一词，可以明显发现 “火星” 不可能出现在 “判断这个词的” 后面，因此（火星，判断，这个，词，的）这个组合是不存在的，并且词典中会存在很多类似于 “火星” 这样的词。

进一步，可以发现我们把（火星，判断，这个，词，的）这个组合判断为不存在，是因为 “火星” 不可能出现在 “词的” 后面，也就是说我们可以考虑是否把公式（1）转化为

P(wnext|判断，这个，词，的)≈P(wnext|词，的)公式(3)�(��|判断，这个，词，的)≈�(��|词，的)公式(3)

公式（3）就是马尔科夫链的思想：假设 wnext�� 只和它之前的 k� 个词有相关性，k=1�=1 时称作一个单元语言模型，k=2�=2 时称为二元语言模型。

可以发现通过马尔科夫链后改写的公式计算起来将会简单很多，下面我们举个简单的例子介绍下如何计算一个二元语言模型的概率。

其中二元语言模型的公式为：

P(wi|wi−1)=count(wi−1,wi)count(wi−1)公式(4)�(��|��−1)=��(��−1,��)��(��−1)公式(4)

假设有一个文本集合：

basic

“词性是动词”
“判断单词的词性”
“磁性很强的磁铁”
“北京的词性是名词”

对于上述文本，如果要计算 P(词性|的)�(词性|的) 的概率，通过公式（4），需要统计 “的，词性” 同时按序出现的次数，再除以 “的” 出现的次数：

P(词性|的)=count(的，词性)count(的)=23公式(5)�(词性|的)=��(的，词性)��(的)=23公式(5)

上述文本集合是我们自定制的，然而对于绝大多数具有现实意义的文本，会出现数据稀疏的情况，例如训练时未出现，测试时出现了的未登录单词。

由于数据稀疏问题，则会出现概率值为 0 的情况（填空题将无法从词典中选择一个词填入），为了避免 0 值的出现，会使用一种平滑的策略——分子和分母都加入一个非 0 正数，例如可以把公式（4）改为：

P(wi|wi−1)=count(wi−1,wi)+1count(wi−1)+|V|公式(6)

excel计算时间差-显示每堂课时间-CSDN博客  https://blog.csdn.net/qq_41517071/article/details/141255523?spm=1000.2115.3001.6382&utm_medium=distribute.pc_feed_v2.none-task-blog-personrec_tag-4-141255523-null-null.329^v9^%E4%B8%AA%E6%8E%A8pc%E9%A6%96%E9%A1%B5%E6%8E%A8%E8%8D%90%E2%80%94%E6%A1%B67&depth_1-utm_source=distribute.pc_feed_v2.none-task-blog-personrec_tag-4-141255523-null-null.329^v9^%E4%B8%AA%E6%8E%A8pc%E9%A6%96%E9%A1%B5%E6%8E%A8%E8%8D%90%E2%80%94%E6%A1%B67

什么是LLM？看这一篇就够了！ Python程序员罗宾人工智能语言模型 AIGC 自然语言处理
前言自从2022年12月ChatGPT横空面世以来，AI领域获得了十足的关注和资本，其实AI的概念在早些年也火过一波，本轮AI热潮相比于之前的AI，最大的区别在于：生成式。本文主要介绍大语言模型（LargeLanguageModel，简称LLM）。大语言模型介绍什么是大语言模型（LLM）通过海量文本训练的、能识别人类语言、执行语言类任务、拥有大量参数的模型，称之为大语言模型。GPT、LLaMA、M
【llm对话系统】大模型 Llama 源码分析之并行训练方案 kakaZhui llama 人工智能 AIGC chatgpt
1.引言训练大型语言模型(LLM)需要巨大的计算资源和内存。为了高效地训练这些模型，我们需要采用各种并行策略，将计算和数据分布到多个GPU或设备上。Llama作为当前最流行的开源大模型之一，其训练代码中采用了多种并行技术。本文将深入Llama的训练代码，分析其并行训练方案，主要关注参数并行和部分结构参数共享。2.并行训练策略概述常见的并行训练策略包括：数据并行(DataParallelism,DP
【llm对话系统】大模型 Llama 源码分析之 Flash Attention kakaZhui llama 人工智能 AIGC chatgpt
1.写在前面近年来，基于Transformer架构的大型语言模型(LLM)在自然语言处理(NLP)领域取得了巨大的成功。Transformer的核心组件是自注意力(Self-Attention)机制，它允许模型捕捉输入序列中不同位置之间的关系。然而，标准的自注意力机制的计算复杂度与序列长度的平方成正比，这使得它在处理长序列时效率低下。为了解决这个问题，FlashAttention被提出，它是一种高
使用Qdrant进行矢量相似性搜索的实践 hgSdaegva python windows linux
在今天的文章中，我将带你深入了解Qdrant，这是一个生产就绪的矢量相似性搜索引擎，并提供一个便利的API来存储、搜索和管理点。这篇文章重点展示如何使用Qdrant进行自我查询检索，并结合OpenAIEmbeddings进行矢量化处理。技术背景介绍Qdrant是一个专注于矢量相似性搜索的引擎，适用于需要快速检索和过滤的场景。它允许我们通过API轻松地存储和管理矢量数据点，并根据矢量相似性进行高效检
使用Elasticsearch和SelfQueryRetriever实现智能电影检索 hgSdaegva elasticsearch jenkins 大数据 python
在当今信息爆炸的时代，快速而准确地检索数据变得尤为重要。Elasticsearch是一个强大的分布式搜索和分析引擎，能够高效地处理大量数据。在这篇文章中，我们将结合Elasticsearch和SelfQueryRetriever，展示如何通过语言模型实现智能电影查询。技术背景介绍Elasticsearch提供多租户能力和无模式的JSON文档存储，广泛应用于全文搜索和分析场景。通过将其与语言模型结合
使用 ChatPremAI 和 LangChain 构建高级聊天模型功能 hgSdaegva python
##使用ChatPremAI和LangChain构建高级聊天模型功能###技术背景介绍随着生成式AI的快速发展，诸如ChatGPT等大型语言模型逐渐成为开发智能应用的核心组件。然而，如何高效利用这些模型，并将其部署到生产环境中，仍然是开发者面临的一大挑战。ChatPremAI是一款整合所有核心功能的生成式AI平台，通过与LangChain的完美结合，为开发者提供了灵活且功能强大的接口以实现复杂功能
不同模型对 Emoji 和普通文本的处理表现，Emoji的向量嵌入（含测试代码） 2301_79306982 机器学习人工智能 bert transformer
数据处理目标保留emoji和文本的原始形态。分词时不拆分emoji符号，让emoji成为一个完整的Token。确保分词结果与模型兼容，既能表达语义，也能保留emoji的特性。验证代码fromtransformersimportAutoTokenizer#测试的模型列表models=["bert-base-uncased",#BERT"vinai/bertweet-base",#BERTweet"r
llama.cpp LLM_CHAT_TEMPLATE_DEEPSEEK_3 Yongqiang Cheng ggml -llama.cpp -whisper.cpp llama.cpp DEEPSEEK_3
llama.cppLLM_CHAT_TEMPLATE_DEEPSEEK_31.`LLAMA_VOCAB_PRE_TYPE_DEEPSEEK3_LLM`2.`staticconststd::mapLLM_CHAT_TEMPLATES`3.`LLM_CHAT_TEMPLATE_DEEPSEEK_3`References不宜吹捧中国大语言模型的同时，又去贬低美国大语言模型。水是人体的主要化学成分，约占体
【自然语言处理（NLP）】基于Transformer架构的预训练语言模型：BERT 训练之数据集处理、训练代码实现道友老李自然语言处理(NLP)自然语言处理 transformer
文章目录介绍BERT训练之数据集处理BERT原理及模型代码实现数据集处理导包加载数据生成下一句预测任务的数据从段落中获取nsp数据生成遮蔽语言模型任务的数据从token中获取mlm数据将文本转换为预训练数据集创建Dataset加载WikiText-2数据集BERT训练代码实现导包加载数据构建BERT模型模型损失训练获取BERT编码器个人主页：道友老李欢迎加入社区：道友老李的学习社区介绍**自然语言
向量语义（Vector Semantics）与表征学习（Representation Learning）详解苏西月学习人工智能
1.向量语义（VectorSemantics）与词嵌入（WordEmbeddings）向量语义的核心思想是用数学向量来表示单词的意义。传统的NLP方法（如基于规则的语言模型）需要人为定义单词的语义规则，而向量语义方法则通过分析单词在大量文本中的使用模式来学习其语义。关键词：词向量（WordRepresentations）：单词被表示为一个多维向量，每个维度对应于该单词的某种语义特征。分布式表示（D
【llm对话系统】大模型 Llama、Qwen 和 ChatGLM 的网络结构和训练方法对比 kakaZhui llama 人工智能 AIGC chatgpt python
1.引言近年来，大型语言模型(LLM)取得了令人瞩目的进展，其中Llama、Qwen和ChatGLM是三个备受关注的开源模型。它们都在Transformer架构的基础上进行了改进和优化，并在各种NLP任务上取得了优异的性能。本文将深入分析Llama、Qwen和ChatGLM的网络结构和训练方法，比较它们的异同以及各自的优势。2.模型结构对比特性LlamaQwenChatGLM基础架构Decoder
LLM的实时性：迈向毫秒级响应的AI AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
LargeLanguageModel(LLM),实时性,响应时间,微服务架构,并行处理,知识图谱,优化算法,延迟最小化1.背景介绍大型语言模型(LLM)在自然语言处理领域取得了令人瞩目的成就，展现出强大的文本生成、翻译、摘要和问答能力。然而，现有的LLM模型通常面临着响应时间较慢的问题，这限制了其在实时应用场景中的应用。例如，在聊天机器人、实时翻译和智能客服等领域，用户期望能够获得即时响应，而传统
Aligner：自动修正AI的生成结果，北大推出残差修正模型对齐技术蚝油菜花每日 AI 项目与应用实例人工智能人工智能开源
❤️如果你也关注AI的发展现状，且对AI应用开发非常感兴趣，我会每日分享大模型与AI领域的最新开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术，欢迎关注我哦！微信公众号｜搜一搜：蚝油菜花快速阅读技术背景：Aligner是北京大学团队提出的大语言模型对齐技术，通过学习对齐答案与未对齐答案之间的修正残差来提升模型性能。核心优势：作为即插即用的模块，可以直接应用于各种开源和基于API的模型
大语言模型丨ChatGPT-4o深度科研应用、论文与项目撰写、数据分析、机器学习、深度学习及AI绘图（BP神经网络、支持向量机、决策树、随机森林、变量降维与特征选择、群优化算法等）赵钰老师 ChatGPT python 人工智能语言模型深度学习数据分析 chatgpt 机器学习随机森林
目录第一章、2024大语言模型最新进展与ChatGPT各模型第二章、ChatGPT-4o提示词使用方法与高级技巧（最新加入思维链及逆向工程及GPTs）第三章、ChatGPT4-4o助力日常生活、学习与工作第四章、基于ChatGPT-4o课题申报、论文选题及实验方案设计第五章、基于ChatGPT-4o信息检索、总结分析、论文写作与投稿、专利idea构思与交底书的撰写第六章、ChatGPT-4o编程入
微服务02：如何解决或者说降低架构复杂度？爆炸糖_Alex 微服务架构微服务云原生
1.什么是CAPCAP定理，也被称为Brewer定理，是分布式计算中的一个重要概念。它由计算机科学家EricBrewer于2000年提出，并由SethGilbert和NancyLynch于2002年正式证明。CAP定理强调了分布式系统中三个关键属性之间的固有权衡，这三个属性分别是：一致性（Consistency）可用性（Availability）分区容忍性（PartitionTolerance）以
开源LLMs导览：工作原理、顶级LLM列表对比万俟淋曦 Some Insights 人工智能 AI 生成式人工智能大模型 LLM chatgpt 大语言模型
机器人、人工智能相关领域news/events（专栏目录）本文目录一、开源LLM是什么意思？二、开源LLM如何工作？2.1预训练2.2代币化2.3开源LLM的微调2.4输入编码2.5训练与优化2.6推理三、开源LLM对组织的好处3.1增强的数据安全和隐私3.2节约成本3.3减少供应商依赖性3.4代码透明度四、哪种LLM模式最好？4.1BERT4.2LLaMA(LargeLanguageModelM
揭秘大语言模型：什么是LLM大模型？ AGI-杠哥程序人生兼职副业 web安全语言模型人工智能自然语言处理
前言自从去年chatgpt横空出世以来，它火爆也让大语言模型这个词变的很流行，到底什么是大语言模型，今天从初学者的角度介绍一下大语言模型的基本概念、组成部分和基本工作流程等。下面的介绍中如果涉及到一些专业术语不太理解，也没关系，只要有一个感性认识即可，毕竟我们不打算造车，只要做到自己部署开源大模型的时候，不至于脸盲就可以了。一、大语言模型特点和基本组成大语言模型（LargeLanguageMode
Encoder-only decoder-only encoder-decoder大模型的区别阿牛牛阿 ai opencv 人工智能 AIGC chatgpt
1.Encoder-Only架构-定义：仅包含编码器部分，主要用于处理输入数据而不生成输出。-适用任务：文本分类、情感分析、命名实体识别等。-优点：能够更好地理解输入文本的语义和上下文信息，适合需要特征提取的任务。-缺点：无法直接生成文本输出。-代表模型：BERT、RoBERTa、ALBERT等。2.Decoder-Only架构-定义：仅包含解码器部分，通常用于序列生成任务。-适用任务：文本生成、
【AI知识点】三种不同架构的大语言模型（LLMs）的区别 AI完全体 AI知识点人工智能语言模型自然语言处理机器学习深度学习注意力机制自注意力机制
【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】在自然语言处理（NLP）中，预训练语言模型（LLMs,LargeLanguageModels）通常基于不同的架构，如仅编码器的模型（Encoder-only）、编码器-解码器的模型（Encoder-Decoder），以及仅解码器的模型（Decoder-only）。这三种架构有着显著的区别，主要体现在功能、适用任务和性能上。下面从架构、功能
大模型开发流程及架构寒夜灬星辰人工智能语言模型
一、主要内容●以大语言模型为功能核心●利用大语言模型的强大理解能力和生成能力●结合特殊的数据或业务逻辑来提供独特功能的应用二、明确目标●大模型作为一个调用工具，不需要知道太多的原理，不需要优化模型能力●需要掌握PromptEngineering、数据处理方法、业务逻辑分解等手段来充分发挥大模型能力，适配应用任务三、大模型开发与传统开发的区别（一）传统开发将非常复杂的业务拆解成小任务，每个任务构造训
大模型开发流程及项目实战辣椒种子机器学习人工智能
一、大模型开发整理流程1.1、什么是大模型开发我们将开发以大语言模型为功能核心、通过大语言模型的强大理解能力和生成能力、结合特殊的数据或业务逻辑来提供独特功能的应用称为大模型开发。开发大模型相关应用，其技术核心点虽然在大语言模型上，但一般通过调用API或开源模型来实现核心的理解与生成，通过PromptEnginnering来实现大语言模型的控制，因此，虽然大模型是深度学习领域的集大成之作，大模型开
Meta首席科学家Yann LeCun预言：5年内AI架构将颠覆，当前大模型的4大核心缺陷机器小乙人工智能
✨引言：一场颠覆AI行业的预言在2025冬季达沃斯“技术辩论”现场，Meta首席AI科学家、图灵奖得主杨立昆（YannLeCun）抛出一个震撼观点：“当前的大语言模型（LLM）范式将在3-5年内被淘汰。”这位深度学习先驱的论断，不仅直指ChatGPT等明星产品的技术天花板，更揭示了下一代AI进化的核心路径——构建理解物理世界的“世界模型”（WorldModel）。作为Meta人工智能实验室负责人，
【AI人工智能】DeepSeek R1：你需要知道的一切大名顶顶人工智能人工智能 AI DeepSeek 程序员计算机编程开源
我们将在本博客中介绍的关于DeepSeekR1的所有你需要知道的一切内容，请坚持认真读完，必有收获：DeepSeekR1简要概述主要特点与能力开源与可访问性模型架构强化学习训练变体与精简模型使用案例与应用从专有模型迁移到开源模型1.DeepSeekR1简要概述大语言模型（LLM）研究领域正在迅速发展，每一个新模型都在推动机器能力的边界。DeepSeekR1是由DeepSeek于2025年1月20日
深入探索Llama.cpp：在LangChain中使用llama-cpp-python dfvcbipanjr python llama langchain
深入探索Llama.cpp：在LangChain中使用llama-cpp-python随着大语言模型（LLMs）的普及，开发者需要更有效的方法来部署和使用这些模型。本文将介绍如何使用Llama.cpp的Python绑定——llama-cpp-python，并展示如何在LangChain中实现此功能。1.引言llama-cpp-python是Llama.cpp的Python绑定，使开发者能够在本地运
DeepSeek R1 简易指南：架构、培训、本地部署和硬件要求前端javascript
CSS技巧与案例详解vue2与vue3技巧合集VueUse源码解读DeepSeek团队近期发布的DeepSeek-R1技术论文展示了其在增强大语言模型推理能力方面的创新实践。该研究突破性地采用强化学习（ReinforcementLearning）作为核心训练范式，在不依赖大规模监督微调的前提下显著提升了模型的复杂问题求解能力。技术架构深度解析模型体系：DeepSeek-R1系列包含两大核心成员：D
使用Ollama本地化部署DeepSeek 大模型llm人工智能
1、Ollama简介Ollama是一个开源的本地化大模型部署工具，旨在简化大型语言模型（LLM）的安装、运行和管理。它支持多种模型架构，并提供与OpenAI兼容的API接口，适合开发者和企业快速搭建私有化AI服务。Ollama的主要特点包括：轻量化部署：支持在本地设备上运行模型，无需依赖云端服务。多模型支持：兼容多种开源模型，如LLaMA、DeepSeek等。高效管理：提供命令行工具，方便用户下载
pytorch基于 Transformer 预训练模型的方法实现词嵌入（tiansz/bert-base-chinese）纠结哥_Shrek pytorch transformer bert
以下是一个完整的词嵌入（WordEmbedding）示例代码，使用modelscope下载tiansz/bert-base-chinese模型，并通过transformers加载模型，获取中文句子的词嵌入。frommodelscope.hub.snapshot_downloadimportsnapshot_downloadfromtransformersimportBertTokenizer,Be
LLM-预训练：深入理解 Megatron-LM（2）原理介绍 u013250861 #LLM/训练人工智能
最近在基于Megatron-LM的代码来训练大语言模型，本人觉得Megatron的代码很具有学习意义，于是大量参考了网上很多对Megatron代码的解读文章和NVIDAMegatron团队公开发布的2篇论文，并结合最近Megatron-LM代码库的更新，整理成了这几篇系列文章。Megatron-LM代码版本：23.06https://github.com/NVIDIA/Megatron-LM/tr
如何在本地电脑上安装和使用 DeepSeek R-1 知识大胖 NVIDIA GPU和大语言模型开发教程电脑
简介似乎每个人都在谈论DeepSeekR-1是中国人工智能公司DeepSeek开发的全新开源人工智能语言模型。一些用户声称，其推理能力与OpenAI的o1相当，甚至更好。目前，DeepSeek是免费使用的，这对用户来说是个好消息，但也带来了一些疑问。随着用户量的激增，他们如何管理服务器成本？硬件运行成本不可能便宜吧？这里最合乎逻辑的一点是——数据。数据是人工智能模型的命脉。他们可能以某种方式收集用
玩转大语言模型——使用GraphRAG+Ollama本地构建知识图谱（完全本地化，不依赖OpenAI）艾醒(AiXing-w) 玩转大语言模型语言模型知识图谱人工智能
系列文章目录玩转大语言模型——使用langchain和Ollama本地部署大语言模型玩转大语言模型——ollama导入huggingface下载的模型玩转大语言模型——langchain调用ollama视觉多模态语言模型玩转大语言模型——使用GraphRAG+Ollama构建知识图谱玩转大语言模型——完美解决GraphRAG构建的知识图谱全为英文的问题玩转大语言模型——配置图数据库Neo4j（含a
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs