N-gram语言模型第45页

大语言模型的三阶段训练

为了训练专有领域模型，选择LLaMA2-7B作为基座模型，由于LLaMA模型中文词表有限，因此首先进行中文词表的扩展，然后进行三阶段训练（增量预训练，有监督微调，强化学习）。代码将全部上传到github：https://github.com/hjandlm/LLM_Train1.中文词表扩展原生词表大小是32K，在词表扩展后，词表大小是63608。2.增量预训练为了防止模型的通用能力减弱或消失，将

hj_caas·2023-11-21 12:53

注意力机制（Attention）、自注意力机制(Self Attention)和多头注意力(Multi-head Self Attention)机制详解

4.MalMul2.3自注意力机制的缺陷三、多头自注意力机制3.1简介3.2实现步骤3.3公式参考感谢我的互联网导师：水论文的程序猿参考资料和图片来源：Transformer、GPT、BERT，预训练语言模型的前世今生

好喜欢吃红柚子·2023-11-21 10:23

Transformer详解一：transformer的由来和先导知识

目录参考资料前言一、预训练二、神经网络语言模型（NNLM）：预测下一个词one-hot编码的缺陷词向量（wordembedding）三、Word2Vec模型：得到词向量CBOWSkip-gramWord2Vec

好喜欢吃红柚子·2023-11-21 10:53

A Survey on Model Compression for Large Language Models

关于大型语言模型模型压缩的调研迁移学习在迁移学习中，子模型和父模型的网络架构可以是相同的，也可以是不同的。这取决于具体的迁移学习策略和任务需求。

y94688·2023-11-21 10:39

首篇大模型压缩论文综述

Abstract大型语言模型（LLMs）已经彻底改变了自然语言处理任务，并取得了巨大成功。然而，它们庞大的规模和计算需求给实际部署带来了巨大挑战，尤其是在资源有限的环境中。随着

卷心菜不卷Iris·2023-11-21 10:01

(四)、基于 LangChain 实现大模型应用程序开发 | 基于知识库的个性化问答 (基本功能介绍)

⭐使用大语言模型构建一个能够回答关于给定文档和文档集合的问答系统是一种非常实用和有效的应用场景。与仅依赖模型预训练知识不同，这种方法可以进一步整合用户自有数据，实现更加个性化和专业的问答服务。

#苦行僧·2023-11-21 09:37

【推荐】智元兔AI：一款集写作、问答、绘画于一体的全能工具！

它是基于大语言模型的人工智能助手，并且具有出色的写作能力。它能够根据用户提供的题目或要求，自动生成高质量的论文和文章。不论是论

richerg85·2023-11-21 09:36

人机交互-语音交互方法综述

下面分别介绍这几种技术：自动语音识别：AutomaticSpeechRecognition,ASRASR是通过声学模型和语言模型，将人

yuxy36·2023-11-21 08:26

仿京东淘宝搜索框实战

imageimageimage搜索框功能主要有3部分组成：智能补全关联数量拼写纠错实现流程ES官方文档建议通过phraseSuggester实行搜索框的自动补全，但这种查询对中文支持不太友好，经常会不做提示；下面我们通过n-gram

易企秀工程师·2023-11-21 08:55

Toolformer论文阅读笔记（简略版）

文章目录引言方法限制结论引言大语言模型在zero-shot和few-shot情况下，在很多下游任务中取得了很好的结果。

北岛寒沫·2023-11-21 07:54

亚马逊第二个大语言模型 Olympus 即将上线

据外媒爆料，亚马逊正在训练他的第二个大语言模型——Olympus，很有可能在今年12月份上线。

焦点快讯·2023-11-21 06:26

论文导读 | 大语言模型与知识图谱复杂逻辑推理

前言大语言模型，尤其是基于思维链提示词（Chain-ofThoughtPrompting）[1]的方法，在多种自然语言推理任务上取得了出色的表现，但不擅长解决比示例问题更难的推理问题上。

PKUMOD·2023-11-21 05:57

zhurui_xiaozhuzaizai·2023-11-21 03:40

从零开始通义千问大模型本地化到阿里云通义千问API调用

“通义千问大模型”是阿里云推出的一个超大规模的语言模型，具有强大的归纳和理解能力，可以处理各种自然语言处理任务，包括但不限于文本分类、文本生成、情感分析等。

风吹落叶花飘荡·2023-11-21 03:53

Datawhale八月学习-NLP专题-BERT和GPT

一、BERT1.什么是BERT1）BERT简介： BERT与现有语言模型不同的是，BERT旨在通过调节所有层中的上下文来进行深度双向的预训练。

wumo_rfr·2023-11-21 01:32

Bert学习笔记(简单入门版)

目录一、基础架构二、输入部分三、预训练：MLM+NSP3.1MLM：掩码语言模型3.1.1mask模型缺点3.1.2mask的概率问题3.1.3mask代码实践3.2NSP四、如何微调Bert五、如何提升

十七季·2023-11-21 01:25

Glove词向量

无论是基于神经网络语言模型还是Word2vec的词向量预训练方法，本质上都是利用文本中词与词在局部上下文的共现信息作为自监督学习信号。

makelope·2023-11-20 23:09

测试Bard和ChatGPT关于双休的法规和推理

首先带着问题，借助网络搜索，从政府官方网站等权威网站进行确认，已知正确答案的情况下，再来印证两个大语言模型的优劣。

stereohomology·2023-11-20 22:05

恕我直言，大模型对齐可能无法解决安全问题，我们都被表象误导了

在大型语言模型（LLM）的评估中，研究者发现了一个引人注目的现象：当面对多项选择题和开放式问题时，模型的表现存在显著差异。这一差异根源在于模型对复杂概念的理解不够全面，特别是在安全性方面。

夕小瑶·2023-11-20 22:23

企业要做大模型落地？建议进来看看这个榜单

遥记半年前，LeCun就曾断言：“单纯根据概率生成自回归的大语言模型，根本解决不了幻觉、错误的问题，GPT模型活不过5年”。

夕小瑶·2023-11-20 22:53

ChatGPT最强？文心一言与ChatGPT对比

对于同一个问题我们分别对文心一言3.5和ChatGPT3.5输出回答，结果如下图，可以看到文心一言的回答更好，文心一言是由百度开发的人工智能语言模型，它的中文理解能力主要是基于百度强大的搜索引擎和自然语言处理技术

同学yes·2023-11-20 19:53

2023 年数维杯（C题）国际大学生数学建模挑战赛 |数学建模完整代码+建模过程全解全析

问题重述信息技术和人工智能的迅速发展，特别关注大型语言模型（LargeLanguageModels，LLMs）在全球范围内的广泛应用，以ChatGPT为代表。

CS数模·2023-11-20 19:33

中国智能音箱市场销量下降，百度稳居第一 /中国即评出10个大模型创新案例｜魔法半周报

图灵奖得主质疑GPT-4和LLM的推理和规划能力，引发广泛质疑OpenAgents：基于大语言模型的开源智能体框架，助力用户实现自适应界面生成和多领域研究开发《Science》杂志：游戏在人

我有魔法WYMF·2023-11-20 19:39

“新KG”视点 | 知识图谱与大语言模型协同模式探究

OpenKG大模型专辑导读知识图谱和大型语言模型都是用来表示和处理知识的手段。

开放知识图谱·2023-11-20 17:32

【大模型微调实战】使用Peft技术与自己的数据集微调大模型

的个人网站这段时间非常火的topic,大模型参数多,占用体积大训练困难,而且一般需要微调技术用于特定任务AnimeBot.ipynb-Colaboratory(google.com)我的完整代码什么是大模型LLMLLM是大型语言模型的缩写

procoder338·2023-11-20 15:28

本地部署 Qwen-14B-Chat

Qwen-14B是基于Transformer的大语言模型,在超大规模的预训练数据上进行训练得到。预训练数据类型多样，覆盖广泛，包

engchina·2023-11-20 14:48

使用ChatGPT自动编写Python爬虫脚本

ChatGPT是一种基于大语言模型的生成式AI，换句话说它可以自动生成类似人类语言的文本，把梳理好的有逻辑的答案呈现在你面前，这完全不同于传统搜索工具。

程序员维他命·2023-11-20 13:19

向量数据库——AI时代的基座

1.前言向量数据库在构建基于大语言模型的行业智能应用中扮演着重要角色。大模型虽然能回答一般性问题，但在垂直领域服务中，其知识深度、准确度和时效性有限。

陈老老老板·2023-11-20 12:35

大语言模型量化方法对比：GPTQ、GGUF、AWQ

在过去的一年里，大型语言模型(llm)有了飞速的发展，在本文中，我们将探讨几种(量化)的方式，除此以外，还会介绍分片及不同的保存和压缩策略。

deephub·2023-11-20 12:49

跨界黑科技：HuggingGPT如何颠覆AI领域？

在当今的AI领域，大型语言模型（LLM）如ChatGPT已经成为了研究和商业领域的焦点。

THU智能魔术师·2023-11-20 12:10

【腾讯云 HAI域探秘】高性能服务器引领AI革新浪潮：从AI绘画、知识问答到PyTorch图像分类、视频检测的全方位探索

目录1HAI（高性能应用服务）简介2HAI的应用场景2.1HAI在AI作画中的灵活性与效率2.2深入探索LLM语言模型的应用与性能2.3HAI支持的AI模型开发环境与工具3基于stabledifussio

cooldream2009·2023-11-20 11:02

word2vec和doc2vec

这三层的神经网络本身是对语言模型进行建模，但同时获得一种单词在向量空间的表示。与潜在语义分析（LatentSemanticIndex,LSI）、潜在狄立克雷分配（L

zerowl·2023-11-20 09:43

生成式大模型的RLHF技术（一）：基础

一、概述大语言模型（LLMs）在预训练的过程中通常会捕捉数据的特征，而这些训练数据通常既包含高质量的也包含低质量的，因此模型有时会产生不被期望的行为，如编造事实，生成有偏见或有毒的文本，甚至对人类有害的内容

酷酷的群·2023-11-20 09:15

自然语言处理-神经网络史综述

2001年-神经语言模型语言建模是在给定前面的单词的情况下预测文本中的下一个单词的任务。它可能是最简单的语言处理任务，具有实际应用，如智能键盘，电子邮件响应建议（Kannanetal。，201

城市中迷途小书童·2023-11-20 07:45

大语言模型（LLM）凤凰，训练过程中报错（安装flash_attn过程中报错：No module named ‘torch‘）

安装flash_attn报错，信息如下：pipinstallflash_attnCollectingflash_attnUsingcachedflash_attn-1.0.8.tar.gz(2.0MB)Installingbuilddependencies...doneGettingrequirementstobuildwheel...errorerror:subprocess-exited-wi

艺桥·2023-11-20 06:18

赠书 | 一文了解预训练语言模型

而预训练语言模型把自然语言处理带入了一个新的阶段，也得到了工业界的广泛关注。通过大数据预训练加小数据微调，自然语言处理任务的解决，无须再依赖大量的人工调参。

AI科技大本营·2023-11-20 06:22

一文了解Word2vec 阐述训练流程

一文了解Word2vec阐述训练流程个性嵌入（PersonalityEmbeddings）词嵌入（WordEmbeddings）嵌入向量效果分析语言模型模型介绍模型训练Word2vec训练方法CBOW方法

征途黯然.·2023-11-20 06:48

Beyond One-Model-Fits-All: A Survey of Domain Specialization for Large Language Models

超越一个模型适合所有：大型语言模型领域专业化综述摘要1引言1.1相关综述2领域专业的分类2.1背景2.2领域专业的技术分类3领域专业化的外部增强3.1领域知识增强3.1.1LLM中显性知识的利用3.1.2LLM

UnknownBody·2023-11-20 03:21

LLM大模型权重量化实战

大型语言模型(LLM)以其广泛的计算要求而闻名。通常，模型的大小是通过将参数数量（大小）乘以这些值的精度（数据类型）来计算的。

新缸中之脑·2023-11-20 02:23

LLM大模型4位量化实战【GPTQ】

新缸中之脑·2023-11-20 02:52

大语言模型的三阶段训练

为了训练专有领域模型，选择LLaMA2-7B作为基座模型，由于LLaMA模型中文词表有限，因此首先进行中文词表的扩展，然后进行三阶段训练（增量预训练，有监督微调，强化学习）。代码将全部上传到github：https://github.com/hjandlm/LLM_Train1.中文词表扩展原生词表大小是32K，在词表扩展后，词表大小是63608。2.增量预训练为了防止模型的通用能力减弱或消失，将

hj_caas·2023-11-20 01:22

chatGPT流式输出的几种方式

前言chatGPT是一款高效强大的语言模型，能够给我们的生活带来极大的改变。无论是学习知识还是工作效率，chatGPT都能为我们提供有力的帮助。

wang魅力kk·2023-11-20 00:49

使用fetch流式获取响应数据

我这里的场景是在对接chatGPT语言模型的时候采取的这种方案，因为目前的大语言的模型的结果都是需要一点点计算的，如果提出的问题比较复杂就导致响应的时间过长。

安陌乐轩·2023-11-20 00:44

fetch 获取流式数据(chatgpt的流式输出)

背景：项目中需要获取chatgpt实时返回的数据使用场景：在对接chatgpt语言模型的时候采取的这种方案，因为目前的大语言的模型的结果都是需要一点点计算的，如果提出的问题比较复杂就导致响应的时间过长。

理想和远方_在路上·2023-11-20 00:42

TrafficGPT: Viewing, Processing, and Interacting with Traffic Foundation Models

这篇论文的标题是“TrafficGPT:Viewing,Processing,andInteractingwithTrafficFoundationModels”，它探讨了将大型语言模型（如ChatGPT

技术宅学长·2023-11-19 23:02

Protein Structure Representation Learning by Geometric Pretraining-通过几何预训练进行蛋白质结构表示学习

现有方法通常在大量未标记的氨基酸序列上预训练蛋白质语言模型，然后在下游任务中使用一些标记数据对模型进行微调。尽管基于序列的方法很有效，尚未探索对少量

NoteLoopy·2023-11-19 23:30

18种大模型指令调优方法分享，附模型源码

指令调优（IT），一种针对大型语言模型（LLMs）的训练方法，是提高大型语言模型能力和可控性的关键技术。该方法的核心目标是使LLM具备遵循自然语言指令并完成现实世界任务的能力。

深度之眼·2023-11-19 13:29

大型语言模型综述，非常详细，格局打开！A Survey of Large Language Models

大型语言模型综述，非常详细，格局打开！ASurveyofLargeLanguageModels返回论文和资料目录论文地址项目地址1.导读讲得通俗易懂，且格局拉满！

小怪兽会微笑·2023-11-19 10:08

AIGC: 关于ChatGPT这个智能工具带来的几点思考

ChatGPT的出现2022年11月底，ChatGPT上线，引爆AI圈和科技圈，2023年春节后,人人都开始关注并讨论这项新技术它是OpenAI研发的智能聊天工具,基于GPT语言模型，模拟人类的对话方式默认只能用文字进行交互

Wang's Blog·2023-11-19 08:30

融合语言模型中的拓扑上下文和逻辑规则实现知识图谱补全11.18

融合语言模型中的拓扑上下文和逻辑规则实现知识图谱补全摘要1引言2相关工作2.1事实嵌入法2.2拓扑嵌入方法2.3规则融合方法2.4基于LM的方法3准备3.1知识图谱和拓扑上下文3.2KG中的逻辑规则4.3

露葵025·2023-11-19 07:18

推荐频道

N-gram语言模型

大语言模型的三阶段训练

注意力机制（Attention）、自注意力机制(Self Attention)和多头注意力(Multi-head Self Attention)机制详解

Transformer详解一：transformer的由来和先导知识

A Survey on Model Compression for Large Language Models

首篇大模型压缩论文综述

(四)、基于 LangChain 实现大模型应用程序开发 | 基于知识库的个性化问答 (基本功能介绍)

【推荐】智元兔AI：一款集写作、问答、绘画于一体的全能工具！

人机交互-语音交互方法综述

仿京东淘宝搜索框实战

Toolformer论文阅读笔记（简略版）

亚马逊第二个大语言模型 Olympus 即将上线

论文导读 | 大语言模型与知识图谱复杂逻辑推理

大模型LLM相关面试题整理

从零开始 通义千问大模型本地化到阿里云通义千问API调用

Datawhale八月学习-NLP专题-BERT和GPT

Bert学习笔记(简单入门版)

Glove词向量

测试Bard和ChatGPT关于双休的法规和推理

恕我直言，大模型对齐可能无法解决安全问题，我们都被表象误导了

企业要做大模型落地？建议进来看看这个榜单

ChatGPT最强？文心一言与ChatGPT对比

2023 年 数维杯（C题）国际大学生数学建模挑战赛 |数学建模完整代码+建模过程全解全析

中国智能音箱市场销量下降，百度稳居第一 /中国即评出10个大模型创新案例 ｜魔法半周报

“新KG”视点 | 知识图谱与大语言模型协同模式探究

【大模型微调实战】使用Peft技术与自己的数据集微调大模型

本地部署 Qwen-14B-Chat

使用ChatGPT自动编写Python爬虫脚本

向量数据库——AI时代的基座

大语言模型量化方法对比：GPTQ、GGUF、AWQ

跨界黑科技：HuggingGPT如何颠覆AI领域？

【腾讯云 HAI域探秘】高性能服务器引领AI革新浪潮：从AI绘画、知识问答到PyTorch图像分类、视频检测的全方位探索

word2vec和doc2vec

生成式大模型的RLHF技术（一）：基础

自然语言处理-神经网络史综述

大语言模型（LLM）凤凰 ，训练过程中报错（安装flash_attn过程中报错：No module named ‘torch‘）

赠书 | 一文了解预训练语言模型

一文了解Word2vec 阐述训练流程

Beyond One-Model-Fits-All: A Survey of Domain Specialization for Large Language Models

LLM大模型权重量化实战

LLM大模型4位量化实战【GPTQ】

大语言模型的三阶段训练

chatGPT流式输出的几种方式

使用fetch流式获取响应数据

fetch 获取流式数据(chatgpt的流式输出)

TrafficGPT: Viewing, Processing, and Interacting with Traffic Foundation Models

Protein Structure Representation Learning by Geometric Pretraining-通过几何预训练进行蛋白质结构表示学习

18种大模型指令调优方法分享，附模型源码

大型语言模型综述，非常详细，格局打开！A Survey of Large Language Models

AIGC: 关于ChatGPT这个智能工具带来的几点思考

融合语言模型中的拓扑上下文和逻辑规则实现知识图谱补全11.18

从零开始通义千问大模型本地化到阿里云通义千问API调用

2023 年数维杯（C题）国际大学生数学建模挑战赛 |数学建模完整代码+建模过程全解全析

中国智能音箱市场销量下降，百度稳居第一 /中国即评出10个大模型创新案例｜魔法半周报

大语言模型（LLM）凤凰，训练过程中报错（安装flash_attn过程中报错：No module named ‘torch‘）