N-gram语言模型第65页

基于大语言模型的智能问答系统应该包含哪些环节？

一个完整的基于LLM的端到端问答系统，应该包括用户输入检验、问题分流、模型响应、回答质量评估、Prompt迭代、回归测试，随着规模增大，围绕Prompt的版本管理、自动化测试和安全防护也是重要的话题，本篇文章就来探索下这个过程，部分代码参考课程《BuildingSystemswiththeChatGPTAPI》技术交流技术要学会分享、交流，不建议闭门造车。一个人可以走的很快、一堆人可以走的更远。相

Python算法实战·2023-10-02 21:29

【Java-LangChain:面向开发者的提示工程-8】聊天机器人

第八章聊天机器人使用一个大型语言模型的一个令人兴奋的事情是，我们可以用它来构建一个定制的聊天机器人(Chatbot)，只需要很少的工作量。

df007df·2023-10-02 19:51

【Java-LangChain:面向开发者的提示工程-7】文本扩展

第七章文本扩展扩展是将短文本（例如一组说明或主题列表）输入到大型语言模型中，让模型生成更长的文本（例如基于某个主题的电子邮件或论文）。

df007df·2023-10-02 19:50

阅读LINGO-1: Exploring Natural Language for Autonomous Driving

1背景2Motivation3具体过程1背景wayve在9月14日公布了大语言模型和自动驾驶的结合模型LINGO-1，可以用自然语言解释自动驾驶的决策原因。

EEPI·2023-10-02 19:37

Claude一个比chat-gpt相同但使用门槛更低的ai生产力

日期：2023年6月17日作者：任聪聪Claude的介绍及相关信息Claude也是一个与chat-gpt等同的nlp大语言模型，效果和gpt几乎差不多，能够帮你写作、编程、分析、总结等诸多能力。

任聪聪·2023-10-02 18:11

论文阅读笔记 GLM: General Language Model Pretrainingwith Autoregressive Blank Infilling

2022-Du-GLMGeneralLanguageModelPretrainingwithAutoregressiveBlankInfillingAbstractGLM基于自回归填空的通用语言模型，可比预训练自编码模型

Sunny G helloworld·2023-10-02 16:34

GLM-130B-一个开放的双语通用预训练模型-论文精读

本文为作为类ChatGPT的模型ChatGLM的前期基础论文2《ANOPENBILINGUALPRE-TRAINEDMODEL》的精读笔记，基础论文1的精读笔记请见《GLM论文精读-自回归填空的通用语言模型

旺仔的算法coding笔记·2023-10-02 16:02

[论文笔记]GLM

论文中文标题为通用语言模型预训练与自回归填空。

愤怒的可乐·2023-10-02 16:00

解决大模型行业落地三大挑战，华为云GaussDB向量数据库正式发布

向量数据库可与大语言模型配合使用，解决大模型落地过程中的痛点，已成为企业数据处理和应用大模型的必选项。在近日举行的华为全联接大会2023期间，华为云正式发布GaussDB向量数据库。

LCHub低代码社区·2023-10-02 15:48

2023 年最佳多 GPU 深度学习系统指南

大语言模型甚至需要进行微调，而且计算机视觉任务可能会占用大量内存，尤其是在使用3D网络时。当

冷冻工厂·2023-10-02 14:41

西部AI小镇-构建自主虚拟世界

为了实现生成代理，描述了一种架构，该架构扩展了大型语言模型，以使用自然语言存储代理经验的完整记录，随着时间的推移将这些记忆合成为更高级别的反射，并动态检索它们以规划行为。实例

Mr.Lee jack·2023-10-01 21:40

《自然语言处理：基于预训练模型的方法》第七章预训练语言模型

预训练语言模型广义上，泛指提前经过大规模数据训练的语言模型，包括早期的以Word2vec、Glove为代表的静态词向量模型

夜空霓虹·2023-10-01 21:32

预训练语言模型（四）：ELMo模型

目录ELMo模型模型结构公式参考一个很全的总结：预训练语言模型的前世今生-从WordEmbedding到BERTELMo也参考了这个：【NLP-13】ELMo模型（EmbeddingsfromLanguageModels

Dream_Poem·2023-10-01 21:31

亲测可用国产GPT人工智能

清华大学ChatGLM官网：智谱清言中国版对话语言模型，与GLM大模型进行对话。https://chatglm.cn/开源的、支持中英双语的1300亿参数的对话语言模型，清华大学团队。

燃烧的枫·2023-10-01 20:04

背诵不等于理解，深度解析大模型背后的知识储存与提取

自然语言模型的背诵(memorization)并不等于理解。即使模型能完整记住所有数据，也可能无法通过微调(finetune)提取这些知识，无法回答简单的问题。

疯狂创作者·2023-10-01 18:45

2023 年热门的大型语言模型 (LLMs)汇总

大模型（LLMs）是一种人工智能模型，旨在理解和生成人类语言。它们通过在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。这些模型通常基于深度学习架构，如转换器，这使它们在各种自然语言处理任务上表现出令人印象深刻的能力。大模型领域在国内外都取得了显著的成就，各个国家和地区的企业、机构以及学术界都在积极投入资源和努力，推动大模型技术的发展。比如，在国外，OpenAI推出

AMiner学术搜索和科技情报挖掘·2023-10-01 12:27

2023 年热门的大型语言模型 (LLMs)汇总【更新至9月26】

一、全景地图整理了一张大语言模型的血缘图谱，如下图所示：图中的大语言模型，都是自己做过评测的，主观了点，但是原汁原味，有好的可以推荐给我。

数据饕餮·2023-10-01 12:27

大规模语言模型的模型结构--解码器结构（PaLM，BLOOM，InstructGPT系列）

与编码器结构(encoder-only)的语言模型结构相反，解码器结构(decoder-only)的语言模型结构只包含trans-former结构里的decoder部分。

hanscalZheng·2023-10-01 11:56

大规模语言模型--LLaMA 家族

LLaMA模型在开放基准的各种方面都取得了非常出色的表现，已成为迄今为止最流行的开放语言模型。大批研究人员通过指令调整或持续预训练扩展了LLaMA模型。

hanscalZheng·2023-10-01 11:56

大规模语言模型的模型结构---编码器-解码器结构（GLM,UL2系列）

2020年OpenAI发布了由包含1750亿参数的神经网络构成的生成式大规模预训练语言模型GPT-3(Gener-ativePre-trainedTransformer3)。

hanscalZheng·2023-10-01 11:26

大规模语言模型--中文 LLaMA和Alpaca

中文LLaMA尽管LLaMA和Alpaca在NLP领域取得了重大进展，它们在处理中文语言任务时，仍存在一些局限性。这些原始模型在字典中仅包含数百个中文tokens(可以理解为单词)，导致编码和解码中文文本的效率受到了很大影响。之前已经对原始LLaMA技术进行了深入解读，LLaMA基于transformer结构进行了一些改进，比如预归一化、SwiGLU激活函数以及旋转embedding。LLaMA的

hanscalZheng·2023-10-01 11:54

【深度学习】Hugging Face Transformers：预训练语言模型与迁移学习

摘要：本文介绍了HuggingFaceTransformers库，重点介绍了预训练语言模型和迁移学习的概念。

PyTechShare·2023-10-01 03:15

【ChatGPT】ChatGPT发展历史

与日本首相交流核废水事件-精准Prompt...hello，我是小索奇，在AI日益庞大的环境下，接下来将为大家不断的ChatGPT学习ChatGPT使用了Transformer结构，建立在OpenAI的GPT-3.5大型语言模型系列上并使用监督和强化学习技术进行微调

即兴小索奇·2023-10-01 03:40

深度学习（2）---循环神经网络(RNN)

文章目录一、序列数据和语言模型1.1序列数据1.2语言模型二、循环神经网络(RNN)2.1概述2.2门控循环单元(GRU)2.3长短期记忆网络(LSTM)一、序列数据和语言模型1.1序列数据 1.在深度学习中

冒冒菜菜·2023-10-01 01:55

大模型攻防｜Prompt 提示词攻击

目录Prompt提示词攻击提示词注入攻击提示词泄露攻击提示词越狱攻击假装其他“越狱”方法AI的进步防御方法Prompt提示词攻击提示词作为人和大语言模型交互的媒介，被不断提起。

_Meilinger_·2023-09-30 22:49

使用Colossal-AI云平台精调私有GPT

通用数据集塑造的综合性大型语言模型在垂类领域中表现并不完美，存在幻想(AIHallucination)等问题。要真正提升此类大语言模型在垂类领域的性能，应当使用高质量垂类数据集对模型进行精调。

潞晨科技官方·2023-09-30 19:49

The rise of language models

InChinesecontext在遥远的2089年，语言模型通过人类的智慧，继承着各地的文化遗产，如同火箭升空般，层出不穷。

卢延吉·2023-09-30 18:41

2022年10大最重要的科技事件和突破！

语言模型（如ChatGPT和Cicero）的推出，已经被用于编写/调试代码、创建营销计划等。蛋白质AI：DeepMind推出了AphaFold2，它可以预测蛋白质的形状，准确率接近100%。

Java_LingFeng·2023-09-30 17:39

LLAMA2（Meta大语言模型）可运行整合包的下载与安装

LLAMA2（Meta大语言模型）可运行整合包的下载与安装Windows10+消费级显卡可用一、工程github工程：https://github.com/facebookresearch/llamaLLAMA2

沧海之巅·2023-09-30 15:13

【论文阅读】大语言模型中的文化道德规范知识

摘要：在已有的研究中，我们知道英语语言模型中包含了类人的道德偏见，但从未有研究去检测语言模型对不同国家文化的道德差异。

令夏二十三·2023-09-30 13:18

手动搭建Bert模型并实现与训练参数加载和微调

参考《动手学深度学习》搭建BERT语言模型，并加载huggingface上的预训练参数。

动力澎湃·2023-09-30 13:02

文本情感分类模型之BERT

动力澎湃·2023-09-30 13:02

LongLoRA:不需要大量计算资源的情况下增强了预训练语言模型的上下文能力

麻省理工学院和香港中文大学推出了LongLoRA，这是一种革命性的微调方法，可以在不需要大量计算资源的情况下提高大量预训练语言模型的上下文能力。

deephub·2023-09-30 12:04

[论文笔记]MacBERT

本篇主要是探讨中文预训练语言模型在非英文语言中的有效性，然后提出了一种简单而有效的模型，称为MacBERT，它在多个方面改进了RoBERTa，特别是采用纠错型掩码语言模型(MLMascorrection

愤怒的可乐·2023-09-30 10:15

【通意千问】大模型GitHub开源工程学习笔记（3）-- 通过Qwen预训练语言模型自动完成给定的文本

摘要：本笔记分析了使用预训练的模型生成文本的示例代码。它的步骤如下：使用已加载的分词器tokenizer对输入文本进行处理，转换为模型可以理解的格式。输入文本是国家和首都的信息，最后一句是未完成的，需要模型来生成。将处理后的输入转移到模型所在的设备上（例如GPU或CPU）。使用模型的generate方法对输入进行处理，生成预测的输出。使用分词器的decode方法将生成的输出从模型理解的格式转换回文

大表哥汽车人·2023-09-30 05:23

【学习ChatGPT】1. 复习：Seq2Seq、Transformer、GPT

Seq2Seq模型2015年-注意力Seq2Seq模型Google2017年-Transformer模型:Attentionisallyouneed注意力机制OpenAI2018年-GPT无监督预训练：神经网络语言模型无监督

Citroooon·2023-09-30 05:54

LLMS: 将模型与人类价值观对齐Aligning models with human values

到目前为止，你可能已经看到了很多关于大型语言模型表现不佳的头条新闻。问题包括

AI架构师易筋·2023-09-30 02:45

大语言模型LLM知多少？

你知道哪些流行的大语言模型？你都体验过哪写？GPT-4，Llamma2,T5,BERT还是BART?

Entropy-Go·2023-09-30 01:04

LLM应用的技术栈与设计模式详解

大型语言模型是构建软件的强大新原语。但由于它们是如此新，并且其行为与普通计算资源如此不同，因此如何使用它们并不总是显而易见的。在这篇文章中，我们将分享新兴LLM应用程序的参考架构。

新缸中之脑·2023-09-30 00:38

大语言模型（LLM）分布式训练框架总结

©PaperWeekly原创·作者|避暑山庄梁朝伟背景随着ChatGPT的火爆出圈，大模型也逐渐受到越来越多研究者的关注。有一份来自OpenAI的研究报告(Scalinglawsforneurallanguagemodels)曾经指出模型的性能常与模型的参数规模息息相关，那么如何训练一个超大规模的LLM也是大家比较关心的问题，常用的分布式训练框架有Megatron-LM和DeepSpeed，下面我

PaperWeekly·2023-09-30 00:07

腾讯汤道生：大模型只是起点，产业落地是AI更大的应用场景

在第一课上，腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生，简要回顾AI的历史，系统诠释了大语言模型推动的技术变革，行业落地的挑战与应对，以及企业拥抱大模型的基本准则。

WitsMakeMen·2023-09-29 21:38

大语言模型之十三 LLama2中文推理

在《大语言模型之十二SentencePiece扩充LLama2中文词汇》一文中已经扩充好了中文词汇表，接下来就是使用整理的中文语料对模型进行预训练了。这里先跳过预训练环节。

shichaog·2023-09-29 16:52

戒慎乎不睹，大模型体验记

简单来说，所谓的大模型是大语言模型之简称，英文一般称为LargeLanguageModels，简称LLM。与上一波AI技术的浪潮以图像识别为主不同，这一波的主要形式是聊天，通过文字问答。

advdbgger·2023-09-29 14:46

伪原创小发猫怎么样？一文看懂

作为一个AI语言模型，我不能直接对任何人或事物进行评价。但是，我可以就伪原创小发猫这个话题，给出一些一般性的信息和建议。伪原创小发猫怎么样，看看测试结果：伪原创小发猫是一款在互联网上被广泛传播的工具。

chatgpt001·2023-09-29 13:03

大模型长上下文运行的关键问题

过去一年，几种长上下文语言模型陆续问世，包括GPT-4（32k上下文）、MosaicML的MPT（65k上下文）、Anthropic的Claude（100k上下文）等。

OneFlow深度学习框架·2023-09-29 12:25

揭秘编码器与解码器语言模型

通过LLM进化树（github.com/Mooler0410/LLMsPracticalGuide）来看，这些语言模型主要分为三类：一是“仅编码器”，该类语言模型擅长文本理解，因为它们允许信息在文本的两个方向上流动

OneFlow深度学习框架·2023-09-29 12:24

利用预训练语言模型拓展实体集合

ReadingGroup的pdf版本今天介绍一个小众的Task,实体集合拓展(Entitysetexpansion).EmpowerEntitySetExpansionviaLanguageModelProbing.ACL2020.YunyiZhang,JiamingShen,JingboShang,JiaweiHan任务的目标是拓展原有的实体集合，向其中添加相同类别的实体，注意这里的实体类别一般

gunjianpan·2023-09-29 12:39

在亚马逊云科技Amazon SageMaker上部署构建聊天机器人的开源大语言模型

开源大型语言模型（LLM）已经变得流行起来，研究人员、开发人员和组织都可以使用这些模型来促进创新和实验。这促进了开源社区开展合作，从而为LLM的开发和改进做出贡献。

caijingshiye·2023-09-29 09:53

分布式操作系统

由于系统底层的改变，分布式操作系统能够比单机操作系统输出更多的算力，性能规模呈指数级提升，在处理大语言模型时有优势。目前LAXCUS分布式操作系统的单集群状态下，

LAXCUS分布式操作系统·2023-09-29 07:07

2023第十二届中国智能产业高峰论坛

大会主题报告大模型时代的元宇宙人工智能在智慧农业中的应用算网系统基于AI的电磁波信号语义分析与目标识别知识增强大语言模型从大模型到AlforScience金融大模型重塑金融产业全链路高端数控机床的创新发展大数据智能专题论坛

ོ栖落·2023-09-29 05:13

推荐频道

N-gram语言模型