N-gram语言模型第25页

LLM之长度外推（一）| 基于位置编码的长度外推研究综述

wshzd·2024-01-13 00:59

VCoder：大语言模型的眼睛

简介VCoder的一个视觉编码器，能够帮助MLLM更好地理解和分析图像内容。提高模型在识别图像中的对象、理解图像场景方面的能力。它可以帮助模型显示图片中不同物体的轮廓或深度图（显示物体距离相机的远近）。还能更准确的理解图片中的物体是什么，甚至能数出图片中有多少人。功能介绍1、增强视觉感知能力：VCoder通过提供额外的视觉编码器，帮助MLLM更好地理解和分析图像内容。2、处理特殊类型的图像：VCo

AI 研习所·2024-01-13 00:49

大模型关于Lora论文集合

COLA采用残差学习过程，将学习到的LoRA模块合并到预先训练的语言模型参数中，并重新启动对新

致Great·2024-01-13 00:48

程序员想拿高薪，这3个工具你还不知道？

1.LangChainLangChain由HarrisonChase开发，于2022年10月首次亮相，是一个开源平台，旨在构建由大语言模型（LLM）支持的强大应用程序，如ChatGPT等聊

SoFlu软件机器人·2024-01-12 22:51

OpenAI 发布 GPT 提示词工程指南，你不会是最后一个才知道吧？

许多策略都基于LLM（语言模型）研究的结果，例如链式思维提示词或递归摘要。Op

SoFlu软件机器人·2024-01-12 22:18

从Hugging Face上手动下载并加载预训练模型

0.说明：从HuggingFace上下手动载预训练的蛋白质语言模型（以ProstT5为例），用模型中的encoder部分对蛋白质进行编码，得到embeddingfeatures，用于下游的任务。

@ZyuanZhang·2024-01-12 21:41

【大语言模型NER处理-进行标注生成】

识别目录Qwen进行NER识别前言一、QWEN_NER1.引入库2.封装主函数相似度处理实际匹配标签(例子)获取结果总结前言chatgpt出来的时候就想过将其利用在信息抽取方面，后续也发现了不少基于这种大语言模型的信息抽取的论文

天池小天·2024-01-12 21:39

2024年CES展会都有些啥？亮点集锦都在这里

2024年CES是在2023年大语言模型元年的背景下举行，很多产品都有AI的影子。本次展会的主题为“ALLTOGETHER.ALLON”，展会于当地时间9号开幕，到12号结束。

可夫小子·2024-01-12 20:10

大语言模型下载，huggingface和modelscope加速

huggingface下载模型如果服务器了，不用租机器如果服务器没，可以建议使用下面的方式可以租一台**autodl**不用显卡的机器，一小时只有1毛钱，启动学术加速，然后下载，下载完之后，用scp拷贝到目标机器autodl学术加速启动source/etc/network_turbofromhuggingface_hubimportsnapshot_downloadmodel_path="baic

随时学丫·2024-01-12 19:15

基于GPT4+Python近红外光谱数据分析及机器学习与深度学习建模

1、ChatGPT概述（GPT-1、GPT-2、GPT-3、GPT-3.5、GPT-4模型的演变）2、ChatGPT对话初体验（注册与充值、购买方法）3、GPT-4与GPT-3.5的区别，以及与国内大语言模型

慢腾腾的小蜗牛·2024-01-12 18:35

用通俗易懂的方式讲解：对 embedding 模型进行微调，我的大模型召回效果提升了太多了

QA对话目前是大语言模型的一大应用场景，在QA对话中，由于大语言模型信息的滞后性以及不包含业务知识的特点，我们经常需要外挂知识库来协助大模型解决一些问题。

Python算法实战·2024-01-12 17:30

用通俗易懂的方式讲解：大模型 RAG 技术，从入门到精通

检索增强生成（RetrievalAugmentedGeneration，简称RAG）为大型语言模型（LLMs）提供了从某些数据源检索到的信息，以此作为生成答案的基础。

Python算法实战·2024-01-12 17:29

《动手学深度学习》学习笔记第9章现代循环神经网络

我们在文本数据上实现了基于循环神经网络的语言模型，但是对于

北方骑马的萝卜·2024-01-12 15:02

用通俗易懂的方式讲解：在 Langchain 中建立一个多模态的 RAG 管道

写在前面语言模型的出现彻底改变了我们从文件中提取信息的方式。然而，我们知道图片，通常是图表和表格，经常包含关键信息，但基于文本的语言模型无法处理媒体文件。

Python算法实战·2024-01-12 13:39

垂直领域大模型——文档图像大模型的思考与探索

一、技术难题仍存在2023年，随着以Chat-GPT为代表的大语言模型和GPT4-V多模态大模型

陈橘又青·2024-01-12 12:38

RAG 详解

大型语言模型（LLM）

javastart·2024-01-12 12:07

原创 | 一文读懂ChatGPT中的强化学习

在OpenAI的2022年论文《通过人类反馈训练语言模型以遵循指令》中对来自人类反馈的强化学习（RLHF）进行了深入描述。创建者将监督学习和强化学习相结合来微调ChatGPT，强化学

javastart·2024-01-12 12:07

中国AI大模型，应该如何商业化？

比如OpenAI的语言模型GPT-3，成本接近500万美元，也就是人民币4000万左右。庞大的模型训练

产业家·2024-01-12 09:46

OpenAI 已为 GPT-5 申请商标，GPT-5 要来了？

多年以来，微软支持的OpenAI已先后发布多种语言模型系统，包括GPT-4（一种可支持文本与图像输入的多模态大模型）、DALL-E（可生成和编辑图像的AI模型）、Whisper（音频到文本模型）、Embeddin

每日值得看·2024-01-12 09:46

RLHF与LLM训练的碰撞：寻找最佳实践之路！

wwlsm_zql·2024-01-12 09:50

数据驱动下的LLM优化：如何从数据集中发掘最大价值？

指令微调是一种用于改善像ChatGPT和Llama-2-chat这样的语言模型性能的方法，通过让模型为一

wwlsm_zql·2024-01-12 09:50

大模型内容分享(十二)：图解大语言模型：从操作系统的视角

目录内核：LLM存储体系I/O外设：多模态工具使用安全性LLM大语言模型的未来结论如今的大语言模型(LLM)可以用“日日新，又日新”来形容了，不到五年，发展速度和规模相当惊人。

之乎者也··2024-01-12 09:38

1.RAG（检索增强生成）

本质将用户输入的信息补充到大语言模型LLM中。LLM可以使用这些信息来增强其生成的回答或响应。先检索，后生成传统RAG实现过程对知识库进行索引。

cookieswolf·2024-01-12 09:03

使用CLIP和LLM构建多模态RAG系统

什么是RAG在人工智能领域，检索增强生成(retrieve-augmentedGeneration,RAG)作为一种变革性技术改进了大型语言模型(LargeLa

deephub·2024-01-12 08:59

通过大量生物、地球、农业、气象、生态、环境科学领域中案例，解锁大模型在科研、办公中的高级应用，可以一起探索如何优雅地使用大模型？

以ChatGPT、LLaMA、Gemini、DALL·E、Midjourney、StableDiffusion、星火大模型、文心一言、千问为代表AI大语言模型带来了新一波人工智能浪潮，可以面向科研选题、

梦想的初衷~·2024-01-12 08:02

面向科研选题、思维导图、数据清洗、统计分析、高级编程、代码调试、算法学习、论文检索、写作、翻译、润色、文献辅助阅读、文献信息提取、辅助论文审稿、新闻撰写、科技绘图、地学绘图（GIS地图绘制）

以ChatGPT、LLaMA、Gemini、DALL·E、Midjourney、StableDiffusion、星火大模型、文心一言、千问为代表AI大语言模型带来了新一波人工智能浪潮，可以面向科研选题、

梦想的初衷~·2024-01-12 08:02

论文系列之Applying Large Language Models API to Issue Classification Problem

A:这篇论文试图解决的问题是如何有效地对软件工程中的issue报告进行优先级分类，这是通过运用大型语言模型（LargeLanguageModels，LLMs）的API来实现的。

Takoony·2024-01-12 08:47

GPT4助力Python数据分析与可视化、人工智能建模及论文高效撰写

1、ChatGPT概述（GPT-1、GPT-2、GPT-3、GPT-3.5、GPT-4模型的演变）2、ChatGPT对话初体验（注册与充值、购买方法）3、GPT-4与GPT-3.5的区别，以及与国内大语言模型

夏日恋雨·2024-01-12 06:35

GPT Understands, Too

实验表明：在自然语言理解方面，GPT可以与BERTs一样具有竞争力（有时甚至更好），P-tuning可以提高预训练的语言模型的性能。P-tuning是一种改善在小样本或者全监督下的GPTs和BER

Tsukinousag·2024-01-12 06:23

大语言模型面试问题

自己在看面经中遇到的一些面试题，结合自己和理解进行了一下整理。transformer中求和与归一化中“求和”是什么意思？求和的意思就是残差层求和，原本的等式为y=H(x)转化为y=x+H(x)，这样做的目的是防止网络层数的加深而造成的梯度消失，无法对前面网络的权重进行有效调整，导致神经网络模型退化（这种退化不是由过拟合造成的，而是较深模型后面添加的不是恒等映射反而是一些非线性层）。已经学习到较饱和

抓个马尾女孩·2024-01-12 05:23

大语言模型参数微调过程（附完整代码）

这是一个金融领域大模型微调的具体代码执行过程，具体代码可以详见git仓库。1.配置参数model_args,data_args,train_args,finetuning_args,generating_args=get_train_args()2.加载分词tokenizertokenizer=AutoTokenizer.from_pretrained(model_path)3.读取config文

抓个马尾女孩·2024-01-12 05:23

DeepSeek 发布全新开源大模型，数学推理能力超越 LLaMA-2

自从LLaMA被提出以来，开源大型语言模型（LLM）的快速发展就引起了广泛研究关注，随后的一些研究就主要集中于训练固定大小和高质量的模型，但这往往忽略了对LLM缩放规律的深入探索。

夕小瑶·2024-01-12 05:44

024 年1月11日最热NLP大模型论文： A Novel Prompt-tuning Method: Incorporating Scenario-specific Concepts into...

引言：探索语言模型中的概念挖掘与级联校准在自然语言处理领域，语言模型的有效性往往取决于其对概念的理解和利用能力。概念挖掘与级联校准是两种关键技术，它们能够增强模型对文本分类任务的处理能力。

夕小瑶·2024-01-12 05:44

今日最佳NLP大模型论文解读：【Advancing Spatial Reasoning in Large Language Models: An In-Depth Evaluation ......

如需查看本月份其他每日最佳NLP大模型论文解读，欢迎移步http://saibomaliang.com～复旦新作SpeechAgents：基于多模态语言模型的多智能体系统，模拟人类沟通引言：人类沟通的多模态模拟人类沟通是一个复杂多样的过程

夕小瑶·2024-01-12 05:43

Midjourney和DALL·E被爆严重抄袭！钢铁侠、阿凡达等数百个作品被抄的裤衩都不剩..

要求销毁ChatGPT以及任何其他使用《纽约时报》作品而没有付费的大语言模型和训练集。

夕小瑶·2024-01-12 05:13

【通义千问】大模型Qwen GitHub开源工程学习笔记（5）-- 模型的微调【全参数微调】【LoRA方法】【Q-LoRA方法】

：[{"id":"identity_0","conversations":[{"from":"user","value":"你好"},{"from":"assistant","value":"我是一个语言模型

大表哥汽车人·2024-01-12 05:05

01.大型语言模型背后的基本概念的高级解释（LLMs）

像ChatGPT这样的大型语言模型（LLMs）是过去几年开发的深度神经网络模型。他们开创了自然语言处理（NLP）的新时代。

这就是编程·2024-01-12 05:04

一份全面的大模型「幻觉」综述

虽然大语言模型（LLMs）在各种下游任务中展示出了卓越的能力，在多个领域有

快乐小码农·2024-01-11 21:12

如何解决LLM（大型语言模型）幻觉问题

LLM（大型语言模型）幻觉问题指的是当大型语言模型（如我这样的）在处理请求时产生的不准确或虚构的信息。

sagima_sdu·2024-01-11 21:41

基于ChatGPT4+Python近红外光谱数据分析及机器学习与深度学习建模教程

基础1、ChatGPT（GPT-1、GPT-2、GPT-3、GPT-3.5、GPT-4模型的演变）2、ChatGPT对话初体验（注册与充值、购买方法）3、GPT-4与GPT-3.5的区别，以及与国内大语言模型

夏日恋雨·2024-01-11 19:35

大语言模型训练数据常见的4种处理方法

大语言模型训练需要数万亿的各类型数据。如何构造海量“高质量”数据对于大语言模型的训练具有至关重要的作用。

工业甲酰苯胺·2024-01-11 19:56

SFT会改善LLM性能，RLHF可能会损害性能

SFT（StructuredFine-Tuning）是一种模型优化技术，它通过在预训练的语言模型上进行有针对性的微调，以适应特定任务或领域。

小草cys·2024-01-11 19:26

如何用 AI 给科研提速？超长对话记忆 Kimi Chat 体验

最近经常听小伙伴提及KimiChat这款国产大语言模型，据说它在上下文记忆能力很有特色。

nkwshuyi·2024-01-11 19:51

NLP-Beginner任务五学习笔记：基于神经网络的语言模型

**用LSTM、GRU来训练字符级的语言模型，计算困惑度**数据集：https://github.com/FudanNLP/nlp-beginner/blob/master/poetryFromTang.txt

Q小Q琪·2024-01-11 18:16

RAG：让大语言模型拥有特定的专属知识

作为一个在Chatbot领域摸爬滚打了7年的从业者，笔者可以诚实地说，在大语言模型的推动下，检索增强生成（RetrievalAugmentedGeneration，RAG）技术正在快速崛起。

博文视点·2024-01-11 15:52

AI 时间是能编辑的，空间是可计算的｜N4 连麦对谈 AIGC

AI看似已经变得无所不能，可以预见的是，未来还可能会出现更强大的电脑设备和支持本地跑的大语言模型AIPC，这些变化对内容产业和创作方式都将起到很大的影响。

shadowcz007·2024-01-11 15:45

Intro project based on BERT

BERT介绍语言模型BERT，其实就是Transformer中的encoder。是语言

Karen_Yu_·2024-01-11 14:26

02.构建和使用的大型语言模型（LLMs）阶段

我们为什么要建立自己的LLMs？LLM从头开始编码是了解其机制和局限性的绝佳练习。此外，它还为我们提供了必要的知识，可以保留或微调现有的开源LLM架构，以适应我们自己的特定领域的数据集或任务。研究表明，在建模性能方面，定制（LLMs为特定任务或领域量身定制的）可以胜过ChatGPTLLMs等通用型，后者专为各种应用而设计。这方面的例子包括BloombergGPT，它专门用于金融，LLMs专为医学问

这就是编程·2024-01-11 14:26

chatgpt辅助学习工具入门 2023年1月19日

可以简单理解上下文生成文本的语言模型为网站创建内容，写文章，电子邮件，推文，求职信生成多种不同编程语言的代码写代码、函数、类、sql（前后端代码）生成虚拟数据编写单元测试文本或代码从一种语言翻译成另一种语言可以用它来解释代码还可以帮助您更快地学习和记住事物可以给它一些文本并让它问您一堆问题让你为工作面试做好准备你可以让它改善你的简历还可以像面试官

HardyDragon_CC·2024-01-11 14:30

高效底座模型LLaMA

LLaMA:OpenandEfficientFoundationLanguageModels论文链接：https://arxiv.org/pdf/2302.13971.pdf论文来源：MetaAI1概述大型语言模型

智慧医疗探索者·2024-01-11 13:06

推荐频道

N-gram语言模型