Cynthiainuq

【综述】Pre-train, Prompt and Recommendation: A Comprehensive Survey of Language Modelling Paradigm

论文链接：https://arxiv.org/pdf/2302.03735.pdf

摘要

1. Introduction

2. Generic Architecture of LMRS

3. Data Types

4. LMRS Training Strategies

摘要

预训练模型和学习到的表示有助于一系列下游任务，本文系统调研了如何从不同PLM（Pre-trained Language Models）相关的训练范式学习到的预训练模型中提取和迁移知识，从而提升推荐性能（泛化性、稀疏性、效率和有效性等）。

1. Introduction

目前，数据稀疏性问题成为当前深度推荐模型的一个主要性能瓶颈。而在大规模无监督语料库上训练进行预训练(pre-training)，然后在不同的下游监督任务中进行微调(fine-tuning)取得了很好地效果。pre-training&fine-tuning范式的优点是：能够通过无监督任务从无标签数据中提取富含信息和可迁移的知识，这将有助于下游任务，尤其是这些任务的无标签数据缺乏时，从而避免了模型无从训练。

最近提出的prompt learning通过一种简单而灵活的方式进一步统一了在不同任务上PLMs的使用。 prompt learning依赖一系列适当的提示(hard text template/soft continuous embeddings)，将下游任务重新定义为预训练任务。这种训练范式的优点有：（1）弥合了预训练和下游目标之间的差距，允许更好地利用预训练模型中丰富的知识，当下游数据非常少时，该优势尤其明显；（2）只需要调整一小部分参数即可，改方法更加高效。

Knowledge transfer via pre-training for recommendation: A review and prospect 总结了一些关于推荐模型预训练的研究，并且讨论了不同领域间的知识迁移方法，但未深入研究预训练推荐模型的训练细节。Self-Supervised Learning for Recommender Systems: A Survey 简要概述了RSs中自监督推荐进展，这意味着用于模型训练的监督信号是由原始数据半自动生成的。本文则不再严格关注自监督训练策略，也探索监督信号和数据增强技术用于pre-training&fine-tuning和prompting中。

2. Generic Architecture of LMRS

LMRS( Language Modelling Paradigm Adaptations for Recommender Systems)通过从预训练模型(PTMs)进行知识迁移来克服数据稀疏性问题。Fig1从data input、pre-training、fine-tuning/prompting和对不同推荐任务的推荐角度给出了 LMRS的高度概述。首先将数据预处理为所需形式（如图、有序序列、对齐的文本-图像对等），然后执行“pre-train, fine-tune”或“pre-train, prompt”，如果inference仅基于预训练模型，那么可将其视为一种端到端的训练方式，但利用了基于LM的学习目标，训练得到的模型可用于推断不同的推荐任务。

3. Data Types

将输入数据编码为嵌入通常是推荐过程的第一步，推荐系统的输入比大多数NLP任务更加多样化。
因此，编码技术和编码过程可以根据不同的输入类型进行区分。本节将概述几种输入数据类型，然后再深入讨论推荐的训练技术。

文本数据

文本数据是推荐中最常用的输入之一，文本数据主要包括：reviews,comments, summaries, news, conversations和codes等。

序列数据

本文将按时间顺序或按特定序列排序的用户交互认为序列输入，这种输入通常作为序列推荐或会话推荐的输入。

在PLMRS训练的不同阶段，图构造和图学习为提升推荐性能产生着不同的作用，其类型通常有：用户-用户社交图、用户-物品交互图、异质知识图谱等。

多模态数据

同“图”。

4. LMRS Training Strategies

目前，主要有两类不同的训练模式：pre-train&fine-tune paradigm 和 prompt learning paradigm。根据不同的推荐目的，以上分类又可以进一步分为不同的子类，下图展示了LMRSs的分类及相应的代表性LMRS工作。表1更详尽地展示了一些代表新LMRSs工作。

表1：代表性LMRS方法

训练策略	论文	学习目标	推荐任务	数据类型	开源代码
Pre-training & Fine-tuning
Pre-training w/o Fine-tuning	Bert4rec: Sequential recommendation with bidirectional encoder representations from transformer, 2019, CIKM	Pre-train:MLM	Sequential RS	Sequential data	GitHub - FeiSun/BERT4Rec: BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer
	Path language modeling over knowledge graphsfor ex-plainable recommendation, 2022, WWW	Pre-train: AM	Explainable RS	Graph	N/A
	Bridging the gap between nlp andsequential/session-based recommendation, 2021, RecSys	Pre-train: AM + MLM + PLM + RTD	Session-based RS	Textual + Sequential data	GitHub - NVIDIA-Merlin/Transformers4Rec: Transformers4Rec is a flexible and efficient library for sequential and session-based recommendation and works with PyTorch
Fine-tuning Holistic(整体) Model	Apirecx: Cross-library api recommendation via pre-trained languagemodel, 2021, EMNLP	Pre-train: cross-entropy Fine-tune: cross-entropy	Cross-library API RS	Textual data（code）	GitHub - yuningkang/APIRecX
	Recindial: Aunifiedframework for conversational recommendation with pre-trained language models, 2022, AACL-IJCNLP	Pre-train: AM Fine-tune: AM + cross-entropy	Conversational RS	Textual data + Graph	GitHub - Lingzhi-WANG/PLM-BasedCRS
	Training large-scale news recommenders with pretrained language models in the loop, 2022, KDD	Pre-train: AM + MLM Fine-tune: AM	News RS	Textual + Sequential data	GitHub - microsoft/SpeedyRec
	Twhin-bert: A socially-enriched pretrained language model for multilingual tweet representations, 2022, arXiv	Pre-train: MLM + NT-Xent Fine-tune: Negative Sampling Loss	Social RS	Textual data	GitHub - xinyangz/TwHIN-BERT: Code and data release for the paper "TwHIN-BERT: A Socially-Enriched Pre-trained Language Model for Multilingual Tweet Representations"
	Curriculum pre-training heterogeneous subgraph transformer for top-n recommendation, 2023, TOIS	Pre-train: MNP + MEP + cross-entropy + Contrastive Loss; Fine-tune: cross-entropy	Top-N RS	Graph	N/A
Fine-tuning Partial Model	Towards universal sequence representation learning for recommender systems, 2022, TOIS	Pre-train: Contrastive Loss Fine-tune: cross-entropy	Cross-domain RS Sequential RS	Textual + Sequential data	GitHub - RUCAIBox/UniSRec: [KDD'22] Official PyTorch implementation for "Towards Universal Sequence Representation Learning for Recommender Systems"
	Tiny-newsrec: Effective and efficient plm-based news recommendation, 2022, EMNLP	Pre-train: MLM + AM Fine-tune: cross-entropy + MSE + InfoNCE	News RS	Textual + Sequential data	GitHub - yflyl613/Tiny-NewsRec: [EMNLP 2022] Official Pytorch implementation for "Tiny-NewsRec: Efﬁcient and Effective PLM-based News Recommendation"
	Mm-rec: Visiolin-guistic model empowered multimodal news recommendation, 2022, SIGIR	Pre-train: MMM + MAP Fine-tune: cross-entropy	News RS	Sequential + Multi-modal data	GitHub - zcfinal/MM-Rec: Source codes for paper "MM-Rec: Visiolinguistic Model Empowered Multimodal News Recommendation"
Fine-tuning External Part	S3-rec: Self-supervised learning for sequential recommendation with mutual information maximization, 2020, CIKM	Pre-train: MIM Fine-tune: Pairwise Ranking Loss	Sequential RS	Textual + Sequential data	GitHub - RUCAIBox/CIKM2020-S3Rec: Code for CIKM2020 "S3-Rec: Self-Supervised Learning for Sequential Recommendation with Mutual Information Maximization"
	Boosting deep ctr prediction with a plug-and-play pre-trainer for news recommendation, 2022, COLING	Pre-train: MTP + cross-entropy Fine-tune: cross-entropy	News RS	News RS	GitHub - Jyonn/PREC: COLING 2022 oral paper
	Pre-training of graph augmented transformers for medication recommendation, 2019, IJCAI	Pre-train: binary cross-entropy Fine-tune: cross-entropy	Medication RS	Graph	GitHub - jshang123/G-Bert: Pre-training of Graph Augmented Transformers for Medication Recommendation
	Graph neural pre-training for recommendation with side information, 2022, TOIS	Pre-train: binary cross-entropy Fine-tune: BPR + binary cross-entropy	Top-N RS	Textual data + Graph	GitHub - pretrain/pretrain
Prompting
Fixed-PTM Prompt Tuning	Towards unified conversational recommender systems via knowledge-enhanced prompt learning, 2022, KDD	Pre-train: AM + MLM + cross-entropy Prompt-tuning: AM + cross-entropy	Conversational RS	Textual data	GitHub - RUCAIBox/UniCRS: [KDD22] Official PyTorch implementation for "Towards Unified Conversational Recommender Systems via Knowledge-Enhanced Prompt Learning"
Fixed-PTM Prompt Tuning	Personalized prompts for sequential recommendation, 2022, arXiv	Pre-train: Pairwise Ranking Loss Prompt-tuning: Pairwise Ranking Loss + Contrastive Loss	Cross-domain RS Sequential RS	Textual + Sequential data	N/A
Fixed-prompt PTM Tuning	Improving conversational recom-mendation systems’ quality with context-aware item meta-information, 2022, Findings of NAACL	Pre-train: AM + MLM PTM Fine-tune: AM + cross-entropy	Conversational RS	Textual data
Fixed-prompt PTM Tuning	A unified multi-task learning framework for multi-goal conver-sational recommender systems, 2022, TOIS	Pre-train: AM; PTM Fine-tune: AM	Conversational RS	Textual data	GitHub - dengyang17/UniMIND
Tuning-free Prompting	Zero-shot recommendation as language modeling, 2022, ECIR	Pre-train: AM	Zero-Shot RS	Textual data	https://shorturl.at/glmqA
Tuning-free Prompting	Recommendation as language processing (rlp): A unified pretrain, personalizedprompt & predict paradigm (p5), 2022, RecSys	Pre-train: AM	Zero-Shot RS Cross-domain RS	Zero-Shot RS Cross-domain RS	GitHub - jeykigung/P5
Prompt+PTM Tuning	Personalized prompt learning for explainable recommendation, 2023, TOIS	Pre-train: AM; Prompt-tuning: NLL Prompt+PTM tuning: NLL + MSE	Explainable RS	Textual data	GitHub - lileipisces/PEPLER: Personalized Prompt Learning for Explainable Recommendation
Prompt+PTM Tuning	Rethinking reinforcement learning for recommendation: A prompt perspective, 2022, SIGIR	Prompt+PTM tuning: cross-entropy	Next Item RS	Sequential data	N/A
注：MLM(Masked Language Modelling)；AM(Auto-regressive Modelling)；RTD (Replaced Token Detection替换令牌检测)；NT-Xent (Normalized Temperature-scaled Cross Entropy Loss)；MNP (Masked Node Prediction)；MEP (Masked Edge prediction)； MMM (Masked Multi-modal Modelling)；MAP (Multi-modal Alignment Prediction); MIM (Mutual Information Maximization Loss); MTP (Masked News/User Token Prediction); NLL (Negative Log-likelihood Loss)

4.1 Pre-train, fine-tune paradigm

“Pre-train, fine-tune”模式的优点：(1) 预训练能提供好的初始化模型，会对不同的下游推荐任务产生更好的泛化性，从而从各个角度提升推荐性能，并提升微调阶段的收敛速度；（2）在大型源语料库上进行预训练可以学习通用知识，从而有利于下游推荐者；（3）预训练可被视作一种正则化以避免在低资源、小数据集上过拟合。

Pre-train

这种训练策略可以看作是传统端到端训练，不同的是，我们仅关注基于语言模型的学习目标应用到训练阶段。许多经典的LM-based推荐模型都属于这一类，比如：BERT4Rec使用双向自注意力网络建模序列用户行为；Transformers4Rec则采用基于huggingface transformer架构作为预测下一个物品的基础模型，并且进一步探索了因果LM、MLM、排列LM和替换令牌检测四种不同的LM训练任务。这两种方法为LM-based推荐奠定了基础。

Pre-train, fine-tune holistic(整体) model

模型经过预训练，并使用不同的数据源进行微调，微调对整个模型参数进行调整。APIRecX采用分段的源API代码预训练GPT模型，然后利用来自另一个库的API代码片段对预训练的GPT模型进行微调，已实现跨库推荐。RecInDial使用领域特定的数据集微调预训练会话推荐模型DialoGPT，以此注入DBpedia中的知识以提高推荐性能。SpeedyFeed对PTM进行微调，使其与用户嵌入部分一起学习新闻嵌入，以自回归的方式进行新闻推荐。他们也探索了不同的微调策略，比如调整PTM的一部分、调整PTM的最后一层，但根据经验，通常微调整个模型会使模型性能更好，这让我们对平衡推荐精度和训练效率有了更深入的了解。

Pre-train, fine-tune partial model

因为微调整个模型通常非常耗时且灵活性差，许多LMRSs选择对模型部分参数进行微调，已实现训练开销和推荐性能之间的平衡（UniSRec，Tiny-newsrec，Mm-rec）。例如，为了解决BERT为general texts引入非平滑各向异性语义空间，导致来自不同领域项目的文本存在很大的语言差距的问题，UniSRec应用线性转换层对来自不同领域项目的BERT表示进行转换，然后采用自适应组合策略推导出通用项目表示来处理领域偏差问题。同时，考虑从多个领域特定的行为模式中学习可能会出现一种冲突的“跷跷板”现象，他们提出了序列-物品、序列-序列对比任务，以在预训练阶段进行多任务学习。他们发现，只要对模型参数的一小部分进行微调，就可以快速地使模型适应冷启动或新项目的未知领域。

Pre-train, fine-tune extra part of the model

随着PTMs深度的增加，他们捕获的表示使得下游推荐任务更加容易。除了上面提到的两种微调策略，还有一些方法利用PTMs之外的任务特定层来进行推荐任务，通过优化特定任务层的参数，微调几乎不涉及PTMs的其他部分。G-BERT首先预训练了GPT和BERT模型来学习访问患者历史记录的嵌入，然后将其作为输入对额外的预测层进行微调，以进行药物推荐。另一种方式是在微调阶段使用PTM初始化一个有相似架构的新模型，并使用调优后的模型进行推荐。S3-Rec首先以自监督的方式在四个不同的学习目标上（关联属性预测、遮盖物品预测、遮盖属性预测和段预测）预训练一个双向transformer-based模型，以学习物品嵌入。然后，利用学习到的模型参数初始化一个单向transformer-based模型，使用pairwise rank loss进行微调。

4.2 Prompting paradigm

与其通过设计特定的目标函数使PLMs适应不同的下游推荐任务，“pre-train, prompt and inference” 通过hard/soft prompt 重新定义下游推荐任务，这一趋势逐渐开始取代“pre-train, fine-tune and inference” 并成为多个推荐任务的重要训练范式。该范式中，可以通过特定与领域的训练目标来避免微调。预训练的模型本身可以直接用于预测下一个物品，产生推荐解释、进行对话、在编码时为程序员推荐相似的数学问题或库、甚至输出与推荐目标相关的子任务（如解释【Personalized Prompt Learning for Explainable Recommendation】）

prompt learning打破了数据约束的问题，弥补了预训练和微调之间客观形式的差距。prompts可以分为hard/discrete prompts或soft continuous prompts，前者通常使用人工设计的人类可读的文本模板，而后者由几个连续可学习的嵌入组成。

Fixed-PTM prompt tuning

提示调优只需要为提示和标签参数调优一小部分参数，这对few-shot推荐任务非常有效。尽管在不显著改变PTM结构和参数的情况下构建提示信息可以获得很好的结果，但也需要选择合适的prompt template和verbalizer(语言器)，这可能会极大地影响推荐性能。prompt tuning可以是更易读的离散文本模板（BERT for CR），也可以是软连续向量（UniCRS、PPR），例如，BERT for CR手动设计了几个提示模板，在预先训练的BERT模型上测试电影/书籍推荐的性能。PPR则提出了一种个性化提示生成器，用于生成软提示作为用户行为序列之前的前缀，用于序列推荐。

Fixed-prompt PTM tuning

固定提示PTM调优对PTMs的参数进行调优，类似于“pre-train, fine-tune”策略，但会额外使用带有固定参数的prompts来指导推荐任务。提示可以是一个或多个tokens，指示不同的任务，包括推荐UniMIND从不同的统一目标，如闲聊、对话推荐和问答，到相同的sequence-to-sequence模型，并设计了提示令牌以无缝地从各种问题转移/引导对话。该模型采用多任务学习模式进行训练，并在相同的目标下进行参数优化。MESE设计了一个[REC]令牌作为提示，以指示推荐过程的开始，并总结对话推荐的对话上下文。

Tuning-free prompting

这种训练策略可以被称为zero-shot推荐，可以在不改变PTMs的参数的情况下，只基于输入提示直接生成推荐任务或相关子任务结果。一些研究工作已经验证了zero-shot推荐在单域或跨域场景中处理新用户/物品的能力（zero-shot RS、RLP）。其中，RLP在预训练中使用相同的负对数似然(Negative Log-likelihood, NLL)训练，统一学习了多项任务（如顺序推荐、评分预测、解释生成、综述总结和直接推荐等）。在推理阶段，将一系列精心设计的离散文本模板提示作为输入，包括询问新领域中推荐物品（未出现在预训练阶段），经过训练的模型输出较好的结果，无需进行微调。zero-shot推荐之所以具有这种能力，是因为训练数据和预训练任务能够从不同的模式中提炼出丰富的语义和相关性知识，并将其转化为能够理解用户偏好行为的用户和物品tokens

Prompt+PTM tuning

在这个类别中，参数包括两部分：prompt-relevant参数和模型参数，微调阶段通过优化特定推荐任务的所有参数来执行。与“pre-train，fine-tune the holistic model”不同，Prompt+PTM tuning能够在模型训练开始时提供额外的bootstrapping(引导)。比如，PPL提出了一种连续提示学习方法，首先固定PTM，微调prompt以弥合连续提示与加载PTM之间的差距，然后对prompt和PTM进行微调，从而获得更高的BLUE分数。他们结合discrete prompts(三个用户、物品特征关键词，如健身房、早餐和WiFi)和 soft prompts(用户、物品嵌入)来生成推荐解释。研究表明，所提出的prompts在生成解释的可读性和流畅性方面得到了改进。注意，Prompt+PTM tuning阶段并不一定是指微调阶段，可以是针对特定数据输入从双方调优参数的任何可能的阶段。PRL通过学习奖励状态对作为soft prompts来编码训练期间观察到的动作，将强化学习框架作为Prompt+PTM tuning策略。在推理阶段，经过训练的prompt生成器可以直接为推荐模型生成软提示嵌入，以生成动作(物品)。

尽管“pre-train, fine-tune”和“pre-train, prompt”训练策略在推荐领域已经取得了一些进步，但研究仍处于起步阶段，在同一平台上比较不同训练策略在推荐任务上的表现还需要做更多的工作。

待续......

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
程序员如何在AI时代保持核心竞争力 nfgo chatgpt 人工智能
程序员如何在AI时代保持核心竞争力随着AIGC（如ChatGPT、MidJourney、Claude等）大语言模型的相继涌现，AI辅助编程工具逐渐普及，程序员的工作方式正在发生深刻的变革。AI不仅能够自动生成代码，还能优化、调试、甚至提出解决方案。这一趋势让许多人担心：AI会不会最终取代部分编程工作？然而，也有人认为AI是提升效率的得力助手。那么，程序员在这个AI崛起的时代该如何应对？是专注某个领
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
腾讯发表多模态综述，一文详解多模态大模型存内计算开发者社区多模态大模型人工智能 chatgpt AIGC 量子计算 AI-native gpt agi
多模态大语言模型（MLLM）是近年来兴起的一个新的研究热点，它利用强大的大语言模型作为大脑来执行多模态任务。MLLM令人惊讶的新兴能力，如基于图像写故事和无OCR的数学推理，在传统方法中是罕见的，这表明了一条通往人工通用智能的潜在道路。在本文中，追踪多模态大模型最新热点，讨论多模态关键技术以及现有在情绪识别上的应用。腾讯AILab发表了一篇关于多模态大模型的最新综述《MM-LLMs:RecentA
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name

【综述】Pre-train, Prompt and Recommendation: A Comprehensive Survey of Language Modelling Paradigm

摘要

1. Introduction

2. Generic Architecture of LMRS

3. Data Types

4. LMRS Training Strategies

4.1 Pre-train, fine-tune paradigm

4.2 Prompting paradigm

你可能感兴趣的:(语言模型,人工智能,深度学习)