hitrjj

【AI视野·今日NLP 自然语言处理论文速览第七十六期】Fri, 12 Jan 2024

AI视野·今日CS.NLP 自然语言处理论文速览
Fri, 12 Jan 2024
Totally 60 papers
上期速览✈更多精彩请移步主页

Daily Computation and Language Papers

Axis Tour: Word Tour Determines the Order of Axes in ICA-transformed Embeddings
Authors Hiroaki Yamagiwa, Yusuke Takase, Hidetoshi Shimodaira
词嵌入是自然语言处理中最重要的组成部分之一，但解释高维嵌入仍然是一个具有挑战性的问题。为了解决这个问题，独立成分分析ICA被认为是一种有效的解决方案。 ICA 转换后的词嵌入揭示了可解释的语义轴，但是这些轴的顺序是任意的。在本研究中，我们关注这一属性并提出了一种新方法“Axis Tour”，它可以优化轴的顺序。受到一维词嵌入方法 Word Tour 的启发，我们的目标是通过最大化轴的语义连续性来提高词嵌入空间的清晰度。

Transformers are Multi-State RNNs
Authors Matanel Oren, Michael Hassid, Yossi Adi, Roy Schwartz
与上一代最先进的 NLP 模型循环神经网络 RNN 相比，Transformer 在概念上被认为是不同的。在这项工作中，我们证明了仅解码器的 Transformer 实际上可以被概念化为无限多状态 RNN，即具有无限隐藏状态大小的 RNN 变体。我们进一步表明，通过固定隐藏状态的大小，预训练的 Transformer 可以转换为 textit 有限多状态 RNN。我们观察到一些现有的转换器缓存压缩技术可以被构建为这样的转换策略，并引入一种新的策略 TOVA，它比这些策略更简单。我们对多个远程任务进行的实验表明，TOVA 优于所有其他基线策略，同时几乎与完整的无限模型相当，并且在某些情况下仅使用原始缓存大小的 frac 1 8 。我们的结果表明，变压器解码器 LLM 在实践中通常表现为 RNN。他们还提出了缓解最痛苦的计算瓶颈之一（即缓存大小）的选项。

Patchscope: A Unifying Framework for Inspecting Hidden Representations of Language Models
Authors Asma Ghandeharioun, Avi Caciularu, Adam Pearce, Lucas Dixon, Mor Geva
检查大型语言模型隐藏表示中编码的信息 LLM 可以解释模型行为并验证其与人类价值观的一致性。鉴于法学硕士生成人类可理解文本的能力，我们建议利用模型本身来解释其自然语言的内部表示。我们介绍了一个名为 Patchscopes 的框架，并展示了如何使用它来回答有关法学硕士计算的广泛研究问题。我们表明，基于将表示投影到词汇空间并干预 LLM 计算的先前可解释性方法可以被视为该框架的特殊实例。此外，它们的一些缺点，例如无法检查早期层或缺乏表现力，可以通过 Patchscope 来缓解。

Autocompletion of Chief Complaints in the Electronic Health Records using Large Language Models
Authors K M Sajjadul Islam, Ayesha Siddika Nipu, Praveen Madiraju, Priya Deshpande
主诉 CC 是患者医疗记录的重要组成部分，因为它描述了寻求医疗护理的主要原因或担忧。它为医疗保健提供者提供关键信息，以做出有关患者护理的明智决策。然而，对于医疗保健提供者来说，记录 CC 可能非常耗时，尤其是在繁忙的急诊科。为了解决这个问题，自动完成工具可以为临床记录提供准确且格式良好的短语或句子，这对于分诊护士来说可能是宝贵的资源。在本研究中，我们利用文本生成技术来开发使用 CC 数据的机器学习模型。在我们提出的工作中，我们训练了一个长短期记忆 LSTM 模型，并对生物医学生成预训练 Transformers BioGPT 的三种不同变体进行了微调，即 microsoft biogpt、microsoft BioGPT Large 和 microsoft BioGPT Large PubMedQA。此外，我们利用 GPT 4 的 OpenAI API，通过合并示例 CC 句子来调整提示。我们根据困惑度得分、修改后的 BERTScore 和余弦相似度得分来评估模型性能。结果表明，与其他模型相比，BioGPT Large 表现出优越的性能。在生成 CC 时，它始终实现了 1.65 的非常低的困惑度分数，而基线 LSTM 模型实现了 170 的最佳困惑度分数。此外，我们评估和评估了所提出的模型性能和 GPT 4.0 的结果。

Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint
Authors Zhipeng Chen, Kun Zhou, Wayne Xin Zhao, Junchen Wan, Fuzheng Zhang, Di Zhang, Ji Rong Wen
强化学习 RL 已广泛用于训练大型语言模型 LLM，以防止意外输出，例如减少危害和错误。然而，现有的强化学习方法大多采用实例级奖励，无法为复杂的推理任务提供细粒度的监督，也无法关注导致错误的少数关键标记。为了解决这个问题，我们提出了一种名为 textbf RLMEC 的新 RL 方法，该方法采用生成模型作为奖励模型，该模型在最小编辑约束下通过错误解决方案重写任务进行训练，并且可以为 RL 训练产生令牌级别的奖励。基于生成奖励模型，我们设计了用于训练的代币级 RL 目标，以及用于稳定 RL 过程的基于模仿的正则化。这两个目标都集中在学习错误解决方案的关键标记，减少其他不重要标记的影响。数学任务和问答任务的实验结果证明了我们方法的有效性。

DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models
Authors Damai Dai, Chengqi Deng, Chenggang Zhao, R.X. Xu, Huazuo Gao, Deli Chen, Jiashi Li, Wangding Zeng, Xingkai Yu, Y. Wu, Zhenda Xie, Y.K. Li, Panpan Huang, Fuli Luo, Chong Ruan, Zhifang Sui, Wenfeng Liang
在大型语言模型时代，Mixture of Experts MoE 是一种很有前途的架构，用于在扩展模型参数时管理计算成本。然而，像 GShard 这样的传统 MoE 架构会激活 N 个专家中的前 K 个，但在确保专家专业化方面面临着挑战，即每个专家都获得不重叠且有针对性的知识。作为回应，我们提出了 DeepSeekMoE 架构，以实现最终的专家专业化。它涉及两个主要策略 1 将专家精细分割为 mN 个专家并从中激活 mK，从而允许更灵活地组合激活的专家 2 将 K 个专家隔离为共享专家，旨在捕获共同知识并减少路由专家中的冗余。从具有 2B 参数的适度规模开始，我们证明 DeepSeekMoE 2B 实现了与 GShard 2.9B 相当的性能，后者的参数和计算量是专家参数和计算的 1.5 倍。此外，DeepSeekMoE 2B 在总参数数量相同的情况下几乎接近其密集对应模型的性能，这设定了 MoE 模型的上限。随后，我们将 DeepSeekMoE 扩展到 16B 参数，并表明它只需要大约 40 次计算即可达到与 LLaMA2 7B 相当的性能。

Investigating Data Contamination for Pre-training Language Models
Authors Minhao Jiang, Ken Ziyu Liu, Ming Zhong, Rylan Schaeffer, Siru Ouyang, Jiawei Han, Sanmi Koyejo
在网络规模的语料库上预先训练的语言模型在各种下游任务上展示了令人印象深刻的能力。然而，人们越来越担心这种能力是否可能是由于预训练语料库中包含的评估数据集而产生的，这种现象被称为 textit 数据污染，以人为提高性能的方式出现。人们对这种潜在污染如何影响语言模型在下游任务中的表现知之甚少。在本文中，我们通过从头开始预训练一系列 GPT 2 模型 textit 来探索预训练阶段数据污染的影响。我们强调文本污染 textit（即评估样本的输入文本）和地面真实污染 textit（即对输入询问的提示和评估数据的所需输出）的影响。我们还研究了重复污染对各种下游任务的影响。此外，我们还检查了当前法学硕士报告中流行的基于 n gram 的污染定义，指出了它们的局限性和不足。

LinguAlchemy: Fusing Typological and Geographical Elements for Unseen Language Generalization
Authors Muhammad Farid Adilazuarda, Samuel Cahyawijaya, Alham Fikri Aji, Genta Indra Winata, Ayu Purwarianti
预训练语言模型 PLM 对多种任务和语言表现出了卓越的泛化能力。尽管如此，PLM 对未见过的语言的泛化能力很差，导致语言性能明显较差，甚至产生与随机基线相当的无意义响应。这种限制一直是 PLM 长期存在的问题，引发了语言建模技术的多样性和平等访问问题。在这项工作中，我们通过引入 LinguAlchemy 来解决这一限制，这是一种正则化技术，它结合了语言的各个方面，涵盖类型学、地理和系统发育，约束 PLM 的结果表示，以更好地表征相应的语言学约束。与完全微调的模型相比，LinguAlchemy 将 mBERT 和 XLM R 在未见过的语言上的准确性性能分别显着提高了 18 和 2，并显示出高度的未见语言泛化。我们进一步介绍了 AlchemyScale 和 AlchemyTune，它们是 LinguAlchemy 的扩展，可自动调整语言正则化权重，从而减轻超参数搜索的需要。

Combating Adversarial Attacks with Multi-Agent Debate
Authors Steffi Chern, Zhen Fan, Andy Liu

Block-Diagonal Orthogonal Relation and Matrix Entity for Knowledge Graph Embedding
Authors Yihua Zhu, Hidetoshi Shimodaira
知识图嵌入 KGE 的主要目的是学习实体和关系的低维表示，以预测缺失的事实。虽然 RotatE 和 QuatE 等基于旋转的方法在 KGE 中表现良好，但它们面临着两个挑战：有限的模型灵活性，需要按比例增加关系大小与实体维度，以及将模型推广到更高维度旋转的困难。为了解决这些问题，我们引入了 OrthogonalE，这是一种新颖的 KGE 模型，采用实体矩阵和块对角正交矩阵以及关系黎曼优化。这种方法增强了 KGE 模型的通用性和灵活性。

LLM-as-a-Coauthor: The Challenges of Detecting LLM-Human Mixcase
Authors Chujie Gao, Dongping Chen, Qihui Zhang, Yue Huang, Yao Wan, Lichao Sun
随着大型语言模型LLM的显着发展和广泛应用，机器生成文本MGT的使用变得越来越普遍。这种趋势带来了潜在的风险，尤其是新闻、教育等领域信息的质量和完整性。目前的研究主要针对纯 MGT 的检测，而没有充分解决混合场景，包括人工智能修订的人类书面文本 HWT 或人类修订的 MGT。为了应对这一挑战，我们引入了 mixcase，这是一个代表混合文本形式的新概念，涉及机器生成和人类生成的内容。我们收集了多个日常文本编辑场景生成的 mixcase 实例，并组成了 MixSet，这是第一个致力于研究这些混合修改场景的数据集。我们进行实验来评估流行的 MGT 检测器的功效，评估其有效性、鲁棒性和泛化性能。我们的研究结果表明，现有的检测器很难将 mixcase 识别为单独的类或 MGT，特别是在处理细微的修改和风格适应性方面。这项研究强调了对针对混合情况定制的更细粒度探测器的迫切需求，为未来的研究提供了宝贵的见解。

Universal Vulnerabilities in Large Language Models: In-context Learning Backdoor Attacks
Authors Shuai Zhao, Meihuizi Jia, Luu Anh Tuan, Jinming Wen
在上下文学习中，一种弥合预训练和微调之间差距的范式已在多个 NLP 任务中表现出高效能，尤其是在少数镜头设置中。与传统的微调方法不同，上下文学习使预先训练的模型适应看不见的任务，而无需更新任何参数。尽管应用广泛，但情境学习很容易受到恶意攻击。在这项工作中，我们提出了有关此范例的安全问题。我们的研究表明，攻击者可以通过毒害演示上下文来操纵大型语言模型的行为，而无需对模型进行微调。具体来说，我们设计了一种新的后门攻击方法，名为 ICLAtack，针对基于上下文学习的大型语言模型。我们的方法包含两种类型的攻击中毒演示示例和中毒提示，这可以使模型按照预定义的意图行事。 ICLAtack 不需要额外的微调来植入后门，从而保留了模型的通用性。此外，中毒的例子被正确标记，增强了我们的攻击方法的自然隐蔽性。跨多种语言模型的广泛实验结果（参数大小从 1.3B 到 40B 不等）证明了我们的攻击方法的有效性，OPT 模型上的三个数据集的平均攻击成功率高达 95.0。

SH2: Self-Highlighted Hesitation Helps You Decode More Truthfully
Authors Jushi Kai, Tianhang Zhang, Hai Hu, Zhouhan Lin
大型语言模型法学硕士在文本生成方面表现出了出色的性能。然而，法学硕士仍然饱受幻觉之苦。在这项工作中，我们提出了一种推理时间方法，自我突出的犹豫 SH2 ，以帮助法学硕士更真实地解码。 SH2 基于信息论中的一个简单事实，即对于法学硕士来说，以较低概率预测的标记往往比其他标记提供更多信息。我们的分析表明，法学硕士分配的概率较低的标记更有可能与事实信息密切相关，例如名词、专有名词和形容词。因此，我们建议通过选择概率最低的标记并将它们连接到原始上下文来突出事实信息，从而迫使模型在生成之前反复读取和犹豫这些标记。在解码过程中，我们还采用对比解码来强调犹豫带来的输出概率的差异。实验结果表明，我们的 SH2 不需要额外的数据或模型，可以有效地帮助法学硕士获得事实知识并区分幻觉背景。

Mitigating Unhelpfulness in Emotional Support Conversations with Multifaceted AI Feedback
Authors Jiashuo Wang, Chunpu Xu, Chak Tou Leong, Wenjie Li, Jing Li
情感支持对话系统旨在减轻用户的情绪困扰并帮助他们应对挑战。为了产生支持性反应，关键是要考虑多种因素，例如同理心、支持策略和反应一致性，如先前方法中所建立的那样。尽管如此，以前的模型偶尔会产生无益的响应，这些响应旨在提供支持，但会产生适得其反的效果。根据心理学和传播理论，仅在一个影响因素中表现不佳可能会导致反应无济于事。从模型训练的角度来看，由于这些模型在训练阶段没有遇到无用的响应，因此它们无法区分它们生成的标记是否可能在推理过程中导致无用的响应。为了解决这个问题，我们引入了一种新颖的模型不可知框架，名为 Muffin 通过多方面的 AI 反馈来缓解无助情绪支持。具体来说，Muffin 采用多方面的人工智能反馈模块来评估特定模型生成的响应的有用性，并考虑多种因素。使用对比学习，与有用的响应相比，它可以降低模型生成无用响应的可能性。

How Teachers Can Use Large Language Models and Bloom's Taxonomy to Create Educational Quizzes
Authors Sabina Elkins, Ekaterina Kochmar, Jackie C.K. Cheung, Iulian Serban
问题生成 QG 是一项自然语言处理任务，在教育领域具有丰富的潜在好处和用例。为了实现这一潜力，QG 系统的设计和验证必须考虑到教学需求。然而，很少有研究根据真实教师或学生的意见来评估或设计 QG 方法。本文应用基于 QG 方法的大型语言模型，其中问题是根据从 Bloom 分类法得出的学习目标生成的。自动生成的问题用于多个实验，旨在评估教师在实践中如何使用它们。结果表明，教师更喜欢用自动生成的问题编写测验，并且与手写版本相比，此类测验的质量没有损失。

Prompt-based mental health screening from social media text
Authors Wesley Ramos dos Santos, Ivandre Paraboni
本文提出了一种从大量且嘈杂的社交媒体文本数据集中进行基于提示的心理健康筛查的方法。我们的方法使用 GPT 3.5。提示区分可能与任务更相关的出版物，然后使用简单的词袋文本分类器来预测实际的用户标签。

EpilepsyLLM: Domain-Specific Large Language Model Fine-tuned with Epilepsy Medical Knowledge
Authors Xuyang Zhao, Qibin Zhao, Toshihisa Tanaka
凭借庞大的训练数据集和海量的计算源，大型语言模型法学硕士在综合能力和生成能力方面表现出色。基于这些强大的LLM，通过特定领域的数据集进行微调的模型拥有更专业的知识，因此比医学LLM更实用。然而，现有的微调医学法学硕士仅限于英语的一般医学知识。对于特定疾病的问题，模型的响应不准确，有时甚至完全无关，尤其是在使用英语以外的语言时。在这项工作中，我们专注于日语中的癫痫这一特殊疾病，并引入了名为 EpilepsyLLM 的定制法学硕士。我们的模型是通过使用癫痫领域的数据集进行微调技术，从预先训练的法学硕士进行训练的。数据集包含疾病的基本信息、常用治疗方法和药物的知识以及生活和工作中的重要注意事项。

Generative Deduplication For Socia Media Data Selection
Authors Xianming Li, Jing Li
社交媒体数据因其噪声性质而受到冗余问题的困扰，导致训练时间增加和模型偏差。为了解决这个问题，我们提出了一种称为生成复制的新方法。它的目的是从嘈杂的社交媒体数据中删除重复的文本并减轻模型偏差。通过这样做，它可以提高社交媒体语言理解性能并节省培训时间。大量实验表明，所提出的生成重复数据删除可以有效减少训练样本，同时提高性能。

Enhancing Personality Recognition in Dialogue by Data Augmentation and Heterogeneous Conversational Graph Networks
Authors Yahui Fu, Haiyue Song, Tianyu Zhao, Tatsuya Kawahara
个性识别有助于增强机器人定制用户自适应响应的能力，从而促进丰富的人机交互。这项任务的挑战之一是现有对话语料库中说话者的数量有限，这阻碍了稳健的、独立于说话者的个性识别模型的开发。此外，准确地建模对话者之间的相互依赖关系和对话中说话者内部的依赖关系仍然是一个重要的问题。为了解决第一个挑战，我们引入了用于说话者数据增强的人格特质插值。对于第二个，我们提出异构会话图网络来独立捕获上下文影响和固有的个性特征。

Towards Boosting Many-to-Many Multilingual Machine Translation with Large Language Models
Authors Pengzhi Gao, Zhongjun He, Hua Wu, Haifeng Wang
机器翻译的训练范式逐渐转变，从学习具有广泛并行语料库的神经机器翻译 NMT 模型，到在具有高质量翻译对的预训练多语言大语言模型 LLM 上进行指令微调。在本文中，我们专注于提高法学硕士的多对多多语言翻译性能，重点是零镜头翻译方向。我们证明，在指令微调期间采取的即时策略对于零镜头翻译性能至关重要，并引入跨语言一致性正则化 XConST，以弥合不同语言之间的表示差距并提高零镜头翻译性能。 XConST 不是一种新方法，而是 CrossConST Taka et al., 2023a 的一个版本，适用于带有翻译指令的 LLM 上的多语言微调。 ALMA Xu et al., 2023 和 LLaMA 2 Touvron et al., 2023 的实验结果表明，我们的方法持续提高了翻译性能。

Hallucination Benchmark in Medical Visual Question Answering
Authors Jinge Wu, Yunsoo Kim, Honghan Wu
最近，大型语言和视觉模型在视觉问答 VQA 上取得的成功，特别是它们在医学 Med VQA 中的应用，显示出实现医疗保健有效视觉助手的巨大潜力。然而，这些模型并未在临床环境中对幻觉现象进行广泛的测试。在这里，我们创建了与问题答案集配对的医学图像的幻觉基准，并对最先进的模型进行了全面评估。

Tuning LLMs with Contrastive Alignment Instructions for Machine Translation in Unseen, Low-resource Languages
Authors Zhuoyuan Mao, Yen Yu
本文介绍了对比对齐指令 AlignInstruct，以解决大型语言模型 LLM 上机器翻译 MT 的两个挑战。一是将支持的语言扩展到以前未见过的语言。第二个与缺乏资源语言的数据有关。通过 MT 指令进行模型微调 MTInstruct 是应对第一个挑战的简单方法。然而，MTInstruct 受到第二个挑战中固有的弱跨语言信号的限制。 AlignInstruct 强调通过使用统计单词对齐构建的跨语言鉴别器进行跨语言监督。我们的结果基于对最多 24 种未见过的语言对 BLOOMZ 模型 1b1、3b 和 7b1 进行微调，结果表明 1 法学硕士可以使用 MTInstruct 有效地翻译未见的语言 2 AlignInstruct 导致涉及英语的 48 个翻译方向的翻译质量得到持续改进 3 基于判别器

Designing Heterogeneous LLM Agents for Financial Sentiment Analysis
Authors Frank Xing
大型语言模型法学硕士极大地改变了设计智能系统的可能方法，将重点从海量数据采集和新的建模训练转移到人类对齐和战略性激发现有预训练模型的全部潜力。然而，由于这项任务的歧视性以及缺乏如何在这种背景下利用生成模型的规范性知识，这种范式转变在金融情绪分析 FSA 中并未完全实现。本研究调查了新范式的有效性，即使用法学硕士而不对 FSA 进行微调。植根于明斯基的心灵和情感理论，提出了一种具有异构 LLM 代理的设计框架。该框架使用 FSA 错误类型的先验领域知识以及聚合代理讨论的原因来实例化专用代理。对 FSA 数据集的综合评估表明，该框架具有更好的准确性，特别是在讨论大量时。这项研究有助于奠定设计基础，并为基于 FSA 的法学硕士铺平新途径。

Discovering Low-rank Subspaces for Language-agnostic Multilingual Representations
Authors Zhihui Xie, Handong Zhao, Tong Yu, Shuai Li
大型预训练多语言语言模型 ML LM 在无需直接跨语言监督的情况下表现出了卓越的零样本跨语言迁移能力。虽然这些结果很有希望，但后续工作发现，在多语言嵌入空间内，存在强大的语言身份信息，阻碍了跨语言共享的语言因素的表达。对于跨语言句子检索等语义任务，需要去除此类语言标识信号以充分利用语义信息。在这项工作中，我们提供了一种从多语言嵌入空间中投射出语言特定因素的新颖观点。具体来说，我们发现存在一个低秩子空间，主要编码与语义无关的信息，例如句法信息。为了识别这个子空间，我们提出了一种简单但有效的无监督方法，该方法基于以多个单语语料库作为输入的奇异值分解。一旦找到子空间，我们就可以直接将原始嵌入投影到零空间中，以增强语言不可知论，而无需进行微调。我们系统地评估我们在各种任务上的方法，包括具有挑战性的语言无关的 QA 检索任务。

Evidence to Generate (E2G): A Single-agent Two-step Prompting for Context Grounded and Retrieval Augmented Reasoning
Authors Md Rizwan Parvez
虽然思想链 CoT 提示彻底改变了 LLM 执行推理任务的方式，但其当前的方法和变体，例如自我一致性、ReACT、反射、思想树 ToT、累积推理 CR 受到诸如缓慢、有限的上下文基础、幻觉和不一致的输出等限制。。为了克服这些挑战，我们引入了生成 E2G 的证据，这是一种新颖的单代理、两步提示框架。这种创新方法不是未经验证的推理主张，而是利用证据的力量进行决策，首先专门关注上下文中明确提到的一系列中间步骤的思维顺序，然后将其作为提取的证据，指导法学硕士的输出生成过程更高的精度和效率。这种简单而强大的方法释放了思维链的真正潜力，如提示，为法学硕士中更快、更可靠、更上下文相关的推理铺平了道路。该工具在广泛的知识密集型推理和生成任务中取得了显着的成果，超越了最先进的法学硕士的基线方法。例如，在使用 GPT 4 作为主干模型的 LogiQA 基准测试中，该工具达到了 53.8 的准确度新状态，CoT 超过 18，ToT 超过 11，CR 超过 9 ii E2G 的 PaLM2 变体优于 Gemini 的可变镜头性能

Risk Taxonomy, Mitigation, and Assessment Benchmarks of Large Language Model Systems
Authors Tianyu Cui, Yanling Wang, Chuanpu Fu, Yong Xiao, Sijia Li, Xinhao Deng, Yunpeng Liu, Qinglin Zhang, Ziyi Qiu, Peiyang Li, Zhixing Tan, Junwu Xiong, Xinyu Kong, Zujie Wen, Ke Xu, Qi Li
大型语言模型法学硕士在解决各种自然语言处理任务方面具有强大的能力。然而，LLM系统的安全保障问题已成为其广泛应用的主要障碍。许多研究广泛调查了法学硕士系统的风险并制定了相应的缓解策略。 OpenAI、Google、Meta、Anthropic等前沿企业也为负责任的LLM做出了很多努力。因此，越来越需要组织现有的研究并为社区建立全面的分类法。在本文中，我们深入研究了LLM系统的四个基本模块，包括用于接收提示的输入模块、在广泛语料库上训练的语言模型、用于开发和部署的工具链模块以及用于导出LLM生成内容的输出模块。在此基础上，我们提出了一个全面的分类法，系统地分析了LLM系统每个模块相关的潜在风险，并讨论了相应的缓解策略。此外，我们审查流行的基准，旨在促进法学硕士系统的风险评估。

Probing Structured Semantics Understanding and Generation of Language Models via Question Answering
Authors Jinxin Liu, Shulin Cao, Jiaxin Shi, Tingjian Zhang, Lei Hou, Juanzi Li
最近大型语言模型法学硕士能力的进步引发了法学硕士评估的新一轮激增。最近的评估工作倾向于评估法学硕士在一系列任务上的综合能力。然而，自然语言的深层结构理解却很少被探索。在这项工作中，我们研究了法学硕士在人类构建的形式语言的帮助下处理问答任务中的结构化语义的能力。具体来说，我们通过法学硕士的情境学习实现自然语言和形式语言的相互转换，以验证他们理解和生成结构化逻辑形式的能力。对不同大小和不同形式语言的模型进行的大量实验表明，当今最先进的法学硕士对逻辑形式的理解总体上可以接近人类水平，但在生成正确的逻辑形式方面仍然有很大的空间，这表明它是使用法学硕士生成更多自然语言训练数据来强化小型模型比直接使用法学硕士回答问题更有效。此外，我们的结果还表明模型对不同的形式语言表现出相当的敏感性。

A Shocking Amount of the Web is Machine Translated: Insights from Multi-Way Parallelism
Authors Brian Thompson, Mehak Preet Dhaliwal, Peter Frisch, Tobias Domhan, Marcello Federico
我们发现网络上的内容通常被翻译成多种语言，而这些多向翻译的低质量表明它们很可能是使用机器翻译 MT 创建的。多路并行、机器生成的内容不仅在低资源语言的翻译中占主导地位，而且还构成了这些语言的总 Web 内容的很大一部分。我们还发现翻译成多种语言的内容类型存在选择偏差的证据，这与通过机器翻译将低质量英语内容批量翻译成许多较低资源语言的情况一致。

Cross-modal Retrieval for Knowledge-based Visual Question Answering
Authors Paul Lerner, Olivier Ferret LIST CEA , DIASI , Camille Guinaudeau
关于命名实体的基于知识的视觉问答是一项具有挑战性的任务，需要从多模式知识库中检索信息。命名实体具有不同的视觉表示，因此难以识别。我们认为，跨模态检索可能有助于弥合实体与其描述之间的语义差距，并且最重要的是与单模态检索的补充。我们通过在最近的 ViQuAE、InfoSeek 和 Encyclopedic VQA 数据集上使用多模态双编码器（即 CLIP）进行实验来提供经验证据。此外，我们研究了三种不同的策略来微调此类模型的单模态、跨模态或联合训练。

Zero Resource Cross-Lingual Part Of Speech Tagging
Authors Sahil Chopra
当没有可用的标记训练数据时，零资源设置中的词性标记可能是低资源语言的有效方法。现有系统使用两种主要技术进行词性标注，即预训练的多语言大语言模型 LLM 或将源语言标签投影到零资源目标语言并在其上训练序列标注模型。我们使用现成的对齐模块探索后一种方法，并训练隐马尔可夫模型 HMM 来预测 POS 标签。我们以英语作为源语言，以法语、德语和西班牙语作为词性标记的目标语言来评估迁移学习设置。

CAT-LLM: Prompting Large Language Models with Text Style Definition for Chinese Article-style Transfer
Authors Zhen Tao, Dinghao Xi, Zhiyu Li, Liumin Tang, Wei Xu
文本风格迁移在在线娱乐和社交媒体中日益突出。然而，现有的研究主要集中在单个英语句子内的风格迁移，而忽略了中文长文本的复杂性，这限制了风格迁移在数字媒体领域的更广泛的适用性。为了弥补这一差距，我们提出了一个中文文章风格转移框架 CAT LLM，利用大型语言模型 LLM 的功能。 CAT LLM包含定制的、可插拔的文本风格定义TSD模块，旨在全面分析文章中的文本特征，促使LLM高效迁移中文文章风格。 TSD模块集成了一系列机器学习算法，从单词和句子层面分析文章风格，从而帮助LLM在不损害原文完整性的情况下彻底掌握目标风格。此外，该模块支持内部样式树的动态扩展，具有强大的兼容性，并允许后续研究中的灵活优化。此外，我们选择了五篇风格独特的中文文章，并使用 ChatGPT 创建了五个并行数据集，提高了模型性能评估的准确性，并为评估后续文章风格迁移研究建立了一个新的范式。

R-BI: Regularized Batched Inputs enhance Incremental Decoding Framework for Low-Latency Simultaneous Speech Translation
Authors Jiaxin Guo, Zhanglin Wu, Zongyao Li, Hengchao Shang, Daimeng Wei, Xiaoyu Chen, Zhiqiang Rao, Shaojun Li, Hao Yang
增量解码是一种有效的框架，可以在同步设置中使用离线模型，而无需修改原始模型，使其适合低延迟同步语音翻译。然而，当系统从不完整的输入输出时，该框架可能会引入错误。为了减少这些输出误差，可以采用多种策略，例如 Hold n 、 LA n 和 SP n ，但需要仔细选择超参数 n 以获得最佳性能。此外，这些策略比级联系统更适合端到端系统。在我们的论文中，我们提出了一种新的适应性强且高效的策略，名为正则化批量输入。我们的方法通过增强输入多样性来减少输出错误而脱颖而出。我们建议针对端到端和级联系统使用特定的正则化技术。我们在 IWSLT 同步语音翻译 SimulST 任务上进行了实验，结果表明，与离线系统相比，我们的方法实现了低延迟，同时保持不超过 2 个 BLEU 点损失。

Integrating Physician Diagnostic Logic into Large Language Models: Preference Learning from Process Feedback
Authors Chengfeng Dou, Zhi Jin, Wenpin Jiao, Haiyan Zhao, Yongqiang Zhao, Zhenwei Tao
在医学对话生成中使用大型语言模型引起了广泛关注，重点是提高响应质量和流畅性。虽然之前的研究在优化单轮医疗问答任务的模型性能方面取得了进展，但仍需要增强模型的多轮对话能力，以避免逻辑不一致。为了解决这个问题，我们提出了一种称为从过程反馈中进行偏好学习 PLPF 的方法，它将医生的诊断逻辑集成到法学硕士中。 PLPF 涉及规则建模、偏好数据生成和偏好对齐，以训练模型遵循诊断过程。使用标准化患者测试的实验结果表明，PLPF 将医疗对话中基线模型的诊断准确性提高了 17.6 倍，优于基于人类反馈的传统强化学习。

UCorrect: An Unsupervised Framework for Automatic Speech Recognition Error Correction
Authors Jiaxin Guo, Minghan Wang, Xiaosong Qiao, Daimeng Wei, Hengchao Shang, Zongyao Li, Zhengzhe Yu, Yinglu Li, Chang Su, Min Zhang, Shimin Tao, Hao Yang
纠错技术已用于细化自动语音识别 ASR 模型的输出句子，并实现较低的单词错误率 WER。以往的工作通常采用端到端模型，对伪配对数据和原始配对数据有很强的依赖性。但当仅对伪配对数据进行预训练时，先前的模型对校正有负面影响。在对原始配对数据进行微调时，源端数据必须由训练有素的 ASR 模型进行转录，这需要大量时间且不通用。在本文中，我们提出了 UCorrect，一种用于 ASR 纠错的无监督检测器生成器选择器框架。 UCorrect 不依赖于前面提到的训练数据。整个过程首先检测字符是否错误，然后生成一些候选字符，最后选择最有把握的字符来替换错误字符。在公共 AISHELL 1 数据集和 WenetSpeech 数据集上的实验显示了 UCorrect 对于 ASR 纠错的有效性 1 它实现了显着的 WER 降低，即使没有微调也能达到 6.83，微调后达到 14.29 2 它大大优于流行的 NAR 校正模型

ConcEPT: Concept-Enhanced Pre-Training for Language Models
Authors Xintao Wang, Zhouhong Gu, Jiaqing Liang, Dakuan Lu, Yanghua Xiao, Wei Wang
预训练的语言模型 PLM 在最先进的自然语言处理方法中已经很流行，并且进一步提出了知识增强 PLM 以提高知识密集型任务中的模型性能。然而，概念知识作为人类认知的一种重要知识，在这一领域的研究仍然不够深入。这限制了 PLM 在需要类人认知的场景中的性能，例如通过概念理解长尾实体。在本文中，我们提出了 ConcEPT，它代表语言模型的概念增强预训练，将概念知识注入到 PLM 中。 ConcEPT 利用外部分类法和实体概念预测，这是一种新颖的预训练目标，用于预测预训练上下文中提到的实体的概念。与之前的概念增强方法不同，ConcEPT 可以轻松适应各种下游应用，无需实体链接或概念映射。

Unveiling the Tapestry of Automated Essay Scoring: A Comprehensive Investigation of Accuracy, Fairness, and Generalizability
Authors Kaixun Yang, Mladen Rakovi , Yuyang Li, Quanlong Guan, Dragan Ga evi , Guanliang Chen
自动论文评分 AES 是一项成熟的教育活动，它利用机器学习来评估学生撰写的论文。虽然在这一领域做出了很多努力，但当前的研究主要集中在提高 AES 模型对特定提示的预测准确性，即开发提示特定模型，这通常严重依赖于使用来自同一提示的标记数据。目标提示或 ii 评估在非目标提示上开发的 AES 模型对预期目标提示的适用性，即在交叉提示设置中开发 AES 模型。考虑到机器学习的固有偏差及其对边缘群体的潜在影响，有必要研究当前 AES 方法中是否存在这种偏差，如果存在，它如何影响 AES 模型的准确性和普遍性。因此，我们的研究旨在揭示 AES 模型的准确性、公平性和普遍性之间的复杂关系，为在现实世界教育中开发有效的 AES 模型提供实用见解。为此，我们精心挑选了九种著名的 AES 方法，并使用开源数据集的七个指标评估了它们的性能，该数据集包含超过 25,000 篇论文以及有关学生的各种人口统计信息，例如性别、英语学习者状况和经济状况。通过广泛的评估，我们证明 1 提示特定模型在预测准确性方面往往优于交叉提示模型 2 与交叉提示模型相比，提示特定模型经常对不同经济状况的学生表现出更大的偏见 3 在追求普遍性方面，

On Detecting Cherry-picking in News Coverage Using Large Language Models
Authors Israa Jaradat, Haiqi Zhang, Chengkai Li
择优挑选是指故意选择支持特定观点的证据或事实，而忽略或歪曲支持相反观点的证据。手动识别新闻报道中精选陈述的实例可能具有挑战性，特别是当反对观点的报道不存在时。这项研究引入了 Cherry，这是一种创新方法，通过查找目标新闻报道中缺失的重要陈述，自动检测新闻文章中精选的陈述。 Cherry 利用对多个来源的新闻报道进行分析来识别樱桃采摘的实例。我们的方法依赖于语言模型，该模型考虑其他新闻来源的上下文信息，根据语句对目标新闻报道中所涵盖事件的重要性对语句进行分类。此外，本研究引入了专门为樱桃采摘检测而设计的新颖数据集，用于训练和评估模型的性能。当对未见过的新闻报道进行测试时，我们表现最好的模型在检测重要陈述方面取得了约 89 分的 F 1 分数。

Natural Language Processing for Dialects of a Language: A Survey
Authors Aditya Joshi, Raj Dabre, Diptesh Kanojia, Zhuang Li, Haolan Zhan, Gholamreza Haffari, Doris Dippold
最先进的自然语言处理 NLP 模型在大规模训练语料库上进行训练，并在评估数据集上报告了卓越的性能。这项调查深入研究了这些数据集的一个重要属性——语言的方言。由于方言数据集 NLP 模型的性能下降及其对语言技术公平性的影响，我们从数据集和方法方面调查了过去的方言 NLP 研究。我们根据用于方言分类、情感分析、解析和 NLU 基准等任务的两类自然语言理解 NLU 以及用于摘要、机器翻译和对话系统的自然语言生成 NLG 来描述广泛的 NLP 任务。该调查的语言覆盖面也很广泛，包括英语、阿拉伯语、德语等。我们观察到，过去有关方言的 NLP 工作比单纯的方言分类更深入，并且。这包括使用句子转导的早期方法，这些方法导致了最近将超网络集成到 LoRA 中的方法。

The Benefits of a Concise Chain of Thought on Problem-Solving in Large Language Models
Authors Matthew Renze, Erhan Guven
在本文中，我们介绍简明思想链 CCoT 提示。我们比较了标准 CoT 和 CCoT 提示，以了解简洁性如何影响响应长度和正确答案的准确性。我们使用 GPT 3.5 和 GPT 4 以及多项选择问答 MCQA 基准对此进行了评估。 CCoT 将 GPT 3.5 和 GPT 4 的平均响应长度减少了 48.70，同时对问题解决性能的影响可以忽略不计。然而，在数学问题上，带有 CCoT 的 GPT 3.5 会导致性能损失 27.69 。总体而言，CCoT 使每个代币的平均成本降低了 22.67 美元。这些结果对于使用法学硕士的人工智能系统工程师通过 CoT 提示工程技术解决现实世界问题具有实际意义。

Scaling Laws for Forgetting When Fine-Tuning Large Language Models
Authors Damjan Kalajdzievski
我们研究并量化了在下游任务上微调预训练大型语言模型 LLM 时的遗忘问题。我们发现参数高效的微调 PEFT 策略，例如低秩适配器 LoRA，仍然遭受灾难性遗忘的困扰。特别是，当使用 LoRA 微调 LLM 时，我们发现微调性能和遗忘量之间存在很强的逆线性关系。我们进一步获得了精确的缩放定律，该定律表明遗忘随着微调参数数量和更新步骤数量的幂律变化而增加。我们还研究了遗忘对 Llama 2 7B 聊天中训练的知识、推理和安全护栏的影响。我们的研究表明，不能通过提前停止或改变微调参数的数量来避免遗忘。

REBUS: A Robust Evaluation Benchmark of Understanding Symbols
Authors Andrew Gritsevskiy, Arjun Panickssery, Aaron Kirtland, Derik Kauffman, Hans Gundlach, Irina Gritsevskaya, Joe Cavanagh, Jonathan Chiang, Lydia La Roux, Michelle Hung
我们提出了一个新的基准来评估多模式大语言模型在画画谜题上的性能。该数据集涵盖 333 个基于图像的文字游戏的原始示例，涵盖电影、作曲家、主要城市和食物等 13 个类别。为了在识别线索单词或短语的基准上取得良好的性能，模型必须将图像识别和字符串操作与假设检验、多步骤推理和对人类认知的理解结合起来，从而对能力进行复杂的多模式评估。我们发现 GPT 4V 和 Gemini Pro 等专有模型的性能明显优于所有其他测试模型。然而，即使是最好的模型，最终的准确率也仅为 24，这凸显了推理方面需要大幅改进的必要性。此外，模型很少理解谜题的所有部分，并且几乎总是无法追溯解释正确的答案。

POMP: Probability-driven Meta-graph Prompter for LLMs in Low-resource Unsupervised Neural Machine Translation
Authors Shilong Pan, Zhiliang Tian, Liang Ding, Zhen Huang, Zhihua Wen, Dongsheng Li
由于并行数据有限，低资源语言 LRL 在监督神经机器翻译方面面临挑战，这促使人们对无监督方法进行研究。无监督神经机器翻译 UNMT 方法，包括反向翻译、迁移学习和基于枢轴的翻译，为 LRL 翻译提供了实用的解决方案，但它们受到合成数据噪声、语言偏差和错误传播等问题的阻碍，这些问题可以通过以下方法来缓解：大型语言模型法学硕士。 LLM 拥有先进的 NMT，具有上下文学习 ICL 和监督微调方法，但训练数据不足会导致 LRL 的性能不佳。我们认为法学硕士可以通过辅助语言减轻语言噪音，从而改善 LRL 的翻译。在本文中，我们提出了概率驱动的元图提示器 POMP，这是一种采用动态、基于采样的多种辅助语言图来增强 LLM 对 LRL 的翻译能力的新颖方法。 POMP 涉及为每种源语言构建一个有向非循环元图，我们从中动态采样多个路径，以提示法学硕士在训练期间减轻语言噪音并改进翻译。我们使用 BLEURT 指标来评估翻译和反向传播奖励（通过分数估计），以更新路径中辅助语言的概率。

TrustLLM: Trustworthiness in Large Language Models
Authors Lichao Sun, Yue Huang, Haoran Wang, Siyuan Wu, Qihui Zhang, Chujie Gao, Yixin Huang, Wenhan Lyu, Yixuan Zhang, Xiner Li, Zhengliang Liu, Yixin Liu, Yijue Wang, Zhikun Zhang, Bhavya Kailkhura, Caiming Xiong, Chao Zhang, Chaowei Xiao, Chunyuan Li, Eric Xing, Furong Huang, Hao Liu, Heng Ji, Hongyi Wang, Huan Zhang, Huaxiu Yao, Manolis Kellis, Marinka Zitnik, Meng Jiang, Mohit Bansal, James Zou, Jian Pei, Jian Liu, Jianfeng Gao, Jiawei Han, Jieyu Zhao, Jiliang Tang, Jindong Wang, John Mitchell, Kai Shu, Kaidi Xu, Kai Wei Chang, Lifang He, Lifu Huang, Michael Backes, Neil Zhenqiang Gong, Philip S. Yu, Pin Yu Chen, Quanquan Gu, Ran Xu, Rex Ying, Shuiwang Ji, Suman Jana, Tianlong Chen, Tianming Liu, Tianyi Zhou, Willian Wang, Xiang Li, Xiangliang Zhang, Xiao Wang, Xing Xie, Xun Chen, Xuyu Wang, Yan Liu, Yanfang Ye, Yinzhi Cao, Yue Zhao
以 ChatGPT 为代表的大型语言模型 LLM 因其出色的自然语言处理能力而受到广泛关注。尽管如此，这些法学硕士提出了许多挑战，特别是在可信度领域。因此，确保LLM的可信度成为一个重要的话题。本文介绍了TrustLLM，这是一项关于法学硕士可信度的综合研究，包括不同可信度维度的原则、主流法学硕士可信度的建立基准、评估和分析，以及对开放挑战和未来方向的讨论。具体来说，我们首先提出了一套涵盖八个不同维度的值得信赖的法学硕士原则。基于这些原则，我们进一步建立了真实性、安全性、公平性、稳健性、隐私性和机器道德等六个维度的基准。然后，我们提出了一项评估 TrustLLM 中 16 个主流法学硕士的研究，其中包含 30 多个数据集。我们的研究结果首先表明，一般来说，可信度和效用（即功能有效性）呈正相关。其次，我们的观察表明，专有法学硕士在可信度方面通常优于大多数开源法学硕士，这引起了人们对广泛使用的开源法学硕士潜在风险的担忧。然而，一些开源法学硕士非常接近专有法学硕士。第三，值得注意的是，一些法学硕士可能会过度校准以表现出可信度，以至于他们错误地将良性提示视为有害提示，从而不予响应，从而损害了其效用。最后，我们强调不仅要确保模型本身的透明度，还要确保支撑可信度的技术的透明度。

Useful Blunders: Can Automated Speech Recognition Errors Improve Downstream Dementia Classification?
Authors Changye Li, Weizhe Xu, Trevor Cohen, Serguei Pakhomov
textbf 目标我们旨在研究自动语音识别 ASR 系统的错误如何影响痴呆症分类的准确性，特别是在 Cookie 盗窃图片描述任务中。

CodePrompt: Improving Source Code-Related Classification with Knowledge Features through Prompt Learning
Authors Yong Ma, Senlin Luo, Yu Ming Shang, Yifei Zhang, Zhengjun Li
研究人员探索了利用预先训练的语言模型（例如 CodeBERT）来改进源代码相关任务的潜力。之前的研究主要依靠CodeBERT的文本嵌入能力和CLS句子嵌入信息作为语义表示来微调下游源代码相关任务。然而，这些方法需要额外的神经网络层来提取有效特征，导致计算成本较高。此外，现有方法没有利用源代码和相关文本中包含的丰富知识，这可能导致准确性较低。本文提出了一种新颖的方法 CodePrompt，它利用通过提示学习和注意力机制从预训练模型中召回的丰富知识来改进与源代码相关的分类任务。我们的方法最初通过提示信息激发语言模型来检索与输入相关的丰富知识作为代表性特征，从而避免了对额外神经网络层的需要并降低了计算成本。随后，我们采用注意力机制来聚合每个任务的多层相关知识作为最终特征，以提高其准确性。

InfiAgent-DABench: Evaluating Agents on Data Analysis Tasks
Authors Xueyu Hu, Ziyu Zhao, Shuang Wei, Ziwei Chai, Guoyin Wang, Xuwu Wang, Jing Su, Jingjing Xu, Ming Zhu, Yao Cheng, Jianbo Yuan, Kun Kuang, Yang Yang, Hongxia Yang, Fei Wu
在本文中，我们介绍了 InfiAgent DABench，这是第一个专门设计用于评估数据分析任务中基于 LLM 的代理的基准测试。该基准测试包含 DAEval（一个由源自 55 个 CSV 文件的 311 个数据分析问题组成的数据集）以及一个用于评估 LLM 作为数据分析代理的代理框架。我们采用格式提示技术，确保问题是封闭式的，可以自动评估。我们对 23 个最先进的法学硕士进行了广泛的基准测试，揭示了当前数据分析任务中遇到的挑战。此外，我们还开发了 DAAgent，这是一种经过指令调整数据集训练的专门代理。

Enhancing Essay Scoring with Adversarial Weights Perturbation and Metric-specific AttentionPooling
Authors Jiaxin Huang, Xinyu Zhao, Chang Che, Qunwei Lin, Bo Liu
本研究的目的是通过利用机器学习、自然语言处理和教育数据分析等数据科学技术来改进为英语学习者 ELL 设计的自动反馈工具。自动论文评分 AES 研究在评估书面论文方面取得了长足进步，但它经常忽视英语学习者 ELL 在语言发展方面的特定需求。

TOFU: A Task of Fictitious Unlearning for LLMs
Authors Pratyush Maini, Zhili Feng, Avi Schwarzschild, Zachary C. Lipton, J. Zico Kolter
在来自网络的海量数据集上训练的大型语言模型可以记忆和复制敏感或私人数据，从而引起法律和道德问题。忘却或调整模型以忘记训练数据中存在的信息，为我们提供了一种在训练后保护私人数据的方法。尽管存在几种用于这种遗忘的方法，但尚不清楚它们在多大程度上会产生与最初从未学习过要遗忘的数据的模型相当的模型。为了应对这一挑战，我们提出了 TOFU，一项虚构的忘却任务，作为基准，旨在帮助加深我们对忘却的理解。我们提供了一个包含 200 个不同的合成作者个人资料的数据集，每个个人资料由 20 个问题答案对组成，这些个人资料的一个子集称为遗忘集，用作忘却的目标。我们编制了一套指标，这些指标共同作用，提供了遗忘效率的整体情况。最后，我们提供了一组来自现有遗忘算法的基线结果。

Extreme Compression of Large Language Models via Additive Quantization
Authors Vage Egiazarian, Andrei Panferov, Denis Kuznedelev, Elias Frantar, Artem Babenko, Dan Alistarh
精确的开放式大型语言模型法学硕士的出现引发了一场针对此类模型的量化技术的竞赛，这些技术可以在最终用户设备上执行。在本文中，我们从多码本量化 MCQ 中的经典方法的角度重新审视了极端 LLM 压缩的问题，该压缩定义为针对极低的位数，例如每个参数 2 到 3 位。我们的工作建立在加性量化（MCQ 系列的经典算法）之上，并使其适应语言模型的量化。由此产生的算法推进了 LLM 压缩的最新技术，在给定压缩预算的精度方面优于所有最近提出的技术。例如，当将 Llama 2 模型压缩到每个参数 2 位时，我们的算法将 7B 模型量化为 6.93 困惑度，相对于之前最好的工作，提高了 1.29 点；与 FP16 相比，量化了 1.81 点；将 13B 模型量化为 5.70 困惑度，提高了 0.36 点； 70B 模型的困惑度为 3.94，比 WikiText2 提高了 0.22。

PALP: Prompt Aligned Personalization of Text-to-Image Models
Authors Moab Arar, Andrey Voynov, Amir Hertz, Omri Avrahami, Shlomi Fruchter, Yael Pritch, Daniel Cohen Or, Ariel Shamir
内容创建者通常旨在使用超出传统文本到图像模型功能的个人主题来创建个性化图像。此外，他们可能希望生成的图像包含特定的位置、风格、氛围等。现有的个性化方法可能会损害个性化能力或与复杂文本提示的对齐。这种权衡可能会妨碍用户提示的实现和主题保真度。我们提出了一种专注于个性化方法的新方法，用于强调单一提示来解决这个问题。我们将我们的方法称为“快速一致的个性化”。虽然这看起来可能有限制，但我们的方法擅长改进文本对齐，能够创建具有复杂提示的图像，这可能对当前技术构成挑战。特别是，我们的方法使用附加的分数蒸馏采样项使个性化模型与目标提示保持一致。我们展示了我们的方法在多镜头和单镜头设置中的多功能性，并进一步表明它可以组合多个主题或使用来自参考图像（例如艺术品）的灵感。

Chain of History: Learning and Forecasting with LLMs for Temporal Knowledge Graph Completion
Authors Ruilin Luo, Tianle Gu, Haoling Li, Junzhe Li, Zicheng Lin, Jiayi Li, Yujiu Yang
时态知识图补全 TKGC 是一项具有挑战性的任务，即通过利用已建立的时态结构知识来预测未来时间戳的缺失事件链接。鉴于法学硕士固有的强大生成能力，本文提出了一种新颖的方法，将时间链接预测概念化为历史事件链背景下的事件生成任务。我们采用高效的微调方法，使法学硕士适应时间轴上发现的特定图形文本信息和模式。此外，我们引入基于结构的历史数据增强和逆向知识的集成，以强调法学硕士对结构信息的认识，从而增强他们的推理能力。我们对多个广泛使用的数据集进行了彻底的实验，发现我们的微调模型在多个指标上优于现有的基于嵌入的模型，实现了 SOTA 结果。

LEGO:Language Enhanced Multi-modal Grounding Model
Authors Zhaowei Li, Qi Xu, Dong Zhang, Hang Song, Yiqing Cai, Qi Qi, Ran Zhou, Junting Pan, Zefeng Li, Van Tu Vu, Zhida Huang, Tao Wang
多模态大语言模型在不同模态的各种任务中表现出了令人印象深刻的性能。然而，现有的多模态模型主要强调捕获每种模态内的全局信息，而忽略了跨模态感知局部信息的重要性。因此，这些模型缺乏有效理解输入数据的细粒度细节的能力，限制了它们在需要更细致理解的任务中的性能。为了解决这一限制，迫切需要开发能够跨多种模式进行细粒度理解的模型，从而增强其对广泛任务的适用性。在本文中，我们提出了 LEGO，一种语言增强的多模态基础模型。除了像其他多模态模型一样捕获全局信息之外，我们提出的模型还擅长执行需要详细了解输入中的本地信息的任务。它展示了对图像或视频中特定区域的精确识别和定位。为了实现这一目标，我们设计了多样化的数据集构建流程，从而为模型训练提供了多模式、多粒度的数据集。

Inferring Intentions to Speak Using Accelerometer Data In-the-Wild
Authors Litian Li, Jord Molhoek, Jing Zhou
人类具有良好的自然直觉，能够识别出另一个人何时有话要说。如果人工智能也能识别说话的意图，那就很有趣了。特别是在人工智能引导小组讨论的情况下，这可能是一项有用的技能。这项工作研究了根据加速度计数据推断成功和不成功的说话意图。选择它是因为它可以保护隐私并且可以在野外环境中使用，因为它可以放置在智能徽章中。来自现实生活社交网络事件的数据用于训练机器学习模型，旨在推断说话的意图。数据中不成功的意图发言案例的子集被注释。该模型根据成功的说话意图进行训练，并根据成功和不成功的案例进行评估。总之，加速度计数据中有有用的信息，但不足以可靠地捕获说话的意图。例如，姿势的变化与说话的意图相关，但人们也常常在没有说话的意图的情况下改变姿势，或者有说话的意图但没有改变姿势。

Towards Goal-Oriented Agents for Evolving Problems Observed via Conversation
Authors Michael Free, Andrew Langworthy, Mary Dimitropoulaki, Simon Thompson
这项工作的目标是训练一个聊天机器人，使其能够通过与用户讨论聊天机器人无法直接观察到的问题来解决不断发展的问题。该系统由一个虚拟问题（在本例中是一个简单的游戏）、一个能够回答自然语言问题（可以观察问题并针对问题执行操作）的模拟用户以及一个基于 Deep Q Network DQN 的聊天机器人架构组成。训练聊天机器人的目的是通过强化学习与模拟用户对话来解决问题。

Towards Conversational Diagnostic AI
Authors Tao Tu, Anil Palepu, Mike Schaekermann, Khaled Saab, Jan Freyberg, Ryutaro Tanno, Amy Wang, Brenna Li, Mohamed Amin, Nenad Tomasev, Shekoofeh Azizi, Karan Singhal, Yong Cheng, Le Hou, Albert Webson, Kavita Kulkarni, S Sara Mahdavi, Christopher Semturs, Juraj Gottweis, Joelle Barral, Katherine Chou, Greg S Corrado, Yossi Matias, Alan Karthikesalingam, Vivek Natarajan
医学的核心在于医患对话，熟练的病史采集为准确的诊断、有效的管理和持久的信任铺平了道路。人工智能能够进行诊断对话的人工智能系统可以提高护理的可及性、一致性和质量。然而，接近临床医生的专业知识是一个巨大的挑战。

DrawTalking: Building Interactive Worlds by Sketching and Speaking
Authors Karl Toby Rosenberg, Rubaiat Habib Kazi, Li Yi Wei, Haijun Xia, Ken Perlin
我们引入了一种交互式方法，即 DrawTalking，用户可以通过绘制草图和说话来构建交互式世界。它强调用户控制和灵活性，并提供类似编程的功能，无需代码。我们在 iPad 上实现了它。一项开放式研究表明，这些机制会产生共鸣，并且适用于许多创造性的探索性用例。

Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training
Authors Evan Hubinger, Carson Denison, Jesse Mu, Mike Lambert, Meg Tong, Monte MacDiarmid, Tamera Lanham, Daniel M. Ziegler, Tim Maxwell, Newton Cheng, Adam Jermyn, Amanda Askell, Ansh Radhakrishnan, Cem Anil, David Duvenaud, Deep Ganguli, Fazl Barez, Jack Clark, Kamal Ndousse, Kshitij Sachan, Michael Sellitto, Mrinank Sharma, Nova DasSarma, Roger Grosse, Shauna Kravec, Yuntao Bai, Zachary Witten, Marina Favaro, Jan Brauner, Holden Karnofsky, Paul Christiano, Samuel R. Bowman, Logan Graham, Jared Kaplan, S ren Mindermann, Ryan Greenblatt, Buck Shlegeris, Nicholas Schiefer, Ethan Perez
人类能够采取策略性的欺骗行为，在大多数情况下表现得有益，但一旦有机会，就会表现得非常不同，以追求其他目标。如果人工智能系统学会了这样的欺骗策略，我们是否可以使用当前最先进的安全训练技术来检测它并删除它。为了研究这个问题，我们在大型语言模型法学硕士中构建了欺骗行为的概念验证示例。例如，我们训练模型在提示指出年份是 2023 年时编写安全代码，但在提示年份是 2024 年时插入可利用代码。我们发现这种后门行为可以持久化，这样就不会被标准删除安全训练技术，包括监督微调、强化学习和引发不安全行为的对抗性训练，然后进行消除不安全行为的训练。后门行为在最大的模型和经过训练以产生欺骗训练过程的思想链推理的模型中最为持久，即使思想链被蒸馏掉，这种持久性仍然存在。此外，我们发现对抗性训练不是删除后门，而是可以教会模型更好地识别其后门触发器，从而有效隐藏不安全行为。

From Pampas to Pixels: Fine-Tuning Diffusion Models for Gaúcho Heritage
Authors Marcellus Amadeus, William Alberto Cruz Casta eda, Andr Felipe Zanella, Felipe Rodrigues Perche Mahlow
生成式人工智能已经在社会中普遍存在，在各个领域都取得了显着的进步。特别是在文本到图像 TTI 模型领域，潜在扩散模型 LDM 展示了基于文本提示生成视觉内容的卓越能力。本文探讨了 LDM 在代表当地文化概念、历史人物和濒危物种方面的潜力。在本研究中，我们以巴西南里奥格兰德州的文化遗产为例。我们的目标是帮助人们更广泛地理解生成模型如何帮助捕捉和保护地区的文化和历史特征。本文概述了该方法，包括主题选择、数据集创建和微调过程。结果展示了生成的图像，以及每个概念的挑战和可行性。

LLM4PLC: Harnessing Large Language Models for Verifiable Programming of PLCs in Industrial Control Systems
Authors Mohamad Fakih, Rahul Dharmaji, Yasamin Moghaddas, Gustavo Quiros Araya, Oluwatosin Ogundare, Mohammad Abdullah Al Faruque
尽管大型语言模型法学硕士已经在自动代码生成领域确立了主导地位，但它们并非没有缺点。相关问题主要涉及生成代码缺乏执行保证、缺乏可解释性以及对基本但小众编程语言的次优支持。最先进的法学硕士（例如 GPT 4 和 LLaMa2）无法为由可编程逻辑控制器 PLC 操作的工业控制系统 ICS 生成有效的程序。我们提出 LLM4PLC，这是一种用户引导的迭代管道，利用用户反馈和外部验证工具（包括语法检查器、编译器和 SMV 验证器）来指导 LLM 的生成。我们通过创建和使用 LoRA 来采用即时工程和模型微调，进一步增强 LLM 的生成潜力。我们使用 FischerTechnik Manufacturing TestBed MFTB 验证该系统，说明法学硕士如何从生成有结构缺陷的代码发展到为工业应用生成可验证的正确程序。我们在 GPT 3.5、GPT 4、Code Llama 7B、微调的 Code Llama 7B 模型、Code Llama 34B 和微调的 Code Llama 34B 模型上运行了完整的测试套件。所提出的管道将生成成功率从 47 提高到 72 ，专家调查代码质量从 2.25 10 提高到 7.75 10。为了促进开放研究，我们分享完整的实验设置、LLM 微调权重以及

Automated Assessment of Students' Code Comprehension using LLMs
Authors Priti Oli, Rabin Banjade, Jeevan Chapagain, Vasile Rus
评估学生的答案，特别是自然语言答案是教育领域的一项关键挑战。机器学习的进步，包括基于变压器的模型，例如大型语言模型法学硕士，已经在各种自然语言任务中取得了重大进展。然而，在跨不同任务评估法学硕士的趋势不断增长的背景下，在自动答案评估领域评估法学硕士并没有受到太多关注。为了解决这一差距，我们探索了使用法学硕士对学生的简短和开放式答案进行自动评估的潜力。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

你可能感兴趣的:(LLM,NLP,Papers,自然语言处理,大语言模型,LLM,NLP)

【AIGC时代】OneCode前端框架入门指南：从环境搭建到第一个应用低代码老李 OneCode实战低代码软件行业学习前端框架
在人工智能生成内容(AIGC)技术飞速发展的今天，前端开发领域正经历着前所未有的变革。AI工具能够批量生成代码，但如何将这些自动生成的代码转化为可维护、高质量的生产级应用，成为开发者面临的核心挑战。OneCode框架凭借其独特的设计理念，在这一背景下展现出显著优势，本文将带您从零开始，快速掌握OneCode框架的使用方法。一、AIGC背景下选择OneCode框架的四大理由AIGC工具的普及为前端开
【SpringBoot】Spring Boot热部署方案的终极深度解析，覆盖IDEA配置、JRebel原理级实操、DevTools内核机制及生产级调优策略，共分6大模块夜雨hiyeyu.com spring boot intellij-idea 后端 maven java idea spring
SpringBoot热部署方案的终极深度解析，覆盖IDEA配置、JRebel原理级实操、DevTools内核机制及生产级调优策略一、热部署核心原理与架构1.JVM类加载机制限制2.字节码热替换技术对比二、JRebel企业级部署全流程1.深层配置指南2.多模块项目热加载3.热替换失败解决方案三、DevTools内核级调优1.类加载隔离机制2.资源热更新策略3.生产级问题诊断四、高效协同工作流1.ID
三维扫描赋能文化：蔡司3D扫描仪让木质文化遗产焕发新生-沪敖3D HuAo_3D 沪敖3D 3d扫描仪蔡司三维扫描仪蔡司三维扫描技术应用
挪威文化历史博物馆在其修复工作中融入现代3D扫描技术，让数百年的历史焕发新生。文化历史博物馆的工作文化历史博物馆是奥斯陆大学的一个院系。凭借其在文化历史管理、研究和传播方面的丰富专业知识，该博物馆被誉为挪威博物馆研究领域的领先机构。馆内展出了涵盖从石器时代、维京时代、中世纪直至近代的最大规模的考古学和民族学藏品。该院系的维京船屋博物馆于1926年开放，至今仍每年吸引着众多历史爱好者前来参观。复杂的
物联网全景解析：核心技术、多元应用与未来趋势
物联网（IoT）作为新一代信息技术的核心载体，正通过“万物互联”重塑人类生产生活方式。以下从核心技术、应用场景、未来趋势三个维度展开全景解析。一、核心技术：构建物联网的四大支柱传感器技术：数据采集的“神经末梢”功能：将物理世界（温度、湿度、压力等）和生物世界（心率、血压）的信号转化为数字信号，是物联网感知层的基础。创新方向：微型化：MEMS传感器体积缩小至毫米级，可嵌入可穿戴设备；智能化：集成滤波
数字平台的未来：区块链与域名创新的融合图景 boyedu 终端域名区块链区块链域名
在数字经济浪潮中，区块链技术与域名系统的创新结合正在重塑数字平台的底层逻辑。从去中心化身份认证到抗审查的域名解析，从数字资产确权到跨平台数据互通，这一融合不仅解决了传统互联网的核心痛点，更开辟了价值互联的新纪元。一、传统域名体系的困境与区块链的破局之道传统域名系统（DNS）的集中化架构暴露出三大结构性矛盾：信任依赖风险：ICANN主导的层级管理导致单点故障隐患，2021年Fastly缓存服务器宕机
六大技术支柱推动元宇宙发展:从区块链到物联网
元宇宙作为数字世界与现实世界深度融合的产物，其发展依赖于六大技术支柱的协同创新，这一技术集合被形象地称为“BIGANT”（大蚂蚁）。以下是对六大技术支柱的详细解析，重点阐述区块链与物联网的核心作用：一、区块链技术（Blockchain）：构建元宇宙的信任基石去中心化经济体系区块链通过NFT（非同质化通证）、DAO（去中心化自治组织）、智能合约等技术，为元宇宙提供了去中心化的价值流转机制。例如：NF
STM32F103五分钟入门系列（八）SysTick滴答定时器+SysTick中断实现跑马灯独独白 STM32F107 嵌入式 stm32 单片机 arm
学习板：STM32F103ZET6往期博客：STM32F103五分钟入门系列（一）跑马灯（库函数+寄存器）+加编程模板+GPIO总结STM32F103五分钟入门系列（二）GPIO的七大寄存器+GPIOx_LCKR作用和配置STM32F103五分钟入门系列（三）GPIO的常用库函数使用方法总结+一个网络上的误区STM32F103五分钟入门系列（四）蜂鸣器实验（库函数+寄存器）STM32F103五分钟
如何道破信息差，精准准备秋招？——应届生秋招全流程解析
信息差，是大多数应届生秋招失败的关键。本文将从认知差距、平台渠道、实战建议三大维度，帮你打破信息壁垒，走上offer收割之路。一、什么是秋招中的“信息差”？在秋招中，应届生之间的差距并非仅仅是技术实力，更在于“知道什么”和“知道怎么做”的能力差异。常见的信息差类型：信息差类型表现形式企业信息差不知道哪些公司在招人，不清楚岗位要求面试流程差不知道面试题类型、不清楚流程节点技术准备差不知道八股文、项目
筑牢 AIGC 安全防线：警惕提示词注入攻击 CS创新实验室 AIGC AIGC 安全大模型提示词提示词注入
在AIGC（生成式人工智能）技术蓬勃发展的当下，其在各个领域的应用日益广泛。然而，随着AIGC技术的深入应用，安全问题也逐渐凸显，提示词注入攻击便是其中不容忽视的一大威胁。对于AIGC开发者而言，深入了解提示词注入攻击并做好防范工作，是保障AIGC系统安全稳定运行的关键。提示词注入攻击的基本知识提示词注入攻击是指攻击者通过精心设计和构造提示词，利用AIGC模型对输入文本的处理机制，干扰模型的正常运
大语言模型与增强现实：空间计算时代的AI原生应用 Agentic AI人工智能与大数据 CS 语言模型 ar 空间计算 ai
大语言模型与增强现实：空间计算时代的AI原生应用关键词：大语言模型（LLM）、增强现实（AR）、空间计算、AI原生应用、多模态交互、具身智能、虚实融合摘要：当“能对话的AI大脑”（大语言模型）遇到“能叠加虚拟世界的魔法眼镜”（增强现实），一场空间计算时代的革命正在发生。本文将带你一步步拆解大语言模型与AR的“强强联合”：从基础概念到技术原理，从真实案例到未来趋势，用“给小学生讲故事”的方式，讲清这
AI人工智能浪潮中，GPT的技术优势凸显 AI学长带你学AI 人工智能 gpt ai
AI人工智能浪潮中，GPT的技术优势凸显关键词：人工智能、GPT、自然语言处理、深度学习、Transformer、大语言模型、技术优势摘要：本文深入探讨了在人工智能浪潮中GPT(GenerativePre-trainedTransformer)系列模型的技术优势。我们将从GPT的核心架构出发，分析其独特的技术特点，包括自注意力机制、预训练-微调范式、零样本学习能力等。通过与传统NLP方法的对比，揭
Kimi 大模型支持 Tool Calling 功能，并入驻字节「扣子Coze」开发平台！铃灵狗新闻人工智能
Kimi大模型API支持ToolCalling功能Kimi大模型学会「使用工具」了，API已支持ToolCalling功能。开发者们在打造自己的AIAgents时，可以让Kimi大模型与丰富的自定义外部工具进行交互，打开AI应用更大的想象空间。例如，在对话中，当用户问到一家公司的地址时，Kimi大模型可以调用地图工具，直观地展示这家公司在地图上的具体位置和交通路线；如果用户想要把文稿做成演示文稿，
Spring AI深度解析（7/50）：Tool Calling 工具调用解析 Spring AI学习 spring 人工智能 microsoft
SpringAI深度解析（7/50）：ToolCalling工具调用解析一、工具调用的本质突破传统大模型存在两大核心限制：知识时效性与动作执行能力。SpringAI通过工具调用（ToolCalling）机制，将大模型从「信息处理中心」升级为「智能调度中枢」，实现三大飞跃：实时数据获取：连接数据库、API等动态数据源物理世界交互：触发硬件设备、业务流程复杂逻辑编排：多工具链式调用与结果聚合二、Spr
大语言模型的具身化——LLM-based Agents实战 apollowin123 人工智能语言模型深度学习
1.概述1.1Agent是什么长期以来，研究者们一直在追求与人类相当、乃至超越人类水平的通用人工智能（ArtificialGeneralIntelligence，AGI）。早在1950年代，AlanTuring就将「智能」的概念扩展到了人工实体，并提出了著名的图灵测试。这些人工智能实体通常被称为——代理（Agent）。「代理」这一概念起源于哲学，描述了一种拥有欲望、信念、意图以及采取行动能力的实体
AI原生应用：多模态交互技术的5大核心应用场景解析 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AI-native ai
#AI原生应用：多模态交互技术的5大核心应用场景解析>关键词：多模态交互、AI原生应用、人机交互、深度学习、应用场景>摘要：本文将深入解析多模态交互技术的核心原理，通过智能家居、医疗诊断、自动驾驶、教育创新和虚拟助手五大应用场景，揭示AI如何像人类感官协同工作般理解世界。文章包含技术原理图解、真实案例代码和未来趋势预测。##背景介绍###目的和范围解析多模态交互技术在AI原生应用中的落地实践，涵盖
专知智库数据场景生态：开启全球数字文明新纪元——数据零件×场景编码×SEI指数构建下一代数字经济基座人形机器人专利池研究中心数据场景架构师数据零件架构师数据场景生态人工智能数据场景架构师算法大数据
一、传统数字经济的“柏林墙困境”全球产业痛点扫描：数据孤岛化：企业间数据流通成本高达交易额37%（麦肯锡2024）价值黑箱化：85%数据资产无法量化定价（普华永道审计报告）技术碎片化：同类算法重复开发年耗$1800亿破局宣言：专知智库提出“可拆解、可组合、可交易”三可原则，以数据零件+场景编码+SEI计量重构全球数字基础设施二、三大基座：数字经济的新操作系统1.数据零件（DP）：技术场景最小单元革
10.5 实战ChatGLM3私有数据微调之提示工程：批量生成数据稳定性秘籍少林码僧掌握先机！从 0 起步实战 AI 大模型微调打造核心竞争力机器学习深度学习人工智能语言模型
实战ChatGLM3私有数据微调之提示工程：批量生成数据稳定性秘籍在当今人工智能蓬勃发展的时代，大语言模型（LLMs）如ChatGLM3的出现，为自然语言处理领域带来了革命性的变化。企业和开发者们纷纷寻求利用这些强大的模型来构建定制化的应用，以满足特定业务需求。其中，使用私有数据对ChatGLM3进行微调，成为了实现差异化竞争和提供个性化服务的关键途径。然而，在微调过程中，确保批量生成数据的稳定性
语言大模型综述
Paper:ASurveyofLargelanguageModels目录Paper:ASurveyofLargelanguageModels综述概要LLM关键技术规模定律（ScalingLaws）预训练与微调对齐调优（AlignmentTuning）外部工具集成GPT系列模型的技术演进模型检查点和APIPre-Training数据准备和处理数据准备数据预处理数据调度架构EmergentArchit
【附源码】基于flask框架求职招聘网站 (python+mysql+论文)
本系统（程序+源码）带文档lw万字以上文末可获取本课题的源码和程序系统程序文件列表系统的选题背景和意义选题背景：随着互联网技术的飞速发展，网络求职招聘已经成为了现代人才市场的一大趋势。传统的求职招聘方式逐渐被线上平台所取代，这主要得益于网络平台的便捷性、实时性和广泛性。然而，现有的求职招聘网站虽然数量众多，但质量参差不齐，用户体验也各不相同。一些求职者和招聘者在面对海量信息时，往往会感到无所适从，
一个小时快速部署大模型，附大模型书：ChatGLM3大模型本地化部署、应用开发与微调! LLM教程人工智能 langchain 知识图谱 Agent 大模型 LLM AI
这个教程有以下几部分构成：硬件配置概念介绍实操测试结果1.硬件配置本文使用的方法配置要求低，没有gpu也可以正常使用(就是有点慢)，不管是windows还是linux，都可以无障碍使用大模型，有脚就行，废话少说，let’srock!2.概念介绍几个部署要用到的概念，工具和项目huggingface:类似于模型的github，各种各样的开源模型都可以在这被找到.模型量化技术：这也是我们能够在低端设备
10.6 ChatGLM3私有数据微调实战：24小时打造高精度模型，显存直降60% 少林码僧掌握先机！从 0 起步实战 AI 大模型微调打造核心竞争力 chatgpt 机器学习深度学习人工智能语言模型
ChatGLM3私有数据微调实战：24小时打造高精度模型，显存直降60%1.实战构造私有的微调数据集在微调大模型时，数据质量直接决定模型效果。本节将手把手教你如何构建高质量的私有微调数据集。1.1使用ChatGPT自动设计生成训练数据的Prompt核心思路：通过ChatGPT生成符合任务需求的样本数据，降低人工标注成本。步骤示例（以生成客服对话数据为例）：fromlangchain.prompts
大语言模型（LLM）课程学习（Curriculum Learning）、数据课程（data curriculum）指南：从原理到实践
在人工智能的浪潮之巅，我们总会惊叹于GPT-4、Llama3.1、Qwen2.5这些顶尖大语言模型（LLM）所展现出的惊人能力。它们似乎无所不知，能写诗、能编程、能进行复杂的逻辑推理。一个自然而然的问题是：它们是如何“学”会这一切的？大多数人会回答：“用海量数据喂出来的。”这个答案只说对了一半。如果你认为只要把互联网上能找到的所有数据（比如15万亿个token）随机打乱，然后“一锅烩”地喂给模型，
企业级图表方案AG Charts v12正式发布：全新功能提升图表交互体验与开发效率
AGGrid成立于英国，致力于提供优秀的企业级数据表格及图表解决方案。AGGrid及AGCharts是其两大主要的高性能企业级JavaScript数据表格及图表解决方案，被全球开发者广泛采用。广泛应用于金融、电信、制造等行业，支持Angular、React、Vue和纯JavaScript项目，拥有企业级的性能与功能深度，凭借其卓越的性能、丰富的功能与高度可定制性，成为构建复杂数据驱动型应用的优选工
Tuning Language Models by Proxy 樱花的浪漫对抗生成网络与动作识别强化学习因果推断大模型与智能体人工智能机器学习深度学习自然语言处理计算机视觉神经网络
TuningLanguageModelsbyProxyhttps://arxiv.org/html/2401.08565v41.概述尽管大型预训练语言模型的通用能力越来越强，但它们仍然可以从额外的微调中受益，以更好地实现所需的行为。例如，它们通常被微调以遵循指令（Ouyang等人，2022年）、特定的兴趣领域（Gururangan等人，2020年）或特定任务（Raffel等人，2020年）。然而，
巨兽的阴影：大型语言模型的挑战与伦理深渊田园Coder 人工智能科普人工智能科普
当GPT-4这样的庞然大物能够流畅对话、撰写诗歌、编写代码、解析图像，甚至在某些测试中媲美人类专家时，大型语言模型（LLM）仿佛成为了无所不能的“智能神谕”。然而，在这令人目眩的成就之下，潜藏着复杂而严峻的挑战与伦理困境，如同光芒万丈的科技巨兽脚下那片难以忽视的深邃阴影。这些挑战并非技术进步的偶然副作用，而是深植于LLM的运作本质、训练数据来源以及其与社会交互的复杂性之中。它们警示我们，在追逐能力
为什么让AI洗碗比写诗难百倍？清华教授揭秘具身智能鸿沟 Loving_enjoy 计算机学科论文创新点机器学习人工智能 facebook 课程设计
>**人类小脑数亿年进化出的运动智慧，成了AI最难破解的密码**2025年3月，一位网友困惑地发问：“我想让人工智能替我洗碗做饭洗衣服，没想到现在的AI反而在画画、写歌、搞创作……”对此，全国政协委员、中国科学院自动化研究所研究员赵晓光一针见血地指出：**“大模型没有创新能力，想让AI干体力活还要靠具身智能的发展。”**这个看似矛盾的现象背后，隐藏着人工智能发展进程中一个惊人的认知盲区。清华大学心
从被动检索到主动思考：Naive RAG 到 Agentic RAG 的架构演进与关键技术解析一休哥助手人工智能架构 RAG
摘要随着大语言模型（LLMs）的广泛应用，检索增强生成（Retrieval-AugmentedGeneration,RAG）技术已成为解决模型知识滞后与幻觉问题的核心方案。本文深入剖析从基础NaiveRAG到新一代AgenticRAG的架构演进路径，聚焦关键技术创新点（如递归检索、自适应查询改写、工具集成、多智能体协作），并通过架构图对比与案例分析，揭示其在复杂任务处理中的范式转变。全文超过500
【零基础学AI】第27讲：注意力机制（Attention） - 机器翻译实战 1989 0基础学AI 人工智能机器翻译自然语言处理 python tensorflow 机器学习神经网络
本节课你将学到理解注意力机制的核心思想掌握注意力计算的数学原理实现基于注意力机制的Seq2Seq模型构建英语到法语的神经翻译系统开始之前环境要求Python3.8+需要安装的包：tensorflow==2.8.0numpy==1.21.0matplotlib==3.4.0pandas==1.3.0前置知识RNN/LSTM原理（第26讲）序列数据处理（第26讲）自然语言处理基础（第14讲）核心概念为
HarmonyOS 生命周期详解：用三张图彻底搞懂 UIAbility、页面与组件的生命周期
作者：像素笔记|发布时间：2025年6月27日摘要本文通过三层结构图、状态流程图、对比表格三大图表，深入解析HarmonyOSArkUI的生命周期机制，涵盖UIAbility、页面、组件各层级的触发顺序与最佳实践。同时提供高级场景管理方案、常见误区分析及实战级生命周期管理工具设计，助你打造高性能、高稳定性的HarmonyOS应用！一、三层生命周期结构图（图1）下图展示了HarmonyOS应用框架的
从亏损到盈利：用Python实现WVAD策略，量价结合更靠谱程序化交易助手量化软件 Python 程序化交易 Python 量化炒股 PTrade QMT 量化交易量化软件 deepseek
从亏损到盈利：用Python实现WVAD策略，量价结合更靠谱那个让我夜不能寐的亏损账户去年有个客户老张来找我，50万本金半年亏了15万。他红着眼睛问我："为什么我跟着大V买卖还是亏？"我看了他的交易记录就明白了——全是凭感觉操作，涨了追，跌了割，完全被市场情绪牵着鼻子走。这让我想起自己刚入行时，盯着分时图眼睛发酸的日子。直到有天看到营业部老总桌上那本《量化交易入门》，才恍然大悟：原来职业玩家都在用
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =

【AI视野·今日NLP 自然语言处理论文速览 第七十六期】Fri, 12 Jan 2024

Daily Computation and Language Papers

你可能感兴趣的:(LLM,NLP,Papers,自然语言处理,大语言模型,LLM,NLP)

【AI视野·今日NLP 自然语言处理论文速览第七十六期】Fri, 12 Jan 2024