hitrjj

【AI视野·今日NLP 自然语言处理论文速览第四十七期】Wed, 4 Oct 2023

AI视野·今日CS.NLP 自然语言处理论文速览
Wed, 4 Oct 2023
Totally 73 papers
上期速览✈更多精彩请移步主页

Daily Computation and Language Papers

Contrastive Post-training Large Language Models on Data Curriculum
Authors Canwen Xu, Corby Rosset, Luciano Del Corro, Shweti Mahajan, Julian McAuley, Jennifer Neville, Ahmed Hassan Awadallah, Nikhil Rao
对齐是引导大型语言模型法学硕士迎合人类偏好的重要一步。在本文中，我们通过从不同强度的多个模型（例如 InstructGPT、ChatGPT 和 GPT 4）自动构建偏好对来探索用于对齐的对比后训练技术。我们仔细比较了 SLiC 和 DPO 与 SFT 基线的对比技术，发现即使在 SFT 持续饱和之后，DPO 也提供了阶跃函数改进。我们还探索了一种用于对比后训练的数据课程学习方案，该方案首先从较容易的配对中学习，然后过渡到较难的配对，从而进一步提高一致性。最后，我们扩大了实验规模，使用更多数据和更大的模型（例如 Orca）进行训练。

Harnessing Pre-Trained Sentence Transformers for Offensive Language Detection in Indian Languages
Authors Ananya Joshi, Raviraj Joshi
在我们日益互联的数字世界中，社交媒体平台已成为传播仇恨言论和攻击性内容的强大渠道。这项工作深入研究了仇恨言论检测领域，特别重点关注三种资源匮乏的印度语言孟加拉语、阿萨姆语和古吉拉特语。该挑战被定义为文本分类任务，旨在辨别推文是否包含攻击性内容或非攻击性内容。利用 HASOC 2023 数据集，我们对预训练的 BERT 和 SBERT 模型进行了微调，以评估它们在识别仇恨言论方面的有效性。我们的研究结果强调了单语句子 BERT 模型的优越性，特别是在孟加拉语中，我们获得了最高排名。然而，阿萨姆语和古吉拉特语的表现意味着持续的增强机会。

Who's Harry Potter? Approximate Unlearning in LLMs
Authors Ronen Eldan, Mark Russinovich
大型语言模型法学硕士接受过大量互联网语料库的培训，这些语料库通常包含受版权保护的内容。这给这些模型的开发者和用户以及原始作者和出版商带来了法律和道德挑战。

Automatic Quality Assessment of Wikipedia Articles -- A Systematic Literature Review
Authors Pedro Miguel Mo s, Carla Teixeira Lopes
维基百科是世界上最大的在线百科全书，但通过协作保持文章质量具有挑战性。维基百科设计了一个质量量表，但由于这样的手动评估过程，许多文章仍然未经评估。我们回顾了自动测量维基百科文章质量的现有方法，识别和比较机器学习算法、文章特征、质量指标和使用的数据集，检查 149 项不同的研究，并探索它们的共性和差距。文献非常广泛，并且这些方法遵循过去的技术趋势。

Extraction of Medication and Temporal Relation from Clinical Text by Harnessing Different Deep Learning Models
Authors Hangyu Tu, Lifeng Han, Goran Nenadic
以电子病历EMR为代表的临床文本包含丰富的医疗信息，对于疾病预测、个性化信息推荐、临床决策支持以及用药模式挖掘和测量至关重要。药物提及和时间信息之间的关系提取可以进一步帮助临床医生更好地了解患者的治疗史。为了评估深度学习 DL 和大型语言模型 LLM 在药物提取和时间关系分类中的性能，我们使用 BiLSTM CRF 和 CNN BiLSTM 等多种先进学习结构对 textbf MedTem 项目进行了实证研究，用于名为实体识别 NER 的临床领域，以及用于时间关系提取 RE 的 BERT CNN，此外还探索了不同的词嵌入技术。此外，我们还设计了一组后处理角色来生成药物和时间关系的结构化输出。我们的实验表明，在 i2b2 2009 临床 NER 任务中，CNN BiLSTM 略微胜过 BiLSTM CRF 模型，使用 Macro Average 获得准确率、召回率和 F1 分数分别为 75.67、77.83 和 78.17。 BERT CNN 模型还使用 Macro Avg 在 i2b2 2012 挑战赛的时间关系提取测试集上为 P R F1 生成了合理的评估分数 64.48、67.17 和 65.03。

Think before you speak: Training Language Models With Pause Tokens
Authors Sachin Goyal, Ziwei Ji, Ankit Singh Rawat, Aditya Krishna Menon, Sanjiv Kumar, Vaishnavh Nagarajan
语言模型通过立即连续地生成一系列标记来生成响应，第 K 个标记是每层操作 K 个隐藏向量的结果，每个前面的标记一个向量。相反，如果我们让模型在输出第 K 1 个标记之前操纵 K 10 个隐藏向量，我们可以通过使用可学习的 textit 暂停标记对语言模型进行训练和推理来操作这个想法，并附加一个序列到输入前缀。然后，我们延迟提取模型的输出，直到看到最后一个暂停标记，从而允许模型在提交答案之前处理额外的计算。我们根据经验评估了仅在 1B 和 130M 参数的解码器模型上进行的 textit 暂停训练，并在 C4 上进行了因果预训练，以及涵盖推理、问答、一般理解和事实回忆的下游任务。我们的主要发现是，当模型经过预训练和延迟微调时，推理时间延迟会有所增加。对于 1B 模型，我们看到 9 项任务中的 8 项取得了进步，最突出的是，在 SQuAD 的 QA 任务上获得了 18 的 EM 分数，在 CommonSenseQA 上获得了 8 分，在 GSM8k 的推理任务上获得了 1 的准确度。

Can Language Models be Instructed to Protect Personal Information?
Authors Yang Chen, Ethan Mendes, Sauvik Das, Wei Xu, Alan Ritter
事实证明，大型多模态语言模型在众多应用中具有变革性。然而，这些模型已被证明会记忆和泄露预训练数据，引发严重的用户隐私和信息安全问题。虽然应该防止数据泄露，但检查所提出方法的隐私保护和模型效用之间的权衡也至关重要。在本文中，我们引入了 PrivQA 多模式基准，用于在指示模型在模拟场景中保护特定类别的个人信息时评估这种隐私效用权衡。我们还提出了一种迭代自我调节响应的技术，这显着提高了隐私性。然而，通过一系列红队实验，我们发现对手也可以通过文本和/或图像输入的简单越狱方法轻松绕过这些保护。我们相信 PrivQA 有潜力支持开发具有改进的隐私保护以及这些保护的对抗稳健性的新模型。

Ask Again, Then Fail: Large Language Models' Vacillations in Judgement
Authors Qiming Xie, Zengzhi Wang, Yi Feng, Rui Xia
随着像 ChatGPT 这样的生成式会话大语言模型法学硕士的出现，作为各个领域的虚拟助手，他们的反应的稳定性和可靠性变得至关重要。然而，在使用过程中，人们发现，当用户提出怀疑或不同意的后续问题时，这些模型的判断往往会动摇。在这项工作中，我们从教育中的提问策略中汲取灵感，提出了一个文本后续提问机制以及两个评估指标来评估法学硕士在遭受干扰之前和之后的判断一致性。我们在八个推理基准上评估了该机制下 ChatGPT、PaLM2 Bison 和 Vicuna 13B 的判断一致性。实证结果表明，即使最初的答案是正确的，当法学硕士面临质疑、否定或误导等干扰时，判断一致性也会急剧下降。此外，我们研究了这些模型在不同设置采样温度和提示下的判断一致性，以进一步验证这个问题，观察提示语气的影响并进行深入的错误分析以获得更深入的行为洞察。

Dynamic LLM-Agent Network: An LLM-agent Collaboration Framework with Agent Team Optimization
Authors Zijun Liu, Yanzhe Zhang, Peng Li, Yang Liu, Diyi Yang
大型语言模型 LLM 代理已被证明在广泛的任务中有效，并且通过集成多个 LLM 代理，它们的性能可以进一步提高。现有的方法采用一组固定的代理在静态架构中相互交互，这限制了它们对各种任务的通用性，并且在设计这些代理时需要强大的人类先验能力。在这项工作中，我们建议构建一个基于任务查询的动态交互架构中进行通信的战略代理团队。具体来说，我们构建了一个名为 Dynamic LLM Agent Network textbf DyLAN 的框架，用于在推理和代码生成等复杂任务上进行 LLM 代理协作。 DyLAN 使代理能够在动态架构中进行多轮交互，并具有推理时间代理选择和提前停止机制，以提高性能和效率。我们进一步设计了一种基于名为 textit Agent Importance Score 的无监督指标的自动代理团队优化算法，从而能够根据每个代理所做的贡献来选择最佳代理。根据经验，我们证明 DyLAN 在推理和代码生成任务中表现良好，计算成本合理。与 GPT 35 Turbo 上的单次执行相比，DyLAN 在 MATH 和 HumanEval 上分别实现了 13.0 和 13.3 的改进。

Editing Personality for LLMs
Authors Shengyu Mao, Ningyu Zhang, Xiaohan Wang, Mengru Wang, Yunzhi Yao, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen
本文介绍了一项创新任务，重点是编辑大型语言模型法学硕士的个性特征。该任务旨在调整模型对特定主题的意见相关问题的响应，因为个人的个性通常以他们表达的意见的形式表现出来，从而展示不同的个性特征。具体来说，我们构建了一个新的基准数据集 PersonalityEdit 来解决此任务。借鉴社会心理学的理论，我们分离出三个代表性特征，即神经质、外向性和宜人性，作为我们基准的基础。然后，我们使用 GPT 4 收集数据，生成的响应不仅与特定主题一致，而且体现了目标人格特质。我们进行了涉及各种基线的综合实验，并讨论了法学硕士中人格行为的表征。我们有趣的发现揭示了拟议任务的潜在挑战，并说明了几个遗留问题。我们预计我们的工作可以为 NLP 社区提供见解。

Large Language Models Meet Knowledge Graphs to Answer Factoid Questions
Authors Mikhail Salnikov, Hai Le, Prateek Rajput, Irina Nikishina, Pavel Braslavski, Valentin Malykh, Alexander Panchenko
最近，研究表明，将结构化知识纳入大型语言模型可以显着提高各种 NLP 任务的结果。在本文中，我们提出了一种探索预先训练的文本到文本语言模型的方法，该模型富含来自知识图谱的附加信息，用于回答事实问题。更具体地说，我们提出了一种基于问题实体和候选答案从知识图中提取子图的算法。然后，我们通过提取的子图的线性化，使用基于 Transformer 的模型获取易于解释的信息。

Unveiling the Pitfalls of Knowledge Editing for Large Language Models
Authors Zhoubo Li, Ningyu Zhang, Yunzhi Yao, Mengru Wang, Xi Chen, Huajun Chen
随着微调大型语言模型法学硕士相关的成本持续上升，最近的研究工作已转向开发方法来编辑法学硕士中嵌入的隐性知识。然而，知识编辑是否会引发蝴蝶效应仍是一个乌云，因为目前尚不清楚知识编辑是否会带来潜在风险的副作用。本文开创了对法学硕士知识编辑相关潜在陷阱的调查。为了实现这一目标，我们引入了新的基准数据集并提出了创新的评估指标。我们的结果强调了两个关键问题： 1 知识冲突编辑逻辑上冲突的事实组可能会放大法学硕士固有的不一致之处，这是以前的方法所忽视的一个方面。 2 知识扭曲以编辑事实知识为目的而改变参数可能会不可挽回地扭曲法学硕士固有的知识结构。实验结果生动地表明，知识编辑可能会无意中给法学硕士带来意想不到的后果，值得未来工作的关注和努力。

Exploring Collaboration Mechanisms for LLM Agents: A Social Psychology View
Authors Jintian Zhang, Xin Xu, Shumin Deng
随着自然语言处理 NLP 系统越来越多地应用于复杂的社会环境中，一个紧迫的问题出现了：在由多个大型语言模型组成的多智能体社会中，这些 NLP 系统能否反映人类式的协作智能？法学硕士本文探讨了当代 NLP 系统之间的协作机制通过将实践实验与理论见解相结合。我们构建了四个由法学硕士代理人组成的独特社团，其中每个代理人都具有随和或过度自信的特定特征，并以独特的思维模式辩论或反思进行合作。通过在三个基准数据集上评估这些多智能体社会，我们发现 LLM 智能体通过利用不同的社会行为（从积极辩论到内省反思）来导航任务。值得注意的是，某些协作策略不仅使用更少的 API 令牌来优化效率，而且还超越了以前的顶级方法。此外，我们的结果进一步表明，法学硕士代理人表现出类似人类的社会行为，例如从众或多数决定，反映了基本的社会心理学理论。总之，我们整合了社会心理学的见解，将法学硕士代理人的合作情境化，激发了对法学硕士合作机制的进一步研究。

TWIZ: The Wizard of Multimodal Conversational-Stimulus
Authors Rafael Ferreira, Diogo Tavares, Diogo Silva, Rodrigo Val rio, Jo o Bordalo, In s Sim es, Vasco Ramos, David Semedo, Jo o Magalh es
在本报告中，我们描述了任务向导团队 TWIZ 在 2022 年 Alexa 奖 TaskBot 挑战赛中的愿景、挑战和科学贡献。我们的愿景是将 TWIZ 机器人打造成一个有用的、多模式的、知识渊博的、有吸引力的助手，可以指导用户成功完成复杂的手动任务。为了实现这一目标，我们将精力集中在三个主要研究问题上：1 人性化对话，通过以知识丰富的方式提供信息；2 多模态刺激，利用包括语音、图像和视频在内的各种模态；3 零样本对话流，以改进交互对未见过的场景的鲁棒性。 TWIZ 是一款能够支持广泛任务的助手，具有多种创新功能，例如创意烹饪、通过语音进行视频导航，以及强大的 TWIZ LLM（一种经过训练用于复杂手动任务对话的大型语言模型）。

Instance Needs More Care: Rewriting Prompts for Instances Yields Better Zero-Shot Performance
Authors Saurabh Srivastava, Chengyue Huang, Weiguo Fan, Ziyu Yao
使大型语言模型法学硕士能够以零镜头执行任务一直是一个有吸引力的目标，因为它节省了劳动力，即不需要任务特定的注释，零镜头提示方法也享有更好的任务泛化性。为了提高法学硕士的零样本表现，之前的工作重点是设计更有效的任务指令，例如，让我们一步一步思考。然而，我们认为，为了让法学硕士能够在零射击中正确解决这些问题，单个测试实例需要更仔细设计和定制的指令。为此，我们提出了PRoMPTd，一种重写每个单独测试输入的任务提示的方法，使其更加具体、明确和完整，从而为任务LLM提供更好的指导。我们使用 GPT 4 作为任务 LLM，在涵盖算术、逻辑推理和代码生成等任务的八个数据集上评估了 PROMPTd。值得注意的是，algoname 在复杂的 MATH 数据集上实现了约 10 的绝对改进，在 HumanEval 上的代码生成任务上实现了 5 左右的绝对改进，优于传统的零样本方法。此外，我们还表明，重写的提示可以为 LLM 如何解析每个测试实例提供更好的可解释性，这可以用作针对对抗性提示的防御机制。

Controlling Topic-Focus Articulation in Meaning-to-Text Generation using Graph Neural Networks
Authors Chunliu Wang, Rik van Noord, Johan Bos
裸露的含义表示可以使用自然语言以多种方式表达，具体取决于信息在表面级别上的结构方式。我们有兴趣在根据含义生成文本时找到控制主题焦点清晰度的方法。我们专注于区分及物动词句子的主动语态和被动语态。这个想法是将诸如主题之类的实用信息添加到含义表示中，从而在提供给自然语言生成系统时强制使用主动语态或被动语态。我们使用图神经模型，因为在图表示的含义中没有关于词序的明确信息。我们尝试了三种不同的主题聚焦清晰度 TFA 方法，采用图神经模型来执行文本生成任务的含义。我们提出了一种关于图神经模型中节点聚合的新颖编码策略，该策略不是通过聚合相邻节点信息的传统编码，而是通过使用深度优先搜索来学习节点表示。结果表明，我们的方法可以在一般文本生成方面获得与最先进的图形模型竞争的性能，并且与传统的基于邻接的聚合策略相比，可以显着改进主动被动转换任务。

Tuning Large language model for End-to-end Speech Translation
Authors Hao Zhang, Nianwen Si, Yaqi Chen, Wenlin Zhang, Xukui Yang, Dan Qu, Xiaolin Jiao
随着大型语言模型LLM的出现，基于LLM的多模态模型展现出了巨大的潜力。 LLaSM、X LLM 和 SpeechGPT 等模型表现出令人印象深刻的理解和生成人类指令的能力。然而，当面对诸如端到端语音翻译 E2E ST（跨语言和跨模式翻译任务）等复杂任务时，它们的性能往往会出现问题。与单模态模型相比，多模态模型在这些场景中落后。本文介绍了 LST，这是一种大型多模态模型，旨在出色地完成 E2E ST 任务。 LST 由语音前端、适配器和 LLM 后端组成。 LST 的训练由两个阶段组成：1 模态调整，其中适配器被调整为将语音表示与文本嵌入空间对齐；2 下游任务微调，其中适配器和 LLM 模型都被训练以优化 E2EST 任务的性能。 MuST C 语音翻译基准测试的实验结果表明，LST 13B 在 En De En Fr En Es 语言对上取得了 30.39 41.55 35.33 的 BLEU 分数，超越了之前的模型并建立了新的最先进水平。此外，我们对单模态模型选择和训练策略的影响进行了深入分析，为未来的研究奠定了基础。

Jury: A Comprehensive Evaluation Toolkit
Authors Devrim Cavusoglu, Ulas Sert, Secil Sen, Sinan Altinuc
评估作为任何基于预测的系统的基本模块，在深度学习中发挥着至关重要的作用。然而，大量的自然语言处理 NLP 任务和各种指标的发展给使用不同指标评估不同系统带来了挑战。为了应对这些挑战，我们引入了陪审团，这是一个工具包，它提供了具有标准化结构的统一评估框架，用于跨不同任务和指标进行评估。评审团的目标是标准化和改进所有系统的指标评估，并帮助社区克服评估中的挑战。

OceanGPT: A Large Language Model for Ocean Science Tasks
Authors Zhen Bi, Ningyu Zhang, Yida Xue, Yixin Ou, Guozhou Zheng, Huajun Chen
鉴于海洋覆盖了地球 70 多个表面，海洋科学深入研究作为生命和生物多样性宝库的海洋，具有重要意义。最近，大型语言模型法学硕士的进步改变了科学范式。尽管在其他领域取得了成功，但目前的法学硕士往往无法满足海洋学家等领域专家的需求，而且法学硕士在海洋科学方面的潜力尚未得到探索。其内在原因可能是海洋数据的巨大性和复杂性以及对更高粒度和丰富知识的需求。为了缓解这些问题，我们引入了OceanGPT，这是海洋领域第一个法学硕士，它是各种海洋科学任务的专家。我们提出了DoInstruct，一种自动获取大量海洋领域指令数据的新颖框架，它基于多智能体协作生成指令。此外，我们构建了第一个海洋学基准OceanBench，以评估法学硕士在海洋领域的能力。通过综合实验，OceanGPT不仅表现出了较高水平的海洋科学任务知识专长，而且初步获得了海洋技术的体现智能能力。

Fill in the Blank: Exploring and Enhancing LLM Capabilities for Backward Reasoning in Math Word Problems
Authors Aniruddha Deb, Neeva Oza, Sarthak Singla, Dinesh Khandelwal, Dinesh Garg, Parag Singla
虽然前向推理，即找到给定问题的答案，在最近的文献中已经得到了广泛的探索，但后向推理相对来说还没有被探索过。

Language Models as Knowledge Bases for Visual Word Sense Disambiguation
Authors Anastasia Kritharoula, Maria Lymperaiou, Giorgos Stamou
视觉词义消歧 VWSD 是一项介于语言意义消歧和细粒度多模态检索之间的新颖的挑战性任务。视觉语言 VL 变压器开发的最新进展表明，一些自我实现取得了令人鼓舞的结果，但我们认为还可以进一步改进。为此，我们提出了一些知识增强技术，通过使用大型语言模型 LLM 作为知识库来提高 VL 转换器的检索性能。更具体地说，法学硕士中存储的知识是在适当提示的帮助下以零样本方式检索的，从而实现了性能提升。此外，我们通过将生成的图像标题视为多项选择候选答案，将 VWSD 转换为纯文本问答 QA 问题。利用零样本和少样本提示策略来探索这种转变的潜力，而零样本设置中的思想链 CoT 提示能够揭示法学硕士选择合适候选人所遵循的内部推理步骤。

Navigating Cultural Chasms: Exploring and Unlocking the Cultural POV of Text-To-Image Models
Authors Mor Ventura, Eyal Ben David, Anna Korhonen, Roi Reichart
以 DALL E 和 StableDiffusion 为代表的文本到图像 TTI 模型最近因其在文本提示引导下生成图像方面卓越的零射击能力而受到关注。语言作为文化的渠道，在这些模型的多语言能力中发挥着关键作用，而多语言能力反过来又塑造了它们的文化机构。在本研究中，我们通过跨三个层次的文化维度、文化领域和文化概念来表征文化，探索 TTI 模型中嵌入的文化感知。我们提出了一套全面的评估技术，包括使用 CLIP 空间的内在评估、使用视觉问答 VQA 模型的外在评估以及人类评估，以辨别 TTI 文化认知。为了促进我们的研究，我们引入了 CulText2I 数据集，该数据集源自四种不同的 TTI 模型，涵盖十种语言。

Hierarchical Evaluation Framework: Best Practices for Human Evaluation
Authors Iva Bojic, Jessica Chen, Si Yuan Chang, Qi Chwen Ong, Shafiq Joty, Josip Car
人类评估在自然语言处理 NLP 中发挥着至关重要的作用，因为它评估已开发系统的质量和相关性，从而促进其增强。然而，自然语言处理中缺乏广泛接受的人类评估指标，阻碍了不同系统之间的公平比较和通用评估标准的建立。通过对现有人类评估指标文献的广泛分析，我们发现了 NLP 评估方法中的一些差距。这些差距成为我们开发自己的分层评估框架的动力。所提出的框架具有显着的优势，特别是在提供 NLP 系统性能的更全面的表示方面。我们应用这个框架来评估开发的机器阅读理解系统，该系统在人类人工智能共生模型中使用。结果强调了投入和产出质量之间的关联，强调了评估这两个组成部分而不是仅仅关注产出的必要性。

Ring Attention with Blockwise Transformers for Near-Infinite Context
Authors Hao Liu, Matei Zaharia, Pieter Abbeel
Transformer 已成为许多最先进的人工智能模型的首选架构，在各种人工智能应用中展示了卓越的性能。然而，Transformers 施加的内存需求限制了它们处理长序列的能力，从而为涉及扩展序列或长期依赖性的任务带来了挑战。我们提出了一种独特的方法，即环注意力（Ring Attention），它利用自注意力的分块计算来跨多个设备分发长序列，同时将键值块的通信与分块注意力的计算重叠。通过在保持内存效率的同时处理更长的输入序列，Ring Attention 能够对序列进行训练和推理，这些序列比之前的内存高效 Transformer 的设备数倍长，从而有效地消除了各个设备施加的内存限制。

Benchmarking and Improving Generator-Validator Consistency of Language Models
Authors Xiang Lisa Li, Vaishnavi Shrivastava, Siyan Li, Tatsunori Hashimoto, Percy Liang
截至 2023 年 9 月，ChatGPT 正确回答了 7 8 和 15，但当询问 7 8 15，True 或 False 时，它会回答 False 。生成和验证答案之间的这种不一致在语言模型 LM 中很普遍，并且会削弱信任。在本文中，我们提出了一个测量生成和验证之间一致性的框架，我们称之为生成器验证器一致性，或 GV 一致性，发现即使是最先进的 LM GPT 4，也只有 76 的时间是 GV 一致的。为了提高 LM 的一致性，我们建议对 GV 一致的过滤生成器和验证器响应进行微调，并将这种方法称为一致性微调。我们发现这种方法将 Alpaca 30B 的 GV 一致性从 60 提高到 93，并且这种改进可以推断到看不见的任务和领域，例如，积极风格的 GV 一致性可以推断到看不见的风格，例如幽默。除了提高一致性之外，一致性微调还可以在不使用任何标记数据的情况下提高生成器质量和验证器准确性。

Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs
Authors Suyu Ge, Yunan Zhang, Liyuan Liu, Minjia Zhang, Jiawei Han, Jianfeng Gao
在这项研究中，我们引入了自适应 KV 缓存压缩，这是一种即插即用的方法，可以减少大型语言模型 LLM 生成推理的内存占用。与保留所有上下文标记的键和值向量的传统 KV 缓存不同，我们进行有针对性的分析以辨别注意力模块的内在结构。基于识别的结构，我们然后以自适应方式构建 KV 缓存，驱逐注意头上的长范围上下文，强调局部上下文，丢弃以特殊标记为中心的注意头上的非特殊标记，并且仅对注意头使用标准 KV 缓存广泛关注所有代币。此外，利用轻量级注意力分析来指导自适应 KV 缓存的构建，无需资源密集型微调或重新训练即可部署 FastGen。在我们针对各种要求的实验中，FastGen 证明 GPU 内存消耗大幅减少，而生成质量损失可以忽略不计。

Large Language Models Cannot Self-Correct Reasoning Yet
Authors Jie Huang, Xinyun Chen, Swaroop Mishra, Huaixiu Steven Zheng, Adams Wei Yu, Xinying Song, Denny Zhou
大型语言模型法学硕士已成为一项突破性技术，具有跨各种应用程序的无与伦比的文本生成功能。然而，对其生成内容的准确性和适当性的担忧仍然存在。人们提出了一种当代的方法，即自我修正，作为解决这些问题的方法。在此前提下，本文批判性地研究了法学硕士中自我纠正的作用和功效，揭示了其真正的潜力和局限性。我们研究的核心是内在自我纠正的概念，即法学硕士试图仅根据其固有能力来纠正其最初的反应，而无需外部反馈的辅助。在推理方面，我们的研究表明，法学硕士很难在没有外部反馈的情况下自我纠正自己的回答，有时，他们的表现甚至可能会在自我纠正后下降。

SEA: Sparse Linear Attention with Estimated Attention Mask
Authors Heejun Lee, Jina Kim, Jeffrey Willette, Sung Ju Hwang
近年来，Transformer 架构在需要对顺序元素之间的成对关系进行建模的任务上取得了突破，就像自然语言理解中的情况一样。然而，由于注意力操作的二次复杂性，Transformers 很难处理长序列，并且之前的研究旨在通过稀疏或线性逼近注意力矩阵来降低复杂性。然而，这些方法不能直接从教师的注意力矩阵中提取知识，并且通常需要从头开始进行完全的再训练。此外，如果以前的稀疏和线性方法不能产生完整的二次注意矩阵，也可能会失去可解释性。为了应对这些挑战，我们提出带有估计注意力掩模的 SEA 稀疏线性注意力。 SEA 通过基于内核的线性注意力估计具有线性复杂度的注意力矩阵，然后使用前 k 个选择创建全注意力矩阵的稀疏近似以执行稀疏注意力操作。对于语言建模任务 Wikitext2，之前的线性和稀疏注意力方法显示的困惑度分数比二次 OPT 125M 基线差大约两倍，而 SEA 实现了比 OPT 125M 更好的困惑度，使用的内存大约是 OPT 125M 的一半。此外，SEA 维护了一个可解释的注意力矩阵，并且可以利用知识蒸馏来降低现有预训练 Transformer 的复杂性。

Stack Attention: Improving the Ability of Transformers to Model Hierarchical Patterns
Authors Brian DuSell, David Chiang
注意力（特别是缩放的点积注意力）已被证明对自然语言有效，但它没有处理任意嵌套深度的分层模式的机制，这限制了它识别某些句法结构的能力。为了解决这个缺点，我们提出了堆栈注意力，一种包含堆栈的注意力算子，其灵感来自于堆栈与上下文无关语言 CFL 的理论联系。我们证明堆栈注意力类似于标准注意力，但具有不需要语法监督的潜在语法模型。我们提出了两种变体，一种与确定性下推自动机 PDA 相关，另一种基于非确定性 PDA，它允许变压器识别任意 CFL。我们证明，具有堆栈注意力的 Transformer 在学习标准 Transformer 所苦苦挣扎的 CFL 方面非常有效，在具有理论上最大解析难度的 CFL 上取得了很好的结果。

Nugget: Neural Agglomerative Embeddings of Text
Authors Guanghui Qin, Benjamin Van Durme
嵌入文本序列是现代语言理解中的广泛要求。现有的方法主要关注恒定大小的表示。这是有问题的，因为文本中包含的信息量通常随输入的长度而变化。我们提出了一种名为 Nugget 的解决方案，它将语言编码为基于动态选择的输入标记子集的表示。这些金块是通过自动编码和机器翻译等任务来学习的，并直观地将语言分割成有意义的单元。我们证明 Nugget 在涉及语义比较的任务中优于相关方法。

Ensemble Distillation for Unsupervised Constituency Parsing
Authors Behzad Shayegh, Yanshuai Cao, Xiaodan Zhu, Jackie C.K. Cheung, Lili Mou
我们研究了无监督的选区解析任务，该任务将句子的单词和短语组织成层次结构，而不使用语言注释数据。我们观察到现有的无监督解析器捕获解析结构的不同方面，可以利用这些方面来增强无监督解析性能。为此，我们提出了树平均的概念，在此基础上我们进一步提出了一种用于无监督解析的新颖的集成方法。为了提高推理效率，我们进一步将集成知识提炼成学生模型，这样的集成然后蒸馏过程是缓解常见多教师蒸馏方法中存在的过度平滑问题的有效方法。

Deciphering Diagnoses: How Large Language Models Explanations Influence Clinical Decision Making
Authors D.Umerenkov, G.Zubkova, A.Nesterov
临床决策支持系统 CDSS 利用基于证据的知识和患者数据来提供实时建议，大型语言模型法学硕士正在成为一种很有前途的工具，可以为医疗决策生成纯文本解释。本研究探讨了法学硕士在根据患者投诉生成诊断解释方面的有效性和可靠性。三位经验丰富的医生对法学硕士进行了评估，对患者投诉与医生之间的联系进行了解释，并在多个阶段对模型指定的诊断进行了解释。实验结果表明，LLM 解释显着提高了医生对给定诊断的同意率，并强调了 LLM 输出中的潜在错误（范围从 5 到 30）。

A Review of Digital Learning Environments for Teaching Natural Language Processing in K-12 Education
Authors Xiaoyi Tian, Kristy Elizabeth Boyer
自然语言处理 NLP 在我们的日常生活中发挥着重要作用，并已成为 K 12 人工智能教育的重要组成部分。随着孩子们在 NLP 支持的应用程序中成长，向他们介绍 NLP 概念、培养他们对自然语言处理的理解至关重要。人工智能和自然语言处理的语言处理、语言生成以及伦理影响。本文对 K 12 中 NLP 教学的数字化学习环境进行了全面回顾。具体来说，它探讨了现有的数字化学习工具，讨论了它们如何支持特定的 NLP 任务和程序，并研究了它们在教育环境中的可解释性和评估结果。通过研究这些工具的优点和局限性，这篇文献综述揭示了 K 12 教育中 NLP 学习工具的现状。

Defending Against Authorship Identification Attacks
Authors Haining Wang
事实证明，即使敏感的个人信息被小心地省略，作者身份识别在推断未签名文档的作者身份方面也非常有效。在数字时代，个人通过书面内容留下持久的数字足迹，无论这些内容是发布在社交媒体上、存储在雇主的计算机上还是位于其他地方。当个人需要公开交流但又希望保持匿名时，几乎没有什么办法可以保护他们免受不必要的作者身份识别。这种对隐私的前所未有的威胁在举报等场景中表现得很明显。针对作者身份识别攻击提出的防御措施主要旨在混淆一个人的写作风格，从而使其与他们先前存在的写作无法链接，同时保留原始含义和语法完整性。所提出的工作全面回顾了过去二十年及以后该研究领域的进展。它强调了旨在逃避作者身份识别攻击的修改和基于生成的策略的方法框架，强调了差分隐私社区的共同努力。

Making Retrieval-Augmented Language Models Robust to Irrelevant Context
Authors Ori Yoran, Tomer Wolfson, Ori Ram, Jonathan Berant
检索增强语言模型 RALM 有望产生真实、高效且最新的语言理解系统。 RALM 的一个重要需求是，检索到的信息在相关时有助于对性能进行建模，而在不相关时不会损害性能。这在多跳推理场景中尤其重要，其中滥用不相关的证据可能会导致级联错误。然而，最近的研究表明，检索增强有时会对性能产生负面影响。在这项工作中，我们对五个开放域问答基准进行了全面分析，描述了检索降低准确性时的情况。然后我们提出两种方法来缓解这个问题。首先，一个简单的基线，根据自然语言推理 NLI 模型过滤掉不包含问题答案对的检索到的段落。这可以有效防止性能下降，但代价是也丢弃相关段落。因此，我们提出了一种自动生成数据的方法，以微调语言模型，以正确利用检索到的段落，在训练时混合使用相关和不相关的上下文。

LLM Lies: Hallucinations are not Bugs, but Features as Adversarial Examples
Authors Jia Yu Yao, Kun Peng Ning, Zhen Hui Liu, Mu Nan Ning, Li Yuan
大型语言模型法学硕士，包括 GPT 3.5、LLaMA 和 PaLM，似乎知识渊博，能够适应许多任务。然而，我们仍然不能完全相信他们的答案，因为法学硕士患有幻觉，捏造不存在的事实来欺骗用户而没有感知。它们存在和普遍存在的原因仍不清楚。在本文中，我们证明由随机标记组成的无意义提示也可以引发法学硕士做出幻觉反应。这种现象迫使我们重新审视幻觉可能是对抗性例子的另一种观点，它与传统对抗性例子具有相似的特征，是法学硕士的基本特征。因此，我们将自动幻觉触发方法形式化为对抗性的幻觉攻击。最后，我们探讨了受攻击的对抗性提示的基本特征，并提出了一种简单而有效的防御策略。

The Entity-Deduction Arena: A playground for probing the conversational reasoning and planning capabilities of LLMs
Authors Yizhe Zhang, Jiarui Lu, Navdeep Jaitly
大型语言模型法学硕士目前可以有效地回答明确提出的问题。然而，当面对不明确的查询时，它们可能会做出不可预测的行为并产生不正确的输出。这强调了开发能够提出澄清问题以有效解决歧义的智能代理的必要性。这种能力需要对多个对话回合进行复杂的理解、状态跟踪、推理和规划。然而，直接测量这一点可能具有挑战性。在本文中，我们提出了一个代理问题，该问题评估法学硕士通过向法官提出一系列问题来推断其自身未知但向法官透露的实体的能力。这个textit实体推导游戏可以作为评估框架来探索语言模型的会话推理和规划能力。我们系统地评估了各种法学硕士，发现他们在这项任务上的表现存在显着差异。我们发现像 GPT 4 这样强大的 LLM 的表现远远优于人类玩家。我们进一步采用行为克隆 BC 来检查较弱的模型是否能够模仿较强的模型并仅使用较强模型的演示来推广到数据或领域。我们最终建议使用强化学习通过玩游戏来增强 Vicuna 模型的推理和规划能力，从而显着提高性能。

FedBPT: Efficient Federated Black-box Prompt Tuning for Large Language Models
Authors Jingwei Sun, Ziyue Xu, Hongxu Yin, Dong Yang, Daguang Xu, Yiran Chen, Holger R. Roth
预训练的语言模型 PLM 彻底改变了 NLP 领域，在不同的任务中取得了出色的表现。这些模型虽然受益于大量训练数据，但通常需要对特定数据进行微调，以满足不同的下游任务。然而，这种数据适应过程具有固有的安全和隐私问题，尤其是在利用用户生成的设备驻留数据时。联邦学习 FL 提供了一种解决方案，允许协作模型微调，而无需集中数据收集。然而，应用 FL 来微调 PLM 受到一些挑战的阻碍，包括受限的模型参数访问、高计算要求和通信开销。本文介绍了联邦黑盒提示调整 FedBPT，这是一个旨在解决这些挑战的框架。 FedBPT 不要求客户端访问模型参数。通过专注于训练最佳提示并利用无梯度优化方法，FedBPT 减少了交换变量的数量，提高了通信效率，并最大限度地降低了计算和存储成本。实验凸显了该框架在保持竞争性能的同时大幅降低通信和内存成本的能力。

NarrativePlay: Interactive Narrative Understanding
Authors Runcong Zhao, Wenjia Zhang, Jiazheng Li, Lixing Zhu, Yanran Li, Yulan He, Lin Gui
在本文中，我们介绍了 NarrativePlay，这是一种小说系统，允许用户在沉浸式环境中扮演虚构角色，并与小说等叙事中的其他角色进行互动。我们利用大型语言模型法学硕士，以从叙述中提取的个性特征为指导，生成类似人类的反应。系统融合了自动生成的叙事场景、人物肖像、人物语音的视觉展示，极大地提升了用户体验。我们的方法避开了预定义的沙箱，而是专注于从用户选择的角色的角度从叙述中提取的主要故事情节事件。

Fooling the Textual Fooler via Randomizing Latent Representations
Authors Duy C. Hoang, Quang H. Nguyen, Saurav Manchanda, MinLong Peng, Kok Seng Wong, Khoa D. Doan
尽管在各种 NLP 任务中表现出色，但最近的研究表明，NLP 模型很容易受到对抗性攻击，这些攻击会稍微扰乱输入，从而导致模型行为不当。在这些攻击中，对抗性词级扰动是经过充分研究的有效攻击策略。由于这些攻击在黑盒设置中起作用，因此它们不需要访问模型架构或模型参数，因此可能对现有 NLP 应用程序有害。为了执行攻击，攻击者会多次查询受害者模型，以确定输入文本中最重要的单词，并将这些单词替换为相应的同义词。在这项工作中，我们提出了一种轻量级且与攻击无关的防御，其主要目标是迷惑在这些基于查询的黑盒攻击中生成对抗性示例的过程，从而愚弄文本愚人。这种防御称为 AdvFooler，其工作原理是在推理时随机化输入的潜在表示。与现有的防御措施不同，AdvFooler 在训练期间不需要额外的计算开销，也不依赖于对潜在对抗扰动集的假设，同时对模型准确性的影响可以忽略不计。我们的理论和实证分析强调了通过随机化潜在空间迷惑对手而产生的鲁棒性的重要性，以及随机化对干净准确性的影响。

Meta Semantic Template for Evaluation of Large Language Models
Authors Yachuan Liu, Liang Chen, Jindong Wang, Qiaozhu Mei, Xing Xie
大型语言模型法学硕士是否真正理解语言的语义，还是只是记住训练数据最近对法学硕士潜在数据污染的担忧提高了社区对法学硕士评估研究的认识。在本文中，我们提出了MSTemp，一种创建元语义模板来评估法学硕士语义理解能力的方法。 MSTemp的核心不是直接对现有的基准数据集进行评估，而是使用现有的数据集作为种子生成新的分布外的OOD评估集。具体来说，对于给定的句子，MSTemp 利用另一种语言模型来生成新样本，同时保留其语义。新样本被称为原始句子的语义模板。然后，MSTemp 通过句子解析和语义模板上的随机单词替换来生成评估样本。 MSTemp 高度灵活、动态且具有成本效益。我们的初步实验表明，MSTemp 生成的样本可以显着降低使用现有数据集作为种子的 LLM 的性能。

Adaptive-Solver Framework for Dynamic Strategy Selection in Large Language Model Reasoning
Authors Jianpeng Zhou, Wanjun Zhong, Yanlin Wang, Jiahai Wang
大型语言模型法学硕士在处理复杂推理任务方面展现出了令人印象深刻的能力。在现实世界中，问题往往具有多种复杂性。人类本质上会根据任务的复杂性来调整解决问题的方法。然而，大多数利用法学硕士的方法论倾向于采用统一的方法，利用一致的模型、提示方法和问题分解的程度，无论问题的复杂程度如何。它们的不灵活性会带来不必要的计算开销或次优性能。为了解决这个问题，我们引入了自适应求解器框架。它根据问题的难点战略性地调整解决策略。给定一个初始解决方案，该框架具有两个主要模块。初始评估模块评估当前解决方案的充分性。如果需要改进，后续的适配模块就会发挥作用。在该模块中，采用了三个关键的适应策略 1 模型适应当较弱的变体不足以满足要求时，切换到更强的法学硕士。 2 提示方法的适应交替使用不同的提示技巧以适应问题的细微差别。 3 分解粒度适配将复杂问题分解为更细粒度的子问题，以增强可解决性。通过这种动态适应，我们的框架不仅提高了计算效率，还提高了整体性能。这种双重优势既确保了系统处理简单任务的效率，又确保了处理更复杂问题所需的精度。复杂推理任务的实验结果表明，提示方法适应和分解粒度适应提高了所有任务的性能。

Adapting LLM Agents Through Communication
Authors Kuan Wang, Yadong Lu, Michael Santacroce, Yeyun Gong, Chao Zhang, Yelong Shen
大型语言模型法学硕士的最新进展显示了类人智能体的潜力。为了帮助这些智能体在没有广泛的人类监督的情况下适应新任务，我们提出了通过通信学习 LTC 范式，这是一种新颖的训练方法，使 LLM 智能体能够通过与环境和其他智能体的交互来不断改进。大型语言模型法学硕士的最新进展显示了类人智能体的潜力。为了帮助这些智能体在没有广泛的人类监督的情况下适应新任务，我们提出了通过通信学习 LTC 范式，这是一种新颖的训练方法，使 LLM 智能体能够通过与环境和其他智能体的交互来不断改进。通过迭代探索和 PPO 训练，LTC 使智能体能够将短期经验吸收到长期记忆中。为了优化特定任务学习的代理交互，我们引入了三种结构化通信模式：独白、对话和模拟，专为决策、知识密集型推理和数字推理等常见任务而定制。我们在 ALFWorld 决策、HotpotQA 知识密集推理和 GSM8k 数值推理这三个数据集上评估了 LTC。在 ALFWorld 上，它的成功率超出指令调优基线 12。在 HotpotQA 上，LTC 在 EM 分数上比指令调整的 LLaMA 7B 代理高出 5.1，并且比指令调整的 9 倍大 PaLM 62B 代理高出 0.6。在 GSM8k 上，LTC 的准确度比 CoT Tuning 基线高 3.6。结果展示了 LTC 方法在不同领域的多功能性和效率。

UPAR: A Kantian-Inspired Prompting Framework for Enhancing Large Language Model Capabilities
Authors Hejia Geng, Boxun Xu, Peng Li
大型语言模型法学硕士已经展示了令人印象深刻的推理能力，大量的研究工作致力于通过提示来增强这种能力。尽管做出了这些努力，但仍然明显缺乏统一的认识论基础。受到康德先验哲学的启发，我们提出了 UPAR 激励框架，旨在模拟法学硕士内的人类认知结构。 UPAR框架分为理解、计划、行动和反思四个阶段，能够从复杂的环境中提取结构化信息、预先规划解决方案、按计划执行和自我反思。这种结构显着增强了法学硕士推理的可解释性和准确性，产生人类可理解和可检查的推理轨迹。此外，我们的工作为现有的提示技术提供了认识论基础，允许对这些方法进行可能的系统整合。

The Many Voices of Duying: Revisiting the Disputed Essays Between Lu Xun and Zhou Zuoren
Authors Xin Xie, Jiangqiong Li, Haining Wang
鲁迅和周作人是中国现代文学中最具影响力的两位作家。除了作为兄弟的家庭关系之外，他们在写作生涯的初期阶段也是亲密的合作者。本研究采用定量方法重新审视兄弟俩于 1912 年匿名发表的三篇有争议的文章。我们的文体分析使用可解释的作者归属模型来调查文章的作者身份并检查兄弟俩各自的写作风格。我们的研究结果表明，《看中国》的作者是鲁迅。此外，《越人勿忘祖训》似乎主要是由鲁迅撰写或大量修改的，因为它与周作人认为是他自己的作品《望越国》有显着的相似之处，但由鲁迅编辑。第三篇文章《共和国的品格去哪儿了》呈现出一种淡化、混合的写作风格，暗示着彻底的合作。我们提供论文特征的视觉表示，以促进细致入微和直观的理解。

Revolutionizing Mobile Interaction: Enabling a 3 Billion Parameter GPT LLM on Mobile
Authors Samuel Carreira, Tom s Marques, Jos Ribeiro, Carlos Grilo
近年来，人工智能领域取得了显着的进步，特别是基于 Transformer 架构的强大的大型语言模型 LLM 的出现。基于云的法学硕士（例如 OpenAI 的 ChatGPT）提供了令人印象深刻的功能，但由于网络依赖性而存在延迟和隐私问题。本文提出了一种创新的 LLM 推理方法，展望了未来，具有数十亿参数的 LLM 可以直接在移动设备上执行，无需网络连接。该文章展示了一个经过微调的 GPT LLM，它具有 30 亿个参数，可以在内存低至 4GB 的设备上顺利运行。通过本机代码和模型量化技术的集成，该应用程序不仅可以充当通用助手，还可以促进与文本到操作功能的无缝移动交互。本文深入介绍了设备上 LLM 推理的训练流程、实施细节、测试结果和未来方向。

Split and Merge: Aligning Position Biases in Large Language Model based Evaluators
Authors Zongjie Li, Chaozheng Wang, Pingchuan Ma, Daoyuan Wu, Tianxiang Li, Shuai Wang, Cuiyun Gao, Yang Liu
大型语言模型法学硕士已显示出作为自动评估器的前景，用于评估人工智能系统生成的答案的质量。然而，这些基于法学硕士的评估者在用于评估成对比较中的候选答案时表现出立场偏差或不一致，无论内容如何，都倾向于第一个或第二个答案。为了解决这一限制，我们提出了 PORTIA，这是一种基于对齐的系统，旨在模仿人类比较策略，以轻量级但有效的方式校准位置偏差。具体来说，PORTIA 将答案分成多个部分，将候选答案中的相似内容对齐，然后将它们合并回单个提示中，供法学硕士进行评估。我们对六位不同的法学硕士进行了广泛的实验，以评估 11,520 个答案对。我们的结果表明，PORTIA 显着提高了所有测试模型和比较表的一致性率，平均相对提高了 47.46。值得注意的是，PORTIA 使不太先进的 GPT 模型能够以 10 倍的成本实现与最先进的 GPT 4 模型的 88 次一致性。此外，它纠正了 GPT 4 模型中大约 80 个位置偏差实例，将其一致性率提高到 98。随后的人类评估表明，PORTIA 增强型 GPT 3.5 模型在与人类评估者的一致性方面甚至可以超越独立的 GPT 4。这些发现凸显了 PORTIA 纠正立场偏差、提高法学硕士一致性以及在保持成本效率的同时提高绩效的能力。

Sarcasm in Sight and Sound: Benchmarking and Expansion to Improve Multimodal Sarcasm Detection
Authors Swapnil Bhosale, Abhra Chaudhuri, Alex Lee Robert Williams, Divyank Tiwari, Anjan Dutta, Xiatian Zhu, Pushpak Bhattacharyya, Diptesh Kanojia
MUStARD 数据集及其情感识别扩展 MUStARD 的引入，已经确定讽刺是一种多模态现象，不仅通过自然语言文本表达，还通过语调和语调等言语方式以及视觉线索面部表情表达。通过这项工作，我们的目标是通过考虑最先进的语言、语音和视觉编码器来对 MUStARD 数据集进行严格的基准测试，以充分利用它所提供的多模态丰富性的整体，在宏F1超过现有基准。此外，为了解决 MUStARD 中讽刺类型类别的不平衡问题，我们提出了一个扩展，我们将其称为 emph MUStARD Balanced，与跨训练集和测试集的扩展实例进行相同的基准测试，进一步实现 2.4 宏 F1 提升。新剪辑取自电视节目《House MD》的新颖来源，这增加了数据集的多样性，并由多个注释者手动注释，在 Cohen s kappa 和 Krippendorf s alpha 方面具有实质性的注释者间一致性。

Chatmap : Large Language Model Interaction with Cartographic Data
Authors Eren Unlu
基础大型语言模型法学硕士的快速发展和广泛可用性，辅以强大的微调方法，促进了它们适应创新和工业应用。让法学硕士能够识别和解释地理空间数据，同时提供对大量地图数据集的语言访问，这一点非常重要。 OpenStreetMap OSM 是最雄心勃勃的开源全球计划，提供详细的城市和农村地理数据，由超过 1000 万贡献者的社区管理，这为法学硕士应用程序带来了巨大的潜力。在这项研究中，我们展示了概念证明和微调相对较小规模的 1B 参数 LLM 过程的细节，该过程使用由更强大的教师模型管理的相对较小的人工数据集，以便为 OSM 数据提供语言接口任意城市区域。通过该界面，用户可以查询某个位置的属性，涵盖广泛的概念，例如其旅游吸引力或该附近各种企业的潜在盈利能力。该研究旨在为此类生成人工智能的适应提供初步指导，并展示在这种情况下即使在最小的计算环境下有用的新兴能力的早期迹象。

Attention Sorting Combats Recency Bias In Long Context Language Models
Authors Alexander Peysakhovich, Adam Lerer
当前的语言模型通常无法在生成过程中有效地合并长上下文。我们表明，造成这个问题的一个主要因素是注意力先验，这些先验注意力可能是在预训练期间学到的，上下文中较早的相关信息平均受到较少关注。然而，即使模型无法在响应中使用相关文档中的信息，与同一位置的不相关文档相比，它们仍然会优先关注该文档。我们利用这一事实来引入注意力排序，执行一步解码，按照最后受到最高关注的注意力对文档进行排序，重复该过程，使用新排序的上下文生成答案。我们发现注意力排序提高了长上下文模型的性能。

Borges and AI
Authors L on Bottou, Bernhardt Sch lkopf
许多人认为，大型语言模型法学硕士开启了人工智能时代。有人看到机遇，有人看到危险。然而，支持者和反对者都通过科幻小说中流行的图像来理解人工智能。机器会变得有知觉并反抗它的创造者吗？我们会经历回形针启示录吗？在回答这些问题之前，我们首先应该问这个心理意象是否能很好地描述当前的现象。通过众神的情绪来了解天气模式也只能到此为止。相反，本文主张通过豪尔赫·路易斯·博尔赫斯（Jorge Luis Borges）的意象来理解法学硕士及其与人工智能的联系，豪尔赫·路易斯·博尔赫斯是 20 世纪文学大师、魔幻现实主义的先驱和后现代文学的先驱。

Identifying and Mitigating Privacy Risks Stemming from Language Models: A Survey
Authors Victoria Smith, Ali Shahin Shamsabadi, Carolyn Ashurst, Adrian Weller
语言模型 LM 的快速进步导致其在许多领域得到采用。除了潜在的好处之外，此类模型还带来了一系列风险，包括隐私方面的风险。特别是，随着 LM 规模的扩大，记忆其训练数据的潜力也随之增加，从而导致泄露私人信息的风险。随着 LM 变得越来越普遍，我们了解此类隐私风险以及如何减轻这些风险至关重要。为了帮助研究人员和政策制定者了解有关隐私攻击和缓解措施的知识状况，包括需要做更多工作的地方，我们提出了第一份关于 LM 隐私的技术调查。我们 i 确定对 LM 的攻击不同的显着维度分类法，ii 调查现有攻击并使用我们的维度分类法来突出关键趋势，iii 讨论现有缓解策略，突出其优势和局限性，确定关键差距并展示开放问题和领域

An Empirical Study of AI Generated Text Detection Tools
Authors Arslan Akram
由于 ChatGPT 已成为主要的 AIGC 模型，在包括软件开发和维护在内的广泛应用中提供高质量的响应，因此引起了许多人的极大兴趣。 ChatGPT 前景广阔，但滥用可能会引发严重问题，特别是在教育和公共安全领域。有多种 AIGC 检测器可供使用，并且它们都已在真实文本上进行了测试。然而，需要更多的研究来了解它们对于多域 ChatGPT 材料的有效性。本研究旨在通过创建一个多域数据集来测试最先进的 API 和检测大学和其他研究机构使用的人工生成信息的工具来满足这一需求。为此研究创建了一个由文章、摘要、故事、新闻和产品评论组成的大型数据集。第二步是使用新创建的数据集来测试六种工具的性能。六种不同的人工智能AI文本识别系统，包括GPTkit、GPTZero、Originality、Sapling、Writer和Zylalab，准确率在55.29到97.0之间。

Ruffle&Riley: Towards the Automated Induction of Conversational Tutoring Systems
Authors Robin Schmucker, Meng Xia, Amos Azaria, Tom Mitchell
对话式辅导系统 CTS 提供由自然语言交互驱动的学习体验。众所周知，它们可以促进高水平的认知参与并有益于学习成果，特别是在推理任务中。尽管如此，创作 CTS 内容所需的时间和成本是广泛采用的主要障碍。在本文中，我们介绍了一种新型的 CTS，它通过两种方式利用大型语言模型 LLM 的最新进展：首先，系统从课程文本中自动生成辅导脚本。其次，该系统通过两个基于 LLM 的代理 Ruffle Riley 自动化脚本编排，并以学生和教授的角色进行教学形式的学习。该系统允许遵循 ITS 典型外环结构的自由形式对话。在最初的受试者在线用户研究 N 100 中，将 Ruffle Riley 与更简单的 QA 聊天机器人和阅读活动进行比较，我们发现测试后分数没有显着差异。尽管如此，在学习体验调查中，Ruffle Riley 用户对理解和记忆表示了更高的评价，并进一步认为所提供的支持更有帮助，对话也更连贯。

Cordyceps@LT-EDI: Depression Detection with Reddit and Self-training
Authors Dean Ninalga
抑郁症会使人衰弱，而且并不罕见。事实上，对过度使用社交媒体的研究表明，社交媒体与抑郁症、多动症和其他心理健康问题存在相关性。鉴于有大量人过度使用社交媒体，因此存在大量潜在未确诊的用户和他们创建的帖子。在本文中，我们提出了一种抑郁症严重程度检测系统，使用半监督学习技术来预测帖子是否来自正在经历严重、中度或低非诊断水平抑郁症的用户。也就是说，我们使用经过训练的模型对来自 Reddit 的大量未标记的社交媒体帖子进行分类，然后使用这些生成的标签来训练更强大的分类器。

Generalizable Long-Horizon Manipulations with Large Language Models
Authors Haoyu Zhou, Mingyu Ding, Weikun Peng, Masayoshi Tomizuka, Lin Shao, Chuang Gan
这项工作介绍了一个框架，该框架利用大型语言模型法学硕士的功能来生成原始任务条件，以便对新颖的对象和看不见的任务进行可概括的长期操作。这些任务条件可作为生成和调整动态运动基元 DMP 轨迹的指南，以实现长期任务执行。我们进一步创建了一个基于 Pybullet 的具有挑战性的机器人操作任务套件，用于长期任务评估。在模拟和现实环境中进行的大量实验证明了我们的框架在涉及新对象的熟悉任务和新颖但相关的任务上的有效性，凸显了法学硕士在增强机器人系统多功能性和适应性方面的潜力。

MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts
Authors Pan Lu, Hritik Bansal, Tony Xia, Jiacheng Liu, Chunyuan Li, Hannaneh Hajishirzi, Hao Cheng, Kai Wei Chang, Michel Galley, Jianfeng Gao
尽管大型语言模型法学硕士和大型多模态模型法学硕士在各个领域表现出令人印象深刻的技能，但它们在视觉上下文中进行数学推理的能力尚未得到正式检验。为法学硕士和法学硕士配备这种能力对于通用人工智能助手至关重要，并展示了在教育、数据分析和科学发现方面的巨大潜力。为了弥补这一差距，我们推出了 MathVista，这是一个旨在合并来自不同数学和视觉任务的挑战的基准。我们首先对文献中的关键任务类型、推理技能和视觉上下文进行分类，以指导我们从 28 个现有的数学重点和视觉问答数据集中进行选择。然后，我们构建了三个新数据集：IQTest、FunctionQA 和 PaperQA，以适应缺失的视觉上下文类型。这些问题通常需要 OCR 或图像字幕之外的深入视觉理解，以及使用丰富的特定领域工具进行组合推理，从而对现有模型提出了显着的挑战。我们对 11 个著名的开源和专有基础模型 LLM、使用工具增强的 LLM 和 LMM 以及 GPT 4V 的早期实验进行了全面评估。性能最好的模型 Multimodal Bard 仅达到人类性能的 58（34.8 vs 60.3），表明还有足够的进一步改进空间。鉴于这一巨大差距，MathVista 推动了通用人工智能代理开发的未来研究，这些人工智能代理能够处理数学密集型和视觉丰富的现实世界任务。初步测试表明，MathVista 也对 GPT 4V 提出了挑战，凸显了该基准测试的重要性。

Language Models Represent Space and Time
Authors Wes Gurnee, Max Tegmark
大型语言模型法学硕士的能力引发了关于此类系统是否只是学习大量表面统计数据或数据生成过程的连贯模型（世界模型）的争论。我们通过分析 Llama 2 系列模型中三个空间数据集世界、美国、纽约地点和三个时间数据集历史人物、艺术品、新闻标题的学习表示，找到了后者的证据。我们发现法学硕士可以学习跨多个尺度的空间和时间的线性表示。这些表示对于提示变化是鲁棒的，并且在不同的实体类型之间是统一的，例如城市和地标。此外，我们还识别了可靠编码空间和时间坐标的单个空间神经元和时间神经元。

Towards End-to-End Embodied Decision Making via Multi-modal Large Language Model: Explorations with GPT4-Vision and Beyond
Authors Liang Chen, Yichi Zhang, Shuhuai Ren, Haozhe Zhao, Zefan Cai, Yuchi Wang, Tianyu Liu, Baobao Chang
在这项研究中，我们探索了多模态大型语言模型 MLLM 在改进代理的具体决策过程中的潜力。虽然大型语言模型法学硕士因其先进的推理技能和广泛的世界知识而被广泛使用，但像 GPT4 Vision 这样的 MLLM 提供了增强的视觉理解和推理能力。我们研究最先进的 MLLM 是否可以以端到端的方式处理具体决策，以及 LLM 和 MLLM 之间的合作是否可以增强决策。为了解决这些问题，我们引入了一个名为 PCA EVAL 的新基准，它从感知、认知和行动的角度评估具体决策。此外，我们提出了 HOLMES，这是一个多代理合作框架，允许法学硕士利用 MLLM 和 API 来收集多模式信息以做出明智的决策。我们在基准上比较端到端体现决策和 HOLMES，发现 GPT4 Vision 模型表现出强大的端到端体现决策能力，在平均决策准确性方面优于 GPT4 HOLMES 3 。然而，这种性能是最新 GPT4 Vision 模型独有的，比开源最先进的 MLLM 高出 26 。

Driving with LLMs: Fusing Object-Level Vector Modality for Explainable Autonomous Driving
Authors Long Chen, Oleg Sinavski, Jan H nermann, Alice Karnsund, Andrew James Willmott, Danny Birch, Daniel Maund, Jamie Shotton
大型语言模型法学硕士在自动驾驶领域显示出了前景，特别是在泛化性和可解释性方面。我们引入了一种独特的对象级多模态 LLM 架构，该架构将矢量化数字模态与预先训练的 LLM 相结合，以提高对驾驶情况的上下文理解。我们还提出了一个新的数据集，其中包含源自 10k 驾驶场景的 160k QA 对，并配有 RL 代理收集的高质量控制命令以及由教师 LLM GPT 3.5 生成的问题答案对。设计了一种独特的预训练策略，使用矢量字幕语言数据将数字矢量模态与静态 LLM 表示对齐。我们还引入了驾驶质量检查的评估指标，并展示了我们的法学硕士驾驶员在解释驾驶场景、回答问题和决策方面的熟练程度。与传统的行为克隆相比，我们的研究结果凸显了基于法学硕士的驾驶行为生成的潜力。

Effective and Parameter-Efficient Reusing Fine-Tuned Models
Authors Weisen Jiang, Baijiong Lin, Han Shi, Yu Zhang, and Zhenguo Li, James T. Kwok
在线提供的许多预先训练的大型模型在转移到下游任务方面已经变得非常有效。同时，在这些预训练模型上进行微调的各种特定于任务的模型可在线供公众使用。在实践中，由于收集特定于任务的数据是劳动密集型的，并且微调大型预训练模型的计算成本很高，因此可以重用特定于任务的微调模型来处理下游任务。然而，每个任务使用一个模型会给存储和服务带来沉重的负担。最近，已经提出了许多免训练和参数有效的方法，用于将多个微调的任务特定模型重用为单个多任务模型。然而，与每个任务使用微调模型相比，这些方法表现出很大的准确度差距。在本文中，我们提出了重新使用 PERU 微调模型的参数有效方法。为了重用完全微调的 FFT 模型，我们提出了 PERU FFT，通过幅度剪枝将稀疏任务向量注入到合并模型中。为了重用 LoRA 微调模型，我们建议秘鲁 LoRA 使用较低秩矩阵通过奇异值分解来近似 LoRA 矩阵。 PERUFFT 和 PERU LoRA 都是免费培训的。在计算机视觉和自然语言处理任务上进行的大量实验证明了所提出方法的有效性和参数效率。

Fine-tuned vs. Prompt-tuned Supervised Representations: Which Better Account for Brain Language Representations?
Authors Jingyuan Sun, Marie Francine Moens
为了破译人类大脑语言表示的算法，之前的工作通过在 NLU 任务上进行微调的预先训练的人工神经网络 ANN 模型来探究大脑对语言输入的反应。然而，完全微调通常会更新整个参数空间并扭曲预先训练的特征，在认知上与大脑强大的多任务学习能力不一致。相反，及时调整可以保护预先训练的权重并学习特定于任务的嵌入以适应任务。提示调优可以生成比微调更好地解释大脑语言表征的表示如果是这样，什么样的 NLU 任务可以引导预训练模型更好地解码人脑中表示的信息我们通过比较提示调优和微调来研究这些问题调整神经解码中的表示，即根据刺激引起的大脑活动来预测语言刺激。我们发现，在 10 个 NLU 任务中，没有一个任务的完全微调在神经解码方面显着优于即时调整，这意味着更与大脑一致的调整方法可以产生与大脑数据更好相关的表示。此外，我们发现处理细粒度概念意义的任务产生的表示比其他任务（尤其是句法分块任务）能够更好地解码大脑激活模式。

Zero-Shot Refinement of Buildings' Segmentation Models using SAM
Authors Ali Mayladan, Hasan Nasrallah, Hasan Moughnieh, Mustafa Shukor, Ali J. Ghandour
基础模型在各种任务中表现出色，但通常根据一般基准进行评估。这些模型针对特定领域（例如遥感图像）的适应仍然是一个尚未充分探索的领域。在遥感中，精确的建筑实例分割对于城市规划等应用至关重要。虽然卷积神经网络 CNN 表现良好，但其泛化能力可能有限。为此，我们提出了一种新颖的方法来调整基础模型，以解决现有模型泛化下降的问题。在多个模型中，我们的重点是 Segment Anything Model SAM，这是一个强大的基础模型，以其在类无关图像分割功能方面的实力而闻名。我们首先确定 SAM 的局限性，揭示其应用于遥感图像时的次优性能。此外，SAM 不提供识别能力，因此无法对本地对象进行分类和标记。为了解决这些限制，我们引入了不同的提示策略，包括集成预先训练的 CNN 作为提示生成器。这种新颖的方法增强了 SAM 的识别能力，这在同类方法中尚属首次。我们在三个遥感数据集上评估了我们的方法，包括 WHU 建筑数据集、马萨诸塞州建筑数据集和 AICrowd 测绘挑战赛。对于 WHU 数据集上的分布性能，我们的 IoU 提高了 5.47，F1 分数提高了 4.81。对于 WHU 数据集的分布性能，我们观察到 True Positive IoU 和 True Positive F1 分数分别增加了 2.72 和 1.58。

Preserving Phonemic Distinctions for Ordinal Regression: A Novel Loss Function for Automatic Pronunciation Assessment
Authors Bi Cheng Yan, Hsin Wei Wang, Yi Cheng Wang, Jiun Ting Li, Chi Han Lin, Berlin Chen
自动发音评估 APA 能够量化第二语言 L2 学习者的语言发音水平。流行的 APA 方法通常利用经过回归损失函数（例如均方误差 MSE 损失）训练的神经模型来进行熟练程度预测。尽管大多数回归模型可以有效地捕获特征空间中熟练程度的序数，但它们面临的主要障碍是具有相同熟练程度的不同音素类别不可避免地被迫彼此接近，保留较少的音素区分信息。鉴于此，我们设计了一种音素对比序数 PCO 损失，用于训练基于 APA 模型的回归，其目的是在考虑回归目标输出的序数关系的同时，保留音素类别之间更好的音素区别。具体来说，我们在 MSE 损失中引入了音素不同正则化器，它鼓励不同音素类别的特征表示相距较远，同时通过加权距离拉近属于同一音素类别的表示。

Extending CAM-based XAI methods for Remote Sensing Imagery Segmentation
Authors Abdul Karim Gizzini, Mustafa Shukor, Ali J. Ghandour
当前基于人工智能的方法无法对所使用的数据、提取的特征和预测推理操作提供可理解的物理解释。因此，使用高分辨率卫星图像训练的深度学习模型缺乏透明度和可解释性，只能被视为黑匣子，这限制了其广泛采用。专家需要帮助理解人工智能模型的复杂行为和底层决策过程。可解释的人工智能XAI领域是一个新兴领域，为人工智能模型的稳健、实用和值得信赖的部署提供了手段。已经提出了几种用于图像分类任务的 XAI 技术，而图像分割的解释在很大程度上仍未得到探索。本文通过采用最新的 XAI 分类算法并使它们可用于多类图像分割来弥补这一差距，其中我们主要关注高分辨率卫星图像的建筑物分割。为了对所提出的方法的性能进行基准测试和比较，我们引入了一种新的 XAI 评估方法和基于熵的指标来测量模型的不确定性。传统的XAI评估方法主要依赖于将图像中感兴趣区域的面积反馈给预先训练的效用模型，然后计算目标类别概率的平均变化。这些评估指标缺乏所需的鲁棒性，我们表明使用熵来监控目标类内像素分割的模型不确定性更合适。

Trainable Noise Model as an XAI evaluation method: application on Sobol for remote sensing image segmentation
Authors Hossein Shreim, Abdul Karim Gizzini, Ali J. Ghandour
eXplainable 人工智能 XAI 已成为处理关键任务应用程序时的基本要求，确保所使用的黑盒 AI 模型的透明度和可解释性。 XAI 的重要性涵盖从医疗保健到金融的各个领域，了解深度学习算法的决策过程至关重要。大多数基于人工智能的计算机视觉模型通常都是黑匣子，因此，在图像处理中提供深度神经网络的可解释性对于其在医学图像分析、自动驾驶和遥感应用中的广泛采用和部署至关重要。最近，已经推出了几种用于图像分类任务的 XAI 方法。相反，图像分割在可解释性方面受到的关注相对较少，尽管它是计算机视觉应用（尤其是遥感）中的一项基本任务。只有一些研究提出了基于梯度的 XAI 算法用于图像分割。本文采用最新的无梯度 Sobol XAI 方法进行语义分割。为了衡量 Sobol 分割方法的性能，我们提出了一种基于可学习噪声模型的定量 XAI 评估方法。该模型的主要目标是在解释图上引入噪声，其中较高的引入噪声意味着较低的精度，反之亦然。使用所提出的基于噪声的评估技术进行基准分析来评估和比较三种 XAI 方法的性能，包括 Seg Grad CAM、Seg Grad CAM 和 Seg Sobol。

Empirical Study of PEFT techniques for Winter Wheat Segmentation
Authors Mohamad Hasan Zahweh, Hasan Nasrallah, Mustafa Shukor, Ghaleb Faour, Ali J. Ghandour
参数高效微调 PEFT 技术最近经历了显着增长，并已被广泛应用于使大型视觉和语言模型适应各个领域，以最少的计算需求实现令人满意的模型性能。尽管取得了这些进展，但更多的研究尚未深入探讨 PEFT 在现实生活场景中的潜在应用，特别是在遥感和作物监测的关键领域。不同地区气候的多样性以及对全面的大规模数据集的需求，为准确识别不同地理位置和不断变化的生长季节的作物类型带来了重大障碍。本研究旨在通过使用最先进的 SOTA 小麦作物监测模型全面探索跨地区和跨年份分布概括的可行性来弥补这一差距。这项工作的目的是探索作物监测的 PEFT 方法。具体来说，我们专注于采用 SOTA TSViT 模型来解决冬小麦田分割问题，这是作物监测和粮食安全的一项关键任务。此适应过程涉及集成不同的 PEFT 技术，包括 BigFit、LoRA、Adaptformer 和提示调整。使用 PEFT 技术，我们取得了与使用完全微调方法所取得的结果相当的显着结果，同时仅训练整个 TSViT 架构的 0.7 个参数。内部标记数据集（称为 Beqaa Lebanon 数据集）包含连续五年的小麦和非小麦类别的高质量注释多边形，总面积为 170 平方公里。使用 Sentinel 2 图像，我们的模型获得了 84 F1 分数。

Can large language models provide useful feedback on research papers? A large-scale empirical analysis
Authors Weixin Liang, Yuhui Zhang, Hancheng Cao, Binglu Wang, Daisy Ding, Xinyu Yang, Kailas Vodrahalli, Siyu He, Daniel Smith, Yian Yin, Daniel McFarland, James Zou
专家反馈奠定了严谨研究的基础。然而，学术成果的快速增长和复杂的知识专业化对传统的科学反馈机制提出了挑战。获得高质量的同行评审越来越困难。资历较浅或来自资源匮乏环境的研究人员尤其难以获得及时的反馈。随着 GPT 4 等大型语言模型 LLM 的突破，人们越来越有兴趣使用 LLM 生成研究手稿的科学反馈。然而，LLM 生成的反馈的效用尚未得到系统研究。为了解决这一差距，我们使用 GPT 4 创建了一个自动化管道，为科学论文的完整 PDF 提供评论。我们通过两项大规模研究评估了 GPT 4 反馈的质量。我们首先将 GPT 4 生成的反馈与人类同行评审员反馈进行了定量比较，其中包括 15 种自然系列期刊的 3,096 篇论文和 ICLR 机器学习会议的 1,709 篇论文。 GPT 4 和人类审稿人提出的点的重叠度（自然期刊平均重叠度为 30.85，ICLR 为 39.23）与两个人类审稿人之间的重叠度（自然期刊平均重叠度为 28.58，ICLR 为 35.25）相当。对于较弱的论文，GPT 4 和人类审稿人之间的重叠更大。然后，我们对来自 110 个美国人工智能和计算生物学领域机构的 308 名研究人员进行了一项前瞻性用户研究，以了解研究人员如何看待我们的 GPT 4 系统在他们自己的论文中生成的反馈。总体而言，超过一半的 57.4 名用户认为 GPT 4 生成的反馈非常有帮助，82.4 名用户认为它比至少一些人工审阅者的反馈更有益。

One model to rule them all ? Towards End-to-End Joint Speaker Diarization and Speech Recognition
Authors Samuele Cornell, Jee weon Jung, Shinji Watanabe, Stefano Squartini
本文提出了一种联合说话人二值化SD和自动语音识别ASR的新框架，称为SLIDAR滑动窗口二值化增强识别。 SLIDAR 可以处理任意长度的输入，并且可以处理任意数量的发言者，有效解决谁同时发言的问题。 SLIDAR 利用滑动窗口方法，由端到端二值化增强语音转录 E2E DAST 模型组成，该模型在本地为每个窗口转录、二值化和说话者嵌入提供服务。 E2E DAST 模型基于编码器解码器架构，并利用序列化输出训练和 Whisper 风格提示等最新技术。然后，通过对说话人嵌入进行聚类以获得全局说话人身份，组合本地输出以获得最终的 SD ASR 结果。

VAL: Interactive Task Learning with GPT Dialog Parsing
Authors Lane Lawley, Christopher J. MacLellan
强化学习通常需要数百万个示例来生成静态的黑盒模型。相比之下，交互式任务学习 ITL 强调从人类以自然语言等方式提供的有限指令中获取增量知识。然而，在实践中，ITL 系统经常遇到脆弱且容易出错的语言解析问题。大型语言模型法学硕士可以抵抗脆弱性，但不可解释且无法增量学习。我们推出了 VAL，一个具有 LLM 符号集成新理念的 ITL 系统。通过仅将 LLM 用于算法框架内的谓词和参数选择等特定任务，VAL 获得了 LLM 的优势，支持从自然语言中交互式学习分层任务知识。获得的知识是人类可以解释的，并且可以概括为支持新任务的执行，而无需额外的培训。

Sci-Net: Scale Invariant Model for Buildings Segmentation from Aerial Imagery
Authors Hasan Nasrallah, Mustafa Shukor, Ali J. Ghandour
建筑物分割是地球观测和航空图像分析领域的一项基本任务。文献中大多数现有的基于深度学习的方法都可以应用于固定或窄范围的空间分辨率图像。在实际场景中，用户会处理各种图像分辨率。因此，给定的航拍图像通常需要重新采样，以匹配用于训练深度学习模型的数据集的空间分辨率，这会导致分割性能下降。为了克服这一挑战，我们在这份手稿中提出了尺度不变的神经网络科学网络架构，该架构可以从广泛的空间分辨率航空图像中分割建筑物。具体来说，我们的方法利用 UNet 分层表示和密集多孔空间金字塔池来提取细粒度的多尺度表示。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

你可能感兴趣的:(NLP,LLM,Papers,自然语言处理,nlp,llm,llama,大模型)

【重构推荐系统】国产大模型驱动的电商个性化推荐完整实战：架构设计、推理优化与在线部署闭环观熵国产大模型部署实战全流程指南重构人工智能 Agent 智能体落地方案
个人简介作者简介：全栈研发，具备端到端系统落地能力，专注大模型的压缩部署、多模态理解与Agent架构设计。热爱“结构”与“秩序”，相信复杂系统背后总有简洁可控的可能。我叫观熵。不是在控熵，就是在观测熵的流动个人主页：观熵个人邮箱：[email protected]座右铭：愿科技之光，不止照亮智能，也照亮人心！专栏导航观熵系列专栏导航：AI前沿探索：从大模型进化、多模态交互、AIGC内容生成，到
python 脚本遍历目录，并把目录下的非utf-8文件改成utf8 还债大湿兄 python 开发语言数据库
从网上下载的qt项目我本地编译里面经常包含中文，提示编译不过，实际上以前经常手动转，发觉还是用脚本不，毕竟这次下的有点大，我只改.h.cpp#pythonD:\python\filetoUtf.pyE:\EasyCanvas-master\EasyCanvas-masterimportosimportcodecsimportargparseimportsysdefconvert_to_utf8_b
FB-OCC: 3D Occupancy Prediction based on Forward-BackwardView Transformation justtoomuchforyou 智驾
NVidia，CVPR20233DOccupancyPredictionChallengeworkshoppaper：https://arxiv.org/pdf/2307.1492code：https://github.com/NVlabs/FB-BEV大参数量imagebackboneInternImage-H，1B外部数据集预训练：object365nuscenes：有点云label，强化网络
✨【Blender/Houdini 渲染必看】CPUⓥⓢGPU？3 分钟选对算力不踩坑！渲染101专业云渲染 blender houdini 分布式服务器 maya
核心问题速答Q：渲染该选CPU还是GPU？✅CPU：复杂场景/批量渲染/预算可控首选✅GPU：单帧速度/实时预览/急单交付必选维度1：硬件硬刚——CPU凭啥赢麻了？▫️多线程王者：16核/32核服务器矩阵，支持50-300台并行渲染▫️场景兼容性：粒子特效/全局光照/超复杂模型稳定输出秘密武器：CPU批量渲染100帧耗时=GPU单帧耗时，整体效率持平！⚙️维度2：动态计费逻辑——成本由什么决定？计
Golang Fiber框架最佳实践：如何构建企业级应用 Golang编程笔记 Golang编程笔记 Golang开发实战 golang 开发语言后端 ai
GolangFiber框架最佳实践：如何构建企业级应用关键词：Golang、Fiber框架、企业级应用、最佳实践、Web开发摘要：本文聚焦于GolangFiber框架在企业级应用构建中的最佳实践。详细介绍了Fiber框架的背景、核心概念、算法原理、数学模型等基础知识，通过具体的代码案例展示了如何搭建开发环境、实现和解读源代码。同时探讨了Fiber框架在实际应用场景中的应用，推荐了相关的学习资源、开
PillarNet: Real-Time and High-PerformancePillar-based 3D Object Detection justtoomuchforyou 目标检测人工智能计算机视觉智驾
ECCV2022paper：[2205.07403]PillarNet:Real-TimeandHigh-PerformancePillar-based3DObjectDetectioncode：https://github.com/VISION-SJTU/PillarNet-LTS纯点云基于pillar3D检测模型网络比较SECOND基于voxel，one-stage，基于sparse3Dc
深入研究 Golang 领域的 Fiber 框架架构 Golang编程笔记 golang 架构网络 ai
深入研究Golang领域的Fiber框架架构关键词：Golang、Fiber框架、架构、高性能、Web开发摘要：本文将深入探讨Golang领域的Fiber框架架构。我们会先介绍背景知识，包括目的、预期读者等。接着用通俗易懂的方式解释核心概念，如Fiber框架的各个组成部分，以及它们之间的关系。然后详细阐述核心算法原理、数学模型，通过实际代码案例展示其应用。还会介绍Fiber框架的实际应用场景、推荐
Prompt Engineering for Large Language Models 三月七꧁ ꧂ 论文合集llm+prompt prompt 语言模型人工智能自然语言处理 pdf javascript 前端
题目大型语言模型的快速工程简介随着OpenAI的ChatGPT和Google的Bard等软件的普及，大语言模型（LLM）已经渗透到生活和工作的许多方面。例如，ChatGPT可用于提供定制食谱，建议替换缺失的成分。它可用于起草研究提案、用多种编程语言编写工作代码、在语言之间翻译文本、协助政策制定等等（Gao2023）。用户通过“提示”或自然语言指令与大型语言模型进行交互。精心设计的提示可以带
RAG应用的评估（一） AI老炮 AIGC ai 机器学习人工智能语言模型
前言上篇文档主要是对Advanced-RAG的定义、策略和适用场景做了一个细致的分析，那么当我们准备将一个基于大模型的RAG应用投入生产时，如何去判断这个RAG是否合理呢？下面有一些问题是需要提前考并应付的：LLM输出的不确定性会带来一定的不可预知性。一个RAG应用在投入生产之前需要科学的测试以衡量这种不可预知性。在LLM应用上线后的持续维护中,需要科学、快速、可复用的手段来衡量其改进效果,比如回
MCP-Proxy：开发多LLM & 多MCP 支持并安全访问MCP Server的秘密 IT古董技术杂谈安全 MCP MCP-Proxy
在构建多模型、多协议、可控可信的大模型接入平台时，MCP-Proxy扮演着关键中枢。它不仅要支持多个LLM接入，还要保障对后端MCPServer的安全访问、请求审计、能力切换与资源隔离。什么是MCP/MCP-Proxy？MCP（ModelCapabilityProtocol）是新一代模型能力调用协议，类似于OpenAI的API，但可支持：多厂商大模型（OpenAI、DeepSeek、Yi、Chat
Linux I/O 文件操作详解：从系统调用到实际工程应用平凡灵感码头 linux学习 linux 运维服务器
一、写在前面在Linux或任何类Unix操作系统中，文件是一切的核心——无论是硬盘上的文本文件，还是串口设备、GPIO寄存器、甚至网络接口，几乎都被抽象为“文件”。理解Linux下的I/O文件操作机制，不仅是嵌入式开发的基础，也是进行系统编程与底层控制的关键。二、I/O的本质：一切皆文件Linux将外设抽象成文件的方式，统一了对各种资源的操作模型。你可以用open打开串口设备/dev/ttyS0，
Spring AI快速入门学java的cc spring 大数据 java
一、引入依赖org.springframework.aispring-ai-starter-model-openaiorg.springframework.aispring-ai-bom${spring-ai.version}pomimport二、配置模型spring：ai:openai:base-url:https://dashscope.aliyuncs.com/compatible-mode
人脸识别算法赋能园区无人超市安防升级智驱力人工智能算法人工智能边缘计算人脸识别智慧园区智慧工地智慧煤矿
人脸识别算法赋能园区无人超市安防升级正文在园区无人超市的运营管理中，传统安防手段依赖人工巡检或基础监控设备，存在响应滞后、误报率高、环境适应性差等问题。本文从技术背景、实现路径、功能优势及应用场景四个维度，阐述如何通过人脸识别检测、人员入侵算法及疲劳检测算法的协同应用，构建高效、精准的智能安防体系。一、技术背景：视觉分析算法的核心支撑人脸识别算法基于深度学习的卷积神经网络（CNN）模型，通过提取面
企业级知识库私有化部署：腾讯混元+云容器服务TKE实战大熊计算机 #腾讯云语言模型
1.背景需求分析在金融、医疗等数据敏感行业，企业需要构建完全自主可控的知识库系统。本文以某证券机构智能投研系统为原型，演示如何基于腾讯混元大模型与TKE容器服务实现：千亿级参数模型的私有化部署金融领域垂直场景微调高并发低延迟推理服务全链路安全合规方案1.1典型技术挑战#性能基准测试数据（单位：QPS）|场景|裸机部署|容器化部署|优化后||--------------------|--------
简单介绍物联网MQTT协议 Zio_Zhou 计算机网络 linux
在学习mqtt应用层协议之前，我们先来介绍一下发布/订阅模型以及请求/响应模型两种模型。请求/响应模型是网络应用系统中最常见的模型。在这种模型中，一个客户端（如一个Web浏览器）向服务器发送一个请求，服务器处理这个请求并返回一个响应。这个过程是同步的，意味着客户端需要等待服务器的响应。这种模型的优点是简单和易于理解，但在处理大量并发请求时可能会导致性能问题。发布/订阅模型。在这种模型中，有一个或多
RAG 调优指南：Spring AI Alibaba 模块化 RAG 原理与使用 ApacheDubbo spring 人工智能架构 Spring AI RAG
>夏冬,SpringAIAlibabaContributorRAG简介什么是RAG（检索增强生成）RAG（RetrievalAugmentedGeneration，检索增强生成）是一种结合信息检索和文本生成的技术范式。核心设计理念RAG技术就像给AI装上了「实时百科大脑」，通过先查资料后回答的机制，让AI摆脱传统模型的"知识遗忘"困境。️四大核心步骤1.文档切割→建立智能档案库核心任务:将海量文档
潜入思维的海洋：SoftCoT++如何让语言模型更聪明步子哥智能涌现语言模型人工智能自然语言处理
在人工智能的浩瀚星空下，大型语言模型（LLMs）如同一颗颗璀璨的恒星，照亮了从文本生成到复杂推理的广阔领域。然而，这些模型在推理任务中往往像是在迷雾中航行——尽管它们能抵达目的地，却常常因为固定的思维路径而错过更优的航线。2025年5月，一篇题为《SoftCoT++:Test-TimeScalingwithSoftChain-of-ThoughtReasoning》的论文如同一盏明灯，照亮了如何让
Spring AI Alibaba 支持国产大模型的Spring ai框架程序员老陈头面试学习路线阿里巴巴 spring 人工智能 java
总计30万奖金，SpringAIAlibaba应用框架挑战赛开赛点此了解SpringAI：java做ai应用的最好选择过去，Java在AI应用开发方面缺乏一个高效且易于集成的框架，这限制了开发者快速构建和部署智能应用程序的能力。SpringAI正是为解决这一问题而生，它提供了一套统一的接口，使得AI功能能够以一种标准化的方式被集成到现有的Java项目中。此外，SpringAI与原有的Spring生
技术调研：时序数据库（一） myskybeyond 时序数据库时序数据库数据库
选择时序数据库时，选择当下主流的解决方案。目前主流的开源解决方案有InfluxDB、TDengine和TimescaleDB。下文从多个维度对比分析，最终根据需求做出选型决策。1.核心架构与设计理念数据库架构特点核心优势InfluxDB-专为时序数据设计的分布式数据库-基于时间线（TimeSeries）模型-开源版（OSS）与商业版（Cloud/Enterprise）功能差异大高写入吞吐量、原生支
DeepSeek-V3 通俗详解：从诞生到优势，以及与 GPT-4o 的对比码事漫谈 AI ai
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站1.DeepSeek的前世今生1.1什么是DeepSeek？DeepSeek是一家专注于人工智能技术研发的公司，致力于打造高性能、低成本的AI模型。它的目标是让AI技术更加普惠，让更多人能够用上强大的AI工具。1.2DeepSeek-V3的诞生DeepSeek-V3是DeepSeek公司推出的最新一代A
企业级AI开发利器：Spring AI框架深度解析与实战_spring ai实战 AI大模型-海文人工智能 spring python 算法开发语言 java 机器学习
企业级AI开发利器：SpringAI框架深度解析与实战一、前言：Java生态的AI新纪元在人工智能技术爆发式发展的今天，Java开发者面临着一个新的挑战：如何将大语言模型（LLMs）和生成式AI（GenAI）无缝融入企业级应用。传统的Java生态缺乏统一的AI集成方案，开发者往往需要为不同AI供应商（如OpenAI、阿里云、HuggingFace）编写大量重复的接口适配代码，这不仅增加了开发成本，
009 【入门】单双链表及其反转-堆栈诠释要天天开心啊算法专栏算法链表
链表与堆栈系统详解|[数据结构]-[中级]-[通用]一、基础概念与内存模型1.按值传递vs按引用传递|[Java]-[基础]-[内存]//[典型错误示例]-Java中的引用传递陷阱voidmodify(Nodenode){node=node.next;//[警告]错误！仅修改局部引用的指向，不影响原始链表}//[正确做法]-通过引用修改对象内部状态voidrealModify(Nodenode){
【第15章】亿级电商平台订单系统-高可用架构设计 cherry5230 亿级流量架构设计与落地系统架构分布式架构中间件
1-1本章导学课程概述核心内容：订单系统高可用架构设计项目背景：年交易额200亿的B2B电商平台订单系统本章学习路径高可用概念解析设计原则学习七大架构设计方法论项目实战应用一、高可用核心概念定义与价值解析系统可靠性标准指标二、设计原则体系冗余设计故障自动转移服务降级策略监控预警机制三、七大高可用设计方法论<
转行要趁早！网络安全行业人才缺口大，企业招聘需求正旺！
网络安全行业具有人才缺口大、岗位选择多、薪资待遇好、学历要求不高等优势，对于想要转行的人员来说，是一个非常不错的选择。人才缺口大网络安全攻防技术手段日新月异，特别是现在人工智能技术飞速发展，网络安全形势复杂严峻，人才重要性凸显。教育部《网络安全人才实战能力白皮书》数据显示，到2027年，我国网络安全人员缺口将达327万。近期发布的《2024年网络安全产业人才发展报告》中提到，沿用ISC2的人才缺口
GEO引领品牌大模型种草：迈向Web3.0与元宇宙的认知新空间 GEO科技经验分享
在数字技术的演进历程中，我们正经历着从Web2.0到Web3.0、从平面互联网到沉浸式元宇宙的范式转变。这一转变不仅重塑了数字空间的形态和交互方式，更深刻改变了品牌与用户的连接模式和价值创造逻辑。而在这个新兴的数字疆域中，生成式引擎优化（GEO）正展现出前所未有的战略价值和应用潜力，成为品牌构建元宇宙和Web3.0存在的关键能力，特别是在“品牌大模型种草”场景下，品牌如何被理解、记住、推荐，正成为
高斯混合模型GMM&K均值（十三-1）——K均值是高斯混合模型的特例 phoenix@Capricornus 模式识别与机器学习均值算法机器学习算法
EM算法与K均值算法的关系K均值可以看成是高斯混合模型的特例。对K均值算法与EM算法进行比较后，可以发现它们之间有很大的相似性。K均值算法将数据点硬（hard）分配到聚类中，每个数据点唯一地与一个聚类相关联，而EM算法基于后验概率进行软（soft）分配。事实上，可以从EM算法推导出K均值算法。考虑一个高斯混合模型，其中混合分量的协方差矩阵由σ2I{\sigma^2}Iσ2I给出，其中σ2{\sig
Transformer底层原理解析及基于pytorch的代码实现 LiRuiJie 人工智能 transformer pytorch 深度学习
1.Transformer底层原理解析1.1核心架构突破Transformer是自然语言处理领域的革命性架构，其核心设计思想完全摒弃了循环结构，通过自注意力机制实现全局依赖建模。整体架构图如下：以下是其核心组件：1）自注意力机制（Self-Attention）-输入序列的每个位置都能直接关注所有位置-数学公式（缩放点积注意力）：-Q：查询矩阵（当前关注点）-K：键矩阵（被比较项）-V：值矩阵（实际
深入剖析Redis高性能的原因，IO多路复用模型，Redis数据迁移，分布式锁实现
一、深入剖析Redis单线程处理命令仍具备高性能的原因Redis虽然是单线程处理命令的（主线程负责网络I/O和命令处理），但它依然具备百万级QPS的吞吐能力。这个看似矛盾的现象，其实是Redis高性能架构设计和底层实现精妙配合的结果。下面我们从架构、内核原理、操作系统机制、与其他系统对比等多维度深入剖析，为何Redis单线程却读写性能极高。1.Redis是“单线程处理命令”，但不是完全单线程模块是
基于灰色马尔科夫模型预测人口数量，是一种结合灰色系统理论（处理少数据、不确定性）与马尔科夫链（描述随机波动）的融合预测方法
利用灰色模型捕捉人口变化的总体趋势，再通过马尔科夫链修正因随机因素导致的预测偏差，从而提高预测精度。一、模型理论基础灰色系统理论原理（核心：处理少数据、部分信息未知的系统）差异信息原理：系统内外的差异是信息源，人口数据的时间序列差异蕴含变化规律。解的非唯一性原理：信息不完全时，预测结果存在多个可能区间（与马尔科夫状态划分契合）。最小信息原理：仅需少量历史数据（通常≥4个）即可建模，适合人口统计资料
深入剖析Nginx架构及其不同使用场景下的配置 LiRuiJie Nginx Nginx 系统架构反向代理
一、Nginx整体架构概览1.Nginx简介Nginx是采用C语言编写的高性能Web服务器、反向代理服务器及邮件代理服务器，特点是：高并发、高可用、低内存占用、模块化设计。架构核心理念：Master-Worker多进程模型事件驱动（Event-Driven）+异步非阻塞高度模块化设计2.进程模型Nginx的进程模型非常轻量，通常包含：1.Master进程启动时由shell进程fork出来主要负责：
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置

【AI视野·今日NLP 自然语言处理论文速览 第四十七期】Wed, 4 Oct 2023

Daily Computation and Language Papers

你可能感兴趣的:(NLP,LLM,Papers,自然语言处理,nlp,llm,llama,大模型)

【AI视野·今日NLP 自然语言处理论文速览第四十七期】Wed, 4 Oct 2023