hitrjj

【AI视野·今日NLP 自然语言处理论文速览第四十三期】Thu, 28 Sep 2023

AI视野·今日CS.NLP 自然语言处理论文速览
Thu, 28 Sep 2023
Totally 38 papers
上期速览✈更多精彩请移步主页

Daily Computation and Language Papers

Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard Parameter Sharing
Authors Brian Yan, Xuankai Chang, Antonios Anastasopoulos, Yuya Fujita, Shinji Watanabe
最近的端到端语音到文本翻译 ST 的工作提出了具有软参数共享的多任务方法，该方法通过辅助编码器利用机器翻译 MT 数据，将文本输入映射到最终的跨模式表示。在这项工作中，我们提出了一种具有硬参数共享的 ST MT 多任务框架，其中所有模型参数都跨模态共享。我们的方法通过预处理阶段减少语音文本模态差距，该预处理阶段将语音和文本输入转换为长度相似的两个离散标记序列，这允许模型仅使用联合词汇表不加区别地处理两种模态。通过 MuST C 上的实验，我们证明了我们的多任务框架在没有任何外部 MT 数据的情况下，将注意力编码器解码器、连接主义时间分类 CTC、传感器和联合 CTC 注意力模型平均提高了 0.5 BLEU。

Lyra: Orchestrating Dual Correction in Automated Theorem Proving
Authors Chuanyang Zheng, Haiming Wang, Enze Xie, Zhengying Liu, Jiankai Sun, Huajian Xin, Jianhao Shen, Zhenguo Li, Yu Li
大型语言模型法学硕士为形式定理证明领域的探索提供了一条有趣的途径。然而，它们的全部潜力，特别是在通过证明者错误消息减轻幻觉和改进方面，仍然是一个尚未彻底研究的领域。为了提高法学硕士在该领域的有效性，我们引入了 Lyra，这是一个新框架，它采用两种不同的校正机制：工具校正 TC 和猜想校正 CC。为了在形式证明的后处理中实现工具校正，我们利用先验知识来利用预定义的证明工具，例如 Sledgehammer 来指导更换不正确的工具。工具校正极大地有助于减轻幻觉，从而提高证明的整体准确性。此外，我们还引入了猜想校正，这是一种错误反馈机制，旨在与证明者交互，通过证明者错误消息来完善形式证明猜想。与之前的细化框架相比，所提出的猜想校正通过指令细化生成，但不收集配对生成、错误细化提示。我们的方法在 miniF2F 验证 48.0 55.3 和测试 45.5 51.2 上都实现了最先进的 SOTA 性能。我们还提出了 Lyra 解决的 3 个 IMO 问题。

Exploring Speech Recognition, Translation, and Understanding with Discrete Speech Units: A Comparative Study
Authors Xuankai Chang, Brian Yan, Kwanghee Choi, Jeeweon Jung, Yichen Lu, Soumi Maiti, Roshan Sharma, Jiatong Shi, Jinchuan Tian, Shinji Watanabe, Yuya Fujita, Takashi Maekaku, Pengcheng Guo, Yao Fei Cheng, Pavel Denisov, Kohei Saijo, Hsiu Hsuan Wang
语音信号通常以每秒数万次的速率采样，包含冗余，导致序列建模效率低下。高维语音特征（例如声谱图）通常用作后续模型的输入。然而，它们仍然可能是多余的。最近的研究提出使用源自自监督学习表示的离散语音单元，这显着压缩了语音数据的大小。应用去重、子字建模等多种方法可以进一步压缩语音序列长度。因此，训练时间显着减少，同时保持显着的性能。在这项研究中，我们对离散单元在端到端语音处理模型中的应用进行了全面、系统的探索。对 12 个自动语音识别、3 个语音翻译和 1 个口语理解语料库的实验表明，离散单元在几乎所有设置中都取得了相当好的结果。

Large Language Model Routing with Benchmark Datasets
Authors Tal Shnitzer, Anthony Ou, M rian Silva, Kate Soule, Yuekai Sun, Justin Solomon, Neil Thompson, Mikhail Yurochkin
开源大型语言模型法学硕士和用于比较它们的基准数据集的数量正在迅速增长。虽然某些模型在这些基准测试中占据主导地位，但通常没有一个模型可以在所有任务和用例中实现最佳准确性。在这项工作中，我们解决了从新任务的模型集合中选择最佳法学硕士的挑战。我们针对该问题提出了一种新的表述，其中基准数据集被重新用于学习用于此 LLM 选择的路由器模型，并且我们表明该问题可以简化为二元分类任务的集合。

Question answering using deep learning in low resource Indian language Marathi
Authors Dhiraj Amin, Sharvari Govilkar, Sagar Kulkarni
从问答系统中给定输入问题的文本中提取精确答案。马拉地语问答系统是在最近的研究中使用本体论、规则库和基于机器学习的方法创建的。最近，变压器模型和迁移学习方法被用来解决问题回答挑战。在本文中，我们研究了用于创建基于阅读理解的马拉地语问答系统的不同变压器模型。我们对不同的预训练马拉地语多语言和单语言模型进行了实验，例如印度语言的多语言表示 MuRIL、MahaBERT、来自 Transformers IndicBERT 的印度语双向编码器表示，并在基于马拉地语阅读理解的数据集上对其进行了微调。

Experience and Evidence are the eyes of an excellent summarizer! Towards Knowledge Infused Multi-modal Clinical Conversation Summarization
Authors Abhisek Tiwari, Anisha Saha, Sriparna Saha, Pushpak Bhattacharyya, Minakshi Dhar
随着远程医疗的进步，研究人员和医疗从业者正在携手开发各种技术来自动化各种医疗操作，例如诊断报告生成。在本文中，我们首先提出了一种多模式临床对话摘要生成任务，该任务采用临床医生与患者的交互文本和视觉信息，并生成简洁的对话概要。我们提出了一种知识注入、多模式、多任务医学领域识别和临床对话摘要生成 MM CliConSummation 框架。它利用适配器来注入知识和视觉特征，并使用门控机制统一融合的特征向量。此外，我们开发了一个多模式、多意图的临床对话总结语料库，带有意图、症状和摘要注释。大量的定量和定性实验得出了以下发现：a 视觉效果的重要意义；b 更精确且保留医学实体的摘要以及额外的知识注入；c 医疗部门识别和临床概要生成之间的相关性。

ChatGPT-BCI: Word-Level Neural State Classification Using GPT, EEG, and Eye-Tracking Biomarkers in Semantic Inference Reading Comprehension
Authors Yuhong Zhang, Qin Li, Sujal Nahata, Tasnia Jamal, Shih kuen Cheng, Gert Cauwenberghs, Tzyy Ping Jung
随着最近大型语言模型 LLM（例如生成预训练 Transformers GPT）的爆炸式增长，对人类和机器理解语义语言含义的能力的需求已经进入了一个新阶段。这需要跨学科研究来连接认知科学和自然语言处理 NLP 领域。这项试点研究旨在深入了解语义关系阅读理解任务期间个体的神经状态。我们建议联合分析法学硕士、眼睛注视和脑电图脑电图数据，以研究大脑在阅读过程中如何处理与关键词不同程度相关的单词。我们还使用特征工程方法来改进与注视相关的脑电图数据分类，同时参与者阅读与关键词相关性高或低的单词。此词级分类的最佳验证准确度在 12 个主题中超过 60。与推理关键字高度相关的单词在排除无注视单词时，每个单词的眼睛注视次数显着增加为 1.0584，而排除无注视单词时为 0.6576；在包含这些单词时，与推理关键字高度相关的单词为 1.5126，与 1.4026 相比。这项研究代表了首次尝试使用法学硕士知识在单词级别对大脑状态进行分类。

HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models
Authors Chen Chen, Yuchen Hu, Chao Han Huck Yang, Sabato Macro Siniscalchi, Pin Yu Chen, Eng Siong Chng
深度神经网络的进步使得自动语音识别 ASR 系统能够在几个公开可用的干净语音数据集上达到人类的同等水平。然而，即使是最先进的 ASR 系统在遇到不利条件时也会经历性能下降，因为训练有素的声学模型对语音域的变化（例如背景噪声）很敏感。直观上，人类通过依靠他们的语言知识来解决这个问题，模糊的口语术语的含义通常是从上下文线索推断出来的，从而减少了对听觉系统的依赖。受这一观察的启发，我们引入了第一个开源基准测试，利用外部大语言模型 LLM 进行 ASR 纠错，其中 N 个最佳解码假设为真正的转录预测提供了信息元素。这种方法是传统语言模型重新评分策略的范式转变，传统语言模型重新评分策略只能选择一个候选假设作为输出转录。提议的基准包含一个新颖的数据集 HyPoadise HP ，包含超过 334,000 对 N 个最佳假设以及跨流行语音领域的相应准确转录。给定这个数据集，我们检查了三种基于法学硕士的纠错技术，具有不同数量的标记假设转录对，这显着降低了单词错误率 WER。实验证据表明，所提出的技术通过超越传统基于重排序的方法的上限实现了突破。更令人惊讶的是，具有合理提示和生成能力的LLM甚至可以纠正N个最佳列表中缺失的标记。

Enhancing End-to-End Conversational Speech Translation Through Target Language Context Utilization
Authors Amir Hussein, Brian Yan, Antonios Anastasopoulos, Shinji Watanabe, Sanjeev Khudanpur
事实证明，纳入较长的上下文有利于机器翻译，但在端到端语音翻译 E2E ST 中纳入上下文仍在研究中。为了弥补这一差距，我们在 E2E ST 中引入了目标语言上下文，增强了连贯性并克服了扩展音频片段的记忆限制。此外，我们提出上下文丢失以确保在上下文缺失的情况下的鲁棒性，并通过添加说话者信息进一步提高性能。我们提出的上下文 E2E ST 优于基于孤立话语的 E2E ST 方法。

Conversational Feedback in Scripted versus Spontaneous Dialogues: A Comparative Analysis
Authors Ildik Pil n, Laurent Pr vot, Hendrik Buschmeier, Pierre Lison
电影和电视字幕等脚本对话构成了会话 NLP 模型的广泛训练数据源。然而，这些对话的语言特征与自发互动语料库中观察到的明显不同。这种差异对于沟通反馈和基础现象（例如反向渠道、致谢或澄清请求）尤其明显。已知此类信号构成对话流的关键部分，对话参与者使用这些信号向彼此提供关于他们对正在进行的交互的感知的反馈。本文对字幕和自发对话中的这种交流反馈现象进行了定量分析。基于英语、法语、德语、匈牙利语、意大利语、日语、挪威语和中文的对话数据，我们提取了用神经对话行为标记器获得的词汇统计和分类输出。这项实证研究的两个主要发现是： 1 字幕中的对话反馈明显低于自发对话中的频率； 2 字幕中的负面反馈比例更高。

Generative Speech Recognition Error Correction with Large Language Models
Authors Chao Han Huck Yang, Yile Gu, Yi Chieh Liu, Shalini Ghosh, Ivan Bulyko, Andreas Stolcke
我们探索大型语言模型 LLM 充当 ASR 后处理器来执行重新评分和纠错的能力。我们的重点是指令提示，让法学硕士无需微调即可执行这些任务，为此我们评估了不同的提示方案，包括上下文学习中的零次和少量提示，以及一种结合指令和演示的新颖的任务激活提示 TAP 方法。使用预训练的首轮系统并对两个域外任务 ATIS 和 WSJ 的输出进行重新评分，我们表明仅通过使用冻结的 LLM 进行上下文学习进行重新评分所获得的结果与通过域调整的 LM 进行的重新评分具有竞争力。

NLPBench: Evaluating Large Language Models on Solving NLP Problems
Authors Linxin Song, Jieyu Zhang, Lechao Cheng, Pengyuan Zhou, Tianyi Zhou, Irene Li
大型语言模型的最新发展显示出法学硕士在增强自然语言处理 NLP 能力方面的前景。尽管取得了这些成功，但仍然缺乏专门针对法学硕士 NLP 问题解决能力的研究。为了填补这一领域的空白，我们提出了一个独特的基准测试数据集 NLPBench，其中包含 378 个大学级别的 NLP 问题，涵盖来自耶鲁大学之前期末考试的各种 NLP 主题。 NLPBench 包含有上下文的问题，其中多个子问题共享相同的公共信息，并且问题类型多样，包括选择题、简答题和数学。我们的评估以 GPT 3.5 4、PaLM 2 和 LLAMA 2 等 LLM 为中心，结合了思想链 CoT 和思想树 ToT 等高级提示策略。我们的研究表明，高级提示策略的有效性可能不一致，有时会损害 LLM 的表现，特别是在像 LLAMA 2 13b 这样的较小模型中。

Developing automatic verbatim transcripts for international multilingual meetings: an end-to-end solution
Authors Akshat Dewan, Michal Ziemski, Henri Meylan, Lorenzo Concina, Bruno Pouliquen
本文提出了一种端到端解决方案，用于创建全自动会议记录并将其机器翻译成各种语言。该工具是世界知识产权组织 WIPO 使用内部开发的语音转文本 S2T 和机器翻译 MT 组件开发的。除了描述数据收集和微调以形成高度定制和强大的系统之外，本文还描述了技术组件的架构和演变，并强调了用户方的业务影响和收益。

Few-Shot Multi-Label Aspect Category Detection Utilizing Prototypical Network with Sentence-Level Weighting and Label Augmentation
Authors Zeyu Wang, Mizuho Iwaihara
多标签方面类别检测旨在检测给定句子中出现的多个方面类别。由于方面类别检测通常受到数据集有限和数据稀疏的影响，因此具有注意机制的原型网络已应用于少量镜头方面类别检测。尽管如此，迄今为止使用的大多数原型网络都是通过取支持集中所有实例的平均值来计算原型的。这似乎忽略了多标签方面类别检测中实例之间的差异。此外，一些相关工作利用标签文本信息来增强注意力机制。然而，标签文本信息通常简短且有限，并且不够具体以辨别类别。在本文中，我们首先引入支持集注意力以及增强的标签信息，以减轻每个支持集实例的单词级别的噪声。此外，我们使用句子级注意力机制，为支持集中的每个实例赋予不同的权重，以便通过加权平均来计算原型。最后，计算出的原型进一步与查询实例结合使用来计算查询注意力，从而消除查询集中的噪声。

Direct Models for Simultaneous Translation and Automatic Subtitling: FBK@IWSLT2023
Authors Sara Papi, Marco Gaido, Matteo Negri
本文介绍了 FBK 参与 IWSLT 2023 评估活动的同声翻译和自动字幕轨道的情况。我们提交的内容侧重于使用直接架构来同时执行两项任务，我们利用离线训练模型已经获得的知识，并直接应用一种策略来获得字幕任务的实时推理，我们采用了直接 ST 模型生成格式良好的字幕，并利用相同的架构来生成字幕与视听内容同步所需的时间戳。与 2021 年和 2022 年任务轮中排名靠前的系统相比，我们的英语德语 SimulST 系统显示出计算感知延迟降低，增益高达 3.5 BLEU。

Teaching Text-to-Image Models to Communicate
Authors Xiaowen Sun, Jiazhan Feng, Yuxuan Wang, Yuxuan Lai, Xingyu Shen, Dongyan Zhao
在文本到图像生成的研究中，各种作品已经被广泛研究。尽管现有模型在文本到图像生成方面表现良好，但直接使用它们在对话框中生成图像时存在重大挑战。在本文中，我们首先强调对话图像生成的一个新问题，即给定对话上下文，模型应该生成与指定对话一致的真实图像作为响应。为了解决这个问题，我们提出了一种有效的对话图像生成方法，无需任何中间翻译，最大限度地提取对话中包含的语义信息。考虑到对话结构的特点，我们在对话的每个句子之前放置段标记来区分不同的说话者。然后，我们将预先训练的文本微调为图像模型，使它们能够根据处理的对话上下文生成调节图像。经过微调后，我们的方法可以在多个指标上持续提高各种模型的性能。

Dynamic Multi-Scale Context Aggregation for Conversational Aspect-Based Sentiment Quadruple Analysis
Authors Yuqing Li, Wenyuan Zhang, Binbin Li, Siyu Jia, Zisen Qi, Xingbang Tan
基于对话方面的情感四元分析 DiaASQ 旨在提取对话中目标方面意见情感的四元。在 DiaASQ 中，四元组的元素经常跨越多个话语。这种情况使提取过程变得复杂，强调需要充分理解对话上下文和交互。然而，现有的工作独立地对每个话语进行编码，从而难以捕获长范围的对话上下文并忽略深层的话语依赖性。在这项工作中，我们提出了一种新颖的动态多尺度上下文聚合网络 DMCA 来应对这些挑战。具体来说，我们首先利用对话结构生成多尺度话语窗口以捕获丰富的上下文信息。之后，我们设计了一个动态分层聚合模块DHA来整合它们之间的渐进线索。此外，我们形成了多阶段损失策略来提高模型性能和泛化能力。

ChatCounselor: A Large Language Models for Mental Health Support
Authors June M. Liu, Donghao Li, He Cao, Tianhe Ren, Zeyi Liao, Jiamin Wu
本文介绍了 ChatCounselor，一种大型语言模型 LLM 解决方案，旨在提供心理健康支持。与一般的聊天机器人不同，ChatCounselor 的特点是它建立在咨询客户和专业心理学家之间的真实对话基础上，使其拥有心理学领域的专业知识和咨询技能。训练数据集 Psych8k 由 260 次深度访谈构建而成，每次访谈持续一小时。为了评估咨询反应的质量，设计了咨询工作台。利用 GPT 4 和基于心理咨询评估的七个指标精心设计的提示，该模型使用一组现实世界的咨询问题进行了评估。

Graph Neural Prompting with Large Language Models
Authors Yijun Tian, Huan Song, Zichen Wang, Haozhu Wang, Ziqing Hu, Fang Wang, Nitesh V. Chawla, Panpan Xu
大型语言模型法学硕士在各种语言建模任务中表现出了卓越的泛化能力和出色的表现。然而，它们在精确捕获和返回基础知识方面仍然表现出固有的局限性。虽然现有的工作已经探索利用知识图谱通过联合训练和定制模型架构来增强语言建模，但由于其大量参数和高计算成本，将其应用于法学硕士是有问题的。此外，如何利用预先训练的法学硕士并避免从头开始训练定制模型仍然是一个悬而未决的问题。在这项工作中，我们提出了图神经提示 GNP，这是一种新颖的即插即用方法，可以帮助经过预训练的法学硕士从知识图谱中学习有用的知识。 GNP 包含各种设计，包括标准图神经网络编码器、跨模态池模块、域投影仪和自监督链接预测目标。

A Survey of Chain of Thought Reasoning: Advances, Frontiers and Future
Authors Zheng Chu, Jingchang Chen, Qianglong Chen, Weijiang Yu, Tao He, Haotian Wang, Weihua Peng, Ming Liu, Bing Qin, Ting Liu
思维推理链是人类智能的基础认知过程，在人工智能和自然语言处理领域引起了广泛关注。然而，目前仍缺乏对这一领域的全面调查。为此，我们迈出了第一步，对这一研究领域进行了仔细、广泛的全面调查。我们用X of Thought来指代广义的思想链。具体来说，我们根据方法分类系统地组织了当前的研究，包括XoT构建、XoT结构变体和增强XoT。此外，我们还描述了 XoT 的前沿应用，包括规划、工具使用和精炼。此外，我们还应对挑战并讨论一些未来的方向，包括忠诚度、多模式和理论。

Beyond the Chat: Executable and Verifiable Text-Editing with LLMs
Authors Philippe Laban, Jesse Vig, Marti A. Hearst, Caiming Xiong, Chien Sheng Wu
由大型语言模型 LLM 提供支持的对话界面最近已成为在文档编辑过程中获取反馈的流行方式。然而，基于标准聊天的对话界面不支持他们建议的编辑更改的透明度和可验证性。为了让作者在使用法学硕士进行编辑时有更多的代理权，我们推出了 InkSync，这是一个编辑界面，建议直接在正在编辑的文档中进行可执行编辑。由于众所周知，LLM 会引入事实错误，因此 Inksync 还支持三阶段方法来减轻这种风险。当建议的编辑引入新信息时向作者发出警告，帮助作者通过外部搜索验证新信息的准确性，并允许审核员执行审核通过跟踪所有自动生成的内容来审核文档进行事后验证。

joint prediction and denoising for large-scale multilingual self-supervised learning
Authors William Chen, Jiatong Shi, Brian Yan, Dan Berrebbi, Wangyou Zhang, Yifan Peng, Xuankai Chang, Soumi Maiti, Shinji Watanabe
由于处理多种语言所需的费用和复杂性，多语言自监督学习 SSL 常常落后于最先进的 SOTA 方法。这进一步损害了 SSL 的可重复性，由于其资源占用，SSL 已经仅限于少数研究小组。我们证明，更强大的技术实际上可以带来更有效的预训练，从而向更多研究小组开放 SSL。我们提出了 WavLabLM，它将 WavLM 的联合预测和去噪扩展到 136 种语言的 40k 小时数据。为了构建 WavLabLM，我们设计了一种新颖的多阶段预训练方法，旨在解决多语言数据的语言不平衡问题。 WavLabLM 在 ML SUPERB 上以不到 10 个训练数据实现了与 XLS R 相当的性能，使得 SSL 可通过学术计算实现。我们证明，使用普通的 HuBERT Base 模型可以实现更高的效率，该模型只需 3 个数据、4 个 GPU 和有限的试验即可保持 XLS R 的 94 倍性能。

Learning Using Generated Privileged Information by Text-to-Image Diffusion Models
Authors Rafael Edy Menadil, Mariana Iuliana Georgescu, Radu Tudor Ionescu
使用特权信息学习是一种特殊类型的知识蒸馏，其中教师模型在训练期间受益于额外的数据表示（称为特权信息），从而改进了学生模型，而学生模型看不到额外的表示。然而，在实践中很少能获得特权信息。为此，我们提出了一种文本分类框架，利用文本到图像扩散模型来生成人工特权信息。生成的图像和原始文本样本进一步用于训练基于最先进的基于变压器的架构的多模式教师模型。最后，多模态教师的知识被提炼成基于文本的单模态学生。因此，通过采用生成模型来生成合成数据作为特权信息，我们指导学生模型的训练。

Low-rank Adaptation of Large Language Model Rescoring for Parameter-Efficient Speech Recognition
Authors Yu Yu, Chao Han Huck Yang, Jari Kolehmainen, Prashanth G. Shivakumar, Yile Gu, Sungho Ryu, Roger Ren, Qi Luo, Aditya Gourav, I Fan Chen, Yi Chieh Liu, Tuan Dinh, Ankur Gandhe, Denis Filimonov, Shalini Ghosh, Andreas Stolcke, Ariya Rastow, Ivan Bulyko
我们提出了一种基于低秩自适应 LoRA 的神经语言建模系统，用于语音识别输出重新评分。尽管像 BERT 这样的预训练语言模型 LM 在第二遍重新评分中表现出了卓越的性能，但扩大预训练阶段和使预训练模型适应特定领域的高计算成本限制了它们在重新评分中的实际使用。在这里，我们提出了一种基于低秩分解的方法来训练重新评分 BERT 模型，并仅使用预训练参数的 0.08 分之一使其适应新领域。这些插入的矩阵通过判别性训练目标以及基于相关性的正则化损失进行优化。

RAGAS: Automated Evaluation of Retrieval Augmented Generation
Authors Shahul Es, Jithin James, Luis Espinosa Anke, Steven Schockaert
我们介绍 RAGAs 检索增强生成评估，这是一个用于检索增强生成 RAG 管道的无参考评估的框架。 RAG系统由检索和基于LLM的生成模块组成，并为LLM提供来自参考文本数据库的知识，这使他们能够充当用户和文本数据库之间的自然语言层，从而降低产生幻觉的风险。然而，评估 RAG 架构具有挑战性，因为有几个维度需要考虑检索系统识别相关和重点上下文段落的能力、法学硕士以忠实的方式利用这些段落的能力，或者生成本身的质量。通过 RAGA，我们提出了一套指标，可用于评估这些不同维度的文本，而无需依赖真实的人类注释。

STANCE-C3: Domain-adaptive Cross-target Stance Detection via Contrastive Learning and Counterfactual Generation
Authors Nayoung Kim, David Mosallanezhad, Lu Cheng, Michelle V. Mancenido, Huan Liu
立场检测是推断一个人在特定问题上的立场或观点的过程，以推断出对普遍或有争议的话题的普遍看法，例如 COVID 19 大流行期间的卫生政策。现有的立场检测模型经过训练，可以在单个领域（例如 COVID 19）和特定目标主题（例如屏蔽协议）中表现良好，但由于数据分布变化，在其他领域或目标中通常无效。然而，构建高性能、特定领域的姿态检测模型需要大量与目标领域相关的标记数据，但此类数据集并不容易获得。这带来了挑战，因为注释数据的过程既昂贵又耗时。为了应对这些挑战，我们引入了一种新颖的姿态检测模型，通过对比学习和反事实生成 STANCE C3 创造了域自适应跨目标 STANCE 检测，该模型使用反事实数据增强来增强域自适应训练，方法是在训练过程中丰富目标域数据集，并要求显着来自新域的信息较少。我们还提出了一种修改后的自监督对比学习作为 STANCE C3 的组成部分，以防止对现有域和目标的过度拟合，并实现跨目标姿态检测。

Identifying the Risks of LM Agents with an LM-Emulated Sandbox
Authors Yangjun Ruan, Honghua Dong, Andrew Wang, Silviu Pitis, Yongchao Zhou, Jimmy Ba, Yann Dubois, Chris J. Maddison, Tatsunori Hashimoto
语言模型 LM 代理和工具使用的最新进展（以 ChatGPT 插件等应用程序为代表）实现了丰富的功能，但也放大了潜在风险，例如泄露私人数据或造成财务损失。识别这些风险是一项劳动密集型工作，需要实施工具、为每个测试场景手动设置环境并查找风险案例。随着工具和代理变得更加复杂，测试这些代理的高昂成本将使得发现高风险、长尾风险变得越来越困难。为了应对这些挑战，我们引入了 ToolEmu 框架，该框架使用 LM 来模拟工具执行，并支持针对各种工具和场景测试 LM 代理，而无需手动实例化。除了模拟器之外，我们还开发了一个基于 LM 的自动安全评估器，用于检查代理故障并量化相关风险。我们通过人工评估测试了工具模拟器和评估器，发现 ToolEmu 识别的故障中有 68.8 % 是真实世界代理故障。我们使用由 36 个高风险工具和 144 个测试用例组成的精心策划的初始基准，对当前 LM 代理进行定量风险分析，并识别出许多可能产生严重后果的故障。

Learning from Flawed Data: Weakly Supervised Automatic Speech Recognition
Authors Dongji Gao, Hainan Xu, Desh Raj, Leibny Paola Garcia Perera, Daniel Povey, Sanjeev Khudanpur
训练自动语音识别 ASR 系统需要大量精心策划的配对数据。然而，人类注释者通常执行非逐字转录，这可能会导致模型训练不佳。在本文中，我们提出了全时态分类 OTC，这是一种新颖的训练标准，它明确地纳入了源自这种弱监督的标签不确定性。这使得模型能够有效地学习语音文本对齐，同时适应训练记录中存在的错误。 OTC 通过利用加权有限状态传感器扩展了针对不完美转录本的传统 CTC 目标。通过在 LibriSpeech 和 LibriVox 数据集上进行的实验，我们证明，使用 OTC 训练 ASR 模型可以避免性能下降，即使转录本包含多达 70 个错误（CTC 模型完全失败的情况）。

Speech collage: code-switched audio generation by collaging monolingual corpora
Authors Amir Hussein, Dorsa Zeinali, Ond ej Klejch, Matthew Wiesner, Brian Yan, Shammur Chowdhury, Ahmed Ali, Shinji Watanabe, Sanjeev Khudanpur
为代码转换 CS 设计有效的自动语音识别 ASR 系统通常取决于转录 CS 资源的可用性。为了解决数据稀缺的问题，本文引入了语音拼贴（Speech Collage），这是一种通过拼接音频片段从单语言语料库合成 CS 数据的方法。我们使用重叠添加方法进一步提高了音频生成的平滑质量。我们研究了在域 CS 文本和合成 CS 文本的零样本方法的两种场景中生成的数据对语音识别的影响。实证结果表明，域内和零样本场景的混合错误率和字错误率分别相对降低了 34.4 和 16.2。

MONOVAB : An Annotated Corpus for Bangla Multi-label Emotion Detection
Authors Sumit Kumar Banshal, Sajal Das, Shumaiya Akter Shammi, Narayan Ranjan Chakraborty
近年来，情感分析 SA 和情感识别 ER 在孟加拉语中越来越受欢迎，孟加拉语是全世界第七大语言。然而，语言结构复杂，这使得该领域很难准确地提取情感。该研究领域已经实施了几种不同的方法，例如提取积极和消极情绪以及多类别情绪。然而，多种情感的提取是该语言中几乎未触及的领域。这涉及根据一段文本识别多种感受。因此，本研究展示了一种基于 Facebook 废弃数据构建带注释语料库的彻底方法，以弥补该学科领域的差距，克服挑战。为了使该注释更加富有成效，使用了基于上下文的方法。 Transformers 的双向编码器表示 BERT 是一种众所周知的 Transformer 方法，已显示出所有实施方法的最佳结果。

Jointly Training Large Autoregressive Multimodal Models
Authors Emanuele Aiello, Lili Yu, Yixin Nie, Armen Aghajanyan, Barlas Oguz
近年来，语言和文本到图像模型的大规模预训练的进展彻底改变了机器学习领域。然而，将这两种模式集成到一个能够生成无缝多模式输出的强大模型中仍然是一个重大挑战。为了解决这一差距，我们提出了联合自回归混合 JAM 框架，这是一种模块化方法，可以系统地融合现有的文本和图像生成模型。我们还引入了一种专门的、数据高效的指令调整策略，专为混合模式生成任务量身定制。

High-Fidelity Speech Synthesis with Minimal Supervision: All Using Diffusion Models
Authors Chunyu Qiang, Hao Li, Yixin Tian, Yi Zhao, Ying Zhang, Longbiao Wang, Jianwu Dang
文本到语音 TTS 方法在语音克隆方面显示出了可喜的结果，但它们需要大量标记的文本语音对。最小监督语音合成通过组合两种类型的离散语音表示（语义声学）并使用两个序列到序列任务来解耦 TTS，从而以最少的监督进行训练。然而，现有方法在语义表示中存在信息冗余和维度爆炸，在离散声学表示中存在高频波形失真。自回归框架表现出典型的不稳定和不可控问题。非自回归框架会受到持续时间预测模型引起的韵律平均的影响。为了解决这些问题，我们提出了一种最低限度监督的高保真语音合成方法，其中所有模块都是基于扩散模型构建的。非自回归框架增强了可控性，时长扩散模型实现了多样化的韵律表达。 Contrastive Token Acoustic Pretraining CTAP作为中间语义表示，解决现有语义编码方法中信息冗余和维度爆炸的问题。梅尔频谱图用作声学表示。通过连续变量回归任务来预测语义和声学表示，以解决高频细粒度波形失真问题。实验结果表明，我们提出的方法优于基线方法。

VideoAdviser: Video Knowledge Distillation for Multimodal Transfer Learning
Authors Yanan Wang, Donghuo Zeng, Shinya Wada, Satoshi Kurihara
多模态迁移学习旨在将不同模态的预训练表示转换为公共域空间，以实现有效的多模态融合。然而，传统系统通常建立在所有模态都存在的假设之上，而缺乏模态总是会导致推理性能不佳。此外，为所有模态提取预训练的嵌入对于推理而言计算效率低下。在这项工作中，为了实现高效性能的多模态迁移学习，我们提出了VideoAdviser，一种视频知识蒸馏方法，将视频增强提示的多模态知识从多模态基础模型教师转移到特定模态基础模型学生。我们的直觉是最好的学习成绩来自于专业顾问和聪明的学生，我们使用基于 CLIP 的教师模型，通过优化步骤蒸馏目标损失，为基于 RoBERTa 的学生模型提供富有表现力的多模态知识监督信号。从分类 Logit 到回归 Logit 的视频增强提示第二步，从教师到学生的回归 Logit 中提取多模态知识。我们在两个具有挑战性的多模态任务（视频级情感分析 MOSI 和 MOSEI 数据集以及视听检索 VEGAS 数据集）中评估我们的方法。仅需要文本形式作为输入的学生的 MOSI 和 MOSEI 的 MAE 分数提高高达 12.3。我们的方法将 VEGAS 的 mAP 分数进一步提高了 3.4，而无需额外的推理计算。

Evaluating Cognitive Maps and Planning in Large Language Models with CogEval
Authors Ida Momennejad, Hosein Hasanbeig, Felipe Vieira, Hiteshi Sharma, Robert Osazuwa Ness, Nebojsa Jojic, Hamid Palangi, Jonathan Larson
最近大量研究声称大型语言模型法学硕士具有新兴的认知能力。然而，大多数依赖于轶事，忽视了训练集的污染，或者缺乏涉及多个任务、控制条件、多次迭代和统计稳健性测试的系统评估。在这里我们做出了两个主要贡献。首先，我们提出 CogEval，这是一种受认知科学启发的协议，用于系统评估大型语言模型中的认知能力。可以遵循CogEval协议来评估各种能力。其次，我们遵循 CogEval 系统地评估八个 LLM OpenAI GPT 4、GPT 3.5 Turbo 175B、davinci 003 175B、Google Bard、Cohere xlarge 52.4B、Anthropic Claude 1 52B、LLaMA 13B 和 Alpaca 7B 的认知图和规划能力。我们的任务提示基于人体实验，这既提供了评估计划的既定结构有效性，又不存在于法学硕士培训集中。我们发现，虽然法学硕士在一些结构较简单的规划任务中表现出明显的能力，但系统评估揭示了规划任务中惊人的失败模式，包括无效轨迹的幻觉和陷入循环。这些发现并不支持法学硕士具有现成的计划能力的想法。这可能是因为法学硕士不理解规划问题背后的潜在关系结构（称为认知图），并且无法根据底层结构展开目标导向的轨迹。

QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models
Authors Yuhui Xu, Lingxi Xie, Xiaotao Gu, Xin Chen, Heng Chang, Hengheng Zhang, Zhensu Chen, Xiaopeng Zhang, Qi Tian
近年来，大型语言模型法学硕士发展迅速。尽管LLM在许多语言理解任务中具有很强的能力，但繁重的计算负担在很大程度上限制了LLM的应用，特别是当需要将它们部署到边缘设备上时。在本文中，我们提出了一种量化感知低秩自适应 QA LoRA 算法。其动机在于量化和自适应的自由度不平衡，解决方案是使用分组算子来增加量化的自由度，同时减少自适应的自由度。 QA LoRA 可以通过几行代码轻松实现，并且它为原始 LoRA 配备了两种能力 i 在微调期间，LLM 的权重被量化，例如量化为 INT4 以减少时间和内存使用 ii 在微调之后，LLM辅助权重自然地集成到量化模型中，而不会损失准确性。我们将 QA LoRA 应用于 LLaMA 和 LLaMA2 模型系列，并验证其在不同微调数据集和下游场景中的有效性。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

你可能感兴趣的:(LLM,NLP,Papers,人工智能,自然语言处理,NLP,LLM,大语言模型)

让你的 AI 更聪明，这 7 个开源 MCP 项目不要错过霍格沃兹测试开发学社人工智能人工智能测试用例开发语言 selenium 驱动开发开源 python
你还在用AI只是写写文档、改改代码？那你真的小看它了。现在，通过一套叫MCP（ModelControlPlane）的系统，AI不再只是“语言模型”，而是能直接操作网页、调用工具、自动化执行复杂任务的“智能助手”！今天整理了7个超实用的开源MCP项目，让你的AI立刻“开挂”。01｜PagePublisherMCP：HTML页面一键上线还在发愁怎么把AI生成的HTML页部署上线？PagePublish
标题：2025传统制造业护网实战指南：从合规防御到智能免疫的体系化进阶上海云盾商务经理杨杨网络
引言2025年，随着《工业互联网企业网络安全》三项国家标准全面实施，护网行动已从“合规检查”升级为“能力对抗”。传统制造业在数字化转型浪潮中，面临设备老旧、人才短缺、供应链风险激增等挑战，41.5%的企业计划年内增加安全预算。本文将结合新规要求与行业最佳实践，深度解析传统制造业如何构建“技术-管理-运营”三位一体的护网防御体系。一、传统制造业的护网困境：三大核心矛盾1.设备老旧化vs安全新标准历史
Spring Data Neo4j 与后端人工智能算法的数据交互 AI大模型应用实战 spring neo4j 人工智能 ai
SpringDataNeo4j与后端人工智能算法的数据交互关键词：SpringDataNeo4j、图数据库、人工智能算法、数据交互、知识图谱、图神经网络、数据集成摘要：本文深入探讨了如何利用SpringDataNeo4j框架实现后端人工智能算法与图数据库的高效数据交互。文章首先介绍了图数据库和人工智能算法的基本概念，然后详细解析了SpringDataNeo4j的核心架构和原理。接着，通过实际代码示
从零构建智能ai语音助手：ESP32s3+Python+大语言模型实战指南
从零构建智能ai语音助手：ESP32s3+Python+大语言模型实战指南一、项目概述大家好！今天给大家带来一个干货满满的实战项目——基于ESP32S3硬件和Python后端的智能语音助手系统。这个项目将物联网技术与AI技术完美结合，打造一个可以实时对话、意图识别的智能语音交互系统。相比传统的离线语音系统只能识别固定命令词，我们这套系统可以：实现自然语言理解，支持多种表达方式无需预设固定命令词，更
Docker容器技术：从入门到实践 CarlowZJ AI应用开发落地 docker 容器运维
目录摘要一、引言二、Docker的基本概念（一）容器与虚拟机（二）Docker的三大核心概念（三）Docker的优势三、Docker的安装与配置（一）安装Docker（二）配置Docker四、Docker镜像管理（一）拉取镜像（二）构建镜像（三）推送镜像五、Docker容器操作（一）启动容器（二）进入容器（三）停止和删除容器六、Docker网络配置（一）默认网络模式（二）自定义网络（三）主机模式（
【AI大模型】PyTorch Lightning 简化工具我爱一条柴ya 学习AI记录人工智能 pytorch python ai AI编程
PyTorchLightning是一个轻量级的PyTorch封装库，它通过抽象训练循环的工程细节，让研究人员可以专注于模型设计和实验。以下是PyTorchLightning的核心概念和实战指南。核心优势基础使用：三步搭建训练流程1.定义LightningModuleimporttorchimporttorch.nnasnnimportpytorch_lightningasplfromtorchme
【AI大模型】Transformer架构位置编码我爱一条柴ya 学习AI记录人工智能神经网络 ai AI编程
Transformer架构中的位置编码(PositionalEncoding)是其核心设计之一，用于解决一个关键问题：Self-Attention机制本身对输入元素的顺序是“无感知”的(permutationinvariant)。问题：为什么需要位置编码？Self-Attention的本质缺陷：Self-Attention通过计算所有元素对之间的关联来工作。然而，它只关心元素是什么(x_i的内容)
【AI大模型】深入解析预训练：大模型时代的核心引擎我爱一条柴ya 学习AI记录深度学习人工智能 ai python AI编程算法
预训练已成为现代人工智能，尤其是自然语言处理和计算机视觉领域的基石技术。它彻底改变了模型开发范式，催生了BERT、GPT等革命性模型。本文将系统阐述预训练的核心概念、原理、方法、应用及挑战。一、预训练的本质：为何需要它？核心问题：数据标注的瓶颈监督学习依赖海量高质量标注数据，获取成本极高（时间、金钱、专业知识）。对于复杂任务（如理解语义、生成文本），标注难度呈指数级上升。标注数据稀缺导致模型泛化能
MySQL存储结构深度解析：Buffer Pool与Page管理 hdzw20 mysql复习 mysql 数据库
MySQL存储结构解析：BufferPool与Page管理在MySQL的InnoDB存储引擎中，BufferPool是其核心组件之一，它极大地提升了数据库的性能。理解BufferPool的内部结构和工作机制，对于优化MySQL数据库至关重要。本文将讨论BufferPool的结构、三大链表、改进型LRU算法以及ChangeBuffer机制。1.BufferPool结构：控制块与缓存页BufferPo
广州曼顿2P数字微断：保护电力设备的安全守护者 mdkk678 安全
在现代社会，电力设备的安全运行对各行各业至关重要。然而，电力系统中存在各种电压波动、过载和短路等问题，可能对设备造成损害。为了保护电力设备免受这些问题的影响，广州曼顿推出了2P数字微断器。本文将介绍这一创新产品的特点和优势，以及它对电力设备的保护作用。广州曼顿科技有限公司专注用户侧智慧数字电气产品研制，以及智慧电能服务大数据云平台建设。基于人工智能技术，大幅提升人触电时的生命安全保障，以及电气火灾
一文详解：使用HTTPS有哪些优势？ JoySSL303 https 网络协议 http ssl 网络
互联网发展到今天，HTTP协议的明文传输会让用户存在非常大的安全隐患。试想一下，假如你在一个HTTP协议的网站上面购物，你需要在页面上输入你的银行卡号和密码，然后你把数据提交到服务器实现购买。假如这个环节稍有不慎，你的传输数据被第三者给截获了，由于HTTP明文数据传输的原因，你的银行卡号和密码，将会被这个截获人所得到。现在你还敢在一个HTTP的网站上面购物吗？你还会在一个HTTP的网站上面留下你的
多模态大语言模型arxiv论文略读（151）胖头鱼爱算法 #mllm_arxiv 语言模型人工智能自然语言处理论文阅读论文笔记
ANovelMLLM-basedApproachforAutonomousDrivinginDifferentWeatherConditions➡️论文标题：ANovelMLLM-basedApproachforAutonomousDrivinginDifferentWeatherConditions➡️论文作者：SondaFourati,WaelJaafar,NouraBaccar➡️研究机构:
语言模型 RLHF 实践指南（一）：策略网络、价值网络与 PPO 损失函数
在使用ProximalPolicyOptimization（PPO）对语言模型进行强化学习微调（如RLHF）时，大家经常会问：策略网络的动作概率是怎么来的？价值网络的得分是如何计算的？奖励从哪里来？损失函数怎么构建？微调后的旧轨迹还能用吗？这篇文章将以语言模型强化学习微调为例，结合实际实现和数学公式，深入解析PPO的关键计算流程。1️⃣策略网络：如何计算动作概率？策略网络πθ(a∣s)\pi_\t
多模态大语言模型arxiv论文略读（152）胖头鱼爱算法 #mllm_arxiv 语言模型人工智能自然语言处理论文笔记论文阅读
VidComposition:CanMLLMsAnalyzeCompositionsinCompiledVideos?➡️论文标题：VidComposition:CanMLLMsAnalyzeCompositionsinCompiledVideos?➡️论文作者：YunlongTang,JunjiaGuo,HangHua,SusanLiang,MingqianFeng,XinyangLi,RuiM
Python通关秘籍之基础教程(一） Smile丶Life丶 Python 通关指南：从零基础到高手之路 python 开发语言后端
引言在编程的世界里，Python就像一位温和而强大的导师，它以简洁优雅的语法和强大的功能吸引着无数初学者和专业人士。无论你是想开发网站、分析数据、构建人工智能，还是仅仅想学习编程思维，Python都是你的理想选择。Python的魅力在于它的易读性和广泛的应用场景。它的代码就像英语句子一样自然，即使是完全没有编程经验的人也能快速上手。同时，Python拥有庞大的生态系统，从Web开发（Django、
Android四大组件：Broadcast giaoho 安卓开发学习 android
Android四大组件：Broadcast-1.标准广播（Normalbroadcasts）执行特性：完全异步，广播发出后，所有接收器几乎同时接收，无先后顺序。效率与拦截：效率高，但无法被截断。流程：发出广播后，多个接收器同时接收，中“发出广播”向“广播接收器1、2、3”同时传递。有序广播（Orderedbroadcasts）执行特性：同步执行，同一时刻仅一个接收器接收，执行完逻辑后广播才继续传递
多模态大模型发展全景：从架构创新到应用突破陈敬雷-充电了么-CEO兼CTO python 大模型多模态大模型 AIGC 机器学习深度学习 DeepSeek
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】《GPT多模态大模型与AIAgent智能体》新出书籍配套视频【陈敬雷】推荐算法系统实战全系列精品课【陈敬雷】文章目录GPT多模态大模型系列四多模态大模型发展全景：从架构创新到应用突破更多技术内容总结GPT多模态大模型系列四多模态大模型
大模型中标斩获3项第一！百度智能云
今年1-4月，百度智能云在主流大模型厂商中一举拿下三项第一！数量最多！中标项目数量7个！行业最全！覆盖最多行业6个！金额最高！中标金额总数最高5600万+南方电网、泰康保险、北京车网、中华总工会、上海城投污水处理有限公司等行业头部客户，纷纷与百度智能云达成合作，体现出大模型技术在政策、市场的双轮驱动下的强劲增长态势。百度智能云将继续深化与行业客户合作，共同探索大模型技术在各行业的应用场景，推动行业
百度斩获大模型中标第一，股价上涨5% 大力财经百度
7月7日（周一），百度（BIDU.US）股价上涨5%，收报90.68美元。最新数据显示，2025上半年我国大模型相关项目呈现爆发式增长态势：中标项目累计达1810个，金额突破64亿元，中标项目数超2024全年，市场需求持续释放。其中，百度智能云表现尤为突出，以48个中标项目和5.1亿元中标金额，稳居“双第一”，并在金融、能源、政务、制造等重点行业中持续领跑。依托领先的大模型技术与全栈智能基础设施，
开源人工神经网络库（OpenANN） deepdata_cn 人工智能神经网络
OpenANN（OpenANN，OpenArtificialNeuralNetworkLibrary）是一个开源的人工神经网络库，基于C++编写，依赖Eigen3库进行高效的矩阵运算，使用CMake进行项目构建，支持多种神经网络架构，包括前馈神经网络、卷积神经网络和循环神经网络等，适用于图像识别、自然语言处理、时间序列预测等多种场景。提供数据预处理、模型保存和加载、超参数优化等功能。支持GPU加速
MiniMind：3小时训练26MB微型语言模型，开源项目助力AI初学者快速入门 nine是个工程师关注人工智能语言模型开源
开发｜界面｜引擎｜交付｜副驾——重写全栈法则：AI原生的倍速造应用流来自全栈程序员nine的探索与实践，持续迭代中。欢迎关注评论私信交流~在大型语言模型(LLaMA、GPT等)日益流行的今天，一个名为MiniMind的开源项目正在AI学习圈内引起广泛关注。这个项目让初学者能够在3小时内从零开始训练出一个仅26.88MB大小的微型语言模型，体积仅为GPT-3的七千分之一，却完整覆盖了从数据处理到模型
如何让AI真正理解你的意图（自适应Prompt实战指南） nine是个工程师大语言模型人工智能 prompt
目前的LLM模型，在理解用户意图方面，正在使用自适应Prompt技术，来提升模型的理解能力。目前使用deepseek推理模型能明显看到自适应的一个过程。前言：为什么你的AI总是"答非所问"？相信很多人都遇到过这样的情况：你问：“帮我写一个Python爬虫”AI答：给你一堆理论知识和完整教程（你只想要简单代码）你问：“推荐一部电影”AI答：推荐了《教父》（你想看轻松喜剧）你问：“解释一下机器学习”A
上下文工程：AI 智能体架构落地的关键新技术一休哥助手人工智能人工智能架构
摘要随着大语言模型（LLM）驱动的智能体（Agent）逐渐成为下一代人机交互的核心范式，上下文管理已成为决定智能体性能与可靠性的关键瓶颈。本文提出“上下文工程”（ContextEngineering）作为智能体架构落地的核心技术方向，系统阐述其在解决长上下文依赖、多轮交互一致性、动态知识更新等挑战中的核心作用。通过分层架构设计、动态压缩策略与向量化增强技术，上下文工程显著提升智能体的记忆效率与推理
MCP在AI驱动场景下的三个典型应用（实时数据查询、企业数据整合、自动化工具链） CATTLECODE 人工智能自动化运维
以下是针对MCP在AI驱动场景下的三个典型应用（实时数据查询、企业数据整合、自动化工具链）的具体Demo实现方案及技术解析，结合真实案例和代码示例说明：️1.实时数据查询：调用气象API返回天气数据场景描述用户通过自然语言提问（如“北京今天天气如何？”），大模型自动调用气象API获取实时数据，无需手动输入或切换界面。Demo实现（基于FastMCP框架）fromfastmcpimportFastM
Cursor这类编程Agent软件的模型架构与工作流程 nine是个工程师谈谈架构 Agent 架构
开发｜界面｜引擎｜交付｜副驾——重写全栈法则：AI原生的倍速造应用流来自全栈程序员nine的探索与实践，持续迭代中。欢迎评论私信交流。最近在关注和输出一系列AIGC架构。模型架构与工作流程大语言模型（LLM）核心编程Agent的核心是一个强大的大语言模型，负责理解用户意图并生成相应的代码和解决方案。Cursor这类编程Agent通常基于GPT-4或Claude等先进大语言模型构建。这些模型通过海量
【AI大模型前沿】OmniAudio：阿里通义实验室的空间音频生成模型，开启沉浸式体验新时代寻道AI小兵 AI大模型 -前沿技术追踪人工智能音视频开源 AIGC 语言模型
系列篇章No.文章1【AI大模型前沿】深度剖析瑞智病理大模型RuiPath：如何革新癌症病理诊断技术2【AI大模型前沿】清华大学CLAMP-3：多模态技术引领音乐检索新潮流3【AI大模型前沿】浙大携手阿里推出HealthGPT：医学视觉语言大模型助力智能医疗新突破4【AI大模型前沿】阿里QwQ-32B：320亿参数推理大模型，性能比肩DeepSeek-R1，免费开源5【AI大模型前沿】TRELLI
Java HashMap扩容=灾难？看Redis如何用渐进式方案征服亿级Key 今天你慧了码码码码码码码码码码 Redis 数据库 redis java
某电商平台在进行大促压测时，一个存储3000万用户资料的Hash表触发扩容，导致Redis实例完全阻塞12秒，所有请求超时。切换到渐进式扩容方案后，同样规模扩容仅造成0.3毫秒的请求延迟波动。这个案例揭示了哈希表扩容机制对高并发系统的致命影响。一、Redis哈希表vsJavaHashMap：架构本质差异1.底层结构对比特性Redis哈希表JavaHashMap存储结构拉链法（链表解决冲突）链表+红
ollama v0.9.6版本发布详解：修复启动屏幕样式及新增工具名称参数支持福大大架构师每日一题文心一言vschatgpt ollama
作为近年来备受瞩目的开源对话式人工智能框架之一，ollama持续更新优化其产品，致力于为开发者带来更稳定、高效的使用体验。2025年7月8日，ollama发布了v0.9.6版本，这一版本在用户界面和API的可用性方面做出了重要改进，进一步增强了开发和集成的便捷性。本文将对ollamav0.9.6版本的更新内容进行全面解析，详细介绍新特性、修复的具体问题、应用示例及最佳实践，帮助开发者快速掌握和应用
AI人工智能与机器学习的大数据融合应用 AI智能探索者人工智能机器学习大数据 ai
AI人工智能与机器学习的大数据融合应用关键词：AI人工智能、机器学习、大数据、融合应用、数据挖掘摘要：本文深入探讨了AI人工智能与机器学习在大数据融合应用方面的相关内容。首先介绍了研究的背景、目的、预期读者和文档结构，对核心术语进行了清晰定义。接着阐述了AI、机器学习和大数据的核心概念及相互联系，给出了形象的文本示意图和Mermaid流程图。详细讲解了核心算法原理，并通过Python源代码进行说明
深入解读 Qwen3 技术报告（一）：引言小爷毛毛（卓寿杰）大模型AIGC 深度学习基础/原理人工智能自然语言处理 python 语言模型深度学习
重磅推荐专栏：《大模型AIGC》《课程大纲》《知识星球》本专栏致力于探索和讨论当今最前沿的技术趋势和应用领域，包括但不限于ChatGPT和StableDiffusion等。我们将深入研究大型模型的开发和应用，以及与之相关的人工智能生成内容（AIGC）技术。通过深入的技术解析和实践经验分享，旨在帮助读者更好地理解和应用这些领域的最新进展1.引言：迎接大型语言模型的新纪元我们正处在一个由人工智能（AI
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟

【AI视野·今日NLP 自然语言处理论文速览 第四十三期】Thu, 28 Sep 2023

Daily Computation and Language Papers

你可能感兴趣的:(LLM,NLP,Papers,人工智能,自然语言处理,NLP,LLM,大语言模型)

【AI视野·今日NLP 自然语言处理论文速览第四十三期】Thu, 28 Sep 2023