hitrjj

【AI视野·今日NLP 自然语言处理论文速览第四十一期】Tue, 26 Sep 2023

AI视野·今日CS.NLP 自然语言处理论文速览
Tue, 26 Sep 2023
Totally 75 papers
上期速览✈更多精彩请移步主页

Daily Computation and Language Papers

Physics of Language Models: Part 3.1, Knowledge Storage and Extraction
Authors Zeyuan Allen Zhu, Yuanzhi Li
大型语言模型可以存储广泛的世界知识，通常可以通过问答来提取，例如亚伯拉罕·林肯的生日是哪一天。

OmniEvent: A Comprehensive, Fair, and Easy-to-Use Toolkit for Event Understanding
Authors Hao Peng, Xiaozhi Wang, Feng Yao, Zimu Wang, Chuzhao Zhu, Kaisheng Zeng, Lei Hou, Juanzi Li
事件理解旨在理解文本中事件的内容和关系，涵盖事件检测、事件论元提取和事件关系提取等多种复杂的信息提取任务。为了方便相关研究和应用，我们提出了一个事件理解工具包OmniEvent，它具有三个需求： 1 全面。 OmniEvent 支持所有事件理解任务的主流建模范式以及 15 个广泛使用的英文和中文数据集的处理。 2 公平。 OmniEvent 仔细处理了 Peng 等人报告的不显眼的评估陷阱。 2023，确保不同模型之间的公平比较。 3 使用方便。 OmniEvent 旨在供具有不同需求的用户轻松使用。我们提供现成的模型，可以直接部署为 Web 服务。模块化框架还使用户能够使用 OmniEvent 轻松实施和评估新的事件理解模型。

Urdu Poetry Generated by Using Deep Learning Techniques
Authors Muhammad Shoaib Farooq, Ali Abbas
这项研究提供了使用不同深度学习技术和算法生成的乌尔都语诗歌。数据是通过 Rekhta 网站收集的，包含 1341 个文本文件和几对对联。诗歌数据不来自任何特定流派或诗人。相反，它是一本混合乌尔都语诗歌和加查尔语的合集。使用了不同的深度学习技术，例如应用的模型长短期记忆网络 LSTM 和门控循环单元 GRU。自然语言处理 NLP 可用于机器学习来理解、分析和生成人类可以使用和理解的语言。在使用不同技术为不同语言生成诗歌方面已经做了很多工作。不同的研究人员对数据的收集和使用也有所不同。该项目的主要目的是提供一个完全使用数据而不是采样数据来生成乌尔都语诗歌的模型。此外，这可能会生成纯乌尔都语的诗歌，而不是像基纸中那样的罗马乌尔都语诗歌。

Only 5\% Attention Is All You Need: Efficient Long-range Document-level Neural Machine Translation
Authors Zihan Liu, Zewei Sun, Shanbo Cheng, Shujian Huang, Mingxuan Wang
事实证明，文档级神经机器翻译 DocNMT 通过引入文档级上下文信息对于处理话语现象至关重要。最重要的方向之一是将整个文档直接输入到标准的 Transformer 模型中。在这种情况下，由于注意力模块的二次复杂度，效率成为一个关键问题。现有的研究要么集中在编码器部分，要么无法部署在序列到序列生成任务（例如机器翻译 MT）上，要么会遭受性能显着下降。在这项工作中，我们通过引入基于轻量级注意力的额外选择层来保持翻译性能，同时获得 20 倍的速度提升，该选择层选择要关注的一小部分标记。它利用原始注意力来保证性能和降维以加速推理。

Towards End-User Development for IoT: A Case Study on Semantic Parsing of Cooking Recipes for Programming Kitchen Devices
Authors Filippos Ventirozos, Sarah Clinch, Riza Batista Navarro
对用户生成的教学文本进行语义解析，使最终用户能够对物联网进行编程，是一个尚未充分开发的领域。在这项研究中，我们提供了一个独特的带注释的语料库，旨在支持将烹饪食谱指令转换为厨房中物联网设备的机器可理解的命令。这些命令中的每一个都是一个元组，捕获涉及厨房设备的指令的语义，包括“什么”、“在哪里”、“为什么”和“如何”。基于这个语料库，我们开发了基于机器学习的序列标记方法，即条件随机场 CRF 和神经网络模型，以便解析食谱指令并从中提取我们感兴趣的元组。

Examining Temporal Bias in Abusive Language Detection
Authors Mali Jin, Yida Mu, Diana Maynard, Kalina Bontcheva
网上使用辱骂性语言已成为一个日益普遍的问题，对个人和社会都造成损害，其影响范围从心理伤害到升级到现实生活中的暴力甚至死亡。机器学习模型已经被开发用来自动检测辱骂性语言，但这些模型可能会受到时间偏差的影响，即主题、语言使用或社会规范随着时间的推移而变化的现象。本研究旨在调查各种语言的滥用语言检测中时间偏差的性质和影响，并探索缓解方法。我们评估模型在不同时期的滥用数据集上的性能。我们的结果表明，时间偏差是滥用语言检测的一个重大挑战，根据历史数据训练的模型显示，随着时间的推移，性能显着下降。我们还从历时的角度对这些滥用数据集进行了广泛的语言分析，旨在探讨语言演变和性能下降的原因。

Reproducing Whisper-Style Training Using an Open-Source Toolkit and Publicly Available Data
Authors Yifan Peng, Jinchuan Tian, Brian Yan, Dan Berrebbi, Xuankai Chang, Xinjian Li, Jiatong Shi, Siddhant Arora, William Chen, Roshan Sharma, Wangyou Zhang, Yui Sudo, Muhammad Shakeel, Jee weon Jung, Soumi Maiti, Shinji Watanabe
在大量数据上预训练语音模型取得了显着的成功。 OpenAI Whisper 是一种多语言多任务模型，经过 68 万小时的监督语音数据训练。即使在零样本设置中，它也可以很好地推广到各种语音识别和翻译基准。然而，开发此类模型从数据收集到训练的完整流程并不公开，这使得研究人员很难进一步提高其性能并解决与训练相关的问题，例如效率、稳健性、公平性和偏差。这项工作提出了一种开放 Whisper 风格的语音模型 OWSM，它使用开源工具包和公开可用的数据重现 Whisper 风格的训练。 OWSM 甚至支持更多的翻译方向，可以更高效地训练。

PRiSM: Enhancing Low-Resource Document-Level Relation Extraction with Relation-Aware Score Calibration
Authors Minseok Choi, Hyesu Lim, Jaegul Choo
文档级关系提取DocRE旨在提取文档中所有实体对的关系。 DocRE 的一个关键挑战是注释此类数据的成本，这需要大量的人力。因此，我们研究了低资源环境中 DocRE 的情况，发现在低数据上训练的现有模型高估了 NA 无关系标签，导致性能有限。在这项工作中，我们从校准的角度来解决这个问题，并提出了 PRiSM，它学习根据关系语义信息来调整 logits。我们在三个 DocRE 数据集上评估我们的方法，并证明将现有模型与 PRiSM 集成可将性能提高多达 26.38 F1 分数，而当使用大约 3 个数据进行训练时，校准误差下降多达 36 倍。

Fast-HuBERT: An Efficient Training Framework for Self-Supervised Speech Representation Learning
Authors Guanrou Yang, Ziyang Ma, Zhisheng Zheng, Yakun Song, Zhikang Niu, Xie Chen
近年来，用于语音处理任务的自监督学习 SSL 方法取得了重大进展。各种基于语音的 SSL 模型已经被开发出来，并且在包括语音识别在内的一系列下游任务中表现出了良好的性能。然而，现有的基于语音的 SSL 模型在计算成本方面面临着共同的困境，这可能会阻碍其潜在的应用和深入的学术研究。为了解决这个问题，我们首先分析了HuBERT预训练期间不同模块的计算成本，然后引入了一系列效率优化，在本文中将其命名为Fast HuBERT。所提出的 Fast HuBERT 可以在 Librispeech 960h 基准上使用 8 个 V100 GPU 在 1.1 天内进行训练，而不会降低性能，与原始实现相比，速度提高了 5.2 倍。

Can LLM-Generated Misinformation Be Detected?
Authors Canyu Chen, Kai Shu
大型语言模型法学硕士的出现产生了变革性的影响。然而，ChatGPT 等法学硕士可能被利用来生成错误信息，这对在线安全和公众信任构成了严重担忧。一个基本的研究问题是LLM生成的错误信息是否会比人类书面的错误信息造成更大的危害，我们建议从检测难度的角度来解决这个问题。我们首先建立一个 LLM 生成的错误信息的分类法。然后，我们对法学硕士生成错误信息的潜在现实方法进行分类和验证。然后，通过广泛的实证调查，我们发现，与具有相同语义的人类书面错误信息相比，LLM 生成的错误信息更难被人类和检测器检测到，这表明它可能具有更多的欺骗性风格，并可能造成更大的伤害。

Text Classification: A Perspective of Deep Learning Methods
Authors Zhongwei Wan
近年来，随着互联网信息的快速发展，复杂的文本和文档的数量呈指数级增长，这需要对深度学习方法有更深入的了解，以便利用深度学习技术对文本进行准确的分类，从而深度学习方法在文本分类中变得越来越重要。文本分类是一类任务，可根据内容和主题自动将一组文档分类为多个预定义类别。因此，文本分类的主要目标是使用户能够从文本资源中提取信息，并将检索、分类和机器学习技术等过程结合在一起，以对不同的类别进行分类。深度学习的许多新技术已经在自然语言处理方面取得了优异的成果。这些学习算法的成功取决于它们理解复杂模型和数据中非线性关系的能力。然而，找到正确的文本分类结构、架构和技术对研究人员来说是一个挑战。本文介绍了基于深度学习的文本分类算法，包括文本分类任务所需的重要步骤，如特征提取、特征约简以及评估策略和方法。

Does the "most sinfully decadent cake ever" taste good? Answering Yes/No Questions from Figurative Contexts
Authors Geetanjali Rakshit, Jeffrey Flanigan
比喻语言在自然语言中很常见，虽然使交流令人难忘且富有创造性，但可能难以理解。在这项工作中，我们研究了问答 QA 模型在比喻文本上的稳健性。是的，没有问题，尤其是对大型语言模型的比喻语言理解能力的有用探索。我们提出了 FigurativeQA，这是一组从餐厅和产品评论领域提取的 1000 个是非问题，包含比喻和非比喻背景。我们证明，与非比喻性上下文相比，最先进的基于 BERT 的 QA 模型在回答比喻性上下文中的问题时，平均性能下降高达 15 个百分点。虽然像 GPT 3 和 ChatGPT 这样的模型更擅长处理比喻文本，但我们表明，通过自动将比喻上下文简化为其非比喻文字对应物，可以实现进一步的性能提升。我们发现最好的整体模型是 ChatGPT，其思维链提示生成非比喻上下文。

Arabic Sentiment Analysis with Noisy Deep Explainable Model
Authors Md. Atabuzzaman, Md Shajalal, Maksuda Bilkis Baby, Alexander Boden
情感分析 SA 是许多现实世界应用程序不可或缺的任务。与阿拉伯语、孟加拉语等资源有限的语言相比，SA的研究大多针对英语、汉语等资源丰富的语言。此外，利用先进的人工智能人工智能方法进行阿拉伯语情绪分析方法的任何预测背后的原因就像黑匣子一样很难理解。本文通过在双向长短期记忆 BiLSTM 和卷积神经网络 CNN BiLSTM 模型上引入噪声层来克服过拟合问题，提出了一种可解释的阿拉伯语情感分类框架。所提出的框架可以通过训练本地代理可解释模型来解释特定的预测，以理解为什么会预测特定的积极或消极情绪。我们在公共基准阿拉伯语 SA 数据集上进行了实验。结果得出的结论是，添加噪声层可以通过减少过度拟合来提高阿拉伯语情感分析的性能，并且我们的方法优于一些已知的最先进方法。

Multiple Relations Classification using Imbalanced Predictions Adaptation
Authors Sakher Khalil Alqaaidi, Elika Bozorgi, Krzysztof J. Kochut
关系分类任务为一对主客体实体分配正确的语义关系，该任务在各种文本挖掘应用中发挥着至关重要的作用，例如生物医学文本中的知识图谱构建和实体交互发现。当前的关系分类模型采用额外的过程来识别单个句子中的多个关系。此外，他们忽视了不平衡的预测模式。该模式源于一些有效关系的存在，这些关系需要在相对较大的预定义关系集中进行正向标记。我们提出了一种多重关系分类模型，通过定制的输出架构和利用额外的输入特征来解决这些问题。我们的研究结果表明，即使在适度的训练设计上，处理不平衡的预测也会带来显着的改进。结果证明了在关系分类中常用的基准数据集上的优越性能。

Skill Check: Some Considerations on the Evaluation of Gamemastering Models for Role-playing Games
Authors Santiago G ngora, Luis Chiruzzo, Gonzalo M ndez, Pablo Gerv s
在角色扮演游戏中，游戏大师 GM 是负责游戏的玩家，他必须设计玩家面临的挑战并讲述他们行动的结果。在这项工作中，我们从交互式讲故事和自然语言处理的角度讨论了对 GM 建模的一些挑战。

ALLURE: A Systematic Protocol for Auditing and Improving LLM-based Evaluation of Text using Iterative In-Context-Learning
Authors Hosein Hasanbeig, Hiteshi Sharma, Leo Betthauser, Felipe Vieira Frujeri, Ida Momennejad
从对论文进行评分到总结医学文档，大型语言模型法学硕士越来越多地用于评估人类和人工智能生成的文本。然而，尽管法学硕士具有广泛的实用性，但它们表现出独特的失败模式，需要对其文本评估能力进行彻底的审核和改进。在这里，我们介绍 ALLURE，一种审计大型语言模型理解和推理错误的系统方法。 ALLURE 涉及将法学硕士生成的评估与带注释的数据进行比较，并迭代地将显着偏差的实例合并到评估器中，从而利用上下文学习 ICL 来增强和改进法学硕士对文本的稳健评估。通过这个迭代过程，我们的目标是改进评估器 LLM 的性能，最终减少评估过程中对人类注释器的依赖。

Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve
Authors R. Thomas McCoy, Shunyu Yao, Dan Friedman, Matthew Hardy, Thomas L. Griffiths
大型语言模型法学硕士的广泛采用使得认识其优势和局限性变得非常重要。我们认为，为了对这些系统有一个整体的理解，我们需要考虑这样一个问题：它们被训练来解决互联网文本的下一个单词预测问题。通过认识到这项任务所施加的压力，我们可以预测法学硕士将采取的策略，从而使我们能够推断出他们何时会成功或失败。这种我们称之为目的论的方法使我们确定了三个因素，我们假设这些因素将影响 LLM 的准确性：要执行的任务的概率、目标输出的概率以及所提供输入的概率。我们预测，即使在概率不重要的确定性环境中，当这些概率较高时，法学硕士也会比概率较低时获得更高的准确率。为了测试我们的预测，我们在 11 项任务上评估了两个 LLM GPT 3.5 和 GPT 4，并且我们发现了强有力的证据，表明 LLM 会以我们假设的方式受到概率的影响。在许多情况下，实验揭示了令人惊讶的故障模式。例如，当输出是高概率单词序列时，GPT 4 解码简单密码的准确度为 51，但当输出为低概率单词序列时，准确度仅为 13。这些结果表明，人工智能从业者在低概率情况下使用法学硕士时应谨慎。

MentalLLaMA: Interpretable Mental Health Analysis on Social Media with Large Language Models
Authors Kailai Yang, Tianlin Zhang, Ziyan Kuang, Qianqian Xie, Sophia Ananiadou
随着网络技术的发展，社交媒体文本正在成为自动心理健康分析的丰富来源。由于传统的判别方法存在可解释性低的问题，最近大型语言模型已被探索用于社交媒体上的可解释心理健康分析，旨在提供详细的解释和预测。结果表明，ChatGPT 可以为其正确分类生成接近人类的解释。然而，LLM 在零样本少量样本的方式下仍然取得了不令人满意的分类性能。特定领域的微调是一种有效的解决方案，但面临 2 个挑战 1 缺乏高质量的训练数据。 2 没有发布用于可解释心理健康分析的开源法学硕士，以降低微调成本。为了缓解这些问题，我们在社交媒体上构建了第一个多任务、多源可解释的心理健康指导 IMHI 数据集，包含 105K 数据样本。原始社交媒体数据是从 10 个现有来源收集的，涵盖 8 项心理健康分析任务。我们使用专家编写的少量提示和收集的标签来提示 ChatGPT 并从其响应中获取解释。为了确保解释的可靠性，我们对生成数据的正确性、一致性和质量进行严格的自动和人工评估。基于 IMHI 数据集和 LLaMA2 基础模型，我们训练 MentalLLaMA，这是第一个开源 LLM 系列，用于可解释的心理健康分析，具有指令跟踪功能。我们还使用 10 个测试集在 IMHI 评估基准上评估 MentalLLaMA 的性能，检查其预测的正确性和解释的质量。

Keeping in Time: Adding Temporal Context to Sentiment Analysis Models
Authors Dean Ninalga
本文提出了 LongEval CLEF 2023 实验室任务 2 LongEval 分类的最先进解决方案。此任务的目标是在更短和更长的时间段内提高和保持情感分析模型的性能。我们的框架将带日期前缀的文本输入提供给预先训练的语言模型，其中时间戳包含在文本中。我们在相应文本的时间上下文上显示日期前缀样本更好的条件模型输出。此外，我们通过对未标记数据进行自标记来训练学生模型，进一步提高性能。我们使用一种新颖的增强策略来增强自标记过程，该策略利用了样本的日期前缀格式。我们展示了 LongEval 分类评估集相对于非增强自标记的具体性能提升。

Substituting Data Annotation with Balanced Updates and Collective Loss in Multi-label Text Classification
Authors Muberra Ozmen, Joseph Cotnareanu, Mark Coates
多标签文本分类MLTC是为给定文本分配多个标签的任务，具有广泛的应用领域。大多数现有方法需要大量带注释的数据来学习分类器和/或对标签空间结构的一组明确定义的约束，例如随着标签数量的增加而提供的层次关系可能很复杂。在本文中，我们研究了无注释和稀缺注释设置中的 MLTC 问题，其中可用监督信号的大小与标签数量呈线性关系。我们的方法遵循三个步骤，1 使用预先训练的语言模型通过自然语言推理将输入文本映射到一组初步标签似然，2 通过标签描述计算签名标签依赖图，3 通过消息传递更新初步标签似然标签依赖图，由集体损失函数驱动，该函数注入预期标签频率和预测的平均多标签基数的信息。

Hierarchical attention interpretation: an interpretable speech-level transformer for bi-modal depression detection
Authors Qingkun Deng, Saturnino Luz, Sofia de la Fuente Garcia
抑郁症是一种常见的精神障碍。通过机器学习启用的使用语音的自动抑郁症检测工具有助于早期筛查抑郁症。本文解决了可能阻碍此类工具的临床实施的两个限制，这些限制是由段级标记和缺乏模型可解释性引起的噪音。我们提出了一种双模态语音级别转换器，以避免分段级别标签，并引入分层解释方法来提供语音级别和句子级别解释，基于从所有注意层导出的梯度加权注意图来跟踪输入特征之间的交互。我们表明，与 p 0.732、r 0.808、F1 0.768 相比，所提出的模型优于在分段级别 p 0.854、r 0.947、F1 0.947 学习的模型。对于模型解释，我们使用一个真实的阳性样本，显示给定语音中的哪些句子与抑郁症检测最相关，以及这些句子中的哪些文本标记和梅尔频谱图区域与抑郁症检测最相关。

Grounding Description-Driven Dialogue State Trackers with Knowledge-Seeking Turns
Authors Alexandru Coca, Bo Hsiang Tseng, Jinghong Chen, Weizhe Lin, Weixuan Zhang, Tisha Anders, Bill Byrne
模式引导的对话状态跟踪器无需进一步训练即可推广到新领域，但它们对模式的书写风格很敏感。使用人类或合成模式释义来增强训练集可以提高模型对这些变化的鲁棒性，但可能成本高昂或难以控制。我们建议通过将状态跟踪模型建立在从对话语料库和模式收集的知识搜索轮次中来规避这些问题。

Resolving References in Visually-Grounded Dialogue via Text Generation
Authors Bram Willemsen, Livia Qian, Gabriel Skantze
视觉语言模型 VLM 已被证明在基于简单文本查询的图像检索方面非常有效，但基于会话输入的文本图像检索仍然是一个挑战。因此，如果我们想在基于视觉的对话中使用 VLM 进行参考解析，则需要增强这些模型的话语处理能力。为了解决这个问题，我们建议对因果大语言模型 LLM 进行微调，以生成明确的描述，总结在参考文献的语言上下文中发现的共指信息。然后，我们使用预训练的 VLM 根据生成的描述（零样本）来识别所指对象。我们在手动注释的视觉基础对话数据集上评估我们的方法，并获得平均超过我们比较的基线性能的结果。

A Chat About Boring Problems: Studying GPT-based text normalization
Authors Yang Zhang, Travis M. Bartley, Mariana Graterol Fuenmayor, Vitaly Lavrukhin, Evelina Bakhturina, Boris Ginsburg
文本规范化（将文本从书面形式转换为口头形式）传统上被认为是语言模型的一项格式错误的任务。在这项工作中，我们提出了不同的观点。我们凭经验展示了大型语言模型 LLM 在少数场景中进行文本规范化的能力。将自我一致性推理与语言通知提示工程相结合，我们发现基于 LLM 的文本规范化的错误率比顶级规范化系统低 40 左右。此外，在错误分析中，我们注意到文本规范化任务的传统设计中的关键局限性。我们创建了一种新的文本标准化错误分类法，并将其应用于 GPT 3.5 Turbo 和 GPT 4.0 的结果。

Exploring Large Language Models' Cognitive Moral Development through Defining Issues Test
Authors Kumar Tanmay, Aditi Khandelwal, Utkarsh Agarwal, Monojit Choudhury
大型语言模型的发展引起了研究人员的广泛兴趣，以了解其固有的推理和解决问题的能力。尽管正在进行大量研究来阐明这些能力，但在理解这些模型的道德发展和判断方面仍然存在相当大的差距。当前将这些模型的道德推理能力作为分类任务进行评估的方法由于过度简化而存在许多不准确之处。在这项研究中，我们通过连接人类心理学和人工智能这两个不同的领域建立了心理联系。

Lexical Squad@Multimodal Hate Speech Event Detection 2023: Multimodal Hate Speech Detection using Fused Ensemble Approach
Authors Mohammad Kashif, Mohammad Zohair, Saquib Ali
随着社交媒体发帖表达观点、情感和意识形态的使用激增，社交媒体作为在全球范围内传达观点和观点的快速媒介已经发生了重大转变。与此同时，两个实体之间出现的大量冲突引发了一系列包含宣传、仇恨言论和轻率观点的社交媒体内容。因此，监控社交媒体帖子的问题正在迅速上升，吸引了那些愿意解决此类问题的人的主要关注。其中之一就是仇恨言论检测。为了缓解这个问题，我们提出了新颖的集成学习方法来检测仇恨言论，通过将文本嵌入图像分类为两个标签，即仇恨言论和无仇恨言论。我们整合了最先进的模型，包括 InceptionV3、BERT 和 XLNet。我们提出的集成模型取得了令人鼓舞的结果，准确度和 F 1 分数分别为 75.21 和 74.96。我们还对文本嵌入图像进行了实证评估，以详细说明模型的预测和分类能力。

My Science Tutor (MyST) -- A Large Corpus of Children's Conversational Speech
Authors Sameer S. Pradhan, Ronald A. Cole, Wayne H. Ward
本文介绍了 MyST 语料库，该语料库是作为 My Science Tutor 项目的一部分而开发的，该项目是最大的儿童对话语音集合之一，包含约 400 小时的内容，涵盖约 230K 条话语，涵盖约 10,500 个虚拟导师会话，其中约 1,300 个第三、第四和第五个会话年级学生。迄今为止，已转录了 100K 条语句。

BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models
Authors Zican Dong, Tianyi Tang, Junyi Li, Wayne Xin Zhao, Ji Rong Wen
大型语言模型法学硕士在正常长度的 NLP 任务上取得了显着的熟练程度。最近，多项研究致力于扩展上下文长度并增强法学硕士的长文本建模能力。为了全面评估LLM的长上下文能力，我们提出了BAMBOO，一个多任务长上下文基准。 BAMBOO的设计遵循综合容量评估、避免数据污染、准确自动评估、不同长度等级四个原则。它由来自 5 个不同长文本理解任务（即问答、幻觉检测、文本排序、语言建模和代码补全）的 10 个数据集组成，涵盖了法学硕士的核心能力和各个领域。我们在BAMBOO上对五个长上下文模型进行了实验，并进一步讨论了长文本的四个关键研究问题。我们还定性分析了当前的长上下文模型，并指出了增强长文本建模能力的未来方向。

LLMs as Counterfactual Explanation Modules: Can ChatGPT Explain Black-box Text Classifiers?
Authors Amrita Bhattacharjee, Raha Moraffah, Joshua Garland, Huan Liu
大型语言模型 LLM 越来越多地用于文本生成之外的任务，包括数据标记、信息提取等复杂任务。随着最近为理解 LLM 功能的全部范围而进行的研究工作的激增，在这项工作中，我们研究了法学硕士作为反事实解释模块的作用，解释黑盒文本分类器的决策。受因果思维的启发，我们提出了一个使用LLM以原则性方式生成事后、模型不可知的反事实解释的管道，通过i利用LLM的文本理解能力来识别和提取潜在特征，ii利用扰动和生成能力相同的法学硕士通过扰乱从提取的潜在特征导出的输入特征来生成反事实解释。我们在一套最先进的法学硕士（包括 ChatGPT 和 LLaMA 2）上评估了我们框架的三个变体，具有不同程度的特异性。我们通过各种文本分类基准评估了生成的反事实解释的有效性和质量。我们的结果显示这些模型在不同设置下的不同性能，基于完整两步特征提取的变体在大多数情况下优于其他模型。

Enhancing Zero-Shot Chain-of-Thought Reasoning in Large Language Models through Logic
Authors Xufeng Zhao, Mengdi Li, Wenhao Lu, Cornelius Weber, Jae Hee Lee, Kun Chu, Stefan Wermter
大型语言模型的最新进展展示了它们在各个领域的卓越通用性。然而，他们的推理能力仍有很大的提升空间，尤其是在面对需要多步推理的场景时。尽管大型语言模型拥有广泛的知识，但它们的行为，特别是在推理方面，往往无法有效地利用这些知识来建立连贯的思维范式。生成语言模型有时会出现幻觉，因为它们的推理过程不受逻辑原则的约束。为了提高大型语言模型的零镜头思维链推理能力，我们提出了逻辑思维链LogiCoT，这是一种神经符号框架，利用符号逻辑的原理来相应地验证和修改推理过程。

From Text to Source: Results in Detecting Large Language Model-Generated Content
Authors Wissam Antoun, Beno t Sagot, Djam Seddah
大型语言模型法学硕士以其生成类人文本的能力而闻名，其广泛使用引起了人们对错误信息和道德影响的担忧。解决这些问题需要开发强大的方法来检测和归属法学硕士生成的文本。本文研究了跨模型检测，评估经过训练以区分源 LLM 生成的文本和人类编写的文本的分类器是否也可以在无需进一步训练的情况下检测来自目标 LLM 的文本。该研究全面探讨了各种 LLM 规模和系列，并评估了会话微调技术对分类器泛化的影响。该研究还深入研究了模型归因，包括源模型识别、模型族分类和模型大小分类。我们的结果揭示了几个关键发现，即分类器有效性和模型大小之间存在明显的反比关系，较大的法学硕士更难以检测，特别是当分类器接受较小模型的数据训练时。对来自类似规模的 LLM 的数据进行训练可以提高较大模型的检测性能，但在处理较小模型时可能会导致性能下降。此外，模型归因实验在识别源模型和模型族方面显示出有希望的结果，突出显示了法学硕士生成文本中的可检测签名。

GlotScript: A Resource and Tool for Low Resource Writing System Identification
Authors Amir Hossein Kargaran, Fran ois Yvon, Hinrich Sch tze
我们推出 GlotScript，一种用于低资源书写系统识别的开放资源和工具。 GlotScript R 是一种资源，为 7,000 多种语言提供经过验证的书写系统。它是通过聚合现有书写系统资源的信息来编译的。 GlotScript T 是一种书写系统识别工具，涵盖所有 161 个 Unicode 15.0 脚本。对于输入文本，它返回其脚本分布，其中脚本由 ISO 15924 代码标识。我们还介绍了 GlotScript 的两个用例。首先，我们演示 GlotScript 支持清理多语言语料库，例如 mC4 和 OSCAR。其次，我们使用 GlotScript 分析了多种语言模型（例如 GPT 4）的标记化，并提供了有关每种语言模型对低资源脚本和语言的覆盖范围的见解。我们希望 GlotScript 将成为 NLP 社区中低资源语言工作的有用资源。

Spanish Resource Grammar version 2023
Authors Olga Zamaraeva, Carlos G mez Rodr guez
我们推出最新版本的西班牙语资源语法 SRG。新的 SRG 使用最新版本的 Freeling 形态分析器和标记器，并附有手动验证的树库和记录的问题列表。我们还展示了学习者语料库的一小部分的语法覆盖率和过度生成，这是关于 SRG 的全新研究路线。该语法可用于语言研究，例如句法理论的经验驱动发展，以及计算机辅助语言学习等自然语言处理应用。

Calibrating LLM-Based Evaluator
Authors Yuxuan Liu, Tianchi Yang, Shaohan Huang, Zihan Zhang, Haizhen Huang, Furu Wei, Weiwei Deng, Feng Sun, Qi Zhang
大型语言模型法学硕士在语言建模和突发能力方面的最新进展使它们成为有前途的自然语言生成质量的免费参考评估器，以及人类评估的有力替代方案。然而，由于托管和调整的闭源或高计算需求的阻碍，缺乏进一步校准现成的基于 LLM 的评估器以实现更好的人类对齐的实践。在这项工作中，我们提出了 AutoCalibrate，这是一种多阶段、无梯度的方法，可以根据人类偏好自动校准和调整基于 LLM 的评估器。我们没有明确地模拟人类偏好，而是首先将它们隐式地包含在一组人类标签中。然后，由语言模型本身起草一组初始评分标准，利用不同的少数镜头示例的上下文学习。为了进一步校准这套标准，我们选择了表现最好的人，并通过自我完善重新起草。我们对多个文本质量评估数据集的实验表明，通过校准，与专家评估的相关性有了显着改善。

OATS: Opinion Aspect Target Sentiment Quadruple Extraction Dataset for Aspect-Based Sentiment Analysis
Authors Siva Uday Sampreeth Chebolu, Franck Dernoncourt, Nedim Lipka, Thamar Solorio
基于方面的情感分析 ABSA 深入了解文本内容中特定元素的情感。它的目的是分析用户生成的评论，以确定a被评论的目标实体，b它所属的高级方面，c用于表达意见的情感词，以及d针对目标和方面表达的情感。虽然各种基准数据集促进了 ABSA 的进步，但它们通常面临领域限制和数据粒度挑战。为了解决这些问题，我们引入了 OATS 数据集，它包含三个新领域，由 20,000 个句子级四元组和 13,000 个评论级元组组成。我们的举措旨在弥合特定的观察到的差距，即对餐馆和笔记本电脑等熟悉领域的反复关注、复杂的四重提取任务的有限数据，以及对句子和评论级别情绪之间的协同作用的偶尔监督。此外，为了阐明 OATS 的潜力并阐明 OATS 可以解决的各种 ABSA 子任务，我们进行了域和跨域实验，建立了初始基线。

A Survey of Document-Level Information Extraction
Authors Hanwen Zheng, Sijia Wang, Lifu Huang
文档级信息提取IE是自然语言处理NLP中的一项关键任务。本文对近期文档级 IE 文献进行了系统回顾。此外，我们使用当前最先进的算法进行彻底的错误分析，并确定其局限性以及文档级 IE 任务的剩余挑战。根据我们的发现，标签噪声、实体共指解析和缺乏推理会严重影响文档级 IE 的性能。

ChEDDAR: Student-ChatGPT Dialogue in EFL Writing Education
Authors Jieun Han, Haneul Yoo, Junho Myung, Minsun Kim, Tak Yeon Lee, So Yeon Ahn, Alice Oh
生成式人工智能在教育中的整合正在扩大，但对学生与人工智能系统之间大规模、现实世界交互的实证分析仍然有限。在这项研究中，我们提出了 ChEDDAR、ChatGPT EFL 学习者对话数据集作为修改一篇论文，该数据集是从一个学期的纵向实验中收集的，涉及 212 名参加英语作为外语 EFL 写作课程的大学生。学生们被要求通过与 ChatGPT 的对话来修改他们的论文。 ChEDDAR 包括对话日志、话语级别论文编辑历史、自我评价满意度和学生意图，以及记录学生目标和整体体验的会话级别前后调查。我们根据学生的意图和满意度来分析学生对生成式人工智能的使用模式和看法。作为基础步骤，我们为教育背景下面向任务的对话系统中的两个关键任务建立了基线结果：意图检测和满意度估计。最后，我们建议进一步研究，以完善生成式人工智能与教育环境的整合，概述利用 ChEDDAR 的潜在场景。

User Simulation with Large Language Models for Evaluating Task-Oriented Dialogue
Authors Sam Davidson, Salvatore Romeo, Raphael Shu, James Gung, Arshit Gupta, Saab Mansour, Yi Zhang
开发新的面向任务的对话 TOD 系统的主要障碍之一是需要在开发过程的多个阶段和迭代进行人工评估。为了实现 TOD 的自动化评估，我们提出了一种使用最近开发的大型预训练语言模型 LLM 构建的新型用户模拟器。为了相对于之前的相关工作增加我们系统的语言多样性，我们没有在现有的 TOD 数据集上微调我们的系统使用的 LLM，而是在上下文学习中使用 LLM 来提示 LLM 生成稳健且语言多样化的输出模拟人类对话者行为的目标。与之前的工作不同，之前的工作寻求最大化目标成功率 GSR 作为模拟器性能的主要指标，我们的目标是实现一个与人类与 TOD 系统交互中观察到的 GSR 类似的系统。使用这种方法，我们当前的模拟器能够有效地与多个 TOD 系统进行交互，尤其是在单一意图的对话目标上，同时相对于以前依赖微调模型的模拟器生成词汇和句法上多样化的输出。

NJUNLP's Participation for the WMT2023 Quality Estimation Shared Task
Authors Xiang Geng, Zhejian Lai, Yu Zhang, Shimin Tao, Hao Yang, Jiajun Chen, Shujian Huang
我们介绍 NJUNLP 团队向 WMT 2023 质量估算 QE 共享任务提交的内容。我们的团队提交了对所有两个子任务的英语德语语言对的预测，即句子和单词级别质量预测以及细粒度错误跨度检测。

Hindi to English: Transformer-Based Neural Machine Translation
Authors Kavit Gangar, Hardik Ruparel, Shreyas Lele
机器翻译 MT 是自然语言处理 NLP 中最重要的任务之一，涉及将文本从一种自然语言自动转换为另一种自然语言，同时保留其含义和流畅性。尽管机器翻译的研究已经持续了几十年，但将深度学习技术集成到自然语言处理中的新方法已经导致翻译质量的显着提高。在本文中，我们通过训练 Transformer 模型开发了神经机器翻译 NMT 系统，将文本从印度语印地语翻译成英语。印地语是一种低资源语言，使得神经网络很难理解该语言，从而导致神经机器翻译器的发展缓慢。因此，为了解决这一差距，我们实施了反向翻译来增强训练数据，并为了创建词汇表，我们使用字节对编码 BPE 尝试了单词和子字级别的标记化，从而最终以 10 种不同的配置来训练 Transformer。

A Practical Survey on Zero-shot Prompt Design for In-context Learning
Authors Yinheng Li
大型语言模型 LLM 的显着进步带来了自然语言处理 NLP 任务的显着改进。本文对情境学习技术进行了全面回顾，重点关注不同类型的提示，包括离散、连续、少样本和零样本，以及它们对法学硕士表现的影响。我们探索各种提示设计方法，例如手动设计、优化算法和评估方法，以优化跨不同任务的法学硕士表现。我们的评论涵盖了即时工程的关键研究，讨论了它们的方法和对该领域的贡献。鉴于缺乏单一最佳提示以及考虑多个指标的重要性，我们还深入研究了评估提示性能所面临的挑战。

Large Language Models and Control Mechanisms Improve Text Readability of Biomedical Abstracts
Authors Zihao Li, Samuel Belkadi, Nicolo Micheletti, Lifeng Han, Matthew Shardlow, Goran Nenadic
生物医学文献经常使用复杂的语言和难以理解的专业术语。这就是为什么简化在提高公共卫生素养方面发挥着重要作用。应用自然语言处理 NLP 模型来自动执行此类任务，可以让非专业读者快速、直接地访问。在这项工作中，我们研究了最先进的大型语言模型法学硕士在生物医学摘要简化任务上的能力，使用公开可用的数据集对生物医学摘要 textbf PLABA 进行简单语言适应。应用的方法包括在 1 个编码器解码器模型 T5、SciFive 和 BART 上进行域微调和基于提示的学习 PBL，2 仅解码器 GPT 模型（来自 OpenAI 和 BioGPT 的 GPT 3.5 和 GPT 4），以及 3 基于 BART 模型的控制令牌机制。我们使用了一系列自动评估指标，包括 BLEU、ROUGE、SARI 和 BERTscore，并且还进行了人工评估。带有控制代币的 BART Large BART L w CT 机制报告了最高的 SARI 分数 46.54，T5 基础报告了最高的 BERTscore 72.62。在人类评估中，BART L w CT 比 T5 Base 取得了更好的简单性得分 2.9 vs. 2.2，而 T5 Base 取得了比 BART L w CT 更好的意义保留得分 3.1 vs. 2.6。我们还通过示例对系统输出进行了分类，希望这能为该任务的未来研究提供一些启示。

Effective Distillation of Table-based Reasoning Ability from LLMs
Authors Bohao Yang, Chen Tang, Kun Zhao, Chenghao Xiao, Chenghua Lin
大型语言模型法学硕士在广泛的自然语言处理任务中表现出了卓越的性能。然而，它们巨大的参数大小和对计算资源的高要求给它们的实际部署带来了挑战。最近的研究表明，法学硕士的特定能力（例如数值推理）可以通过蒸馏转移到更小的模型中。一些研究探讨了利用法学硕士执行基于表格的推理的潜力。然而，在我们的工作之前，还没有对专门为表格到文本生成任务量身定制的较小模型中专门的表格推理技能的前景进行过调查。在本文中，我们提出了一种新颖的基于表的推理蒸馏，目的是将 LLM 蒸馏为专门为基于表的推理任务设计的定制的较小模型。实验结果表明，使用蒸馏数据进行微调的 2.2 亿参数模型 Flan T5 基础，不仅比传统微调基线取得了显着改进，而且在科学表到文本生成数据集 SciGen 上超越了 gpt 3.5 Turbo 等特定 LLM。

BenLLMEval: A Comprehensive Evaluation into the Potentials and Pitfalls of Large Language Models on Bengali NLP
Authors Mohsinul Kabir, Mohammed Saidul Islam, Md Tahmid Rahman Laskar, Mir Tafseer Nayeem, M Saiful Bari, Enamul Hoque
大型语言模型法学硕士因其在语言生成和其他语言特定任务方面令人印象深刻的技能而成为自然语言处理 NLP 领域最重要的突破之一。尽管法学硕士已在各种任务中进行了评估，大部分是英语，但尚未对孟加拉语、孟加拉语等资源不足的语言进行彻底的评估。在本文中，我们评估了资源匮乏的孟加拉语的法学硕士的表现。我们选择各种重要且多样化的 Bangla NLP 任务，例如抽象摘要、问答、释义、自然语言推理、文本分类和情感分析，使用 ChatGPT、LLaMA 2 和 Claude 2 进行零样本评估，并将性能与状态进行比较艺术微调模型。

Large Language Models Are Also Good Prototypical Commonsense Reasoners
Authors Chenin Li, Qianglong Chen, Yin Zhang, Yifei Zhang, Hongxiang Yao
常识推理是大型语言模型的关键技能，但它在需要这种能力的特定任务中提出了持续的挑战。传统的微调方法可能是资源密集型的，并且可能会损害模型的泛化能力。此外，GPT 3.5 和 Claude 等最先进的语言模型主要可通过 API 调用访问，这使得微调模型具有挑战性。为了应对这些挑战，我们从定制任务的大型模型的输出中汲取灵感，并从多个角度半自动地开发了一组新颖的提示，包括任务相关性、支持性证据生成，例如思想和知识链，多样化的路径解码来帮助模型。 ProtoQA 数据集上的实验结果表明，通过更好设计的提示，我们可以在 ProtoQA 排行榜上实现新的最先进 SOTA，与之前相比，最大答案 1 分数提高 8，最大错误 1 分数提高 4 突破 50 SOTA模型并在StrategyQA和CommonsenseQA2.0上分别实现了3和1的改进。此外，通过生成的思想链和知识链，我们可以提高模型的可解释性，同时超越之前的 SOTA 模型。

Cardiovascular Disease Risk Prediction via Social Media
Authors Al Zadid Sultan Bin Habib, Md Asif Bin Syed, Md Tanvirul Islam, Donald A. Adjeroh
研究人员利用 Twitter 和情绪分析来预测心血管疾病 CVD 的风险。通过仔细研究推文中传达的情绪，我们引入了一种新颖的 CVD 相关关键词词典。我们收集了来自美国十八个州（包括阿巴拉契亚地区）的推文。我们采用 VADER 模型进行情绪分析，将用户归类为潜在的 CVD 风险人群。机器学习 ML 模型用于评估个人 CVD 风险，随后应用于包含人口统计信息的 CDC 数据集以进行比较。我们考虑了各种性能评估指标，包括测试准确率、精确率、召回率、F1 分数、Mathew 相关系数 MCC 和 Cohen s Kappa CK 分数。我们的研究结果表明，分析推文的情感内容优于单独人口统计数据的预测能力，从而能够识别具有罹患心血管疾病潜在风险的个人。

SPICED: News Similarity Detection Dataset with Multiple Topics and Complexity Levels
Authors Elena Shushkevich, Long Mai, Manuel V. Loureiro, Steven Derby, Tri Kurniawan Wijaya
如今，随着新闻媒体的激增，为了增强用户体验，使用智能系统来检测新闻文章中的冗余信息变得尤为普遍。然而，新闻的异质性可能会导致这些系统中出现虚假的结果。简单的启发式方法，例如一对新闻是否都与政治有关，可以提供强大但具有欺骗性的下游性能。将新闻相似性数据集分割成主题，迫使这些模型学习如何区分更狭窄领域下的显着特征，从而改善了这些模型的训练。然而，这需要存在特定于主题的数据集，而目前缺乏这种数据集。在本文中，我们提出了一个新的类似新闻数据集 SPICED，其中包括犯罪法、文化娱乐、灾难事故、经济商业、政治冲突、科学技术和体育七个主题。此外，我们提出了四种不同的生成新闻对的方法，这些方法用于创建专门为新闻相似性检测任务设计的数据集。

MiChao-HuaFen 1.0: A Specialized Pre-trained Corpus Dataset for Domain-specific Large Models
Authors Yidong Liu, Conghui He, Conghui He, Wei Li, FuKai Shang, Jun Wang, Yao Li, Rui Xu
随着深度学习技术的进步，GPT 4 等通用大型模型已经在各个领域展示了卓越的功能。尽管如此，医疗保健、法律和金融等领域仍然需要高质量、特定领域的产出。本文首先评估了现有的专业领域大型模型并讨论了它们的局限性。为了满足某些领域的特定需求，我们推出了米巢话分1.0预训练语料数据集，专为新闻和政府部门量身定制。该数据集源自 2022 年公开的互联网数据，经过多轮清理和处理，以确保高质量和可靠的来源，并提供一致和稳定的更新。

Weakly Supervised Reasoning by Neuro-Symbolic Approaches
Authors Xianggen Liu, Zhengdong Lu, Lili Mou
深度学习极大地提高了各种自然语言处理 NLP 任务的性能。然而，大多数深度学习模型都是黑盒机制，缺乏明确的解释。在本章中，我们将介绍 NLP 的神经符号方法的最新进展，该方法结合了不同的人工智能流派，即符号主义和联结主义。一般来说，我们会为 NLP 任务设计一个具有符号潜在结构的神经系统，并应用强化学习或其松弛在下游任务中执行弱监督推理。我们的框架已成功应用于各种任务，包括表查询推理、句法结构推理、信息提取推理和规则推理。

Machine Learning Technique Based Fake News Detection
Authors Biplob Kumar Sutradhar, Md. Zonaid, Nushrat Jahan Ria, Sheak Rashed Haider Noori
虚假新闻受到公众和学术界的关注。此类虚假信息有能力影响公众的看法，使邪恶团体有机会影响选举等公共事件的结果。任何人都可以为了个人利益或给某人带来麻烦而分享有关任何人或任何事物的虚假新闻或事实。此外，信息根据其共享的世界地区的不同而有所不同。因此，在本文中，我们利用收集的数据集中的 1876 条新闻数据训练了一个模型来分类假新闻和真新闻。我们按照自然语言处理方法对数据进行了预处理，以获得干净且经过过滤的文本。我们的研究采用 3 种流行的机器学习随机梯度下降、朴素贝叶斯、逻辑回归和 2 种深度学习长短期记忆、ASGD 权重下降 LSTM 或 AWD LSTM 算法。

Personality Profiling: How informative are social media profiles in predicting personal information?
Authors Joshua Watt, Jonathan Tuke, Lewis Mitchell
性格分析已被公司用于有针对性的广告、政治活动和疫苗活动。然而，此类模型的准确性和多功能性仍然相对未知。因此，我们的目标是探索人们的在线数字足迹在多大程度上可以用来描述他们的迈尔斯·布里格斯性格类型。我们分析并比较了逻辑回归、朴素贝叶斯、支持向量机 SVM 和随机森林四种模型的结果。我们发现 SVM 模型在预测某人的完整人格类型方面达到了 20.95 的最佳准确度。然而，逻辑回归模型的性能仅稍差一些，并且训练和执行预测的速度要快得多。我们发现许多标记数据集在社交媒体上呈现出严重的个人特征类别不平衡，包括我们自己。因此，我们强调在报告这些数据集上的模型性能时需要仔细考虑，并比较多种解决类别不平衡问题的方法。此外，我们开发了一个统计框架来评估模型中不同特征集的重要性。我们发现 Intuitive Sensory p 0.032 和 Thinking Feeling p 0.019 模型中的某些特征比其他特征提供更多信息。

Applying BioBERT to Extract Germline Gene-Disease Associations for Building a Knowledge Graph from the Biomedical Literature
Authors Armando D. Diaz Gonzalez, Songhui Yue, Sean T. Hayes, Kevin S. Hughes
已发表的生物医学信息已经并将继续快速增加。自然语言处理 NLP 的最新进展引起了人们对基因和疾病等实体生物医学知识的自动化提取、标准化和表示的极大兴趣。我们的研究分析了在基因和疾病领域所做的大量工作的知识图谱构建中的种系摘要。本文提出了 SimpleGermKG，一种连接种系基因和疾病的自动知识图构建方法。为了提取基因和疾病，我们采用 BioBERT，这是一种在生物医学语料库上预先训练的 BERT 模型。我们提出了一种基于本体和基于规则的算法来标准化和消除医学术语的歧义。对于文章、基因和疾病之间的语义关系，我们实现了一种部分整体关系方法，将每个实体与其数据源连接起来，并在基于图形的知识表示中将它们可视化。最后，我们讨论知识图谱的应用、局限性和挑战，以启发生殖系语料库的未来研究。我们的知识图包含 297 个基因、130 种疾病和 46,747 个三元组。

DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via Multi-Modal Causal Attention
Authors Zhewei Yao, Xiaoxia Wu, Conglong Li, Minjia Zhang, Heyang Qi, Olatunji Ruwase, Ammar Ahmad Awan, Samyam Rajbhandari, Yuxiong He
大多数现有的多模态模型由于无法熟练地管理多图像、多轮对话中的交错图像和文本输入而受到阻碍，在培训和数据可访问性的资源分配方面面临着巨大的限制，影响了它们在不同交互领域的适应性和可扩展性。为了解决这个问题，我们提出了 DeepSpeed VisualChat 框架，旨在通过整合多模式功能来优化大型语言模型法学硕士，重点是提高大型视觉和语言模型在处理交错输入方面的熟练程度。我们的框架值得注意的是 1 对多轮和多图像对话的开源支持，2 引入了创新的多模式因果注意机制，3 在现有数据集上利用数据混合技术来确保多轮、多图像对话中的无缝交互。

Towards General-Purpose Text-Instruction-Guided Voice Conversion
Authors Chun Yi Kuan, Chen An Li, Tsu Yuan Hsu, Tse Yang Lin, Ho Lam Chung, Kai Wei Chang, Shuo yiin Chang, Hung yi Lee
本文介绍了一种新颖的语音转换 VC 模型，该模型由文本指令引导，例如用低沉的语气缓慢地发音或用欢快的孩子气的声音说话。与依赖参考话语来确定转换后语音的属性的传统方法不同，我们的模型为语音转换增加了多功能性和特异性。所提出的 VC 模型是一种神经编解码器语言模型，它处理离散代码序列，产生转换后的语音的代码序列。它利用文本指令作为风格提示来修改给定语音的韵律和情感信息。以前的方法通常依赖于使用单独的编码器（如韵律和内容编码器）来处理源语音的不同方面，与此相反，我们的模型以端到端的方式处理语音的各种信息。

Autonomous Vehicles an overview on system, cyber security, risks, issues, and a way forward
Authors Md Aminul Islam 1 , Sarah Alqahtani, 2 1 Oxford Brookes University, UK, 2 Oxford Brookes University, UK
本章探讨自动驾驶汽车的复杂领域，分析其基本组件和操作特征。讨论的初始阶段是阐明这些汽车的内部机制，包括传感器、人工智能识别系统、控制机制的关键参与，以及它们在物联网框架内与基于云的服务器的集成。它深入研究了自动驾驶汽车的实际实施，强调它们在预测交通模式和改变交通动态方面的应用。本文还探讨了机器人流程自动化 RPA 的主题，通过任务自动化说明自动驾驶汽车对不同业务的影响。这项调查的主要焦点在于网络安全领域，特别是在自动驾驶汽车的背景下。将进行全面分析，探索各种风险管理解决方案，旨在保护这些车辆免受道德、环境、法律、专业和社会等方面的潜在威胁，并对其社会影响提供全面的视角。应对挑战的战略计划并提出有效穿越自动驾驶汽车系统、网络安全、危险和其他问题的复杂地形的战略计划，是了解自动驾驶汽车复杂领域及其对当代社会影响的一些资源，支持

On the Relation between Internal Language Model and Sequence Discriminative Training for Neural Transducers
Authors Zijian Yang, Wei Zhou, Ralf Schl ter, Hermann Ney
内部语言模型 ILM 减法已被广泛应用于提高 RNN Transducer 与外部语言模型 LM 融合的性能，用于语音识别。在这项工作中，我们从理论和实证角度证明序列判别训练与 ILM 减法具有很强的相关性。理论上，我们推导出最大互信息 MMI 训练的全局最优与 ILM 减法具有相似的公式。根据经验，我们表明 ILM 减法和序列判别训练在 Librispeech 上的各种实验中实现了相似的性能，包括 MMI 和最小贝叶斯风险 MBR 标准，以及完整和有限上下文的神经传感器和 LM。经过序列判别训练后，ILM 减法的好处也变得小很多。

Wav2vec-based Detection and Severity Level Classification of Dysarthria from Speech
Authors Farhad Javanmardi, Saska Tirronen, Manila Kodali, Sudarsana Reddy Kadiri, Paavo Alku
直接从声学语音信号自动检测构音障碍并对其严重程度进行分类可以用作医学诊断的工具。在这项工作中，研究了预训练的 wav2vec 2.0 模型作为特征提取器，以构建构音障碍语音的检测和严重程度分类系统。实验是在常用的UA语音数据库上进行的。在检测实验中，结果表明，使用 wav2vec 模型第一层的嵌入获得了最佳性能，与性能最佳的基线特征谱图相比，准确率绝对提高了 1.23。

Analysis and Detection of Pathological Voice using Glottal Source Features
Authors Sudarsana Reddy Kadiri, Paavo Alku
自动检测声音病理可以实现客观评估和早期干预诊断。本研究对声门源特征进行了系统分析，并研究了它们在语音病理检测中的有效性。使用准闭相QCP声门逆滤波方法估计的声门流、使用零频率滤波ZFF方法计算的近似声门源信号以及直接使用声学语音信号来提取声门源特征。此外，我们建议从 QCP 和 ZFF 计算的声门源波形中导出梅尔频率倒谱系数 MFCC，以有效捕获病态声音声门源频谱的变化。实验使用两个数据库进行：阿斯图里亚斯普林西比大学医院 HUPA 数据库和萨尔布吕肯语音障碍 SVD 数据库。特征分析表明，声门源包含区分正常声音和病态声音的信息。采用支持向量机SVM进行病理检测实验。从检测实验中可以看出，所研究的声门源特征所实现的性能与传统 MFCC 和感知线性预测 PLP 特征相当或更好。

Connecting Speech Encoder and Large Language Model for ASR
Authors Wenyi Yu, Changli Tang, Guangzhi Sun, Xianzhao Chen, Tian Tan, Wei Li, Lu Lu, Zejun Ma, Chao Zhang
大型语言模型 LLM 令人印象深刻的功能和多功能性引起了自动语音识别 ASR 越来越多的关注，一些开创性的研究试图通过将语音编码器与 LLM 连接来构建集成的 ASR 模型。本文对三种常用的连接器结构进行了比较研究，包括全连接层、多头交叉注意力和 Q Former。研究了 Whisper 模型系列的语音编码器以及具有不同模型尺寸的 Vicuna 模型系列的 LLM。在常用的 LibriSpeech、Common Voice 和 GigaSpeech 数据集上进行了实验，其中使用 Q Forms 的法学硕士比使用其他连接器结构的法学硕士表现出一致且显着的单词错误率 WER 降低。 Q 基于前人的 LLM 可以很好地推广到域外数据集，在 Eval2000 测试集上，在不使用 Switchboard 的任何域内训练数据的情况下，比 Whisper 基线 ASR 模型实现了 12 个相对 WER 减少。

VidChapters-7M: Video Chapters at Scale
Authors Antoine Yang, Arsha Nagrani, Ivan Laptev, Josef Sivic, Cordelia Schmid
将长视频分成章节使用户能够快速导航到他们感兴趣的信息。由于缺乏公开发布的数据集，这一重要主题尚未得到充分研究。为了解决这个问题，我们提出了 VidChapters 7M，这是一个包含 817K 个用户章节视频的数据集，总共包括 700 万个章节。 VidChapters 7M 是通过抓取用户注释的章节，以可扩展的方式从在线视频自动创建的，因此无需任何额外的手动注释。我们根据这些数据介绍以下三个任务。首先，视频章节生成任务包括对视频进行时间分段并为每个片段生成章节标题。为了进一步剖析这个问题，我们还定义了该任务的两个变体：给定真实边界的视频章节生成，这需要在给定带注释的视频片段的情况下生成章节标题；以及视频章节接地，这需要在给定带注释的标题的情况下对章节进行时间本地化。我们针对这三项任务对简单的基线和最先进的视频语言模型进行了基准测试。我们还表明，VidChapters 7M 上的预训练在零镜头和微调设置下都能很好地转移到密集视频字幕任务，很大程度上提高了 YouCook2 和 ViTT 基准的最新水平。最后，我们的实验表明，下游性能随着预训练数据集的大小而很好地扩展。

TouchUp-G: Improving Feature Representation through Graph-Centric Finetuning
Authors Jing Zhu, Xiang Song, Vassilis N. Ioannidis, Danai Koutra, Christos Faloutsos
我们如何增强从预训练模型 PM 获取的节点特征，以更好地适应下游图学习任务图神经网络 GNN 已成为许多高影响力的现实世界图应用程序的最先进方法。对于特征丰富的图，普遍的做法是直接利用 PM 来生成特征，而不结合任何域适应技术。然而，这种做法并不是最优的，因为从 PM 中提取的节点特征与图无关，并且阻止 GNN 充分利用图结构和节点特征之间的潜在相关性，从而导致 GNN 性能下降。在这项工作中，我们寻求改进从 PM 获得的用于下游图任务的节点特征，并引入 TOUCHUP G，它有几个优点。它一般适用于任何下游图形任务，包括推荐系统中经常采用的链接预测 b 多模态能够改进任何模态的原始特征，例如原则上它与一个新的度量特征同质性密切相关，我们建议量化图结构和节点特征之间的潜在相关性，并且我们表明 TOUCHUP G 可以有效缩小图结构和节点特征之间的差异

VoiceLDM: Text-to-Speech with Environmental Context
Authors Yeonghyeon Lee, Inmo Yeon, Juhan Nam, Joon Son Chung
本文提出了 VoiceLDM，这是一种旨在生成音频的模型，它可以准确地遵循两种不同的自然语言文本提示：描述提示和内容提示。前者提供有关音频整体环境背景的信息，而后者则传达语言内容。为了实现这一目标，我们采用基于潜在扩散模型的文本到音频 TTA 模型，并扩展其功能以纳入额外的内容提示作为条件输入。通过利用预训练的对比语言音频预训练 CLAP 和 Whisper，VoiceLDM 可以在大量现实世界音频上进行训练，而无需手动注释或转录。此外，我们采用双分类器自由引导来进一步增强 VoiceLDM 的可控性。实验结果表明，VoiceLDM 能够生成与两种输入条件均吻合的可信音频，甚至超过了 AudioCaps 测试集上真实音频的语音清晰度。此外，我们还探索了 VoiceLDM 的文本转语音 TTS 和零镜头文本转音频功能，并表明它取得了有竞争力的结果。

EvalLM: Interactive Evaluation of Large Language Model Prompts on User-Defined Criteria
Authors Tae Soo Kim, Yoonjoo Lee, Jamin Shin, Young Ho Kim, Juho Kim
通过简单地编写提示，开发人员可以使用大型语言模型法学硕士构建新颖的生成应用程序原型。然而，为了将原型细化为产品，开发人员必须通过评估输出来诊断弱点来迭代修改提示。形成性访谈 N 8 显示，开发人员在评估特定上下文和主观标准时，在手动评估输出方面投入了大量精力。我们提出了 EvalLM，这是一个交互式系统，用于通过根据用户定义的标准评估多个输出来迭代地完善提示。通过用自然语言描述标准，用户可以使用系统基于 LLM 的评估器来概述提示的优点或失败之处，并根据评估器的反馈进行改进。一项比较研究 N 12 表明，与手动评估相比，EvalLM 帮助参与者制定更多样化的标准，检查两倍的输出，并以减少 59 次修改的方式达到满意的提示。

The Study of Perceptual Training of Chinese Mandarin Tones for Monolingual Speakers of English Using Adaptive Computer Based Training Software
Authors Yuke Wang

D-Separation for Causal Self-Explanation
Authors Wei Liu, Jun Wang, Haozhao Wang, Ruixuan Li, Zhiying Deng, YuanKai Zhang, Yang Qiu
合理化是 NLP 模型的一个自我解释框架。传统工作通常使用最大互信息 MMI 标准来查找最能指示目标标签的基本原理。然而，该标准可能会受到与因果原理或目标标签相关的虚假特征的影响。我们没有试图纠正 MMI 标准的问题，而是提出了一种新的标准来揭示因果原理，称为最小条件依赖 MCD 标准，该标准基于我们的发现，即非因果特征和目标标签是分开的由因果原理。通过最小化输入的未选择部分与以所选候选理由为条件的目标标签之间的依赖性，必须选择标签的所有原因。在本研究中，我们采用了一种简单实用的依赖性测量方法，特别是 KL 散度，来验证我们提出的 MCD 标准。根据经验，我们证明，与之前最先进的基于 MMI 的方法相比，MCD 将 F1 分数提高了 13.7。

Natural Language Processing for Requirements Formalization: How to Derive New Approaches?
Authors Viju Sudhi, Libin Kutty, Robin Gr pler
尽可能自动化软件开发和测试过程是工业界和研究界长期以来的愿望。在此过程中，需求工程 RE 在其基础上的所有其他步骤中发挥着基础作用。基于模型的设计和测试方法已经被开发出来，以应对软件系统日益增长的复杂性和可变性。然而，根据以自然语言提供的大量功能需求来创建规范模型仍然需要付出巨大的努力。文献中已经提出了许多基于自然语言处理 NLP 的方法，主要使用句法属性来生成需求模型。 NLP 的最新进展表明，语义量也可以被识别并用于在需求形式化过程中提供更好的帮助。在这项工作中，我们提出并讨论了 NLP 领域的主要思想和最先进的方法，以指导读者如何根据其特定用例创建一套半自动化需求形式化的规则和方法和需求。我们详细讨论了两种不同的方法，并强调了规则集的迭代开发。需求模型以伪代码的形式以人类和机器可读的格式表示。所提出的方法在汽车和铁路领域的两个工业用例中进行了演示。它表明，使用当前预先训练的 NLP 模型需要更少的精力来创建一组规则，并且可以轻松适应特定的用例和领域。

Towards Lexical Analysis of Dog Vocalizations via Online Videos
Authors Yufei Wang, Chunhao Zhang, Jieyi Huang, Mengyue Wu, Kenny Zhu
破译动物语言的语义一直是一个巨大的挑战。这项研究通过将不同的声音类型与一致的语义相关联，对狗发声的语义进行了数据驱动的调查。我们首先提出一个新的柴犬声音数据集，以及位置和活动等上下文信息，这些信息是通过精心构建的管道从 YouTube 收集的。该框架也适用于其他动物物种。基于对狗发声与相应位置和活动之间的条件概率的分析，我们发现了先前对各种狗声音语义的启发式研究的支持证据。例如，咆哮可以表示互动。此外，我们的研究得出了新的见解，即现有的单词类型可以细分为更细粒度的子类型，并且柴犬的最小语义单位与单词相关。

SCREWS: A Modular Framework for Reasoning with Revisions
Authors Kumar Shridhar, Harsh Jhamtani, Hao Fang, Benjamin Van Durme, Jason Eisner, Patrick Xia
大型语言模型法学硕士可以根据反馈迭代地完善和修改其输出，从而提高其在各种任务上的准确性。我们观察到这些修订可能会引入错误，在这种情况下最好回滚到以前的结果。此外，修订通常是同质的，它们使用产生初始答案的相同推理方法，这可能无法纠正错误。为了实现这一领域的探索，我们提出了 SCREWS，这是一个用于推理和修订的模块化框架。它由三个主要模块组成：采样、条件重采样和选择，每个模块都包含可以根据任务手动选择的子模块。我们证明 SCREWS 不仅将以前的几种方法统一在一个通用框架下，而且还揭示了几种用于识别改进推理链的新颖策略。我们使用最先进的 LLM ChatGPT 和 GPT 4 在一组不同的推理任务上评估我们的框架，并为每个算术单词问题、多跳问答和代码调试发现有用的新推理策略。

Using Large Language Models to Generate, Validate, and Apply User Intent Taxonomies
Authors Chirag Shah, Ryen W. White, Reid Andersen, Georg Buscher, Scott Counts, Sarkar Snigdha Sarathi Das, Ali Montazer, Sathish Manivannan, Jennifer Neville, Xiaochuan Ni, Nagu Rangan, Tara Safavi, Siddharth Suri, Mengting Wan, Leijie Wang, Longqi Yang
日志数据可以揭示有关用户如何与网络搜索服务交互、他们想要什么以及他们的满意度的有价值的信息。然而，分析日志数据中的用户意图并不容易，特别是对于人工智能驱动的聊天等新形式的网络搜索。为了从日志数据中了解用户意图，我们需要一种方法来用有意义的类别来标记它们，以捕获它们的多样性和动态。现有方法依赖于手动或基于机器学习的标记，对于大型且不断变化的数据集来说，这些标记要么成本昂贵，要么不灵活。我们提出了一种使用大型语言模型 LLM 的新颖解决方案，它可以为用户意图生成丰富且相关的概念、描述和示例。然而，使用 LLM 生成用户意图分类法并将其应用于日志分析可能会出现问题，原因有两个，例如分类法未经外部验证，并且可能存在不良的反馈循环。为了克服这些问题，我们与人类专家和评估员一起提出了一种新的方法来验证法学硕士生成的分类法的质量。我们还提出了一个端到端管道，该管道使用法学硕士和人在循环中来生成、细化和使用标签来进行日志数据中的用户意图分析。我们的方法提供了一种可扩展且适应性强的方法，以最少的人力来分析网络规模日志数据中的用户意图。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

你可能感兴趣的:(NLP,Papers,LLM,人工智能,自然语言处理,大语言模型,LLM,文本生成,文本摘要)

OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
《策划经理回忆录之二》路基雅虎
话说三年变六年，飘了，飘了……眨眼，2013年5月，老吴回到了他的家乡——油城从新开启他的工作幻想症生涯。很庆幸，这是一家很有追求，同时敢于尝试的，且实力不容低调的新星房企——金源置业(前身泰源置业)更值得庆幸的是第一个盘就是油城十路的标杆之一:金源盛世。2013年5月，到2015年11月，两年的陪伴，迎来了一场大爆发。2000个筹，5万/筹，直接回笼1个亿！！！这……让我开始认真审视这座看似五线
2021-08-26 影幽
在生活中，女人与男人的感悟往往有所不同。人生最大的舞台就是生活，大幕随时都可能拉开，关键是你愿不愿意表演都无法躲避。在生活中，遇事不要急躁，不要急于下结论，尤其生气时不要做决断，要学会换位思考，大事化小小事化了，把复杂的事情尽量简单处理，千万不要把简单的事情复杂化。永远不要扭曲，别人善意，无药可救。昨天是张过期的支票，明天是张信用卡，只有今天才是现金，要善加利用！执着的攀登者不必去与别人比较自己的
三大师传 beca酱
巴尔扎克的作品被誉为“法国社会的一面镜子”。文学大师维克多·雨果对巴尔扎克的评价是：“在最伟大的人物中间，巴尔扎克是名列前茅者；在最优秀的人物中间，巴尔扎克是佼佼者之一。”一个原本寂寂无名的小人物，从地中海的某个海岛上，只身一人来到巴黎，没有朋友，也没有名望。作为一个一文不名的外乡人，凭着赤手空拳赢得了巴黎，征服了整个法兰西，并且赢得了世界。这个人就是十九世纪法国伟大的军事家、政治家，法兰西第一帝
我的烦恼余建梅
我的烦恼。女儿问我：“你给学生布置什么作文题目？”“《我的烦恼》。”“他们都这么大了，你觉得他们还有烦恼吗？”“有啊！每个人都会有自己烦恼。”“我不相信，大人是没有烦恼的，如果说一定有的话，你的烦恼和我写作业有关，而且是小烦恼。不像我，天天被你说，有这样的妈妈，烦恼是没完没了。”女儿愤愤不平。每个人都会有自己的烦恼，处在上有老下有小的年纪，烦恼多的数不完。想干好工作带好孩子，想孝顺父母又想经营好自
《大清方方案》| 第二话谁佐清欢
和珅究竟说了些什么？竟能令堂堂九五之尊龙颜失色！此处暂且按下不表；单说这位乾隆皇帝，果真不愧是康熙从小带过的，一旦决定了要做的事，便杀伐决断毫不含糊。他当即亲自拟旨，着令和珅为钦差大臣，全权负责处理方方事件，并钦赐尚方宝剑，遇急则三品以下官员可先斩后奏。和珅身负皇上重托，岂敢有半点怠慢，当夜即率领相关人等，马不停蹄杀奔江汉。这一路上，和珅的几位幕僚一直在商讨方方事件的处置方案。有位年轻幕僚建议快刀
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
每日一题——第八十四题互联网打工人no1 C语言程序设计每日一练 c语言
题目：编写函数1、输入10个职工的姓名和职工号2、按照职工由大到小顺序排列，姓名顺序也随之调整3、要求输入一个职工号，用折半查找法找出该职工的姓名#define_CRT_SECURE_NO_WARNINGS#include#include#defineMAX_EMPLOYEES10typedefstruct{intid;charname[50];}Empolyee;voidinputEmploye
谁家酒器最绝唱，藏在酒厂人未知？景阳冈酒厂先秦藏品大揭秘李虓酒评论
文/王赛时中国的酒器酒具历史久远，举世闻名。从北京的故宫博物院、中国国家博物馆，到世界各国的大型博物馆，都以能够收藏中国古代酒具而夸耀。但很少有人知道，在山东阳谷景阳冈酒厂，默默地收藏了两千件中国酒器。这些酒器，就封藏在景阳冈的酒道馆里。其中有一些青铜酒器，一睡就是三、四千年，堪称无声国宝，堪作无字史书！今天，我将引领诸位首先窥视一下景阳冈酒道馆的9件先秦藏品，你自己来说震撼不震撼。提示：这只是景
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
如果做到轻松在股市赚钱？只要坚持这三个原则。履霜之人
大A股里向来就有七亏二平一赚的说法，能赚钱的都是少数人。否则股市就成了慈善机构，人人都有钱赚，谁还要上班？所以说亏钱是正常的，或者说是应该的。那么那些赚钱的人又是如何做到的呢？普通人能不能找到捷径去分一杯羹呢？方法是有的，但要做到需要你有极高的自律。第一，控制仓位，散户最大的问题是追涨杀跌，只要涨起来，就把钱往股票上砸，然后被套，隔天跌的受不了，又一刀切，全部割肉。来来回回间，遍体鳞伤。所以散户首
特殊的拜年飘雪的天堂
文/雪儿大年初一，家家户户没有了轰响的鞭炮声，大街上没有了人流涌动的喧闹，几乎看不到人影，变得冷冷清清。天刚亮不大会儿，村里的大喇叭响了起来：由于当前正值疾病高发期，流感流行的高峰期。同时，新型冠状病毒感染的肺炎进入第二波流行的上升期。为了自己和他人的健康安全着想，请大家尽量不要串门拜年，不要在街里走动。可以通过手机微信，视频，电话，信息拜年……今年的春节真是特别。禁止燃放鞭炮，烟花爆竹，禁止出村
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
2019-08-08 65454
东莞家庭聚会出行旅游去哪里玩住？想起来有很久没有和家里人聚会啦，这次组织家人来到威廉古堡别墅轰趴，一大家子27个人，在别墅订了一天办，玩的非常的开心，小孩子玩游戏机，也很放心不会丢，我们就在唱歌、打麻将、打桌球一系列的活动，还准备小次等小孩生日在别墅举办，还可以给孩子做一个生日的策划
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
大伟说成语之唉声叹气求索大伟
＊大伟说成语＊【唉声叹气】叹气：因心里不痛快或不如意而吐出长气，发出声音。因为痛苦、憋闷或感伤而发出叹息的声音。【大伟说】情绪外露，非人类所特有，动物亦有情绪，悲哀和欢乐所表示的情绪亦是不一样的，会嗷嗷大叫也会低吟痛哭。不同的是，人类的情绪更复杂，更多样，更丰富。唉声叹气，可以说是最基础的情绪，因为无奈而举足无措，不知该如何如何化解，只有独自一人慢慢承受，长吁短叹不知如何是好，其实是无能无力的表现
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
【华为OD技术面试真题 - 技术面】-测试八股文真题题库（1）算法大师华为od 面试 python 算法前端
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.黑盒测试和白盒测试的区别2.假设我们公司现在开发一个类似于微信的软件1.0版本，现在要你测试这个功能：打开聊天窗口，输入文本，限制字数在200字以内。问你怎么提取测试点。功能测试性能测试安全性测试可用性测试跨平台兼容性测试网络环境测试3.接口测试的工具你了解哪些
2018-12-29 枫叶红时总多离别
2018年12月29日星期六昨天老师就告诉我们，今天下午不用上课，是图书漂流活动会。我觉得很兴奋，好期待。到了下午，我帮好忙就到外面去买书，刚一出去，就有一大帮的大哥哥、大姐姐围着我问要不要买书，买一本书送一颗糖。我看到了一本《小老虎比上树》的书，问大姐姐多少钱，大姐姐说这本书原价13块，现在便宜4块钱也就是9块钱卖给你，我就把一张10块钱给她找，她找了我一块钱。我现在想想我今天只带了10块钱，现
【华为OD技术面试真题精选 - 非技术题】 -HR面，综合面_华为od hr面一个射手座的程序媛程序员华为od 面试职场和发展
最后的话最近很多小伙伴找我要Linux学习资料，于是我翻箱倒柜，整理了一些优质资源，涵盖视频、电子书、PPT等共享给大家！资料预览给大家整理的视频资料：给大家整理的电子书资料：如果本文对你有帮助，欢迎点赞、收藏、转发给朋友，让我有持续创作的动力！网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以点击这里获
《大兴安岭猎人传说》今年最好看的东北鬼怪故事，很优秀一部电影
《大兴安岭猎人传说》是最新上映于愚人节的网剧，别看是网剧却远超出我的个人预料。该片由民俗故事改编，这点就很吸引人，因为民俗故事口口相传，比那些编造而成的鬼故事更具有了真实性，网大做的电影还不错哦，如果可以我打四星好评。大兴安岭的故事我们经常听老人提起，那里有原始大森林，物产丰富，更流传着精灵怪物的传说。什么红黄白柳灰，出马仙、人参娃娃的故事层出不穷，以大兴安岭为背景的故事真不少。可很多鬼片看到最后
日常演播练习0822 开阳春天
日常演播练习0822一、绕口令练习司小四和史小世，四月十四日十四时四十上集市，司小四买了四十四斤四两西红柿，史小世买了十四斤四两细蚕丝。司小四要拿四十四斤四两西红柿换史小世十四斤四两细蚕丝。史小世十四斤四两细蚕丝不换司小四四十四斤四两西红柿。司小四说我四十四斤四两西红柿可以增加营养防近视，史小世说我十四斤四两细蚕丝可以织绸织缎又抽丝。二、文本练习狗熊是动物街有名的美食家，它吃得多所以长得胖，它能吃
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多

【AI视野·今日NLP 自然语言处理论文速览 第四十一期】Tue, 26 Sep 2023

Daily Computation and Language Papers

你可能感兴趣的:(NLP,Papers,LLM,人工智能,自然语言处理,大语言模型,LLM,文本生成,文本摘要)

【AI视野·今日NLP 自然语言处理论文速览第四十一期】Tue, 26 Sep 2023