hitrjj

【AI视野·今日NLP 自然语言处理论文速览第七十四期】Wed, 10 Jan 2024

AI视野·今日CS.NLP 自然语言处理论文速览
Wed, 10 Jan 2024
Totally 38 papers
上期速览✈更多精彩请移步主页

Daily Computation and Language Papers

Model Editing Can Hurt General Abilities of Large Language Models
Authors Jia Chen Gu, Hao Xiang Xu, Jun Yu Ma, Pan Lu, Zhen Hua Ling, Kai Wei Chang, Nanyun Peng
大型语言模型的最新进展 LLM 开辟了访问存储在其参数中的知识的新范式。出现的一项关键挑战是，由于错误或过时的知识，法学硕士输出中存在幻觉。由于使用更新信息对法学硕士进行再培训需要大量资源，因此人们对模型编辑的兴趣日益浓厚。然而，许多模型编辑方法虽然在各种场景下都有效，但往往过分强调编辑性能的有效性、泛化性和局部性等方面，往往忽视了对法学硕士一般能力的潜在副作用。在本文中，我们担心模型真实性的提高可能会以这些通用能力的显着下降为代价，这不利于法学硕士的可持续发展。我们通过评估跨八个代表性任务类别的两个法学硕士的四种流行编辑方法来系统地分析副作用。广泛的实证研究表明，模型编辑确实提高了模型的真实性，但代价是严重损害了一般能力。

Narrowing the Knowledge Evaluation Gap: Open-Domain Question Answering with Multi-Granularity Answers
Authors Gal Yona, Roee Aharoni, Mor Geva
事实问题通常可以在不同的粒度级别上得到正确回答。例如，August 4, 1961 和 1961 都是问题 Barack Obama 出生时间的正确答案。然而，标准问答 QA 评估协议没有明确考虑这一点，也没有将预测答案与单一粒度级别的答案进行比较。在这项工作中，我们提出了 GRANOLA QA，这是一种新颖的评估设置，其中根据一组多粒度答案的准确性和信息量来评估预测答案。我们提出了一种简单的方法，用于通过多粒度答案丰富现有数据集，并创建 GRANOLA EQ，这是 EntityQuestions 数据集的多粒度版本。我们评估了 GRANOLA EQ 上的一系列解码方法，包括一种称为 Decoding with Response Aggregation DRAG 的新算法，该算法旨在使响应粒度与模型的不确定性保持一致。我们的实验表明，具有标准解码的大型语言模型往往会生成特定的答案，而这些答案通常是不正确的。相比之下，当对多粒度答案进行评估时，DRAG 的准确率平均提高了近 20 个百分点，对于稀有实体而言，这一点进一步提高。

RoSA: Accurate Parameter-Efficient Fine-Tuning via Robust Adaptation
Authors Mahdi Nikdan, Soroush Tabesh, Dan Alistarh
我们研究了参数高效的微调 PEFT 方法，这些方法可以在大型语言模型 LLM 的背景下在有限的计算和内存预算下提供良好的准确性。我们提出了一种名为“鲁棒自适应 RoSA”的新 PEFT 方法，其灵感来自鲁棒主成分分析 PCA，该方法在一组固定的预训练权重之上联合训练 textit 低秩和 textit 高度稀疏组件，以有效地近似完整微调 FFT 解决方案的性能。在一系列具有挑战性的生成任务中，例如小学数学和 SQL 查询生成，这些任务需要微调才能获得良好的性能，我们表明，在相同的参数预算下，RoSA 的性能优于 LoRA 和纯稀疏微调。我们为 RoSA 提供系统支持，以补充训练算法，特别是以稀疏 GPU 内核的形式，支持内存和计算高效的训练。

Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence Lengths in Large Language Models
Authors Zhen Qin, Weigao Sun, Dong Li, Xuyang Shen, Weixuan Sun, Yiran Zhong
线性注意力是一种有效的注意力机制，最近已成为传统 softmax 注意力的有前途的替代方案。凭借其以线性计算复杂度处理令牌的能力，线性注意力理论上可以在不牺牲速度的情况下处理无限长度的序列，即以固定的内存消耗保持各种序列长度的恒定训练速度。然而，由于累积求和 cumsum 的问题，当前的线性注意力算法无法在因果设置中展示其理论优势。在本文中，我们提出了 Lightning Attention 2，这是第一个线性注意力实现，使线性注意力能够实现其理论计算优势。为了实现这一点，我们利用平铺的思想，分别处理线性注意力计算中的块内和块间组件。具体来说，我们对帧内块使用传统的注意力计算机制，并对帧间块应用线性注意力内核技巧。通过前向和后向过程采用平铺技术，以充分利用 GPU 硬件。我们在 Triton 中实现我们的算法，使其具有 IO 感知能力和硬件友好性。对不同的模型大小和序列长度进行了各种实验。无论输入序列长度如何，Lightning Attention 2 都能保持一致的训练和推理速度，并且比其他注意力机制要快得多。

Agent Alignment in Evolving Social Norms
Authors Shimin Li, Tianxiang Sun, Xipeng Qiu
基于大语言模型的代理法学硕士越来越多地渗透到人类生产和生活的各个领域，凸显了将其与人类价值观保持一致的重要性。目前人工智能系统的调整主要集中在通过人为干预被动调整法学硕士。然而，智能体具有接收环境反馈和自我进化等特征，使得LLM对齐方法存在不足。为此，我们提出了一种智能体进化和对齐的进化框架，名为EvolutionaryAgent，它将智能体对齐转化为适者生存原则下的进化和选择过程。在社会规范不断发展的环境中，更好地适应当前社会规范的主体将有更高的生存和扩散概率，而那些不充分协调的主体会随着时间的推移而减少。从多个角度评估智能体是否符合社会规范的实验结果表明，EvolutionaryAgent 具有逐步更好地适应不断变化的社会规范的能力，同时保持其对一般任务的熟练程度。

Language Detection for Transliterated Content
Authors Selva Kumar S, Afifah Khan Mohammed Ajmal Khan, Chirag Manjeshwar, Imadh Ajaz Banday
在当代数字时代，互联网发挥着无与伦比的催化剂作用，消除了短信中尤其明显的地理和语言障碍。这种演变促进了全球交流，超越物理距离并促进动态的文化交流。一个显着的趋势是音译的广泛使用，即使用英文字母来传达母语信息，这对准确检测源语言的语言技术提出了独特的挑战。本文通过使用 BERT 进行语言分类和使用 Google Translate API 进行音译转换的印地语和俄语电话短信音译成英语的数据集来解决这一挑战。该研究开创了识别和转换音译文本的创新方法，应对数字通信多样化语言环境中的挑战。我们的模型强调了综合数据集对于训练 BERT 等大型语言模型法学硕士的关键作用，展示了在从音译文本中准确识别和分类语言方面的卓越能力。我们的模型的验证准确度为 99，稳健的性能凸显了其可靠性。在创新方法和 BERT 等尖端技术的支持下，对音译动态的全面探索使我们的研究处于解决数字通信语言领域独特挑战的前沿。

An Assessment on Comprehending Mental Health through Large Language Models
Authors Mihael Arcan, Paul David Niland, Fionn Delahunty
心理健康挑战给个人和社区带来了相当大的全球负担。最近的数据表明，超过 20 名成年人可能在一生中至少遇到一种精神障碍。一方面，大语言模型的进步促进了多样化的应用，但在理解和增强大语言模型在心理健康领域的潜力方面仍然存在巨大的研究差距。另一方面，在各种应用中，一个突出的问题涉及大型语言模型理解自然语言中人类心理健康状况表达的能力。本研究对大型语言模型在解决这一差距方面进行了初步评估。因此，我们将 Llama 2 和 ChatGPT 的性能与经典机器以及深度学习模型进行了比较。

Evaluating Language Model Agency through Negotiations
Authors Tim R. Davidson, Veniamin Veselovsky, Martin Josifoski, Maxime Peyrard, Antoine Bosselut, Michal Kosinski, Robert West
公司、组织和政府越来越多地利用语言模型 LM 的卓越功能来显示类似代理的行为。随着语言模型被用来执行自主性不断增强的任务，迫切需要可靠且可扩展的评估基准。当前主要是静态的 LM 基准测试不适合评估此类动态应用程序。因此，我们建议通过谈判博弈的视角共同评估 LM 的性能和一致性。我们认为，这项常见任务更好地反映了现实世界的部署条件，同时提供了对 LM 决策过程的见解。至关重要的是，谈判游戏使我们能够研究多轮、跨模型交互、调节复杂性并避免评估中的意外数据泄漏。我们报告了来自几个主要提供商的六个可公开访问的语言模型在各种谈判游戏中的结果，评估了自我对弈和交叉对弈的表现。

MERA: A Comprehensive LLM Evaluation in Russian
Authors Alena Fenogenova, Artem Chervyakov, Nikita Martynov, Anastasia Kozlova, Maria Tikhonova, Albina Akhmetgareeva, Anton Emelyanov, Denis Shevelev, Pavel Lebedev, Leonid Sinev, Ulyana Isaeva, Katerina Kolomeytseva, Daniil Moskovskiy, Elizaveta Goncharova, Nikita Savushkin, Polina Mikhailova, Denis Dimitrov, Alexander Panchenko, Sergei Markov
在过去的几年里，人工智能研究最显着的进步之一是基础模型 FM，其中以语言模型 LM 的兴起为首。随着模型规模的增加，LM 表现出可测量方面的增强以及新定性特征的开发。然而，尽管研究人员关注并且 LM 应用快速增长，但仍需要更好地了解其功能、局限性和相关风险。为了解决这些问题，我们引入了开放的俄语架构多模态评估 MERA，这是一个用于评估面向俄语的基础模型的新指令基准。该基准包含 11 个技能领域的生成模型的 21 项评估任务，并被设计为黑盒测试，以确保排除数据泄漏。本文介绍了一种在零次和少次固定指令设置中评估 FM 和 LM 的方法，该方法可以扩展到其他模式。我们提出了一种评估方法、一个用于 MERA 评估的开源代码库以及一个带有提交系统的排行榜。我们将开放语言模型作为基准进行评估，发现它们仍然远远落后于人类水平。

LUNA: A Framework for Language Understanding and Naturalness Assessment
Authors Marat Saidov, Aleksandra Bakalova, Ekaterina Taktasheva, Vladislav Mikhailov, Ekaterina Artemova
自然语言生成 NLG 模型的评估受到越来越多的关注，敦促开发评估生成文本各个方面的指标。 LUNA 通过引入 20 个 NLG 评估指标的统一界面来应对这一挑战。

The Critique of Critique
Authors Shichao Sun, Junlong Li, Weizhe Yuan, Ruifeng Yuan, Wenjie Li, Pengfei Liu
Critique 作为一种用于评估模型生成内容质量的自然语言描述，已被证明在大型语言模型法学硕士的培训、评估和细化中发挥着重要作用。然而，对于评价批评本身的质量却缺乏原则性的认识。在本文中，我们开创了批评的批评，称为元批评，它是一个从两个方面评估批评的框架，即作为精确分数的事实性和作为回忆分数的综合性。我们计算精确率和召回率的调和平均值作为总体评分，称为 F1 分数。为了获得可靠的评估结果，我们提出了原子信息单元 AIU，它以更细粒度的方式描述批评。 MetaCritique 会考虑每个 AIU，并汇总每个 AIU 的判断以获得总分。此外，鉴于评估过程涉及复杂的推理，我们的 MetaCritique 提供了自然语言的基本原理来支持每个判断。我们构建了一个包含 300 个评论、2653 个 AIU 的元评估数据集，涉及问答、推理、蕴含和总结四个任务，并进行了比较研究以证明可行性和有效性。实验还表明，MetaCritique 判断的卓越批评会带来更好的改进，这表明生成人工智能确实有潜力通过我们的 MetaCritique 得到显着推进。

Exploring Prompt-Based Methods for Zero-Shot Hypernym Prediction with Large Language Models
Authors Mikhail Tikhomirov, Natalia Loukachevitch
本文研究了使用大型语言模型 LLM 进行上位词预测的零样本方法。该研究采用了一种基于文本概率计算的方法，并将其应用于各种生成的提示。实验表明，语言模型提示的有效性与经典模式之间存在很强的相关性，这表明可以使用较小的模型进行初步提示选择，然后再转向较大的模型。我们还通过自动识别的共下义词用附加信息来增强提示，从而探索预测共下义词的提示并改进上位词预测。

TechGPT-2.0: A large language model project to solve the task of knowledge graph construction
Authors Jiaqi Wang, Yuying Chang, Zhong Li, Ning An, Qi Ma, Lei Hei, Haibo Luo, Yifei Lu, Feiliang Ren
大型语言模型在不同的自然语言处理任务中表现出了强大的性能。本报告介绍了TechGPT 2.0，该项目旨在增强大型语言模型的能力，特别是在知识图谱构建任务中，包括NLP应用中的命名实体识别NER和关系三元组提取RTE任务。此外，它还作为法学硕士可供中国开源模型社区内的研究使用。我们提供两个7B大型语言模型权重和一个专门用于处理长文本的QLoRA权重。值得注意的是，TechGPT 2.0是在华为的Ascend服务器上训练的。它继承了TechGPT 1.0的所有功能，表现出强大的文本处理能力，特别是在医学和法律领域。此外，我们为该模型引入了新功能，使其能够处理地理区域、交通、组织、文学作品、生物学、自然科学、天文物体和建筑等各个领域的文本。这些增强功能还增强了模型处理幻觉、无法回答的查询和冗长文本的能力。本报告全面详细地介绍了华为Ascend服务器的完整微调过程，包括Ascend服务器调试、指令微调数据处理和模型训练的经验。

Continuously Learning New Words in Automatic Speech Recognition
Authors Christian Huber, Alexander Waibel
尽管最近取得了一些进展，但自动语音识别 ASR 系统仍远未达到完美。典型错误包括首字母缩略词、命名实体和领域特定的特殊词，这些词的可用数据很少或没有。为了解决识别这些单词的问题，我们提出了一种自我监督的持续学习方法。给定讲座演讲的音频和相应的幻灯片，我们倾向于使用之前工作中的记忆增强 ASR 模型来解码幻灯片中的新单词。然后，我们对谈话进行推理，将包含检测到的新单词的话语收集到适应数据集中。然后通过调整添加到模型的每个权重矩阵的低秩矩阵权重来对该集合执行持续学习。整个过程会在多次会谈中重复进行。

Fighting Fire with Fire: Adversarial Prompting to Generate a Misinformation Detection Dataset
Authors Shrey Satapara, Parth Mehta, Debasis Ganguly, Sandip Modha
最近，大型语言模型 LLM（例如 GPT、Bard、Llama 等）在语言生成能力方面取得的成功，可能会导致人们担心它们可能被滥用，通过生成假新闻和传播错误信息来引发大规模骚乱和社区仇恨。由于注释数据需要大量的手动工作，开发错误信息真实数据集的传统方法无法很好地扩展。在本文中，我们提出了一种基于法学硕士的方法，用于创建银标准地面实况数据集以识别错误信息。具体来说，给定一篇可信的新闻文章，我们提出的方法包括提示法学硕士自动生成原始文章的摘要版本。我们提出的方法中的提示充当控制机制，在生成的摘要中生成特定类型的事实不正确性，例如，错误的数量、错误的归因等。为了研究该数据集的有用性，我们进行了一组实验，在其中训练

TransportationGames: Benchmarking Transportation Knowledge of (Multimodal) Large Language Models
Authors Xue Zhang, Xiangyu Shi, Xinyue Lou, Rui Qi, Yufeng Chen, Jinan Xu, Wenjuan Han
大语言模型LLM和多模态大语言模型MLLM表现出了出色的通用能力，甚至在法律、经济、交通、医学等许多专业领域表现出了适应性。目前，已经提出了许多特定领域的基准来验证 M LLM 在特定领域的表现。在各个领域中，交通运输在现代社会中发挥着至关重要的作用，因为它影响着经济、环境和数十亿人的生活质量。然而，目前尚不清楚 M LLM 拥有多少交通知识以及他们是否能够可靠地执行交通相关任务。为了解决这一差距，我们提出了 TransportationGames，这是一个精心设计且全面的评估基准，用于评估交通领域的 M LLM。通过综合考虑现实场景中的应用，并参考Bloom分类法的前三个级别，我们通过选定的任务测试了各种M LLM在记忆、理解和应用交通知识方面的表现。实验结果表明，虽然一些模型在某些任务中表现良好，但总体上仍有很大的改进空间。

Estimating Text Similarity based on Semantic Concept Embeddings
Authors Tim vor der Br ck, Marc Pouly
由于其易用性和高精度，Word2Vec W2V 词嵌入在单词、句子和整个文档的语义表示以及语义相似度估计方面取得了巨大成功。然而，它们的缺点是它们是直接从表面表征中提取的，不能充分代表人类的思维过程，并且对于高度模糊的单词也表现不佳。因此，我们提出基于 MultiNet 语义网络 SN 形式的语义概念嵌入 CE，解决了这两个缺点。

Chain-of-Table: Evolving Tables in the Reasoning Chain for Table Understanding
Authors Zilong Wang, Hao Zhang, Chun Liang Li, Julian Martin Eisenschlos, Vincent Perot, Zifeng Wang, Lesly Miculicich, Yasuhisa Fujii, Jingbo Shang, Chen Yu Lee, Tomas Pfister
使用大型语言模型进行基于表的推理 LLM 是解决许多表理解任务（例如基于表的问答和事实验证）的一个有前途的方向。与通用推理相比，基于表格的推理需要从自由形式问题和半结构化表格数据中提取底层语义。 Chain of Thought 及其类似方法以文本上下文的形式整合了推理链，但如何在推理链中有效利用表格数据仍然是一个悬而未决的问题。我们提出了表链框架，其中表格数据在推理链中明确使用作为中间思想的代理。具体来说，我们指导法学硕士使用上下文学习来迭代生成操作并更新表格以表示表格推理链。因此，法学硕士可以根据之前操作的结果动态规划下一步操作。表格的这种不断演变形成了一条链，显示了给定表格问题的推理过程。该链承载中间结果的结构化信息，从而实现更准确、更可靠的预测。

Probabilistic emotion and sentiment modelling of patient-reported experiences
Authors Curtis Murray, Lewis Mitchell, Jonathan Tuke, Mark Mackay
这项研究引入了一种根据在线患者体验叙述来建模患者情绪的新颖方法。我们采用元数据网络主题模型来分析患者报告的护理意见经历，揭示与患者护理人员互动和临床结果相关的关键情感主题。我们开发了一个概率性、上下文特定的情感推荐系统，能够使用朴素贝叶斯分类器（使用上下文有意义的主题作为预测器）来预测多标签情感和二元情感。使用信息检索指标 nDCG 和 Q 度量来评估我们在该模型下预测情绪相对于基线模型的优越性能，我们预测的情绪达到了 0.921 的 F1 分数，显着优于标准情绪词典。该方法提供了一种透明且具有成本效益的方式来了解患者反馈，增强传统收集方法并为个性化患者护理提供信息。

Improving the Robustness of Knowledge-Grounded Dialogue via Contrastive Learning
Authors Jiaan Wang, Jianfeng Qu, Kexin Wang, Zhixu Li, Wen Hua, Ximing Li, An Liu
基于知识的对话 KGD 学习根据给定的对话上下文和外部知识 emph 例如生成信息丰富的响应。，知识图谱KG。最近，大型语言模型LLM和预训练技术的出现给基于知识的对话带来了巨大的成功。然而，在实际应用中构建KGD系统时，不可避免要面对各种现实世界的噪音。例如，对话上下文可能涉及诸如拼写错误和缩写之类的干扰。此外，知识图谱通常不完整，还可能包含错误和过时的事实。这种现实世界的噪声对 KGD 系统的鲁棒性提出了挑战，并阻碍了它们在现实世界中的应用。在本文中，我们提出了一种基于实体的对比学习框架来提高 KGD 的鲁棒性。具体来说，我们利用 KGD 样本中的实体信息来创建其正样本和负样本，分别涉及语义不相关和语义相关扰动。对比学习框架确保 KGD 模型了解这两种类型的扰动，从而利用实际应用中潜在的噪声输入生成信息丰富的响应。三个基准数据集的实验结果表明，我们的方法在自动评估分数方面实现了新的最先进性能，验证了其有效性和潜力。

LAMPAT: Low-Rank Adaption for Multilingual Paraphrasing Using Adversarial Training
Authors Khoi M.Le, Trinh Pham, Tho Quan, Anh Tuan Luu
释义是使用不同单词或句子结构传达相同含义的文本。它可以用作许多自然语言处理任务的自动数据增强工具，特别是在处理低资源语言时，数据短缺是一个严重的问题。为了在多语言环境中生成释义，之前的研究利用了机器翻译领域的知识，即通过相同语言的零样本机器翻译形成释义。尽管在人类评估方面表现良好，但这些方法仍然需要并行翻译数据集，因此不适用于没有并行语料库的语言。为了缓解这个问题，我们提出了第一个无监督多语言释义模型，LAMPAT textbf Lowrank textbf A daptation for textbf Multilingual textbf P araphrasing using textbf A dversarial textbf Training ，通过该模型单语数据集足以生成类似人类的文本多样的句子。在整个实验中，我们发现我们的方法不仅适用于英语，而且还可以推广到未见过的语言。

Know Your Needs Better: Towards Structured Understanding of Marketer Demands with Analogical Reasoning Augmented LLMs
Authors Junjie Wang, Dan Yang, Binbin Hu, Yue Shen, Ziqi Liu, Wen Zhang, Jinjie Gu, Zhiqiang Zhang
在本文中，我们探索了一种新的用户定位方式，非专业营销人员可以仅根据自然语言形式的需求来选择目标用户。这个问题的关键是如何将自然语言转化为实用的结构化逻辑语言，即对营销人员需求的结构化理解。考虑到大型语言模型LLM令人印象深刻的自然语言处理能力，我们尝试利用LLM来解决这个问题。以往的研究表明，通过思想链CoT提示可以有效增强法学硕士的推理能力。但现有的方法仍然存在一定的局限性 1 以往的方法要么使用简单的 Let s think step by step 拼写，要么在演示中提供固定示例，没有考虑提示和问题之间的兼容性，使得 LLM 在结构化语言转换等一些复杂的推理任务中效果不佳。 2 以往的方法往往是在闭源模型或过大的模型中实现，不适合工业实际场景。

MARG: Multi-Agent Review Generation for Scientific Papers
Authors Mike D Arcy, Tom Hope, Larry Birnbaum, Doug Downey
我们研究法学硕士为科学论文生成反馈的能力，并开发 MARG，这是一种使用多个参与内部讨论的法学硕士实例的反馈生成方法。通过在代理之间分发论文文本，MARG 可以使用超出基础 LLM 输入长度限制的论文全文，并且通过专门代理并合并针对不同评论类型实验、清晰度和影响量身定制的子任务，它提高了论文的有用性和特异性。反馈。在一项用户研究中，使用 GPT 4 的基线方法在超过一半的情况下被评为产生通用或非常通用的评论，并且在最佳基线中，每篇论文只有 1.7 条评论被评为总体良好。

High-precision Voice Search Query Correction via Retrievable Speech-text Embedings
Authors Christopher Li, Gary Wang, Kyle Kastner, Heng Su, Allen Chen, Andrew Rosenberg, Zhehuai Chen, Zelin Wu, Leonid Velikovich, Pat Rondon, Diamantino Caseiro, Petar Aleksic

Distortions in Judged Spatial Relations in Large Language Models: The Dawn of Natural Language Geographic Data?
Authors Nir Fulman, Abdulkadir Memduho lu, Alexander Zipf
我们提出了一个基准，用于评估大型语言模型法学硕士辨别地理位置之间的基间方向的能力，并将其应用于三个著名的法学硕士 GPT 3.5、GPT 4 和 Llama 2。该基准专门评估法学硕士是否表现出类似于人类对个体位置空间关系的判断受到包含它们的更大群体的感知关系的影响。为了调查这一点，我们针对美国知名城市制定了 14 个问题。设计了七个问题来挑战法学硕士，其场景可能受到较大地理单位（例如州或国家）方向的影响，而其余七个目标位置不太容易受到这种分层分类的影响。在测试的模型中，GPT 4 表现出优越的性能，准确率为 55.3，其次是 GPT 3.5，准确率为 47.3，Llama 2 为 44.7。这些模型显示，在疑似存在层级偏差的任务上，准确性显着降低。例如，GPT 4 在这些任务上的准确度下降至 32.9，而在其他任务上的准确度为 85.7。尽管存在这些不准确之处，但这些模型在大多数情况下都能识别出最近的基本方向，这表明联想学习体现了类似人类的误解。

Applying Large Language Models API to Issue Classification Problem
Authors Gabriel Aracena, Kyle Luster, Fabio Santos, Igor Steinmacher, Marco A. Gerosa
在软件工程中，问题报告的有效优先级对于优化资源分配和及时解决关键问题至关重要。然而，对问题报告进行手动分类以确定优先级非常费力并且缺乏可扩展性。或者，许多开源软件 OSS 项目采用自动化流程来完成此任务，尽管依赖大量数据集进行充分训练。这项研究旨在设计一种自动化方法，即使在较小的数据集上进行训练，也能确保问题优先级划分的可靠性。我们提出的方法利用了生成式预训练 Transformers GPT 的力量，认识到它们有效处理此任务的潜力。通过利用此类模型的功能，我们的目标是开发一个强大的系统，准确地对问题报告进行优先级排序，减少对大量培训数据的需求，同时保持可靠性。在我们的研究中，我们开发了一种可靠的基于 GPT 的方法，通过减少训练数据集来准确标记问题报告并确定问题报告的优先级。通过减少对海量数据需求的依赖并专注于少量微调，我们的方法为软件工程中的问题优先级排序提供了更易于访问和更有效的解决方案。

DebugBench: Evaluating Debugging Capability of Large Language Models
Authors Runchu Tian, Yining Ye, Yujia Qin, Xin Cong, Yankai Lin, Zhiyuan Liu, Maosong Sun
大型语言模型法学硕士展示了卓越的编码能力。然而，作为编程能力的另一个关键组成部分，法学硕士的调试能力仍然相对未被开发。以前对法学硕士调试能力的评估受到数据泄露风险、数据集规模和测试错误种类的严重限制。为了克服这些缺陷，我们引入了 DebugBench，这是一个由 4,253 个实例组成的 LLM 调试基准。它涵盖了 C、Java 和 Python 中的 4 个主要错误类别和 18 个次要类型。为了构建 DebugBench，我们从 LeetCode 社区收集代码片段，使用 GPT 4 将错误植入到源数据中，并确保严格的质量检查。我们在零样本场景中评估了两个商业模型和三个开源模型。我们发现 1 虽然像 GPT 4 这样的闭源模型与人类相比表现出较差的调试性能，但像 Code Llama 这样的开源模型却无法获得任何通过率分数 2 调试的复杂性根据错误类别的不同而显着波动 3 结合了运行时反馈对调试性能有明显影响，但这并不总是有帮助。作为扩展，我们还比较了 LLM 调试和代码生成，揭示了它们之间对于闭源模型的强相关性。

Rewriting the Code: A Simple Method for Large Language Model Augmented Code Search
Authors Haochen Li, Xin Zhou, Zhiqi Shen
在代码搜索中，生成增强检索 GAR 框架可生成示例代码片段来增强查询，它已成为解决代码片段和自然语言查询之间模态不一致的主要挑战的一种有前景的策略，特别是通过展示的代码生成功能大型语言模型法学硕士。然而，我们的初步调查表明，这种法学硕士增强框架所带来的改进在某种程度上受到限制。这种限制可能归因于这样一个事实：生成的代码尽管功能准确，但经常显示出与代码库中的真实代码明显的风格偏差。在本文中，我们扩展了基础 GAR 框架，并提出了一种简单而有效的方法，该方法另外重写代码库中的代码 ReCo 以实现样式规范化。实验结果表明，在不同的搜索场景中，ReCo 显着提高了稀疏高达 35.7、零样本密集高达 27.6 以及微调密集高达 23.6 检索设置的检索精度。为了进一步阐明 ReCo 的优势并促进代码风格规范化的研究，我们引入了代码风格相似度，这是第一个专门用于量化代码风格相似度的指标。

TwinBooster: Synergising Large Language Models with Barlow Twins and Gradient Boosting for Enhanced Molecular Property Prediction
Authors Maximilian G. Schuh, Davide Boldini, Stephan A. Sieber
药物发现和开发的成功依赖于对分子活性和特性的精确预测。虽然计算机分子特性预测显示出巨大的潜力，但迄今为止其用途仅限于可获得大量数据的分析。在这项研究中，我们使用微调的大型语言模型来整合基于文本信息的生物测定，并结合 Barlow Twins（一种使用新颖的自我监督学习方法的连体神经网络）。该架构使用测定信息和分子指纹来提取真实的分子信息。 TwinBooster 通过提供最先进的零样本学习任务，能够预测看不见的生物测定和分子的特性。值得注意的是，我们的人工智能管道在 FS Mol 基准测试中显示出出色的性能。这一突破展示了深度学习在数据通常稀缺的关键属性预测任务中的应用。

Private Fine-tuning of Large Language Models with Zeroth-order Optimization
Authors Xinyu Tang, Ashwinee Panda, Milad Nasr, Saeed Mahloujifar, Prateek Mittal
在私人数据集上微调大型预训练模型可能会面临侵犯隐私的风险。差异隐私是一种通过增强算法稳定性来减轻隐私风险的框架。 DP SGD 能够以保护隐私的方式使用私有数据训练模型，但也带来了性能损失和重大工程挑战等新障碍。我们引入 DP ZO，这是一种微调大型语言模型的新方法，通过私有化零阶优化来保护训练数据的隐私。我们方法设计的一个关键见解是，我们使用的零阶算法 SPSA 中的梯度方向始终是随机的，唯一依赖于私有数据的信息是步长，即标量。因此，我们只需要私有化标量步长，这样可以节省内存。 DP ZO 可以用拉普拉斯噪声或高斯噪声实例化，在保守的隐私预算下，在不同任务和模型大小之间提供强大的隐私效用权衡。

Vision Reimagined: AI-Powered Breakthroughs in WiFi Indoor Imaging
Authors Jianyang Shi, Bowen Zhang, Amartansh Dubey, Ross Murch, Liwen Jing
室内成像是机器人和物联网的一项关键任务。 WiFi 作为一种无所不在的信号，是执行被动成像并将最新信息同步到所有连接设备的有前途的候选者。这是第一个将 WiFi 室内成像视为多模态图像生成任务的研究工作，将测量的 WiFi 功率转换为高分辨率室内图像。我们提出的 WiFi GEN 网络的形状重建精度是基于物理模型的反演方法的 275 倍。此外，Frechet Inception Distance 分数显着降低了 82 。为了检查该任务模型的有效性，发布了第一个大规模数据集，其中包含 80,000 对 WiFi 信号和成像目标。我们的模型吸收了基于模型的方法的挑战，包括非线性、不适定性和不确定性到我们的生成人工智能网络的大量参数中。该网络还旨在最适合测量的 WiFi 信号和所需的成像输出。

FunnyNet-W: Multimodal Learning of Funny Moments in Videos in the Wild
Authors Zhi Song Liu, Robin Courant, Vicky Kalogeiton
自动理解有趣的时刻，即观看喜剧时让人发笑的时刻具有挑战性，因为它们与各种特征有关，例如肢体语言、对话和文化。在本文中，我们提出了FunnyNet W，这是一种依赖于视觉、音频和文本数据的交叉和自注意力来预测视频中有趣时刻的模型。与大多数依赖字幕形式的真实数据的方法不同，在这项工作中，我们利用视频自然产生的模式，视频帧因为它们包含场景理解所必需的视觉信息，b音频因为它包含与有趣相关的更高级别的线索诸如语调、音高和停顿之类的时刻以及使用语音转文本模型自动提取的 c 文本，因为它在由大型语言模型处理时可以提供丰富的信息。为了获取训练标签，我们提出了一种无监督的方法，可以发现并标记有趣的音频时刻。我们提供了五个数据集的实验：情景喜剧 TBBT、MHD、MUStARD、Friends 和 TED 演讲 URunny。大量的实验和分析表明，FunnyNet W 成功地利用视觉、听觉和文本线索来识别有趣的时刻，而我们的研究结果表明，FunnyNet W 具有预测野外有趣时刻的能力。

Large language models in bioinformatics: applications and perspectives
Authors Jiajia Liu, Mengyuan Yang, Yankai Yu, Haixia Xu, Kang Li, Xiaobo Zhou
大型语言模型LLM是一类基于深度学习的人工智能模型，在各种任务中都具有出色的性能，尤其是在自然语言处理NLP方面。大型语言模型通常由具有大量参数的人工神经网络组成，使用自监督或半监督学习对大量未标记的输入进行训练。然而，他们解决生物信息学问题的潜力甚至可能超过他们对人类语言建模的熟练程度。在这篇综述中，我们将总结自然语言处理中使用的著名大语言模型，例如BERT和GPT，并重点探索大语言模型在生物信息学中不同组学层面的应用，主要包括大语言的应用基因组学、转录组学、蛋白质组学、药物发现和单细胞分析中的模型。

Cross-Speaker Encoding Network for Multi-Talker Speech Recognition
Authors Jiawen Kang, Lingwei Meng, Mingyu Cui, Haohan Guo, Xixin Wu, Xunying Liu, Helen Meng
端到端多说话者语音识别作为直接转录多个说话者重叠语音的有效方法引起了人们的极大兴趣。当前的方法通常采用具有分支编码器的 1 个单输入多输出 SIMO 模型，或基于具有串行输出训练 SOT 的基于注意力的编码器解码器架构的 2 个单输入单输出 SISO 模型。在这项工作中，我们提出了一种跨说话人编码 CSE 网络，通过聚合跨说话人表示来解决 SIMO 模型的局限性。此外，CSE模型与SOT集成，以利用SIMO和SISO的优点，同时减轻它们的缺点。据我们所知，这项工作代表了集成 SIMO 和 SISO 以实现多说话者语音识别的早期努力。在两个说话人的 LibrispeechMix 数据集上进行的实验表明，CES 模型在 SIMO 基线的基础上将单词错误率 WER 降低了 8 个。

Chain of LoRA: Efficient Fine-tuning of Language Models via Residual Learning
Authors Wenhan Xia, Chengwei Qin, Elad Hazan
微调是针对特定任务定制预训练大型语言模型的主要方法。随着模型规模和任务多样性的扩大，参数高效的微调方法变得至关重要。使用最广泛的方法系列之一是低阶自适应 LoRA 及其变体。 LoRA 将权重更新编码为两个低秩矩阵的乘积。

Generation Z's Ability to Discriminate Between AI-generated and Human-Authored Text on Discord
Authors Dhruv Ramu, Rishab Jain, Aditya Jain
ChatGPT 等生成式人工智能 AI 聊天机器人的日益普及正在对社交媒体产生变革性影响。随着人工智能生成内容的普及，人们对在线隐私和错误信息产生了担忧。在社交媒体平台中，Discord 支持人工智能集成，使其主要的 Z 世代用户群特别容易接触到人工智能生成的内容。我们调查了 335 名 Z 世代老年人，以评估他们在 Discord 上区分人工智能生成的文本和人类创作的文本的能力。

Working with Trouble and Failures in Conversation between Humans and Robots (WTF 2023) & Is CUI Design Ready Yet?
Authors Frank F rster, Marta Romeo, Patrick Holthaus, Maria Jose Galvez Trigo, Joel E. Fischer, Birthe Nesset, Christian Dondrup, Christine Murad, Cosmin Munteanu, Benjamin R. Cowan, Leigh Clark, Martin Porcheron, Heloisa Candello, Raina Langevin

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

你可能感兴趣的:(LLM,NLP,Papers,自然语言处理,LLM,大语言模型)

驱动程序为什么要做 WHQL 认证? GDCA SSL证书网络协议网络
驱动程序进行WHQL（WindowsHardwareQualityLabs）认证的核心价值在于解决兼容性、安全性和市场准入三大关键问题，具体必要性如下：️‌一、规避系统拦截，保障驱动可用性‌消除安装警告‌未认证的驱动在安装时会触发Windows的‌红色安全警告‌（如“无法验证发布者”），甚至被系统强制拦截。通过WHQL认证的驱动获得微软数字签名，用户可无阻安装‌。满足系统强制要求‌Windows1
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
npm proxy setting kjndppl [Node.js JavaScript npm https proxy password
清理npmconfigdeletehttp-proxynpmconfigdeletehttps-proxy具体设置步骤如下：1.执行npmconfig后，将看到下一行提示信息npmconfigls-ltoshowalldefaults.2.执行npmconfigls-l后，在一大长串的settign中找出userconfig项(大概位于倒数第4项)[b]userconfig[/b]="C:\\Us
RocketMQ 核心特性实战详解愤怒的代码 RocketMQ实战 rocketmq
RocketMQ核心特性实战详解本文基于RocketMQ4.x+rocketmq-spring-boot-starter2.3.1，从零搭建，逐步讲解RocketMQ11大核心特性，每一段代码都能直接跑。0.项目环境准备依赖引入在pom.xml文件添加：org.apache.rocketmqrocketmq-spring-boot-starter2.3.1配置文件application.ymlse
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）基于历史对话重新生成Query？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain RAG
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Q
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）其他Query优化相关策略？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？一
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？ ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 机器学习算法深度学习人工智能
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？在大语言模型（LLM）中，最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息，这是由LLM的核心架构（以Transformer为基础）决定的，具体可以从以下角度理解：1.核心机制：自注意力（Self-Attention）的作用现代LLM（如GPT系列、Qwen等）均基于Transformer架构，其核心是自注意力机制。在
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
AI Agent开发学习系列 - langchain之Chains的使用(7)：用四种处理文档的预制链轻松实现文档对话 alex100 AI Agent 学习人工智能 langchain prompt 语言模型 python
在LangChain中，四种文档处理预制链（stuff、refine、mapreduce、mapre-rank）是实现文档问答、摘要等任务的常用高阶工具。它们的核心作用是：将长文档切分为块，分步处理，再整合结果，极大提升大模型处理长文档的能力。stuff直接拼接所有文档内容到prompt，一次性交给大模型处理。适合文档较短、token不超限的场景。refine递进式摘要。先对第一块文档生成初步答案
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 计算机视觉人工智能机器学习算法深度学习
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的有个假设：就是最后一个词语融合了前面词语的信息减法操作主要用于提取模型内部表征中的"诚实性"概念向量。具体来说，这是通过对比诚实和不诚实场景下的模型隐藏状态实现的。importtorchfromtransformersimportAutoModelForCausalLM,AutoTokenizer,AutoConfigimportnum
python相关内容二湫默 python 开发语言
1.技术面试题（1）详细描述单调栈的工作原理和应用场景答：工作原理：维护一个栈结构，栈中元素保持单调递增或单调递减的顺序。遍历数据时，新元素入栈前，弹出栈顶所有不满足单调关系的元素，再将新元素入栈，确保栈的单调性。应用场景：解决下一个元素更大的问题，如数组中后面一个元素比前面一个入栈的元素大，则需要上一个元素出栈，然后大的那个元素入栈。（2）详细描述单调队列的工作原理和应用场景答：工作原理：维护队
数据结构：导论梁辰兴数据结构学习笔记数据结构导论算法时间复杂度空间复杂度
目录一，数据结构的研究内容二，基本概念与术语（一）数据、数据元素、数据项与数据对象（二）数据结构（三）数据类型与抽象数据类型️三，抽象数据类型的表示与实现⚙️四，算法与算法分析⚖️（一）算法的定义及特性（二）评价算法优劣的基本标准⏱️（三）算法的时间复杂度（四）算法的空间复杂度章结一，数据结构的研究内容数据结构是计算机科学的核心基础，其研究内容可概括为三大维度：数据组织形式：探索如何将现实世界中的
android去除gps漂移代码,GPS漂移过滤算法扇贝君
GPS漂移过滤算法基本思想：逐点过滤，再经过基础过滤后，进行判断运动状态，静止状态和运动中。如果静止，则使用电子围栏；如果运动，则先过滤大速度，再过滤加速度，然后过滤距离(包括超大距离，和速度相关距离)。对于要过滤的点，采用之前最近的可靠点，进行替换，同时，无效次数+1，如果后面是有效点，则无效次数-1，如果无效次数归0，认为这个点才是真正可靠点(无效次数为正时，都为要被替换的点)。如果遇到不定点
不同行业的 AI 数据安全与合规实践：7 大核心要点全解析观熵人工智能 DeepSeek 私有化部署
不同行业的AI数据安全与合规实践：7大核心要点全解析关键词AI数据安全、行业合规、私有化部署、数据分类分级、国产大模型、隐私保护、DeepSeek部署摘要随着国产大模型在金融、医疗、政务、教育等关键领域的深入部署，AI系统对数据安全与行业合规提出了更高要求。本文结合DeepSeek私有化部署实战，系统梳理当前各行业主流的数据安全合规标准与落地策略，从数据分类分级、访问控制、审计追踪到敏感信息识别与
【Android】安卓四大组件之广播接收器（Broadcast Receiver）：从基础到进阶 m0_59734531 Android android java Boradcast 安卓四大组件
在Android开发中，广播接收器（BroadcastReceiver）是一个非常重要的组件，它能帮助应用接收来自系统或其他应用的事件通知，实现跨组件、跨应用的通信。大家可以把广播接收器想象成一个“收音机”。它的作用是监听系统或应用发出的“广播消息”，并在收到消息后执行相应的操作。（一）基础概念BroadcastReceiver用于监听系统或应用发出的广播事件，实现跨组件通信。其特点是发送方无需关
上位机知识篇---文件系统 Atticus-Orion 上位机知识篇文件系统 windows linux FAT NTFS ext4 ZFS
文章目录前言1.FAT（FileAllocationTable）版本FAT12FAT16FAT32优势兼容性好简单轻量适合小文件存储劣势不支持大文件性能较差缺乏高级功能使用场景2.NTFS（NewTechnologyFileSystem）优势支持大文件和大分区高性能日记功能权限控制劣势兼容性差不适合嵌入式设备使用场景3.exFAT（ExtendedFileAllocationTable）优势支持大
【Android】安卓四大组件之内容提供者（ContentProvider）：从基础到进阶 m0_59734531 Android android Java ContentProvider 安卓四大组件
你手机里的通讯录，存储了所有联系人的信息。如果你想把这些联系人信息分享给其他App，就可以通过ContentProvider来实现。。一、什么是ContentProvider‌ContentProvider‌是Android四大组件之一，负责实现‌跨应用程序的数据共享与访问‌，通过统一接口封装数据存储细节，提供标准化操作方式。其中主要功能包括：数据抽象层：将应用内部的数据（如SQLite数据库、文
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
400多个免费在线编程与计算机科学课程 zhufafa 基础理论课程理论计算机基础免费
来源：medium作者：DhawalShah五年前，麻省理工学院和斯坦福大学等学校首先向公众开放免费的在线课程。如今，全球有700多所学校创造了数以千计的免费在线课程。从入门到精通系列，是作者通过ClassCentral的课程数据库整理的400多个免费在线课程的简介和链接（来源于ClassCentral，一个在线课程搜索引擎），根据课程难度分为入门、进阶和高阶三大类，每门课程还有星级评分（统计自C
STM32F1单片机驱动42步进电机 All right 1 STM32学习单片机 stm32 嵌入式硬件
我们使用的单片机是STM32F103ZET6，电机是42步进电机（额定电流是1A）、驱动是TMC2209；但是暂时使用2160这个外接驱动（注意：2160为大电流电机驱动不能长时间带动这个42电机，否则会发烫烧电机）。开启一个定时器2外设中断：为电机提供步进脉冲；开启三个GPIO口：作为EN、STEP、DIR控制；42步进电机：步距角1.8°、16细分、3200步每圈。一、代码：tim.c:/*U
《C++性能优化指南》 linux版代码及原理解读第一章 v俊逸 C++性能优化指南性能优化 C++性能优化性能优化
概述：目录概述：性能优化的必要性：C++代码优化策略总结用好的编译器并用好编译器使用更好的算法使用更好的库减少内存分配和复制移除计算使用更好的数据结构提高并发性优化内存管理性能优化的必要性：按照当今的CPU运行速度来说，执行一条指令所需要的时间是10的-9次方的时间单位，如此快速的执行速度是否就没有性能优化的必要了呢？其实不然，性能优化与CPU的执行速度并无非常大的关系，试想一下，一段代码，如果用
LLM-生成器判别器的实现
总结首先，使用GPT模型获取每个词的生成概率pLLMp_{LLM}pLLM。然后，使用训练好的生成判别器，对每个可能的生成结果进行打分，得到pθ(c∣x1:t)p_\theta(c|x_{1:t})pθ(c∣x1:t)。最后，结合两者的输出，用贝叶斯规则调整每个词的概率，选择调整后的概率最高的词作为输出。通过这样的组合，生成过程可以更好地满足预期需求，如生成符合特定风格或格式的文本。要在使用已经预
AI MCP教程之什么是 MCP？利用本地 LLM 、MCP、DeepSeek 集成构建您自己的 AI 驱动工具知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 mcp deepseek
介绍利用模型上下文协议(MCP)的工具吸引了我们的注意力—将AI变成触手可及的生产力引擎。它们巧妙、高效，让人难以抗拒。但如果您可以将这样的功能添加到自己的工具中，会怎么样呢？在本指南中，我将引导您构建一个具有本地运行的大型语言模型(LLM)和MCP集成的AI工具-让您以类似的方式自动执行利用MCP的工具您喜欢的任务。推荐文章《AnythingLLM教程系列之12AnythingLLM上的Olla
使用 Ollama 、 DeepSeek和QWEN的模型上下文协议 (MCP) ，使用本地 LLM 教程的 MCP 服务器知识大胖 NVIDIA GPU和大语言模型开发教程服务器运维人工智能 qwen2vl deepseek
简介模型上下文协议：MCP服务器据称是AI领域的下一个重大改变者，它将使AI代理变得比我们想象的更加先进。MCP或模型上下文协议由Anthropic去年发布，它可以帮助LLM连接软件并对其进行控制。但有一个问题大多数MCP服务器都与ClaudeAI兼容，尤其是ClaudeAI桌面应用程序，但它们有自己的限制。有没有办法我们可以使用本地LLM运行MCP服务器？是的，在这个特定的逐步详细教程中，我们将
24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介最初的DeepSeekR1是一个拥有6710亿个参数的语言模型，UnslothAI团队对其进行了动态量化，将模型大小减少了80%（从720GB减少到131GB），同时保持了强大的性能。当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。推荐文章《本地构建AI智能分析助手之01快速安装，使用PandasAI和Ollama进行数据分析，用自然语言向你公司的数据提问为决策
在 Obsidian 中本地使用 DeepSeek — 无需互联网！知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek
简介您是否想在Obsidian内免费使用类似于ChatGPT的本地LLM？如果是，那么本指南适合您！我将引导您完成在Obsidian中安装和使用DeepSeek-R1模型的确切步骤，这样您就可以在笔记中拥有一个由AI驱动的第二大脑。推荐文章《24GBGPU中的DeepSeekR1：UnslothAI针对671B参数模型进行动态量化》权重1，DeepSeek类《在RaspberryPi上运行语音识别
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓

【AI视野·今日NLP 自然语言处理论文速览 第七十四期】Wed, 10 Jan 2024

Daily Computation and Language Papers

你可能感兴趣的:(LLM,NLP,Papers,自然语言处理,LLM,大语言模型)

【AI视野·今日NLP 自然语言处理论文速览第七十四期】Wed, 10 Jan 2024