25.1.10 12:00 - 25.1.11 12:00 共更新75 篇
=====
摘要: 我们研究了一种基于大型语言模型的人工智能(AI)系统 GPT-4o 在涵盖多种语言和学科领域的物理概念清单上的多语言和多模态性能。这些清单来自 PhysPort 网站,涵盖了经典物理学主题,如力学、电磁学、光学和热力学,以及相对论、量子力学、天文学、数学和实验技能。与以往仅限文本的研究不同,我们将清单作为图像上传,模拟学生在纸上看到的内容,评估系统的多模态功能。AI 系统以英语提示,并自主选择其回应的语言——要么保持测试的名义语言,要么完全切换到英语,或混合使用语言——显示出取决于语言复杂性和数据可用性的适应性行为。我们的结果显示,不同学科领域的性能存在一定差异,实验技能是表现最差的领域。此外,AI 在需要视觉解读图像的问题上的表现比纯文本问题更差。对于 AI 难以解答的问题,往往与该清单的语言密切相关。我们还发现,不同语言之间的性能存在较大差异,有些语言通过语言切换获得了显著的提升,这种现象类似于人类说话者的代码切换。总体而言,将 AI 获得的结果与现有文献进行比较,我们发现该 AI 系统在所有学科领域(实验技能除外)中都超过了指令后平均本科生的表现。
总结: 研究表明,基于 GPT-4o 的 AI 系统在多语言和多模态物理概念测试中表现优于大多数本科生,但在实验技能方面表现较差。
###【arXiv编号】2501.06143v1
###【git】无
###【期刊】无
###【领域】计算机科学,人工智能;物理教育
=====
摘要: 在神经网络(NN)中,出现了哪些类型的数值表示?神经网络在多大程度上诱导出抽象的、可变的、类似插槽的数值变量,以及在什么情况下这些表示会出现?这些表示在学习过程中如何变化?我们如何以统一的方式理解不同神经网络中的神经实现?在本研究中,我们首先使用基于序列的神经系统通过下一个令牌预测(NTP)目标在数值任务上进行训练。然后,我们通过因果抽象或符号算法的视角来理解神经解决方案。我们使用因果干预和可视化方法的组合发现,人工神经模型确实从NTP目标中发展出了可互换、可变的潜在数值变量的类似物。接着,我们探讨任务和模型架构的变化如何影响模型的学习解决方案,发现这些类似符号的数值表示并非在每种任务变体中都形成,且变换器在解决问题的方式上与其循环对应模型显著不同。随后,我们展示了符号类似变量在训练过程中的变化,发现模型的任务性能与其符号类似表示的一致性之间存在强相关性。最后,我们表明在所有情况下,这些神经符号都存在一定程度的梯度性,突显出找到简单、可解释的神经网络执行数值任务的符号故事的难度。综上所述,我们的结果与神经网络能够近似可解释的数认知符号程序的观点一致,但它们近似的具体程序及其近似的程度可能因网络架构、训练数据、训练程度和网络规模的不同而有很大差异。
总结: 本研究探讨了神经网络在数值任务中如何形成类似符号的数值变量及其受不同架构和训练条件影响的机制。
=====
摘要: 宫颈癌仍然是全球女性中第四常见的恶性肿瘤。同步化疗放疗(CRT)是局部晚期宫颈癌的主要根治性治疗方案,包括外照射放疗和后续的近距离放疗。在放射治疗计划的制定中,常规对目标肿瘤(在子宫颈水平)、相关妇科解剖结构及邻近的风险器官(OARs)进行描绘。然而,手动描绘这些结构既耗时又费力,并且存在已知的观察者间变异性,这可能影响治疗结果。尽管已经开发了多种工具使用计算机断层扫描(CT)图像自动分割OARs和高风险临床肿瘤体积(HR-CTV),但利用常规T2加权(T2w)磁共振成像(MRI)开发基于深度学习的肿瘤分割工具,满足了提高常规对解剖结构和宫颈癌进行描绘的临床需求,从而提高放射治疗计划的质量和一致性。本研究应用了一种新型深度学习模型(PocketNet)在T2w MRI上分割子宫颈、阴道、子宫和肿瘤。通过5折交叉验证训练的数据评估了PocketNet架构的性能。PocketNet在肿瘤分割中实现了超过70%的Dice-Sorensen相似系数(DSC),在器官分割中超过80%。这些结果表明,PocketNet对对比协议的变化具有鲁棒性,能够可靠地分割感兴趣区域。
总结: PocketNet模型在T2w MRI上实现了高效的宫颈肿瘤及相关器官自动分割,提升了放射治疗计划的质量和一致性。
###【arXiv编号】2409.11456v2
###【git】
###【期刊】
###【领域】计算机视觉, 人工智能, 机器学习
=====
摘要: 何时我们可以说两个神经系统是相同的?这个问题的答案取决于目标,通常通过相关方法如表征相似性分析(RSA)和中心核对齐(CKA)来解决。当我们放弃因果探索时,会错过什么,以及如何针对特定类型的相似性?在这项工作中,我们介绍了模型对齐搜索(MAS),一种用于因果探索分布式表征相似性的方法。该方法学习可逆线性变换,将两个分布式网络的表征之间的子空间对齐,使因果信息可以自由交换。我们首先展示该方法可以用于在具有不同训练种子的网络之间转移特定的因果变量,例如计数任务中的项目数量。然后,通过比较在结构上不同的数字任务上训练的模型中的不同类型的数字表征,探索数字认知中的开放问题。接着,我们比较了MAS与现有的因果相似性方法,显示MAS对不需要的交换更具抵抗力。最后,我们引入了一种反事实潜在辅助损失函数,即使在训练中无法对其中一个模型进行因果访问,也有助于塑造因果相关的对齐。
总结: 本文提出了一种新的模型对齐方法MAS,用于因果探索和跨网络转换特定因果变量。
###【arXiv编号】2501.06164v1
###【git】无
###【期刊】arXiv
###【领域】计算机科学,人工智能,机器学习
=====
摘要: 将脑电波生成图像由于其在理解脑信号如何编码视觉提示方面的潜力,正日益受到关注,以推进脑机接口系统。大多数文献集中在fMRI到图像的任务上,因为fMRI具有高空间分辨率。然而,fMRI是一种昂贵的神经影像学模式,且不支持实时脑机接口。另一方面,脑电图(EEG)是一种低成本、非侵入性和便携的神经影像技术,适合未来的实时应用。然而,EEG由于其低空间分辨率以及易受噪声和伪影影响,给图像生成带来了固有挑战。在本文中,我们通过基于ControlNet适配器的精简框架,将潜在扩散模型(LDM)与EEG信号相结合,解决了这些问题。我们在流行基准上进行了实验和消融研究,表明所提出的方法优于其他最先进的模型。与这些方法通常需要大量预处理、预训练、不同的损失和标题模型不同,我们的方法高效而简单,仅需最少的预处理和几个组件。代码可在https://github.com/LuigiSigillo/GWIT获取。
总结: 本文提出了一种高效简化的EEG到图像生成方法,利用潜在扩散模型显著优于现有模型。
###【arXiv编号】2410.02780v2
###【git】https://github.com/LuigiSigillo/GWIT
###【期刊】暂无
###【领域】计算机视觉、人工智能、机器学习
=====
xLSTM-SENet: xLSTM for Single-Channel Speech Enhancement
摘要: 尽管基于注意力的架构,如Conformers,在语音增强方面表现出色,但在输入序列长度方面面临可扩展性挑战。相比之下,最近提出的扩展长短期记忆网络(xLSTM)架构提供了线性可扩展性。然而,基于xLSTM的模型在语音增强方面尚未被探索。本文介绍了xLSTM-SENet,这是第一个基于xLSTM的单通道语音增强系统。对比分析表明,xLSTM——尤其是LSTM——能够在VoiceBank+Demand数据集上的各种模型规模中匹配或超越最先进的Mamba和Conformer基系统。通过消融研究,我们确定了诸如指数门控和双向性等关键架构设计选择对其有效性有贡献。我们最好的基于xLSTM的模型xLSTM-SENet2在Voicebank+DEMAND数据集上优于最先进的Mamba和Conformer基系统。
总结: 本文提出的xLSTM-SENet在单通道语音增强领域展现出性能优于现有先进系统的潜力。
###【arXiv编号】2501.06146v1
###【git】
###【期刊】
###【领域】计算机科学,人工智能,电子工程
=====
摘要: 通用人工智能(GPAI)模型,包括大型语言模型(LLMs)的快速普及和部署,为AI监管机构带来了前所未有的挑战。我们假设这些机构需要在一个不断涌现的风险和事件报告生态系统中进行导航,这可能超出其监管能力。为此,我们开发了一个以来自多样化风险、事件或危害报告生态系统的特征为参数的模拟框架,包括社区驱动的平台、众包倡议和专家评估。我们评估了四种监管策略:不优先(先到先服务)、随机选择、基于优先级(优先处理最高优先级风险)和多样性优先(在高优先级风险与跨风险类型的综合覆盖之间取得平衡)。结果表明,基于优先级和多样性优先的策略在减轻高影响风险方面更为有效,特别是那些由专家识别的风险,但它们可能无意中忽视了广大社区报告的系统性问题。这种疏忽可能导致反馈回路,放大某些类型的报告,同时抑制其他类型的报告,导致整体风险景观的认知偏颇。我们通过多个现实世界的数据集验证了模拟结果,包括一个包含超过一百万次ChatGPT交互的数据集,其中超过150,000次对话被识别为有风险。这一验证强调了AI风险监管中固有的复杂权衡,并突出了风险管理策略的选择如何塑造社会中使用的各种GPAI模型的未来AI风险景观。
总结: 本文通过模拟评估不同AI风险监管策略的长期影响,揭示了优先级和多样性策略在高影响风险管理中的优势及其潜在的系统性忽视问题。
###【arXiv编号】2501.06137v1
###【git】无
###【期刊】无
###【领域】人工智能风险管理
该研究针对通用AI模型的风险监管提出了系统性的模拟框架,分析了不同监管策略的效果,具有较高的创新性和实用性,但在实际应用中可能面临复杂的反馈回路问题,因此给予4分推荐。
=====
摘要: 随着对灵活高效的城市交通解决方案需求的增加,传统的需求响应交通(DRT)系统在满足多样化乘客需求和动态城市环境方面的局限性日益凸显。自主按需移动(AMoD)系统作为一种有前景的替代方案,通过利用联网和自主车辆(CAVs)提供响应性和适应性的服务。然而,现有方法主要集中在车辆调度或路径规划,往往简化复杂的城市布局,忽视了CAVs之间同时协调和互相避让的必要性。这种简化在实际场景中部署AMoD系统时带来了重大挑战。为了解决这些问题,我们提出了CoDriveVLM,一个将高保真度的同步调度与协同运动规划集成到未来AMoD系统中的新框架。我们的方法利用视觉-语言模型(VLM)增强多模态信息处理,实现了全面的调度和碰撞风险评估。引入的VLM增强的CAV调度协调器能够有效管理复杂和不可预见的AMoD条件,从而支持高效的调度决策。此外,我们提出了一种基于共识交替方向乘子法(ADMM)的可扩展去中心化协同运动规划方法,专注于碰撞风险评估和去中心化轨迹优化。仿真结果展示了CoDriveVLM在各种交通条件下的可行性和稳健性,展示了其在未来城市交通网络中显著提升AMoD系统保真度和有效性的潜力。代码可在GitHub获取。
总结: CoDriveVLM利用视觉-语言模型优化自主按需移动系统的调度与运动规划,显著提升了城市交通管理的效率和安全性。
###【arXiv编号】2501.06132v1
###【git】https://github.com/henryhcliu/CoDriveVLM.git
###【期刊】无
###【领域】自主按需移动系统,城市交通
CoDriveVLM在自主按需移动系统中创新性地结合了视觉-语言模型,提供了高效的调度与运动规划方法,具备较高的实用性和应用潜力,但实际部署效果仍需进一步验证。
=====
摘要: 多模态视觉语言模型(VLMs)作为计算机视觉与自然语言处理交汇处的一项变革性技术,已经出现并推动技术进步,使机器能够通过视觉和文本模态来感知和理解世界。例如,CLIP、Claude和GPT-4V等模型在视觉和文本数据的推理与理解能力上表现出色,并在零样本分类方面超过了传统的单一模态视觉模型。尽管它们在研究中迅速取得进展并在应用中日益流行,但对于现有VLMs研究的综合性综述尚显不足,特别是对于那些旨在在特定领域中利用VLMs的研究人员。因此,我们系统性地概述了VLMs的以下几个方面:过去五年(2019-2024)主要VLMs的模型信息;这些VLMs的主要架构和训练方法;VLMs的流行基准和评估指标的总结与分类;VLMs的应用,包括具身代理、机器人学和视频生成;当前VLMs面临的挑战和问题,如幻觉、公平性和安全性。详细的论文和模型库链接列于 GitHub。
总结: 本文系统综述了多模态视觉语言模型的发展、评估、应用及面临的挑战,为研究人员在相关领域的进一步研究提供了全面参考。
###【arXiv:2501.02189v2】
###【git: https://github.com/zli12321/Awesome-VLM-Papers-And-Models.git】
###【期刊】
###【领域】计算机视觉、自然语言处理、机器学习、机器人学
该综述全面涵盖了近年来视觉语言模型的发展及应用,提供了详细的基准评估和挑战分析,对相关领域研究具有较高的参考价值,尽管理论性较强,但实用性和系统性较好。
=====
摘要: 通用的自动语音识别(ASR)系统在目标导向的对话中表现不佳。现有的ASR校正方法依赖于先前的用户数据或命名实体。我们将校正扩展到没有先前用户数据且具有语言灵活性的任务,如词汇和句法变异。我们提出了一种利用大型语言模型进行上下文增强的新方法,并采用了一种结合目标导向对话AI及其任务的对话状态上下文信息的排名策略。我们的方法通过以下两步对n-best ASR假设进行排序:1)根据与上下文的词汇和语义相似性;2)根据与ASR假设的语音对应关系对上下文进行排序。在家庭装修和烹饪领域对真实用户进行的评估中,我们的方法在保持精确度和假阳性率的同时,提高了校正的召回率和F1值分别达34%和16%。当我们的校正方法正常工作时,用户评分提高了0.8-1分(满分5分),且由于假阳性没有下降。
总结: 本文提出了一种结合大型语言模型和对话上下文信息的ASR错误校正方法,显著提升了目标导向对话中的语音识别性能。
###【arXiv:2501.06129v1】
###【git】
###【期刊】
###【领域】
该研究在结合大型语言模型进行上下文增强方面具有创新性,显著提升了ASR系统在目标导向对话中的实用性和准确性,适用性强,具有较高的应用价值。
=====
Fleurs-SLU: A Massively Multilingual Benchmark for Spoken Language Understanding
摘要: 尽管最近的多语种自动语音识别(ASR)模型声称支持数千种语言,但由于双模态语音和文本训练数据的有限性,低资源语言的ASR仍然高度不可靠。更好的多语种语音理解(SLU)可以通过利用语言语义来弥补稀缺的训练数据,例如通过上下文消歧义语句或利用语言间的语义相似性,从而大幅增强多语种ASR的鲁棒性。更重要的是,SLU对于约一半缺乏正式书写系统的活语言的包容性语音技术是不可或缺的。然而,多语种SLU的评估仍限于较浅层的任务,如意图分类或语言识别。为了解决这一问题,我们提出了Fleurs-SLU,一个涵盖102种语言的主题语音分类和92种语言的听力理解多项选择问答的多语种SLU基准。我们在Fleurs-SLU上广泛评估了端到端的语音分类模型以及将语音转文本转录与大型语言模型后续分类相结合的级联系统。我们的结果表明,级联系统在多语种SLU任务中表现出更大的鲁棒性,尽管在适当预训练的情况下,语音编码器在主题语音分类中也能取得具有竞争力的表现。我们进一步发现,鲁棒的多语种ASR、有效的语音到文本翻译与强大的多语种SLU之间存在强相关性,突显了声学和语义语音表示之间的相互益处。
总结: 提出了Fleurs-SLU,一个涵盖多种语言的语音理解基准,并展示了级联系统在多语种SLU任务中的优势。
###【arXiv编号】
arXiv:2501.06117v1
###【git】
###【期刊】
###【领域】
计算机科学 — 计算语言学、人工智能
=====
摘要: 最近,数字病理学的进展证明了基础模型在各种应用中的有效性。在本报告中,我们介绍了Atlas,这是一种基于RudolfV方法的新型视觉基础模型。我们的模型在1.2百万张来自两家医疗机构(梅奥诊所和Charité - Universitätsmedizin Berlin)的组织病理学全切片图像数据集上进行了训练。全面评估表明,尽管Atlas在参数数量和训练数据集规模上都不是最大的,但它在21个公共基准数据集上仍实现了最先进的性能。 总结: Atlas模型在数字病理学领域通过在大量全切片图像上训练,尽管规模不大,但在多个基准测试中表现出最先进的性能。
=====
摘要: 检测能耗数据中的异常对于识别能量浪费、设备故障以及确保高效的能源管理至关重要。机器学习,特别是深度学习方法,在异常检测方面取得了巨大成功;然而,它们是黑盒方法,不提供透明性或解释。SHAP及其变体已被提出用于解释这些模型,但它们存在计算复杂度高(SHAP)或不稳定性和不一致性的问题(例如,Kernel SHAP)。为了解决这些挑战,本文提出了一种针对能耗数据中异常的可解释性方法,聚焦于与上下文相关的信息。该方法利用现有的可解释性技术,重点使用SHAP变体,结合全局特征重要性和加权余弦相似度,根据每个异常点的上下文选择背景数据集。通过聚焦于上下文和最相关的特征,该方法减轻了可解释性算法的不稳定性。跨10种不同的机器学习模型、5个数据集和5种XAI技术的实验结果表明,我们的方法减少了解释的变异性,提供了一致的解释。统计分析证实了我们方法的稳健性,显示在多个数据集上解释变异性平均减少了约38%。
总结: 提出了一种通过关注上下文相关数据来增强深度学习异常检测模型可解释性的新方法,显著提高了解释的一致性和稳健性。
###【arXiv编号】2501.06099v1
###【git】未提供
###【期刊】未提供
###【领域】计算机科学 - 机器学习, 人工智能
该论文针对深度学习异常检测模型的可解释性问题提出了创新性的解决方案,通过结合SHAP变体和上下文相关特征,显著减少了解释的不稳定性,具有较高的实用价值和理论贡献。
=====
摘要: 自动驾驶车辆(AVs)有望通过提高道路安全、交通效率和整体移动性来彻底改变交通运输。尽管近年来高层次AVs的稳步进展,向完全自动化的过渡需要一个混合交通时期,在这一时期,不同自动化级别的AVs与人类驾驶的车辆(HDVs)共存。使AVs具有社会兼容性并被人类驾驶者理解,预计将提高混合交通的安全性和效率。因此,确保AVs与HDVs的兼容性和社会接受度对于它们成功和无缝融入混合交通至关重要。然而,开发社会兼容自动驾驶车辆(SCAVs)的关键领域的研究仍然稀缺。本研究进行了首次全面的范围审查,以评估开发SCAVs的现状,识别关键概念、方法论方法和研究差距。还进行了专家访谈,以识别SCAVs的关键研究差距和期望。基于范围审查和专家访谈输入,提出了一个开发SCAVs的概念框架。通过针对全球研究人员、技术人员、政策制定者和其他相关专业人士的在线调查对概念框架进行了评估。调查结果提供了有价值的验证和见解,肯定了所提出的概念框架在应对将AVs融入混合交通环境的挑战中的重要性。此外,讨论了未来的研究视角和建议,为SCAVs的研究和开发议程做出了贡献。
总结: 本文提出并验证了一个用于开发社会兼容自动驾驶车辆的概念框架,对AVs在混合交通环境中的集成具有重要指导意义。
该研究首次全面审查了社会兼容自动驾驶车辆的发展现状,提出了经过实证验证的概念框架,具有较高的创新性和实用性,适用于推动AVs在现实交通环境中的应用。
=====
摘要: 预测系统未来行为的人工智能模型(即预测AI模型)对智能决策至关重要。然而,使用预测AI模型进行决策通常导致次优的性能。这主要是因为AI模型通常构建为最好地拟合数据,因此预测最可能的未来,而不是实现高性能的决策。希望这样的预测能够实现高性能决策在理论上没有保证,也在实践中未得到确立。事实上,越来越多的实证证据表明,预测模型必须针对决策目标进行定制以提高性能。在本文中,我们建立了一个预测模型(基于AI的或非基于AI的)必须满足的正式(必要且充分)条件,以使使用该模型建立的决策政策达到最优。然后,我们讨论了这些条件对为序贯决策制定预测AI模型的影响。
总结: 本文探讨了使预测AI模型在决策制定中达到最优的必要和充分条件,并讨论了其在序贯决策中的应用。
###【arXiv编号】:
2501.06086v1
###【git】:
###【期刊】:
###【领域】:
人工智能,机器学习,决策系统
=====
摘要: 人类通过观察对象和场景随时间的演变来学习强大的表征。然而,除了一些需要显式时间理解的特定任务外,静态图像预训练仍然是学习视觉基础模型的主导范式。我们质疑这种不匹配,并探讨视频预训练是否能够产生具有与人类感知特征一致的视觉表征:包括跨任务的泛化能力、对扰动的鲁棒性以及与人类判断的一致性。为此,我们提出了一种新颖的视频筛选方法,并开发了一个对比学习框架,从中学习复杂的变换。这个简单的从视频中蒸馏知识的范式,称为VITO,在图像理解任务上远超先前的视频预训练方法,并且在视频理解任务上也优于图像预训练方法。此外,VITO的表征在面对自然和合成变形时,比图像、视频和对抗训练的表征更具鲁棒性。最后,VITO的预测与人类判断高度一致,超越了那些专门为此目的训练的模型。综合这些结果表明,视频预训练可能是一种学习统一、鲁棒且与人类对齐的视觉世界表征的简单方法。
总结: VITO视频预训练方法通过自监督对比学习显著提升了视觉表征的鲁棒性和与人类感知的一致性。
###【arXiv编号】2210.06433v3
###【git】
###【期刊】
###【领域】计算机视觉, 人工智能, 机器学习
=====
摘要: 近期人工智能模型的进展旨在保留用户的交互信息,这可能无意中包括敏感的医疗保健数据。在医疗保健领域,特别是当放射科医生使用托管在在线平台上的基于人工智能的诊断工具时,医疗影像数据可能会在未经明确同意的情况下被重新用于未来的人工智能训练,这突显了医疗保健数据使用中关键的隐私和知识产权问题。为了解决这些隐私挑战,一种被称为不可学习示例(UEs)的新方法被提出,旨在使数据对于深度学习模型不可学习。在这一领域,一种名为不可学习聚类(UC)的突出方法通过使用更大的批量大小显示了改进的UE性能,但此前受限于计算资源。为了在理论上无限的资源下推动UE性能的边界,我们使用Summit超级计算机上的分布式数据并行(DDP)训练,将UC学习扩展到各种数据集。我们的目标是检验在高性能计算(HPC)水平下UE的有效性,以防止未经授权的学习并增强数据安全性,特别是探索批量大小对UE不可学习性的影响。利用Summit的强大计算能力,我们在多样化的数据集如Pets,MedMNist,Flowers和Flowers102上进行了广泛的实验。研究结果显示,过大和过小的批量大小都会导致性能不稳定并影响准确性。然而,批量大小与不可学习性之间的关系在不同数据集之间有所不同,强调了需要量身定制的批量大小策略以实现最佳的数据保护。我们的结果强调了根据每个数据集的特定特征选择适当的批量大小在防止学习和确保深度学习应用中的数据安全方面的关键作用。
总结: 本文通过高性能计算扩展不可学习示例的学习,强调了在深度学习应用中选择适当批量大小以确保数据安全的重要性。
###【arXiv:2501.06080v1】
###【期刊】
###【领域】计算机科学,机器学习,人工智能,分布式计算
=====
摘要: 尽管k最近邻被广泛用作分类模型,但从理论角度来看,其可解释性特性仍然了解甚少。尽管最近邻分类器从“数据角度”提供了解释,即通过识别训练集中决定输入向量 x ˉ \bar{x} xˉ分类的向量 v ˉ 1 , … , v ˉ k \bar{v}_1, \ldots, \bar{v}_k vˉ1,…,vˉk来解释 x ˉ \bar{x} xˉ的分类,但我们认为在高维应用中,这种解释可能不切实际,因为每个向量有数百或数千个特征,且这些特征的相对重要性不明确。因此,我们着重于通过“特征角度”理解最近邻分类,其中目标是识别 x ˉ \bar{x} xˉ中各特征的值如何影响其分类。具体而言,我们研究了归纳解释,如“最小充分理由”,它对应于 x ˉ \bar{x} xˉ中足以保证其分类的一组特征,以及“反事实解释”,基于在 x ˉ \bar{x} xˉ中必须进行的最小距离的特征变化以改变其分类。我们提供了反事实和归纳解释的积极和消极复杂性结果的详细概述,区分离散和连续特征空间,并考虑所涉及的距离函数选择的影响。最后,我们表明,尽管存在一些消极的复杂性结果,整数二次规划和SAT求解仍然可以在实践中计算解释。
总结: 本文研究了k最近邻分类器的归纳和反事实解释方法,探讨其在高维数据中的适用性及计算可行性。
###【arXiv编号】2501.06078v1
###【git】
###【期刊】
###【领域】计算机科学,机器学习,人工智能
=====
摘要: 在边缘设备上部署人工智能(AI)模型需要在满足严格的复杂性约束(如有限的内存和能源资源)与确保在敏感决策任务中可靠性能之间取得微妙的平衡。提高可靠性的一种方法是通过贝叶斯推理进行不确定性量化。然而,这种方法通常需要维护和运行多个模型的集成,可能超过边缘设备的计算限制。本文介绍了一种低复杂度的方法,通过从更复杂的模型中提炼校准信息来应对这一挑战。在离线阶段,利用高复杂度的基于云的模型生成的预测概率来确定一个基于云模型与边缘模型之间典型差异的阈值。在运行时,使用该阈值构建可信集——预测概率的范围,保证在用户选择的置信水平下包含云模型的预测。通过在预测概率单纯形中对差异度量进行阈值处理来获得可信集。在视觉和语言任务上的实验表明,所提出的方法,即“可信推理的构形蒸馏”(Conformalized Distillation for Credal Inference, CD-CI),相比于低复杂度的贝叶斯方法(如拉普拉斯近似),显著提高了校准性能,使其成为边缘AI部署的实用且高效的解决方案。
总结: 本文提出的CD-CI方法通过低复杂度的方式显著提升了边缘设备上AI模型的校准性能,适用于资源受限的边缘计算环境。
###【arXiv编号】
###【git】
###【期刊】
###【领域】边缘计算、人工智能、不确定性量化
CD-CI方法在保持低计算复杂度的同时,显著提高了边缘AI模型的校准性能,具有较高的实用性和创新性,适合在资源受限的边缘环境中部署。
=====
摘要: 图像数据增强是现代计算机视觉任务中的关键方法,因为它可以增强训练数据集的多样性和质量,从而提高机器学习模型在下游任务中的性能和鲁棒性。同时,增强方法也可以用于在语境和语义感知的方式下编辑/修改给定的图像。扩散模型(DMs)是生成式人工智能领域中最新且极具前景的方法之一,已经成为图像数据增强的强大工具,能够通过学习底层数据分布生成逼真且多样化的图像。本研究对基于DM的图像增强方法进行了系统、全面和深入的综述,涵盖了广泛的策略、任务和应用。具体而言,首先对DM的基本原理、模型架构和训练策略进行了全面分析。随后,介绍了相关图像增强方法的分类,重点关注语义操作、个性化与适应性以及特定应用的增强任务技术。然后,分析了性能评估方法论及相应的评估指标。最后,讨论了该领域的当前挑战和未来研究方向。
总结: 本文系统综述了扩散模型在图像数据增强中的应用,分析了其策略、评估方法及未来研究方向。
###【arXiv编号】
arXiv:2407.04103v2
###【git】
无
###【期刊】
无
###【领域】
计算机视觉, 人工智能
=====
摘要: 胶质母细胞瘤是一种高度侵袭性的脑癌,以快速进展和预后差为特征。尽管治疗方法有所进步,驱动这种侵袭性的潜在遗传机制仍然了解甚少。在本研究中,我们采用多模式深度学习方法,通过联合图像和RNA测序分析来研究胶质母细胞瘤的异质性。我们的结果揭示了与胶质母细胞瘤相关的新基因。通过结合全切片图像和RNA测序,并引入编码RNA测序数据的新方法,我们识别了可能解释胶质母细胞瘤不同进展模式的特定遗传概况。这些发现为理解胶质母细胞瘤异质性背后的遗传机制提供了新见解,并强调了潜在的治疗干预目标。
总结: 本研究通过多模式深度学习分析全切片图像和RNA测序数据,揭示了胶质母细胞瘤异质性的遗传基础及其潜在治疗靶点。
###【arXiv编号】2410.18710v2
###【git】
###【期刊】
###【领域】计算机科学、生物信息学、肿瘤学
=====
摘要: 旋转位置嵌入(RoPE)通过在序列中的输入向量上应用旋转矩阵来编码Transformer模型中的相对和绝对位置信息。虽然RoPE在自然语言处理任务中相比其他位置嵌入技术表现出更优的性能,但其在语音处理应用中的有效性仍然研究不足。在本研究中,我们对RoPE在各种自动语音识别(ASR)任务中的表现进行了全面评估。我们的实验结果表明,在ASR任务中,RoPE相比当前广泛使用的相对位置嵌入方法,始终实现了更低的错误率。为了促进进一步的研究,我们通过SpeechBrain工具包发布了实现和所有实验流程。
总结: 本研究全面评估了旋转位置嵌入(RoPE)在自动语音识别任务中的有效性,结果显示RoPE相比现有方法具有更低的错误率。
###【arXiv编号】2501.06051
###【git】
###【期刊】
###【领域】计算机科学-计算语言学、计算机科学-人工智能、电气工程与系统科学-音频与语音信号处理
=====
摘要: 神经符号(NeSy)人工智能描述了逻辑或基于规则的技术与神经网络的结合。与神经方法相比,NeSy方法通常具有更高的可解释性,这对于药物发现等生物医学应用尤为有前景。然而,由于可解释性定义较为广泛,尚无明确指南来评估模型解释的生物学合理性。为了在药物发现背景下评估可解释性,我们设计了一种新颖的预测任务,称为药物作用机制(MoA)分解,并配套了一个定制的知识图谱(KG),MoA-net。然后,我们开发了MoA检索系统(MARS),一种利用逻辑规则和学习的规则权重的NeSy药物发现方法。利用这种可解释的特征及领域知识,我们发现MARS和其他基于KG的NeSy方法易受“度偏差”而非基于领域的规则驱动的推理捷径的影响。随后,我们展示了识别和减轻这种问题的方法。此后,MARS在性能上与当前最先进的模型相当,同时生成的模型解释与已知的MoA一致。
###【arXiv:2410.05289v3】
###【领域】药物发现
MARS 结合了神经符号方法与知识图谱,提升了药物发现的可解释性,尽管存在推理捷径问题,但其性能与顶尖模型持平,展现出较高的创新性和实用价值。
=====
摘要: 空间蛋白质组学技术通过同时分析多个分子标记及其空间组织,极大地改变了我们对复杂组织结构的理解。这些数据的高维性、实验间标记组合的差异以及异质的研究设计为计算分析带来了独特的挑战。本文介绍了虚拟组织(VirTues),一个跨分子、细胞和组织尺度的生物组织基础模型框架。VirTues在Transformer架构设计上引入了创新,包括一种新的令牌化方案,能够捕捉空间和标记维度,以及能够扩展到高维多重数据同时保持可解释性的注意力机制。在多样的癌症和非癌症组织数据集上训练的VirTues展示了强大的泛化能力,无需特定任务的微调,即可实现跨研究分析和新标记集成。作为一个通用模型,VirTues在临床诊断、生物发现和患者案例检索任务上超过了现有方法,同时提供了对组织功能和疾病机制的洞察。
总结: VirTues作为一种创新的通用模型,在空间蛋白质组学数据的分析中展示了出色的泛化能力和应用潜力,有助于临床诊断和生物医学研究。
###【arXiv:2501.06039v1】
###【期刊】
###【领域】计算机科学(人工智能、计算机视觉、机器学习)、定量生物学
VirTues模型在空间蛋白质组学领域引入了先进的Transformer架构,具备高效处理高维多重数据的能力,并在多个应用任务中表现优异,其创新性和实用性较强。
=====
摘要: 大型语言模型(LLMs)越来越多地应用于各种应用中,但对于会员推断的担忧也在同时增长。以前的研究主要集中在黑盒到灰盒模型,因此忽视了来自内部LLM信息的潜在优势。为了解决这个问题,我们提出使用线性探针(LPs)作为检测会员推断攻击(MIAs)的方法,通过检查LLM的内部激活。我们的方法,称为LUMIA,逐层应用LPs,以获得模型内部运作的细粒度数据。我们在多个模型架构、规模和数据集上测试了该方法,包括单模态和多模态任务。在单模态MIA中,LUMIA在曲线下面积(AUC)上比以前的技术平均提高了15.71%。显著的是,LUMIA在65.33%的情况下达到AUC>60%,比现有技术提高了46.80%。此外,我们的方法揭示了关键见解,例如MIAs在模型的哪些层中最易被检测到。在多模态模型中,LPs表明视觉输入可以显著有助于检测MIAs——在85.90%的实验中达到AUC>60%。
总结: LUMIA通过线性探针分析LLM内部状态,有效检测单模态和多模态的会员推断攻击,显著提升了检测性能。
###【arXiv编号】2411.19876v3
###【git】
###【期刊】
###【领域】计算机科学 - 密码学与安全, 计算机科学 - 人工智能
=====
摘要: 本文研究了多语言编码器模型mDeBERTa在三种日耳曼语言——德语、瑞典语和冰岛语上的最佳使用方法,这些语言在mDeBERTa的预训练数据中存在程度和数据质量各异。我们比较了全量微调与参数高效微调(PEFT)方法LoRA和Pfeiffer瓶颈适配器,发现PEFT对于资源更丰富的语言德语更有效。然而,瑞典语和冰岛语的结果不太一致。我们还观察到任务之间的差异:PEFT在问答任务中表现更好,而全量微调在命名实体识别任务中更优。受之前有关结合任务和语言适配器的模块化方法的研究启发,我们评估了添加在非结构化文本上训练的PEFT模块的影响,发现这种方法并无益处。
总结: 探讨了mDeBERTa在不同资源水平的日耳曼语言任务中的微调方法,发现PEFT在部分情况下优于全量微调。
###【arXiv编号】2501.06025v1
###【git】
###【期刊】
###【领域】计算机科学,人工智能
=====
摘要: 灾害事件在全球范围内发生,造成重大的人身和财产损失。地球观测(EO)数据能够实现快速而全面的建筑损伤评估(BDA),这是灾后减少人员伤亡和指导灾害救援工作的重要能力。最近的研究集中于开发AI模型,以实现未见灾害事件的精确映射,主要使用光学EO数据。然而,基于光学数据的解决方案仅限于晴天和白天,阻碍了灾害的快速响应。集成多模态(MM)EO数据,特别是光学和SAR影像的组合,能够提供全天候、昼夜的灾害响应。尽管有这种潜力,稳健的多模态AI模型的发展受限于缺乏适合的基准数据集。本文介绍了一个使用超高分辨率光学和SAR影像的BDA数据集(BRIGHT),以支持基于AI的全天候灾害响应。据我们所知,BRIGHT是首个专门为支持基于AI的灾害响应而精心策划的开放获取、全球分布、事件多样的MM数据集。它涵盖了五种类型的自然灾害和两种类型的人为灾害,遍及全球12个地区,特别关注需要外部援助的发展中国家。BRIGHT中的光学和SAR影像,空间分辨率在0.3-1米之间,提供了个体建筑物的详细表示,非常适合精确的BDA。在我们的实验中,我们测试了七个使用BRIGHT训练的先进AI模型,以验证其可迁移性和稳健性。该数据集和代码可在https://github.com/ChenHongruixuan/BRIGHT获取。BRIGHT也是2025 IEEE GRSS数据融合竞赛的官方数据集。
总结: BRIGHT数据集通过整合超高分辨率光学与SAR影像,支持AI驱动的全天候灾害响应,填补了多模态灾害响应数据集的空白。
=====
摘要: 大型深度学习模型取得了显著的成功,但资源消耗高,带来了内存使用等挑战。我们提出了CURing,这是一种基于CUR矩阵分解的新型模型压缩方法,该方法将权重矩阵近似为选定列(C)和行(R)以及一个小的链接矩阵(U)的乘积。我们将这种分解应用于基于权重大小和激活的综合影响选择的权重。通过识别并保留信息丰富的行和列,CURing显著减少了模型大小,同时性能损失最小。例如,它将Llama3.1-8B的参数减少到7.32B(下降9%),仅用129秒,速度是之前的压缩方法的20倍以上。
总结: CURing方法通过CUR矩阵分解有效压缩大型深度学习模型,兼顾了模型大小和性能。
###【arXiv:2501.04211v2】
###【git】
###【期刊】
###【领域】计算机科学,机器学习,人工智能
=====
摘要: 也许还没有。我们识别并分析了流行的“大规模多任务语言理解”(MMLU)基准中的错误。尽管MMLU被广泛采用,我们的分析显示出众多的真实标签错误,这些错误掩盖了大型语言模型的真实能力。例如,我们发现病毒学子集中的57%的分析问题存在错误。为了解决这个问题,我们引入了一个全面的框架,使用新颖的错误注释协议来识别数据集中的错误。然后,我们创建了MMLU-Redux,这是一个包含所有57个MMLU科目中5700个经人工重新注释的问题的子集。我们估计MMLU问题中有6.49%存在错误。使用MMLU-Redux,我们展示了与最初报告的模型性能指标存在显著差异。我们的结果强烈建议修订MMLU中充满错误的问题,以提升其未来作为基准的实用性和可靠性。总结: 本文通过识别和修正MMLU基准中的错误问题,提出了MMLU-Redux,以提高该基准在评估大规模语言模型能力时的准确性和可靠性。
###【arXiv编号】2406.04127v3
###【git】
###【期刊】
###【领域】计算语言学, 人工智能
=====
摘要: 本研究解决了语音翻译(ST)系统中的说话者性别偏见问题,这种偏见可能导致翻译不准确且具有攻击性。大型ST系统中常见的男性偏见主要来自机器翻译(MT)系统的训练数据。我们的方法包括两个关键步骤。首先,利用大型语言模型(LLMs)以经济高效的方式根据说话者的性别纠正翻译。其次,使用纠正后的数据微调ST模型,使模型能够根据音频特征直接生成性别特定的翻译,无需明确的性别输入。此外,我们提出了一个三模式微调模型,适用于说话者的性别预定义或不应从语音特征推断的场景。在MuST-SHE测试集上,我们的方法相比基线以及其他大型ST系统(如Seamless M4T和Canary)对女性说话者的翻译改进了70%。
总结: 通过大型语言模型和模型微调,有效减少了语音翻译系统中的性别偏见,显著提升了女性说话者的翻译准确性。
###【arXiv编号】2501.05989v1
###【git】
###【期刊】
###【领域】计算机科学,人工智能
=====
**摘要:**本文考虑一个无约束的随机优化问题,其中目标函数具有高阶光滑性。具体而言,我们提出了一种新的随机一阶方法(SFOM),该方法具有多重外推动量,每次迭代中执行多次外推,随后基于这些外推进行动量更新。我们证明了所提出的SFOM可以通过利用目标函数 f f f的高阶光滑性来加速优化。假设 f f f的 p p p阶导数对于某些 p ≥ 2 p \ge 2 p≥2是利普希茨连续的,并在额外的温和假设下,我们建立了该方法在找到一个点 x x x使得 E [ ∥ ∇ f ( x ) ∥ ] ≤ ϵ \mathbb{E}[\|\nabla f(x)\|] \le \epsilon E[∥∇f(x)∥]≤ϵ的样本复杂度为 O ~ ( ϵ − ( 3 p + 1 ) / p ) \widetilde{\mathcal{O}}(\epsilon^{-(3p+1)/p}) O (ϵ−(3p+1)/p)。据我们所知,这是第一个利用目标函数任意阶光滑性来加速的SFOM,其样本复杂度在不假设均方光滑性条件下优于已知的最佳结果。初步的数值实验验证了我们方法的实际性能,并支持了我们的理论发现。
**总结:**提出了一种利用高阶光滑性通过多重外推动量加速的随机一阶优化方法,理论和实验均验证了其优越性。
###【arXiv编号】2412.14488v2
###【git】
###【期刊】
###【领域】优化理论, 人工智能, 机器学习, 应用数学, 运筹学
该方法创新性地利用任意阶光滑性加速优化,理论分析扎实,且实际性能经验证优越,具有较高的实用价值和学术价值。
=====
摘要: 背景:通过分析语言进行欺骗检测是一条有前景的途径,利用人类判断和自动化机器学习判断。对于这两种形式的可信度评估,自动化的对抗性攻击通过重写欺骗性陈述以使其看起来真实构成了严重威胁。方法:我们在一个包含243个真实和262个伪造的自传故事的数据集中进行欺骗检测任务,供人类和机器学习模型使用。一个大型语言模型被任务重写欺骗性陈述,使其看起来真实。在研究1中,进行欺骗判断或使用详细性启发式的人类以及两个机器学习模型(一种微调的语言模型和一个简单的n-gram模型)对原始或对抗性修改的欺骗陈述进行判断。在研究2中,我们操纵了修改的目标对齐,即针对陈述将被人类或计算机模型评估来定制攻击。结果:当对抗性修改与目标对齐时,人类(d=-0.07和d=-0.04)和机器判断(51%的准确率)下降到偶然水平。当攻击未与目标对齐时,两个使用启发式判断的人类(d=0.30和d=0.36)和机器学习预测(63-78%)明显优于偶然水平。结论:易于获取的语言模型可以有效地帮助任何人对人类和机器学习模型进行欺骗检测努力。人类和机器对抗性修改的健壮性取决于目标对齐。我们最后提出了利用对抗性攻击设计推进欺骗研究的建议。
总结: 针对目标对齐的对抗性攻击能够显著削弱人类和机器在语言欺骗检测中的准确性。
###【arXiv编号】2501.05962v1
###【领域】计算机科学
=====
摘要: 背景。自计算机问世以来,关键基础设施的安全一直是一个迫切关注的问题,在当今网络战争的时代,这一问题变得更加重要。保护对国家安全至关重要的任务关键系统(MCS)需要迅速而强有力的治理,但最近的事件显示,满足这些挑战的困难日益增加。
目的。基于之前的研究展示的生成式人工智能(GAI),如大型语言模型,在增强风险分析方面的潜力,我们旨在探讨从业者将GAI整合到IT任务关键系统治理中的看法。我们的目标是为包括研究人员、从业者和政策制定者在内的利益相关者提供可操作的见解和建议。
方法。我们设计了一项调查,收集在MCS背景下开发和实施安全解决方案的从业者的实际经验、关注点和期望。
结论与未来工作。我们的研究结果强调,LLMs在MCS治理中的安全使用需要跨学科合作。研究人员应专注于设计面向法规的模型并注重问责制;从业者强调数据保护和透明度,而政策制定者必须建立统一的AI框架和全球基准,以确保基于LLMs的MCS治理的伦理性和安全性。 总结: 本文探讨了从业者对在任务关键IT治理中整合大型语言模型的看法,并提出了促进安全使用LLMs的建议。
###【arXiv编号】2412.11698v2
###【git】
###【期刊】
###【领域】计算机科学 - 计算机安全、人工智能、新兴技术、软件工程
=====
摘要: 科学研究范式正在因人工智能(AI)的发展而发生深刻变化。近期的工作表明,各种AI辅助的研究方法通过改进数据分析、加速计算和促进新思想的生成,在很大程度上提高了研究效率。为了进一步朝着最终目标(即自动科学研究)迈进,本文提出了Dolphin,这是第一个闭环的开放式自动研究框架,进一步构建了人类科学研究的整个过程。Dolphin可以生成研究思路,进行实验,并从实验结果中获取反馈,以生成更高质量的思路。更具体地说,Dolphin首先基于按主题和任务属性排名的相关论文生成新颖的思路。然后,代码通过异常追踪引导的本地代码结构自动生成和调试。最后,Dolphin自动分析每个思路的结果,并将结果反馈到下一轮的思路生成中。实验在不同主题的基准数据集上进行,结果表明Dolphin可以持续生成新颖的思路并完成循环实验。我们强调,Dolphin可以自动提出在某些任务(如2D图像分类和3D点分类)中与最先进方法相当的方法。
总结: Dolphin是一个能够自动生成研究思路、执行实验并根据反馈优化的闭环自动研究框架,在多个任务上展示了与顶尖方法相当的性能。
###【arXiv编号】2501.03916v2
###【git】
###【期刊】
###【领域】人工智能、计算机科学
=====
LitSumm: Large language models for literature summarisation of non-coding RNAs
摘要: 生命科学领域的文献整理是一项日益增长的挑战。出版速度的不断加快,加上全球固定的编辑人员数量,给生物医学知识库的开发者带来了重大挑战。很少有知识库具备覆盖所有相关文献的资源,并且所有知识库都必须优先考虑其工作重点。在本研究中,我们通过使用大型语言模型(LLMs)为非编码RNA的文献生成摘要,迈出了缓解RNA科学编辑人员时间不足的第一步。我们展示了如何使用商业LLM和一系列提示与检查,自动生成高质量、事实准确并带有准确引用的摘要。对部分摘要进行了手动评估,大多数被评为极高质量。我们将该工具应用于超过4,600个ncRNAs,并通过RNAcentral资源提供生成的摘要。我们得出结论,借助精心设计的提示和自动检查,当前一代的LLMs在自动化文献摘要方面是可行的。
总结: 研究展示了利用大型语言模型自动生成高质量非编码RNA文献摘要的可行性。
###【arXiv:2311.03056v4】
###【期刊】未提供
###【领域】生物医学、人工智能
该研究在生物信息学与人工智能的结合方面具有较高的创新性和实用性,能够显著提升生命科学文献的整理效率,具有重要的应用价值。
=====
摘要: 最近关于后门隐蔽性的研究主要集中在输入空间中难以区分的触发器和特征空间中无法分离的后门表示,旨在规避检查这些相应空间的后门防御。然而,现有的后门攻击通常旨在抵御特定类型的后门防御,而不考虑多种防御机制。基于这一观察,我们提出一个自然问题:目前的后门攻击在面对多样的实用防御时,是否真正构成现实世界中的威胁?为回答这个问题,我们审查了12种常见的后门攻击,这些攻击关注于输入空间或特征空间的隐蔽性,以及17种多样的代表性防御。令人惊讶的是,我们揭示了一个关键的盲点:设计为在输入和特征空间中隐蔽的后门攻击可以通过检查参数空间中的后门模型来减轻。为了研究这种共同脆弱性的根本原因,我们研究了参数空间中后门攻击的特征。值得注意的是,我们发现输入和特征空间攻击在参数空间中引入了显著的与后门相关的神经元,这些在当前的后门攻击中没有被彻底考虑。综合考虑隐蔽性,我们提出了一种新颖的供应链攻击,称为Grond。Grond通过一个简单而有效的模块——对抗性后门注入(ABI),限制参数变化,从而在后门注入过程中自适应地提高参数空间的隐蔽性。大量实验证明,Grond在CIFAR-10、GTSRB和ImageNet的一个子集上优于所有12种针对最先进(包括自适应)防御的后门攻击。此外,我们表明ABI始终提高了常见后门攻击的有效性。
总结: 该研究提出了一种在模型参数空间中增强后门攻击隐蔽性的创新方法Grond,并展示了其在多种防御机制下的优越性能。
###【arXiv编号】2501.05928v1
###【git】
###【期刊】
###【领域】计算机科学,人工智能,网络安全
=====
摘要: 随着技术创新的快速发展,传统的政策制定和立法方法变得明显过时。为了应对监管滞后的抑制效应,做出监管选择对于发展中市场和促进增长比追求一次性的监管完美更为重要。本文通过构建一个敏捷而稳健的前瞻性治理监管文化,推动了关于创新政策和欧洲联盟技术创新监管的学术研究。文章系统地挖掘了各种正在以创新方式使用的工具和元素,并主张这些工具和元素需要更加有机和系统地整合到监管工具箱中。所涵盖的方法包括战略前瞻、在不确定性面前关键地采用迭代政策发展和监管学习、以及采用自下而上的政策共创方法,如政策实验室,以及通过试点监管和实验进行的测试和监管学习。本文还探讨了作为欧盟政策工具的监管沙盒在促进创新和应对如欧盟AI法案所见的监管复杂性方面的日益使用。
总结: 本文探讨了通过前瞻性治理文化提升监管体系,以适应快速发展的技术创新,尤其在欧盟背景下的实践与策略。
###【arXiv编号】 arXiv:2501.05921v1
###【git】 无
###【期刊】 未发表
###【领域】 计算机科学,人工智能;创新政策与监管
=====
Affordably Fine-tuned LLMs Provide Better Answers to Course-specific MCQs
摘要: 在教育领域,大型语言模型(LLMs)生成类似人类的文本能力激发了关于如何提高学习和教学效率的研究。我们通过研究LLMs在回答多项选择题(MCQs)时的表现,考虑硬件限制和优化技术,探讨这些模型对教育工作者和学生的经济可负担性。具体而言,我们使用通用预训练的LLMs(LLaMA-2的7B、13B和70B变体)回答了162个本科编程语言(PL)课程的MCQs —— 这些MCQ数据集是本研究的贡献,我们将其公开提供。我们详细分析了不同因素,如使用现成的材料 —— 课程教材的部分内容 —— 进行微调和量化(以减少资源使用)如何影响回答的准确性。主要结论是,基于教材进行微调的较小模型优于通用的较大模型(其预训练需要大量资源),使得使用LLMs回答MCQs在资源和材料方面都具有经济可负担性。
总结: 微调和量化后的较小LLMs在回答课程特定MCQs方面优于更大的通用模型,实现了资源和材料的经济高效使用。
###【arXiv编号】2501.05891v1
###【领域】计算机科学-计算语言学, 计算机科学-人工智能
=====
摘要: 检测无人机图像中的小目标具有挑战性,因为图像分辨率低、背景复杂且场景动态。我们提出了EDNet,一种建立在增强的YOLOv10架构上的新型边缘目标检测框架,针对无需后处理的实时应用进行了优化。EDNet结合了XSmall检测头和Cross Concat策略,改善了特征融合和多尺度上下文感知能力,以在多样的环境中检测微小目标。我们独特的C2f-FCA模块采用Faster Context Attention来增强特征提取,同时降低计算复杂度。采用WIoU损失函数以改善边界框回归。EDNet提供从Tiny到XL的七种模型尺寸,适应各种部署环境,支持本地实时推理并确保数据隐私。值得注意的是,EDNet在mAP@50上提高了5.6%,参数量显著更少。在iPhone 12上,EDNet的各个变体运行速度在16到55 FPS之间,提供了一种可扩展且高效的解决方案,用于在挑战性的无人机图像中进行基于边缘的目标检测。源代码和预训练模型可在: https://github.com/zsniko/EDNet 获取。
总结: EDNet通过创新的架构优化,实现了无人机图像中小目标的高效实时检测。
###【arXiv:2501.05885v1】
###【https://github.com/zsniko/EDNet】
###【期刊】 预印本
###【领域】 计算机视觉, 人工智能, 机器学习
EDNet在小目标检测领域进行了多项创新,显著提升了检测性能和效率,适用于多种边缘设备,具有较高的实用价值。
=====
摘要: 文本到视频生成模型的出现革新了内容创作,因为它能够从文本提示中生成高质量的视频。然而,这些模型中固有的偏见问题引起了人们的关注,尤其是在性别表现方面。本研究调查了OpenAI的Sora——一款最先进的文本到视频生成模型——中的性别偏见。通过分析来自多样化的中性和刻板提示生成的视频,我们发现了显著的偏见证据。结果表明,Sora不成比例地将特定性别与刻板的行为和职业联系起来,这反映了其训练数据中嵌入的社会偏见。总结: 研究揭示了Sora模型在性别表现上的显著偏见,反映了训练数据中的社会偏见。
###【arXiv编号】2501.01987v2
###【git】
###【期刊】
###【领域】计算机视觉, 人工智能, 计算机与社会, 机器学习
该研究深入分析了文本到视频生成模型中的性别偏见问题,具有较高的创新性和实际应用价值,对推动模型公平性改进具有重要意义。
=====
摘要: Nonograms是逻辑谜题,玩家必须根据位于其标题中的数字来为网格中的单元格着色或保持空白。在本研究中,我们分析了使用启发式算法、遗传算法和结合神经网络的启发式算法解决此类逻辑问题的不同技术。此外,我们生成了一个公共数据集来训练神经网络。我们公开了该数据集和算法的代码。启发式算法与神经网络的结合获得了最佳结果。根据现有研究,没有先前的工作使用神经网络来解决Nonograms,也没有将网络与其他算法结合以加速求解过程。
总结: 结合神经网络和启发式算法的方法在解决Nonograms逻辑谜题中表现出色,填补了现有研究的空白。
###【arXiv编号】2501.05882v1
###【git】
###【期刊】
###【领域】计算机科学, 人工智能, 神经网络
=====
摘要: 检索增强生成(RAG)是一种有效的策略,通过检索与查询相关的外部知识并将其纳入生成过程,以解决基础模型生成事实不准确的问题。然而,现有的RAG方法主要集中于文本信息,最近一些进展开始考虑图像,但它们在很大程度上忽视了视频这一丰富的多模态知识源,视频能够比任何其他模态更有效地表示事件、过程和上下文细节。尽管最近有一些研究探索在响应生成过程中整合视频,但它们要么预定义与查询相关的视频而不是根据查询进行检索,要么将视频转换为文本描述而未能利用其多模态的丰富性。为了解决这些问题,我们提出了VideoRAG,这是一种新颖的框架,不仅能够根据查询的相关性动态检索相关视频,还在输出生成中利用视频的视觉和文本信息。此外,为了实现这一点,我们的方法围绕近期的大型视频语言模型(LVLMs)展开,这些模型能够直接处理视频内容以进行检索和表示,并将检索到的视频与查询无缝整合。我们通过实验验证了VideoRAG的有效性,展示其优于相关基线。
总结: VideoRAG通过动态检索相关视频并结合视觉与文本信息,提升了生成过程中的知识准确性和丰富性,表现优于现有方法。
###【arXiv编号】2501.05874v1
###【git】
###【期刊】
###【领域】计算机视觉、人工智能、自然语言处理、信息检索、语言学
=====
VLM驱动的行为树用于上下文感知任务规划
摘要: 最近在机器人社区中,利用大型语言模型(LLMs)生成行为树(BTs)受到关注,但仍处于早期发展阶段。本文提出了一个新颖的框架,利用视觉-语言模型(VLMs)交互式地生成和编辑行为树,以应对视觉条件,实现视觉复杂环境中的上下文感知机器人操作。我们的方法的一个关键特征是通过自我提示的视觉条件进行条件控制。具体而言,VLM生成带有视觉条件节点的行为树,其中条件以自由文本形式表达。另一个VLM过程将文本集成到其提示中,并在机器人执行过程中根据真实世界的图像评估这些条件。我们在实际的咖啡馆场景中验证了该框架,展示了其可行性和局限性。
总结: 提出了一种利用视觉-语言模型动态生成和调整行为树的方法,实现了机器人在复杂视觉环境中的上下文感知任务规划。
###【arXiv编号】
2501.03968v2
###【git】
###【期刊】
###【领域】
机器人学、人工智能、计算机视觉、人机交互
该研究创新性地结合视觉-语言模型生成行为树,为复杂视觉环境中的机器人任务规划提供了新方法,具有较高的实用性和前景,但在实际应用中可能面临一定的限制。
=====
摘要: 最近视觉语言模型的发展显著推进了视频理解。然而,现有的数据集和任务存在显著的局限性。大多数数据集限制在包含有限事件和狭窄叙事的短视频中。例如,包含教学和第一人称视角的视频数据集通常仅描绘一个人在单一场景中的活动。虽然现有的电影数据集提供了更丰富的内容,但它们通常局限于短期任务,缺乏公开可用的视频,并且在利用字幕和关于商业电影的其他信息进行大语言模型预训练时,常常遇到数据泄露问题。为了解决上述限制,我们提出了Short-Films 20K(SF20K),这是目前最大的公开可用电影数据集。SF20K由20,143部业余电影组成,并以多项选择题和开放式问题回答的形式,提供了长期的视频任务。我们对SF20K的广泛分析揭示了最小的数据泄露,强调了长期推理的需求,并展示了近期视觉语言模型的强大性能。最后,我们表明,在SF20K-Train集上进行指令调优显著提升了模型性能,为未来长期视频理解的进展铺平了道路。
总结: 本文提出了规模最大的公开电影数据集SF20K,并展示了其在长期视频理解任务中的有效性。
###【arXiv编号】arXiv:2406.10221v2
###【领域】计算机视觉、人工智能、计算语言学
=====
摘要: 虽然退火机(AM)在解决复杂组合问题方面展示了越来越强的能力,定位为未来全量子解决方案预期进展的更直接替代,但仍存在扩展限制。同时,图神经网络(GNN)近年来已被调整用于解决组合问题,显示出具有竞争力的结果及由于其分布式特性潜在的高度可扩展性。我们提出了一种合并方法,旨在保留退火机所表现的准确性以及GNN的表示灵活性和可扩展性。我们的模型考虑了一个压缩步骤,随后进行监督交互,其中从AM获得的部分解决方案被用于指导本地GNN,从中获取节点特征表示,并结合这些表示来初始化一个额外的基于GNN的求解器,处理原始图的目标问题。直观而言,AM可以通过将其知识注入到GNN中,间接解决组合问题。针对规范优化问题的实验表明,该想法是可行的,有效地使AM能够解决超出其原始限制的规模问题。
总结: 该研究提出了一种结合退火机和图神经网络的混合方法,以提升组合优化问题的解决能力和可扩展性。
###【arXiv:2501.05845v1】
###【期刊】暂无
###【领域】计算机科学,人工智能,机器学习,优化
=====
摘要: 图像说明生成是计算机视觉与自然语言处理交叉的关键任务,广泛应用于各个领域。对于诊断报告生成等复杂任务,深度学习模型不仅需要领域特定的图像说明数据集,还需整合相关的通用知识以确保上下文的准确性。现有方法存在固有限制:专门的模型在捕捉领域特定细节方面表现优异,但缺乏泛化能力;而基于大型语言模型(LLMs)的视觉语言模型(VLMs)虽然利用了通用知识,但在领域特定适应方面表现不足。为解决这些问题,本文提出了一种新颖的基于代理的模型协作框架——MoColl,旨在有效整合领域特定与通用知识。具体而言,我们的方法将复杂的图像说明任务分解为一系列相互关联的问题-答案子任务。训练有素的视觉问答(VQA)模型被用作专门工具,专注于领域特定的视觉分析,基于图像内容回答任务特定的问题。与此同时,基于LLM的代理利用通用知识制定这些问题,并将生成的问题-答案对综合成连贯的说明。代理不仅利用VQA模型,还引导其训练以增强领域特定能力。对放射学报告生成的实验结果验证了该框架的有效性,显著提升了生成报告的质量。
总结: MoColl框架通过代理增强的模型协作,成功结合领域特定与通用知识,显著提升了图像说明生成的质量。
###【arXiv编号】2501.01834v2
###【git】无
###【期刊】未发表
###【领域】计算机视觉,人工智能
该研究创新性地整合了领域特定的视觉问答模型与大型语言模型,通过任务分解和代理指导,实现了高效的模型协作,在专业应用如放射学报告生成中展现出显著的实用性和效果提升,具有较高的创新性和应用价值。
=====
摘要:近年来,多模态大型语言模型(MLLM)取得了显著进展,显示了开发智能生物医学助手的可行性。然而,当前的生物医学MLLM主要集中在图像级理解,并将交互限制在文本命令上,因此限制了其能力范围和使用的灵活性。在本文中,我们介绍了一种新颖的面向生物医学领域的端到端多模态大型语言模型,命名为MedPLIB,它具备像素级理解能力。令人兴奋的是,它支持视觉问答(VQA)、任意像素级提示(点、边界框和自由形状)以及像素级定位。我们提出了一种新颖的专家混合(MoE)多阶段训练策略,该策略将MoE分为视觉-语言专家模型和像素定位专家模型的独立训练阶段,然后通过MoE进行微调。这一策略有效协调了多任务学习,同时在推理时的计算成本与单一专家模型相当。为了推进生物医学MLLM的研究,我们引入了医疗复杂视觉问答数据集(MeCoVQA),该数据集包括8种模态,用于复杂的医学影像问答和图像区域理解。实验结果表明,MedPLIB在多个医学视觉语言任务中达到了最先进的成果。更重要的是,在像素定位任务的零样本评估中,MedPLIB分别以19.7和15.6的mDice指标领先于最好的小模型和大模型。代码、数据和模型检查点将公开发布在https://github.com/ShawnHuang497/MedPLIB。
总结:MedPLIB是一种具备像素级理解能力的创新性生物医学多模态大型语言模型,通过新颖的专家混合训练策略,在多个医学视觉语言任务中实现了最先进的性能。
###【arXiv编号】2412.09278v2
###【git】https://github.com/ShawnHuang497/MedPLIB
###【期刊】
###【领域】计算机视觉, 人工智能, 生物医学
=====
摘要: 目的:糖尿病视网膜病变(DR)是导致视力丧失的主要原因,尤其在印度,农村地区眼科专家的获取有限。本研究旨在评估基于人工智能的糖尿病视网膜病变筛查系统(AIDRSS)在DR检测和患病率评估方面的效果,满足资源有限环境中可扩展、自动化筛查解决方案日益增长的需求。方法:在印度加尔各答进行了一项多中心的横断面研究,涉及5029名参与者和10058张以黄斑为中心的视网膜底片图像。AIDRSS采用了一个具有5000万个可训练参数的深度学习算法,集成了对比受限自适应直方图均衡化(CLAHE)预处理以提高图像质量。使用国际临床糖尿病视网膜病变(ICDR)等级标准将DR分为五个阶段(DR0到DR4)。通过与专家眼科医生评估进行比较,评估了敏感性、特异性和患病率等统计指标。结果:普通人群中DR的患病率为13.7%,在随机血糖水平升高的个体中增加到38.2%。AIDRSS在检测可转诊DR(DR3和DR4)方面实现了92%的总体敏感性、88%的特异性和100%的敏感性。这些结果证明了该系统在准确识别和分级多样人群中的DR方面具有稳健的性能。结论:AIDRSS为资源受限环境中的早期DR检测提供了可靠、可扩展的解决方案。其先进的AI技术的集成确保了高诊断准确性,有潜力显著减少服务不足地区糖尿病相关视力丧失的负担。
总结: AIDRSS系统通过先进的人工智能技术,在印度多中心研究中实现了高效、准确的糖尿病视网膜病变筛查,适用于资源有限的环境。
###【arXiv编号】2501.05826v1
###【期刊】
暂无
###【领域】
计算机科学 - 人工智能、计算机视觉;电子工程 - 信号处理
=====
摘要: 无人机(UAV)在现代通信网络中被越来越多地采用。然而,决策制定和数字建模方面的挑战继续阻碍它们的快速发展。强化学习(RL)算法面临诸如样本效率低和数据多样性有限的限制,这在UAV通信场景中进一步放大。此外,数字孪生(DT)建模引入了大量的决策制定和数据管理复杂性。RL模型,通常集成到DT框架中,需要大量的训练数据以实现准确的预测。与专注于类别边界的传统方法不同,扩散模型(DM)作为新一类的生成式AI,从训练数据中学习潜在的概率分布,并能够基于这种学习的分布生成可信的新模式。本文探讨了DM与RL和DT集成以有效解决这些挑战。通过将DM的数据生成能力与RL的决策制定框架和DT的建模准确性相结合,该集成提高了UAV通信的适应性和实时性能。此外,研究表明DM可以缓解数据稀缺性,改进策略网络,并优化动态建模,为复杂的UAV通信场景提供了强健的解决方案。
总结: 本文通过整合扩散模型、强化学习和数字孪生,提升了无人机通信的适应性和实时性能。
###【arXiv编号】2501.05819v1
###【git】
###【期刊】
###【领域】计算机科学、人工智能、无人机通信
该研究创新性地将扩散模型与强化学习和数字孪生结合,提供了改善无人机通信性能的有效方法,实用性强,适合智能无人机领域的进一步研究。
=====
摘要: 在过去的两年中,人们对大型语言模型(LLMs)的安全性问题迅速增长。研究人员和从业者通过创建大量用于评估和改进LLMs安全性的数据集来应对这些担忧。然而,这些工作的进行往往是并行且目标各异,从缓解偏见和有毒内容生成等近期风险到评估长期灾难性风险潜力不一而足。这使得研究人员和从业者难以找到最相关的数据集来满足其使用需求,并且难以识别未来工作可以填补的数据集覆盖空白。为了解决这些问题,我们进行了首个系统性回顾,评估和改进LLM安全性的开放数据集。我们回顾了144个数据集,这些数据集是通过几个月的迭代和社区驱动过程识别出来的。我们指出了诸如完全合成数据集趋势等模式和趋势,以及数据集覆盖的空白,如明显缺乏非英语和自然主义数据集。我们还检查了LLM安全性数据集在实践中的使用情况——在LLM发布出版物和流行的LLM基准测试中——发现当前的评估实践高度特异化,并且仅使用了可用数据集的一小部分。我们的贡献基于SafetyPrompts.com,这是一个用于LLM安全性的开放数据集动态目录,我们计划随着LLM安全领域的发展不断更新该目录。
总结: 该文章系统性地回顾和评估了用于大型语言模型安全性的开放数据集,揭示了当前数据集使用的趋势与不足。
###【arXiv编号】2404.05399v2
###【git】
###【期刊】
###【领域】大型语言模型安全
该研究全面整合和分析了144个开放数据集,为LLM安全评估提供了宝贵的资源和洞见,帮助研究人员和从业者识别和填补数据集覆盖的空白,具有较高的实用价值和创新性。
=====
摘要: 在大数据时代,数据质量问题日益突出。其中一个主要挑战是数据重复问题,可能由重复输入或合并多个数据源引起。这些“脏数据”问题会显著限制大数据的有效应用。为了解决数据重复问题,我们提出了一种基于主动学习的预训练重复数据删除模型,这是首个利用主动学习在语义层面解决重复问题的工作。该模型基于预训练的Transformer构建,微调以将重复问题作为序列到分类任务来解决,首次将Transformer与主动学习集成到端到端架构中,以选择最有价值的数据用于重复数据删除模型训练,同时首次采用R-Drop方法对每轮标注数据进行数据增强,减少人工标注成本并提高模型性能。实验结果表明,我们提出的模型在重复数据识别方面优于之前的最先进技术(SOTA),在基准数据集上召回率提升了28%。
总结: 本文提出了一种结合主动学习和预训练Transformer的创新数据去重模型,显著提升了重复数据识别的效果。
###【arXiv编号】2308.00721v4
###【git】
###【期刊】
###【领域】计算机科学,机器学习,人工智能
=====
摘要: 合作多智能体强化学习(MARL)旨在开发能够有效协作的智能体。然而,大多数合作型MARL方法在训练智能体时过拟合,导致学习到的策略无法很好地推广到未见过的合作者,这在实际部署中是一个关键问题。一些方法试图解决泛化问题,但需要新队友的先验知识或预定义策略,限制了实际应用。为此,我们提出了一种分层MARL方法,通过角色多样性实现可泛化的合作,称为CORD。CORD的高层控制器通过最大化角色熵并施加约束来为低层智能体分配角色。我们展示了这一受约束的目标可以分解为角色中的因果影响,从而实现合理的角色分配,以及角色异质性,从而产生连贯、非冗余的角色集群。在各种合作多智能体任务上的评估表明,CORD在基线方法中表现更好,尤其是在泛化测试中。消融研究进一步证明了受约束目标在可泛化合作中的有效性。
总结: CORD通过引入角色多样性的分层方法,显著提升了合作多智能体强化学习的泛化能力,特别是在面对新合作者时表现出色。
###【arXiv编号】2501.02221v2
###【git】
###【期刊】
###【领域】计算机科学 - 人工智能, 机器学习, 应用数学
=====
《基于深度强化学习的实时集成调度与空闲车队引导用于餐饮配送平台》
摘要: 为了实现高服务质量和盈利能力,像Uber Eats和Grubhub这样的餐饮配送平台必须战略性地运营其车队,以确保当前订单的及时交付,同时减轻由次优决策导致的未来快递员人手不足的后果。本研究旨在通过提出一个基于强化学习(RL)的战略双重控制框架,解决餐饮配送平台的实时订单调度和空闲快递员引导问题。为了解决这些问题固有的序贯性质,我们将订单调度和快递员引导建模为马尔可夫决策过程。通过深度强化学习(DRL)框架进行训练,我们利用显式预测的需求作为输入获取战略策略。在我们的双重控制框架中,调度和引导策略以集成方式迭代训练。这些前瞻性的策略可以实时执行,并在提供决策时共同考虑对本地和网络层面的影响。为了增强调度公平性,我们提出了卷积深度Q网络来构建公平的快递员嵌入。为了在服务网络中同时重新平衡供需,我们建议利用均场近似的供需知识在本地重新分配空闲快递员。利用RL基于的战略双重控制框架生成的策略,我们发现配送效率和快递员之间工作负载分配的公平性得到了提高,服务网络中的供应不足状况得到了缓解。本研究为设计一个基于RL的框架以实现餐饮配送平台和其他按需服务的前瞻性实时运营提供了洞察。
总结: 该研究通过深度强化学习框架优化了餐饮配送平台的实时调度与车队管理,提高了配送效率和工作负载的公平性。
###【arXiv:2501.05808v1】
###【git】
###【期刊】
###【领域】
计算机科学、人工智能、系统与控制
=====
摘要: 除了自然语言处理,变换器在解决更广泛的应用中表现出色,包括科学计算和计算机视觉。以前的研究试图从表达能力和性能角度解释标准变换器能够执行某些算法的能力。为了增强变换器的算法能力,并受到最近提出的循环变换器的启发,我们设计了一种新颖的变换器框架,称为算法变换器(简称 AlgoFormer)。我们提供了一种见解,即利用任务的先验知识和潜在算法的底层结构,可以设计高效的变换器架构。与标准变换器和原始的循环变换器相比,所提出的 AlgoFormer 在某些特定任务中的算法表示上能更高效地执行。具体来说,受人类设计的学习算法结构的启发,我们的变换器框架由负责任务预处理的预变换器、用于迭代优化算法的循环变换器以及在后处理后产生所需结果的后变换器组成。我们提供了理论证据,证明 AlgoFormer 在解决一些具有挑战性的问题方面具有表达能力,类似于人类设计的算法。此外,提出了一些理论和实证结果,显示设计的变换器在算法表示和学习方面具有潜力。实验结果表明,所提出的变换器在某些特定任务上优于标准变换器和原始循环变换器。在真实语言任务(如德英神经机器翻译和文本分类)上的广泛实验进一步验证了 AlgoFormer 的表达力和有效性。
总结: AlgoFormer 通过结合任务先验和算法结构优化,显著提升了变换器在特定任务中的算法表示与性能。
###【arXiv编号】2402.13572v2
###【git】
###【期刊】
###【领域】计算机科学,机器学习,人工智能
=====
摘要: 扩散模型在生成任务中表现出色,但在保持其多功能性的同时,使其与特定目标对齐仍然具有挑战性。现有的微调方法往往存在奖励过度优化的问题,而近似指导方法则未能有效优化目标奖励。针对这些限制,我们提出了一种基于顺序蒙特卡洛(SMC)的无训练采样方法,以从奖励对齐的目标分布中进行采样。我们的方法针对扩散采样进行了定制,并结合了降温技术,在保持多样性和跨奖励泛化性的同时,实现了与微调方法相当或更高的目标奖励。我们展示了其在单一奖励优化、多目标情景以及在线黑盒优化中的有效性。这项工作为在不牺牲扩散模型的通用能力的情况下,将其与多样的下游目标对齐提供了一个稳健的解决方案。代码可在 https://github.com/krafton-ai/DAS 获取。
总结: 提出了一种无需训练的采样方法,有效对齐扩散模型与多样化目标,同时保持其生成多样性和泛化能力。
###【arXiv编号】
arXiv:2501.05803v1
###【git】
https://github.com/krafton-ai/DAS
###【期刊】
未提供
###【领域】
机器学习, 人工智能, 计算机视觉, 数理统计, 统计理论
=====
摘要: 近年来,机器学习中的可解释性变得越来越重要。在此背景下,反事实解释(CE)作为一种利用示例的解释方法,受到了关注。然而,有人指出,当存在多个机器学习模型时,CE的鲁棒性不佳。这些问题在使用机器学习做出安全决策时尤为重要。在本文中,我们提出了引入新的视角——帕累托改进——的鲁棒CE,并使用多目标优化生成它的方法。为了评估所提出的方法,我们使用模拟数据和实际数据进行了实验。结果表明,所提出的方法具有鲁棒性和实用性。我们相信,这项研究将为机器学习的可解释性、基于机器学习的决策制定和行动规划等广泛的研究领域做出贡献。
总结: 本文通过多目标优化方法提出了一种在模型多样性下具有鲁棒性的反事实解释,提升了机器学习模型的可解释性与决策安全性。
###【arXiv编号】
2501.05795v1
###【git】
无
###【期刊】
无
###【领域】
机器学习可解释性、决策制定、行动规划
该研究通过引入帕累托改进视角和多目标优化方法,有效提升了反事实解释在模型多样性下的鲁棒性,具有较高的创新性和实用性,适用于提高机器学习系统的解释能力和决策安全。
=====
摘要: 在人类反馈强化学习(RLHF)中,学习适当的奖励模型以使大型语言模型(LLMs)与人类意图对齐至关重要。然而,人类反馈往往存在噪声、不一致或偏见,尤其在评估复杂反应时。这种反馈可能导致奖励信号错位,进而在RLHF过程中引发意外的副作用。为应对这些挑战,我们探讨了使用影响函数来衡量人类反馈对奖励模型性能的影响。我们提出了一种计算效率高的近似方法,使影响函数能够应用于基于LLM的奖励模型和大规模偏好数据集。在实验中,我们展示了影响函数的两个关键应用:(1)检测人类反馈数据集中常见的标注者偏见形式;(2)指导标注者优化策略,以更紧密地与专家反馈对齐。通过量化人类反馈对奖励模型的影响,我们认为影响函数能够增强反馈的可解释性,并有助于RLHF中的可扩展监督,帮助标注者提供更准确和一致的反馈。源代码可在 GitHub 获取。
总结: 本文通过影响函数的方法分析和优化人类反馈在奖励模型中的作用,提升了RLHF过程中的对齐和监督效果。
###【arXiv编号】2501.05790v1
###【git】: https://github.com/mintaywon/IF_RLHF
###【期刊】: 无
###【领域】: 人工智能,强化学习,人机交互,机器学习
=====
摘要: 多视图聚类(MvC)旨在整合来自不同视图的信息,以增强模型捕捉数据潜在结构的能力。MvC中广泛使用的联合训练范式可能无法充分利用多视图信息,因为统一的学习目标导致视图特定特征的不平衡和欠优化。例如,具有更具区分性信息的特定视图可能主导学习过程,导致其他视图被欠优化。为缓解这一问题,我们首先从梯度下降的角度分析了多视图聚类联合训练范式中的不平衡现象,针对每个视图特定的特征提取器。然后,我们提出了一种新颖的平衡多视图聚类(BMvC)方法,该方法引入了视图特定对比正则化(VCR)来调节每个视图的优化过程。具体而言,VCR将来自联合特征和视图特定特征捕获的样本相似性保存在对应于视图特定特征的聚类分布中,以增强视图特定特征提取器的学习过程。此外,我们提供了理论分析,说明VCR如何自适应地调节梯度大小,以更新视图特定特征提取器的参数,实现平衡的多视图学习过程。通过这种方式,BMvC在利用视图特定模式和探索视图不变模式之间取得了更好的平衡,以充分学习用于聚类任务的多视图信息。最后,我们在八个基准MvC数据集和两个空间分辨的转录组学数据集上进行了实验,验证了所提出方法相比最先进方法的优越性。
总结: 本文提出了一种新颖的平衡多视图聚类方法,通过视图特定对比正则化改善多视图信息整合,效果优于现有方法。
###【arXiv编号】2501.02564v2
###【git】
###【期刊】
###【领域】计算机视觉、人工智能、机器学习
该研究创新性地解决了多视图聚类中的视图不平衡问题,并通过实验证明了其在多个数据集上的优越性能,具有较高的实用价值。
=====
摘要: 近年来,针对使用补丁或基于静态3D模型的纹理修改进行的人体检测对抗攻击因人类运动的灵活性而成功率较低。模拟由各种动作引起的3D变形一直是一个重大挑战。幸运的是,动态人类建模的神经辐射场(NeRF)取得的进展提供了新的可能性。本文介绍了UV-Attack,这是一种突破性的方法,即使在广泛和未见过的人类动作下也能实现高成功率。我们通过利用基于动态NeRF的UV映射解决了上述挑战。UV-Attack可以在不同的动作和视角下生成人体图像,甚至通过从SMPL参数空间采样创建新的动作。虽然动态NeRF模型能够对人体进行建模,但修改服装纹理具有挑战性,因为它们嵌入在神经网络参数中。为此,UV-Attack生成UV映射而不是RGB图像,并修改纹理堆栈。这种方法实现了实时纹理编辑,并使攻击更加实用。我们还提出了一种新的姿态变换期望损失(EoPT),以提高在未见过的姿态和视角上的规避成功率。实验表明,UV-Attack在动态视频环境中对FastRCNN模型的攻击成功率达到92.75%,远远超过了最新AdvCamou攻击的28.50% ASR。此外,在黑盒设置下,我们在最新的YOLOv8检测器上实现了49.5%的ASR。这项工作凸显了基于动态NeRF的UV映射在创建更有效的人体检测对抗攻击方面的潜力,解决了建模人类运动和纹理修改方面的关键挑战。
总结: UV-Attack利用动态NeRF的UV映射技术,显著提高了实世界中对人体检测系统的对抗攻击成功率,解决了人体运动和纹理修改的关键挑战。
###【arXiv编号】2501.05783v1
###【期刊】暂无
###【领域】计算机视觉与人工智能中的人体检测与对抗攻击
###【推荐指数:5】
=====
摘要: 传感器通常用于感知环境。然而,由于高成本,传感器通常稀疏部署。克里金是一项专门用于利用观测源节点(有传感器)推断未观测节点(无传感器)的任务。克里金任务的本质是可迁移性。最近,基于图神经网络提出了几种归纳时空克里金方法,这些方法基于通过预训练任务(如遮蔽节点并重建它们)构建的图进行训练。然而,训练中的图不可避免地比推断中的图更稀疏,后者包括所有观测和未观测节点。所学模式无法很好地泛化到推断中,称为图间隙。为了解决这个问题,我们首先提出了一种新颖的增量训练策略:不是遮蔽节点(并重建它们),而是在训练图中添加虚拟节点,以自然地缓解图间隙问题。然而,空壳的虚拟节点没有标签,可能具有不良的学习特征并缺乏监督信号。为了解决这些问题,我们将每个虚拟节点与其最相似的观测节点配对并融合它们的特征;为了增强监督信号,我们为虚拟节点构建了可靠的伪标签。因此,虚拟节点的学习模式可以安全地转移到真实的未观测节点,实现可靠的克里金。我们将采用增量训练策略的新克里金模型命名为KITS。大量实验证明,KITS 始终大幅优于现有的克里金方法,例如,MAE 分数的提升可高达18.33%。
总结: 提出了一种新的增量训练策略KITS,通过添加虚拟节点和伪标签显著提升时空克里金性能。
=====
摘要: 对清真化妆品日益增长的需求带来了显著的挑战,尤其是在穆斯林占多数的国家。近年来,各种基于机器学习的策略,例如基于图像的方法,在预测化妆品的清真状态方面取得了显著成功。然而,这些方法主要关注于分析单个化妆品中离散和特定的成分,忽略了化妆品与成分之间高阶且复杂的关系。为了解决这个问题,我们提出了一个名为HaCKG的清真化妆品推荐框架,该框架利用化妆品及其成分的知识图谱来显式建模和捕捉化妆品与其组成部分之间的关系。通过将化妆品和成分表示为知识图谱中的实体,HaCKG有效地学习了实体之间的高阶和复杂关系,提供了一种可靠的预测清真状态的方法。具体来说,我们首先构建了一个化妆品知识图谱,表示各种化妆品、成分及其属性之间的关系。然后,我们提出了一种带有残差连接的预训练关系图注意力网络模型,以学习知识图谱中实体之间的结构关系。随后,预训练模型在下游化妆品数据上进行微调,以预测清真状态。在清真预测任务的化妆品数据集上进行的广泛实验表明,我们的模型优于最先进的基线模型。
总结: 我们提出了一个基于知识图谱的机器学习框架HaCKG,能够有效预测化妆品的清真状态,超越现有基线方法。
###【arXiv:2501.05768v1】
###【git】
###【期刊】
###【领域】计算机科学、机器学习、人工智能;应用于清真化妆品预测
=====
摘要: 确保人工智能(AI)系统在其日益普及和影响力下的伦理行为是全球关注的一个重要问题。本文提出了一种基于义务逻辑的形式化方法,用于定义和评估AI系统的伦理行为,重点关注系统级规范,为实现这一重要目标做出了贡献。本文引入了公理和定理,以捕捉与公平性和可解释性相关的伦理要求。形式化方法结合了时态运算符,以对AI系统随时间变化的伦理行为进行推理。作者通过评估现实世界中的COMPAS和贷款预测AI系统的伦理性,验证了这种形式化方法的有效性。通过使用义务逻辑公式对COMPAS和贷款预测系统的各种伦理属性进行编码,允许使用自动定理证明器来验证这些系统是否满足定义的属性。形式验证显示,这两个系统在公平性和非歧视性相关的某些关键伦理属性上未能满足要求,证明了所提出的形式化方法在识别现实世界AI应用中的潜在伦理问题方面的有效性。
总结: 本文提出了一种基于义务时态逻辑的形式化方法,有效验证了现实AI系统中的伦理问题。
###【arXiv编号】 arXiv:2501.05765v1
###【git】
###【期刊】
###【领域】AI伦理、形式验证
=====
摘要: 二阶优化器通过维护一个称为预条件器的矩阵,在理论和实践中都优于一阶优化器。预条件器及其逆根的状态限制了二阶优化器可训练模型的最大规模。为了解决这一问题,将32位优化器状态压缩到较低位宽已显示出减少内存使用的潜力。然而,目前的方法仅适用于一阶优化器。本文提出了第一个4位二阶优化器,以4-bit Shampoo为例,保持了与32位优化器相似的性能。我们展示了在4-bit Shampoo中对预条件器的特征向量矩阵进行量化,在理论和实验上都显著优于对预条件器本身进行量化。通过修正量化后特征向量矩阵的正交性,我们提高了预条件器特征向量矩阵的近似度,这也有利于其逆四次根的计算。此外,我们发现线性平方量化在量化二阶优化器状态时略优于动态树量化。在各种图像分类和自然语言建模网络上的评估表明,我们的4-bit Shampoo实现了与32位对应物相当的性能,同时具有更高的内存效率。
总结: 4-bit Shampoo通过低位宽量化实现了内存高效的网络训练,同时保持了二阶优化器的性能。
###【arXiv编号】2405.18144v3
###【git】
###【期刊】
###【领域】计算机科学, 机器学习, 人工智能
该论文首次提出4位二阶优化器,有效降低内存使用且性能保持稳定,具有较高的创新性和实用价值,适合进一步研究和应用。
=====
摘要: 近期大型语言模型(LLMs)的进展在需要多步推理方法(如树搜索)以探索多样化推理路径的各种复杂任务中显示出显著潜力。然而,现有方法往往存在计算效率低和冗余问题。首先,它们忽视了任务难度的多样性,即使对于简单任务也导致不必要的广泛搜索。其次,它们忽略了推理路径的语义,导致语义相同路径的冗余探索。为了解决这些限制,我们提出了语义探索与自适应门控(SEAG),一种计算高效的方法。SEAG采用自适应门控机制,根据前一个简单推理方法的答案置信度动态决定是否进行树搜索。此外,其基于树的探索整合了语义相同的推理步骤,减少了冗余探索,同时保持甚至提高了准确性。我们的广泛实验表明,SEAG在复杂推理基准(包括GSM8K和ARC)上,相较于现有基于树搜索的方法,在使用多样化语言模型如Llama2、Llama3和Mistral的情况下,平均准确性提升了4.3%,而计算成本仅为31%。
总结: SEAG通过自适应门控机制和语义冗余整合,显著提高了语言模型在复杂推理任务中的准确性和计算效率。
###【arXiv编号】: 2501.05752v1
###【git】: 未提供
###【期刊】: 未提供
###【领域】: 计算机科学 - 人工智能,计算机语言学
=====
摘要: 自注意力(SA)机制在各个领域显示出卓越的性能,但在训练和推理过程中存在着高复杂度。下一代架构旨在保留SA的竞争性能,同时实现低成本的推理和高效的长序列训练,主要关注线性注意力、线性循环神经网络(RNN)和状态空间模型。尽管这些方法相比SA具有降低复杂度的优点,但它们都存在“尖锐度”减弱和历史信息压缩等性能下降因素。相比之下,我们提出了一种新颖的逐元素注意力机制,使用逐元素平方欧几里得距离代替点积操作来计算相似性,并通过泰勒多项式近似二次复杂度项 exp ( q i c k j c ) \exp(q_{ic}k_{jc}) exp(qickjc)。这种设计实现了显著的效率:在训练过程中,逐元素注意力的复杂度为 O ( t L D ) \mathcal{O}(tLD) O(tLD),使得长序列训练在计算和内存上都具有高效性,其中 L L L是序列长度, D D D是特征维度, t t t是多项式的最高阶;在推理过程中,它可以被重构为递归神经网络,实现了 O ( t D ) \mathcal{O}(tD) O(tD)的推理复杂度。此外,逐元素注意力避免了这些方法中存在的性能下降因素,并在因果和非因果形式上实现了与SA相当的性能。
总结: 提出了一种高效且性能优越的逐元素注意力机制,克服了现有方法的性能下降问题。
###【arXiv:2501.05730v1】
###【期刊】
###【领域】计算机科学,人工智能,机器学习
=====
摘要: 在说话人验证中,我们使用计算方法来验证一个语音是否与注册说话人的身份匹配。这个任务类似于法医声音比较的手动任务,其中结合了语言学分析和听觉测量来比较和评估语音样本。尽管取得了许多成功,但我们尚未开发出能够提供类似于法医声音比较的可解释结果的说话人验证系统。本文提出了一种新颖的方法,即可解释的音素特征导向(ExPO)网络,引入了描述说话人音素层面特征的特征,类似于法医比较所做的。ExPO不仅生成语句级的说话人嵌入,还允许对音素特征进行细粒度的分析和可视化,提供可解释的说话人验证过程。此外,我们从同一说话人内的变化和不同说话人之间的变化两个角度研究了音素特征,以确定哪种特征对说话人验证最有效,这是朝着可解释的说话人验证迈出的重要一步。我们的代码可在 https://github.com/mmmmayi/ExPO 上获得。
总结: 提出了一种可解释的音素特征导向网络,增强了说话人验证系统的可解释性和精确性。
###【arXiv编号】2501.05729v1
###【git】https://github.com/mmmmayi/ExPO
###【期刊】
###【领域】说话人验证、可解释性人工智能、音频处理
=====
摘要: 尽管大型语言模型(LLM)表现出色,但其开发面临可扩展监督的关键挑战:为人类评估困难或LLM优于人类的任务提供有效反馈。尽管越来越多的研究关注于使用LLM进行批评,但当前的方法仍依赖于人工注释或更强大的模型,未解决在无需外部监督的情况下增强批评能力的问题。我们引入了SCRIT(自演化批评家),这是一个使批评能力真正自我演化的框架。从技术上讲,SCRIT通过训练合成数据来自我改进,这些合成数据由基于对比的自我批评家生成,使用参考解决方案进行逐步批评,以及通过纠正结果确保批评质量的自我验证机制。SCRIT采用其中一个最强大的LLM——Qwen2.5-72B-Instruct,实现了在批评纠正和错误识别基准上最高10.3%的改进。我们的分析表明,SCRIT的性能与数据和模型规模呈正相关,优于替代方法,并且其自我验证组件至关重要地带来了益处。
总结: SCRIT框架通过自我演化批评能力,实现了大型语言模型在可扩展监督方面的显著提升。
###【arXiv:2501.05727v1】
###【期刊】
###【领域】计算机科学, 人工智能, 机器学习
=====
摘要: 在各种应用场景中,收集同一组样本的多种不同类型的数据变得越来越常见。本文特别关注研究这种多视图特征与响应之间的关系。一个激励的应用是精准医学领域,其中收集多组学数据以与临床结果相关联。旨在推断视图内部和跨视图的依赖性,同时结合多模态信息以提高结果的预测。各视图的信噪比可能有很大差异,因此需要比标准的后期融合和早期融合作更细致的统计工具。这个挑战需要保持可解释性、选择特征并获得准确的不确定性量化。我们提出了一种联合加性因子回归模型(JAFAR)具有结构化加性设计,考虑共享和视图特定成分。通过新颖的依赖累积收缩过程(D-CUSP)先验确保可识别性。我们提供了一种通过部分坍缩的Gibbs采样器的有效实现,并扩展我们的方法以允许灵活的特征和结果分布。从免疫组、代谢组和蛋白质组数据预测劳动开始时间展示了在性能上超过了最先进的竞争对手。我们的开源软件(R包)可在 GitHub 获得。
总结: 提出了一种用于多视图学习的联合加性因子回归模型,通过多模态数据提高了临床结果预测的准确性。
2406.00778v3
https://github.com/niccoloanceschi/jafar
暂无
统计学、计算机科学、人工智能
该研究在多视图学习和多组学数据分析方面具有创新性,提供了有效的模型和开源工具,具有较高的实用性,适用于精准医学等多个应用领域,但仍需在更多实际场景中验证其广泛适用性。
=====
摘要: 富有表现力的零样本语音转换(VC)是一项关键且具有挑战性的任务,旨在在保留原始内容和表现力的同时,将源语音的音色转换为任意未见过的说话者。尽管零样本VC最近取得了一定进展,但在说话者相似性和语音自然度方面仍有相当大的改进空间。此外,现有的零样本VC系统在高度表现性的语音中难以完全再现副语言信息,如呼吸、哭泣和情感细微差别,限制了其实际应用性。为了解决这些问题,我们提出了Takin-VC,这是一种新颖的富有表现力的零样本VC框架,通过自适应混合内容编码和增强的音色建模实现。具体而言,我们引入了一种创新的混合内容编码器,包含自适应融合模块,能够以隐式方式有效整合预训练WavLM和HybridFormer的量化特征,从而提取精确的语言特征的同时丰富副语言元素。对于音色建模,我们提出了先进的增强记忆和上下文感知模块,以生成高质量的目标音色特征和融合表示,能够无缝对齐源内容与目标音色。为了提升实时性能,我们倡导使用条件流匹配模型来重构源语音的梅尔频谱。实验结果表明,我们的Takin-VC在语音自然度、语音表现力和说话者相似性方面持续超越最先进的VC系统,同时提供了更快的推理速度。 总结: Takin-VC是一种新颖的零样本语音转换框架,通过自适应混合内容编码和增强音色建模,有效提升了语音自然度、表现力和说话者相似性。
###【arXiv编号】2410.01350v2
###【git】
###【期刊】
###【领域】计算机科学,人工智能,电子工程
=====
摘要: 随机数值线性代数(RandNLA)的算法在处理高维计算问题时表现出色,既提供了高质量的经验性能,也有强大的概率保证。然而,其实际应用受到用户需要设置各种算法特定调优参数的复杂性影响,这些参数与传统的数值线性代数使用的参数不同。本文展示了如何使用基于代理模型的自动调优方法来解决RandNLA算法中的参数选择的基本问题。具体而言,我们对基于草图与预处理(SAP)的随机最小二乘法进行了详细调查,该方法一直是现代RandNLA的成功案例之一。实证结果表明,我们的基于代理模型的自动调优方法可以在远低于随机搜索的调优成本下达到近似最优的性能(参数配置试验次数减少约4倍)。此外,尽管我们的实验聚焦于最小二乘法,我们的结果展示了一种适用于任何RandNLA算法的通用自动调优流程。
总结: 本文提出了一种基于代理模型的自动调优方法,有效降低了随机数值线性代数算法的参数调优成本。
###【arXiv编号】2308.15720v2
###【git】
###【期刊】
###【领域】计算机科学,数值分析,人工智能
=====
摘要: 最近无人机在研究海洋动物方面的广泛应用为从空中影像中提取生物学信息提供了机会。无人机获取的大规模影像数据非常适合机器学习(ML)分析。用于分析海洋动物空中影像的ML模型开发遵循传统范式,即为每个数据集训练、测试和部署新模型,这需要大量时间、人力和ML专业知识。我们引入了Frame Level ALIgment and tRacking (FLAIR),利用Segment Anything Model 2 (SAM2)的视频理解和Contrastive Language-Image Pre-training (CLIP)的视觉语言能力。FLAIR以无人机视频为输入,输出整个视频中感兴趣物种的分割掩码。值得注意的是,FLAIR采用零样本方法,消除了对标记数据、训练新模型或微调现有模型的需求,能够推广到其他物种。通过一个包含18,000张太平洋护士鲨无人机图像的数据集,我们训练了最先进的目标检测模型与FLAIR进行比较。我们展示FLAIR大幅超过这些目标检测器,并且与两种人工提示的SAM2方法具有竞争力,达到了0.81的Dice评分。FLAIR能够在无需额外人工努力的情况下推广到其他鲨鱼物种,并且可以与新颖的启发式方法相结合,自动提取包括长度和尾击频率在内的相关信息。FLAIR在加速空中影像分析工作流程方面具有显著潜力,所需的人力和专业知识远低于传统机器学习工作流程,同时实现了更高的准确性。通过减少空中影像分析所需的努力,FLAIR使科学家能够花更多时间解读结果和推导关于海洋生态系统的见解。
总结: FLAIR是一种零样本方法,显著提升了无人机海洋动物影像分析的效率和准确性,减少了人力需求并具备高度的应用潜力。
###【arXiv编号】2501.05717
###【git】
###【期刊】
###【领域】计算机视觉, 人工智能, 海洋生物学
=====
摘要: 随着传感器数据的快速增长,以人类可理解的方式有效地解释和接口这些数据变得至关重要。虽然现有研究主要集中在学习分类模型上,但较少有研究探讨最终用户如何主动从传感器数据中提取有用见解,这通常受到缺乏合适数据集的阻碍。为了解决这一问题,我们引入了SensorQA,这是第一个由人类创建的针对日常生活监控的长期时间序列传感器数据的问答(QA)数据集。SensorQA由人工工作者创建,包含5.6K个多样且实用的查询,反映了真实的人类兴趣,并配有基于传感器数据的准确答案。我们进一步为该数据集建立了最先进的AI模型基准,并评估了它们在典型边缘设备上的性能。结果显示当前模型在QA性能和效率方面与最佳状态存在差距,强调了需要新的贡献。数据集和代码可在以下网址获得:
https://github.com/benjamin-reichman/SensorQA。
总结: SensorQA是首个由人类创建的传感器数据问答数据集,推动了日常生活监控领域的AI研究。
###【arXiv编号】2501.04974v2
###【git】https://github.com/benjamin-reichman/SensorQA
###【期刊】无
###【领域】计算机科学
SensorQA填补了传感器数据问答领域的空白,提供了丰富的实际查询,具有较高的创新性和实用性,有助于推动相关AI模型的发展和优化。
=====
摘要: 随着大型语言模型(LLM)的进步,智能模型已经从单纯工具发展成为具有自身目标和合作策略的自主代理。这种演变催生了NLP中的一种新范式,即人机合作,近年来在众多NLP任务中取得了显著进展。本文首次就人机合作进行全面回顾,探讨其原则、形式化和开放性挑战。具体而言,我们介绍了一种新的分类法,提供了统一的视角来总结现有方法。此外,我们讨论了潜在的前沿领域及其相应的挑战。我们认为我们的工作是一个入门点,为此方面的更多突破性研究铺平道路。
总结: 本文全面回顾了人机合作在NLP中的原则、形式化及挑战,提供统一分类体系并探讨未来研究方向。
###【arXiv:2501.05714v1】
###【git】: 无
###【期刊】: 无
###【领域】: 计算机科学,人工智能,人机交互