夕小瑶

别再吹 GPT-4V 了！连北京烤鸭都不认识，你敢信？？

夕小瑶科技说原创
作者 | 智商掉了一地、ZenMoore

GPT-4 被吹的神乎其神，作为具备视觉能力的 GPT-4 版本——GPT-4V，也被大众寄于了厚望。但如果告诉你，GPT-4V 连图片上的“北京烤鸭”和“广西烤鸭”都分不清楚，你是否觉得大跌眼镜？？

有图有证据！！

Prompt 是：图片中是否有“北京烤鸭”？

结果 GPT-4V 和 LLaVa-1.5 都面向“广西烤鸭”的图片，回答了——是的，有北京烤鸭。

为什么“OpenAI 主导的大模型路线都要进化到 AGI 了”，却依然在犯这么让人大跌眼镜的错误？

这就要从下面这篇论文开始说起……

文章速览

现如今，NLP 和 CV 的结合开启了 AI 领域的一种革命性模式。而大型语言模型（LLM）与视觉模型结合，进一步融入到视觉-语言模型（VLM）中，催生了大型视觉-语言模型（LVLM），这对于显著提升图像推理任务的表现起到了关键的推动作用。

最新发布的 GPT-4V(ison) 和 LLaVA-1.5 等模型已经证实了这一点，展示了前所未有的图像理解和推理能力。但 LVLM 也存在一些问题：

这些模型中的强大语言先验知识有时可能会盖过视觉上下文，成为双刃剑：它们可能会忽视图像上下文，仅依赖语言先验知识进行推理，有时甚至是相互矛盾的。这种语言成分在决策中的主导地位被称为“语言幻觉”。
虽然视觉模块在这些 LVLM 中是必不可少的，但与语言部分相比，它们的性能较弱。这种不平衡可能导致“视觉错觉”，即 LLM 对错误的视觉解释过于自信。

具体来说，“语言幻觉”是一种不基于感觉输入的知觉，而“视觉错觉”是对正确感觉输入的错误解释。

为了研究 VLM 的这两种错误类型（语言幻觉和视觉错觉），作者设计了名为 HallusionBench 的图像-上下文推理基准测试，用于深入研究图像和上下文推理的复杂性。此外，还对最新发布的 GPT-4V(ision) 和 LLaVA-1.5 进行了深入研究，探讨了它们的视觉理解能力。

论文题目:
HallusionBench: You See What You Think? Or You Think What You See? An Image-Context Reasoning Benchmark Challenging for GPT-4V(ision), LLaVA-1.5, and Other Multi-modality Models

论文链接:
https://arxiv.org/abs/2310.14566

Github 地址:
https://github.com/tianyilab/HallusionBench

作者对 HallusionBench 进行了深入探索，并详细分析了一些 SOTA LVLM（如GPT-4V 和 LLaVA-1.5）无法处理的示例，并发布了这份尚在进行中的初步报告。明确了这些失败案例主要由两个因素导致：语言幻觉和视觉错觉。语言幻觉是由于这些模型中 LLM 参数记忆导致的推理偏见，而视觉错觉则是由于对图像上下文中视觉模式的误解。

这不仅揭示了当前关于 VLM 幻觉的不足，也为未来可能的改进铺平了道路。我们有理由期待下一代的 LVLM 将更加强大、平衡和准确。

具体分析

HallusionBench 是首个专门针对 VLM 的视觉错觉和知识幻觉的基准测试。它包含大约 200 个视觉问答对，其中近一半由人类专家生成。这些问答对相关的图像包括各种类型，如未经编辑的错觉图像、图表、地图、海报、视频，以及手工制作或编辑过的图像。这些图像涵盖了各种主题，包括数学、计数、文化、卡通、体育和地理等。

在这部分，作者首先定义了 HallusionBench 中的两种视觉问题类型：视觉依赖和视觉补充，讨论如何为实验设计对照组。接着，探讨可能导致回答错误的两个主要因素：视觉错觉和语言幻觉。最后，在每个主要类别中展示不同子类别的失败示例，并对其进行详细分析。

1. 视觉问题类型和对照组的分类

1.1 视觉依赖

视觉依赖问题：在缺乏视觉背景的情况下，无法给出明确答案的问题。这类问题通常涉及到图像本身或图像中的内容。举例来说，如果没有提供图 1（见后文），就无法明确回答“右边的橙色圆圈和左边的橙色圆圈大小是否一样？”这个问题。

目标：旨在评估视觉常识知识和视觉推理能力，研究和数据集构建都是基于以下问题进行的：

这个模型的视觉理解和推理技能表现如何？
参数化记忆对回答有何影响？
这个模型能否理解多个图像之间的时间关系？

控制组：在互联网上找到的原始图像和基于这个原始图像编辑过的图像，基于它们提出同样的问题。作者只对原始图像进行了小部分的修改，这些修改会带来不同的含义，从而影响原始答案的正确性。这些被编辑过的图像称为"Hard Negative Examples"。

1.2 视觉补充

视觉补充问题：即使没有视觉输入，也能回答的问题。这类问题中，视觉部分只提供了额外的信息。以后文的图 13 为例，GPT-4V 可以回答“新墨西哥州比得克萨斯州大吗？”这个问题，而无需依赖图像。评估目标是 GPT-4V 和 LLaVA-1.5 是否能够依据图像来回答问题，而不是依赖它们的参数化记忆。

目标：为了评估视觉推理能力，以及参数化记忆和图像上下文之间的平衡。在这个类别下，研究和数据集的构建由以下问题引导的：

如果模型无法从参数化记忆中找到答案，会对图像产生幻觉吗？
如果模型从参数化记忆中找到了答案，会从视觉补充中获取更多细节来更好地回答问题吗？（尤其是在两者信息冲突或参数化记忆过时的情况下）
模型能否有效处理包含大量信息的视觉材料，如图表和地图等，并用于回答问题？有哪些操作可能会干扰信息的提取？

控制组：在提问时，有时使用图像作为补充信息，有时不使用。这些补充的视觉背景可以提供更多细节，有助于问题的回答，但也可能会与现实世界中的信息产生冲突。

2 错误示例的分类

作者分析了错误答案，并将原因归为两种主要类型：

视觉错觉：源于对输入图像的视觉识别和理解的失败，模型无法获得准确的信息或正确推理图像。
语言幻觉：模型会根据其参数化记忆，对输入和图像背景做出错误的预设假设。模型应当根据问题的设定来做出回应，而非忽视问题或对图像做出错误的假设。

两种示例

视觉依赖示例

从图 1、图 2 和图 3 的著名错觉中发现，GPT-4V 在识别所有错觉案例和知道它们的名称方面，比 LLaVA-1.5 更有知识。但是，当基于编辑过的图像回答问题时，GPT-4V 并未能给出准确的答案。这可能是因为 GPT-4V 更倾向于依赖其参数化记忆来生成答案，而非分析图像。相比之下，LLaVA-1.5 在处理原始图像和编辑过的图像时表现不佳，这表明 LLaVA-1.5 的视觉感知能力有限。

在图 1 中，GPT-4V 更倾向于依据其参数化记忆中已有的知名光学错觉来生成答案，而非实际的视觉背景。即使是之前未出现过的手工设计示例（见图 1 的下方），该模型仍不能根据图像背景来回答。

▲图1：将视觉错觉、语言幻觉或可能的混合情况下的错误答案进行了突出显示

在图 2 中，GPT-4V 能识别出许多光学错觉的案例，但同时也容易被图像的场景与布局所误导。这两个模型在识别和测量长度方面的表现都不尽如人意。

▲图2

在图 3 中，GPT-4V 能识别这些错觉，但在根据实际图像上下文准确回答问题上，其表现并不理想。

▲图3

从图 4 和图 5 的例子来看，GPT-4V 和 LLaVA-1.5 都不能准确地识别出平行线、正三角形、多边形以及其他的数学定理。这表明，对于 GPT-4V 来说，几何和数学仍然是一项具有挑战性的任务。

具体地，在图 4 的上半部分，GPT-4V 和 LLaVA-1.5 能够记住著名的数学定理，但却无法在图像中识别出正确的平行线。在图 4 的下半部分，GPT-4V 无法判断两条线是否直线。推测这种失败是缺乏几何识别能力所导致的。

▲图4

如图 5 所示，作者改变了三角形的重要几何属性，但 GPT-4V 和 LLaVA-1.5 都未能识别出这些变化。例如，图 5 上半部分编辑后的图像显然不是一个三角形，下半部分编辑后的图像显然不是一个直角三角形。由此推测这种失败是由于缺乏几何识别能力。

▲图5

作者在图 6 中进一步研究了 GPT-4V 和 LLaVA-1.5 在光学字符识别上的表现，同时在图7中对它们的图像识别能力进行了探讨。观察发现，当图像中的字符被编辑时，GPT-4V 和 LLaVA-1.5 很容易被误导。这表明，它们生成答案的依据是自身的参数化记忆，而非视觉推理。原因在于原始图像与编辑后的图像之间的差异非常明显。

具体地，在图 6 中，作者还标出了一些广告，它们展示了一些著名的地方菜肴，但菜肴的地区特性被修改了。在这两种情况下，GPT-4V 和 LLaVA-1.5 都没有考虑到上下文，忽视了图像信息，仍然给出了文本中提到的这些食物所知名的地区作为答案。

▲图6

在图 7 的上半部分，GPT-4V 和 LLaVA-1.5 的判断受到参数化记忆和刻板判断的影响，这意味着它们没有认识到图像中的女孩并非玄奘的徒弟。尽管 LLaVA-1.5 在图像中检测到一个女孩和两个男人，但它仍然错误地将女孩视为玄奘的徒弟。在图 7 的下半部分，由于答案的不确定性，GPT-4V 使用了“类似”这个词，但错误地将其与 Air Jordan 品牌联系在一起。由此推测这个错误是由于语言幻觉造成的。

▲图7

作者受到了前人研究的启发，他们展示了 GPT-4V 在视频理解方面的潜力。因此，也在图 8 和图 9 中进一步研究了更多例子（包括一些帧序列）。正序列和反序列在语义上有着相反的含义，比如图 8 中的“消失与出现”和“停车与离开”。然而，通过比较发现，即便这些序列代表了不同的动作，GPT-4V 也无法区分图像的正序列和反序列。这说明在视频推理能力方面，GPT-4V 还有很大的提升空间。

▲图8

▲图9

视觉补充示例

在图 10、图 11 和图 12 中，如果没有图像，GPT-4V 无法给出明确的答案。当有图像背景时，GPT-4V 和 LLaVA-1.5 仍然不能正确理解图表，这表明它们的图表推理能力有限。在图 18 的第二个示例中，当旋转图表后，GPT-4V 的预测完全改变了。

有时候，如果没有上下文，问题可能没有明确的答案。如图 10 所示，在这种情况下，GPT-4V 能很好地处理，会给出不确定的答案，而不会产生幻觉。然而，即使给定了包含所有信息的图表作为输入，GPT-4V 和 LLaVA-1.5 仍然无法提取正确的信息来给出正确的答案。

▲图10

如图 11 所示，GPT-4V 能够处理不确定的查询，并给出不产生幻觉的不确定答案。当图表作为输入时，GPT-4V 能够正确回答问题。

▲图11

相较之下，LLaVA-1.5 在没有图像上下文的情况下，能够很好地回答问题。但一旦加入图像，就会出现混淆，其答案变得模糊，且过于依赖问题的提出方式，这是由于其视觉能力有限。

此外，LLAVa 的答案中出现了幻觉，即 1000 GBP，这个答案是从图表的标题中提取出来的，1000 GBP 代表 2001 年到 2019 年的总数。由此推测这个错误是由于缺乏视觉推理能力所导致的。

在图 12 中，GPT-4V 能处理不确定的查询，会给出不确定的答案，而不会产生幻觉。但如果输入是一个图表，GPT-4V 就无法正确理解。而 LLaVA-1.5 倾向于依赖参数化记忆来生成答案，因为无论有无图像上下文，它都会生成相同的答案。

▲图12

在图 13、图 14、图 16、图 17和图 18中，如果没有提供图像，GPT-4V 和 LLaVA-1.5 都会给出确定的答案。然而，一旦提供了图像，无论是图表、表格还是地图，我们发现它们更愿意依赖自身的知识来回答问题，而不是去分析图像。这可能是因为GPT-4V和LLaVA-1.5对文本推理的依赖明显，常常优先于视觉推理。

如图 13 所示，在没有上下文的情况下，GPT-4V 和 LLaVA-1.5 都能给出肯定且正确的答案。然而，当给出一张被编辑过且与常识相矛盾的地图时，GPT-4V 和 LLaVA-1.5 无法正确理解。尽管他们回答问题的方式表明回复是基于提供的地图，但 GPT-4V 和 LLaVA-1.5 更倾向于根据自身的参数化记忆来生成答案，而非实际的视觉上下文。

▲图13

通过观察图 14 和图 15，可以发现 LLaVA-1.5 的知识存在不准确之处。例如，它错误地声称"π 的值不在 3.1415926 和 3.1415927 之间"，还错误地认为"北卡罗来纳州位于特拉华州的北方"。这些观察结果进一步证实了：GPT-4V 的知识储备比 LLaVA-1.5 丰富。

在没有图像背景的情况下，如图 14所示，GPT-4V 和 LLaVA-1.5 都给出了肯定的答案，但只有 GPT-4V 的答案是正确的。因此可得出结论，GPT-4V 比 LLaVA-1.5 的知识性更强。当改变了地图的视觉输入后，由于强大的参数记忆，这两个模型都无法推理出四个州之间的位置关系。

▲图14

如图 15 所示，在没有图像背景的情况下，GPT-4V 给出了肯定的答案，而 LLaVA-1.5 则因为无法理解文本而给出了一个在技术上正确但无关的答案。当改变 π 值作为视觉输入时，两个模型都无法从图像中解读出这个值。

▲图15

如图 16 所示，GPT-4V 和 LLaVA-1.5 两个模型都给出了肯定且正确的答案，但这些答案缺乏上下文。GPT-4V 提供的答案更为严谨，因为它强调了这个知识的时间依赖性。然而，根据图表中的数据，两个模型都未能正确回答问题。由此推测这个失败是参数记忆过拟合所导致的。

▲图16

在没有视觉输入的情况下，如图 17 所示，GPT-4V 和 LLaVA-1.5 都能给出肯定且正确的答案。当有表格作为视觉输入时，GPT-4V 会尝试根据视觉信息来回答，但却提取了错误的信息。具体来说，GPT-4V 回答“中国有 36 枚金牌”，但实际上图表显示的是美国有 36 枚金牌。LLaVA-1.5 则是基于参数化记忆来回答问题，它会分别对问题和表格进行回应。

▲图17

如图 18 所示，在没有图像背景的情况下，GPT-4V 和 LLaVA-1.5 都给出了肯定的答案，但只有 GPT-4V 给出了正确且最严谨的答案。当使用图表作为视觉输入时，GPT-4V 能够忠实地遵循图表中的信息，而 LLaVA-1.5 则试图基于参数化记忆来回答问题。然而，当翻转图表后，GPT-4V 的预测完全改变了。与图 18 上部分的图表相比，这种失败可以归因于视觉错觉。

▲图18

总结

随着 LLM 与多模态研究的涌现，人工智能领域近些年来迎来了革命性的变革，将 NLP 和 CV 相结合。这种结合不仅催生了大型视觉-语言模型（LVLM），还进一步提升了图像推理任务的表现。然而，LVLM也存在一些问题，比如语言幻觉和视觉错觉。

为了深入研究这些问题，本文的作者推出了 HallusionBench，主要用于对 VLM 进行基准测试，尤其是在容易因语言幻觉或视觉错觉导致失败的困难案例中。并深度探讨了与 GPT-4V 和 LLaVA1.5 相关的各种示例和失败案例，具体为：

在 HallusionBench 中，当 GPT-4V 和 LLaVA-1.5 对问题有先验知识时，它们常常受到语言幻觉的困扰。它们倾向于优先考虑先验知识，导致在分析的问题中，有 90% 以上的答案是错误的。模型需要平衡参数化记忆和上下文之间的关系。
即使 GPT-4V 和 LLaVA-1.5 对 HallusionBench 中的问题没有参数化记忆或先验知识，它们仍然容易受到视觉错觉的影响。它们倾向于对几何和数学图像、视频（多个图像）、复杂图表等给出错误答案。目前的视觉语言模型的视觉能力还很有限。
在 HallusionBench 中，GPT-4V 和 LLaVA-1.5 很容易被简单的图像操作误导，包括图像翻转、顺序颠倒、遮蔽、光学字符编辑、物体编辑和颜色编辑。现有的视觉语言模型无法处理这些操作。
尽管 GPT-4V 支持多图，但它无法捕捉多个图像的时间关系，在 HallusionBench 中无法回答时间推理问题。这些模型缺乏真正的时间推理能力。
在 HallusionBench 中，LLaVA-1.5 的知识储备比 GPT-4V 少，有时会犯常识性错误。

最后，作者表示仍在扩充数据库，并将尽快在 Github 上公开。这项研究为未来更强大、平衡和准确的 LVLM 铺垫了道路，期待通过详细研究这些实例，能为未来的研究提供一些观察结果和关键洞见。

《卷积神经网络到Vision Transformer：计算机视觉的十年架构革命》 HeartException 人工智能学习
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站题目《卷积神经网络到VisionTransformer：计算机视觉的十年架构革命》展开深度解析，全文采用技术演进史+架构对比+产业影响的三段式结构，附关键数据与趋势预测：卷积神经网络到VisionTransformer：计算机视觉的十年架构革命副标题：从局部感知到全局建模，一场改变AI视觉基石的
Alpha系统联结大数据、GPT两大功能，助力律所管理降本增效资讯分享周大数据 gpt
如何通过AI工具实现法律服务的提质增效,是每一位法律人都积极关注和学习的课题。但从AI技术火爆一下,法律人一直缺乏系统、实用的学习资料,来掌握在法律场景下AI的使用技巧。今年5月,iCourt携手贵阳律协大数据与人工智能专业委员会,联合举办了《人工智能助力律师行业高质量发展巡回讲座》,超过100家律所的律师参与活动。讲座上,iCourtAIGC研究员、AlphaGPT产品研发负责人兰洋,为贵州律协
Xtuner：大模型微调快速上手潘达斯奈基~ AIGC AIGC
一、XTuner是什么？简单来说，XTuner是一个轻量级、易于使用的、为大语言模型（LLM）设计的微调工具库。它由上海人工智能实验室（OpenMMLab）开发，是其强大AI工具生态（MMCV,MMEngine等）的一部分。它的核心设计理念是“用一个配置文件搞定一切”，让开发者和研究人员可以极大地简化微调流程。二、为什么选择XTuner？（核心优势）轻量且用户友好：命令行驱动：你不需要编写复杂的训
AI时代的人类增强：道德考虑与身体增强的未来发展机遇分析机遇挑战 AI天才研究院 AI人工智能与大数据 AI大模型企业级应用开发实战 Agentic AI 实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
AI时代的人类增强：道德考虑与身体增强的未来发展机遇分析机遇挑战关键词：人工智能、身体增强、道德考虑、未来发展、机遇挑战摘要：本文将探讨AI时代人类增强的各个方面，包括道德考虑和身体增强技术的未来发展机遇与挑战。通过详细分析AI技术基础、身体增强技术、道德哲学及社会影响，本文旨在为读者提供对这一前沿领域的深入理解和前瞻性思考。目录大纲AI时代的人类增强：道德考虑与身体增强的未来发展机遇分析机遇挑战
目标检测：从基础原理到前沿技术全面解析随机森林404 计算机视觉目标检测人工智能计算机视觉
引言在计算机视觉领域，目标检测是一项核心且极具挑战性的任务，它不仅要识别图像中有什么物体，还要确定这些物体在图像中的具体位置。随着人工智能技术的快速发展，目标检测已成为智能监控、自动驾驶、医疗影像分析等众多应用的基础技术。本文将全面介绍目标检测的基础概念、发展历程、关键技术、实践应用以及未来趋势，为读者提供系统性的知识框架。第一章目标检测概述1.1目标检测的定义与重要性目标检测（ObjectDet
喜讯 | Navicat 蝉联 2025 年 DBTA 100 强名单 Navicat中国 Navicat 17 焕新上市 navicat 数据库
Navicat在“DBTA1002025-数据领域最重要的公司”榜单中获得表彰。该奖项旨在表彰在数据管理与分析领域的领先创新者。数据库趋势与应用集团出版人TomHogan表示：“企业正寻求扩大人工智能的应用范围，采用新的技术与应用，增加数据分析/商业智能的使用，并对现有应用进行现代化改造”，“每年，《数据库趋势与应用》杂志都会推出DBTA100榜单，旨在表彰具有创新精神、能够为客户带来新产品新体验
Midjourney：AI人工智能图像生成的新方向 AI智能探索者人工智能 midjourney 计算机视觉 ai
Midjourney：AI人工智能图像生成的新方向关键词：Midjourney、AI图像生成、扩散模型、提示词工程、多模态学习、生成式AI、创意工具摘要：本文将带您走进AI图像生成的前沿领域，以Midjourney为核心，从技术原理到实际应用，用通俗易懂的语言解析其背后的“魔法”。我们将通过生活案例、技术拆解和实战演示，揭示Midjourney如何通过扩散模型、提示词工程和多模态学习，重新定义“用
剖析AI人工智能领域Whisper的性能指标 AI大模型应用实战人工智能 whisper xcode ai
剖析AI人工智能领域Whisper的性能指标关键词：Whisper、语音识别、性能指标、ASR、AI模型评估、基准测试、语音转文本摘要：本文深入剖析OpenAI开发的Whisper语音识别系统的性能指标。我们将从技术原理、架构设计、性能基准测试等多个维度，全面分析Whisper在不同场景下的表现。文章将详细讲解Whisper的评估方法、关键性能指标解读、实际应用中的性能表现，以及与其他主流语音识别
探索AI人工智能领域多智能体系统的技术原理 AI大模型应用之禅人工智能网络 ai
探索AI人工智能领域多智能体系统的技术原理关键词：AI人工智能、多智能体系统、技术原理、智能体交互、分布式计算摘要：本文深入探索了AI人工智能领域多智能体系统的技术原理。首先介绍了多智能体系统的背景，包括其目的、预期读者、文档结构和相关术语。接着阐述了多智能体系统的核心概念与联系，通过文本示意图和Mermaid流程图进行清晰展示。详细讲解了核心算法原理，结合Python源代码进行说明，并给出了相关
结合创新idea：机器学习+运筹优化=CCF高端局 Ai多利机器学习人工智能
2024深度学习发论文&模型涨点之——机器学习+运筹优化机器学习是人工智能的一个分支，它使计算机系统能够从数据中学习并改进其性能，而无需进行明确的编程。运筹优化，也称为运筹学或运营管理，是应用数学的一个分支，它使用数学模型和算法来支持复杂决策过程的制定。机器学习与运筹优化的结合是一个前沿且活跃的研究领域，它们相互补充，为解决复杂问题提供了新的思路和方法。小编整理了一些机器学习+运筹优化【论文+代码
【LangChain编程：从入门到实践】LangChain与其他框架的比较 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【LangChain编程：从入门到实践】LangChain与其他框架的比较1.背景介绍1.1人工智能发展现状在当今时代，人工智能(AI)已经成为科技领域中最热门和最具革命性的话题之一。随着计算能力的不断提升和算法的持续优化,AI系统正在不断扩展其应用范围,包括自然语言处理、计算机视觉、决策系统等各个领域。1.2LangChain概述在这种背景下,LangChain作为一个新兴的AI框架应运而生。L
重塑知识的圣殿：人工智能时代的教育革命与人文守护田园Coder 人工智能科普人工智能科普
教育，承载着文明火种传递的千年使命，其核心始终围绕两个永恒命题：如何让知识更有效地被获取？如何让个体潜能更充分地绽放？在信息爆炸、技能迭代加速的当代，传统教育模式——标准化课程、统一进度、有限师资、资源不均——正面临前所未有的压力。人工智能（AI）的崛起，如同一股强大的变革洪流，正以前所未有的深度和广度渗透教育生态的各个环节。从量身定制的学习路径到永不疲倦的智能导师，从虚拟现实的沉浸课堂到洞察学情
踏入真实：具身智能与物理世界的认知交响
当大型语言模型在文本的海洋中纵横捭阖，生成式AI在数字画布上挥洒创意时，人工智能仍有一个根本性的疆域尚未完全征服——真实的三维物理世界。理解一个苹果，不能仅靠词向量坐标；学会行走，无法通过阅读说明书达成；在拥挤的街道导航，远非处理符号逻辑那般简单。智能的进化，自生命诞生之初，便与具身性（Embodiment）和环境交互（Interaction）密不可分。我们的认知、学习、乃至意识的雏形，都源于身体
使用 C++/OpenCV 和 MFCC 构建双重认证智能门禁系统
使用C++/OpenCV和MFCC构建双重认证智能门禁系统引言随着物联网和人工智能技术的发展，智能门禁系统在安防领域的应用越来越广泛。相比于传统的钥匙、门禁卡或密码，生物识别技术（如人脸识别、指纹识别、虹膜识别等）提供了更高的安全性与便利性。然而，单一的生物识别方式在某些场景下可能存在安全隐患。例如，人脸识别可能被高清照片或视频欺骗（称为“欺骗攻击”），在光照、姿态变化剧烈时识别率也可能下降。为了
SurveyForge：AI自动撰写综述论文的革命性工具，助力科研效率跃升花生糖@ AIGC学习资料库人工智能 AI论文 AI助手
在学术研究领域，综述论文（SurveyPaper）的撰写是一项耗时且复杂的任务，通常需要数周甚至数月的文献调研与内容整合。如今，上海人工智能实验室、复旦大学与上海交通大学联合开源的SurveyForge，通过创新的AI技术，将这一过程压缩至10分钟内，且生成质量接近人工水平，成为科研人员的得力助手。项目简介SurveyForge是一款基于大语言模型（LLM）的自动综述论文生成工具，专为计算机科学领
面向高校的人工智能通识教育课程实验设计方案武汉唯众智创人工智能人工智能通识教育课程实验人工智能通识教育人工智能通识课程人工智能通识
一、前言2018年，教育部发布《高等学校人工智能创新行动计划》，明确提出“重视人工智能与计算机、控制、数学、统计学、物理学、生物学、心理学、社会学、法学等学科专业教育的交叉融合，探索‘人工智能+X’的人才培养模式”。过去，人工智能教育多集中于研究生阶段，本科生接触机会相对有限。2019年，教育部批准35所高校增设“人工智能”本科专业，这标志着人工智能正式纳入本科教育体系。如今，人工智能课程大多是计
SpringBoot电商项目实战：从零搭建百万级架构
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot电商项目实战：从
人工智能赋能气象气候：从数据智能到预测创新的融合之路慌ZHANG 人工智能人工智能
个人主页：慌ZHANG-CSDN博客期待您的关注一、引言：气象气候与AI的“天然耦合”气象与气候系统是典型的复杂、多尺度、强非线性的自然系统，其建模、分析与预测依赖庞大观测数据和高性能计算资源。传统方法以数值天气预报（NWP）与物理建模为核心，虽然取得重要成就，但也面临计算代价大、精度不足、长期预测偏差大等瓶颈。与此同时，人工智能（AI），尤其是以深度学习为代表的机器学习方法，近年来在图像识别、自
python模拟内置函数reversed_Python内置函数reversed weixin_39594895
{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":4,"count":4}]},"card":[{"des":"阿里技术人对外发布原创技术内容的最大平台；社区覆盖了云计算、大数据、人工智能、IoT、云原生、数据库、微服务、安全、开发与运维9大技术领域。","link1":
面向智能医疗的6G物联网和人工智能 Allen_Lyb 医疗高效编程研发物联网人工智能健康医疗
AbstractTheconvergenceof6Gwirelesstechnology,theInternetofThings(IoT),andArtificialIntelligence(AI)ispoisedtorevolutionizehealthcaredeliverybyenablingunprecedentedlevelsofconnectivity,intelligence,and
深度学习前置知识全面解析：从机器学习到深度学习的进阶之路
一、引言：人工智能时代的核心技术在当今这个数据爆炸的时代，人工智能(AI)已经成为推动社会进步的核心技术之一。作为AI领域最重要的分支，深度学习(DeepLearning)在计算机视觉、自然语言处理、语音识别等领域取得了突破性进展，彻底改变了我们与机器交互的方式。本教案将从机器学习的基础知识出发，系统性地介绍深度学习的核心概念、数学基础、网络架构和训练方法，为读者构建完整的知识体系框架。无论你是刚
AI 加持下的智能家居行业：变革、挑战与机遇低代码老李人工智能智能家居
在当今科技迅猛发展的浪潮中，人工智能（AI）已深深融入智能家居领域，成为推动其蓬勃发展的关键力量，为人们的生活带来了诸多便利和创新体验，同时也面临着一系列亟待解决的问题。一、AI驱动的智能家居功能升级（1）智能语音交互与控制智能语音助手作为智能家居的核心交互方式，借助自然语言处理（NLP）技术，让用户仅通过简单的语音指令，就能轻松操控家中各类智能设备，如精准控制灯光的开关与亮度调节、窗帘的开合、电
逻辑结构学派一（五个基础理论）刘海东刘海东人工智能
逻辑结构学派一（五个基础理论）作者：刘海东，中国广东技术师范大学摘要本篇论文通过《逻辑结构学派的宗旨》、《逻辑结构学》、《逻辑工程学》、《逻辑方程结构图理论》、《仿生逻辑理论》五个领域的研究提出《逻辑结构学派的宗旨》、《主观能动性结构》、《主观能动性结构工程》、《赋予生命的逻辑方程结构图》、《仿生逻辑》五个基础经典理论，让人工智能、机器人、智能社会三个主体的基础研究有了方向、方法和判断标准。关键词
基于图神经网络的ALS候选药物预测模型设计与实现神经网络15044 MATLAB专栏神经网络深度学习神经网络人工智能深度学习机器学习
基于图神经网络的ALS候选药物预测模型设计与实现一、任务背景与意义肌萎缩侧索硬化症（ALS）是一种致命的神经退行性疾病，目前尚无有效治愈方法。传统药物发现流程耗时长、成本高，而人工智能技术为加速药物发现提供了新途径。本文设计并实现了一个基于图神经网络（GNN）的ALS候选药物预测模型，通过整合分子图结构信息和生物活性数据，实现对潜在治疗ALS化合物的高效筛选。二、系统架构设计
大模型黄金时代！IT人转行指南：有人薪资翻倍，35+仍吃香_转行大模型！
高薪背后，是百万人才缺口与IT人前所未有的转型机遇当传统IT岗位增长放缓，一个全新领域正以惊人的速度重塑技术人才格局：大模型算法岗平均月薪突破6.8万元，AI产品经理岗月薪近5万元，自动驾驶等AI岗位扩招幅度高达60%36。与此同时，人社部数据显示我国人工智能领域人才缺口超过500万，供需比例达1：106。曾经焦虑“35岁危机”的程序员们发现，那些深耕大模型领域的同行不仅未被淘汰，反而成为企业竞相
大模型卷出新高度|暴雨AI服务器M8878助解算力之困 BAOYUCompany 人工智能服务器运维
当今世界，作为新一轮科技革命和产业革命的重要驱动力，AI已经成为“兵家必争之地”。我国也在政府报告中首次将“人工智能+”行动纳入国家战略，开启了以人工智能为核心的数字经济高质量发展的新时代。当今世界，作为新一轮科技革命和产业革命的重要驱动力，AI已经成为“兵家必争之地”。我国也在政府报告中首次将“人工智能+”行动纳入国家战略，开启了以人工智能为核心的数字经济高质量发展的新时代。AI热度和话题持续火
探索AI时代：全国启动人工智能与未来公益讲座私域合规研究人工智能百度
人工智能与未来——AI赋能中小企业数字化升级公益讲座一、讲座背景随着科技的飞速发展，人工智能（AI）已经深入到了各行各业，为了推动AI技术在中小企业的广泛应用，助力企业拥抱新技术，迎接新机遇，拟申请联合组织AI赋能中小企业数字化升级公益讲座。讲座内容涵盖包括AI新媒体矩阵营销、AI智能跨境获客平台、AI+直播电商认证，AI+数字展厅、中检AI报关风险诊断及合规AI制单系统、AI+商品追溯、AI个人
MATLAB基础应用精讲-【人工智能】数据空间（概念篇）林聪木算法分类
目录前言算法原理发展历程什么是数据空间数据空间基本规律？数据共存方法Pay-as-you-go的进化方式跨域和异构数据源的需求技术实现服务提供数据空间的特点多元主体的开放参与多元角色的中间服务全面覆盖的认证机制丰富的数据联合利用机制数据空间技术框架国际数据空间组成部分使用控制数据场数据场的作用下，三种典型的数据要素价值释放模式数据空间的发展现状国内发展现状：国外发展现状：数据空间的基础设施数据空间
【Python】已解决：Traceback (most recent call last): File “C:/python/kfc.py”, line 8, in KfcError: KFC Cra 屿小夏 python c语言开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
国内主流云服务商对比？阿里云、腾讯云、华为云怎么选？ NicolasLearner 服务器云服务器云主机云服务云服务器阿里云腾讯云华为云
随着中国企业云服务器使用率的不断提升，虽然与国外一些国家相比还有很大差距。但得益于政策红利和中国企业的数字化转型，市场潜力空间仍然很大，而作为互联网行业中的一员，我们也应当对云服务器的基础知识有一定的了解，利用具有较多优势的云服务平台，研发应用层人工智能产品提供决策辅助。一、什么是云服务器云服务器(ElasticComputeService,ECS)是一种简单高效、安全可靠、处理能力可弹性伸缩的计
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc