智源社区

Hugging Face 最新工作详解，研究负责人 Douwe Kiela 提出新型多模态任务评测基准...

导读：随着 DALLE、CLIP 等里程碑式工作的横空出世，「视觉-语言」多模态任务成为了目前人工智能领域最火热的话题之一。近日，Hugging Face 研究负责人、斯坦福大学兼职教 Douwe Kiela 针对当前「视觉-语言」预训练任务存在的评测任务瓶颈展开了讨论，介绍了其团队在 NeurIPS、CVPR 等顶级会议上提出的新型多模态评测任务「Hateful Memes」、「AdVQA」、「Minoground」，以及它们针对上述新任务提出的基础性「视觉-语言」对齐模型「FLAVA」。

讲者：Douwe Kiela

整理：熊宇轩

编辑：李梦佳

注：本文为「2022北京智源大会」报告，回放视频请看：

https://2022-live.baai.ac.cn/2022/live/?room_id=17479

在真实世界中理解语言背后的意图

Kiela 在其研究生涯的大部分实践中专注于「让机器理解语言真正的意义」，这种语义是人类所理解的意义，而不仅仅是存在于计算机中的「虚假意义」。

从哲学的角度来说，对语言的定义还存在一定的争议。Kiela 认为，语言是思维的表现，它是一种消息，传递了一些真实的意图。人类精神世界的意图通过消息传递出来，沟通中的另一方也可以以此推断出正确的意图。

用自然语言处理（NLP）的术语来说，我们可以将上图中根据真实意图产生消息的过程看做自然语言生成（NLG），将根据消息推断意图的过程看做自然语言理解（NLU），而语言则是将从真实意图到推断意图的映射。

在机器学习领域中，我们根据给定的数据找到合适的映射模型的参数。具体到语言学习过程中，给定意图的表现（消息 x），我们要最大化预测意图正确的概率。对于大多数机器学习任务，我们往往假设训练数据和测试数据满足独立同分布，可以通过极大似然估计（MLE）来捕获底层流形。

如今，我们往往通过预训练的语言模型初始化模型参数，而非随机初始化。在预训练过程中，我们通过在巨大的语料库上进行一些基础的语言建模任务（例如，掩码语言模型）得到模型的初始化参数，进而完成极大似然估计任务。

这种做法实际上将实际的语言问题极大简化了。人类真实的语言行为并不是直接将真实意图 y 通过信息 x 映射为预测。对于人类来说，语言问题还涉及两个独立的函数：说话者 f 和倾听者 g。f 将真实意图映射为消息，g 将消息映射为预测的意图。我们要单独地对说话者和倾听者函数进行参数化，再将这些函数组合起来。

在现实世界中，情况往往更加复杂，对话的参与者不仅仅限于说话者和倾听者两方，可能周围还有其它参与对话的人。这种对话环境充满各种可能性，谈论的话题甚至可能是并不存在的事务（例如，独角兽）。我们确保所说的话与其它相同语言社会中的说话者和倾听者者兼容一致。这涉及到对宏观演进过程的先验、对文化的先验，以及我们个人的经验。因此，我们也要考虑时序信息，这与我们随时间学习、掌握语言、将语言用于沟通是有关的。

如前文所述，我们在现有的机器学习任务中，将真实意图转化为体现意图的消息文本，将其输入给通过分布式统计量初始化的模型，进而使用该模型推断标签。然而，这种做法忽略了语言中的大量其它因素，将问题过于简化了。

多模态任务的评估

近十年来，人工智能技术突飞猛进，以令人难以置信的速度发展着。如上图所示，黑色的直线代表人类水平。著名的 MNIST 数据集发布于 2000 年前后，机器学习研究者们花费了近 20 年才在该数据集上取得「饱和」的性能。但是，橙色折现代表的 GLUE 任务几乎一经发布就被解决了。从评测任务和评价指标上看，我们似乎解决了所有的问题，但实际的问题要比这些评测任务复杂得多，这意味着我们在该领域遭遇了评测基准或评价指标的「危机」。

因此，研究者们需要与复杂场景更相近的评测方式。Kiela 在报告中提到，他们的团队目前使用了动态基准测试平台「Dyna Bench」，试图找到更好的评测任务和指标。

如上图所示，视觉、语言任务所使用的数据集的引用量存在一定的「幂律分布」现象。其中，VQA/VQA2 数据集（视觉问答）的引用量最高，其次是 Visual Genome（场景理解）、COCO（图片描述）等数据集。其中，VQA 是「视觉-语言」领域中目前最流行的任务。目前，深度学习模型在 VQA 任务上的性能也趋近于饱和，然而我们并没有真正解决所有的问题。

因此，「视觉-语言」等多模态任务需要新的评估设置。通常而言，好的评估设置应该具有以下特性：

（1）数据质量高，几乎没有标注误差

（2）构建成本可接受

（3）任务具有足够难度

（4）足以区分模型的性能

（5）与真实场景接近，对现实用例具有代表性

（6）有简单直接的评测方法

除此之外，针对多模态任务的评估设置还应该做到：

（1）不被某一种特定的模态所主导，各模态的数据较为均衡

（2）能真正评测模型在多模态数据上的性能，而非仅利用单一模态

在本文中，Kiela 重点讨论了信息、模型、世界环境之间的关系，而世界环境主要通过视觉表征，模型根据消息和对世界环境的观测学习。

Hateful Memes 数据集

人们在 VQA 任务上开展了丰富的研究，但是该任务与现实世界中的用例需求还有很大的区别。研究人员希望新的评测任务需要真正进行多模态的推理和理解。

在 Facebook 工作期间 Kiela 发现「厌恶言论分类器」在单模态情况下的性能良好，而在多模态场景下的性能则大打折扣。为此，Kiela 等人提出了「Hateful Memes」（令人厌恶的表情包）任务。如上面的示意图（并非真正来自于数据集）所示，如果在臭鼬的图片上附上「喜欢你今天的味道」，或者在一片沙漠的图片上附上「看看有多少人爱你」，这会令人感到不悦。但是如果我们在玫瑰的图片上附上「喜欢你今天的味道」或一群人的图片上附上「看看有多少人爱你」，那就会令人感到开心。

可见，通过替换图像可能会改变分类标签。如果分类器可以区分上述图片，对其进行正确的分类（令人厌恶/不令人厌恶），就可以真正具备多模态推理和理解的能力，而非仅仅利用单一模态的表层特征。

数据集构建过程

为构建 Hateful Meme 数据集，Kiela 等人首先选择了经过训练的标注者，从而确保标注的质量，但是这些标注者的数量较少且费用较高。

在构建数据集的过程中，「良性混杂因素」十分关键。Kiela 等人在互联网上收集了大量的表情包，他们首先检查表情包是否使用英语且符合法律、技术、版权等要求，丢弃不符要求的表情。

标注者们将符合要求的表情中的背景图像替换，将替换背景后的表情及标注者赋予的标签（是否令人厌恶）存储到数据中。对于令人厌恶的图像，他们还分别创建了良性文本混杂因素和良性图像混杂因素，进一步创建了更多不令人讨厌的表情。

Kiela 等人在这项工作中发现，现有的最优模型与人类在 Hateful Memes

上的表现仍然存在巨大差距，其准确率分别为 69% 和 84%。此外，研究者们发现了一些有趣的现象：

（1）使用局部区域的特征可以获得远超使用全局网格特征的性能，图像预处理的作用很大

（2）进行模态间早融合的性能优于中期融合和晚融合

（3）目前的多模态预训练在该任务上并未取得显著作用

「Hateful Memes」数据集发布后，Kiela 等人组织了同名竞赛，要求模型未见过的测试数据集上做出预测，该赛事的奖金高达 10 万美元。对比基线在新的未见过的数据集上的性能与在原始测试数据集上展现出了相似的性能。尽管参赛者在该赛事中取得了很高的 AUROC 得分，但是模型性能距离人类水平还相差甚远。

获得一名的团队基于「PaddlePaddle」框架实现了很多当前最优的预训练模型，从而获得了很高的准确率得分。此外，外部知识的引入也对性能提升有很大帮助。

对抗性VQA

由于 VQA 广受研究社区的欢迎，Kiela 等人也尝试对 VQA 评测任务进行改进，从而提出了「对抗性 VQA」任务。该任务首席在构建数据集的回路中同时引入人类和模型，在「Dyna Bench」平台上实现了动态的对抗性数据收集。

首先，标注者针对图像提出一个问题，并将该问题输入给图像。接着，标注者查看模型的答案是否合理。如果模型的答案合理，则不使用该图像和问题；反之，验证人员将再次确认图像和问题是否有意义。若通过验证，则由人类回答者给出问题的合理答案。最终，图像、问题、答案会被存储到数据集中。在整个过程中，模型并不知道正确的答案。

VQA 问题目前并未被真正完全解决。如上图右侧所示，当我们提出「电视机的品牌是什么」、「猫的领带上有几个卡通图案」等问题时，模型给出的答案大多是错误的。在对抗性 VQA 任务上，目前最优的模型甚至比使用「多数」答案构建的基线更低。

在工作中，Kiela 等人发现，除 Bert 之外的大多数现有的最好的模型在「Yes/No」问题上甚至弱于用「多数」类作为答案的对比基线。在计数任务和其它任务上，也存在类似的现象，模型的性能很低。

微软的研究团队几乎与 Kiela 等人同一时间提出了对抗性 VQA 的另一版本，该数据集可以在「adversarialvqa.org」上下载。研究者们分别利用 COCO 的中的图像和 Conceptual Captions 中的图像构建了「In-Domain」版的数据集和「Out-of-Domain」版的数据集。

Winoground

OpenAI 的 CLIP 是一项革命性的工作，让多模态研究焕发了新生，成为了人工智能领域的下一个研究前沿。与在 ImageNet 上预训练的 ResNet 类模型相比，CLIP 不仅可以在 ImageNet 上取得很好的准确率，CLIP 在鲁棒性测试任务中也有很好的表现。而 ResNet 类的模型在这些鲁棒性测试中性能极差。

为了探寻 CLIP 成功的原因，Kiela 等人借鉴 NLP 领域中的思路，利用 Winograd 方法测试了 CLIP 的性能。例如，在句子「The [trophy] doesn't fit in the [suitcase] because it is too [large/small]」中，若选用词「large」，则「it」指代的是「trophy」；若选用词「small」，则「it」指代的是「suitcase」，而现有的人工智能算法很难完成这种识别任务。

此外，如上图右上角所示，Kiela 等人在论文「Masked Language Modeling and the Distributional Hypothesis」中，通过不同的语序组织相同的词语构成两句不同的句子，将其输入给模型，通过模型生成的图像检测模型是否能够真正进行「视觉-语言」组合推理。

为了构建 Winoground 数据集，Kiela 等人首先邀请了语言学专家编写文本示例。接着，他们通过 Getty 图像 API 确保了将该数据集发布到研究社区中的合法性。在大多数情况下，人类可以很直观、轻易地理解 Winoground 中不同语序的图文对，研究人员希望人工智能系统也能够做到这一点，而评测比较分数是一种很简单的评测方法。

现有的最优模型在 Winoground 数据集上表现欠佳。其中，VinVL/UNITER/ViLLA 模型的得分相对最高，获得了 37-38 分。然而，这与人类的水平——89 分还有很大的差距。Kiela 等人对各种类别、各种数据的组合方式进行了测试，发现模型会退化到较弱的单一模态先验上，只利用文本或图像。

Winoground 发布后，OpenAI 发布了 DALLE-E2，它们在 Winoground 上测试了 DALLE-E2 的性能。DALLE-E2 是一种生成式模型，这与 Winoground 对图文对进行对比的设定并不完全一致。但是，如上图所示，DALLE-E2 有时在 Winoground 上的效果非常好。

然而，在上图所示的更深入的实验中，DALLE-E2 有时无法严格地根据指令文本生成比叉子更少的勺子，模型仍然未完全「理解」数量关系。

FLAVA：基础性的语言和视觉对齐

除了构建多模态任务的评测任务，Kiela 团队在「FLAVA：基础性的语言和视觉对齐」一文中也提出了对这些评测任务的解决方案。在该工作中，他们从头开始训练了一个多模态预训练模型。这是因为，在现实世界和互联网环境下，许多任务需要同时利用文本、视频、音频等模态的数据。这与人脑理解世界的方式是一致的，各种模态之间可以互补，提供不同的视角。此外，通过共享参数，可以迁移模型的知识，提升样本效率。通过上述方法，Kiela 等人构建了一种模态无关的大型语言模型，将其作为基础性的模型。

为了构建这种基础模型，研究人员面临以下困难：

（1）为了实现「视觉-语言」对齐，我们需要大量的图文对数据，然而成对的多模态数据往往数量有限；

（2）CLIP 的成功在很大程度上归功于他们在构建图文对语料库上的努力，然而这些数据并未无偿公开，研究人员无法在相同的数据集上复现 CLIP；

（3）设计跨模态联合学习架构十分困难；

（4）现有的预训练往往针对特定的领域设计，例如：针对视觉任务设计的 Moco、SimCLR 和针对语言任务设计的 Bert、RoBERTa；

（5）在缺乏图文对数据时，如何利用单一模态的数据；

（6）对巨大算力的需求；

FLAVA 是一种全面的多模态模型，这种基础性模型在 35 项「视觉-语言」、计算机视觉、自然语言处理任务上都拥有很好的表现。Kiela 等人在单一模态文本数据、单一模态视觉数据、公开的图文对数据上联合训练了 FLAVA 模型，推动了上述领域的发展。

Kiela 等人将图文对多模态数据和图像、文本单一模态数据输入给 FLAVA 模型，针对不同的任务（全局对比损失、MMM、MIM、MLM）设计了各种损失，希望模型能够完成多模态推理、语言理解、视觉识别等任务。

在视觉方面，图像被划分为若干个图块（patch），这些图块会被输入给 ViT 等视觉 Transformer 模型，并通过顶层的分类头完成图像识别任务。在该过程中，研究人员将图块作为词例（Token），通过掩码图像建模（MIM）训练模型。

在语言方面，文本被划分为若干个词例（Token），这些词例被输入给 Transformer 模型，通过标准的掩码语言建模（MLM）训练，顶层的 NLP 任务头会被用于完成 MNLI（多类型自然语言推理）等任务。

基于上述单一模态的表征，Kiela 等人构建了一个 Transformer 多模态编码器，将单一模态进行早融合，通过掩码多模态建模完成 VQA、Hateful Memes 等任务。此外，Kiela 等人还采用了与 CLIP 类似的全局对比损失，从而确保各模态的表征被对齐。

Kiela 等人构建了多模态图文对数据集 PMD，该数据集可以公开访问，包含约 7 千万个图文对数据，具有较高的标注质量。

在 35 项下游任务上，FLAVA 都取得了优异的性能，在多项任务上优于 CLIP。FLAVA 模型在大多数消融实验设定下的性能也都优于 CLIP。

如上图所示，在视觉任务中，FLAVA 的最佳性能弱于 CLIP；在「视觉-语言」任务上，FLAVA 的性能显著优于 CLIP；在自然语言处理任务上，FLAVA 的性能优于 CLIP，但弱于专门针对语言任务设计的 BERT。

结语

目前，如何整合各种数据，设计出在各模态任务上均具有最佳性能的模型是学界研究的前沿课题。为此，研究人员面临着许多难题：

（1）数据方面，Kiela 等人发布了 PMD 公开数据集

（2）模型架构方面，Kiela 等人基于 Transformer 模型设计不同模态下的掩码建模任务

（3）联合训练方面，Kiela 等人提出了 FLAVA 模型

（4）需要强大的算力。

未来，研究人员还需要探索如何在不同的 Transformer 之间共享参数，将各种知识融合在一起，让模型更加全面地理解概念。更多更大的模型将被提出，研究人员将利用更多的数据和更多的模态训练这些模型。

目前，Hugging Face 已经发布了 FLAVA 和 Winoground，PMD 数据集也即将公开，从而形成闭环。在图像、对抗性 VQA 任务上，FLAVA 的性能明显优于先前最佳的模型。

推荐阅读

清华大学车辆学院李升波|强化学习，让自动驾驶汽车自我进化，越开越好

梅宏院士：如何构造人工群体智能？| 智源大会特邀报告回顾

图灵奖得主Adi Shamir最新理论，揭秘对抗性样本奥秘 | 智源大会特邀报告回顾

Kotlin 安装使用教程小奇JAVA面试安装使用教程 kotlin 开发语言 android
一、Kotlin简介Kotlin是JetBrains开发的一种现代、静态类型的编程语言，完全兼容Java，主要应用于Android开发、后端服务开发、前端Web开发（Kotlin/JS）和多平台开发（KotlinMultiplatform）。二、Kotlin安装方式2.1使用IntelliJIDEA（推荐）下载IntelliJIDEA（社区版即可）：https://www.jetbrains.co
10分钟掌握Python缓存
项目背景代码检查项目，需要存储每一步检查的中间结果，最终把结果汇总并写入文件中在中间结果的存储中可以使用context进行上下文的传递，但是整体对代码改动比较大，违背了开闭原则也可以利用缓存存储，处理完成之后再统一读缓存并写入文件在权衡了不同方案后，我决定采用缓存来存储中间结果。接下来，我将探讨Python中可用缓存组件。python缓存分类决定选择缓存，那么python中都有哪些类型的缓存呢?1
Xtuner：大模型微调快速上手潘达斯奈基~ AIGC AIGC
一、XTuner是什么？简单来说，XTuner是一个轻量级、易于使用的、为大语言模型（LLM）设计的微调工具库。它由上海人工智能实验室（OpenMMLab）开发，是其强大AI工具生态（MMCV,MMEngine等）的一部分。它的核心设计理念是“用一个配置文件搞定一切”，让开发者和研究人员可以极大地简化微调流程。二、为什么选择XTuner？（核心优势）轻量且用户友好：命令行驱动：你不需要编写复杂的训
手把手教你安装使用文心快码(Baidu Comate)
前言在编程的世界里，一款高效的集成开发环境（IDE）是每位开发者的得力助手。IntelliJIDEA作为一款功能强大的IDE，广泛应用于Java、Kotlin等编程语言的项目开发中。而百度智能云文心快码（Comate），则是一款能够显著提升编码效率的智能工具，它利用先进的AI技术，为开发者提供代码补全、语法检查等强大功能。接下来，本文将结合百度智能云文心快码（Comate），详细介绍Intel
网络资源模板--基于Android Studio 实现的天气预报App 编程乐学 Android 网络项目模板安卓课设安卓大作业 androidstudio android 天气预报
目录一、环境说明二、项目简介三、项目演示四、部设计详情（部分)注册页面首页五、项目源码一、环境说明二、项目简介该项目是一个基于Android平台的天气预报应用，使用AndroidStudio开发工具和Java编程语言完成。项目采用了SQLite数据库存储用户数据和地区信息，通过OkHttp实现网络请求获取天气数据，并结合Gson解析JSON格式的天气信息。界面方面使用MaterialDesign设
Go与Python爬虫对比及模板实现
go语言和Python语言都可选作用来爬虫项目，因为python经过十几年的累积，各种库是应有尽有，学习也相对比较简单，相比GO起步较晚还是有很大优势的，么有对比就没有伤害，所以我利用一个下午，写个Go爬虫，虽说运行起来没啥问题，但是之间出错的概率太高了，没有完备的模版套用得走很多弯路，这就是为啥go没有python受欢迎的原因。为何Go爬虫远没有Python爬虫流行？1、历史生态差距Python
pip设置国内源：阿里云、腾讯云、清华大学源 [email protected] Python pip python
更换Python的pip源（尤其是默认源访问速度较慢时）是一个常见需求，可以显著提升安装Python包的速度。以下是如何为pip设置国内源的步骤，以阿里云、腾讯云、清华大学源为例：1.备份原有源配置（可选但推荐）在进行任何更改之前，备份现有的pip配置文件是一个好习惯。这样，如果遇到问题，你可以轻松恢复到初始状态。Bash1mkdir~/.pip_backup2cp~/.pip/pip.conf~
AI时代的人类增强：道德考虑与身体增强的未来发展机遇分析机遇挑战 AI天才研究院 AI人工智能与大数据 AI大模型企业级应用开发实战 Agentic AI 实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
AI时代的人类增强：道德考虑与身体增强的未来发展机遇分析机遇挑战关键词：人工智能、身体增强、道德考虑、未来发展、机遇挑战摘要：本文将探讨AI时代人类增强的各个方面，包括道德考虑和身体增强技术的未来发展机遇与挑战。通过详细分析AI技术基础、身体增强技术、道德哲学及社会影响，本文旨在为读者提供对这一前沿领域的深入理解和前瞻性思考。目录大纲AI时代的人类增强：道德考虑与身体增强的未来发展机遇分析机遇挑战
前端如何借助 Postman 进行接口性能调优前端视界前端艺匠馆前端 postman lua ai
前端如何借助Postman进行接口性能调优关键词：前端开发、Postman、接口性能调优、API测试、性能分析摘要：本文围绕前端开发中借助Postman进行接口性能调优展开。首先介绍了相关背景知识，包括目的、预期读者、文档结构和术语表。接着阐述了核心概念，如接口性能的相关概念及其联系，并给出了对应的文本示意图和Mermaid流程图。详细讲解了核心算法原理和具体操作步骤，结合Python代码示例进行
数据分析全流程：从收集到可视化的高效实战晨曦543210 python
1.数据收集来源：数据库、API、传感器、日志文件、社交媒体、问卷调查等。工具：Python（requests、Scrapy）、SQL、Excel、Kafka（实时流数据）。2.数据清洗处理缺失、重复、错误或不一致的数据：缺失值：删除、填充（均值/中位数/众数）、插值或预测。异常值：使用箱线图、Z-score或IQR方法检测并处理。格式标准化：统一日期、单位、文本格式（如大小写、去除空格）。去重：
R语言的游戏开发柳婉晴包罗万象 golang 开发语言后端
R语言在游戏开发中的应用随着科技的发展，游戏行业已经成为一个巨大的市场。虽然通常我们会认为游戏开发主要是使用C++、C#、JavaScript等语言，但实际上，R语言在游戏开发中也有其独特的应用，尤其是在数据分析和可视化方面。本文将探讨R语言在游戏开发中的应用，涵盖它的基础、游戏设计的复杂性、实际案例分析、以及未来的发展方向。一、R语言基础R语言是一种用于统计计算和数据分析的编程语言。它具有强大的
R语言的软件开发工具纪霁然包罗万象 golang 开发语言后端
R语言的软件开发工具引言R语言因其强大的数据分析能力和丰富的统计包，自发布以来便广受欢迎。随着数据科学和分析的迅猛发展，R语言也逐渐成为数据分析、机器学习和统计建模领域的重要工具。为了更好地利用R语言进行软件开发，许多软件开发工具和环境应运而生。本文将深入探讨R语言的主要开发工具，帮助开发者更高效地进行数据处理和分析。1.R和RStudio基础R语言本身是一个用于统计计算和图形绘制的编程语言，而R
R语言初学者爬虫简单模板 q56731523 r语言爬虫开发语言 iphone
习惯使用python做爬虫的，反过来使用R语言可能有点不太习惯，正常来说R语言好不好学完全取决于你的学习背景以及任务复杂情况。对于入门学者来说，R语言使用rvest+httr组合，几行代码就能完成简单爬取（比Python的Scrapy简单得多），R语言数据处理优势明显，爬取后可直接用dplyr/tidyr清洗，小打小闹用R语言完全没问题，如果是企业级大型项目还是有限考虑python，综合成本还是p
目标检测：从基础原理到前沿技术全面解析随机森林404 计算机视觉目标检测人工智能计算机视觉
引言在计算机视觉领域，目标检测是一项核心且极具挑战性的任务，它不仅要识别图像中有什么物体，还要确定这些物体在图像中的具体位置。随着人工智能技术的快速发展，目标检测已成为智能监控、自动驾驶、医疗影像分析等众多应用的基础技术。本文将全面介绍目标检测的基础概念、发展历程、关键技术、实践应用以及未来趋势，为读者提供系统性的知识框架。第一章目标检测概述1.1目标检测的定义与重要性目标检测（ObjectDet
ECharts 智慧医疗大屏制作实例详解
在大数据时代，数据可视化已成为信息传递和决策支持的重要手段。ECharts作为一款功能强大、易于上手的开源可视化库，凭借其丰富的图表类型、灵活的配置项和良好的跨平台兼容性，广泛应用于企业级数据大屏、BI报表、实时监控等场景。本教程以“智慧医疗大屏”为例，完整演示了从页面搭建、图表配置到动态交互与响应式适配的全过程。通过循序渐进的讲解，读者将掌握如何使用ECharts构建专业、美观、可交互的数据可视
邻近巷道爆破振动模拟与可视化：计算力学的工程应用碳酸的唐动态规划数学建模
引言隧道爆破施工是现代工程建设中常用的方法，但爆破产生的振动会对周围结构和地质环境产生影响。本文介绍一个基于Python的邻近巷道爆破振动模拟系统，该系统通过数值计算模拟爆破引起的应力波传播过程，并提供多种可视化方式展示振动效应。本研究对于理解爆破振动机理、评估爆破安全距离以及优化爆破参数具有重要意义。理论基础爆破应力波传播模型爆破引起的应力波在岩体中的传播可通过弹性波动理论描述。在均匀介质中，应
手把手教你编写Python抢购脚本_抢单脚本的制作教程网络安全小宇哥 python 开发语言测试工具学习 web安全网络安全安全架构
想买苹果手机，但总是抢不到，所以想试着能不能写个脚本代码。第一步：把想要抢购的商品加进购物车，注意：脚本是对购物车内全部商品进行下单操作，所以不够买的商品最好先从购物车内删除。第二步：写好Python脚本，在抢购之前运行，并设置好抢购时间。Python脚本实现安装Python。我安装的是anaconda安装webdriver扩展。它是Selenium模块的一部分。Selenium是一个用于Web应
喜讯 | Navicat 蝉联 2025 年 DBTA 100 强名单 Navicat中国 Navicat 17 焕新上市 navicat 数据库
Navicat在“DBTA1002025-数据领域最重要的公司”榜单中获得表彰。该奖项旨在表彰在数据管理与分析领域的领先创新者。数据库趋势与应用集团出版人TomHogan表示：“企业正寻求扩大人工智能的应用范围，采用新的技术与应用，增加数据分析/商业智能的使用，并对现有应用进行现代化改造”，“每年，《数据库趋势与应用》杂志都会推出DBTA100榜单，旨在表彰具有创新精神、能够为客户带来新产品新体验
Midjourney：AI人工智能图像生成的新方向 AI智能探索者人工智能 midjourney 计算机视觉 ai
Midjourney：AI人工智能图像生成的新方向关键词：Midjourney、AI图像生成、扩散模型、提示词工程、多模态学习、生成式AI、创意工具摘要：本文将带您走进AI图像生成的前沿领域，以Midjourney为核心，从技术原理到实际应用，用通俗易懂的语言解析其背后的“魔法”。我们将通过生活案例、技术拆解和实战演示，揭示Midjourney如何通过扩散模型、提示词工程和多模态学习，重新定义“用
【Python】类（class）的创建 Herbert_JL python python linux
1类简介1.1什么是类在面向对象编程（OOP）中，类（Class）是一种封装了数据和操作这些数据的函数的编程结构。它是一种抽象的概念，用于定义具有相同属性（变量）和方法（函数）的对象的模板。类可以看作是一个“蓝图”，用于创建具有相同特征和行为的对象实例。1.2类的作用1.2.1封装（Encapsulation）类将数据（属性）和操作数据的方法封装在一起，形成一个独立的单元。这样可以隐藏内部实现细节
【Python】类的继承、重载与多态
类的继承(Inheritance)类的继承是面向对象编程（OOP）中的一个重要概念，它允许一个类（称为子类或派生类）继承另一个类（称为父类或基类）的属性和方法。继承可以提高代码的复用性，减少重复代码，并且能够构建出层次化的类结构。继承的基本概念父类（基类）：被继承的类，提供了可以被继承的属性和方法。子类（派生类）：继承父类的类，可以使用父类的属性和方法，并且还可以添加新的属性和方法，或者覆盖父类的
【Python】For Herbert_JL python python 开发语言
For基本语法forelementiniterable:statement(s)element：是循环变量，用于存储可迭代对象中当前遍历到的元素。iterable：是需要遍历的可迭代对象，如列表、元组、字典等。for遍历列表fruits=["apple","banana","cherry"]forfruitinfruits:print(fruit)applebananacherryfor遍历字符串
【python 进阶】argparse模块 Herbert_JL python python java linux
argparse模块Python的argparse模块用于解析命令行参数，使得脚本能够灵活地接受用户从命令行传入的各种参数，从而根据不同的参数配置来执行不同的操作。ArgumentParser类argparse.ArgumentParser是Python中argparse模块的核心类，用于创建一个解析器对象，该对象能够读取和解析命令行参数和选项，将它们转换为相应的数据类型，并提供给程序使用。功能常
在python中function啥类型_Python中function和method
这两个概念已经有很多人解释过了，从本文的『参考』中就可以看出来。之所以还要写一篇这个主题，主要是为了用自己的语言表述一下，并且尽可能的讲的清楚一点。泛泛地说，function是一般意义上的函数，即对一段代码的封装，并由一个地址(函数名)来调用。method通常是面向对象的概念，即method是属于一个类或类的对象的。method是与类或类的对象相关的函数。下面讲一下我对这两个概念的更具体的理解。如
【pytorch】——Could not export Python function call ‘Scatter‘
pytorch用pytorch的trace导出模型的时候，报错errorRuntimeError:CouldnotexportPythonfunctioncall'Scatter'.RemovecallstoPythonfunctionsbeforeexport.Didyouforgettoadd@scriptor@script_methodannotation?Ifthisisann.Modul
Python中如何将非内置数据类型导出成Json格式
前言：在Python开发中往往使用自定义的数据类型来封装属性特定对象。但是这些自定义的数据类型在导出成Json文件时往往会报出不支持的错误。本篇文章将介绍如何解决这个问题。操作步骤：1、创建自定义数据类型：fromdataclassesimportdataclassimportjson@dataclassclassOwnObject():prop1:strprop2:int2、将自定义数据类型导出
剖析AI人工智能领域Whisper的性能指标 AI大模型应用实战人工智能 whisper xcode ai
剖析AI人工智能领域Whisper的性能指标关键词：Whisper、语音识别、性能指标、ASR、AI模型评估、基准测试、语音转文本摘要：本文深入剖析OpenAI开发的Whisper语音识别系统的性能指标。我们将从技术原理、架构设计、性能基准测试等多个维度，全面分析Whisper在不同场景下的表现。文章将详细讲解Whisper的评估方法、关键性能指标解读、实际应用中的性能表现，以及与其他主流语音识别
探索AI人工智能领域多智能体系统的技术原理 AI大模型应用之禅人工智能网络 ai
探索AI人工智能领域多智能体系统的技术原理关键词：AI人工智能、多智能体系统、技术原理、智能体交互、分布式计算摘要：本文深入探索了AI人工智能领域多智能体系统的技术原理。首先介绍了多智能体系统的背景，包括其目的、预期读者、文档结构和相关术语。接着阐述了多智能体系统的核心概念与联系，通过文本示意图和Mermaid流程图进行清晰展示。详细讲解了核心算法原理，结合Python源代码进行说明，并给出了相关
【剪裁Patch】已标注的WSI剪裁Patch的处理流程（以QuPath软件得到的标注信息为例） X CODE WSI 病理图像 QuPath Python
1.整体处理思路整体处理流程如图所示，概括来说就是：根据标注信息将WSI区分为肿瘤区域和正常区域，对这个区域进行采样裁剪得到具有Patch级别标签的Patch。当然，这里的Patch标签是根据标注信息决定的，如果标注的是癌症亚型信息，那么也可以将不同亚型的Patch区分出来。那么下面就对每个步骤进行介绍以及提供具体的Python代码。2.详细步骤（提供代码）2.0标注文件示例以下是用QuPath软
23.5.15---在python中读取excel表格数据并可视化多一点灵性 python matplotlib 开发语言机器学习
目录1.在python中通过以下代码可以防止运行结果出现中文乱码的情况（如画图时）2.在将excel表格文件中的数据读取出来，并将其中的两列数据作为行列坐标用图画出来2.1设置坐标轴显示的刻度及范围3.在PythonConsole清除运行的控制台数据使用：1.在python中通过以下代码可以防止运行结果出现中文乱码的情况（如画图时）##设置字符集，防止中文乱码importmatplotlibasm
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/

Hugging Face 最新工作详解，研究负责人 Douwe Kiela 提出新型多模态任务评测基准...

你可能感兴趣的:(人工智能,大数据,编程语言,python,计算机视觉)