一只想飞的咸鱼君

视频理解论文汇总zoo（持续ing）

视频理解论文zoo

- SlowFast Networks for Video Recognition
- Gcnet: Non-local networks meet squeeze-excitation networks and beyond
- Video Classification With Channel-Separated Convolutional Networks
- STM: SpatioTemporal and Motion Encoding for Action Recognition
- More Is Less: Learning Efficient Video Representations by Big-Little Network and Depthwise Temporal Aggregation
- facebook的工作:SCSampler: Sampling Salient Clips from Video for Efficient Action Recognition
- Action Recognition With Spatial-Temporal Discriminative Filter Banks
- Self-supervised Co-training for Video Representation Learning
- Temporal Pyramid Network for Action Recognition
- Further Understanding Videos through Adverbs: A New Video Task
- Something-Else: Compositional Action Recognition with Spatial-Temporal Interaction Networks
- What Makes Training Multi-Modal Classification Networks Hard?
- TEINet: Towards an Efficient Architecture for Video Recognition
- Knowledge Integration Networks for Action Recognition
- Neuro-Symbolic Representations for Video Captioning: A Case for Leveraging Inductive Biases for Vision and Language
- Intra- and Inter-Action Understanding via Temporal Action Parsing
- Similarity Reasoning and Filtration for Image-Text Matching
- TEA: Temporal Excitation and Aggregation for Action Recognition
- Multi-Modal Domain Adaptation for Fine-Grained Action Recognition
- TAM: TEMPORAL ADAPTIVE MODULE FOR VIDEO
- Enhancing Unsupervised Video Representation Learning by Decoupling the Scene and the Motion
- 新的改变
- 功能快捷键
- 合理的创建标题，有助于目录的生成
- 如何改变文本的样式
- 插入链接与图片
- 如何插入一段漂亮的代码片
- 生成一个适合你的列表
- 创建一个表格
- - 设定内容居中、居左、居右
  - SmartyPants
- 创建一个自定义列表
- 如何创建一个注脚
- 注释也是必不可少的
- KaTeX数学公式
- 新的甘特图功能，丰富你的文章
- UML 图表
- FLowchart流程图
- 导出与导入
- - 导出
  - 导入

SlowFast Networks for Video Recognition

其中一个路径旨在捕获图像或几个稀疏帧提供的语义信息，它以低帧率运行，刷新速度缓慢。而另一个路径用于捕获快速变化的动作，它的刷新速度快、时间分辨率高。

Gcnet: Non-local networks meet squeeze-excitation networks and beyond

GCNet深入探讨了Non-local和SENet的优缺点，然后结合Non-local和SENet的优点提出了GCNet

Video Classification With Channel-Separated Convolutional Networks

改了结构

STM: SpatioTemporal and Motion Encoding for Action Recognition

时空特征和运动特征是视频动作识别中两个互补且至关重要的信息。最近最先进的方法采用3D CNN流学习时空特征，并采用另一个流流学习运动特征。在这项工作中，我们的目标是在一个统一的2D框架中有效地编码这两个特征。为此，我们首先提出了一个STM块，它包含一个信道的时空模块(CSTM)来表示时空特征和一个信道的运动模块(CMM)来有效地编码运动特征。然后我们用STM块替换原有的ResNet体系结构中的剩余块，通过引入非常有限的额外计算成本，形成一个简单而有效的STM网络。大量的实验表明，通过将时空和运动特征一起编码，提出的STM网络在时间相关数据集(即Something-Something v1 & v2和Jester)和场景相关数据集(即Kinetics400、UCF-101和HMDB-51)上都优于最先进的方法。

改结构

More Is Less: Learning Efficient Video Representations by Big-Little Network and Depthwise Temporal Aggregation

改结构
我们的方法在FLOPs中实现了3 ~ 4倍的减少，在FLOPs中实现了约2倍的减少与基线相比的内存使用情况。这使得训练更深层次的模型成为可能在相同的计算预算下有更多的输入帧。

facebook的工作:SCSampler: Sampling Salient Clips from Video for Efficient Action Recognition

视频信息冗余
由于真实的无剪辑的视频通常时间跨度大, 其中每一段包含相关的信息也是不一样的, 重要的和冗余的信息都有. 所以文章提出一种"clip-sampling"的模型, 它可以有效的识别一段长视频中最显著的片段. 并且可以有效的降低无修剪视频的computational cost.
动机：一个视频序列中会有很多与动作分类不相关的帧，从而产生无意义的结果，能否得到一种方法对于这些无意义的帧赋予一个低的权重？

Action Recognition With Spatial-Temporal Discriminative Filter Banks

在过去的几年中，动作识别的性能有了显着提高。当前，大多数最新技术文献旨在通过更改主干CNN网络来提高性能，或者再次通过更改主干网络来探索计算效率与性能之间的不同折衷。但是，几乎所有这些工作都保持网络的最后一层相同，它们仅包含全局平均池，然后是完全连接的层。在这项工作中，我们着重于如何提高网络的表示能力，而不是改变骨干网，而着重于改进网络的最后一层，其中更改对计算成本的影响很小。特别是，我们假设当前的架构对更精细的细节不敏感，并且我们利用细粒度识别文献中的最新进展来改进此方面的模型。通过提出的方法，我们在两个主要的大型动作识别基准Kinetics-400和Something-Something-V1上获得了最先进的性能
动机：如何提高网络的表示能力，而不是改变骨干网，而着重于改进网络的最后一层

Self-supervised Co-training for Video Representation Learning

本文的目标是仅视觉自我监督视频表示学习。我们做出以下贡献：（i）我们研究了在基于实例的“信息噪声对比估计”（InfoNCE）训练中添加语义类肯定句的好处，表明这种形式的监督式对比学习可明显改善性能；（ii）我们提出了一种新颖的自我监督协同训练方案，以通过使用一个视图获取同一数据源的正视图样本来利用同一数据源的不同视图，RGB流和光流的互补信息来改善流行的infoNCE损失。另一个; （iii）我们在两个不同的下游任务（动作识别和视频检索）上全面评估所学表示的质量。在这两种情况下
动机：视频表示

Temporal Pyramid Network for Action Recognition

本文提出TPN(Temporal Pyramid Network)网络结构，特点是金字塔。起源于对视频动作快慢得研究，在多个数据集上取得优秀得结果。与本文思想相似的是Facebook 提出的SlowFast网络

Further Understanding Videos through Adverbs: A New Video Task

** 动机**： dataset

Something-Else: Compositional Action Recognition with Spatial-Temporal Interaction Networks

** 动机**： dataset
与传统的训练集、数据集划分方法（训练集测试集包含相同的动词和名词）不同，我们在相同的动词、不同的名词上面训练和测试，因此我们测试集中的动词+名词的组合之前从来没见过。

现有的动作识别模型不能捕捉这种动词、名词的组合关系。

在本文中，我们提出了一个基于稀疏且语义丰富的学习对象图的模型（a model based on a sparse and semantically-rich object graph learned for each action）

Something-Something数据集则希望不通过外观信息来识别动作。我们在此基础上更进一步，提出了compositional action recognition任务，并进一步标注了bbox。

这个任务是，显式地组合视频中的动作主体和目标，并学习建模他们之间的关系来实现动作识别。并且通过组合动词和名词，来识别没有见过的动作。

What Makes Training Multi-Modal Classification Networks Hard?

考虑对具有多个输入模态的任务进行多模态网络与单模态网络的端到端训练：多模态网络会接收更多信息，因此它应与单模态网络匹配或胜过其单模态网络。但是，在我们的实验中，我们观察到相反的情况：最佳的单模态网络可以胜过多模态网络。在不同的模式组合上以及在视频分类的不同任务和基准上，这种观察是一致的。本文确定了造成这种性能下降的两个主要原因：首先，由于容量增加，多模态网络经常容易出现过拟合现象。其次，不同的模式过拟合并以不同的速率泛化，因此使用单个优化策略联合训练它们是次优的。我们使用一种称为梯度混合的技术来解决这两个问题，它根据过拟合行为来计算模态的最佳混合。我们证明了Gradient Blending优于广泛使用的基准，可以避免过拟合，并在包括人类动作识别，以自我为中心的动作识别和声音事件检测在内的各种任务上实现了最先进的准确性

TEINet: Towards an Efficient Architecture for Video Recognition

在视频动作识别的架构设计中，效率是一个重要的问题。3D CNNs在视频动作识别方面取得了显著的进展。然而，与二维卷积相比，三维卷积往往引入大量的参数，导致计算量大。为了解决这个问题，我们提出了一个有效的时序模块，称为Temporal Enhancement-and-Interaction（TEI模块），它可以插入到现有的2D CNNs中。TEI模块通过分离通道相关和时间交互的建模，提出了一种不同的学习时间特征的范式。首先，它包含一个运动增强模块（MEM），该模块在抑制无关信息（例如背景）的同时增强与运动相关的特征。

然后，介绍了一个时序交互模块（TIM），它以通道方式补充时序上下文信息。该两阶段建模方案不仅能够灵活有效地捕捉时间结构，而且能够有效地进行模型推理。我们进行了大量的实验来验证TEINet在Something-Something V1&V2, Kinetics, UCF101 and HMDB51几个基准上的有效性。TEINet可以在这些数据集上达到很好的识别精度，同时保持很高的效率。
Shift思想在视频理解中的近期进展
TSM(ICCV2019)　Temporal Shift Module for Efficient Video Understanding
Temporal Interlacing Network(aaai2020)
TEINet: Towards an Efficient Architecture for Video Recognition(aaai2020)
Gate-Shift Networks for Video Action Recognition(cvpr2020)
Learnable Gated Temporal Shift Module for Deep Video Inpainting(BMVC2019)
通过在2D CNN中位移 temporal 维度上的 channels，来实现时间上的信息交互。故不需要添加任何额外参数，且能捕捉Long-term 时空上下文关系。

参考链接: link

Knowledge Integration Networks for Action Recognition

在这项工作中，我们提出了用于视频动作识别的知识集成网络(简称KINet)。KINet能够聚合有意义的上下文特征，这些特征对于识别一个动作非常重要，如人类信息和场景上下文。我们设计了一个三分支体系结构，包括一个主要的动作识别分支，两个辅助的人体解析和场景识别分支，使模型能够编码人类和场景的知识用于动作识别。我们探索了两种训练前的教师网络模型，即提取人的知识和场景的知识，用于训练KINet的辅助任务。此外，我们提出了一种两级知识编码机制，该机制包括一个跨分支集成(CBI)模块，用于将辅助知识编码为中层卷积特征，以及一个动作知识图(AKG)，用于有效地融合高层上下文信息。这就产生了一个端到端可训练的框架，三个任务可以协同训练，使模型能够有效地计算强大的上下文知识。所提出的KINet在大规模动作识别基准Kinetics-400上实现了最先进的性能，准确率最高达到77.8%。通过将经过动力学训练的模型转移到UCF-101，进一步证明了我们的KINet具有较强的性能，其精度达到97.8% top-1。
** 动机 **：KINet能够聚合有意义的上下文特征，这些特征对于识别一个动作非常重要，如人类信息和场景上下文。

Neuro-Symbolic Representations for Video Captioning: A Case for Leveraging Inductive Biases for Vision and Language

神经符号表示已被证明可以有效地学习视觉和语言中的结构信息。在本文中，我们提出了一种用于学习视频字幕的多模式神经符号表示的新模型架构。我们的方法使用基于字典学习的方法来学习视频及其配对文本描述之间的关系。我们将这些关系称为相对角色，并利用它们来引起每个令牌角色的注意。这将导致结构化和可解释性更高的体系结构，其中结合了字幕任务特定于模式的归纳偏差。直观地，该模型能够学习给定视频和文本对中的空间，时间和跨模式关系。我们的建议实现的解纠缠度使该模型具有更多功能来捕获多模式结构，从而为视频提供了更高质量的字幕。我们对两个已建立的视频字幕数据集进行的实验验证了基于自动指标的方法的有效性。我们进一步进行了人工评估，以测量所生成字幕的基础和相关性，并观察所提出模型的持续改进。代码和训练有素的模型可以在下面找到我们进一步进行了人工评估，以测量所生成字幕的基础和相关性，并观察所提出模型的持续改进。代码和训练有素的模型可以在下面找到我们进一步进行了人工评估，以测量所生成字幕的基础和相关性，并观察所提出模型的持续改进

Intra- and Inter-Action Understanding via Temporal Action Parsing

邵典的论文方法+dataset
当前用于动作识别的方法主要依靠深度卷积网络来导出视觉和运动特征的特征嵌入。尽管这些方法在标准基准上表现出了卓越的性能，但我们仍然需要更好地了解视频，尤其是其内部结构与高级语义的关系，这可能会带来多方面的好处，例如可解释性预测，甚至可以将识别性能提升到新水平的新方法。为了实现这一目标，我们构建了TAPOS，这是一个在体育视频上开发的带有子动作手动注释的新数据集，并在顶部进行了时间动作解析研究。我们的研究表明，体育活动通常由多个子动作组成，并且这种时间结构的意识有助于动作识别。我们还研究了许多时间解析方法，并在其上设计了一种改进的方法，**该方法能够从训练数据中挖掘子动作而无需知道它们的标签。**在构建的TAPOS上，显示了所提出的方法以揭示动作内信息（即动作实例如何由子动作构成）以及交互作用信息（即一个特定的子动作）通常会出现在各种动作中

Similarity Reasoning and Filtration for Image-Text Matching

TEA: Temporal Excitation and Aggregation for Action Recognition

Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

细粒度的动作识别数据集表现出环境偏差，其中从有限数量的环境中捕获了多个视频序列。由于不可避免的域转移，在一个环境中训练模型并在另一个环境中部署会导致性能下降。无监督域适应（UDA）方法经常利用源域和目标域之间的对抗训练。但是，这些方法尚未探索每个域内视频的多模式性质。在这项工作中，除了对抗性对齐（图1），我们还将模式的对应性作为UDA的一种自我监督的对齐方法。我们使用大规模用于动作识别的两种模式：RGB和光学流，在大型EPIC-Kitchens数据集中的三个厨房上测试了我们的方法。我们显示，仅多模式自我监督比仅进行源训练的性能平均提高了2.4％。然后，我们将对抗训练与多模式自我监督相结合，表明我们的方法比其他UDA方法要好3％。

TAM: TEMPORAL ADAPTIVE MODULE FOR VIDEO

在视频动作识别中，时序建模对学习视频中的时序结构信息至关重要。但由于受多种因素的影响（例如相机运动，视角切换，场景多样），导致视频数据在时序维度上具有及其复杂的动态特性。为了能够有效捕捉视频中的时序动态特性，我们提出了一种自适应的时序建模方法TAM (Temporal Adaptive Module)。TAM中的时序核参数被分解成位置敏感的自适应权重和位置无关的自适应卷积核，以视频自适应方式动态地学习其中的时序线索。基于TAM实例化得到的TANet，在Kinetics-400、Something-Something数据集上均取得了优异的性能。
不同视频在时序维度上呈出不同的运动模式。为了解决这个问题，时序自适应模块（TAM）为每个视频生成特定的时序建模核。该算法针对不同视频片段，灵活高效地生成动态时序核，自适应地进行时序信息聚合。
作者说它论文的链接link

Enhancing Unsupervised Video Representation Learning by Decoupling the Scene and the Motion

我们期望视频表示学习能够捕获的一个重要因素，尤其是与图像表示学习相反的是对象运动。但是，我们发现在当前的主流视频数据集中，某些动作类别与发生动作的场景高度相关，这使得模型倾向于退化为仅对场景信息进行编码的解决方案。例如，==**受过训练的模型可能只是因为看到了场地而忽略了对象在场地上作为啦啦队长跳舞，因此可以将视频预测为正在踢足球 **==这违背了我们对视频表示学习的初衷，并且可能给不同的数据集带来场景偏见，这是不容忽视的。为了解决这个问题，我们建议通过两个简单的操作将场景和运动（DSM）分离，因此，模型对运动信息的关注会得到更好的回报。具体来说，我们为每个视频构造一个正向剪辑和一个负向剪辑。与原始视频相比，正/负通过空间局部扰动和时间局部扰动来保持运动不变/破碎，而场景破坏/保持不变。我们的目标是将正片拉近，同时将负片推到潜在空间中的原始片段。这样，可以减小场景的影响，同时可以进一步提高网络的时间敏感性。我们对具有不同主干和不同预训练数据集的两个任务进行了实验，发现我们的方法优于SOTA方法，在使用同一主干的UCF101和HMDB51数据集上分别对动作识别任务分别有8.1％和8.8％的显着改进。

动机：问题很好

新的改变

我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：

全新的界面设计 ，将会带来全新的写作体验；
在创作中心设置你喜爱的代码高亮样式，Markdown 将代码片显示选择的高亮样式 进行展示；
增加了 图片拖拽 功能，你可以将本地的图片直接拖拽到编辑区域直接展示；
全新的 KaTeX数学公式 语法；
增加了支持甘特图的mermaid语法¹ 功能；
增加了 多屏幕编辑 Markdown文章功能；
增加了 焦点写作模式、预览模式、简洁写作模式、左右区域同步滚轮设置 等功能，功能按钮位于编辑区域与预览区域中间；
增加了 检查列表 功能。

功能快捷键

撤销：Ctrl/Command + Z
重做：Ctrl/Command + Y
加粗：Ctrl/Command + B
斜体：Ctrl/Command + I
标题：Ctrl/Command + Shift + H
无序列表：Ctrl/Command + Shift + U
有序列表：Ctrl/Command + Shift + O
检查列表：Ctrl/Command + Shift + C
插入代码：Ctrl/Command + Shift + K
插入链接：Ctrl/Command + Shift + L
插入图片：Ctrl/Command + Shift + G
查找：Ctrl/Command + F
替换：Ctrl/Command + G

合理的创建标题，有助于目录的生成

直接输入1次#，并按下space后，将生成1级标题。
输入2次#，并按下space后，将生成2级标题。
以此类推，我们支持6级标题。有助于使用TOC语法后生成一个完美的目录。

如何改变文本的样式

强调文本 强调文本

加粗文本 加粗文本

标记文本

~~删除文本~~

引用文本

H₂O is是液体。

2¹⁰ 运算结果是 1024.

插入链接与图片

链接: link.

图片:

带尺寸的图片:

居中的图片:

居中并且带尺寸的图片:

当然，我们为了让用户更加便捷，我们增加了图片拖拽功能。

如何插入一段漂亮的代码片

去博客设置页面，选择一款你喜欢的代码片高亮样式，下面展示同样高亮的 代码片.

// An highlighted block
var foo = 'bar';

生成一个适合你的列表

项目
- 项目
  - 项目

项目1
项目2
项目3

计划任务
完成任务

创建一个表格

一个简单的表格是这么创建的：

项目	Value
电脑	$1600
手机	$12
导管	$1

设定内容居中、居左、居右

使用:---------:居中
使用:----------居左
使用----------:居右

第一列	第二列	第三列
第一列文本居中	第二列文本居右	第三列文本居左

SmartyPants

SmartyPants将ASCII标点字符转换为“智能”印刷标点HTML实体。例如：

TYPE	ASCII	HTML
Single backticks	`'Isn't this fun?'`	‘Isn’t this fun?’
Quotes	`"Isn't this fun?"`	“Isn’t this fun?”
Dashes	`-- is en-dash, --- is em-dash`	– is en-dash, — is em-dash

创建一个自定义列表

Markdown

Text-to- HTML conversion tool

Authors

John

Luke

如何创建一个注脚

一个具有注脚的文本。²

注释也是必不可少的

Markdown将文本转换为 HTML。

KaTeX数学公式

您可以使用渲染LaTeX数学表达式 KaTeX:

Gamma公式展示 $\Gamma(n) = (n-1)!\quad\forall n\in\mathbb N$ 是通过欧拉积分

$\Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,.$

你可以找到更多关于的信息 LaTeX 数学表达式here.

新的甘特图功能，丰富你的文章

Mon 06 Mon 13 Mon 20 已完成进行中计划一计划二现有任务 Adding GANTT diagram functionality to mermaid

关于 甘特图 语法，参考这儿,

UML 图表

可以使用UML图表进行渲染。 Mermaid. 例如下面产生的一个序列图：

张三李四王五你好！李四, 最近怎么样? 你最近怎么样，王五？我很好，谢谢! 我很好，谢谢! 李四想了很长时间, 文字太长了不适合放在一行. 打量着王五... 很好... 王五, 你怎么样? 张三李四王五

这将产生一个流程图。:

链接

长方形

圆

圆角长方形

菱形

关于 Mermaid 语法，参考这儿,

FLowchart流程图

我们依旧会支持flowchart的流程图：

Created with Raphaël 2.2.0 开始我的操作确认？结束 yes no

关于 Flowchart流程图 语法，参考这儿.

导出与导入

导出

如果你想尝试使用此编辑器, 你可以在此篇文章任意编辑。当你完成了一篇文章的写作, 在上方工具栏找到 文章导出 ，生成一个.md文件或者.html文件进行本地保存。

导入

如果你想加载一篇你写过的.md文件，在上方工具栏可以选择导入功能进行对应扩展名的文件导入，
继续你的创作。

mermaid语法说明 ↩︎
注脚的解释 ↩︎

【深度学习|学习笔记】网格搜索（GridSearchCV）和随机搜索（RandomizedSearchCV）详解，附代码。努力毕业的小土博^_^ 深度学习学习笔记深度学习学习笔记机器学习人工智能
【深度学习|学习笔记】网格搜索（GridSearchCV）和随机搜索（RandomizedSearchCV）详解，附代码。【深度学习|学习笔记】网格搜索（GridSearchCV）和随机搜索（RandomizedSearchCV）详解，附代码。文章目录【深度学习|学习笔记】网格搜索（GridSearchCV）和随机搜索（RandomizedSearchCV）详解，附代码。一、背景与发展：为什么需要
数字人多模态交互中的语义理解技术：让虚拟角色真正“理解”用户 CarlowZJ 数字人 python
目录前言一、语义理解技术的概念（一）语义理解的定义（二）语义理解的关键技术二、语义理解的代码示例（一）安装依赖（二）语义理解模型（三）结合情感分析（四）完整的多模态语义理解系统三、应用场景（一）虚拟客服（二）教育辅导（三）虚拟直播（四）智能助手四、注意事项（一）上下文管理（二）情感分析（三）多模态融合（四）模型选择（五）性能优化（六）安全性和隐私保护五、总结前言在数字人多模态交互中，语义理解是实现
创建线程的常见方式 HansenPole825 java 开发语言
一、继承Thread类继承Thread类重写run（）方法。publicclassmyThreadextendsThread{@Overridepublicvoidrun(){System.out.println("线程启动了");}publicstaticvoidmain(String[]args){myThreadmyThread=newmyThread();myThread.start();
TCP 缓冲区核心机制 FHKHH tcp/ip php 网络
一、TCP缓冲区核心机制1.发送与接收缓冲区发送缓冲区：当应用程序调用send()或write()函数时，数据从应用进程复制到内核的发送缓冲区。TCP协议负责将这些数据分段并发送。例如，Web服务器向客户端发送网页数据时，应用程序将内容传递到发送缓冲区，TCP再将其分割成合适大小的报文段进行传输。接收缓冲区：接收端将收到的数据存入内核的接收缓冲区，应用程序调用recv()或read()函数从中读取
数据标注工具详解 Sally璐璐 ai 大数据
数据标注工具是构建高质量AI训练数据集的核心基础设施，其功能覆盖图像、文本、视频、音频、3D点云等多模态数据的标注与管理。以下从工具类型、核心功能、行业应用及技术趋势等方面进行系统介绍：一、主流数据标注工具分类与特性1.通用型标注平台LabelStudio由Heartex开发的开源工具，支持文本、图像、视频、音频及时间序列数据标注，可通过YAML自定义标注界面19。其内置质量控制机制（如标注审核、
opencv —— floodFill 漫水填充法实现证件照换背景老干妈就泡面 opencv 人工智能计算机视觉
漫水填充：floodFill函数简单来说，漫水填充就是自动选中与种子像素相连的区域，利用指定颜色进行区域颜色填充。Windows画图工具中的油漆桶功能和Photoshop的魔法棒选择工具，都是漫水填充的改进和延伸。//第一个版本intfloodFill(InputOutputArrayimage,PointseedPoint,ScalarnewVal,Rect*rect=0,ScalarloDif
车牌识别与标注：基于百度OCR与OpenCV的实现（一）喜欢踢足球的老罗大模型应用开发实践之旅 ocr opencv 人工智能
车牌识别与标注：基于百度OCR与OpenCV的实现在计算机视觉领域，车牌识别是一项极具实用价值的技术，广泛应用于交通监控、智能停车场管理等领域。本文将介绍如何在macOS系统下，利用百度OCRAPI进行车牌识别，并结合OpenCV库在图片上绘制标注框和车牌号码，实现一个完整的车牌识别与标注流程。整个工程将使用PyCharm进行组织和开发。一、系统环境与工程结构系统环境操作系统：macOS开发工具：
7-STM32的模拟IIC 水果里面有苹果嵌入式软件 stm32 单片机嵌入式硬件
STM32的模拟IICvoidIIC_Init(){GPIO_InitTypeDefGPIO_InitStructure;RCC_APB2PeriphClockCmd(RCC_APB2Periph_GPIOB,ENABLE);//使能GPIOA时钟GPIO_InitStructure.GPIO_Pin=GPIO_Pin_10|GPIO_Pin_11;//PA4->SCL;PA5->SDAGPIO_
AI日报-20250627：谷歌Gemma 3n发布，百亿参数只需2G内存！荣耀启动IPO冲刺2000亿估值！大数据AI-ZRL AI日报人工智能业界资讯自然语言处理
1、黑马FLUX.1-Kontext开源！文本一键PS超越GPT-image-1，AI修图新标杆2、谷歌Gemma3n震撼发布：2G内存跑100亿参数多模态模型，端侧AI迎来革命！3、90后清华博士打造AI厨师！获数千万融资，拿下全国首张机器人食品经营证4、蚂蚁CGM代码图模型震撼开源：44%修复率登顶SWE-Bench，碾压所有开源模型5、快手Keye-VL大模型震撼开源！视频理解能力秒杀人类，
Cesium快速入门到精通系列教程十：实现任意多个蜂巢似六边形组合 duansamve cesium cesium
要实现完美的正六边形蜂巢排列，关键在于精确计算每个六边形的顶点位置和排列方式。以下是Cesium1.106中优化后的完整实现方案：正六边形几何原理正六边形的特性：所有边长相等（设为radius）中心到每个顶点的距离相等（外接圆半径）相邻六边形中心间距为√3*radius行间距为1.5*radiusCesium.Ion.defaultAccessToken='你的defaultAccessToken
VS2019+QT5.13更改应用图标和状态栏的图标（包含提示框）大可布加冰 c++qt5 vs2015
VS2019+QT5.13更改应用图标和状态栏的图标（包含提示框）自述1.更改应用程序图标2.更改状态栏和提示框图标自述一入编程，深似海，在CSDN.上记录下自己遇到的问题和解决办法，希望为大家带来方便。1.更改应用程序图标将准备好的图标资源（.ico文件）放到工程目录。在vs资源视图中选中项目右键->添加->资源，选择icon，vs会创建一个名叫“项目名称.rc”的资源文件，无论你项目是否有这个
关于 java：7. 多线程与并发编程 shenyan~ java 开发语言
一、Thread类作用：Thread类代表一个线程，用于创建和控制一个新的执行流（即“子线程”）。定义：java.lang.Thread类实现了Runnable接口。1.1使用方式方法一：继承Thread类步骤：自定义类继承Thread。重写run()方法。创建线程对象并调用start()方法。示例代码：classMyThreadextendsThread{@Overridepublicvoidr
构建智能对话式BI的关键：ChatBI场景下的Agent框架选型深
写在前面在数据驱动决策的时代，商业智能（BI）工具扮演着至关重要的角色。然而，传统BI工具往往需要用户具备一定的SQL知识或熟悉复杂的操作界面。对话式BI（ChatBI）的出现，旨在通过自然语言交互，让任何人都能轻松获取数据洞察，极大降低了数据分析的门槛。构建一个强大、灵活且可扩展的ChatBI应用，其核心离不开一个合适的Agent框架。Agent框架如同应用的“龙骨”，为LLM赋予了感知、思考、
OpenCV实战：图像颜色识别与提取、掩膜制作
前言在计算机视觉和图像处理领域，颜色识别是一项基础而重要的技术。无论是交通标志识别、工业分拣还是美颜滤镜开发，都离不开对特定颜色的处理。本文将带你全面掌握使用OpenCV进行颜色识别的关键技术，包含完整的代码实现和原理讲解。一、颜色空间基础1.1RGB颜色空间在图像处理中，最常见的就是RGB颜色空间。RGB颜色空间是我们接触最多的颜色空间，是一种用于表示和显示彩色图像的一种颜色模型。RGB代表红色
OpenCV图像添加水印
一、前言在数字图像处理中，为图片添加水印是一项常见且重要的技术。无论是版权保护、品牌宣传还是防止未经授权的使用，水印都能发挥重要作用。OpenCV作为一款强大的计算机视觉库，提供了丰富的功能来实现各种水印效果。本教程将详细介绍如何使用OpenCV为图像添加文字水印和图片水印。二、环境准备在开始之前，请确保已安装以下环境：Python3.xOpenCV库（可通过pipinstallopencv-py
OpenCV图像噪点消除五大滤波方法慕婉0307 opencv基础 opencv 人工智能计算机视觉
在数字图像处理中，噪点消除是提高图像质量的关键步骤。本文将基于OpenCV库，详细讲解五种经典的图像去噪滤波方法：均值滤波、方框滤波、高斯滤波、中值滤波和双边滤波，并通过丰富的代码示例展示它们的实际应用效果。一、图像噪点与滤波基础1.1常见图像噪声类型高斯噪声：符合正态分布的随机噪声椒盐噪声：随机出现的黑白像素点泊松噪声：光子计数噪声量化噪声：模拟信号数字化过程中产生1.2滤波方法分类滤波类型特点
中科亿海微SoM模组——基于FPGA+RSIC-V的计算机板卡 ehiway fpga开发
基于FPGA+RSIC-V的计算机板卡主芯片使用中科亿海微EQ6HL45-CSG324FPGA芯片和高性能微控制器HPM6880，并集合ADCLHA6958H、6通道数字隔离器SiLM5760、SiLM5763、内存W634GU6QB等器件，板卡实现了大容量配置存储等功能的融合，为模拟信号采集、数字信号处理、逻辑控制等应用提供高性能混合信号处理通用硬件平台。图板卡硬件整体框图图板卡实物图EQ6HL
基于OpenCV图像分割与PyTorch的增强图像分类方案从零开始学习人工智能 opencv pytorch 分类
在图像分类任务中，背景噪声和复杂场景常常会对分类准确率产生负面影响。为了应对这一挑战，本文介绍了一种结合OpenCV图像分割与PyTorch深度学习框架的增强图像分类方案。通过先对图像进行分割提取感兴趣区域（RegionofInterest，ROI），再进行分类，可以有效减少背景干扰，突出关键特征，从而提高分类准确率。该方案在多种复杂场景下表现出色，尤其适用于图像背景复杂或包含多个对象的情况。一、
OpenCV 三维重建实战：从工业检测到自动驾驶，3 大场景代码全解析从零开始学习人工智能 opencv 自动驾驶数码相机
：工业零部件三维建模与检测案例背景：在汽车制造工厂，对于复杂形状的发动机零部件质量检测与逆向工程需求，需要高精度的三维模型。传统检测方法效率低且精度有限，而三维重建技术可快速获取零部件三维信息，实现高效检测与设计优化。技术实现：使用多个相机从不同角度拍摄零部件，利用calib3d模块进行相机标定，获取准确的相机内参和外参。通过特征点检测与匹配算法（如SIFT、ORB等）找到不同图像间的对应点，再用
基于机器学习的人形机器人电池健康状态预测方法 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据机器学习机器人人工智能 ai
基于机器学习的人形机器人电池健康状态预测方法：从理论到实践的系统解析关键词电池健康状态（SOH）、剩余使用寿命（RUL）、人形机器人、机器学习、时序数据建模、多模态特征融合、边缘计算部署摘要本报告系统解析基于机器学习的人形机器人电池健康状态预测方法，覆盖从理论框架到工程实现的全链路。首先界定人形机器人场景下电池健康状态的核心指标（SOH/RUL/RC），梳理从电化学模型到数据驱动方法的技术演进；其
【2024 CVPR-Backbone】RepViT: Revisiting Mobile CNN From ViT Perspective 无敌悦悦王文献阅读 cnn 人工智能神经网络计算机视觉图像处理 python 深度学习
摘要近期，轻量级视觉Transformer（ViT）在资源受限的移动设备上表现出比轻量级卷积神经网络（CNN）更优异的性能和更低的延迟。研究人员已发现轻量级ViT与轻量级CNN之间存在许多结构关联，但二者在模块结构、宏观和微观设计上的显著架构差异尚未得到充分研究。本研究从ViT视角重新审视轻量级CNN的高效设计，并强调其在移动设备上的应用前景。具体而言，我们通过整合轻量级ViT的高效架构设计，逐步
Android跳转到手机系统各个设置界面的方法及其列表枸杞泡水 Android-基础知识 android 手机系统设置
android调用拨号盘拨打电话publicvoiddialPhoneNumber(StringphoneNumber){Intentintent=newIntent(Intent.ACTION_DIAL);intent.setData(Uri.parse("tel:"+phoneNumber));if(intent.resolveActivity(getPackageManager())!=nu
C++实现一个基于多态的职工管理系统（附源码） loveCC_orange C/C++c++面试华为后端开发多态
之前为了找实习，学了Python，刷了五六十道算法题，然后就开始投简历面试了，结果就是各个大厂一轮游，要Python开发的岗位又少的可怜。但所幸华为的实习面试通过了~本来以为这样就可以等着拿offer了，结果泡池子失败，今年华为的RAN研究部offer数量缩水，由于没在前四之列，所以就被pass掉了。然后又重新开始海投简历找实习。在无数次碰壁之后，深感自己才疏学浅，学的东西还是太少了。于是继续刷题
【北上广深杭大厂编程面试题】C++篇...这里介绍C++是如何实现多态的？（三）努力毕业的小土博^_^ 计算机基础知识和编程 c++面试 java 开发语言职场和发展
【北上广深杭大厂编程面试题】C++篇…这里介绍C++是如何实现多态的？（三）【北上广深杭大厂编程面试题】C++篇…这里介绍C++是如何实现多态的？（三）文章目录【北上广深杭大厂编程面试题】C++篇...这里介绍C++是如何实现多态的？（三）前言3.纯虚函数与抽象类示例代码：纯虚函数与抽象类输出：4.虚函数的动态绑定与vtablevtable工作原理：总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！
推动视觉AI边界，智象未来HiDream荣登全球技术先锋榜单雷焰财经人工智能 AIGC 计算机视觉
近日，世界经济论坛“全球技术先锋”荣誉榜单正式揭晓，智象未来HiDream凭借尖端技术成就入选。智象未来HiDream成立于2023年3月，是一家专注于多模态AIGC技术应用的公司，由加拿大工程院外籍院士IEEE/IAPR/CAAIFellow梅涛博士创立。回顾过往，众多知名企业，如Airbnb、Google、Twitter和Spotify等，都曾获得世界经济论坛的“全球技术先锋”称号。然而，今年
LeetCode Hot100(回溯) asom22 LeetCode Hot100 题解 leetcode 算法职场和发展
46.全排列题意给定一个不含重复数字的数组nums，返回其所有可能的全排列。你可以按任意顺序返回答案。题解因为是所有的排列组合，我们每一个位置都取一遍数组的所有元素看看有没有重复的即可代码importjava.util.*;publicclassSolution{publicstaticvoidmain(String[]args){int[]nums={1,2,3};permute(nums);}
免费实时AI图片编辑工具-多模态大模型：GPT-4o、grok、豆包、BAGEL、MagicQuill、OmniGen2 loong_XL AIGC aigc
纯自然语言对话实现图像编辑；参考https://zhuanlan.zhihu.com/p/1890036563586577897GPT-4ohttps://chatgpt.com/geminihttps://gemini.google.com/grokhttps://grok.com/?referrer=website
Veo 3 视频生成大模型完整操作教程（2025）迎风斯黄音视频人工智能
随着AI多模态能力的飞跃，GoogleDeepMind发布的Veo3成为了生成视频领域的一颗重磅炸弹。它不仅能够根据文本生成高质量的视频画面，还能同步生成对白、背景音和环境音，是目前最接近真正“AI导演”的大模型。本文将带你详细了解Veo3的功能、使用方式、提示词撰写技巧，以及完整的创作流程，适合希望用AI快速生成短视频、概念片段、广告、剧情短片等内容的创作者与开发者。一、Veo3是什么？Veo3
Midscene.js介绍和使用望华笙测试工具 ui 前端
Midscene.js介绍和使用由于课程任务的需要，本人去寻找了AI+软件测试的相关应用，发现了Midscene这一便利的UI自动化测试工具。本篇博客主要对Midscene作了介绍，也给出了本人在使用Midscene过程中遇到的问题及摸索到的解决方案。Midscene.js是一个开源的基于多模态大型语言模型的UI自动化测试工具，它是由字节的web-infra团队开发。它能够智能地“解析”用户界面并
RISC-V知识总结 —— 指令集思诺学长-刘竞泽 risc-v
资源1:RISC-VChina–RISC-VInternational资源2:RISC-VInternational–RISC-V:TheOpenStandardRISCInstructionSetArchitecture资源3:RV32I,RV64IInstructions—riscv-isa-pagesdocumentation1.指令集架构的类型在讨论RISC-V或任何处理器架构时，区分非特
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL