我爱计算机视觉

基于CLIP，浙大提出：ActionCLIP，用检索的思想做视频动作识别！性能SOTA！代码已开源！...

关注公众号，发现CV技术之美

本文分享论文『ActionCLIP: A New Paradigm for Video Action Recognition』，假设视频动作识别不是分类问题，而是检索问题？并基于 CLIP，浙大提出 ActionCLIP，用检索的思想做视频动作识别！性能 SOTA！代码已开源！

详细信息如下：

论文链接：https://arxiv.org/abs/2109.08472
项目链接：https://github.com/sallymmx/ActionCLIP

导言：

视频动作识别的标准方法要求神经模型执行经典的1-of-N投票任务。他们被训练来预测一组固定的预定义类别，从而限制了他们在具有未知概念的新数据集上的可迁移能力。

在本文中，作者通过重视标签文本的语义信息，而不是简单地将它们映射成数字，为动作识别提供了一个新的视角。具体地说，作者将此任务建模为多模态学习框架内的视频文本匹配问题，该框架通过更多语义语言监督来增强视频表示，并使模型能够进行Zero-Shot动作识别，而无需任何进一步的标记数据或参数要求。

此外，为了解决标签文本的不足和利用大量的网络数据，作者提出了一种基于多模态学习框架的行为识别新范式，称之为 “预训练、提示和微调”（“pretrain, prompt and fine-tune”）。该范式首先从大量web图像文本或视频文本数据的预训练中学习强大的表示。然后通过prompt engineering使动作识别任务更像预训练的问题。最后，它对目标数据集进行端到端的微调，以获得强大的性能。

作者给出了新范式ActionCLIP的一个实例，它不仅具有优越且灵活的zeroshot/fewshot迁移能力，而且在一般动作识别任务中达到了最高性能，在Kinetics-400上用ViT-B/16作为 Backbone上实现了83.8%的top-1准确率。

Motivation

视频动作识别是视频理解的第一步，是近年来视频研究的热点。作者观察到它主要经历了两个阶段，feature engineering 和 architecture engineering。由于在Kinetics等大型数据集诞生之前，没有足够的数据来学习高质量的模型，早期的方法侧重于feature engineering，利用他们的知识设计特定的手工表达。

然后，随着深度神经网络和大型基准测试的出现，现在进入了第二阶段，即architecture engineering。通过合理吸收时间维度，出现了许多设计良好的网络，如two-stream网络、三维卷积神经网络（CNN）、计算高效的网络和基于Transformer的网络。

尽管特征和网络结构在过去几年中得到了很好的研究，它们经过训练，可以在单模态框架内预测一组固定的预定义类别，如上图（a）所示。但是这种预先确定的方式限制了它们的通用性和使用，因为需要额外的带标签的训练数据才能迁移到任何其他新的概念。

与以前那样直接将标签映射到数字相比，直接从文本中学习是更加有效的，它可以成为更广泛的监督来源，并提供更全面的代表性。人类可以通过将视觉外观的语义信息与自然语言源（而不是数字）相关联来识别已知和未知的视频。

在本文中，作者在多模态框架中探索自然语言监督，如上图（b）所示，目标有两个：

通过更多语义语言监控加强传统动作识别的表示，
使模型能够实现Zero-Shot迁移，而无需任何进一步的标记数据或参数要求。

本文的多模态框架包括用于视频和标签的两个单独的单模态编码器和一个相似度计算模块。训练目标是使成对视频和标签表示相互靠近，因此学习到的表示比单模态方法更具语义。在推理阶段，它成为一个视频文本匹配问题，而不是一个1/N投票任务，并且能够进行zero-shot预测。

然而，现有的全监督动作识别数据集的标签总是过于简洁，无法为语言学习构建丰富的句子。收集和标注新的视频数据集需要巨大的存储资源和巨大的人力和时间。另一方面，每天网络上都会存储和生成大量带有嘈杂但富文本标签的视频。

有没有一种方法可以激活丰富的web数据以进行动作识别？

ViViT证明了预训练可能是一种解决方案。但使用大量web数据进行预训练并不容易。它在存储硬件、计算资源和实验周期方面非常昂贵。这引发了本文的另一个动机，能否直接将预训练好的多模态模型应用到这项任务中，从而避免上述困境？作者认为这是可能的。

在形式上，作者为视频动作识别定义了一个新的范例“预训练、提示和微调”。尽管使用大规模视频文本数据集（如Howto100M）对整个模型进行端到端的重新训练很有吸引力，但这仍受到巨大计算成本的限制。但是作者发现使用预先训练好的模型也是可行的，因此作者采用了公开的预训练好的模型。

然后作者重新制定了新任务，使其看起来更像原始预训练过程中解决的那些问题。基于prompt的学习被认为是对自然语言处理（NLP）的巨大改变，但它在视觉任务中并不活跃，特别是在动作识别中还没有被利用。最后，作者在目标数据集上微调整个模型。并实现了这个范式的一个实例，ActionCLIP，它使用CLIP作为预训练的模型。它在Kinetics-400上获得了83.8%top-1精度。

方法

2.1. Multimodal Learning Framework

以前的视频动作识别方法将此任务视为标准的1-of-N投票问题，将标签映射为数字。这个pipeline完全忽略了标签文本中包含的语义信息。与纯视频建模相比，作者将此任务建模为视频文本多模态学习问题。作者认为，在自然语言的监督下学习不仅可以提高表达能力，而且可以实现灵活的zero-shot transfer。

形式上，给定一个输入视频x和一个来自预定义标签集的标签y，之前的工作通常训练一个模型来预测条件概率，并将y转换为一个数字或一个one-hot向量。在推理阶段，预测得分最高的下标被视为对应的类别。作者试图打破这一pipeline，并将问题建模为，其中i是标签的原始单词，f是一个相似函数。

那么，测试就是一个匹配过程，相似度得分最高的标签词就是分类结果：

如上图（b）所示，作者在dual stream框架内学习视频和标签词的单独单模态编码器。视频编码器提取视觉形态的时空特征。语言编码器用于提取输入标签文本的特征，可以是多种语言模型。然后，为了使成对视频和标签表示彼此接近，作者在相似性计算模块中定义两种模态之间的对称相似性，即余弦距离：

其中和分别是x和y的编码特征。然后，视频到文本和文本到视频的相似性分数可以计算为：

式中，τ是可学习的温度参数，M是训练对的数量。设表示Ground-Truth相似性得分，其中负对的概率为0，正对的概率为1。由于视频的数量远大于固定标签，因此在一个batch的视频中不可避免地会出现属于一个标签的多个视频。

因此，在中可能存在多个正对，所以将相似性得分学习看做具有交叉熵损失的1-in-N分类问题是不恰当的。相反，作者将KL散度定义为视频文本对比损失，以进行优化：

其中表示整个训练集。由于模型学习到了语义信息，因此也可以进行zero-shot的迁移。

2.2. The New Paradigm

在考虑上述多模态学习框架时，需要考虑标签词的不足。最直观的方法是利用大量的web图像文本或视频文本数据。为了迎合这一点，作者提出了一种新的 “预训练、提示和微调”（“pre-train, prompt and fine-tune”）动作识别范式。

Pre-train

正如先前的工作所表明的，预训练对视觉语言多模态学习有很大的影响。由于训练数据是直接从网络上收集的，因此其中一个热门方向是设计适当的目标，以便在此过程中处理这些噪声数据。

在预训练过程中主要有三个上游预训练代理任务：多模态匹配（multimodal matching，MM）、多模态对比学习（multimodal contrastive learning，MCL）和掩蔽语言建模（masked language modeling，MLM）。MM预测一对模态是否匹配。

MCL的目的是绘制彼此接近的成对单模态表示。MLM利用这两种模态的特征来预测mask的词。然而，由于计算量巨大的限制，本文没有关注这一步骤。作者直接选择应用预训练的模型，并在以下两个步骤上进行研究。

Prompt

NLP中的提示（Prompt）意味着使用模板将原始输入修改为文本字符串提示，该提示有一些未填充的slot，以填充预期结果。值得注意的是，传统的做法是通过在预训练的特征提取器上附加一个新的线性层，使预训练的模型适应下游的分类任务，这与本文的做法相反。

在本文中，作者做了两种提示，文本提示（textual prompt ）和视觉提示（visual prompt）。前者对于标签文本扩展具有重要意义。给定一个标签y，首先定义一组允许值，然后通过填充函数获得提示的文本输入，其中。有三种类型的：前缀提示（prefix prompt），中间提示（cloze prompt）和后缀提示（suffix prompt）。它们根据填充位置进行分类。

对于视觉提示，其设计主要取决于预训练模型。如果模型在视频文本数据上进行了预训练，则几乎不需要对视觉部分进行额外的重新格式化，因为模型已经训练为输出视频表示。而如果模型是用图像文本数据预训练的，那么应该让模型学习视频的重要时间关系。

形式上，给定一个视频x，作者引入了提示函数，其中是预训练模型的视觉编码网络。类似地，根据其工作位置分为三种变体：网络前提示（pre-network prompt）、网络内提示（in-network prompt）和网络后提示（post-network prompt）。

通过精心设计提示，甚至可以通过保持预训练模型的学习能力来避免上述无法达到的计算“预训练”步骤。注意，在新范式中，由于灾难性遗忘，不能对预训练模型进行大量修改。

Fine-tune

当有足够的下游训练数据集时，对特定数据集进行微调无疑会显著提高性能。此外，如果提示（prompt）引入了额外的参数，则有必要对这些参数进行训练，并对整个框架进行端到端的学习。

2.3. New Paradigm Instantiation Details

新范式的每个组成部分都有多种选择。如上图所示，作者展示了一个实例化示例，并使用该实例化进行了所有实验。

作者采用了预训练的模型CLIP，以避免在第一个预训练步骤中产生巨大的计算资源。因此，此实例化模型称为ActionCLIP，如上图（a）所示。CLIP是一种通过MCL任务训练的高效图像文本表示，类似于本文的多模态学习框架。上图（b）显示了实例化中使用的文本提示的具体示例。

为了简单起见，作者将定义为K个离散的人工定义的句子。然后，提示输入被输入到语言编码器中，这与预训练的语言模型相同。对于视觉模型，基于CLIP的预训练图像编码器，作者采用以下三种类型的视觉提示。

Pre-network Prompt

如上图（c）所示，该类型在送入编码器之前对输入进行操作。给定一个视频x，只需forward所有从视频中提取的时空标记，以共同学习时空注意。除了空间位置嵌入外，token嵌入将添加额外的可学习时间位置嵌入，以指示帧索引。可以使用原始预训练图像编码，这种方式简称为Joint。

In-network Prompt

如上图（d）所示，这是一种parameter-free prompt，简称为Shift。作者引入了时间移位模块，该模块沿时间维度移动部分特征通道，并促进相邻输入帧之间的信息交换。作者在每两个相邻的层之间插入模块。的结构和预训练的权重可以直接重用，该模块不带任何参数。

Post-network prompt

给定一个具有提取帧的视频x，作者在prompt中使用两个单独的编码器顺序编码空间和时间特征。第一个是空间编码器，它只负责对从同一时间索引中提取的token之间的交互进行建模，可以使用作为。提取的帧级表示为，然后将concat成，然后送到时间编码器，以模拟来自不同时间索引的token之间的交互。

作者为提供四种选择（MeanP。Conv1D，。LSTM，Transf），如上图（e-g）所示。MeanP是时间维度上的平均池化的缩写。Conv1D是应用于时间维度上的1D卷积层。LSTM是一个递归神经网络，Tran为时间视觉Transformer编码器。

实验

3.1. Ablation Experiments

Is the “multimodal framework” helpful?

上表展示了单模态和多模态训练框架的实验结果，可以看出，多模态框架显著提升性能。

Is the “pre-train” step important?

上表展示了是否使用预训练的模型进行实验的结果。

Is the “prompt” step important?

上表展示了是否使用prompt的实验结果。

Is the “fine-tune” step important?

上表展示了不同模块是否进行fine-tuning的实验结果。

Backbones and input frames

上表展示了不同Backbone的实验结果。

3.2. Runtime Analysis

对于不同的Backbone，上表展示了训练情况的分析。

3.3. Zero-shot/few-shot Recognition

上表展示了不同数据集上本文方法的zero-shot结果。

3.4. Comparison with State-of-the-art Methods

上表展示了不同数据集上，本文方法和SOTA方法的对比结果。

总结

本文将动作识别视为一个视频-文本多模态学习问题，为动作识别提供了一个新的视角。与将任务建模为视频单模态分类问题的传统方法不同，作者提出了多模态学习框架来挖掘标签文本的语义信息。

然后，作者制定了一个新的范式，即 “预训练、提示和微调”，使本文的框架能够直接重用强大的大规模web数据预训练模型，大大降低了预训练成本。作者实现了新范式 ActionCLIP 的一个实例，它在一般和zero-shot/few-shot动作识别方面都具有优异的性能。

▊ 作者简介

研究领域：FightingCV公众号运营者，研究方向为多模态内容理解，专注于解决视觉模态和语言模态相结合的任务，促进Vision-Language模型的实地应用。

知乎/公众号：FightingCV

END

欢迎加入「动作识别」交流群备注：Act

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement