深兰深延AI

AAAI 2022 | 负样本问题：时间基础度量学习的复兴

本文介绍我们组NJU-MCG 在多模态视频片段定位领域（Temporal Grounding和Spatio-temporal Grounding任务）被AAAI 2022接收的一篇工作 Negative Sample Matters: A Renaissance of Metric Learning for Temporal Grounding。

TL;DR: 本方法（Mutual Matching Network, MMN）主要是从两个角度对现有方法进行改进：

第一个角度是使用跨模态对比学习增加文本和视频特征的可辨别性（more discriminative）从而提高最终的定位效果，具体做法是增加了一个使得两个模态双向匹配（mutual matching）的损失函数从而构造了许多新的监督信号。我们首次使用了此前方法忽视的文本负样本，并且首次揭示了跨视频负样本的重要性。我们对于负样本的探究对应了标题中的negative sample matters。
第二个角度是从度量学习的角度使用了一个多模态联合建模空间（joint visual-language embedding space）替换复杂的多模态融合模块，从而大幅降低了计算开销，并且使得前面提到的双向匹配loss成为可能。

虽然此前有过一个方法使用度量学习进行建模，但其方法效果较差因此后续没有人follow这个思路。本方法的标题使用了a renaissance of metric learning试图说明度量学习的角度其实依然是一个很好的建模思路，希望有更多的后续工作follow这个思路。

论文链接（camera ready version已经更新）：

https://arxiv.org/abs/2109.04872

代码链接（代码和网络权重已经开源）：

https://link.zhihu.com/?target=https%3A//github.com/MCG-NJU/MMN

任务介绍

简单介绍一下什么是视频片段语言定位（Temporal Grounding）任务：属于视频领域的多模态任务（视频+文本），是视频时序检测任务的多模态版本，也是跨模态视频检索的片段版本。以下列举了一些视频领域的相关任务。

动作识别 (Action Recognition) ：对每个输入视频进行分类，识别出视频中人物做出的动作。即输入一个视频，得到视频对应的类别。方法主要是Two-Stream和3D Conv两个流派，常常作为后续视频任务的特征提取器。此任务可以关注我们组近期的工作TDN。

时序动作检测 (Temporal Action Detection/Localization) ：输入一个未经裁剪的长视频 (untrimmed video)，即视频中既包括有动作的前景区间，也包括没有明确语义的背景区间。任务需要检测（或定位，此任务中这两个词等价）出动作开始和结束的区间，并判断区间内动作的类别。即输入未经裁剪的视频序列，得到动作出现的区间和对应的类别。常用数据集为THUMOS14与ActivityNet。此任务可以关注我们组近期工作RTD。

跨模态视频检索(Cross-modal Video Retrieval)：在一个给定的视频数据库中查询与一句话的语义最相关的那个视频。虽然与temporal grounding任务只相差一个片段定位过程，但是两个任务的方法上几乎没有相似性。这个领域使用度量学习角度的方法比较多，但是在temporal grounding领域几乎没有人follow。

视频片段语言定位 (Temporal Grounding) ：输入一个未经裁剪的长视频和一句话，任务要求检测与这句话语义一致的片段的区间。本任务有很多名字，例如temporal/video grounding, cross-modal moment retrieval, natural language moment retrieval, temporal localization via language query等，代表了不同的领域对于这个任务从不同角度的看法。本任务也没有一个固定的中文名字，我们给它起的暂定的名字是多模态视频时序检测，之后提到的时候主要还是使用英文名。

这个任务的产生主要可以有两个角度来看：

（1）作为时序检测的多模态版本，使用一句话替代时序检测中固定的类别体系，从而使得视频时序检测的类别更加开放和动态变化。

（2）作为跨模态视频检索的一个更加细化的版本（即从在一个视频库中检索一个视频变为在一个视频检索一个片段），使得检索方法不仅可以查询一个短视频，更可以从一个长视频中查询一个短片段，从而具有此前视频检索方法达不到的一些效果。一般来说CV研究者都是从第一个角度进行建模的，即使标题中含有retrieval的很多方法基本上也是从时序检测的角度进行思考的。

此前的方法主要有4类：

(1) detection：在融合过的多模态特征上使用anchor-based（基于早期目标检测方法）/anchor-free（基于CenterNet/FCOS）/transformer（基于DETR）/boundary classification（类似于BSN）等方法进行时序检测。

(2) regression：在融合过的多模态特征上利用attention模块形成一个全局特征，然后直接预测片段的开始结束。

(3) reinforcement learning：通过强化学习的算法逐渐逼近最终的预测结果。

(4) metric learning：使用joint visual-language embedding space中两个模态的相似度进行建模，这个思路此前的方法只有一篇文章，没有很多人follow。

多模态视频预训练（Video-Language Pretraining）：利用视频和与其弱相关的字幕（通过ASR得到）或者标题（通过一些Meta-info得到）进行预训练，目的是为了利用互联网上不需要标注的信息进行弱监督或自监督学习从而得到更好的特征表示。这个预训练任务得到的特征的好坏与下游任务的性能息息相关，因此十分重要，自从自监督学习变得火热以后这个领域的文章也非常多。

本文使用的跨模态对比学习损失函数常见于Video-Language Pretraining任务中，具体来说本文使用的loss是在我们组此前的工作CPD上经过修改而成，并且给这个loss在temporal grounding任务中赋予了新的意义。需要注意的是本文的方法并没有使用任何的预训练数据集，所有的监督信号都是从temporal grounding数据集本身中构造的。

其他Grounding任务：

（1）Visual Grounding：目标检测的多模态版本，将目标检测中的类别换为一句话。（2）Spatio-temporal Video Grounding：时空动作检测的多模态版本，我们的AAAI文章中基于提出的temporal grounding方法构造了一个Spatio-temporal Video Grounding的方法并且取得了2021年HC-STVG比赛的第一。

（3）Refering Image/Video Segmentation：语义分割或视频目标分割（Video Object Segmentation）的多模态版本。

以下还有一些其他的相关任务，是本任务的拓展任务或者是其他角度的相关任务，可跳过。

Video Captioning/Dense Video Captioning：是Temporal Grounding的逆任务，输入一个视频，任务要求使用一句或者多句自然语言描述本视频。Temporal Grounding任务中最大的数据集ActivityNet-Captions同样具有captioning这个任务。

Video-Subtitle Moment Retrieval (TVR数据集近期提出)：输入一个视频数据库和一句话，根据这句话的语义首先在在一个视频库中检索视频，然后定位一个短片段。是Temporal Grounding任务和Cross-modal Video Retrieval任务的结合。以后temporal grounding任务数据集刷到饱和以后这个任务应该是一个比较好的进阶版本任务。

研究动机

正如任务介绍部分提到的，目前的temporal grounding方法主要都是从detection的角度去解决这个任务，因此他们的研究重点主要有两个：

（1）设计复杂的cross-modal fusion模块来更好的align两个模态之间的信息。

（2）设计复杂的定位（检测）模块来更好的预测片段的位置，这个角度直白一点来说和时序动作检测比除了数据集不一样以外没什么区别，并且大部分工作是follow目标检测的最新进展，也有一些工作利用了时序一维信息的特点（例如follow BSN和BMN的思路）。

还有一些temporal grounding方法从聚合全局特征然后regression的角度出发，但是他们往往只能出一个预测框，这一点对于动作边界歧义性比较大的视频数据集来说其实是不太友好的。基于现有的思路，我们在想能不能跳出常用的框架，从而做一些与其他人不太一样的东西。

我们的动机：基于视频数据集的规模往往都较小的事实，如何构造新的监督信号来帮助模型训练的更好？如图所示，子图a表示了一个视频和语句的例子，图中的连线关系代表了监督信号（正负样本）的构造。此前的proposal-based方法都是给定一句话（query），利用视频框的正负样本来监督网络（子图b）。我们提出除了利用已有的监督信号以外，可以对称地构造出一组对应的新的监督信号，即给定一个gt moment，利用语句的正负样本作为监督信号（子图c），从而达到两个模态双向匹配（mutual matching）的效果，即我们的网络名字Mutual Matching Network的由来。

最终，回到子图a的例子，它的上半部分中，红框表示正样本，其他绿框表示负样本，这些红色与绿色框与query相连的虚线表示此前的监督信号，我们增加了下半部分对于红框的一些语句负样本，即绿线（同一个视频内）和紫线（其他视频中的）相连的语句负样本。增加监督信号的idea有了，下面如何能够完成这件事情？直观来说，这个idea虽然直觉上应该是效果比较好的，但是这样一个比较简单的idea为什么此前都没有人做呢？为了实现这种新的监督信号的构造，我们回到了此前没有人follow的metric learning思路来分别建模两个模态的特征，然后通过一个简单的内积来计算近似度。此前的方法由于在早期就进行了模态融合，因此是没有办法像我们一样构造新的监督信号的，只有把两个模态的建模方式分开才有可能构造以上提到的新的监督信号。

使用了metric learning之后，我们还发现了几个额外的优点：

（1）对于此前一直使用的子图b中的监督信号，由于此前方法没有使用一个joint embedding space进行建模，他们没有办法使用其他视频中的moment负样本，我们的方法也是可以使用的。因此第一个额外的优点是能够使用其他视频中的sentence和moment负样本。

（2）由于将模态分开，因此对于同一个视频和同一个语句，我们都只需要对他们做一次建模即可，而此前的early-fusion方法对于每一个视频-语句对都需要进行一次建模，从而导致我们的计算开销大幅降低。数学上，如果一个视频内平均具有k个语句，那我们的计算开销应该是early-fusion方法的1/k（因为语言建模网络的计算复杂度比视频框建模网络的复杂度小很多）。

实际上，我们训练ActivityNet-Captions花了10 GPU hours，而我们的baseline在使用和我们几乎一样多的网络层的情况下需要36 GPU hours（类似的事情在测试时也是成立的）。

具体方法

由于我们的主要贡献是监督信号，因此我们的网络结构相比于baseline（2D-TAN）来说改动只有最后的joint embedding space部分。此外，由于LSTM网络使用的设定往往存在很大差异，并且实际上也给我们复现其他方法造成了一些困扰，因此基于标准化的考虑（call for standardization），我们使用了一个预训练过的DistilBERT，这样可以保证大家使用的语言特征编码器是公平比较的。

我们也在两个此前工作上进行了替换DistilBERT的实验（与LSTM效果相差不大），从而与我们的方法公平比较。我们这里同样为了保持尽可能的与2D-TAN一致从而公平比较，我们保留了一个joint embedding space用来进行2D-TAN原本的loss，并且在一个新的embedding space里面进行我们增加的监督信号的学习。

损失函数：我们使用了两个损失函数。（1）与2D-TAN一样的BCE Loss (下标bce)。（2）用来使用新的监督信号的跨模态对比学习损失函数 Cross-modal Pair Discrimination Loss，这是一个跨模态相互监督版本的Instance Discrimination方法，使用了类似于InfoNCE的损失函数形式。它在我们的方法（Mutual Matching Network）里称为Mutual Matching Loss (下标mm)。如图所示，我们从语言负样本和跨视频负样本两个角度增加了监督信号。

BCE loss：

Cross-modal Pair Discrimination Loss：

最终训练时两个loss加权相加，score归一化后相乘。需要注意的一点是，由于这两个loss作用的embedding space共享同样的视频/语言特征编码器，因此训练完成后直接拿进行测试的结果就会远好于2D-TAN的效果。

实验结果

这里我们首先通过实验证明我们提出的监督信号比较有用。我们分别在ActivityNet-Captions（最大，最权威）和Charades-STA（最小，我们的方法最明显）两个数据集上做了ablation study。我们有以下几个观察：

（1）加入语言负样本的效果是比较明显的。

（2）由于跨视频的负样本较多，加入跨视频负样本可以进一步地较大提升最终效果，并且只用跨视频负样本的效果往往也比只用视频内的负样本效果更好。这里其实可能会有一些反直觉的地方，因为视频内的负样本往往是难样本，而视频外的负样本往往是简单样本。但是我们同时还有一个只针对视频内负样本的bce loss，因此我们认为bce loss主要针对难样本，mutual matching主要通过大量的负样本改进特征提取器的特征表示效果（这一点在可视化中也可以看出来，bce loss的score distribution比较sharp但有可能定位偏移，而mutual matching的score distribution比较模糊但一般来说偏移较小）。

（3）只使用我们附加的loss可以得到与bce loss差不多甚至更好的效果。

其次我们给出ActivityNet-Captions，TACoS, Charades-STA数据集上的SOTA效果比较，这三个数据集也是CV领域做这个任务最常使用的数据集。此外还有一个数据集（DiDeMo）由于标注粒度是5s而不是常用的逐帧/逐0.1s标注，因此使用的人不是太多。我们的方法重点比较了一些近期刚刚放出来的同期工作，例如CVPR21， ICCV21的方法等。

我们的工作在21年3月已经完成并且拿到了21年6月初截止的HC-STVG比赛的第一，可以说明我们在做这项工作的时候是不知道这些同期工作的。

（1）IVG-DCL (CVPR21) 和SSCS (ICCV21) 都使用了对比学习来改进temporal grounding方法，但是他们都是不够直接的sentence-clip pair或者clip-clip pair的对比学习，而我们是和temporal grounding的最终结果更加相似和直接的sentence-moment pair的对比学习。因此，他们没有用metric learning框架从而缺少了我们提出的mutual matching，即无法利用sentence负样本和跨视频负样本。他们在使用了更加复杂的模块之后（IVG-DCL多用了IVG模块，SSCS多用了captioning和support-set模块）的效果依然比我们差一点。

（2）FVMR (ICCV21) 与我们一样使用了metric learning框架来建模，因此也具有计算开销少的特点，但是FVMR的主要idea是利用一个distillation loss来通过复杂的语言编码器增强简单的语言编码器的效果。FVMR没有提出构造新的监督信号的方式也没有使用对比学习，因此同样缺少我们提出的mutual matching。

最后我们给出本方法拓展到spatio-temporal video grounding任务上的版本，我们在仅仅依靠我们的MMN进行跨模态关系建模的情况下超越了一些使用很强的多模态预训练模型的方法（例如LXMERT和MDETR）。具体实现方法部分请参考我们的论文。

作者：王利民

｜关于深延科技｜

深延科技成立于2018年，是深兰科技（DeepBlue）旗下的子公司，以“人工智能赋能企业与行业”为使命，助力合作伙伴降低成本、提升效率并挖掘更多商业机会，进一步开拓市场，服务民生。公司推出四款平台产品——深延智能数据标注平台、深延AI开发平台、深延自动化机器学习平台、深延AI开放平台，涵盖从数据标注及处理，到模型构建，再到行业应用和解决方案的全流程服务，一站式助力企业“AI”化。

基于opencv的鱼群检测和数量统计识别鱼群密度带界面
完整项目点文末名片查看获取一、项目简介本项目旨在通过计算机视觉技术，实现对视频中鱼类数量的自动检测与计数。利用OpenCV库进行图像处理，包括背景减除、形态学操作、轮廓检测等步骤，最终在视频帧中标记出鱼类并统计其数量。该系统可广泛应用于水产养殖、生态监测等领域，有助于提高工作效率和数据准确性。二、环境准备在开始项目之前，需要确保以下环境和工具已安装：Python：推荐使用Python3.6及以上版
目标跟踪领域经典论文解析 ♢.＊目标跟踪人工智能计算机视觉
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、JAVA、PYTHON与SAP的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！目标跟踪是计算机视觉领域的一个
基于均值偏移算法的动态目标跟踪研究 Zoiny_楠算法均值算法目标跟踪
摘要：目标跟踪技术是计算机视觉领域中重要研究课题之一,在人类生活、军事侦察、工业生产、医疗诊断、交通管理等多方面,都有广泛的应用,研究目标跟踪对人类生活、工程应用等具有现实的指导意义。在基于视觉的目标跟踪算法中,经典的Mean-Shift算法以其理论科学有效、操作简单易实现,跟踪性能较好等优势,一直是众多学者研究的热点。可算法也存在着许多缺陷。例如目标模型中混有背景信息的干扰,给目标定位带来了偏差
燕大《Python机器学习》实验报告：探索机器学习的奥秘温冰礼
燕大《Python机器学习》实验报告：探索机器学习的奥秘【下载地址】燕大Python机器学习实验报告下载这份实验报告是燕山大学软件工程专业的学生在进行机器学习实验时所编写的，内容详实，结构清晰，可以直接下载使用。报告中的实验数据和代码均经过验证，确保下载后可以直接应用于实际项目或作为学习参考项目地址:https://gitcode.com/Open-source-documentation-tut
（转）优秀的 python 机器学习库 patrick75 python 机器学习 python 机器学习
优秀的python机器学习库IntroductionThereisnodoubtthatneuralnetworks,andmachinelearningingeneral,hasbeenoneofthehottesttopicsintechthepastfewyearsorso.It’seasytoseewhywithallofthereallyinterestinguse-casestheys
day39 心落薄荷糖 Python训练营 python
#先继续之前的代码importtorchimporttorch.nnasnnimporttorch.optimasoptimfromtorch.utils.dataimportDataLoader,Dataset#DataLoader是PyTorch中用于加载数据的工具fromtorchvisionimportdatasets,transforms#torchvision是一个用于计算机视觉的库，
DAY 10 机器学习建模与评估心落薄荷糖 Python训练营机器学习人工智能
知识点：1.数据集的划分2.机器学习模型建模的三行代码3.机器学习模型分类问题的评估今日代码比较多，但是难度不大，仔细看看示例代码，好好理解下这几个评估指标。作业：尝试对心脏病数据集采用机器学习模型建模和评估#一、导入库importpandasaspdimportpandasaspd#用于数据处理和分析，可处理表格数据。importnumpyasnp#用于数值计算，提供了高效的数组操作。impor
【图像处理入门】12. 综合项目与进阶：超分辨率、医学分割与工业检测小米玄戒Andrew 图像处理：从入门到专家图像处理人工智能深度学习算法 python 计算机视觉 CV
摘要本周将聚焦三个高价值的综合项目，打通传统算法与深度学习的技术壁垒。通过图像超分辨率重建对比传统方法与深度学习方案，掌握医学图像分割的U-Net实现，设计工业缺陷检测的完整流水线。每个项目均包含原理解析、代码实现与性能优化，帮助读者从“技术应用”迈向“系统设计”。一、项目1：图像超分辨率重建（从模糊到清晰的跨越）1.技术背景与核心指标超分辨率（SR）是通过算法将低分辨率（LR）图像恢复为高分辨率
Python机器学习元学习库higher 音程机器学习人工智能 python 机器学习
higher是一个用于元学习（Meta-Learning）和高阶导数（Higher-ordergradients）的Python库，专为PyTorch设计。它扩展了PyTorch的自动微分机制，使得在训练过程中可以动态地计算参数的梯度更新，并把这些更新过程纳入到更高阶的梯度计算中。一、主要用途higher主要用于以下场景：元学习（Meta-Learning）比如MAML（Model-Agnosti
基于迁移学习的ResNet50模型实现石榴病害数据集多分类图片预测深度学习乐园深度学习实战项目迁移学习分类人工智能
完整源码项目包获取→点击文章末尾名片！番石榴病害数据集背景描述番石榴（Psidiumguajava）是南亚的主要作物，尤其是在孟加拉国。它富含维生素C和纤维，支持区域经济和营养。不幸的是，番石榴生产受到降低产量的疾病的威胁。该数据集旨在帮助开发用于番石榴果实早期病害检测的机器学习模型，帮助保护收成并减少经济损失。数据说明该数据集包括473张番石榴果实的注释图像，分为三类。图像经过预处理步骤，例如钝
四个机器学习模型对比道路裂缝检测识别分类模型深度学习乐园深度学习实战项目机器学习分类人工智能
完整源码项目包获取→点击文章末尾名片！一、课题综述1.1.课题简介在机器学习的研究领域中，传统分类算法模型数量众多，适合的应用场景也各不相同。1.2.课题目标（示例）本课题使用的数据集来自于数据分析与数据挖掘竞赛Kaggle，该竞赛为数据科学领域著名的国际性赛事之一。课题使用的数据集为带标签的图像数据集，包含带有裂痕和不带有裂痕的桥梁、墙和人行道图片。课题的目标为对于目标数据集，搭建相应的传统机器
Densenet模型花卉图像分类深度学习乐园分类数据挖掘人工智能
项目源码获取方式见文章末尾！600多个深度学习项目资料，快来加入社群一起学习吧。《------往期经典推荐------》项目名称1.【基于CNN-RNN的影像报告生成】2.【卫星图像道路检测DeepLabV3Plus模型】3.【GAN模型实现二次元头像生成】4.【CNN模型实现mnist手写数字识别】5.【fasterRCNN模型实现飞机类目标检测】6.【CNN-LSTM住宅用电量预测】7.【VG
基于AFM注意因子分解机的推荐算法深度学习乐园深度学习实战项目深度学习科研项目推荐算法算法机器学习
关于深度实战社区我们是一个深度学习领域的独立工作室。团队成员有：中科大硕士、纽约大学硕士、浙江大学硕士、华东理工博士等，曾在腾讯、百度、德勤等担任算法工程师/产品经理。全网20多万+粉丝，拥有2篇国家级人工智能发明专利。社区特色：深度实战算法创新获取全部完整项目数据集、代码、视频教程，请进入官网：zzgcz.com。竞赛/论文/毕设项目辅导答疑，v：zzgcz_com1.项目简介项目A033基于A
机器学习5——非参数估计平和男人杨争争山东大学机器学习期末复习机器学习概率论算法
非参数估计在参数估计中我们已经提到，想要估计后验概率P(ωi∣x)=p(x∣ωi)p(ωi)p(x)P\left(\omega_i\midx\right)=\frac{p\left(x\mid\omega_i\right)p\left(\omega_i\right)}{p(x)}P(ωi∣x)=p(x)p(x∣ωi)p(ωi)，就需要估计类条件概率p(x∣ωi)p\left(x\mid\omega
机器学习4——参数估计之贝叶斯估计平和男人杨争争山东大学机器学习期末复习机器学习人工智能
贝叶斯估计问题建模：后验概率公式：P(ωi∣x,D)=P(x∣ωi,Di)P(ωi)∑j=1cP(x∣ωj,Dj)P(ωj)P\left(\omega_i\mid\mathbf{x},\mathcal{D}\right)=\frac{P\left(\mathbf{x}\mid\omega_i,\mathcal{D}_i\right)P\left(\omega_i\right)}{\sum_{j=1
深度学习实战：基于嵌入模型的AI应用开发 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络人工智能深度学习 ai
深度学习实战：基于嵌入模型的AI应用开发关键词：嵌入模型（EmbeddingModel）、深度学习、向量空间、语义表示、AI应用开发、相似性搜索、迁移学习摘要：本文将带你从0到1掌握基于嵌入模型的AI应用开发全流程。我们会用“翻译机”“数字身份证”等生活比喻拆解嵌入模型的核心原理，结合Python代码实战（BERT/CLIP模型）演示如何将文本、图像转化为可计算的语义向量，并通过“智能客服问答”“
机器学习3——参数估计之极大似然估计平和男人杨争争山东大学机器学习期末复习机器学习人工智能算法
参数估计问题背景：P(ωi∣x)=p(x∣ωi)P(ωi)p(x)p(x)=∑j=1cp(x∣ωj)P(ωj)\begin{aligned}&P\left(\omega_i\mid\mathbf{x}\right)=\frac{p\left(\mathbf{x}\mid\omega_i\right)P\left(\omega_i\right)}{p(\mathbf{x})}\\&p(\mathbf
基于OpenCv的图片倾斜校正系统详细设计与具体代码实现 AI大模型应用之禅人工智能数学基础计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
基于OpenCv的图片倾斜校正系统详细设计与具体代码实现1.背景介绍1.1图像处理的重要性在当今数字时代,图像处理技术在各个领域都扮演着重要角色。无论是在计算机视觉、模式识别、医学影像、遥感探测还是多媒体处理等领域,图像处理都是不可或缺的核心技术。通过对图像进行预处理、增强、分割、特征提取等操作,可以从图像中获取有价值的信息,为后续的分析和决策提供支持。1.2图像倾斜问题及其影响在实际应用中,由于
大模型RLHF强化学习笔记（一）：强化学习基础梳理Part1 Gravity! 大模型笔记大模型 LLM 算法机器学习强化学习人工智能
【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】一、强化学习基础1.1Intro定义：强化学习是一种机器学习方法，需要智能体通过与环境交互学习最优策略基本要素：状态（State）：智能体在决策过程中需要考虑的所有相关信息（环境描述）动作（Action）：在环境中可以采取的行为策略（Policy）：定义了在给定状态下智能体应该选择哪个动作，目标是最大化智能体的长期累积奖
从零开始理解零样本学习：AI人工智能必学技术 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战 ai
从零开始理解零样本学习：AI人工智能必学技术关键词：零样本学习、人工智能、机器学习、知识迁移、语义嵌入摘要：本文旨在全面深入地介绍零样本学习这一在人工智能领域具有重要意义的技术。首先阐述零样本学习的背景和基本概念，通过详细的解释和直观的示意图让读者建立起对零样本学习的初步认识。接着深入剖析其核心算法原理，结合Python代码进行详细说明，同时引入相关数学模型和公式并举例阐释。通过项目实战部分，带领
卷积神经网络（Convolutional Neural Network, CNN）不想秃头的程序神经网络语音识别人工智能深度学习网络卷积神经网络
卷积神经网络（ConvolutionalNeuralNetwork,CNN）是一种专门用于处理图像、视频等网格数据的深度学习模型。它通过卷积层自动提取数据的特征，并利用空间共享权重和池化层减少参数量和计算复杂度，成为计算机视觉领域的核心技术。以下是CNN的详细介绍：一、核心思想CNN的核心目标是从图像中自动学习层次化特征，并通过空间共享权重和平移不变性减少参数量和计算成本。其关键组件包括：卷积层（
ResNet（Residual Network）不想秃头的程序神经网络语音识别人工智能深度学习网络残差网络神经网络
ResNet（ResidualNetwork）是深度学习中一种经典的卷积神经网络（CNN）架构，由微软研究院的KaimingHe等人在2015年提出。它通过引入残差连接（SkipConnection）解决了深度神经网络中的梯度消失问题，使得网络可以训练极深的模型（如上百层），并在图像分类、目标检测、语义分割等任务中取得了突破性成果。以下是ResNet的详细介绍：一、核心思想ResNet的核心创新是
P25：LSTM实现糖尿病探索与预测 ?Agony lstm 人工智能 rnn
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊一、相关技术1.LSTM基本概念LSTM（长短期记忆网络）是RNN（循环神经网络）的一种变体，它通过引入特殊的结构来解决传统RNN中的梯度消失和梯度爆炸问题，特别适合处理序列数据。结构组成：遗忘门：决定丢弃哪些信息，通过sigmoid函数输出0-1之间的值，表示保留或遗忘的程度。输入门：决定更新哪些信息，同样通过sigmoid函数控制更新
Python训练营打卡——DAY16（2025.5.5） cosine2025 Python训练营打卡 python 开发语言机器学习
目录一、NumPy数组基础笔记1.理解数组的维度(Dimensions)2.NumPy数组与深度学习Tensor的关系3.一维数组(1DArray)4.二维数组(2DArray)5.数组的创建5.1数组的简单创建5.2数组的随机化创建5.3数组的遍历5.4数组的运算6.数组的索引6.1一维数组索引6.2二维数组索引6.3三维数组索引二、SHAP值的深入理解三、总结1.NumPy数组基础总结2.SH
深入详解：决策树算法的概念、原理、实现与应用场景猿享天开算法决策树机器学习
深入详解：决策树算法的概念、原理、实现与应用场景决策树（DecisionTree）是机器学习中一种直观且广泛应用的监督学习算法，适用于分类和回归任务。其树形结构易于理解，特别适合初学者。本文将从概念、原理、实现到应用场景，全面讲解决策树，并通过流程图和可视化示例增强理解，通俗易懂，帮助小白快速掌握决策树算法相关知识。1.决策树的概念1.1什么是决策树？决策树通过一系列条件判断（决策节点）将输入数据
Python爬虫实战：爬取知乎问答与用户信息 Python爬虫项目 python 爬虫 php 数据分析开发语言开源
简介随着网络信息量的爆炸，如何有效获取有价值的内容，成为了数据分析、机器学习等领域的基础之一。爬虫作为数据采集的基本工具之一，常常被用来获取互联网上的公开数据。在这篇博客中，我们将结合最新的Python爬虫技术，详细讲解如何爬取知乎问答与用户信息。本文将会介绍：Python爬虫的基础知识知乎问答网页结构分析使用Python进行知乎数据爬取爬取知乎问答内容与用户信息如何处理和存储爬取的数据使用最新的
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
人脸识别算法赋能园区无人超市安防升级智驱力人工智能算法人工智能边缘计算人脸识别智慧园区智慧工地智慧煤矿
人脸识别算法赋能园区无人超市安防升级正文在园区无人超市的运营管理中，传统安防手段依赖人工巡检或基础监控设备，存在响应滞后、误报率高、环境适应性差等问题。本文从技术背景、实现路径、功能优势及应用场景四个维度，阐述如何通过人脸识别检测、人员入侵算法及疲劳检测算法的协同应用，构建高效、精准的智能安防体系。一、技术背景：视觉分析算法的核心支撑人脸识别算法基于深度学习的卷积神经网络（CNN）模型，通过提取面
Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
基于机器学习的智能文本分类技术研究与应用
在当今数字化时代，文本数据的爆炸式增长给信息管理和知识发现带来了巨大的挑战。从新闻文章、社交媒体帖子到企业文档和学术论文，海量的文本数据需要高效地分类和管理，以便用户能够快速找到所需信息。传统的文本分类方法主要依赖于人工规则和关键词匹配，这些方法不仅效率低下，而且难以应对复杂多变的文本内容。近年来，机器学习技术的快速发展为文本分类提供了一种高效、自动化的解决方案。一、机器学习在文本分类中的应用概述
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不

AAAI 2022 | 负样本问题：时间基础度量学习的复兴

任务介绍

研究动机

具体方法

实验结果

你可能感兴趣的:(AAAI,计算机视觉,深度学习,机器学习,视频处理)