CVHub

Github 3k+ stars 南科大 VIP Lab 近期开源 Track-Anything | SAM + VOS: 一键视频标注

本文首发至微信公众号：CVHub，不得以任何形式转载或售卖，仅供学习，违者必究！

Title: Track Anything: Segment Anything Meets Videos

Paper: https://arxiv.org/pdf/2304.11968.pdf

Code: https://github.com/gaomingqi/Track-Anything

导读

近日，南方科技大学 VIP 实验室开源了一款基于 SAM 的跟踪模型——Track-Anything，可以轻松地对视频中感兴趣的目标进行标注、跟踪和一键隐藏。所见即所得，一键触发。先给大家展示一段Demo：

回到正题。本文主要介绍了一个新的计算机视觉算法模型Track Anything Model, TAM。该模型的设计灵感来自于已经受到广泛关注的Segment Anything Model, SAM，SAM 是一种在图像分割方面表现出色的模型。然而，SAM 在视频中的分割性能一般表现较差。因此，本文提出了一种基于交互式设计的新模型TAM，旨在实现视频中的高性能交互式跟踪和分割。在该模型中，只需要少量的人类参与即可通过点击追踪感兴趣的任何物体，并在一次推理过程中获得令人满意的结果。在不进行额外训练的情况下，这种交互式设计在视频物体跟踪和分割方面表现出色。

笔者空闲的时候亲自尝试了一把，感觉效果相对来说还是不错滴，虽然存在一些问题。文末会附上安装教程和注意事项，不想了解细节的小伙伴可直接跳转到文末。

特点

Track Anything 旨在实现在任意视频中对物体的灵活跟踪。因此，作者定义了该任务的目标对象可以根据用户的兴趣进行灵活选择、添加或删除，用户选择的视频的长度和类型也可以是任意的，而不仅仅限于修剪视频。在这样的设置下，可以实现多种下游任务，包括单个/多个目标跟踪、长期目标跟踪、无监督VOS、半监督VOS 和交互式VOS 等各类 VOS。

注：Video Object Segmentation, VOS，即视频目标分割。

方法

背景介绍

本文方法主要是基于已有算法组装成一个pipeline，下面简单介绍下几个主要成员。

Segment Anything Model

SAM 是由 Meta AI Research 提出的，近期引起了学术界和工业界广泛的关注。作为图像分割的基础模型，SAM 基于 ViT 模型，在大规模数据集 SA-1B 上进行了训练。显然，SAM 在图像分割方面表现出色，特别是在零样本分割任务上。然而，SAM 只在图像分割方面表现优异，不能处理复杂的视频分割任务。因此，这也是本文方法提出的意义。

XMem

该模型可以根据目标物体在第一帧的掩码描述，在后续帧中跟踪该物体并生成相应的掩码。XMem的设计灵感来源于·Atkinson-Shiffrin·记忆模型，旨在通过统一的特征内存存储解决长视频中的困难问题。然而，XMem 的缺点也很明显：

作为半监督 VOS 模型，它需要一个精确的掩码来初始化；
对于长视频来说，XMem 很难从跟踪或分割失败中恢复已有对象。

在本文中，作者通过引入与 SAM 的交互跟踪来解决这两个问题。

Interactive Video Object Segmentation

交互式 VOS（Interactive VOS）模型旨在将用户交互（如涂鸦）作为输入，用户可以迭代地细化分割结果，直到满意为止。交互式 VOS 因为比为对象掩码指定每个像素点更容易提供涂鸦而受到了广泛的关注。然而，作者发现当前的交互式 VOS 方法需要多轮迭代才能细化结果，这影响了它们在实际应用中的效率。

这个挺有意思的，光看字面意思其实没啥感觉，大家可以安装部署完亲自去体验下。简而言之，就是你点一下图片中自己感兴趣的目标，图片就会渲染一次，将当前目标的掩码自动打出来。不过由于 SAM 本身分割的粒度比较细，例如当一个人身上背了一个包，如果你的鼠标点击包的位置，那大概率就会把属于包的语义给出来，这时候就需要你再点一下属于人身体躯干上的其它位置，一般几下以内就可以达到不错的效果。

当然，工程上还用到了其他模型，如 MMEditing 提供的视频超分辨率模型 BasicVSR 用于对推理后的结果进行处理，有兴趣的可自行查源码，此处不展开细讲。

实现细节

TAM 模型的处理流程如上图所示，主要分四个步骤，下面逐一介绍。

Step 1: Initialization with SAM

在步骤1中，作者使用了 SAM 来进行初始化。由于 SAM 提供了使用弱提示（例如点和边界框）来分割感兴趣区域的机会，因此这里我们可以直接用来提供目标对象的初始掩码。按照 SAM 的流程，用户可以通过单击或使用几个单击修改对象掩码，以获得满意的初始化结果。

Step 2: Tracking with XMem

在步骤2中，作者使用了 XMem 来进行跟踪。在给定初始掩码后，XMem 会在后续帧上执行半监督 VOS。由于XMem 是一种先进的 VOS方法，可以在简单的情况下输出令人满意的结果，因此在大多数情况下输出 XMem 的预测掩码。这里还有个细节，便是当掩码质量不太好时，作者会保存 XMem 的预测结果以及相应的中间参数，例如Probes和Affinities，并跳到步骤3，不清楚的可参考图示。

上面两个名词简单说下个人理解。在 XMem 方法中，每个像素都有一个特征表示，并且它们被存储在一个诸如 “feature memory store” 的内存中。探针(probe)是一组查询特征，用于计算与 feature memory store 中其他特征的相似度。亲和力(affinity) 则是相似度的计算结果，用于衡量两个像素之间的相似度。因此，在这个步骤中，当 XMem 无法输出令人满意的掩码时，作者保存了探针和亲和力，以便在步骤3中重新初始化 XMem，并尝试恢复跟踪。这一块笔者此前没接触过，凭感觉写的，如有谬论，敬请谅解。

Step 3: Refinement with SAM

在 VOS 模型的推理过程中，持续地预测一致性和精确性的分割掩码是具有挑战性的。实际上，大多数最先进的视频对象分割模型在推理过程中倾向于越来越粗略地分割目标。因此，当 XMem 预测的分割质量不理想时，本文利用 SAM 对其进行改进。具体来说，作者将 XMem 生成的探针和关联信息投影为 SAM 的点提示，将步骤2中生成的预测掩码用作 SAM 的掩码提示。然后，SAM 能够利用这些提示生成经过改进的分割掩码。如此一来，改进掩码还将被添加到 XMem 中，以改进所有后续的分割对象。

Step 4: Correction with human participation

步骤4主要就是人工的参与啦。经过以上三个步骤，TAM 现在可以成功解决一些常见的挑战并预测出分割掩模。然而，我们注意到在一些极具挑战性的情况下，尤其是处理长视频时，仍然很难准确地区分对象。因此，TAM 提出在推理过程中添加人类修正，只需要很小的人类工作量就可以在性能上实现质的飞跃。具体而言，用户可以强制停止 TAM 的过程，并使用正负点击修正当前帧的掩模。

应用场景

Efficient video annotation

在视频注释方面，TAM 具有将感兴趣的区域进行分割并灵活选择用户想要跟踪的对象的能力。因此，它可以用于视频注释任务，如视频对象跟踪和视频对象分割。另一方面，基于点击的交互使其易于使用，注释过程高效。这意味着，TAM 可以用于快速标注视频数据集，从而促进视频领域的进一步发展。

Long-term object tracking

长期目标跟踪是指在跟踪目标时，需要应对目标消失和重新出现的情况，这一问题更加贴近实际应用需求。当前的长期目标跟踪任务要求跟踪器具有这种能力，但仍受限于裁剪后的视频范围。而 TAM 则在真实世界应用中更为先进，可以应对长视频中的镜头变换等复杂情况。

User-friendly video editing

通过 TAM 我们还可以将视频中的物体进行分割，从而方便我们删除或修改视频中的物体。作者还提到了 E2FGVI 这个工具，该工具可以用来评估 TAM 在视频编辑方面的应用价值。

Visualized development toolkit for video tasks.

为了方便使用，本文还提供了多种视频任务的可视化界面，例如 VOS、VOT、视频修复等等。使用提供的工具包，用户可以将自己的模型应用于真实世界的视频，并即时可视化结果。相应的演示可在Hugging Face中找到，或者自己安装在本地部署。

效果

安装教程

TAM 目前可支持 Linux & Windows 上进行安装使用，大体的安装流程如 Github Repo 所示：

# Clone the repository:
git clone https://github.com/gaomingqi/Track-Anything.git
cd Track-Anything

# Install dependencies: 
pip install -r requirements.txt

# Run the Track-Anything gradio demo.
python app.py --device cuda:0
# python app.py --device cuda:0 --sam_model_type vit_b # for lower memory usage

这里有几个小问题需要注意下：

请提前准备并测试好的你的 git 环境，运行过程需要下载许多插件和第三方库，网速不好的真的可以摔键盘了；
requirements 并没有指定具体的包版本，相信绝大部分小伙伴 pip 完会发现少这少那，比较常见的错误便是 mmcv 和 torch 这两个库。例如 torch 库默认会装 2.0，如果你的机器不支持，大概率是会报无法编译 CUDA 的错误，这时候你就需要安装适配自己机器版本的 torch 环境了。此外，mmcv 这个需要安装完整版和适配版本。

安装链接：
pytorch: https://pytorch.org/get-started/previous-versions/
mmcv: https://mmcv.readthedocs.io/en/latest/get_started/installation.html

安装完之后可能没报错，当你运行打开 localhost 时，会发现 505 错误或者直接一片空白的网页。这时候不要慌，请尝试将 app.py 文件中，将 server_name 的 ip 地址替换后重新运行下即可。

# app.py
...
iface.launch(debug=True, enable_queue=True, share=True, server_port=args.port, server_name="0.0.0.0")

# 替换为

iface.launch(debug=True, enable_queue=True, share=True, server_port=args.port, server_name="127.0.0.1")

Windows 上部署安装教程请参考视频：https://www.youtube.com/watch?v=MQJ4LMLXm30。

此外，需要注意的是，不同的模型运行的显存不一样，显存不够的可尝试使用小一点的模型，如：

python app.py --device cuda:0 --sam_model_type vit_b

具体可参考：https://github.com/gaomingqi/Track-Anything/issues/4

笔者的使用体验：

对于遮挡的情况，目前看来有一定概率会出现目标丢失的情况。例如当图中这个绿框的人走到这个橙色框时，后续的帧就完全断了。

在进行 Tracking 处理时，显存会不断的增大，而非一开始就 OOM。
使用 point 交互式操作，有时候遇到图像太大目标太小，很容易点错。gradio 没有提供像 CVAT 上的缩放功能，这一点用户体验不是很好。

最后，有任何疑问或交流需求的，欢迎请添加小编微信：cv_huber，备注 Track-Anything 加入交流群一起探讨吧。

AI人工智能语音识别马里亚纳海沟网人工智能语音识别 python 学习运维笔记
AI人工智能构建语音识别器语音识别或自动语音识别(ASR)是AI机器人等AI项目的关注焦点。没有ASR，就不可能想象一个认知机器人与人进行交互。但是，构建语音识别器并不容易。开发语音识别系统的困难开发高质量的语音识别系统确实是一个难题。语音识别技术的困难可以广泛地表征为如下所讨论的许多维度-词汇大小词汇大小影响开发ASR的难易程度。考虑以下词汇量以便更好地理解。例如，在一个语音菜单系统中，一个小词
一篇文章了解_docker weixin_30729609 php 测试 python
（一）Docker介绍2018年10月6日星期六15:04什么就Docker?Docker是一个开源项目，诞生于2013年初，最初是dotCloud公司内部的一个业余项目。它基于Google公司推出的Go语言实现。项目后来加入了Linux基金会，遵从了Apache2.0协议，项目代码在GitHub上进行维护。Docker项目的目标是实现轻量级的操作系统虚拟化解决方案。Docker的基础是Linux
基于Python的智能语音识别系统设计 MATLAB算法工程师Y python 语音识别开发语言
引言语言是人类最原始直接的一种交流方式，通俗易懂、便于理解。随着科技的发展，语言交流不再只存在于人与人之间，如何让机器“听懂”人类的语言并做出反应成为人工智能的重要课题，语音智能交互技术应运而生。作为其中重要一环的语音识别技术近年来不断发展，走出了实验室，随着人工智能进入人们的日常生活中。当今市场上语音识别技术相关的软件、商品涉及人类生活的方方面面，语音识别的实用性已经得到充分的印证。如今语音识别
基于python的语音识别系统,Python语音识别技术路线快乐的小肥熊 ai智能写作 python 语音识别开发语言 cnn
如何用python调用百度语音识别1、首先需要打开百度AI语音系统，开始编写代码，如图所示，编写好回车。2、然后接下来再试一下的音频，开始编写成功回车，如图所示的编写。3、最后，查看音频c的属性，可以看到音频持续28秒，这样就是用python调用百度语音识别成功解决问题。谷歌人工智能写作项目：神经网络伪原创Python语音识别,调用的是哪个客户端接口函数调用腾讯云的语音识别(一句话识别)接口-Py
Ubuntu 24.04.2 LTS Python 人工智能Ai视觉模型 GHY云端大师 AI 训练模型 python 人工智能
一、创建Python虚拟环境#更新软件包列表，确保你获取到最新版本的可用软件包sudoaptupdate#安装用于创建Python3.10虚拟环境（venv）的相关软件包sudoaptinstallpython3.10-venv-y或sudoaptinstallpython3.12-venv-y#使用Python3创建一个名为"yolov8_env"的虚拟环境python3-mvenvyolo
人工智能训练知识学习-TTS（智能语音合成）笨鸟笃行人工智能学习
人机对话——TTS（TextToSpeech）概念：TTS技术，即文本转语音技术，是一种将文字内容转换为语音输出的技术。它通过计算机程序和算法，将文本信息转化为自然流畅的语音信号，让用户能够听到文字内容，而无需手动阅读。（即将文本转换为语音输出）TTS技术的工作原理（一）文本预处理当TTS系统接收到一段文本输入时，首先会对文本进行预处理。这包括分词、词性标注、语义理解等操作。例如，在中文文本中，系
Python 语音识别与语音合成的实现方法加班不如去钓鱼 python 语音识别 xcode
```htmlPython语音识别与语音合成的实现方法Python语音识别与语音合成的实现方法随着人工智能技术的发展，语音处理在实际应用中变得越来越重要。Python作为一种功能强大的编程语言，提供了丰富的库和工具来实现语音识别和语音合成的功能。本文将详细介绍如何使用Python实现语音识别与语音合成。一、语音识别语音识别（SpeechRecognition）是将人类的语音转换为文本的过程。Pyt
从 MDM 到 Data Fabric：下一代数据架构如何释放 AI 潜能大卫的 AI 办公摸鱼手册人工智能与主数据元数据专栏 fabric 架构人工智能
从MDM到DataFabric：下一代数据架构如何释放AI潜能——传统治理与新兴架构的范式变革与协同进化引言：AI规模化落地的数据困境在人工智能技术快速发展的今天，企业对AI的期望已从“单点实验”转向“规模化落地”。然而，Gartner数据显示，仅有20%的AI项目能够真正实现工业化部署，其核心瓶颈在于数据质量、实时性和治理复杂性。传统主数据管理（MDM）虽能解决基础数据标准化问题，但在应对多源异
安装 Docker Compose！！！
1、检查本地docker版本dockerversion我的docker版本为v27.3.12、docker-compose版本选择DockerCompose|DockerDocsReleases·docker/compose找到对应的版本下载。3、安装#github:https://github.com/docker/compose/releases/tag/v2.20.2#国内下载地址：http
论“人工智能生命体”站在那个高度？
第一部分：人工智能生命体人工智能生命体，提及的是《人工智能生命体新启点》一书，原文附后，本文中以本书代表。《人工智能生命体新启点》一书，是在现今科学技术发展，从人工智能、智能体、具身智能等大环境下，形成的一种全新理念的理论指导，以此发展出具有自我意识的人工智能生命体，拥有现代科技并以生命体的形式出现，具备类人类般的思想活动，更好的体现与融入人类的社会环境；具有自我意识的智能生命体就如人类的拥有大脑
ubuntu FreeRadius服务器安装 flowHEHE ubuntu系统安装 ubuntu 服务器
1、获取安装源（1）wgethttps://github.com/FreeRADIUS/freeradius-server/archive/v3.0.x.zip（2）unzipv3.0.x.zip（3）cdfreeradius-server-3.0.x/2、创建ubuntu相关依赖（1）sudoapt-getinstalldevscriptsquiltdebhelperfakerootequivs
使用 Dockerfile 构建基于 .NET9 的跨平台基础镜像
官方基础镜像准备微软官方dotnetsdk基础镜像：dockerpullmcr.microsoft.com/dotnet/sdk:9.0拉取ubuntu镜像：dockerpullubuntu:24.04更多资源请参考：dotnetsdkimages，https://mcr.microsoft.com/en-us/artifact/mar/dotnet/sdk/tagsgithubdockerbui
黑客 vs. 网安：谁才是数字世界的主宰？ 2024年信息安全人员应该重点学什么？网安导师小李程序员编程网络安全 linux 运维服务器 excel web安全 python java
在当今数字化飞速发展的时代，信息安全问题日益严峻。黑客攻击、数据泄露、网络病毒等威胁不断涌现，企业和个人的隐私安全岌岌可危。随着人工智能、物联网、云计算、区块链等新技术的兴起，信息安全行业正面临着新的挑战和机遇。2024年信息安全行业面临的挑战和机遇**1.人工智能（AI）：**AI技术的广泛应用使得攻击者能够利用机器学习和自动化技术进行更具针对性的攻击。例如，恶意软件可以通过AI算法不断自我进化
机器人工程专业毕设选题推荐
文章目录1前言2如何选题3选题方向2.1嵌入式开发方向2.2物联网方向2.3移动通信方向2.4人工智能方向2.5算法研究方向2.6移动应用开发方向2.7网络通信方向3.4学长作品展示4最后1前言近期不少学弟学妹询问学长关于电子信息工程专业相关的毕设选题，学长特意写下这篇文章以作回应！以下是学长亲手整理的物联网相关的毕业设计选题，都是经过学长精心审核的题目，适合作为毕设，难度不高，工作量达标，对毕设
飞算JavaAI：AI赋能的Java开发助手山峰哥人工智能 java 开发语言数据库信息可视化人机交互
『AI先锋杯·14天征文挑战第一期』AI技术如何重塑你的工作与行业？一、前言在2025年人工智能技术爆发的时代，开发者的工作方式正经历着革命性变革。智能编码工具已经从简单的代码补全进化到能够理解复杂需求、生成完整工程的能力。本文将深入分析国产Java开发助手飞算JavaAI如何通过自然语言交互彻底改变传统开发流程，并结合电商系统、金融交易引擎等实战案例，验证其在实际项目中的生产力提升效果。二、飞算
AI人工智能代理工作流AI Agent WorkFlow：高并发场景下AI代理的性能调优 AI大模型应用之禅人工智能数学基础计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能代理工作流AIAgentWorkFlow：高并发场景下AI代理的性能调优关键词：AI代理，工作流，性能调优，高并发，分布式系统，资源管理，负载均衡1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，AI代理（AIAgents）在各个领域的应用越来越广泛。AI代理作为自动化、智能化的执行实体，能够模拟人类智能行为，完成复杂的任务。在高并发场景下，例如在线服务、金融服务、智能城市等，A
基于python+django+vue.js开发的停车管理系统源码+运行
功能介绍平台采用B/S结构，后端采用主流的Python语言进行开发，前端采用主流的Vue.js进行开发。技术学习共同进步功能包括：车位管理、会员管理、停车场管理、违规管理、用户管理、日志管理、系统信息模块。源码地址https://github.com/geeeeeeeek/python_parking演示地址http://parking.gitapp.cn演示帐号：用户名：admin123密码：a
基于python+django+vue.js开发的学生成绩管理系统西门吹雪1998 毕业设计合集 python django vue.js
功能介绍平台采用B/S结构，后端采用主流的Python语言进行开发，前端采用主流的Vue.js进行开发。功能包括：成绩管理、学生管理、课程管理、班级管理、用户管理、日志管理、系统信息模块。源码地址https://github.com/geeeeeeeek/python_score演示地址http://score.gitapp.cn演示帐号：用户名：admin123密码：admin123主要使用技术
【课程设计】基于python+django+vue.js开发的健身房管理系统
功能介绍平台采用B/S结构，后端采用主流的Python语言进行开发，前端采用主流的Vue.js进行开发。给师妹的课程作业。功能包括：教练管理、会员管理、场地管理、设备管理、用户管理、日志管理、系统信息模块。源码地址https://github.com/geeeeeeeek/python_fitness演示地址http://fitness.gitapp.cn演示帐号：用户名：admin123密码：a
基于python+django+vue.js开发的健身房管理系统源码+运行
功能介绍平台采用B/S结构，后端采用主流的Python语言进行开发，前端采用主流的Vue.js进行开发。技术学习共同进步功能包括：教练管理、会员管理、场地管理、设备管理、用户管理、日志管理、系统信息模块。源码地址https://github.com/geeeeeeeek/python_fitness演示地址http://fitness.gitapp.cn演示帐号：用户名：admin123密码：ad
解锁阿里云文字识别OCR：开启智能文本处理新时代
阿里云OCR：技术先锋登场在数字化转型的汹涌浪潮中，海量文本数据如潮水般涌来，如何高效处理这些文本，成为众多企业和开发者面临的关键挑战。阿里云文字识别OCR，作为一款强大的人工智能技术，应运而生，宛如一位英勇的先锋，为我们开辟了一条高效处理文本的光明大道。它能够精准地将图片、扫描件中的文字转化为可编辑的文本，极大地提高了信息处理的效率和准确性，在众多领域中发挥着不可或缺的重要作用。探秘阿里云OCR
大规模预训练语言模型的参数高效微调
人工智能咨询培训老师叶梓转载标明出处大规模预训练语言模型（PLMs）在特定下游任务上的微调和存储成本极高，这限制了它们在实际应用中的可行性。为了解决这一问题，来自清华大学和北京人工智能研究院的研究团队探索了一种优化模型中一小部分参数的方法，同时保持其他参数不变，以大幅降低计算和存储成本。研究团队提出了“delta-tuning”这一概念，将优化的参数部分称为“delta”，即在训练过程中被“改变”
SAM 图像分割算法计算物体表面积 loong_XL 深度学习图像CV 算法 SAM 图像面积计算图像算法 cv 图像分割
参考：https://enpeicv.com/forum.php?mod=viewthread&tid=90&extra=page%3D1使用SAM算法进行图像分割，计算出分割图像有多少像素，然后根据像素数量计算实际面积局限：此方法适用于物体与参考物体一个平面内，如果物体在参考物体的前后立体位置，准确性可能不大好SAM安装及模型下载：https://github.com/facebookresea
autosize px转dp_Android屏幕适配实例教程「今日头条，AutoSize」 weixin_39683526 autosize px转dp
Android屏幕适配实例教程即使只是练习项目，仍然要使用屏幕适配，这样我们就可以跟着设计图上的单位参数敲，效率会快很多项目的示范代码使用kt语言，但没有用到什么高级特性，完全不懂的参考这个链接，文章参考代码已经上传到Github，本篇相关的设计图链接戳这里这里提供一个App的UI设计图小白日记，仅供参考前期与UI之间的沟通1)确定设计图基准=可以简单理解为以某个尺寸为基准，然后通过改变对应的比例
大语言模型应用提示工程Prompt Engineering 全栈你个大西瓜人工智能大模型自然语言处理 prompt 人工智能提示工程
提示工程（PromptEngineering）是指通过精心设计和优化输入提示（prompt），以引导人工智能模型（如大型语言模型）生成更符合预期的输出。一、提示工程的核心任务明确任务目标确定模型需要完成的具体任务（如文本生成、翻译、分类、问答等）。示例：需要模型生成一篇产品评测vs.需要模型总结文章要点。设计提示结构包含必要的上下文、示例、格式要求和约束条件。示例：请根据以下产品参数生成一段吸引人
探索提示词工程的魅力：提升你的AI应用到新高度杭律沛Meris
探索提示词工程的魅力：提升你的AI应用到新高度Prompt-Engineering-Guide-zh项目地址:https://gitcode.com/gh_mirrors/pr/Prompt-Engineering-Guide-zh在人工智能的快速发展前沿，提示词工程指南-中文版犹如一盏明灯，照亮了语言模型应用的新路径。本项目是由PartnerDAO精心翻译并维护，旨在构建一个全面的知识库，帮助开
Prompt Engineering Guide — 提示工程全方位指南司南锤 GitHub prompt
项目概述PromptEngineeringGuide是一个由DAIRAILab维护的开源项目，致力于系统性地总结和分享提示工程（PromptEngineering）的理论与实践方法。随着大语言模型（如GPT系列、Claude、Gemini等）的广泛应用，如何设计有效提示以发挥模型最大能力，成为当前人工智能领域的重要研究和应用方向。该项目以教程、案例和最佳实践为核心，帮助开发者和研究者快速掌握提示设
匹配一切学习笔记2025 AI算法网奇 python宝典计算机视觉人工智能
目录匹配一切MASAdemo:图像匹配roma匹配一切MASAMatchingAnythingBySegmentingAnything[CVPR24Highlight]git地址：https://github.com/siyuanliii/masaMethodBaseNovelmodelTETAAssocATETAAssocAOVTrack(CVPR23)35.536.927.833.6-<
XXL-JOB详解 zhangyankun_csdn Spring java
一、简介1.5下载文档地址中文文档https://www.xuxueli.com/xxl-job/EnglishDocumentationhttps://www.xuxueli.com/xxl-job/en/源码仓库地址https://github.com/xuxueli/xxl-jobhttp://gitee.com/xuxueli0323/xxl-job中央仓库地址com.xuxuelixxl
Minio 分布式模式部署那些、快乐。分布式
Minio分布式模式部署概述官方文档：https://docs.min.io/中文文档：http://docs.minio.org.cn/docs/GitHub地址：https://github.com/minio/minio特点：数据保护——分布式Minio采用纠删码来防范多个节点宕机和位衰减bitrot。分布式Minio至少需要4个硬盘，使用分布式Minio自动引入了纠删码功能。高可用——单机
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen