茄克不爱说话

机器视觉自动数据标注方法

一、背景阅读

个人总结：

（半）自动数据标注的方法基本都是采用类似的思路，即通过少量标注数据进行训练后得到一个预训练模型，然后再次基础上对该网络的输出结果进行人工核验，并进一步地进行训练得到第二轮优化模型，往复循环，增加更多数据提高模型精度。

（强化）主动学习的加入是将人工核验的过程的工作量再进一步地降低，使网络具有一定的自主决策能力，即网络具有理解自己在数据预测上偏差的能力，可为用户提供标注需求进一步改善网络的输出分布。

全自动的数据标注方法目前仍未实现，标注过程均需要人工核验，对数据进行修正、反馈给网络和loss。

二、自动标注方法介绍

2.1 PaddleSeg 团队开源的交互式分割工具——EISeg

2.2 Anno-Mage半自动标注工具

2.3 AI开发平台ModelArts-智能标注

2.4 基于labelImg与YOLOv5算法的半自动标注工具

2.5 实操链接基于yolov5的自动标注

一、背景阅读

机器视觉和人类一样，它需要学习，学习则需要教材，教材的好坏决定了学习效果，算法模型决定了学习效率。人类制造教材，是通过经验总结，再逻辑化编写。而机器的教材初期也只能靠人类编写，具体就是机器视觉里最基础的任务：目标检测——人在图像上一个一个打上标记，把需要识别的物体框起来，并标识其有哪些属性。

使用LabelImg标识一张图片里的球员

机器算法模型当前还不具备人类的高级认知和抽象能力，要求人类制作的数据教材全面且量大。一般来说机器要学出好的效果，需要数万张图片来进行训练。这只是一个特定类别的识别功能，而在一个大的场景里，如自动驾驶里的视觉感知，要实现多类物体的识别，其中每一类又有细分，所以需要制作的数据教材的量非常惊人。自然地，聪明的人类想出来用机器来生成这些数据教材（数据集）。不过，聪明如你，会发现这其实是先有鸡还是先有蛋的问题：如果机器已经能生成合乎要求的教材，那它不需要训练，直接就能使用，这只鸡可以下锅炖了吃了。所以我们从科学角度，是尽可能加速鸡生蛋，蛋变鸡的过程。再次一个自然的想法，机器是否能代替一部分甚至大部分人类标识数据的工作，人只要挑出认为质量不达标的结果进行修正，再给机器训练，就能减少很大部分标注工作量，同时不断提高机器模型质量。

在机器学习数据标注行业，会有一个重要的功能：（半）自动化标注。而由于多种场合的需要，这个（半）自动化标注会被反复提及并强调，俨然成了水平高低的龙门指标。但奇怪的是，近年来权威学术论文里居然没找到提及标注自动化率的量化指标和炫技展示，一般都是宣称自己在某个领域达到的识别效果：准确度、检测速度、训练速度等。按理说，国外人力资源昂贵，更应该着力提升机器自动化标注的效率，反而是国内一些商业公司一边雇佣大量劳动力来标注，一边宣称自己可以达到超过90%的自动化标注率。

常见过程中自动标注分两种情况:

目前开发者已经具有一个完备训练的相似场景模型，用户希望对实际应用场景进行进一步的细化与强化开发，并挖掘长尾部分的准确性。
目前开发者不具备良好训练的相似场景模型，整个模型开发从零开始迭代开发。

用于训练和预打标的数据集也分两种情况:

数据的是由若干相似场景的连续视频切分而来的(例如:对自动驾驶采集到的视频数据进行秒频率的切分那么这些数据就是符合这样场景的)这样的数据噪声和训练的目标分布都是相似的。
数据是从不同场景，甚至是不同的设备，不同的感受野进行采集的。(例如:电商场景下的亿级图像关联出相似图像)，这样的数据哪怕是预测同一个物体但是由于背景和噪声的不同。要找出这样的数据是需要一个额外的任务。

针对上述的两类情况，我们发现是两个维度构成了四象限，每个象限分别为:

A. 预标注模型不完备 + 数据场景不相似
B. 预标注模型完备 + 数据场景不相似

C. 预标注模型不完备 + 数据场景相似

D. 预标注模型完备 + 数据场景相似

【D】：预标注模型完备 + 数据场景相似

这类是看似最好解决的任务，一个训练良好的模型可以快速地进行模型预打标任务。如某自驾研发团队已经采集了100小时上海->北京的高速行使数据，该团队想要快速的训练出针对上海城市快速路适用的视觉感知模型。便可以通过已有的视觉感知模型（通过100小时训练所得）对上海快速路任务进行预打标并进行训练。不仅如此，在我们对公开数据集测试时发现一个良好的通过bdd/kitti训练的车道线模型在百度的自动驾驶数据集上的表现也较为良好。

但上述任务也是有一定局限的，例如对具有城市差异化的视觉感知场景（交通灯，路牌等）通过既有模型的预打标就有一定的局限性。因为国内很多省市的红绿灯/道路障碍物是不完全统一的，这一定程度上造成了通过模型预打标造成的数据集劣化。所以在感知场景（汽车和道路标线等）统一程度较高的各个城市，已有模型打标效果会更好。

中国不同城市红绿灯对比（上海，南京）

【A】:预标注模型不完备 + 数据场景不相似

这类数据往往出现在电商场景或是地图相似景观等，该类模型是非常难进行直接监督学习+迭代打标的闭环形式的。因为模型可能认不出不同角度的同一物体或者不同环境下的同一物体。所以在2019-20年，Google/阿里/华为等公司都举办了稀疏图像匹配的数据集/比赛。Google landmarks dataset 这个数据集就是旨在建立这样的一个相似图片检索+召回的非监督学习体系。而不是通过监督学习对图像进行分类和目标检测然后落盘后通过标签的形式进行检索+召回。

Google landmarks dataset 部分图片

【C】: 预标注模型不完备 + 数据场景相似

具有代表性的是智能制造领域里的机器视觉质检，我们可以获取到与真实使用时相似的数据场景，但因为这些制造零件都是个性化甚至保密的，公开的预训练模型无法提供较好的预标注机制。此外，这类任务可能处理的是较为单一的某工业场景任务，算法开发人员往往没有该方面的算法经验以及模型沉淀，整个开发体系需要从零开始。

这样的任务其实更贴近于我们后面要详细展开说的主动学习节约打标的模式，由于我们不知道到底需要多少打标数据量才能满足模型训练要求。一开始一味的对数据进行大规模的打标是一种较大的浪费行为，这时候就可以用主动学习的方式，哪怕什么模型都没有，且只有很少的标注预算，也可以通过主动学习+auto-ML去实现低代码+低数据量的模型训练，在尽可能减少标注成本的同时提高模型最终效果。这其实类似于百度EasyDL的平台所提供的一些功能。

法某工业零部件的质量检测

好了，分析完会遭遇到的4种情况，我们发现D已经成熟，不用在数据准备和算法训练层面继续花大力气，应该转而到工程化、场景化去落地。而自动化标注算法最应该发力的是C——这类即没有成熟算法模型，但场景数据近似的情况。所以下面我们介绍一下我们在这个象限里的工作进展。

C象限里的大部分工作在学术界早有定义：主动学习（Active Learning）。主动学习指的是一种学习方法：大多数情况下，有类标的数据比较稀少而没有类标的数据是相当丰富的，但是对数据进行人工标注又非常昂贵（如找医生来标注CT肺结核，找零部件质检工程师来标注缺陷等），这时候，学习算法可以主动地提出一些标注请求，将一些经过筛选的数据提交给人类专家进行标注。这个筛选过程也就是主动学习主要研究的地方了。

主动学习示意图

归纳一下我们的目标：

在优先的标注下提高训练精度
减少整体标注成本（费用与时间）
加快模型开发效率

具体路径

由此，我们发展出基于强化主动学习的自动标注服务：

简单地说，我们引入了一个『强化主动学习Agent』，用它先来判断是否需要人工标注专家来介入，同时它也同步接收人工标注专家的行为反馈，不断提高自己的判断准确性，从而实现在C象限场景下，不断提高模型精准度和减少数据人工标注比例的效果。也就是说，经过一定的标注训练爬坡，C象限可以转为D象限，达到模型成熟落地条件。

几点总结：

1.机器视觉AI训练依赖于大量的数据，数据可由现有模型进行标注，也需要人工参与。

2.制作训练数据集的过程可被一定程度自动化，但不同场景下自动化水平不适合相互比较。

3.通过强化主动学习，可以在场景数据类似的情况下，可以加速将模型由几乎零基础状态爬坡至成熟

====

个人总结：

（半）自动数据标注的方法基本都是采用类似的思路，即通过少量标注数据进行训练后得到一个预训练模型，然后再次基础上对该网络的输出结果进行人工核验，并进一步地进行训练得到第二轮优化模型，往复循环，增加更多数据提高模型精度。
（强化）主动学习的加入是将人工核验的过程的工作量再进一步地降低，使网络具有一定的自主决策能力，即网络具有理解自己在数据预测上偏差的能力，可为用户提供标注需求进一步改善网络的输出分布。
全自动的数据标注方法目前仍未实现，标注过程均需要人工核验，对数据进行修正、反馈给网络和loss。

参考链接：

1. 机器视觉AI模型的数据标注自动化

二、自动标注方法介绍

2.1 PaddleSeg 团队开源的交互式分割工具——EISeg

业界首个高性能的交互式分割工具——EISeg。那什么是交互式分割呢？它其实就是先用预训练模型对图像进行预标注，对于标注不精准、有误差的地方，再通过一系列绿色点（正点）和红色点（负点）对目标对象边缘进行精准的调整，从而实现精细化标注，高效而实用。

如果你需要特定领域的自动标注算法，还可以对 EISeg 的预训练模型进行精调，比如 EISeg 的开发团队就基于人像数据集对模型进行 Finetune（精调）得到预测速度快、精度高、交互点少的人像交互式分割模型。你还可以自己训练出像建筑物分割、飞机分割等等你需要的算法，提升相关任务的标注效率。

https://github.com/PaddlePaddle/PaddleSeg/tree/release/2.2/contrib/EISeg

EISeg 提供了超多人性化设计的快捷键：

传统方法 1 分 7 秒

EISeg 9 秒

传统方法使用的标注时间是1分07秒，EISeg 使用的只有 9 秒。使用的时间是传统方式的 1/7 还不到！ EISeg 的交互式分割模型的标注效率是远远超过传统标注的！

支持多种图像及标注格式，满足多种视觉任务

EISeg 不仅仅支持输出 mask 掩膜输出，还支持多边形等多种标注生成。同时支持伪彩色图、灰度图，以及 json、coco 等数据格式，用户还可对角点进行增删和局部修正。这样标注出来的数据，不仅仅可以做语义分割，还可以用做实例分割任务，一举两得！！！

丰富的标注模型，适合多种场景

EISeg 开放了在 COCO+LVIS 和大规模人像数据上训练的四个标注模型，满足通用场景和人像场景的标注需求。其中模型结构对应 EISeg 交互工具中的网络选择模块，用户需要根据自己的场景需求选择不同的网络结构和加载参数。

另外，为了更好的满足用户分割场景的多样性，PaddleSeg 团队还在持续建设其他垂类领域的交互式模型，例如医疗和遥感图像标注。期待有相关需求的开发者们一起参与开源共建中来！

参考链接：

1. AI界的革命！终于可以自动标注了！

2. 这款图像自动标注软件，终于开源了 - 腾讯云开发者社区-腾讯云

2.2 Anno-Mage半自动标注工具

Anno-Mage是一个半自动标注工具，以RetinaNet作为建议算法，使用预训练的RetinaNet模型从MS COCO数据集建议80个类对象。通过一个通用模型对数据集进行检测。但这个工具能标注的物品类型有限，也没有模型迭代逐步求精的过程，可以自行对其源码进行修改优化。

github代码地址： GitHub - virajmavani/semi-auto-image-annotation-tool: Anno-Mage: A Semi Automatic Image Annotation Tool which helps you in annotating images by suggesting you annotations for 80 object classes using a pre-trained model

参考链接：

1. 图像半自动标注「建议收藏」 - 腾讯云开发者社区-腾讯云

2. 深度学习图像数据自动标注

2.3 AI开发平台ModelArts-智能标注

智能标注_AI开发平台ModelArts_AI工程师用户指南_数据管理（旧版即将下线）_华为云

除了人工标注外，ModelArts还提供了智能标注功能，快速完成数据标注，为您节省70%以上的标注时间。智能标注是指基于当前标注阶段的标签及图片学习训练，选中系统中已有的模型进行智能标注，快速完成剩余图片的标注操作。

背景信息

目前只有“图像分类”和“物体检测”类型的数据集支持智能标注功能。
启动智能标注时，需数据集存在至少2种标签，且每种标签已标注的图片不少于5张。
启动智能标注时，必须存在未标注图片。
启动智能标注前，保证当前系统中不存在正在进行中的智能标注任务。
检查用于标注的图片数据，确保您的图片数据中，不存在RGBA四通道图片。如果存在四通道图片，智能标注任务将运行失败，因此，请从数据集中删除四通道图片后，再启动智能标注。

智能标注

登录ModelArts管理控制台，在左侧菜单栏中选择“数据管理 > 数据集”，进入“数据集”管理页面。
在数据集列表中，选择“物体检测”或“图像分类”类型的数据集，单击操作列的“智能标注”启动智能标注作业。

在弹出的“启动智能标注”对话框中，选择智能标注类型，可选“主动学习”或者“预标注”，详见表1和表2。

表1 主动学习
参数	说明
智能标注类型	“主动学习”。“主动学习”表示系统将自动使用半监督学习、难例筛选等多种手段进行智能标注，降低人工标注量，帮助用户找到难例。
算法类型	针对“图像分类”类型的数据集，您需要选择以下参数。 “快速型”：仅使用已标注的样本进行训练。 “精准型”：会额外使用未标注的样本做半监督训练，使得模型精度更高。

表2 预标注
参数	说明
智能标注类型	“预标注”。“预标注”表示选择用户AI应用管理里面的AI应用,选择模型时需要注意模型类型和数据集的标注类型相匹配。预标注结束后，如果标注结果符合平台定义的标准标注格式，系统将进行难例筛选，该步骤不影响预标注结果。
选择模型及版本	“我的AI应用”。您可以根据实际需求选择您的AI应用。您需要在目标AI应用的左侧单击下拉三角标，选择合适的版本。您的AI应用导入参见创建AI应用。 “我的订阅”。您可以根据实际需求选择AI Gallery中已订阅的AI应用。您需要在目标AI应用的左侧单击下拉三角标，选择合适的版本。查找AI应用参见我的订阅模型。
计算节点规格	在下拉框中，您可以选择目前ModelArts支持的节点规格选项。
计算节点个数	默认为1。您可以根据您的实际情况选择，最大为5。

2.4 基于labelImg与YOLOv5算法的半自动标注工具

labelGo

github: GitHub - cnyvfang/labelGo-Yolov5AutoLabelImg: YOLOV5 semi-automatic annotation tool (Based on labelImg)基于labelImg及YOLOV5的图形化半自动标注工具

一个基于labelImg与YOLOv5算法的半自动标注工具

通过现有的YOLOv5 Pytorch模型对数据集进行半自动标注

News

现已支持最新版本YOLOv5以及classes.txt的自动生成

YOLOv5半自动标注功能演示

一键将YOLO格式标签转换为VOC格式标签功能演示

2.5 实操链接基于yolov5的自动标注

基于yolov5的自动标注_Wyd_(ง •̀_•́)ง的博客-CSDN博客_yolov5自动标注

测试学习之——Pytest Day3 别在内卷了测试学习 pytest python
引言Pytest作为Python中最受欢迎的测试框架之一，以其简洁的语法、强大的功能和丰富的插件生态系统，极大地提升了自动化测试的效率和可维护性。在本文中，我们将深入探讨Pytest的两大核心特性：Fixture和插件管理，帮助您更高效地编写和管理您的测试用例。一、夹具fixtureFixture是Pytest中一个非常强大的特性，它允许您定义在测试用例执行之前或之后自动运行的代码。这对于设置测试
U盘直接拔出不在电脑上弹出有何影响姜暮儿单片机 stm32 嵌入式硬件
U盘直接拔出（未通过电脑系统“安全弹出”）可能会对U盘、电脑数据或设备本身造成多种影响，具体如下：一、数据丢失或损坏这是最常见的风险，原因在于：当U盘正在进行数据读写（如复制文件、保存修改、后台自动备份等）时，直接拔出会中断数据传输流程。此时，正在写入的文件可能只保存了部分内容，导致文件损坏（如文档打不开、图片/视频无法播放）。即使没有主动操作，系统可能在后台对U盘进行缓存读写（例如系统自动刷新文
#Datawhale组队学习#7月-强化学习Task1 fzyz123 Datawhale组队学习强化学习人工智能 AI
这里是Datawhale组织的组队学习《强化学习入门202507》，Datawhale是一个开源的社区。第一章绪论1.1为什么要学习强化学习？强化学习（ReinforcementLearning,RL）是机器学习中专注于智能体（Agent）如何通过与环境交互学习最优决策策略的分支。与监督学习依赖静态数据集、无监督学习聚焦数据内在结构不同，强化学习的核心在于序贯决策：智能体通过试错探索环境，根据行动
OpenGL-原始图像数据 Tobesky
像素包装出于性能考虑，一副图像的每一行都应该从一个特定字节对齐地址开始（空间换时间），绝大多数编译器会自动把变量和缓冲区放置在一个针对该架构对齐优化的地址上Windows中的RMP文件格式的像素数据使用4字节排列；Targa（TGA）文件格式是1个字节排列的，相比较而言TGA格式会更加节省空间//改变或恢复像素的储存方式：voidglPixelStorei(GLenumpname,GLintpar
# 百万级OpenID自动化获取：高并发架构设计与微信生态实战 Loving_enjoy 计算机学科论文创新点人工智能深度学习经验分享 facebook
>当你的小程序日活突破10万+，如何安全高效地管理海量用户身份？OpenID作为微信生态的"用户身份证"，其获取效率直接影响业务增长！在微信生态开发中，OpenID是用户身份识别的核心密钥。然而传统获取方式存在三大痛点：1.**效率瓶颈**：单线程获取10万OpenID需27小时+2.**稳定性风险**：网络波动导致数据丢失3.**开发成本高**：需重复实现授权逻辑本文将揭秘百万级OpenID自动
微算法科技技术突破：用于前馈神经网络的量子算法技术助力神经网络变革 MicroTech2025 量子计算算法神经网络
随着量子计算和机器学习的迅猛发展，企业界正逐步迈向融合这两大领域的新时代。在这一背景下，微算法科技（NASDAQ:MLGO）成功研发出一套用于前馈神经网络的量子算法，突破了传统神经网络在训练和评估中的性能瓶颈。这一创新性的量子算法以经典的前馈和反向传播算法为基础，借助量子计算的强大算力，极大提升了网络训练和评估效率，并带来了对过拟合的天然抗性。前馈神经网络是深度学习的核心架构，广泛应用于图像分类、
微算法科技研究量子视觉计算，利用量子力学原理提升传统计算机视觉任务的性能
计算机视觉，作为人工智能领域的一个重要分支，致力于模拟人类视觉系统对图像或视频等视觉数据的理解与分析能力。它涵盖了图像识别、目标检测、图像分割等一系列复杂任务，广泛应用于自动驾驶、医疗影像分析、安防监控等多个领域。然而，随着数据规模的不断膨胀和任务复杂度的日益提升，传统计算机视觉算法在处理大规模、高维度数据时遇到了性能瓶颈。微算法科技(NASDAQ：MLGO)研究量子视觉计算，探索量子计算与经典卷
OpenAI 再放大招！Codex：云端 AI 编程助手，可自动执行编写功能代码 LinkTime_Cloud 人工智能
近日，OpenAI正式发布了一款颠覆性的云端代码智能体——Codex。这一工具不仅能够生成代码，还能通过自然语言指令完成包括错误修复、代码审查、拉取请求提交等全流程开发任务，标志着AI从辅助工具向自动化协作伙伴的跨越。Codex的推出，不仅是技术上的里程碑，更是对软件开发行业工作模式的革命性挑战。Codex的核心功能与技术创新1.多任务并行处理能力Codex可在独立的云端沙盒环境中同时处理多项任务
图机器学习（13）——图相似性检测
图机器学习（13）——图相似性检测0.前言1.基于图嵌入的方法2.基于图核的方法3.基于GNN的方法4.应用0.前言图机器学习(machinelearning,ML)方法能广泛应用于各类任务，其应用场景涵盖从药物设计到社交网络推荐系统等多个领域。值得注意的是，由于这类方法在设计上具有通用性，同一算法可用于解决不同问题。学习图之间相似性的定量度量是一个关键问题。事实上，这是网络分析的重要步骤，同时也
供应SW2603 CCA 三口快充协议芯片
1.概述SW2603是一款高集成度的多协议CCA三口快充协议芯片，支持2C1A/1C2A/3A三种工作模式，单口输出时任意口快充，多口时共享5V。SW2603支持PPS/PD/UFCS/QC/AFC/FCP/SCP/PE等多种快充协议，支持各类保护机制，如VINUVLO/VINOVP/VINUVP/VINOCP/DieOTP/NTCOTP/CC&DPDMOVP等。SW2603支持按键检测并控制市电
pad_sequence 朋也透william 人工智能深度学习
pad_sequence是PyTorch提供的工具，用于将一组张量序列（通常是变长的序列）进行填充。pad_sequence默认的填充方式是将所有序列填充到同一长度，即最长的序列的长度，这样可以确保所有序列都具有相同的维度。在处理变长序列时，pad_sequence会自动找到需要填充的最大序列长度，然后使用默认的填充值（通常是0）。texts=pad_sequence([torch.LongTen
UGUI 性能优化系列：第三篇——渲染与像素填充率优化吉良吉影NeKoSuKi 性能优化 unity 游戏引擎 c#开发语言
在UnityUGUI性能优化之旅中，我们已经学习了基础的资源管理和Canvas与UI元素的管理。现在，我们将把目光转向更深层次的渲染层面，特别是如何优化像素填充率（PixelFillRate）。在这个环节中，Overdraw（过度绘制）是一个我们必须理解和解决的关键问题，因为它直接关系到GPU的工作效率。一、Overdraw（过度绘制）的危害与检测1.什么是Overdraw？为什么会影响性能？想象
昨天断更了身临其境的感悟
前天我发布了一篇文章，是之前我在其他公号上发表过的，但是却被锁定了，说有敏感内容。我进行了申诉，也被驳回了。所以还以为从前天开始就属于断更了呢，昨天也就没有继续更新文章。但是今天看了消息说昨天断更了，已经自动使用复活卡了才知道前天文章虽然被锁定了，但是并没有表示断更。其实有的时候真的有点儿坚持不下去了，也不知道写点什么才好。但是已经更新了这么长时间，断更真的很可惜，坚持下去吧！加油！
STM32 HAL库详解：跨系列兼容、CubeMX自动生成与回调机制全解析景彡先生 STM32 stm32 嵌入式硬件单片机
前言：为什么HAL库成为STM32开发的主流？如果你接触过STM32开发，一定听说过“库”的概念。早期开发者需要直接操作寄存器，一行行写配置代码（如RCC->CR|=RCC_CR_HSEON），不仅效率低，还容易出错。后来ST推出了标准外设库（SPL），封装了寄存器操作，但存在一个致命问题：不跨系列——STM32F1的代码无法直接在STM32F4上运行，换芯片意味着重写大量代码。2014年，ST推
疫情下的疲惫啊大甘
疫情下的疲惫国庆假期最担心的就是疫情问题，一周时间的假期也能走好多地方了。我们常说当霉运没到自己身上的时候都觉得无所谓。一旦遇到就是天塌的感觉，所以每一次的假期都很担心复学收到影响。这种情况下疫情都会有一些影响，短短的七天时间东莞就有三个镇街出现了新冠患者。所以关于回校的要求就随之提高了，刚好这次国庆的前三天去了有疫情的镇街。回来后就整天被防疫中心天天提醒着做核酸检测。其实这几天我也每天在坚持做，
STL的stack和queue（二）：反向迭代器的实现（了解）
目录list的反向迭代器节点模板list模板正向迭代器的类模板反向迭代器的类模板完整代码list.h文件ReverseIterator.h文件test.cpp文件list的反向迭代器迭代器的适配器模式：编写一个通用的反向迭代器类模板，传递不同容器的正向迭代器，编译器将自动生成这些容器的反向迭代器，减少代码的重复实现，简化编程节点模板templatestructListNode{ListNode*_
网络爬虫：技术原理、应用场景与合法使用全攻略程序小武 python爬虫入门爬虫网络
爬虫是什么？网络爬虫（WebScraping或WebCrawling）是一种通过自动化方式从网站上抓取公开数据的程序。它通过模拟用户在浏览器中浏览网页的过程，访问网页、提取信息，并将数据保存到本地系统中。爬虫技术广泛应用于搜索引擎、数据收集、市场分析、信息聚合等多个领域。爬虫能做什么？数据收集爬虫可以高效地从互联网上的大量网站收集信息。比如，抓取新闻网站上的文章内容、商品电商平台的价格与库存数据、
国内第一梯队终端安全产品解析：技术与场景实践粤海科技君安全腾讯iOA 零信任终端安全
国内终端安全市场的第一梯队产品，通常具备技术领先性、场景覆盖度和规模化落地能力。结合2025年最新行业动态与实战案例，以下从技术架构、核心能力和典型应用三个维度，解析当前市场的头部产品及其差异化价值。一、技术架构与市场格局国内终端安全市场呈现"平台化、智能化、场景化"三大趋势。根据赛迪顾问2023年数据，奇安信以18.7%的终端安全市场份额位居首位，其天擎系统通过"终端检测与响应（EDR）+主动防
英伟达Triton 推理服务详解 leo0308 基础知识机器人 Triton 人工智能
1.TritonInferenceServer简介TritonInferenceServer（简称Triton，原名NVIDIATensorRTInferenceServer）是英伟达推出的一个开源、高性能的推理服务器，专为AI模型的部署和推理服务而设计。它支持多种深度学习框架和硬件平台，能够帮助开发者和企业高效地将AI模型部署到生产环境中。Triton主要用于模型推理服务化，即将训练好的模型通过
Docker报错：No address associated with hostname longze_7 docker
进入Docker容器终端执行命令检查，在容器内能不能访问到外部容器的接口dockerexec-it/bin/bash不同的docker容器内部互相访问方式，http://容器名:开放的端口号，但是注意互相通信的容器要加入自定义网络而不是默认网络bridge：默认bridge网络：容器间不能用名字互相访问，只能用IP。自定义网络：容器间可以用名字互相访问，Docker自动做了DNS解析。http:/
【免费下载】 IDE Eval Resetter 插件安装及使用指南宗廷国Kenyon
IDEEvalResetter插件安装及使用指南1.项目介绍IDEEvalResetter是一款适用于JetBrains系列集成开发环境（如IntelliJIDEA、PyCharm等）的开源插件，旨在帮助用户重置IDE的试用期限，从而获得更多的免费试用时间。这款插件支持自动或手动重置，让用户可以在不购买正式版的情况下，依然可以正常使用IDE进行开发工作。2.项目快速启动2.1安装插件方法一：通过I
解决Python爬虫访问HTTPS资源时Cookie超时问题
一、问题背景：Cookie15秒就失效了？很多互联网图片站为了防止盗链，会把图片地址放在HTTPS接口里，并且给访问者下发一个带Path=/的Cookie，有效期极短（15s～60s）。常规Requests脚本在下载第二张图时就会401或403。本文以某壁纸站https://example-pics.com为例，演示如何：自动化获取并刷新Cookie；在下载高并发图片时维持Cookie活性；把方案
SDM（superviseddescentmethod）人脸特征点训练 ce0b74704937
SDM方法是13年在文章《SupervisedDescentMethodanditsApplicationstoFaceAlignment》提出的，github上一个大牛根据文章《RandomCascaded-RegressionCopseforRobustFacialLandmarkDetection》的方法利用SDM的思想实现了人脸特征点检测的任务。SDM方法有点老，但是今天啥也不想干了，又有
第二章【vue】基础（超详细） ᝰ落念英 vue.js 前端 javascript
Vue3企业级项目初始化使用Vite构建vue3项目npmcreatevite@latest(项目名称)在根目录中创建vite项目npmcreatevite.运行时自动打开浏览器配置端口地址在vite.config.ts文件中加入exportdefaultdefineConfig({plugins:[vue()],server:{open:true,//自动打开浏览器,//host:"",//配置
垃圾收集器-Serial 探索java JVM专栏 java jvm Serial GC
1.引言：JVM垃圾收集概述与Serial收集器的定位Java程序员享受的自动内存管理机制主要得益于JVM的垃圾收集器。JVM会自动检测无用对象并释放其占用的内存，避免了手动管理的复杂性和内存泄漏风险。在Java8中，HotSpot虚拟机提供了多种垃圾收集器，其中Serial收集器是最基础、最早期的实现之一。虽然它在现代系统中逐渐被更先进的收集器（如G1、CMS）所取代，但它在某些特定场景下仍然有
IntelliJ IDEA 与 Java 开发的自动化部署方案 Java技术栈实战 java intellij-idea 自动化 ai
IntelliJIDEA与Java开发的自动化部署方案关键词：IntelliJIDEA、Java开发、自动化部署、CI/CD、Docker、Jenkins、Maven/Gradle摘要：本文深入探讨了如何利用IntelliJIDEA这一强大的JavaIDE与现代化工具链实现Java应用的自动化部署。我们将从开发环境配置开始，逐步介绍构建工具集成、持续集成/持续部署(CI/CD)流程搭建、容器化部署
全局 WAF 规则：构筑 Web 安全的坚固防线 2501_91022519 安全网络
定义：全局WAF（Web应用防火墙）规则是指在WAF系统中对所有受保护的Web应用或整个网络环境生效的通用防护策略，旨在覆盖常见的Web攻击向量、合规要求及基础安全基线，减少重复配置并确保整体防护的一致性。配置原则：最小权限：仅允许必要的请求行为（如默认阻断所有不常见HTTP方法），减少攻击面。动态更新：定期根据新漏洞（如Log4j、Spring漏洞）、攻击趋势更新规则库（如新增对特定EXP的检测
Java NLP炼金术：从词袋到深度学习，构建AI时代的语言魔方墨夶 Java学习资料人工智能 java 自然语言处理
一、JavaNLP的“三剑客”：框架与工具链1.1ApacheOpenNLP：传统NLP的“瑞士军刀”目标：用词袋模型实现文本分类与实体识别代码实战：文档分类器的“炼成术”//OpenNLP文档分类器（基于词袋模型）importopennlp.tools.doccat.*;importopennlp.tools.util.*;publicclassDocumentClassifier{//训练模型
Java代码异味终结者：三大神器实战拆解与深度优化墨夶 Java学习资料 java 开发语言
2025年某电商平台因代码异味导致的崩溃事件，让业界震惊——重复代码占项目总量的32%，单个类方法行数超1500行，最终导致日活下降40%。本文通过代码异味检测工具，带你：1秒定位重复代码与魔法数字0误报率识别God类与空方法自动化修复代码异味，减少80%人工检查一、代码异味的科学分类与检测工具选择1.1代码异味的5大死亡陷阱类别典型症状危害等级重复代码相同逻辑在3处以上重复★★★★★God类单类
封装---统一处理接口与打印错误信息寻觅~流光封装工具前端 javascript 开发语言 typescript
一.简介我在重构代码时突然想到一个想法并实现出来:封装一个统一处理接口与打印错误信息,控制显示错误信息在控制台,接口请求时loading效果展示等等这个只是个人想法,而且比较简略,不太清楚实际工作是否这样写,但是我认为只要有这个想法就要去实现,总比没实现好,欢迎大家的建议与指导介绍我在项目中如何封装一个统一的API请求函数，解决每个接口都要写try...catch的繁琐问题，并实现自动错误日志、t
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p

机器视觉自动数据标注方法

一、背景阅读

个人总结：

（强化）主动学习的加入是将人工核验的过程的工作量再进一步地降低，使网络具有一定的自主决策能力，即网络具有理解自己在数据预测上偏差的能力，可为用户提供标注需求进一步改善网络的输出分布。

全自动的数据标注方法目前仍未实现，标注过程均需要人工核验，对数据进行修正、反馈给网络和loss。

二、自动标注方法介绍

2.1 PaddleSeg 团队开源的交互式分割工具——EISeg

2.2 Anno-Mage半自动标注工具

2.3 AI开发平台ModelArts-智能标注

2.4 基于labelImg与YOLOv5算法的半自动标注工具

2.5 实操链接基于yolov5的自动标注

你可能感兴趣的:(Deep,Learning,目标检测,数据标注,自动标注,检测分割,深度学习)