Amusi（CVer）

CVPR 2022 | 南大&腾出提出ST++: 半监督语义分割中更优的自训练范式

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达、

作者：LeolhYang | 已授权转载（源：知乎）编辑：CVer

https://zhuanlan.zhihu.com/p/476692814

在这里和大家分享一下我们被CVPR 2022录用的工作"ST++: Make Self-training Work Better for Semi-supervised Semantic Segmentation". 在本工作中，我们在半监督语义分割领域重新思考了传统的多阶段自训练（self-training）范式，并提出两点关键的改进策略，使得这种较为古老的训练流程仍能达到当前最佳的性能。

此外也非常感谢 @Pascal对我们工作的解读：Pascal：ST++: 让 Self-Training 更好地用于半监督语义分割 (CVPR'22)

CVPR 2022 | 南大&腾出提出ST++: 半监督语义分割中更优的自训练范式_第1张图片

ST++: Make Self-training Work Better for Semi-supervised Semantic Segmentation

作者单位：南京大学、腾讯、东南大学

文章地址：https://arxiv.org/abs/2106.05095

代码地址：github.com/LiheYoung/ST-PlusPlus

Introduction

近来较多的半监督学习工作都是基于端到端的框架来做的，学生模型不断学习教师模型产生的伪标签。由于模型不断被更新，伪标签的质量也会不断提升，进而持续促进半监督学习的性能。其中比较具有代表性的有半监督分类中的FixMatch^[1]，半监督语义分割中的CutMix-Seg^[2]、PseudoSeg^[3]、CPS^[4]，半监督目标检测中的Unbiased Teacher^[5]、Humble Teacher^[6]、Soft Teacher^[7]等。

尽管这些方法取得了巨大的成功，然而在训练前期，即使手动设置了置信度阈值，依然存在较多的错误伪标签会误导学生模型的学习。此外，这种在线学习的范式需要在不同epochs对同一张图像多次打出伪标签，比较耗时和耗显存（一个minibatch中需要同时包含有标签图像以及强、弱增广的无标签图像）。因此我们希望重新思考一下传统的多阶段self-training范式在半监督语义分割中的应用前景。self-training流程的优点在于，模型在有标签图像上充分训练后，对所有无标签图像只需要预测一次伪标签，且伪标签质量比较有保障。在此基础上，我们提出了两种改进方案：

在学习无标签图像时，在其上施加强数据增广，以增加学习的难度，可以学得额外的信息，并缓解对错误伪标签的过拟合
由易至难、从可靠标签到不可靠标签，渐进式地利用无标签图像及其伪标签。其中，我们提出基于第一阶段训练过程中伪标签的稳定性来选取可靠的图像，而非像素。

Background

首先介绍一下最简单的self-training范式，总共分为三个阶段：

【有监督预训练】在有标签图像上完全训练得到一个初始的教师模型
【生成伪标签】用教师模型在所有的无标签图像上预测one-hot伪标签
【重新训练】混合有标签图像和无标签图像及其伪标签，在其上重新训练一个学生模型，用于最终的测试

Method

我们的方法分为两部分，分别是ST和ST++，后者是在前者的基础上又做了进一步的渐进式选择策略的改进。

ST: 在重新训练阶段，对无标签图像进行强数据增广来学习

我们提出的ST仅需对传统的self-training范式做很小的改进，就可以显著提升其性能。

具体来说，由于第二阶段预测出的伪标签仍然是包含较多噪声的，如果在重新训练阶段直接对这些原图以及带噪声的标签进行学习，很容易过拟合其中的噪声标签；此外，由于学生模型直接学习同样结构的教师模型产生的伪标签，此过程并没有引入额外的信息，学生模型唯一在做的其实只是entropy minimization（因为我们对教师模型的预测结果取了one-hot label）。

基于上述两点动机，我们提出在重新训练阶段对无标签图像进行强数据增广来学习。首先，由于每次无标签图像输入进入模型前都进行了随机的强数据增广，也就是说尽管是同样一张图像，不同epochs见到的输入也一直在变化，也就没有固定的输入-输出的映射，模型在这种情况下不容易过拟合伪标签中的噪声；此外，学生模型是在强增广的图像上学习的，可以在教师模型的基础上学得更加丰富的表征。

这种设计使得学生模型不仅仅是在做entropy minimization，同时由于不同版本的强增广图像都受到同样的伪标签的监督（也就是教师模型生成的固定的one-hot label），此过程也可以看作是在不同的epochs之间对同一张无标签图像进行consistency regularization。因此，注入了强增广操作的self-training范式，也就是我们的ST，同时包含了半监督学习中两种主流的做法，即entropy minimization和consistency regularization。

我们在实验中采用了四种十分基本的强增广策略，包括colorjitter、blur、grayscale、以及Cutout。事实上前三种增广策略的组合就已经能够得到足够好的结果。

需要注意的是，为了尽可能的减少超参数，以及增加我们方法的普适性，我们没有根据模型预测出的置信度设置一个阈值来选取高质量的伪标签。并且根据我们的实验，这种做法也并没有在众多settings上带来稳定的提升。此外，为了尽可能减少训练时间，我们也没有进一步的迭代打伪标签并重训练（也就是用重新训练得到的学生模型重新打伪标签再训练），但是根据我们的实验，这样做可以进一步提升ST的性能。

下面可以看一下更加详细的ST伪代码，流程还是比较直观的：

CVPR 2022 | 南大&腾出提出ST++: 半监督语义分割中更优的自训练范式_第2张图片

ST Pseudocode

ST++: 由易至难、从可靠到不可靠，以图像级别选取无标签图像及其伪标签

在ST的基础上，为了进一步缓解错误的伪标签带来的负面影响，我们提出了ST++，由易至难、从可靠伪标签到不可靠伪标签，渐进式地利用无标签图像；并且不同于一般做法中选取高置信度的像素，ST++根据第一阶段训练过程中伪标签的稳定性来选取可靠的图像。

下面描述一下我们对可靠的无标签图像的选择策略。我们在实验中观察到，比较简单的图像在训练前期就会达到比较高的正确率，且训练后期伪标签变化很小；相反，对于比较困难的图像，模型在训练的不同epochs预测出的伪标签往往有较大差异。基于此观察，我们提出通过度量伪标签在不同epochs的稳定性来确定无标签图像及其伪标签的可靠性。为了这种度量策略更加稳定，我们是基于不同epochs的整图伪标签之间的meanIOU来算的。具体做法是，在第一阶段有标签图像上的预训练过程中保存K个checkpoints，考虑到往往最后一个checkpoint的质量最高，因此对于一张无标签图像 u，我们用前 K-1 个checkpoints在 u 上预测出的伪标签和第 K 个checkpoint的预测结果算meanIOU，meanIOU越大，说明他们预测出的伪标签的重合度越高，也就是伪标签在训练过程中越稳定，其质量也越可靠。形式化描述如下：

其中， si 衡量了无标签图像 ui 的稳定性和可靠性， Mij 表示第 j 个checkpoint在 ui 上预测出的伪标签。

获得了所有无标签图像的稳定性和可靠性指标 s 后，我们继续基于整图来进行选取，因为我们认为在语义分割的训练中，整图能够提供比零散的像素更加全局的语义信息。

下面是ST++的伪代码：

CVPR 2022 | 南大&腾出提出ST++: 半监督语义分割中更优的自训练范式_第5张图片

ST++ Pseudocode

Experiments

Comparison with State-of-the-Art Methods

我们在Pascal VOC 2012和Cityscapes这两个数据集的多种settings上验证了ST和ST++的有效性。

由于2021年之前的半监督语义分割工作大多采用的模型结构是DeepLabv2 with ResNet-101，2021年开始很多工作也增加了PSPNet with ResNet-50，DeepLabv3+ with ResNet-50/101的结果，为了更充分地与更多的工作进行公平对比，我们在Pascal VOC上报告了上述全部的四种模型的结果。可以看到我们的ST和ST++都取得了state-of-the-art performance。为了更好地展示半监督算法的意义，我们也报告了仅利用有标签图像的结果，参见每种模型下的第一行SupOnly结果，可以看到半监督算法对于SupOnly的提升十分明显。

CVPR 2022 | 南大&腾出提出ST++: 半监督语义分割中更优的自训练范式_第6张图片

Pascal VOC 2012上ST和ST++的实验结果。有标签图像是选取自被扩充后的Pascal VOC数据集（总共10582张图像）

Pascal VOC 2012下还有另一种setting，即从原始的高质量标注的训练集（1464张图像）中选取有标签图像，我们也进行了相应的对比，如下。

CVPR 2022 | 南大&腾出提出ST++: 半监督语义分割中更优的自训练范式_第7张图片

Pascal VOC 2012上ST和ST++的实验结果。有标签图像是选自原始的高质量标注的Pascal VOC训练集（1464张图像）

我们进一步比较了Cityscapes下的实验结果。

CVPR 2022 | 南大&腾出提出ST++: 半监督语义分割中更优的自训练范式_第8张图片

Cityscapes上ST和ST++的实验结果

Ablation Studies

ST中强数据增广（Strong Data Augmentation, SDA）的意义

在下表中我们首先给出了最原始的self-training的结果（第一行），通过第一行与第三行ST结果的对比，可以看出SDA对于无标签图像的作用。为了进一步验证此提升并非来自于这些增广策略本身，我们也尝试将SDA同时加在了有标签图像上（第二行），可以看出结果相较于第三行出现了下降。此结果说明SDA的作用并非在于其本身，而是为原本在无标签图像上的bootstrapping过程引入了额外的信息，以及缓解了对于噪声伪标签的过拟合。

CVPR 2022 | 南大&腾出提出ST++: 半监督语义分割中更优的自训练范式_第9张图片

强数据增广(Strong Data Augmentation, SDA)的意义

不同的SDA的作用

我们整个的SDA包含四种增广策略：colorjitter、blur、grayscale和Cutout。下图展示了这四种增广策略各自的作用，可以看到其中colorjitter的作用相对而言最大，并且前三种朴素的增广策略的组合就已经能够取得足够好的结果（下图棕色柱，73.1）。

CVPR 2022 | 南大&腾出提出ST++: 半监督语义分割中更优的自训练范式_第10张图片

不同的强数据增广的作用

ST++中选取出的可靠样本和不可靠样本的伪标签质量对比

CVPR 2022 | 南大&腾出提出ST++: 半监督语义分割中更优的自训练范式_第12张图片

可靠图像集合和不可靠图像集合的伪标签质量差异（紫色和棕色），以及重新给不可靠集合打伪标签后的提升（粉色）

ST++的提升是否仅仅受益于两阶段的策略？

ST++提出根据可靠/不可靠集合，把原本的重训练过程拆成两个部分。我们需要进一步验证其提升是否仅仅来自于两阶段的训练流程，而非对于可靠集合的智能选取。因此，我们随机从 Du 中选择50%的图像作为第一阶段的重训练，训练完成后再给剩下50%的图像重新赋予伪标签，最后用完整的 Du 和 Dl 训练得到最终的模型，我们将其称为random two-stage re-training。下表展示了random和我们的selective策略的性能差异，可见ST++的提升并不是来自于两阶段的策略。

CVPR 2022 | 南大&腾出提出ST++: 半监督语义分割中更优的自训练范式_第13张图片

验证ST++的提升并不是来自于两阶段的重训练流程，而是对于可靠图像的智能选取

ST++中两阶段重训练的performance

CVPR 2022 | 南大&腾出提出ST++: 半监督语义分割中更优的自训练范式_第14张图片

ST++中两个阶段重训练各自的performance，其中1/4，1/8，1/16表示有标签图像的不同比例

ST++中可靠图像的选取比例

我们默认选取可靠性得分前50%的图像作为可靠图像，剩下的作为不可靠图像。下表展示了不同的选取比例的影响，可以看到ST++对此处的选择比例比较鲁棒。

可靠图像的不同选择比例

ST++中图像级和像素级选择策略的比较

在ST++，我们提出基于图像级别选择可靠样本，而非在半监督语义分割中通常采用的像素级别样本^[8]。我们认为图像级别的样本能够在语义分割中提供更好的全局语义信息，能够让分割模型更加充分的学习。为了验证这一观点，我们也比较了图像级别选择策略和像素级别选择策略，下表中展示了两者性能的差异，可以看到图像级别的选取稳定地优于像素级别的选取。

CVPR 2022 | 南大&腾出提出ST++: 半监督语义分割中更优的自训练范式_第15张图片

图像级别选择策略和常规的像素级别选择策略的对比

进一步进行迭代式重新训练(iterative re-training)的效果

self-training范式往往可以通过不断的迭代式的重新训练获得进一步的性能提升，具体做法就是用重新训练得到的学生模型再为无标签图像赋予一遍伪标签，并继续重新训练。我们也尝试了ST++能否进一步受益于这种迭代式的重新训练，我们额外增加了一个阶段的重训练（下图Re-train #3），可以看到ST++仍能获得进一步的提升。

CVPR 2022 | 南大&腾出提出ST++: 半监督语义分割中更优的自训练范式_第16张图片

ST++仍能受益于进一步的迭代式重训练（Re-train #3）

Conclusion

在本工作中我们调研了传统的self-training范式在半监督语义分割中的应用前景，并提出了两个关键的改进策略，分别是在无标签图像上注入强数据增广和基于图像级别选择的渐进式重训练策略。我们发现，结合了上述改进策略后，传统的self-traininig范式可以同时享有entropy minimization和consistency regularization的优点，并且可以取得优于最新的采用端到端训练的方法的结果。

参考

^FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence, NeurIPS 2020
^Semi-supervised semantic segmentation needs strong, varied perturbations, BMVC 2020
^PseudoSeg: Designing Pseudo Labels for Semantic Segmentation, ICLR 2021
^Semi-Supervised Semantic Segmentation with Cross Pseudo Supervision, CVPR 2021
^Unbiased Teacher for Semi-Supervised Object Detection, ICLR 2021
^Humble Teachers Teach Better Students for Semi-Supervised Object Detection, CVPR 2021
^End-to-End Semi-Supervised Object Detection with Soft Teacher, ICCV 2021
^Rethinking Pre-training and Self-training, NeurIPS 2020

ICCV和CVPR 2021论文和代码下载

后台回复：CVPR2021，即可下载CVPR 2021论文和代码开源的论文合集

后台回复：ICCV2021，即可下载ICCV 2021论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的3篇Transformer综述PDF
CVer-图像分割交流群成立
扫码添加CVer助手，可申请加入CVer-图像分割 微信交流群，方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。
一定要备注：研究方向+地点+学校/公司+昵称（如图像分割+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲长按加小助手微信，进交流群
CVer学术交流群（知识星球）来了！想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料，欢迎扫描下方二维码，加入CVer学术交流群，已汇集数千人！

▲扫码进群
▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看

Python连接需要Kerberos认证的Kafka 王大锤V Python python kafka
1.安装Kerberos客户端yuminstall-ykrb5-libskrb5-workstation2.准备配置文件jaas.confkrb5.confuser.keytab(kafka.keytab)3.修改hosts文件将kdc服务器的host->ip映射加入hosts文件中4.执行Kerberos认证kinit-ktkafka.keytabkafka5.安装Python第三方库pip3i
【人工智能】 AI的进化之路：大模型如何重塑技术格局蒙娜丽宁 Python杂谈人工智能人工智能 python
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界本文深入探讨了人工智能大模型的进化历程及其对技术格局的深远影响。从早期神经网络到现代大模型的突破，文章分析了关键技术进步，如Transformer架构、预训练机制和分布式计算。结合数学公式和代码示例，详细阐述了大模型的训练原理、优化方法及实际应用场景。文
用 Python 绘制独一无二的爱心：创意代码之旅敲代码的苦13 Python PyCharm python 前端开发语言
在Python的奇妙世界里，代码不仅是实现功能的工具，更是艺术创作的画笔。今天，我们将一起踏上一段充满浪漫与创意的旅程——用Python设计独特的爱心代码。无论是向心仪的人表白，还是单纯展示编程的魅力，这些独特的爱心代码都能带来惊喜与感动。接下来，就让我们从基础代码开始，逐步解锁各种创意设计，打造专属于你的Python爱心！一、Python爱心代码基础版首先，我们从最基础的Python爱心代码入手
Python爱心代码创意玩法大揭秘：带你领略 Python 爱心代码的全新魅力，让代码的浪漫指数直线飙升！敲代码的苦13 Python PyCharm pygame python
在编程的浪漫宇宙中，Python爱心代码始终是闪耀的星辰。上次我们一同探索了动态、彩色、3D等多种经典创意爱心代码，这次，我们将突破边界，解锁更多新奇独特的玩法，带你领略Python爱心代码的全新魅力，让代码的浪漫指数直线飙升！一、用Pygame打造互动爱心游戏Pygame是Python中用于开发游戏的强大库，我们可以借助它的力量，将爱心代码升级为有趣的互动游戏，让用户不再只是旁观者，而是能亲身参
数字人视频剪辑与数字人分身源码开发的的核心技术解析微~18339948121 数字人分身源码数字人剪辑源码数字人源码 django pygame virtualenv plotly scikit-learn flask tornado
数字人视频剪辑与分身的核心技术解析数字人视频剪辑和分身技术是近年来人工智能与计算机视觉领域的热点，涉及虚拟形象生成、动作驱动、语音合成等多项技术。以下从技术实现、应用场景和工具选择三个方面展开分析。数字人视频剪辑的关键技术视频剪辑中数字人的核心在于动态形象的生成与编辑。基于深度学习的生成对抗网络（GAN）和3D建模技术可实现高保真虚拟形象构建。典型流程包括：人物建模：通过多视角图像或视频数据重建3
探秘AI的秘密：leaked-system-prompts 人工智能我来了人工智能 AI 人工智能
揭秘：揭秘系统提示合集背后的秘密在当今这个人工智能技术迅速发展的时代，了解和使用大型语言模型（LLM）已成为技术爱好者、开发者和研究人员的共同目标。而作为核心组成部分，系统提示（systemprompts）的设计和应用直接影响了LLM的表现和功能。今天，我们将为大家揭示一个神秘而又充满吸引力的项目——“leaked-system-prompts”。这个项目为我们打开了一扇窥探这些大型语言模型系统提
环境安装教程万能小贤哥机器学习人工智能网络 python
Python小白入门之环境安装全攻略在数字化浪潮中，Python以其简洁高效、应用广泛的特性，成为众多编程爱好者踏入代码世界的首选语言。对于新手小白而言，成功搭建Python开发环境，是开启编程之旅的关键第一步。下面就为大家详细介绍Python环境的安装与配置过程。一、前期准备1.系统要求：主流操作系统均可支持Python安装，Windows建议使用Windows10及以上版本；macOS需为ma
代码探秘人工智能万能小贤哥人工智能
当你在手机上用语音发送消息，当短视频平台精准推送你感兴趣的内容，当智能音箱陪你聊天解闷，背后都有一位“隐形伙伴”——人工智能。它就像从科幻电影中走出的神奇力量，正悄然改变着我们的生活。今天，就让我们借助简单的Python代码，开启一场探索人工智能奥秘的奇妙之旅！人工智能：计算机的“超能力大脑”想象一下，如果给计算机装上“大脑”，让它学会像人类一样思考、学习和解决问题，会发生什么？这就是人工智能（A
Python 爬虫实战：知乎热榜趋势分析（话题生命周期 + 影响力评估） Python核芯 Python爬虫实战项目 python 爬虫开发语言
一、引言知乎作为国内知名的问答社区，其热榜功能汇聚了当下最受关注的话题。这些话题的热度变化反映了公众兴趣的动态，对于内容创作者、市场营销人员和数据分析师等具有极高的参考价值。本文将详细介绍如何通过Python和Scrapy技术实现知乎热榜数据的自动化爬取，并结合数据分析手段进行话题热度分析和趋势预测。二、目标网站分析（一）知乎热榜页面结构知乎热榜页面（https://www.zhihu.com/h
Python 爬虫实战：网易云音乐登录解密（加密参数逆向 + 音乐数据采集） Python核芯 Python爬虫实战项目 python 爬虫开发语言
一、前言网易云音乐作为国内流行的音乐平台，拥有海量的音乐资源和用户数据。通过爬取网易云音乐的数据，我们可以进行音乐推荐、用户行为分析等。本文将详细介绍如何使用Python爬取网易云音乐的数据，包括登录解密和音乐数据采集。二、准备工作1.环境搭建确保已安装Python3.7或以上版本，推荐使用VisualStudioCode作为开发工具。2.安装依赖库在命令行中安装爬虫和数据分析所需的库：pipin
Python 爬虫实战：解析接口爬取搜狐新闻评论（评论情感极性判断） Python核芯 Python爬虫实战项目 python 爬虫开发语言
一、项目概述在信息爆炸的时代，新闻评论成为公众表达意见和情感的重要渠道。搜狐新闻作为国内领先的新闻平台，积累了海量的用户评论数据。本项目旨在通过Python爬虫技术解析搜狐新闻评论接口，高效抓取评论数据，并借助情感分析算法判断评论情感极性，洞察公众舆论倾向，为舆情分析、内容优化等提供数据支撑。二、环境搭建与技术选型（一）Python环境配置安装Python：推荐使用Python3.8+版本，确保兼
Python 爬虫实战：爬取掘金平台文章（列表解析 + 技术领域分类统计） Python核芯 Python爬虫实战项目 python 爬虫开发语言
摘要：掘金平台汇聚了大量优质的编程技术和行业资讯文章。本文将深入讲解如何利用Python爬虫抓取掘金平台文章数据，解析文章列表信息，并进行技术领域分类统计，助力开发者了解技术热点和内容分布。一、引言掘金平台作为技术分享社区，专注于数字创业、编程技术和产品设计等领域。平台上的文章由开发者、创业者和设计者撰写，涵盖了从入门教程到前沿技术解析的丰富内容。通过爬取和分析这些文章数据，可以洞察当前技术领域的
使用Python爬虫雪球APP基金数据暖樱爬虫 python
介绍在本篇博客中，我们将介绍如何使用Python编程语言和一些常用库来爬取雪球网站的数据。雪球网站是一个提供股票、基金等金融信息的平台，我们将通过调用其API来获取用户和标题信息，并将数据保存到CSV文件中。爬虫实现流程一、数据来源分析1、明确需求：明确采集的网站以及数据内容（1）网址：雪球网-https://xueqiu.com（2）数据：基金数据2、抓包分析：分析基金数据；打开开发者工具：F1
一文看懂Python协程asyncio模块的演变及高级用法大江狗列表 python 多线程 java 编程语言
网上很多关于Python协程asyncio模块的教程都是基于老版Python的,本文将以对比方式展示新老Python版本下协程的写法有什么不同并总结了asyncio的一些高级用法,包括如何获取协程任务执行结果，gather和wait方法的区别以及如何给任务添加回调函数。Python协程及asyncio基础知识协程(coroutine)也叫微线程，是实现多任务的另一种方式，是比线程更小的执行单元，一
深入探索 Vanna：让数据库交互更智能从零开始学习人工智能数据库交互
深入探索Vanna：让数据库交互更智能在数字化时代，与数据库进行高效交互是许多开发者、数据分析师和企业面临的挑战。传统的SQL查询编写不仅需要对数据库结构有深入的了解，还需要花费大量的时间和精力来调试和优化。Vanna，一个基于Python的开源工具，通过结合检索增强（RetrievalAugmentation）和大型语言模型（LLM），为这一问题提供了一个创新的解决方案。本文将深入探讨Vanna
asyncio基本用法介绍遮天华月 python 算法
目录一、`asyncio`的核心概念二、`asyncio`的常见用法三、`asyncio`中的同步原语四、`asyncio`中的网络操作五、`asyncio`的调试工具总结asyncio是Python标准库中用于异步编程和并发任务管理的核心库。它的基础是事件循环，用来调度协程（coroutines），让它们能够非阻塞地并发执行。这种编程模型在处理大量I/O密集型任务时非常高效，如网络操作、文件读写
python实现数据库两个表之间的更新操作（模糊匹配）示例半吊子的程序狗 python
frompymongoimportMongoClientimportpandasaspd#连接到MongoDB（这里假设MongoDB运行在本地默认端口上）mgclient=MongoClient('localhost',27017)#选择数据库（如果你没有指定数据库，MongoDB会使用默认的'test'数据库）db=mgclient['test']#替换'your_database_name'
嵌套列表与二维列表的遍历方法
在Python的世界中，列表（list）是最为基础而强大的数据结构之一。而当一个列表的元素本身又是列表时，我们便进入了嵌套列表（NestedList）或更通用的二维列表（2DList）的语境中。无论是在软件开发、测试数据构造、数据分析、机器学习、自动化运维还是教育教学场景中，嵌套结构的遍历与处理都是工程能力的一项基本功。本文将系统剖析Python中处理嵌套列表和二维列表的常用遍历方式，从基础语法到
深入理解Python asyncio：从入门到实战，掌握异步编程精髓 Bruce-li__ Python python 网络数据库
文章目录前言一、asyncio基础概念1.1什么是异步编程？1.2asyncio核心组件二、asyncio核心用法详解2.1事件循环管理2.2协程与任务2.3异步上下文管理器三、asyncio高级特性3.1异步生成器3.2异步队列3.3异步锁和信号量四、asyncio实战项目4.1高性能Web爬虫4.2异步Web服务器五、性能对比与最佳实践5.1同步与异步性能对比5.2asyncio最佳实践六、常
Python异步编程：asyncio和aiofiles 人工干智能 Python的高级知识 python 开发语言
asyncioasyncio是Python的标准库之一，用于编写单线程的并发代码。它使用协程（coroutines）和事件循环（eventloop）来实现异步编程。协程是Python中一种特殊的函数，可以使用asyncdef定义，并通过await表达式来挂起和恢复执行。假设我们有两个任务：下载网页内容和计算数字的平方。在异步编程中，我们可以同时启动这两个任务，而不需要等待一个任务完成后再开始另一个
下完安装好python后，想查看python的安装位置的几种方法大模型猫叔 python 开发语言爬虫
查看python的路径基于windows系统，按下win+r（也就是命令提示符），输入cmd，进入查看当前的python的版本的话输入python-V1，查看当前下载的python类型和路径则可以输入py-0(加*的是你使用python的默认版本)2，还可以使用命令wherepython查看路径（这样就不会显示你python默认使用的是哪个）小技巧：如果想清除命令行的话可以输入命令cls然后ent
以智能楼宇自动化控制系统为基石，构筑绿色建筑节能增效新标杆 ctrlworks 楼宇自控康沃思物联楼宇自控系统厂家 ba系统厂商建筑管理系统厂家 ibms系统厂家
在全球“双碳”目标加速推进与能源危机日益凸显的背景下，建筑行业作为能源消耗与碳排放的重点领域，正面临从传统建造向绿色智能化转型的迫切需求。数据显示，我国建筑运行阶段能耗占全社会总能耗超30%，碳排放占比达21.9%，而传统建筑管理模式下设备低效运行、能源浪费等问题普遍存在。智能楼宇自动化控制系统（BACS）凭借物联网、大数据、人工智能等技术，通过对建筑设备的精准监控、智能调度与协同管理，成为破解绿
探索生成式 AI Agent：12类，40+个AI Agent实例应用场景的宝藏库和老莫一起学AI 人工智能产品经理职场和发展面试自然语言处理 ai 大模型
在人工智能的璀璨星空中，生成式AI智能体（GenAIAgents）无疑是最耀眼的星辰之一，正以前所未有的速度改变着我们与技术互动的方式。今天，我将分享GitHub上一个宝藏级的项目——“NirDiamant/GenAI_Agents”，这里汇聚了从基础到高级的各种GenAI智能体技术教程与实现案例，堪称一座智能体开发的知识宝库。1.适合初学者的智能体简单会话智能体概览通过集成语言模型、提示模板和历
Python爬虫实战：如何爬取雪球网的股票数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言自动化区块链
引言雪球网（Xueqiu）是中国知名的股票投资社交平台，它提供了丰富的股票数据、投资者的评论和分析，并允许用户进行股票交易的模拟。雪球平台集成了大量的股市数据，包括个股的实时行情、财务数据、投资者分析以及论坛社区内容。许多投资者和金融分析师都在该平台上进行股票研究、讨论和数据挖掘。在本文中，我们将介绍如何通过Python爬虫抓取雪球网的股票数据。通过分析雪球网提供的API和网页结构，获取个股的实时
Python 爬虫实战：爬取雪球股票讨论（投资者情绪分析 + 热点板块追踪） Python核芯 Python爬虫实战项目 python 爬虫开发语言
一、前言雪球网作为国内知名的投资者社区，汇聚了海量的股票讨论、行情数据和用户观点。通过爬取雪球股票讨论数据，我们可以挖掘投资者情绪和热点板块，为投资决策提供数据支持。本文将详细讲解如何利用Python爬虫抓取雪球股票讨论数据，并进行投资者情绪分析和热点板块追踪。二、准备工作1.环境搭建确保已安装Python3.7或以上版本，推荐使用VisualStudioCode作为开发工具。2.安装依赖库在命令
Python内置模块之asyncio详细功能介绍及示例
Pythonasyncio模块详解及使用示例asyncio是Python用于编写并发代码的库，使用async/await语法。它是Python异步编程的核心库，特别适合I/O密集型和高并发网络应用。主要方法及功能1.事件循环管理asyncio.run(coro,*,debug=False)-运行异步程序的主入口asyncio.get_event_loop()-获取当前事件循环asyncio.set
VSCode-Copilot的系统提示词 youngqqcn AI vscode copilot ide
title:VSCode-Copilot系统提示词date:2025-07-0211:05categories:技术tags:AI人工智能LLM大语言模型提示词Microsoft开源了VSCodeCopilotChat,以下是其系统提示词的摘录。https://github.com/microsoft/vscode-copilot-chat/blob/main/src/extension/prom
Python 并发编程：同步原语精要指南 Yant224 python #并发编程 python 同步原语并发控制线程安全 Python锁机制互斥锁信号量
一、同步原语的核心价值在多线程/多进程环境中，当多个执行单元访问共享资源时，同步原语提供了控制访问顺序和协调执行的机制，防止竞争条件和数据不一致问题。并发问题数据竞争死锁资源饥饿同步原语互斥访问执行协调顺序控制锁/Lock事件/Event屏障/Barrier二、关键同步机制详解1.互斥锁(Lock)核心功能：确保同一时刻只有一个线程访问共享资源
ReBEL模型的本地部署与运行，用于三元组抽取任务（事件抽取、知识抽取）
1.服务器CUDA11.72.依赖condacreate-nrebel_envpython=3.10-ycondaactivaterebel_env#安装PyTorch（建议与CUDA11.7配合）pipinstalltorchtorchvisiontorchaudio--index-urlhttps://download.pytorch.org/whl/cu117#安装Transformers和
边缘人工智能与医疗AI融合发展路径：技术融合与应用前景（下） Allen_Lyb 数智化医院2025 人工智能健康医疗数据库矩阵
医疗边缘AI的市场趋势医疗边缘AI市场正经历着显著的增长，根据市场研究公司的数据，2024年的边缘AI市场价值为125亿美元，估计在2025至2034年之间，由于各部门越来越多地采用边缘装置，CAGR为24.8%。保健、制造业、零售业和汽车业的企业拥有综合边缘计算解决方案[36]。这一增长趋势表明，边缘AI技术正在各行各业得到广泛应用，其中医疗保健是一个重要的应用领域。2023年全球边缘人工智能市
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本