旅途中的宽~

【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递（6月 29 日论文合集）

文章目录

一、分类|识别相关(12篇)
- 1.1 Pseudo-Bag Mixup Augmentation for Multiple Instance Learning Based Whole Slide Image Classification
- 1.2 Improving Primate Sounds Classification using Binary Presorting for Deep Learning
- 1.3 Challenges of Zero-Shot Recognition with Vision-Language Models: Granularity and Correctness
- 1.4 Fast Recognition of birds in offshore wind farms based on an improved deep learning model
- 1.5 Positive Label Is All You Need for Multi-Label Classification
- 1.6 Subclass-balancing Contrastive Learning for Long-tailed Recognition
- 1.7 Fine-grained 3D object recognition: an approach and experiments
- 1.8 UTRNet: High-Resolution Urdu Text Recognition In Printed Documents
- 1.9 An Efficient Deep Convolutional Neural Network Model For Yoga Pose Recognition Using Single Images
- 1.10 A Novel Two Stream Decision Level Fusion of Vision and Inertial Sensors Data for Automatic Multimodal Human Activity Recognition System
- 1.11 Differentially Private Video Activity Recognition
- 1.12 NCIS: Deep Color Gradient Maps Regression and Three-Class Pixel Classification for Enhanced Neuronal Cell Instance Segmentation in Nissl-Stained Histological Images

一、分类|识别相关(12篇)

1.1 Pseudo-Bag Mixup Augmentation for Multiple Instance Learning Based Whole Slide Image Classification

基于多示例学习的全幻灯片图像分类的伪袋混合增强

论文地址：

https://arxiv.org/abs/2306.16180

鉴于十亿像素图像建模的特殊情况，多实例学习（MIL）已成为全幻灯片图像（WSI）分类最重要的框架之一。在当前实践中，大多数 MIL 网络在训练中经常面临两个不可避免的问题：i）WSI 数据不足，ii）神经网络固有的数据记忆性质。这些问题可能会阻碍MIL模型充分有效的训练，抑制WSI上分类模型的持续性能提升。受Mixup基本思想的启发，本文提出了一种伪袋混合（PseMix）数据增强方案来改进MIL模型的训练。该方案通过伪袋将一般图像的 Mixup 策略推广到特殊的 WSI，从而应用于基于 MIL 的 WSI 分类。在伪袋的配合下，我们的 PseMix 实现了 Mixup 策略中的关键尺寸对齐和语义对齐。此外，它被设计为一种适应 MIL 的高效、解耦方法，既不涉及耗时的操作，也不依赖于 MIL 模型预测。比较实验和消融研究是专门为评估我们的 PseMix 的有效性和优势而设计的。测试结果表明，PseMix 通常可以提高 MIL 网络在 WSI 分类中的性能。此外，它还可以提高 MIL 模型的泛化能力，并提高其对补丁遮挡和噪声标签的鲁棒性。

1.2 Improving Primate Sounds Classification using Binary Presorting for Deep Learning

基于深度学习的二值预分类改进灵长类语音分类

论文地址：

https://arxiv.org/abs/2306.16054

在野生动物观察和保护领域，涉及录音机器学习的方法越来越受欢迎。不幸的是，该研究领域的可用数据集通常不是最佳的学习材料；样品可能标记较弱、长度不同或信噪比较差。在这项工作中，我们引入了一种通用方法，首先重新标记 MEL 谱图表示的子段，以在实际的多类分类任务上实现更高的性能。对于二进制预排序和分类，我们利用卷积神经网络（CNN）和各种数据增强技术。我们在具有挑战性的 \textit{ComparE 2021} 数据集上展示了这种方法的结果，其任务是对不同灵长类物种的声音进行分类，并报告与相对装备的模型基线相比，显着更高的准确性和 UAR 分数。

1.3 Challenges of Zero-Shot Recognition with Vision-Language Models: Granularity and Correctness

视觉语言模型零射识别面临的挑战：粒度和正确性

论文地址：

https://arxiv.org/abs/2306.16048

本文研究了在开放世界环境中将视觉语言模型（VLM）应用于零样本视觉识别任务的挑战，重点关注 CLIP 等对比视觉语言模型。我们首先检查 VLM 在不同粒度级别的概念上的性能。我们提出了一种公平评估两种实验设置下的性能差异的方法，并发现 VLM 更擅长识别细粒度概念。此外，我们发现 VLM 的相似度分数并不能严格反映给定视觉输入的文本输入的正确性。我们提出了一个评估协议来测试我们的假设，即分数可能会偏向信息更丰富的描述，并且嵌入之间相似性分数的性质使得 VLM 难以识别相似但错误的描述之间的正确性。我们的研究强调了在开放世界环境中使用 VLM 的挑战，并为未来提高其零样本能力的研究提出了方向。

1.4 Fast Recognition of birds in offshore wind farms based on an improved deep learning model

基于改进深度学习模型的海上风电场鸟类快速识别

论文地址：

https://arxiv.org/abs/2306.16019

风力发电机组的安全是海上风电场稳定运行的前提。然而，鸟害对风力发电机和风力发电机叶片的安全运行构成直接威胁。此外，每年有数百万只鸟类被风力涡轮机杀死。为了保护生态环境、维护海上风机安全运行，并针对当前目标检测算法在夜间等弱光环境下检测能力较低的问题，提出一种改进方法通过将 CBAM 注意力机制和 RetinexNet 网络集成到 YOLOv5 中来提高网络性能。首先，将训练集图像输入集成CBAM注意力模块的YOLOv5网络进行训练，并存储最优权重模型。然后，使用Decom-Net和Enhance-Net对低光图像进行增强和去噪，并在最佳权重模型上测试准确性。此外，采用k-means++聚类算法优化anchor box选择方法，解决了初始质心不稳定的问题，取得了更好的聚类效果。实验结果表明，该模型在鸟类检测任务中的准确率可以达到87.40%，提升了21.25%。该模型可以实时检测风力发电机附近的鸟类，并且在夜间、阴雨和震动的情况下表现出很强的稳定性，证明该模型可以保证风力发电机的安全稳定运行。

1.5 Positive Label Is All You Need for Multi-Label Classification

正标签是多标签分类所需的全部

论文地址：

https://arxiv.org/abs/2306.16016

由于难以注释每幅图像中的各种语义标签，多标签分类（MLC）在训练数据中不可避免地受到标签噪声的影响。为了减轻噪声标签的影响，现有方法主要致力于通过经过训练的 MLC 模型来识别和纠正标签错误。然而，这些方法在训练中仍然涉及烦人的噪声标签，这可能导致噪声标签的识别不精确并削弱性能。在本文中，考虑到负标签远远多于正标签，并且大多数噪声标签来自负标签，我们直接丢弃数据集中的所有负标签，并提出一种称为正无标签多标签分类的新方法（PU-MLC）。通过将正向无标签学习扩展到 MLC 任务，我们的方法仅使用正标签和无标签数据训练模型，并在损失函数中引入自适应重新平衡因子和自适应温度系数，以减轻标签分布的灾难性不平衡和过度平滑训练中的概率。我们的PU-MLC简单有效，适用于MLC和带有部分标签的MLC（MLC-PL）任务。对 MS-COCO 和 PASCAL VOC 数据集的大量实验表明，我们的 PU-MLC 在 MLC 和 MLC-PL 设置上实现了显着改进，并且注释更少。代码将被发布。

1.6 Subclass-balancing Contrastive Learning for Long-tailed Recognition

用于长尾识别的子类平衡对比学习

论文地址：

https://arxiv.org/abs/2306.15925

类别分布不平衡的长尾识别自然出现在实际的机器学习应用中。现有的方法，如数据重新加权、重采样和监督对比学习，以引入头类和尾类实例之间的不平衡为代价来强制类平衡，这可能会忽略前者潜在的丰富语义子结构，并夸大后者的偏差。我们通过一种新颖的“子类平衡对比学习（SBCL）”方法克服了这些缺点，该方法将每个头类聚类为与尾类大小相似的多个子类，并强制表示以捕获原始类之间的两层类层次结构及其子类。由于聚类是在表示空间中进行并在训练过程中更新，因此子类标签保留了头类的语义子结构。同时，它并不过分强调尾类样本，因此每个单独的实例对表示学习的贡献是相等的。因此，我们的方法实现了实例平衡和子类平衡，同时原始类标签也是通过不同类的子类之间的对比学习来学习的。我们通过一系列长尾基准数据集评估 SBCL，它实现了最先进的性能。此外，我们还对 SBCL 进行了广泛的分析和消融研究，以验证其优势。

1.7 Fine-grained 3D object recognition: an approach and experiments

细粒度三维物体识别方法与实验

论文地址：

https://arxiv.org/abs/2306.15919

三维（3D）物体识别技术正在作为汽车自动驾驶等先进技术的核心技术。 3D 对象识别有两套方法：(i) 手工制作的方法，如全局正交对象描述符 (GOOD)，以及 (ii) 基于深度学习的方法，如 MobileNet 和 VGG。然而，需要知道这些方法中哪一种在已知类别数量随时间增加的开放领域中效果更好，并且系统应该使用很少的训练示例来了解新的对象类别。在本文中，我们首先实现了一个离线 3D 对象识别系统，该系统将对象视图作为输入并生成类别标签作为输出。在离线阶段，使用基于实例的学习（IBL）来形成新的类别，并使用K折交叉验证来评估获得的对象识别性能。然后，我们通过将代码集成到模拟教师测试中，以在线方式测试所提出的方法。因此，我们得出的结论是，使用深度学习特征的方法更适合开放式时尚。此外，我们观察到，将手工制作的特征和深度学习特征结合起来可以提高分类的准确性。

1.8 UTRNet: High-Resolution Urdu Text Recognition In Printed Documents

UTRNet：印刷文档中的高分辨率乌尔都语文本识别

论文地址：

https://arxiv.org/abs/2306.15782

在本文中，我们提出了一种利用高分辨率、多尺度语义特征提取来解决印刷乌尔都语文本识别挑战的新方法。我们提出的 UTRNet 架构是一种混合 CNN-RNN 模型，在基准数据集上展示了最先进的性能。为了解决以前的工作的局限性，即难以概括乌尔都语脚本的复杂性和缺乏足够的带注释的真实世界数据，我们引入了 UTRSet-Real，这是一个包含超过 11,000 个带注释的大规模带注释的真实世界数据集 lines 和 UTRSet-Synth，一个包含 20,000 条线的合成数据集，与现实世界非常相似，并对现有 IIITH 数据集的基本事实进行了修正，使其成为未来研究更可靠的资源。我们还提供 UrduDoc，这是用于扫描文档中乌尔都语文本行检测的基准数据集。此外，我们还开发了一种在线工具，通过将 UTRNet 与文本检测模型集成，从印刷文档中进行端到端乌尔都语 OCR。我们的工作不仅解决了乌尔都语 OCR 目前的局限性，还为该领域的未来研究铺平了道路，并促进乌尔都语 OCR 技术的持续进步。

1.9 An Efficient Deep Convolutional Neural Network Model For Yoga Pose Recognition Using Single Images

一种用于单幅图像瑜伽姿势识别的高效深卷积神经网络模型

论文地址：

https://arxiv.org/abs/2306.15768

姿势识别涉及设计算法以在 2D/3D 空间中定位人体关节，并对估计的关节位置进行推断以预测姿势。瑜伽姿势由一些非常复杂的姿势组成。它给计算机视觉算法带来了各种挑战，如遮挡、类间相似性、类内变异性、视点复杂性等。本文提出了 YPose，一种高效的深度卷积神经网络 (CNN) 模型，用于从 RGB 图像中识别瑜伽体式。该模型由以下四个步骤组成：（a）首先，使用基于分割的方法对感兴趣区域（ROI）进行分割，以从原始图像中提取ROI； (b) 其次，这些精炼图像被传递到基于 EfficientNets 主干的 CNN 架构进行特征提取； © 第三，添加了改编自密集连接网络架构的密集细化块，以学习更多样化的特征； (d)第四，应用全局平均池化和全连接层对瑜伽姿势的多级层次结构进行分类。所提出的模型已在 Yoga-82 数据集上进行了测试。它是一个公开可用的瑜伽姿势识别基准数据集。实验结果表明，所提出的模型在该数据集上达到了最先进的水平。所提出的模型获得了 93.28% 的准确率，比早期的最先进模型 (79.35%) 有所提高，裕度约为 13.9%。该代码将公开。

1.10 A Novel Two Stream Decision Level Fusion of Vision and Inertial Sensors Data for Automatic Multimodal Human Activity Recognition System

多通道人体活动自动识别系统中视觉和惯性传感器数据的两流决策层融合

论文地址：

https://arxiv.org/abs/2306.15765

本文提出了一种新颖的多模式人类活动识别系统。它使用视觉和惯性传感器的双流决策级融合。在第一个流中，原始 RGB 帧被传递到基于部分亲和场的姿势估计网络以检测用户的关键点。然后对这些关键点进行预处理，并以滑动窗口的方式输入到专门设计的卷积神经网络中，以进行空间特征提取，然后使用正则化 LSTM 来计算时间特征。然后，LSTM 网络的输出被输入到全连接层进行分类。在第二个流中，从惯性传感器获得的数据经过预处理并输入到正则化 LSTM 中进行特征提取，然后输入全连接层进行分类。在此阶段，使用决策级融合来融合两个流的 SoftMax 分数，从而给出最终预测。进行了大量的实验来评估性能。四个多模态标准基准数据集（UP-Fall 检测、UTD-MHAD、Berkeley-MHAD 和 C-MHAD）用于实验。该系统在 UP-Fall 检测、UTDMHAD、Berkeley-MHAD 和 C-MHAD 数据集上获得的准确率分别为 96.9%、97.6%、98.7% 和 95.9%。这些结果远远优于当前最先进的方法。

1.11 Differentially Private Video Activity Recognition

不同的隐私视频活动识别

论文地址：

https://arxiv.org/abs/2306.15742

近年来，差分隐私在图像分类方面取得了显着的进步；然而，其在视频活动识别中的应用仍未得到充分探索。本文解决了将差分隐私应用于视频活动识别的挑战，这些挑战主要源于：（1）整个视频所需的隐私级别与当代视频架构处理的输入数据的性质之间的差异，这些数据通常是短的、分段的剪辑； (2) 视频数据集相对于图像分类数据集的复杂性和庞大规模，这使得传统的差分隐私方法不够充分。为了解决这些问题，我们提出了 Multi-Clip DP-SGD，这是一种通过基于剪辑的分类模型来实施视频级差分隐私的新颖框架。该方法对每个视频中的多个剪辑进行采样，对它们的梯度进行平均，并在 DP-SGD 中应用梯度剪辑，而不会造成额外的隐私损失。此外，我们采用了参数高效的迁移学习策略，使模型可针对大规模视频数据集进行扩展。通过对 UCF-101 和 HMDB-51 数据集的广泛评估，我们的方法表现出了令人印象深刻的性能，在 UCF-101 上以 epsilon=5 的隐私预算实现了 81% 的准确率，与直接应用 DP- 相比，提高了 76% 新元。此外，我们证明了我们的迁移学习策略是通用的，可以增强跨一系列数据集（包括 CheXpert、ImageNet、CIFAR-10 和 CIFAR-100）的差分隐私图像分类。

1.12 NCIS: Deep Color Gradient Maps Regression and Three-Class Pixel Classification for Enhanced Neuronal Cell Instance Segmentation in Nissl-Stained Histological Images

NCIS：用于Nissl染色组织图像增强神经元实例分割的深度颜色梯度图回归和三类像素分类

论文地址：

https://arxiv.org/abs/2306.15784

事实证明，深度学习在医学图像分析中比其他方法更有效，包括分割单个细胞这一看似简单但具有挑战性的任务，这是许多生物学研究的重要步骤。比较神经解剖学研究就是一个例子，其中神经元细胞的实例分割对于细胞结构表征至关重要。本文提出了一种端到端框架，可以自动分割大脑尼氏染色组织学图像中的单个神经元细胞，从而为研究大脑细胞结构的变化提供可靠的形态和结构分析。采用类似 U-Net 的架构，以 EfficientNet 作为编码器和两个解码分支，用于回归四种颜色梯度图，并将像素分类为接触细胞、细胞体或背景之间的轮廓。解码分支通过注意门连接以共享相关特征，并且它们的输出被组合以返回单元的实例分割。该方法在大脑皮层和小脑的图像上进行了测试，优于其他最近基于深度学习的细胞实例分割方法。

ONE Deep模型：LG AI Research的开源突破耶耶Norsea 网络杂烩自动化
摘要由LGAIResearch开发的ONEDeep系列开源AI模型，参数规模覆盖2.4亿至32亿。经评估，2.4B参数规模的ONEDeep模型在性能上优于同类其他模型，展现出显著优势。这一成果为AI技术的应用与研究提供了强有力的支持。关键词ONEDeep模型,开源AI模型,LGAIResearch,2.4B参数,性能优越一、ONEDeep模型概述1.1ONEDeep模型的开发背景在当今人工智能技术
深度解析大模型推理框架：原理、应用与实践百度_开发者中心人工智能大模型自然语言处理
在当今数据驱动的时代，大模型推理框架已经成为人工智能领域的重要支柱。本文将通过简明扼要、清晰易懂的方式，带领读者深入了解大模型推理框架的原理、应用领域和实践经验，帮助读者更好地掌握这一技术，并在实际工作中发挥其价值。一、大模型推理框架简介大模型推理框架是指一种基于深度学习技术的推理框架，主要用于解决大规模数据集下的复杂问题。该框架通过对海量数据进行高效的训练和推理，能够快速地对各种复杂场景进行分析
毕业论文代码实验（Python\MATLAB）基于K-means聚类的EMD-BiLSTM-Attention光伏功率预测模型清风AI 毕业设计代码实现 python lstm 深度学习神经网络人工智能 matlab pytorch
一、项目背景1.1光伏功率预测意义在能源结构转型背景下（国家能源局2025规划），光伏发电渗透率已超过18%。但受天气突变、云层遮挡等因素影响，光伏出力具有显著波动性，导致：电网调度难度增加（±15%功率波动）电力市场交易风险提升光储协同控制效率降低1.2技术挑战多尺度特征耦合：分钟级辐照度变化与小时级天气模式共存非线性映射关系：气象因素与发电功率呈高阶非线性关系数据模态差异：数值天气预报(NWP
单页响应式图片懒加载HTML页面 Wiktok css javascript 前端
设计说明响应式设计：使用CSSGrid布局，根据屏幕宽度自动调整色块数量在不同设备上都有良好的显示效果懒加载：使用标签的loading="lazy"属性实现原生懒加载图片在滚动到视口附近时才会加载色块展示：使用随机生成的色块作为内容展示每个色块都有独特的颜色和编号色块有悬停效果和阴影效果分类展示：将色块分为自然风光、城市建筑和抽象艺术三类每类都有独立的标题和网格布局响应式懒加载页面*{margin
Python基础知识点总结豆芽819 tip python 开发语言
1Python简介Python特点：解释型语言：无需编译，逐行执行。动态类型：变量类型在运行时确定。简洁易读：语法接近自然语言，代码简洁。跨平台支持：Windows/Linux/macOS均可运行。应用领域：Web开发、数据分析、人工智能、自动化脚本等。开发环境：推荐使用IDLE、PyCharm、VSCode或JupyterNotebook。2Python数值运算基本运算符：算术：+,-,*,/,
YOLO算法全面改进指南（二） niuTaylor YOLO改进 YOLO 算法
以下是为YOLO系列算法设计的系统性改进框架，结合前沿技术与多领域创新，提供可支持高水平论文发表的详细改进思路。本方案整合了轻量化设计、多模态融合、动态特征优化等创新点，并给出可验证的实验方向。一、多模态提示驱动的开放场景检测系统1.核心创新三模态提示机制：文本提示编码器：基于RepRTA（可重参数化区域文本对齐）构建轻量级文本编码网络，将自然语言描述映射为128维语义向量。视觉提示编码器：采用S
《java面向对象(5)》＜不含基本语法＞ java小白板 java 开发语言
本笔记基于黑马程序员java教程整理，仅供参考1.异常1.1异常分类1.1.1Error指系统级别的错误，程序员无法解决，不必理会1.1.2Exception（异常）分为两类：RuntimeException：运行时异常，编译时程序不会报错，运行时报错，如数组越界其他异常：编译时异常，编译时就会报错运行时异常：publicclassText{publicstaticvoidmain(String[
嵌入式硬件篇---蓝牙模块 Ronin-Lotus 嵌入式硬件篇程序代码篇嵌入式硬件网络 c 蓝牙
文章目录前言一、核心技术原理蓝牙工作流程设备发现阶段配对连接阶段数据传输阶段二、协议栈架构（以BLE为例）1.物理层2.链路层3.HCI层4.GATT三、典型应用场景扩展1.室内定位系统（蓝牙5.1+）2.运动健康监测3.工业控制四、ESP32开发示例（BLE+经典蓝牙）1.环境配置2.BLE服务端代码3.经典蓝牙串口通信五、关键技术参数对比六、开发调试技巧空中抓包分析七、最新技术演进（蓝牙5.4
人工智能和云计算带来的技术变革：工业自动化的新趋势 AI天才研究院 LLM大模型落地实战指南大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能（AI）和云计算技术的发展，我们正面临着一场巨大的技术变革。这些技术正在改变我们的生活方式、工作方式和社会结构。在工业自动化领域，人工智能和云计算技术正在为我们提供新的可能性和挑战。本文将探讨这些技术如何影响工业自动化，以及未来的发展趋势和挑战。1.1人工智能的基本概念人工智能（ArtificialIntelligence，AI）是一种试图使计算机具有人类智能的技术。AI的
SSL证书申请,流程，分类 thinkhi9999 ssl http 爬虫
SSH与SSL应用方向不同，但基于技术都是一样的（公钥和私钥配对）SSL主要用在Browser和Server通信，比如HTTPS=HTTP+SSLSSH是由客户端和服务端的软件组成的，用于computer之间通信，比如我们通过SSH登录远端服务器。有两个不兼容的版本分别是：1.x和2.x。用SSH2.x的客户程序是不能连接到SSH1.x的服务程序上去的。OpenSSH2.x同时支持SSH1.x和2
《南京日报》专题报道 | 耘瞳科技“工业之眼”加码“中国智造” 耘瞳科技科技
在江宁开发区，机器人已不再是科幻电影里的遥远想象，他们就像人类的“同事”，在工地上忙着贴砖、刷墙、搬运、检测；在体育训练场上帮助运动员矫正姿势；在医院里帮助医生发现帕金森早期征兆，在智慧工厂里与人类分工协作……作为南京市机器人产业“一核多翼”布局的“核”，江宁开发区当前聚集人工智能产业核心及上下游关联企业超百家。近日，《南京日报》走访了多家链条上的“明星企业”，耘瞳科技作为中国领先的智能检测与测量
2017安全之势：云、大数据、IoT、人工智能 weixin_34392906 人工智能大数据嵌入式
“新技术让信息系统变成了孙悟空，开始无所不能，但安全仍是它的‘紧箍咒’！怎样解开这个‘紧箍咒’？各路安全厂商各显其能，但似乎路漫漫兮离目标还很遥远。”三未信安董事长张岳公在ZD至顶网《百位意见领袖寄语2017》中说出了这样一句话，我觉着很有道理。安全是一个永恒的话题，如果说它与新的信息技术相生相克也不过分。即便如此，我们更要尽可能的减少安全带来的束缚。2017已经到来，不妨来看看至顶网与业界大咖总
双一流软件工程大二听闻 Java 前景堪忧，是否该转C++或人工智能或者读研？程序员yt java c++人工智能
今天给大家分享的是一位粉丝的提问，双一流软件工程大二听闻Java前景堪忧，是否该转C++或人工智能或者读研？接下来把粉丝的具体提问和我的回复分享给大家，希望也能给一些类似情况的小伙伴一些启发和帮助。同学提问：yt老师好，我是双一流软件工程的大二学生，一直在学习java方向，目前掌握了数据库，spring框架等内容，大一暑假在老家一个小公司找了段实习，有蓝桥杯java组b组国一，专业排名前2（保研名
编程行业必备！12个热门AI工具帮你写代码~ DevSecOps选型指南人工智能软件供应链安全工具代码安全开发助手 SAST 安全
到今年，AI编程工具的发展已经非常成熟了，它们可以极大地提高开发效率，帮助程序员解决复杂问题，并优化代码质量。拒绝废话，今天给大家推荐12款AI编程工具！1悬镜安全灵脉AI开发安全卫士灵脉AI开发安全卫士是基于多模智能引擎的新一代静态代码安全扫描产品，通过自动化审查流程来定位潜在缺陷、提升审计效率和代码质量，并显著减少手动审查所需的时间和精力。该平台利用人工智能技术，提供逐行的代码反馈，建议改进和
跟着黑马学MySQL基础篇笔记(1)-概述与SQL 小杜不吃糖 mysql 笔记 sql
03.安装与启动启动netstartmysql80netstopmysql80客户端连接mysql[-h127.0.0.1][-P3306]-uroot-p04.mysql数据模型关系型数据库RDBMS05.通用语法及分类DDL：数据定义语言，用来定义数据库对象（数据库，表，字段）DML：数据操作语言，用来对数据库表中的数据进行增删改DQL：数据查询语言，用来查询数据库中表的记录DCL：数据控制语
DPO 核心理论推导：参考策略距离约束下的最优策略 + 损失函数设计 iiiiii11 机器学习人工智能论文阅读笔记语言模型深度学习
Rafailov,Rafael,etal.“Directpreferenceoptimization:Yourlanguagemodelissecretlyarewardmodel.”AdvancesinNeuralInformationProcessingSystems36(2023):53728-53741.本文整理了DPO论文中两个核心结论的推导，包括参考策略距离约束下的最优策略的形式，以及
MiniMind 亚伯拉罕·黄肯大模型人工智能
数据集分类：tokenizer训练集：这个数据集用于训练分词器（tokenizer），是文本处理中的一个重要步骤。它可以帮助模型更好地理解文本数据的结构。Pretrain数据：这是用于预训练模型的数据集，它可以帮助模型学习语言的基本结构和特征。SFT数据：SFT（SupervisedFine-Tuning）数据集，用于监督式微调，可以提高模型在特定任务上的性能。DPO数据1和DPO数据2：这两个数
windows使用ssh-copy-id命令的解决方案爱编程的喵喵 Windows实用技巧 windows ssh ssh-copy-id 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了windows使用ssh-copy-
鸿蒙NEXT版实战开发：使用WebRTC进行Web视频会议那只斑马不睡觉鸿蒙5.0 ArkWeb OpenHarmony harmonyos 华为前端 android ArkWeb
往期鸿蒙全套实战精彩文章必看内容：鸿蒙开发核心知识点，看这篇文章就够了最新版！鸿蒙HarmonyOSNext应用开发实战学习路线鸿蒙HarmonyOSNEXT开发技术最全学习路线指南鸿蒙应用开发实战项目，看这一篇文章就够了（部分项目附源码）使用WebRTC进行Web视频会议Web组件可以通过W3C标准协议接口拉起摄像头和麦克风。开发者在使用该功能时，需配置ohos.permission.CAMER
关于AI OS那点事大囚长科普天地大模型人工智能
AIOS（人工智能操作系统）作为面向智能时代的操作系统，其功能定位和架构设计与传统操作系统（如Linux、Windows、iOS等）存在显著差异。一、AIOS需具备的核心功能智能体全生命周期管理智能体调度与并发：需支持多智能体任务的优先级排序、资源分配及并发执行，例如通过轮询调度或动态优先级算法优化LLM资源利用率。上下文感知与切换：通过上下文管理器实现智能体交互状态的快照保存与恢复，解决LLM生
Windows 11 24H2 中文版、英文版 (x64、ARM64) 下载 (2025 年 3 月更新) windows
Windows1124H2中文版、英文版(x64、ARM64)下载(2025年3月更新)Windows11,version24H2EnterpriseArm64x64(updatedMar2025)请访问原文链接：https://sysin.org/blog/windows-11/查看最新版。原创作品，转载请保留出处。作者主页：sysin.org全新Windows体验，让您与热爱的人和事物离得更近
北斗导航 |低轨导航研究进展单北斗SLAMer 卫星导航人工智能北斗三号 GNSS 算法低轨导航
低轨导航作为空天信息网络的重要组成部分，近年来在技术研发、系统构建及实际应用方面均取得显著进展。以下是基于最新研究动态的总结：一、技术研发与系统构建低轨导航增强系统技术突破2025年1月，青岛召开的低轨卫星导航增强系统技术发展研讨会汇集了国内26家单位的60名专家，重点讨论了低轨星座与现有导航系统（如北斗、GPS）的融合增强技术。例如：巨型导航星座数字仿真试验系统：国防科技大学刘文祥团队提出通过数
【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践蒙娜丽宁 Python杂谈人工智能人工智能
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界大语言模型（LLM）的“幻觉”问题，即模型生成与事实不符或脱离上下文的内容，是限制其广泛应用的关键挑战之一。本文深入探讨了幻觉问题的成因，包括训练数据的偏差、推理过程中的过度泛化以及缺乏外部验证机制。以DeepSeek系列模型为研究对象，我们分析了其在解
开发浏览器插件（chrome、edge） LLLL96 浏览器插件 chrome 前端浏览器插件下载图片
开发浏览器插件是一个有趣且富有挑战性的项目，可以让你扩展浏览器的功能，提升用户的浏览体验。今天就带大家写一个最简单的下载页面图片的插件。因为chrome和edge使用相同内核，所以开发一款插件，2个浏览器都能用准备工作chrome-要求最新版idea-为什么使用idea，当然是因为代码高亮方便开发开发新建项目file->new->project选择EmptyProject，Name填写chrome
HCIA-AI人工智能笔记3：数据预处理噗老师华为认证人工智能笔记 wpf 数据处理 AI 华为认证
统讲解数据预处理的核心技术体系，通过Python/Pandas与华为MindSpore双视角代码演示，结合特征工程优化实验，深入解析数据清洗、标准化、增强等关键环节。一、数据预处理技术全景图graphTDA[原始数据]-->B{数据清洗}B-->B1[缺失值处理]B-->B2[异常值检测]B-->B3[重复值删除]A-->C{特征工程}C-->C1[标准化/归一化]C-->C2[离散化分箱]C--
yolov8实战第七天——pyqt5-yolov8实现车牌识别系统（参考论文（约7000字）+环境配置+完整部署代码+代码使用说明+训练好的模型）学术菜鸟小晨 yolov8实战100天 python YOLO pyqt5 车牌识别毕业设计论文
基于pyqt5-yolov8实现车牌识别系统，包括图片车牌识别，视频车牌识别，视频流车牌识别。效果展示（图片检测，检测到的内容添加到历史记录）：效果展示（视频检测，视频车辆只会添加一条记录，下文更多实际应用中的优化策略）：新增功能：批量图片检测（2024/5/7更新代码）
Linux系统中安装各种常用中间件 Vic2334 运维 linux 中间件运维
Linux安装docker安装docker定制软件源yuminstall-yyum-utilsdevice-mapper-persistent-datalvm2yum-config-manager--add-repohttp://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo安装最新版dockeryumlistdocker-ce--
GTC 2025 中文在线解读扫地的小何尚人工智能 NVIDIA GPU 深度学习机器学习
GTC2025中文在线解读｜CUDA最新特性与未来[WP72383]NVIDIAGTC大会火热进行中，一波波重磅科技演讲让人应接不暇，3月24日，NVIDIA企业开发者社区邀请KenHe、YipengLi两位技术专家，面向开发者，以中文深度拆解GTC2025四场重磅开发技术相关会议，直击AI行业应用痛点，破解前沿技术难题!作为GPU计算领域的基石，CUDA通过其编程语言、编译器、运行时环境及核心库
AI进化论：从图灵测试到智能革命的临界点 A达峰绮人工智能数据处理经验分享 AIGC AI人工智能
智能觉醒的起源密码（1943-2010）在曼彻斯特维多利亚大学的实验室里，1948年"Baby"计算机完成人类首个存储程序运行实验时，艾伦·图灵正在构思《计算机器与智能》。这篇划时代论文提出的"模仿游戏"测试，为人工智能奠定了哲学基础。1956年达特茅斯会议上，麦卡锡正式提出"人工智能"概念，当时学界乐观预测"二十年内机器将完成人类所有工作"。神经网络的发展轨迹充满戏剧性：1958年罗森布拉特发明
AI时代个人财富增长实战指南：从零基础到精通变现的完整路径 A达峰绮人工智能
（本文基于人工智能技术发展规律，结合互联网经济底层逻辑，为普通从业者构建系统性AI应用框架）一、建立AI认知基础：技术理解与工具掌握技术分类认知人工智能工具分为四大功能模块：自然语言处理（文本生成、对话交互）、计算机视觉（图像视频处理）、数据分析（预测建模）、自动化控制（流程优化）。建议新手首先掌握语言类工具的基础操作，逐步扩展到其他领域。工具操作逻辑通用AI工具通常包含三大核心功能模块：输入界面
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key

【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递（6月 29 日论文合集）

文章目录

一、分类|识别相关(12篇)

1.1 Pseudo-Bag Mixup Augmentation for Multiple Instance Learning Based Whole Slide Image Classification

1.2 Improving Primate Sounds Classification using Binary Presorting for Deep Learning

1.3 Challenges of Zero-Shot Recognition with Vision-Language Models: Granularity and Correctness

1.4 Fast Recognition of birds in offshore wind farms based on an improved deep learning model

1.5 Positive Label Is All You Need for Multi-Label Classification

1.6 Subclass-balancing Contrastive Learning for Long-tailed Recognition

1.7 Fine-grained 3D object recognition: an approach and experiments

1.8 UTRNet: High-Resolution Urdu Text Recognition In Printed Documents

1.9 An Efficient Deep Convolutional Neural Network Model For Yoga Pose Recognition Using Single Images

1.10 A Novel Two Stream Decision Level Fusion of Vision and Inertial Sensors Data for Automatic Multimodal Human Activity Recognition System

1.11 Differentially Private Video Activity Recognition

1.12 NCIS: Deep Color Gradient Maps Regression and Three-Class Pixel Classification for Enhanced Neuronal Cell Instance Segmentation in Nissl-Stained Histological Images

你可能感兴趣的:(计算机视觉arxiv最新论文,计算机视觉,分类,人工智能)