AMiner学术搜索和科技情报挖掘

《预训练周刊》第29期：Swin Transformer V2：扩大容量和分辨率、SimMIM：用于遮蔽图像建模的简单框架

关于周刊
本期周刊，我们选择了10篇预训练相关的论文，涉及图像处理、图像屏蔽编码、推荐系统、语言模型解释、多模态表征、多语言建模、推理优化、细胞抗原预测、蛋白结构理解和化学反应的探索。此外，在资源分享方面，我们选择了2篇预训练资源，将介绍视频理解和生物图像处理方面的一些最新内容。
本期贡献者：申德周翟珂吴新刚
文章来源：智源社区

论文推荐

标题：微软｜Swin Transformer V2: Scaling Up Capacity and Resolution（Swin Transformer V2：扩大容量和分辨率）
作者：Ze Liu, Han Hu, Baining Guo等
简介：本文提出一种图像应用的预训练技术。作者提出了缩放Swin Transformer的技术，能够训练多达30亿个参数并使其图像分辨率高达1,536×1,536。通过扩大规模容量和分辨率，Swin Transformer在四个代表性视觉基准上创下新记录：在ImageNet-V2图像分类上的84.0%top-1准确率，COCO对象检测上的box/mask的63.1/54.4mAP，ADE20K语义分割59.9mIoU，Kinetics-400视频动作分类86.8%的top-1准确率。作者通过使用Swin Transformer作为案例研究来说明：1)后归一化技术和缩放余弦注意方法，以提高大型视觉模型的稳定性；2)对数间隔连续位置偏置技术有效地将在低分辨率图像和窗口中预先训练的模型传输到更高分辨率的对应模型。使用这些技术和自我监督的预训练，作者成功地训练了一个强大的30亿Swin Transformer模型并有效传递到涉及高分辨率图像的各种视觉任务，在各项基准测试中达到最先进的精度。
代码地址：https://github.com/microsoft/Swin-Transformer
论文地址：https://www.aminer.cn/pub/619716445244ab9dcb189944?f=cs

标题：微软｜SimMIM: A Simple Framework for Masked Image Modeling（SimMIM：用于遮蔽图像建模的简单框架）
作者：Zhenda Xie, Zheng Zhang, Yue Cao, Han Hu等
简介：本文介绍了一种简单的框架蒙版图像建模方法。作者简化最近提出的没有特殊设计的相关方法，例如通过离散VAE或聚类进行的块屏蔽和标记化。为研究让遮蔽图像建模任务学习好表征的原因，作者系统地研究了框架中的主要组件，发现每个组件的简单设计都显示出非常强大的表征学习性能：1）随机遮蔽具有中等大小的蒙版补丁大小的输入图像（例如，32) 做一个很强的前置任务；2）预测原始像素通过直接回归得到的 RGB 值的性能不差于具有复杂设计的补丁分类方法；3）预测头可以像线性层一样轻，同时性能没有变差。使用ViT-B，作者的方法实现了ImageNet-1K数据集上，83.8%的top-1微调精度，也在这个数据集上进行了预训练，超过了之前的最佳方法+0.6%。当应用于一个更大的模型，大约有6.5亿个参数SwinV2-H，它使用 ImageNet-1K实现了87.1%的top-1准确率。作者还利用这种方法来促进30亿模型(SwinV2-G) 的训练，即通过比以前的实践少40倍的数据，作者实现了四个代表性视觉的最新技术基准。
代码地址：https://github.com/microsoft/SimMIM
论文地址：https://www.aminer.cn/pub/619716445244ab9dcb189946?f=cs

标题：快手、瑞士苏黎世联邦理工学院|Persia: An Open, Hybrid System Scaling Deep Learning-based Recommenders up to 100 Trillion Parameters（Persia：基于深度学习的百万亿参数开放式混合扩展推荐系统）
作者：Xiangru Lian, Binhang Yuan, Ji Liu等
简介：本文介绍了一种基于深度学习推荐系统训练框架。随着模型的嵌入层可以包含整个模型的99.99%以上大小，这是非常占用内存的；而其余的神经网络计算量越来越大。在本文中，作者通过谨慎的方式解决了这一挑战优化算法和分布式的协同设计系统架构。具体来说，为了保证训练效率和训练精度，作者设计了一种新颖的混合训练算法，其中嵌入层和密集神经网络由不同的同步机制处理；然后作者构建了一个名为Persia的系统以支持这种混合训练算法。理论论证和实证研究已经进行了多达百万亿个参数的研究，以证明Persia的系统设计和实施是合理的。
代码地址：https://github.com/PersiaML/Persia
论文地址：https://www.aminer.cn/pub/618ddb3f5244ab9dcbda8955?f=cs

标题：瑞士洛桑埃科尔理工学院 | Interpreting Language Models Through Knowledge Graph Extraction（通过知识图谱提取解释语言模型）
作者：Vinitra Swamy, Angelika Romanou, Martin Jaggi
简介：本文对不同语言模型的性能量化进行研究、并采用了知识图抽取框架。在大型文本语料库上训练的基于 Transformer 的语言模型在自然语言处理社区中广受欢迎，并且通常用作下游任务的起点。虽然这些模型不可否认是有用的，但在传统的准确度指标之外量化它们的性能是一个挑战。在本文中，作者通过在训练过程的连续阶段获得的知识的快照来比较基于 BERT 的语言模型。通过使用探测任务查询掩码语言模型，可以发现来自训练语料库的结构化关系。作者提出了一种方法，通过在RoBERTa早期训练的各个阶段从完形填空“填空”语句中生成知识图谱提取物来揭示知识获取时间表。作者将此分析扩展到 BERT 模型的预训练变体的比较。本研究工作提出了一个定量框架，通过知识图谱抽取比较语言模型，并展示了词性分析来识别每个模型变体的语言优势。使用这些指标，机器学习从业者可以比较模型，诊断模型的行为优势和劣势，并确定新的目标数据集以提高模型性能。
论文地址：https://www.aminer.cn/pub/619472d45244ab9dcbd2de56?f=cs

标题：Meta AI、谷歌、Outreach、HuggingFace | XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale（自监督跨语言语音表征学习）
作者：Arun Babu, Changhan Wang, Andros Tjandra,等
简介：本文介绍了基于wav2vec 2.0的跨语言语音表示学习大规模预训练模型XLS-R。作者在128种语言的近50万小时的公开语音音频上训练具有高达2B参数的模型，这比已知的最大的先前工作多出一个数量级的公共数据。作者的评估涵盖了广泛的任务、领域、数据机制和语言，包括高资源和低资源。在CoVoST-2语音翻译基准测试中，作者在 21 个英语翻译方向上将之前的技术水平平均提高了 7.4 BLEU。对于语音识别，XLS-R 改进了 BABEL、MLS、CommonVoice 和 VoxPopuli 上最著名的先前工作，平均相对降低了 14-34% 的错误率。XLS-R 还设置了 VoxLingua107 语言识别的最新技术。而且，作者表明，在有足够的模型大小的情况下，跨语言预训练在将英语语音翻译成其他语言时可以优于仅英语的预训练，这种设置有利于单语预训练。作者希望 XLS-R 可以帮助改进世界上更多语言的语音处理任务。
论文地址：https://www.aminer.cn/pub/619715f95244ab9dcb185423?f=cs

标题：阿里达摩院、南洋理工 | Knowledge Based Multilingual Language Model（基于知识的多语言语言模型）
作者：Linlin Liu, Xin Li, Ruidan He,等
简介：本文研究基于知识的多语言预训练模型。知识丰富的语言表示学习，在各种知识密集型 NLP 任务中表现出良好的性能。然而，现有的基于知识的语言模型都是用单语知识图数据训练的，这限制了它们对更多语言的应用。在这项工作中，作者提出了一个新颖的框架来预训练基于知识的多语言模型（KMLM）。作者首先使用维基数据知识图生成大量代码切换合成句子和基于推理的多语言训练数据。然后基于生成数据的句内和句间结构，作者设计了预训练任务以促进知识学习，这使得语言模型不仅可以记住事实知识，还可以学习有用的逻辑模式。作者预训练的 KMLM 在广泛的知识密集型跨语言 NLP 任务上表现出显着的性能提升，包括命名实体识别、事实知识检索、关系分类以及作者设计的一项新任务，即逻辑推理。
论文地址：https://www.aminer.cn/pub/619c5bbf5244ab9dcbf22508?f=cs

标题：英特尔、加利福尼亚大学 | Dynamic-TinyBERT: Boost TinyBERT’s Inference Efficiency by Dynamic Sequence Length（通过动态序列长度提高 TinyBERT 的推理效率）
作者：Shira Guskin, Moshe Wasserblat, Ke Ding, Gyuwan Kim
简介：本文研究基于优化TinyBERT的模型如何显著提升计算效率。有限的计算预算通常会阻止在生产中使用Transformer，也无法利用其高精度。TinyBERT 通过将 BERT 自我提炼为具有更少层和更小的内部嵌入的更小的Transformer表示来解决计算效率问题。然而，当将层数减少 50% 时，TinyBERT 的性能会下降，当将层数减少 75% 时，TinyBERT 的性能下降得更厉害，例如跨度问答等高级 NLP 任务。此外，必须针对具有不同计算预算的每个推理场景训练一个单独的模型。在这项工作中，作者提出了Dynamic-TinyBERT—基于TinyBERT 模型、利用序列长度缩减和超参数优化来提高每个计算预算的推理效率。Dynamic-TinyBERT只训练一次，性能与 BERT 不相上下，并实现了优于任何其他有效方法的准确度-加速权衡（高达 3.3 倍，损失下降 <1%）。
论文地址：https://www.aminer.cn/pub/619715f95244ab9dcb185638?f=cs

标题：斯坦福、华盛顿大学医学院 | TCR-BERT: learning the grammar of T-cell receptors for flexible antigen-xbinding analyses（TCR-BERT：学习T细胞受体的语法以进行灵活的抗原结合分析）
作者：Kevin Wu，James Zou等
简介：T细胞受体（TCR）使T细胞能够识别和响应由感染和病变细胞呈现的抗原。由于TCRs惊人的多样性和TCR抗原识别背后复杂的结合动力学，预测一个给定的TCR可能与哪些抗原结合是具有挑战性的。本文提出了TCR-BERT并将自监督的迁移学习应用于这个问题。TCR-BERT利用未标记的TCR序列来学习TCR序列的一般的、通用的表征，从而实现众多下游应用。本文证明了TCR-BERT可以用来建立最先进的TCR-抗原结合预测器，与之前的方法相比，具有更好的通用性。TCR-BERT同时促进了对可能共享抗原特异性的序列进行聚类。它还促进了对具有挑战性的、未解决的问题的计算方法，如设计具有工程化结合亲和力的新型TCR序列。重要的是，TCR-BERT通过专注于具有已知生物学意义的残基来实现所有这些进展。
论文地址：https://www.aminer.cn/pub/61b06a2e6750f85f9390e486?f=cs

标题：慕尼黑工大 | Contrastive learning on protein embeddings enlightens midnight zone at lightning speed（用于高效理解蛋白午夜区的嵌入对比学习）
作者：Michael Heinzinger, Maria Littmann等
简介：由于最近蛋白质三维结构预测方面的进展，特别是AlphaFold 2和RoseTTAFold的影响，蛋白质三维信息的丰富程度将在未来几年爆发。本文提出了一种新的方法ProtTucker，将同源推理的概念从低维的序列距离查询扩展到高维的基于嵌入的注释迁移的水平。作者使用来自蛋白质语言模型的单一蛋白质序列表示，即预训练嵌入（Prose、ESM-1b、ProtBERT和ProtT5），作为对比学习的输入。这种方法创建了一套新的嵌入，优化了蛋白质三维结构的分层分类所捕获的约束，并明显改善了折叠识别。新的嵌入能够作用与蛋白质的午夜区，即成对序列相似性水平类似于随机关系，很难用同源方法来分析的区域。基准测试表明，ProtTucker比先进的序列比较更进一步，而不需要计算比对，使其速度快了几个数量级。
论文地址：https://www.aminer.cn/pub/61b06b5e6750f807cdec6444?f=cs

资源分享

标题：META| PyTorchVideo: A Deep Learning Library for Video Understanding（PyTorch Video：用于视频理解的深度学习库）
作者：Haoqi Fan, Tullie Murrell, Christoph Feichtenhofer等
简介：本文介绍了一个开源视频理解库。提供了一套丰富的模块化、高效和可重复的用于各种视频理解任务的组件，包括分类、检测、自监督学习和低级加工。该库涵盖了一整套视频理解工具，包括多模态数据加载、转换和再现最先进性能的模型。PyTorchVideo进一步支持硬件加速，可在移动设备上实现实时推理。该库基于 PyTorch，可以被任何训练框架使用；例如，PyTorchLightning、PySlowFast或Classy Vision。
论文地址：https://www.aminer.cn/pub/6173f1c391e0118698c04a3c?f=cs

标题：多伦多大学 | CytoImageNet: A large-scale pretraining dataset for bioimage transfer learning（CytoImageNet：用于生物图像迁移学习的大规模预训练数据集）
作者：Stanley Bryan Z. Hua, Alex X. Lu, Alan M. Moses
简介：近年来，以图像为基础的生物检测已逐渐成进入高通量的时代，从数十万张图像中提取有生物学意义的信息引发了对相应快速自动化方法和工具的需求。从ImageNet的成功中得到启发，本文策划了CytoImageNet，这是一个由公开来源和弱标记的显微镜图像组成的大规模数据集，包括890,737张显微镜图像和894个类别。对CytoImageNet的预训练产生的特征在下游的显微镜分类任务中与ImageNet的特征具有竞争力，融合提取的特征在下游任务中的表现最好，这意味着CytoImageNet和ImageNet的预训练导致了不同的、但有意义的图像表征的学习。这些结果表明，未来生物图像迁移学习的应用可能会从CytoImageNet和ImageNet特征的融合中获益。
论文地址：https://www.aminer.cn/pub/619dad505244ab9dcb27b45f?f=cs

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
ARM嵌入式可编程控制器技术开发拉勾科研工作室 arm开发
PLC自动化设计|毕业设计指导|工业自动化解决方案✨专业领域：PLC程序设计与调试工业自动化控制系统HMI人机界面开发工业传感器应用电气控制系统设计工业网络通信擅长工具：西门子S7系列PLC编程三菱/欧姆龙PLC应用触摸屏界面设计电气CAD制图工业现场总线技术自动化设备调试主要内容：PLC控制系统设计工业自动化方案规划电气原理图绘制控制程序编写与调试毕业论文指导毕业设计题目与程序设计✅具体问题可以
【前端】jQuery数组合并去重方法总结
在jQuery中合并多个数组并去重，推荐使用原生JavaScript的Set对象（高效简单）或$.unique()（仅适用于DOM元素，不适用于普通数组）。以下是完整解决方案：方法1：使用ES6Set（推荐）//定义多个数组constarr1=[1,2,3];constarr2=[2,3,4];constarr3=[3,4,5];//合并数组并用Set去重constmergedArray=[...
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
EMQX 社区版单机和集群部署 pcj_888 MQTT MQTT EMQ
EMQ支持Docker，宿主机，k8s部署；支持单机或集群部署。以下给出EMQX社区版单机和集群部署方法1.Docker单机部署官方推荐最小配置：2核4G下载容器镜像dockerpullemqx/emqx:5.3.2启动容器dockerrun-d--nameemqx\-p1883:1883\-p8083:8083\-p8883:8883\-p8084:8084\-p18083:18083\emqx
前端 NPM 包的依赖可视化分析工具推荐前端视界前端艺匠馆前端 npm arcgis ai
前端NPM包的依赖可视化分析工具推荐关键词：NPM、依赖管理、可视化分析、前端工程、包管理、依赖冲突、性能优化摘要：本文将深入探讨前端开发中NPM包依赖可视化分析的重要性，介绍5款主流工具的使用方法和特点，并通过实际案例展示如何利用这些工具优化项目依赖结构、解决版本冲突问题以及提升构建性能。文章将帮助开发者更好地理解和掌控项目依赖关系，提高开发效率和项目可维护性。背景介绍目的和范围本文旨在为前端开
EasyCwmp源码分析与接口实现详解：深入理解源码架构，掌握核心接口
EasyCwmp源码分析与接口实现详解：深入理解源码架构，掌握核心接口去发现同类优质开源项目:https://gitcode.com/在开源项目中，寻找一款能够提升开发效率、简化流程的工具是每个开发者的追求。今天，我们要介绍的这款开源项目EasyCwmp，正是为了帮助开发者深入了解源码架构，掌握核心接口实现，从而加速项目开发进程。以下是关于EasyCwmp源码分析与接口实现详解的项目推荐文章。项目
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？ ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 机器学习算法深度学习人工智能
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？在大语言模型（LLM）中，最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息，这是由LLM的核心架构（以Transformer为基础）决定的，具体可以从以下角度理解：1.核心机制：自注意力（Self-Attention）的作用现代LLM（如GPT系列、Qwen等）均基于Transformer架构，其核心是自注意力机制。在
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
redis集群之Sentinel哨兵高可用会飞的爱迪生 redis redis sentinel bootstrap
Sentinel是官网推荐的高可用（HA）解决方案，可以实现redis的高可用，即主挂了从代替主工作，在一台单独的服务器上运行多个sentinel，去监控其他服务器上的redismaster-slave状态(可以监控多个master-slave)，当发现master宕机后sentinel会在slave中选举并启动新的master。至少需要3台redis才能建立起基于哨兵的reids集群。一、通过s
如何对.NET应用程序进行数字签名溪源More 服务器 linux 网络运维
我们可以为我们的程序进行数字签名,这样就可以证明该程序的作者是可信的.首先为了签名程序,我们需要先创建一个证书.证书是由证书颁发机构(CA)颁发的,CA是受信任的第三方机构,它可以为我们颁发证书.当然我们也可以自己创建证书.接下来简单介绍下如何利用OpenSSL工具创建证书.创建证书下载openssl安装包并安装,推荐下载最新64位版本.打开命令行,输入openssl,如果提示Openssl不是内
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 计算机视觉人工智能机器学习算法深度学习
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的有个假设：就是最后一个词语融合了前面词语的信息减法操作主要用于提取模型内部表征中的"诚实性"概念向量。具体来说，这是通过对比诚实和不诚实场景下的模型隐藏状态实现的。importtorchfromtransformersimportAutoModelForCausalLM,AutoTokenizer,AutoConfigimportnum
基于Python的Google Scholar学术论文爬虫实战：最新技术与完整代码解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言学习 scrapy
摘要本文详细介绍如何使用Python构建一个高效的GoogleScholar爬虫系统，包括代理设置、反反爬策略、数据解析与存储等核心技术。文章涵盖最新Python爬虫技术栈（如Playwright、异步IO等），提供完整可运行的代码示例，并讨论学术爬虫的伦理与法律问题。通过本教程，读者将掌握从GoogleScholar批量获取学术论文信息的高级爬虫技术。关键词：Python爬虫、GoogleSch
深入解析 “void(0)；” 的用法与作用_void(0)；
关键要点void(0);是JavaScript中的一个表达式，研究表明它通常用于超链接中，防止页面跳转。它通过void运算符计算表达式并返回undefined，常用于创建“死链接”。证据显示，这种用法简单易用，但现代开发更推荐使用事件监听器。基本概念void(0);的作用void(0);是JavaScript的void运算符的一个实例，void运算符会计算一个表达式但不返回任何值，而是始终返回un
Python selenium 库 AI老李 python python selenium 开发语言
关键要点PythonSelenium库用于自动化Web浏览器，适合测试和爬虫，中文教程资源丰富。推荐菜鸟教程、CSDN博客和Selenium-Python中文文档，涵盖基础到进阶。学习需注意浏览器驱动匹配和动态加载处理，可能需显式等待。资源推荐以下是适合初学者和中级学习者的中文教程：菜鸟教程：提供全面的Selenium教程，包括安装和示例，详见Selenium教程。Selenium-Python中
Python3 内置函数 AI老李 python python
关键要点Python3的内置函数是解释器直接提供的，无需导入即可使用，涵盖数据类型转换、数学操作、序列处理等多种功能。推荐使用官方文档、菜鸟教程和腾讯云开发者社区的中文资源，适合初学者和中级学习者。资源提供详细解释和示例，学习时可结合实际项目实践。简介Python3的内置函数是编程中常用的工具，方便用户快速实现各种操作。以下是几个主要资源，帮助您学习这些函数的用法。资源推荐Python官方文档：内
Python uWSGI 安装配置 AI老李 python python 开发语言
关键要点uWSGI安装和配置适合PythonWSGI应用，资源丰富，适合初学者和中级用户。推荐菜鸟教程和官方文档，涵盖Linux和Windows环境。配置需注意操作系统差异和框架（如Django、Flask）需求。安装步骤uWSGI安装通常通过pip或源码编译完成。以下是基本步骤：Linux：安装依赖（如build-essentialpython-dev），然后用pipinstalluwsgi或编
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
AI MCP教程之什么是 MCP？利用本地 LLM 、MCP、DeepSeek 集成构建您自己的 AI 驱动工具知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 mcp deepseek
介绍利用模型上下文协议(MCP)的工具吸引了我们的注意力—将AI变成触手可及的生产力引擎。它们巧妙、高效，让人难以抗拒。但如果您可以将这样的功能添加到自己的工具中，会怎么样呢？在本指南中，我将引导您构建一个具有本地运行的大型语言模型(LLM)和MCP集成的AI工具-让您以类似的方式自动执行利用MCP的工具您喜欢的任务。推荐文章《AnythingLLM教程系列之12AnythingLLM上的Olla
12 个强大的 DeepSeek AI 提示将彻底改变您的日常生活知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek
内容写作的最佳提示让我们从写作开始吧。无论您是博主、学生还是社交媒体创作者，这些提示都将帮助您创作出精彩的内容。提示1：“扮演专业文案撰稿人，为[产品/服务]撰写引人注目的广告文案。文案应引人入胜、具有说服力，且字数不得超过100个字。”这使得ChatGPT的响应结构就像真实的广告文案一样。提示2：“以更具吸引力和说服力的方式重写此段落，同时保持含义不变：[插入文本]。”推荐文章《Neo4j上使用
使用 Deepseek Zero Coding Experience 创建类似飞扬的小鸟游戏知识大胖 NVIDIA GPU和大语言模型开发教程游戏 deepseek ollama janus pro
简介Flappybird在苹果商店推出后，每天大约能赚5000美元，但后来被苹果故意下架。现在我正尝试使用Deepseek制作这样一款游戏。技术在不断变化，编码知识也在不断变化，只需修改代码即可获得结果。让我们在Deepseek上试试这款游戏：推荐文章《如何在本地电脑上安装和使用DeepSeekR-1》权重1，DeepSeek《Nvidia系列之使用NVIDIAIsaacSim和ROS2的命令行控
24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介最初的DeepSeekR1是一个拥有6710亿个参数的语言模型，UnslothAI团队对其进行了动态量化，将模型大小减少了80%（从720GB减少到131GB），同时保持了强大的性能。当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。推荐文章《本地构建AI智能分析助手之01快速安装，使用PandasAI和Ollama进行数据分析，用自然语言向你公司的数据提问为决策
在 Obsidian 中本地使用 DeepSeek — 无需互联网！知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek
简介您是否想在Obsidian内免费使用类似于ChatGPT的本地LLM？如果是，那么本指南适合您！我将引导您完成在Obsidian中安装和使用DeepSeek-R1模型的确切步骤，这样您就可以在笔记中拥有一个由AI驱动的第二大脑。推荐文章《24GBGPU中的DeepSeekR1：UnslothAI针对671B参数模型进行动态量化》权重1，DeepSeek类《在RaspberryPi上运行语音识别
array_map函数在PHP类中调用内部方法简介 Houzhyan php php函数库
在PHP编程中，我们经常会遇到处理数组的单元数据问题，比如对数组中每个单元应用自定义函数。一种方法是通过循环遍历整个数组，对每个单元调用自定义函数，然后用返回值替换原数组相应单元的值。这也是最常见和简单的方法，在此就不举例了。一种方法是通过PHP提供的array_map函数回调自定义函数，这也是被推荐的方法。array_map--将回调函数作用到给定数组的单元上说明:arrayarray_map(
在 openEuler 24.03 LTS-SP1 安装 KubeSphere + K8s 集群时 kubelet 默认连接 127.0.0.1 问题分析与解决 gs80140 各种问题 kubernetes kubelet 容器
目录在openEuler24.03LTS-SP1安装KubeSphere+K8s集群时kubelet默认连接127.0.0.1问题分析与解决❗问题现象问题根因分析✅解决方案方案一：修改每个节点的kubelet配置（推荐）方案二：预防性修改安装模板（集群安装前）总结在openEuler24.03LTS-SP1安装KubeSphere+K8s集群时kubelet默认连接127.0.0.1问题分析与解决
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源

《预训练周刊》第29期：Swin Transformer V2：扩大容量和分辨率、SimMIM：用于遮蔽图像建模的简单框架

你可能感兴趣的:(AMiner论文推荐,AMiner,transformer,计算机视觉,深度学习)