今天也学习了嗷

基于图像的人群计数研究（论文阅读笔记）

一、人群计数研究的问题

人群计数旨在估计图像或视频中人群的数量、密度或分布，属于目标计数领域中的一类，既是智能视频监控分析领域的关键问题和研究热点，也是后续行为分析、拥塞分析、异常检测和事件检测等高级视频处理任务的基础。

二、人群计数研究的发展

1 传统的

通过传统的计算机视觉方法提取行人特征，然后通过目标检测或回归的方式获取图像或视频中人群的数量。无法从图像中提取更抽象的有助于完成人群计数任务的语义特征，使得面对背景复杂、人群密集、遮挡严重的场景时，计数精度无法满足实际需求，具有一定的局限性。

2 基于深度学习的

2.1 基于CNN的人群计数

可以分为两类：直接回归计数法和密度图估计法

/	直接回归计数法	密度图估计法
步骤	input(图片)——>outout(人数)	input(图片)——>output(密度图)——>估计人数
适用性	人群稀疏场景	取决于密度图的质量

提升密度图质量的方法：引入新的损失函数来提高密度图的清晰度和准确度。无论采用哪种方法，都需要先进行特征提取。为了提升特征的鲁棒性，常使用多尺度预测、上下文感知、 空洞卷积、可形变卷积等方法改进特征提取过程，以增强特征的判别能力。

2.2 网络模型

可分为：单分支结构、多分支结构和特殊结构

a 单分支结构

早期基于 CNN 的人群计数网络均为只包含一条数据通路的单分支网络结构。

如Wang[1] 等人最先将CNN 引入人群计数领域（15年提出），提出了一种适用于密集人群场景的端到端 CNN 回归模型。该模型对AlexNet网络[2]（12年提出）进行改进，将最后的全连接层替换为单神经元层，直接预测人群数量。

[1] Wang Chuan, Zhang Hua, Yang Liang, et al. Deep people counting in extremely dense crowds [C] // Proc of the 23rd ACM Int Conf on Multimedia. New York: ACM, 2015: 1299-1302

[2] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks [C] // Proc of the 25th Int Conf on Neural Information Processing systems. Cambridge, MA: MIT Press,2012: 1097-1105

Zhang 等人[3]提出了一种基于 AlexNet 的跨场景计数模型 Crowd CNN，首次尝试输出人群密度图。算法会根据目标场景特点，选择相似场景对计数模型进行微调(fine-tuning），如图 1(b)所示，以达到跨场景计数的目的。为了提升计数准确性，作者还提出了透视图(perspective map)的概念，如图 2(a)所示，颜色越红代表目标尺度越大.然后，通过密度图和透视图的融合，如图 2(b)所示，降低透视形变（perspective distortion）的不良影响，提升密度图质量。

[3] Zhang Cong, Li Hongsheng, Wang Xiaogang, et al. Cross-scene crowd counting via deep convolutional neural networks [C] //Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 833-841.

b 多分支结构

多分支结构的提出是为了解决人群计数场景中存在的多尺度问题。

如Boominathan 等人[4]基于CNN 提出了一种双分支结构计数网络 CrowdNet，通过一个浅层网络（shallow network）和一个深层网络（deep network）分别提取不同尺度的特征信息进行融合来预测人群密度图，以适应人群的非均匀缩放和视角的变化，有利于不同场景不同尺度的人群计数。

[4] Boominathan L, Kruthiventi S S S, Babu R V, et al. CrowdNet: A deep convolutional network for dense crowd counting [C] // Proc of the 24th ACM Int Conf on Multimedia. New York: ACM, 2016: 640-644

受多分支神经网络[5]的启发，Zhang 等人[6]提出了一种多列卷积神经网络（ multi-columnCNN, MCNN）用于人群计数，其结构如图 4 所示。每一分支网络采用不同大小的卷积核来提取不同尺度目标的特征信息，减少因为视角变化形成的目标大小不一导致的计数误差。MCNN 建立了图像与人群密度图之间的非线性关系，通过用全卷积层替换全连接层，使得模型可以处理任意大小的输入图片。为了进一步修正视角变化带来的影响， MCNN 在生成密度图时，没有采用固定的高斯核，而是利用自适应高斯核计算密度图，提升了密度图质量。

[5] Ciregan D, Meier U, Schmidhuber J. Multi-column deep neural networks for image classification [C] // Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 3642-3649

[6] Zhang Yingying, Zhou Desen, Chen Siqin, et al. Single-image crowd counting via multi-column convolutional neural network [C] //Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 589-597

为了生成更高质量的密度图， Sindagi 等人[7]提出了上下文金字塔卷积神经网络计数模型 CP-CNN，其结构如图 5 所示。全局上下文估计器（ global context estimator, GCE）和局部上下文估计器（ local context estimator, LCE）分别提取图像的全局和局部上下文信息，密度估计器（density map estimator, DME)沿用了 MCNN 的多列网络结构生成高维特征图，融合卷积神经网络（fusion-CNN, F-CNN）则将前 3 个部分的输出进行融合，生成密度图，F-CNN 使用了一系列小数步长卷积层帮助重建密度图的细节。同时，针对 CNN 计数网络主要使用像素级欧氏距离损失函数来训练网络导致的生成密度图比较模糊，CP-CNN 引入对抗损失(adversarial loss)，利用生成对抗网络（generative adversarial net, GAN）[8]来克服欧氏距离损失函数的不足。

[7] Sindagi V A, Patel V M. Generating high-quality crowd density maps using contextual pyramid CNNs [C] // Proc of the IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2017: 1861-1870

[8] Goodfellow I J, Pouget-Abadie J, Mirza M, et al. Generative adversarialnets [C] // Proc of the 27th Int Conf on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014: 2672-2680

2017 年，Sam 等人[9]提出了一种多列选择卷积神经网络（ switch convolution neural network ，Switch-CNN）用于人群计数，其结构如图 6 所示。 Swithch-CNN 虽然采用多列网络结构，但是各列网络独立处理不同的区域。在输入网络之前，图像被切分成 3×3 的区域，然后对每个区域使用特定的 SWITCH 模块进行密度等级划分，并根据密度等级选择对应的分支进行计数。通过对于密度不同的人群有针对性地选用不同尺度的回归网络进行密度估计，使得最终的计数结果更为准确。Swithch-CNN 也存在不容忽视的弊端，如果分支选择错误将会大大影响计数准确度。

进一步，Sam 等人[10]对 Switch-CNN 进行改进，提出了逐步增长卷积神经网络（incrementally growing CNN，IG-CNN），其层次化训练过程如图 7 所示。

[9] Sam D B, Surya S, Babu R V, et al. Switching convolutional neural network for crowd counting [C] // Proc of the IEEE Conf on Computer Vision and Pattern Recognition Honolulu. Piscataway, NJ: IEEE, 2017: 4031-4039

[10] Sam D B, Sajjan N N, Babu R V, et al. Divide and grow: Capturing huge diversity in crowd images with incrementally growing CNN [C] // Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 3618-3626

在已有的人群计数模型中，通常单纯地假设场景中的人群分布是稀疏或密集的。针对稀疏场景，采用检测方法进行计数；而针对密集场景，则采用回归方法进行人群密度估计。这样的模型往往难以应对密度变化范围很广的人群场景的计数。为了解决这个问题Liu等人[11]提出了一种检测和回归相结合的人群计数模型，DecideNet，其结构如图 8 所示。RegNet 模块采用回归方法直接从图像中估计人群密度， DetNet 模块则在 Faster-RCNN的后面添加了一个高斯卷积层(Gaussian convolution)，直接将检测结果转化为人群密度图，然后 QualityNet引入注意力模块，自动判别人群密集程度，并根据判别结果自适应地调整检测和回归这 2 种方法的权重，再根据这个权重将这 2 种密度图进行融合，以此获取更好的最优解。

[11] Liu Jiang, Gao Chenqiang, Meng Deyu, et al. Decidenet: Counting varying density crowds through attention guided detection and density estimation [C] // Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 5197-5206

多列计数网络发展到这里，出现的问题是：

（1）多尺度表达的性能通常依赖于网络分支的数量，即尺度的多样性受限于分支数目；
（2）已有工作大多采用欧氏距离作为损失函数，如果像素之间互相独立，生成的密度图比较模糊。

因此，Cao 等人[12]提出了一种尺度聚合网络（scale aggregation network， SANet），其结构如图 9 所示。该模型没有采用 MCNN 的多列网络结构，而是借鉴了 Inception[13]的架构思想，在每个卷积层同时使用不同大小的卷积核提取不同尺度的特征，最后通过反卷积生成高分辨率的密度图.整个模型由FME（ feature map encoder）和 DME（ density map estimator）这 2 个部分组成， FME 聚合提取出多尺度特征， DME 融合特征生成高分辨率的密度图。度量预测的密度图与 ground-truth 的相似度时，采用SSIM （图像质量评估中的结构相似性指标，2004年提出）计算局部一致性损失，然后对欧氏损失和局部一致性损失进行加权得到总损失。

[12] Cao Xinkun, Wang Zhipeng, Zhao Yanyun, et al. Scale aggregation network for accurate and efficient crowd counting [G] // LNCS 11209: Proc of the 15th European Conf on Computer Vision. Berlin: Springer, 2018: 734-750

[13] Szegedy C, Liu Wei, Jia Yangqing, et al. Going deeper with convolutions [C] // Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 1-9

发展到这里，人们开始关注加入注意力机制来解决多尺度问题：

Mohammad 等人[14]首次将注意力机制引入人群计数领域，提出了多分支的尺度感知注意力网络（ scale-aware attention network，SAAN），其结构如图 10 所示。该网络由 4 个模块组成，其中多尺度特征提取器（ multi-scale feature extractor, MFE）负责从输入图像中提取多尺度特征图。受到 MCNN[25]启发， MFE 被设计成包含 3 个分支的多列网络，每个分支的感受野大小不同，可以捕获不同尺度的特征；为了获得图像的全局密度信息，与MFE 中 3 个不同尺度的分支相对应，定义了 3 个全局密度等级，然后利用全局尺度注意力（global scale attentions, GSA）模块负责提取输入图像的全局上下文信息，计算 3 个全局密度等级对应的评分，并对这3 个分值进行归一化。局部尺度注意力（local scale attention, LSA）负责提取图像不同位置的细粒度局部上下文信息，并生成 3 张像素级的注意力图，用于描述局部尺度信息；最后，根据全局和局部的尺度信息对 MFE 提取的特征图进行加权，然后将加权后的特征图输入融合网络(fusion network, FN)生成最终的密度图。

[14] Hossain M, Hosseinzadeh M, Chanda O, et al. Crowd counting using scale-aware attention networks [C] // Proc of the IEEE Winter Conf on Applications of Computer Vision. Piscataway, NJ: IEEE, 2019: 1280-1288

c 特殊结构

多分支结构的缺点：

网络模型参数繁多、训练困难，导致计数实时性较差
多分支网络的结构冗余度较高。
多分支计数网络原本是想通过不同的分支采用大小不等的感受野来提取不同尺度的特征，增强特征的适用性和鲁棒性。但研究表明，不同分支学习到的特征相似度很高，并没有因为场景密集程度不同而出现明显差异。

所以，发展到这里人们开始思考构建一些新型的网络架构，例如空洞卷积网络(dilated convolutional networks)[15]、可形变卷积网络(deformable convolutional network)[16]、 GAN等。

[15] Yu F, Koltun V. Multi-scale context aggregation by dilated convolutions [EB/OL]. (2016-04-30)[2020-12-23]. https://arxiv.org/abs/1511.07122

[16] Dai Jifeng, Qi Haozhi, Xiong Yuwen, et al. Deformable convolutional networks [C] // Proc of the IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2017: 764-773

2018 年， Li 等人[17]提出了一种适用于密集人群计数的空洞卷积神经网络模型 CSRNet，其网络结构如图 11 所示。
空洞卷积可以在保持分辨率的同时扩大感受野的优势，保留更多的图像细节信息。

[17] Li Yuhong, Zhang Xiaofan, Chen Deming. CSRNET: Dilated convolutional neural networks for understanding the highly congested scenes [C] // Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 1091-1100

一种基于 GAN 的跨尺度人群计数网络[18]（adversarial cross-scale consistency pursuit network， ACSCP），其结构如图 12 所示，对抗损失的引入使得生成的密度图更加尖锐， U-net 结构的生成器保证了密度图的高分辨率，同时跨尺度一致性正则子约束了图像间的跨尺度误差。因此，该模型最终能生成质量好、分辨率高的人群分布密度图。

[18] Shen Zan, Xu Yi, Ni Bingbing, et al. Crowd counting via adversarial cross-scale consistency pursuit [C] // Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 5245-5254

为了解决背景噪声、遮挡和不一致的人群分布问题，Liu 等人[19]提出了一种融合了注意力机制的可形变卷积网络 ADCrowdNet用于人群计数。如图 13 所示，该网络模型主要由 2 个部分串联而成，其中注意力图生成器（attention map generator， AMG)用于检测人群候选区域，并估计这些区域的拥挤程度，密度图估计器（ density map estimator， DME) 是一个多尺度可形变卷积网络，用于生成高质量的密度图。由于加入了注意力，可形变卷积添加了方向参数，卷积核在注意力指导下在特征图上延伸，可以对不同形状的人群分布进行建模，很好地适应真实场景中摄像机视角失真和人群分布多样性导致的畸变，保证了拥挤场景中人群密度图的准确性。

注意力图生成器 AMG 的网络结构如图 14 所示，采用了 VGG-16 网络前 10 个卷积层作为前端(front end)，用来提取图像的底层特征，后端(back end)架构类似 Inception 结构，采用多个空洞率不同的空洞卷积层扩大感受野，应对不同尺度的人群分布.后端输出 2 通道的特征图，分别代表前景（人群）和背景.然后，通过对特征图取全局平均池化获得相应的权重，再对其结果用softmax进行分类获取概率.最后，对特征图和概率进行点乘获得注意力图。

密度图估计器 DME 的网络结构如图 15 所示，前端依然使用 VGG-16，后端架构依然类似 inception 结构，但是采用了更适合拥挤嘈杂场景的多尺度可形变卷积，以适应人群分布的几何形变。

[19] Liu Ning, Long Yongchao, Zou Changqing, et al. ADCrowdNet: An attention-injective deformable convolutional network for crowd understanding [C] // Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2019: 3225-3234

3. 损失函数

3.1 欧式距离

优点：简单、训练速度快，计数效果较好，早期得到了较为广泛的应用。

缺点：鲁棒性较差，很容易因为个别像素点的极端情况而影响整体的计数效果。此外，欧氏距离损失是取所有像素点的平均，并不关注图片的结构化信息。对于同一张图片，容易出现人群密集区域预测值偏小，而人群稀疏区域预测值偏大的问题，但是最终的平均结果却没有体现这些问题，从而导致生成的密度图模糊、细节不清晰。

3.2 结构相似性损失（SSIM）

这个指标是在图像质量评价相关论文中由Wang 等人提出的图像质量评价标准，SSIM 从图像的亮度、对比度和结构这 3 个方面度量图像相似性，并通过均值、方差、协方差 3 个局部统计量计算2张图像之间的相似度。SSIM的取值范围在-1~1之间，SSIM 值越大，说明相似度越高。

3.3 生成对抗损失

GAN为解决图像转换问题提供了一个可行的思路，即可以通过生成网络和判别网络的不断博弈，进而使生成网络学习人群密度分布，生成密度图的质量逐渐趋好；判别网络也通过不断训练，提高本身的判别能力。

4. 密度图生成

高质量密度图是人群计数算法成功的基础和关键， ground-truth 的生成方法将是人群计数领域未来的一个研究重点。为了训练计数网络，需要对人群图片中的目标进行标注，常见的做法是为图片中的每个人头标注中心坐标，然后再利用高斯核将坐标图转化为 ground-truth人群密度图，ground-truth 密度图生成的关键在于如何选择高斯核，设置不同的高斯核对网络性能的影响很大，以下介绍几种常用的高斯核设置方法。

4.1 几何自适应法

由于存在透视效应，在人群图片中远近景目标的尺寸差异较大，不同位置人头对应着不同大小的像素区域.因此要想生成更精确的人群密度图，就需要考
虑透视畸变的影响，大人头应采用大尺寸高斯核，小人头则正好相反。

MCNN认为在拥挤的场景中，头部大小通常与相邻 2 个人中心点的距离有关。因此根据每个人与其k个邻居的平均距离来自适应地确定每个人的头部尺寸，也就是高斯卷积核的方差，然后将所有人头卷积后的结果进行累加，生成人群密度图。这种方法虽然考虑了多尺度差异，但是对于近处目标来说，人头间距远大于人头的实际尺寸，导致高斯核尺寸过大，近处人群的密度图会因为值过小而消失。如图 16 所示，密度图中只能看到远处有人群，而近处的人群极不明显。

4.2 固定高斯核法

该方法忽略了人头尺寸差异，以及自身与邻居的相似性，无论图片中哪个位置的人头均采用方差大小固定的高斯核对每个人头进行高斯模糊，采用固定高斯核的算法有 CP-CNN[36]，其生成的 ground-truth 密度图如图 17 所示.固定高斯核法解决了几何自适应法中的近处人头消失的问题，但是由于高斯核大小固定，对于远处人头来说，高斯核尺寸可能过大，使得远处人头出现重叠，降低了密度图质量。

4.3 内容感知标注法

为解决上述 2 种方法存在的问题， Oghaz 等人[66]提出了一种通过内容感知标注技术生成密度图的方法。首先，用暴力最近邻（brute-force nearest neighbor）算法 定位最近的头部 ，再用 无监督分割算法Chan-Vese 分割出头部区域，然后依据邻居头部的大小计算高斯核尺寸，其生成的密度图如图 18 所示。该方法也是根据邻居情况灵活确定高斯核大小，但是与几何自适应法相比，它采用 brute-force 最近邻算法替代 k-d 树空间划分法 (k-d tree space partitioning approach)来寻找最近邻，这样能确保寻找结果与实际相符。

5. 评价指标

在人群计数领域，常用的评价指标有：

均方误差（mean squared error）
平均绝对误差（mean absolute error）
均方根误差(root mean squared error)

MAE 可以反映模型的准确性，而 MSE 和 RMSE可以反映模型的鲁棒性。

6. 总结

1、对于目标计数方向，采集图像非常困难，且无法实现准确标注，此时可以考虑通过人工合成的方法生成图片，例如 GCC[20]通过生成对抗网络人工合成了大量图片，为构建数据集提供了新思路。
2、不同场景下(光照、天气、遮挡)的人群计数问题研究
3、人群计数的迁移学习

[20] Wang Qi, Gao Junyu, Lin Wei, et al. Learning from synthetic data for crowd counting in the wild [C] // Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2019: 8198-8207

参考文献：余鹰，朱慧琳，钱进，潘诚，苗夺谦．基于深度学习的人群计数研究综述．计算机研究与发展.

中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python 实战人工智能数学基础：推荐系统应用 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.背景介绍2.核心概念与联系2.1用户画像2.2相似性计算2.2.1基于物品的相似度2.2.2基于用户的相似度2.3协同过滤算法2.3.1基于用户的协同过滤算法2.3.2基于物品的协同过滤算法2.3.3基于上下文的协同过滤算法3.核心算法原理和具体操作步骤以及数学模型公式详细讲解3.1基于用户的协同过滤算法3.2基于物品的协同过滤算法3.3混合协同过滤算法3.
Python桌面应用开发的未来——智能化工具与大模型赋能 IronwoodStag78
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！标题：Python桌面应用开发的未来——智能化工具与大模型赋能随着人工智能技术的飞速发展，传统软件开发模式正在被重新定义。Python作为一门功能强大且灵活的语言，在桌面应用开发领域一直占据重要地位。然而，面对日益复杂的用户需求和快速变化的技术环境，如何提升开发效率、降低开发门槛，成为开发者亟需解决的问题
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI产品经理需要了解的算法知识 AI劳模人工智能产品经理 AI产品经理 AI产品经理入门零基础入门产品经理算法语言模型
1、自然语言生成（NLG）自然语言生成（NaturalLanguageGeneration，简称NLG）是一种人工智能技术，它的目标是将计算机的数据、逻辑或算法产生的信息转换成人类可读的自然语言文本。换句话说，NLG能让机器“学会”写文章、报告、故事或者其他任何形式的文字，就像人类作家那样。这项技术使得机器能够理解复杂的数据并将其转化为易于理解的语言，以适应不同的受众和情境。应用实例：金融报告自动
【Python】OpenAI API 宅男很神经 python 开发语言
【Python与OpenAIAPI深度探索：从基础到未来】第一章：OpenAIAPI概览与核心概念1.1OpenAIAPI是什么？能做什么？OpenAIAPI(ApplicationProgrammingInterface，应用程序编程接口)是一套允许开发者通过编程方式访问和使用OpenAI开发的各种先进人工智能模型的服务。这些模型经过海量数据的训练，能够在多种任务上达到甚至超越人类水平。通过AP
Python：操作 Word 对齐方式 Thomas Kant Python python word c#
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】Python：操作Word对齐方式详解（左对齐/右对齐/居中/两端对齐）在日常办公自动化中，我们经常需要对Word文档中的段落设置对齐方式，如左对齐、右对齐、居中、两端对齐等。本文将带你使用python-docx库
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
TestCafe ➜ Playwright fixture 架构迁移指南 Thomas Kant 自动化测试 playwright testcafe typescript 测试架构
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】
医疗金融预测与语音识别中的模型优化及可解释性技术突破智能计算研究中心其他
内容概要随着人工智能技术的纵深发展，模型优化与可解释性技术正在重塑医疗诊断、金融预测及语音识别领域的应用范式。在医疗领域，基于自适应学习的动态参数调整机制，结合迁移学习的跨场景知识复用，显著提升了疾病筛查模型的泛化能力；而金融预测场景中，联邦学习框架通过分布式数据协作，在保障隐私安全的前提下，实现了风险预测模型的多维度优化。语音识别领域则依托边缘计算架构，将模型压缩技术与实时推理引擎结合，有效解决
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
【大模型与机器学习解惑】什么是A/B测试，为何进行A/B测试？
以下内容将围绕机器学习中的A/B测试展开，从概念与背景到实施细节、示例代码、优化思路和未来建议，并在最后给出一个整体的“输出目录”供参考。目录什么是机器学习的A/B测试为何要进行A/B测试A/B测试的实施流程示例代码与详细解释优化方向与未来建议结语1.什么是机器学习的A/B测试A/B测试（也常被称作对照试验、SplitTest）最早多用于互联网产品的功能或界面迭代中，指的是将用户或样本随机分为两组
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
【深度学习实战】当前三个最佳图像分类模型的代码详解云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习人工智能分类模型机器学习 Transformer EfficientNet ConvNeXt
下面给出三个在当前图像分类任务中精度表现突出的模型示例，分别基于SwinTransformer、EfficientNet与ConvNeXt。每个模型均包含：训练代码（使用PyTorch）从预训练权重开始微调（也可注释掉预训练选项，从头训练）数据集目录结构：└──dataset_root├──buy#第一类图像└──nobuy#第二类图像随机拆分：80%训练，20%验证每个Epoch输出一次loss
第35周—————糖尿病预测模型优化探索
目录目录前言1.检查GPU2.查看数据编辑3.划分数据集4.创建模型与编译训练5.编译及训练模型6.结果可视化7.总结前言本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.检查GPUimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvision,torch#设置硬件设备，如果有GPU则使用，没有则使用cpudevice=
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p

基于图像的人群计数研究（论文阅读笔记）