南京比高IT

小目标检测综述

1.小目标检测算法的一般流程

传统小目标检测算法流程	现有的小目标检测算法流程
1.输入待检测图片对象，首先对待检测图片进行候选框提取。	1.输入图像，开始训练，首先进行数据预处理（可采用图片翻转、图片缩放，CutOut、CutMix、MixUp、Moasaic等处理手段）
2.采用一些经典的模式识别中的算法（基于颜色、基于纹理、基于形状等语义特征的方法）进行特征提取	2.检测网络。包含基础骨干（卷积网络、转换器网络）、特征融合（金字塔结构、编解码结构）、初始化（锚点、角点、查询）、预测（分类、回归、中心度）等四个过程。
3.对特征提取中得到的特征进行分类判定。 (1) 对于单类别的目标检测只需要区分当前的窗口所覆盖的对象是背景还是目标。 (2)对于多类别的目标检测还需要进一步确定当前窗口覆盖的对象的类别。	3.进行标签匹配与损失计算。其中标签匹配包含交并比匹配、距离匹配、似然估计匹配、二分匹配；损失计算包含交叉熵损失、Focal损失等。上述是训练过程，检测过程在训练过程的下一页。
4.采取NMS（非极大值抑郁，局部最大搜索）对候选框进行合并，处理掉候选框可能重叠的状况。（如果是多类别的目标检测则需要进行这一步。）

传统小目标检测的一般流程图:

现有小目标检测算法的训练流程图:

现有小目标算法的测试流程图

2.常用目标检测数据集

数据集名称	数据集描述	参与过的实验
PASCALOVOC	VOC数据集时目标检测常用数据集，包含了约10000张带有边界框的图片用于训练和验证，包含了20个类别，由于类别仅20个，因此被视为目标检测的一个基准数据集	Decetion Person Layout Classifiction等
MSCOCO	大型的、丰富的物体检测，分割和字幕数据集，对于目标检测任务，每年大赛的训练和验证集柏寒120000张图片，超过40000张测试图片，覆盖91类目标。	YoloV3 YoloV5 实例分割算法性能验证等
ImageNet数据集	目前世界上图像识别最大的数据库，大约1500万张图片，2.2万类，每一周都经过严格的人工筛选和标记。ImageNet类似于图片所有引擎。	计算机视觉系统识别项目、YOLOV3等、SSD等
AL-TOD航空图像数据集	AL-TOD在28036张航拍图像中包含8个类别的700621个对象实例。包含8个类别的700621个对象实例，AL-TOD中目标的平均大小为12.8像素，远小于其他数据集。	Fster-RCNN `YOLOV3 M-CenterNet等
TinyPerson数据集	在TinyPerson有1610个标记图像和759个未标记图像，本数据集是第一个远距离和大背景下进行人员检测的基准，为极小目标检测开辟了一个新的前景方向。	RetinaNet、FCOS以及二阶段目标检测等算法。
Deepscores数据集	DeepScores数据集的目标是推进小物体识别的最新技术，并将物体识别问题置于场景理解的背景下。	道路车辆异常检测，检测视频流中的异常。
ALTEX数据集	该数据库由七个不同织物结构的245张4096*256像素图像组成。主要用于工业生产和质量检测，偏向于工业领域使用。	工业纺织生产检测 RCNN等
Labelme图像数据集	Labelme Dataset是用于目标识别的图像数据集，涵盖1000多个完全注释和2000个部分注释的图像，测试集拥有来自世界不同地方拍摄的图像，可以保证图片在续联和测试之间会有较大的差异	深度学习图像分割应用、制作图像语义分析数据集等
EuroCity Persons数据集	该数据集主要为城市交通场景，包含大量种类繁多，准确且详细的目标，该数据集比以前用于基准测试的数据集几乎大了一个数量级，其覆盖种类多，细节香精，将城市交通中的人员注释提升到了一个新的水平。	YOLOV3，交通路口车辆车牌识别、YOLOV4等
Penn-Fudan行人检测与分割数据集	该数据集由Wang等提出的一个图像数据库，由用于行人检测的图像组成。该图像数据库中包含170张取自校园周围和城市街道场景的图片，其中图片来源于几个大学，且每张图片至少有一个行人。	行人检测、图像分割等。
DOTA数据集	该数据集用于航空图像中目标检测的大型数据集，包含了各种尺度、方向、形状的对象，完全注释的DOTA图像包含188282个实例。	RCNN、SSD、CVPR21小目标检测。

3.小目标检测算法的历史流程

算法名称	出现时间	相关论文及链接
VJ(Viola-Jones)	2001	Viola-Jones Face Detector - University of California, Irvine [13-ViolaJones (usc.edu)] 论文链接: 13-ViolaJones (usc.edu)
HOG DET	2006	Histograms of Oriented Gradients for Human Detection [CVPR05_DalalTriggs.pdf (stanford.edu)] 论文链接: CVPR05_DalalTriggs.pdf (stanford.edu)
DPM	2008	Histograms of Oriented Gradients for Human Detection [CVPR05_DalalTriggs.pdf (stanford.edu)] 论文链接: CVPR05_DalalTriggs.pdf (stanford.edu)
Overfeat	2013	OverFeat:Integrated Recognition, Localization and Detection using Convolutional Network [1312.6229.pdf (arxiv.org)] 论文链接:1312.6229.pdf (arxiv.org)
RCNN	2014	Rich feature hierarchies for accurate object detection and semantic segmentation [https://arxiv.org/pdf/1311.2524v3.pdf] 论文链接:https://arxiv.org/pdf/1311.2524v3.pdf
SPPNet	2014	Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition [Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition \| IEEE Journals & Magazine \| IEEE Xplore] 论文链接:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition \| IEEE Journals & Magazine \| IEEE Xplore
Fast-RCNN	2015	Fast R-CNN [1504.08083.pdf (arxiv.org)] 论文链接:1504.08083.pdf (arxiv.org)
Faster-RCNN	2015	Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks [https://arxiv.org/pdf/1506.01497.pdf] 论文链接:https://arxiv.org/pdf/1506.01497.pdf
YOLO	2016	You Only Look Once: Unified, Real-Time Object Detection [1506.02640] You Only Look Once: Unified, Real-Time Object Detection (arxiv.org)] 论文链接: [1506.02640] You Only Look Once: Unified, Real-Time Object Detection (arxiv.org)
SSD	2016	SSD: Single Shot MultiBox Detector [[1512.02325v5] SSD: Single Shot MultiBox Detector (arxiv.org)] 论文链接:[1512.02325v5] SSD: Single Shot MultiBox Detector (arxiv.org)

算法名称	出现时间	相关论文及链接
YOLOv2	2017	YOLO9000: Better, Faster, Stronger [https://arxiv.org/abs/1612.08242] 论文链接: https://arxiv.org/abs/1612.08242
MASKRCNN	2017	Mask R-CNN 论文链接: https://arxiv.org/pdf/1703.06870.pdf
FPN	2017	Feature Pyramid Networks for Object Detection 论文链接: [1612.03144] Feature Pyramid Networks for Object Detection (arxiv.org)
Retina Net	2017	Focal Loss for Dense Object Detection 论文链接: https://arxiv.org/pdf/1708.02002.pdf
YoloV3	2018	YOLOv3: An Incremental Improvement 论文链接: [1804.02767] YOLOv3: An Incremental Improvement (arxiv.org)
Cascade RCNN	2018	Cascade R-CNN: Delving into High Quality Object Detection 论文链接: [1712.00726] Cascade R-CNN: Delving into High Quality Object Detection (arxiv.org)
Libra RCNN	2019	Libra R-CNN: Towards Balanced Learning for Object Detection 论文链接: https://arxiv.org/pdf/1904.02701.pdf
Grid RCNN	2019	Grid R-CNN 论文链接: [1811.12030] Grid R-CNN (arxiv.org)
YoloV4	2020	YOLOv4: Optimal Speed and Accuracy of Object Detection 论文链接: [2004.10934] YOLOv4: Optimal Speed and Accuracy of Object Detection (arxiv.org)
YoloV5	2020	TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head for Object Detection on Drone-captured Scenarios 论文链接: TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head for Object Detection on Drone-Captured Scenarios (thecvf.com)

4.小目标检测算法实验

实验方法	实验描述	应用案例
消融实验	控制一个条件/参数不变，分析出哪个条件/参数对结果的影响。	[1] Peng S , Jiang W , Pi H , et al. Deep Snake for Real-Time Instance Segmentation[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2020. Girshick, R., Donahue, J., Darrell, T. and Malik, J., 2014. 《Rich feature hierarchies for accurate object detection and semantic segmentation》. In Proceedings of the IEEE conference on computer vision and pattern recognition
定性分析实验	运用演绎和归纳，以信息来研究小目标检测，从而获取资料。在自然条件下通过类比推理，通过模型来间接研究原型的一种形容方法，以实现新的小目标研究。	[1]刘洪江, 王懋, 刘丽华,等. 基于深度学习的小目标检测综述[J]. 计算机工程与科学, 2021.
定量分析实验	依据统计数据，建立相应的数学模型，并用数学模型计算出研究对象的各项指标及数值，为结论的总结和推理提供了帮助。	[1]高宗, 李少波, 陈济楠,等. 基于YOLO网络的行人检测方法[J]. 计算机工程, 2018, 44(5):6.
经典算法对比	将一个算法得到的实验结果和其他经典算法实验得到的结果相比较得出结论	[1] Redmon J , Farhadi A . YOLOv3: An Incremental Improvement[J]. arXiv e-prints, 2018.
文献研究	根据一定的研究目的或课题，通过调查文献来获取资料，从而全面地、正确地了解掌握掌握所要研究问题的一种方法。	[1]梁鸿,王庆玮,张千,李传秀. "小目标检测技术研究综述." 计算机工程与应用 17-28(2021).
跨学科研究	运用数学、自然科学等理论、方法和成果从整体上来进行综合研究小目标检测。	[1]李红艳, 吴成柯. 一种基于小波与遗传算法的小目标检测算法[J]. 电子学报, 2001, 29(004):439-442.
数据可视化	通过对部分数据进行可视化，运用观察法，通过自己的感官和辅助工具直接观察被研究对象，从而获取相关结论，这在现有的研究中被经常大量使用。	[1] Wang X , Shrivastava A , Gupta A . A-Fast-RCNN: Hard Positive Generation via Adversary for Object Detection[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017.
思维方法	在小目标检测领域中，这一领域内专家运用思维方法来提出了准确的思想表达。它对于一切科学研究都有普遍的指导意义。	[1] Ren S , He K , Girshick R , et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6):1137-1149.
在多个数据集上实验。	通过一个算法在多个数据集上进行实验来综合评估该算法的性能和缺点等属性。	[1] Purkait P , Zhao C , Zach C . SPP-Net: Deep Absolute Pose Regression with Synthetic Views[J]. 2017.
研究对象所耗费的代价统计	对研究对象进行的实验中的代价比较，对研究对象进行可行性与有效性等属性进行评估和归纳。	[1] Purkait P , Zhao C , Zach C . SPP-Net: Deep Absolute Pose Regression with Synthetic Views[J]. 2017.

实验方法

实验描述

应用案例

数据集的5%、10%、15%、20%、30%的选择

通过对数据集的不同划分，基于数据集的不同划分可以测得算法的鲁棒性和更加可靠的准确率，对算法具有非常大多评估价值。

[1] Girshick, R. . "Fast R-CNN." Computer Science (2015).

[1] Redmon, J. , and A. Farhadi . "YOLOv3: An Incremental Improvement." arXiv e-prints (2018).

5.经典算法的比较

算法名称	算法优点	算法缺陷
SPP-Net	1.提出了SPP层(空间金字塔池化层），使得输入的候选框可大可小，解决了R-CNN区域候选时vrop/warp带来的偏差问题。 2.达到了CNN层的共享计算，减少了运算时间.	1.训练速度慢，效率低，特征需要写入磁盘. 2.分阶段训练网络:选取候选区域训练CNN、训练SVM、训练BBOX回归器。
RCNN	1.从DPM HSC的34.3%直接提升到66%(mAP) 2.引入了RP+CNN	1.训练步骤繁琐（微调网络+训练SVM+训练bbox） 2.训练、测试均速度慢 3.训练占空间
SSD	1.相比于Fast RCNN系列，删除了bounding box proposal这一步，及后续的重采样步骤，速度较快，达到了59FPS 2.SSD提取不同尺度的特征图来做检测，前面的大尺度用于检测小目标，后面的小尺度特征图用于检测大目标，采取VGG16作为基础模型。	对小尺度的目标识别仍比较差，还达不到Faster R-CNN的水准。
YOLOV3	1.推理速度快 2.性价比高 3.通用性强	1.召回率高，定位精度较差 2.对于靠近或者遮挡的群体、小物体的检测能力相对较弱。
FAST-RCNN	1.准确率提高到了70% 2.每张图片耗时约3s	1.依旧用SS提取RP（耗时2-3s，特征提取约0.32s） 2.无法满足实时应用，没有真正实现端到端训练测试 3.利用GPU，但是候选区域提取方法是在CPU上实现。
FASTER-RCNN	1.提取了检测精度和速度 2.真正实现端到端的目标检测框架 3.生成建议框仅需10ms	1.无法达到实现实时检测目标 2.获取regio proposal，再对每个proposal分类计算量比较大
YOLOV4	1.YOLO V4使用了多种数据增强技术的组合，作者混合CUTMix与Mosaic技术，同时使用了Self-Adversariar Training(SAT)来进行数据增强。 2.采用了CSPNet网络结构，用Concat代替Add，提取到了更加丰富的特征。 3.提出了高效而强大的目标检测模型.在训练期间，验证了SOTA的Bag-of Freebies和Bag-of-Specials的影响。	缺少自适应锚框。
YOLOV5	1.采用了Anchor采样策略，增加了正样本数量、加速网络收敛、减小边框wh参数回归的难度，充分挖掘了质量较低的回归潜力。 2.基于缩放、色彩空间调整和马赛克增强进行了数据增强。	一部分正样本质量不高，置信度预测偏低，对宽高比极端的物体效果极差。

6.小目标检测面临的挑战

存在的挑战	困难描述
小目标就利用特征少	从基于绝对尺度和相对尺度来说，小目标相当于大/中尺度尺寸目标都存在分辨率低，而低分辨率的小目标可视化信息少，难以提取到具有鉴别力的特征，且再加上小目标极易受到环境因素的干扰，导致了训练出来的检测模型难以精准定位和识·识别小目标。
小目标定位精度要求高	在图像中小目标所占面积小，其边界框的定位相对于大、中尺度尺寸目标i具有更大的挑战性。在预测过程中，只要预测边界框偏移一个像素点，对小目标的误差影响远高于大/中尺度目标。目前，基于锚框的检测器占据了绝大多数，在训练过程中，匹配小目标的锚框数量远低于大/中尺度目标。
目前存在的数据集中小目标占比少	在目前的目标检测领域中，现有的数据集大多针对于大、中尺度尺寸目标。较少关注小目标。小目标不易标注，标全难度大。小目标对于标注误差更为敏感，而现有的大规模的通用小目标数据集处于缺乏状态，现有的算法因为没有足够的先验信息学习，导致了小目标检测性能不足。
样本不均衡	由于现有的定位方法中大多是预先在图片的每一个位置生成一系列的锚框。而在训练过程中，通过设置固定的阈值判断锚框属于正样本还是负样本，导致了模型训练过程中不同尺寸目标的正样本不均衡问题。当人工设定的锚框与小目标的真实边界框差异较大时，小目标的训练正样本将远远小于大/中尺度目标的正样本，导致了训练模型更加关注于大/中尺度目标的检测，从而忽略了小目标的检测。
小目标容易聚集	相对于大/中尺度目标，小目标有更大概率产生聚集现象。当小目标聚集出现时，聚集区域相邻的小目标经过多次采样后，反应到深层特征图上将聚合成一个点，导致模型无法区分。聚集区域的小目标之间边界距离过近，还将导致边界框难以回归，模型难以收敛。如果存在同类的小目标密集出现时，预测的边界框还可能会因后处理的非极大值抑制操作将大量正确预测的边界框过滤，从而造成漏检情况。
网络结构问题	现有的网络依旧是基于锚框的检测器占据主要位置，而锚框对小目标极不友好，在现有的网络训练过程中，小目标由于训练样本比较少，对损失函数的贡献少，进一步减弱了网络对于小目标的学习能力。

7.小目标检测算法评价指标

评价指标	计算方法	功能
交互比-IOU	IOU=(area of overlap)/ (area of union)	IOU是计算不同图像相互重叠比例的算法，在目标检测中，一次性生成大量的候选框，再根据每一个候选框的置信度进行排序，计算框与框之间的IoU，最后根据非极大值预测来寻找真正感兴趣的目标。
准确率、精度、召回率/FPR、f1指标	Tp:被正确分类的对象的数量 FP:对不存在的东西做了错的预测或者预测的IOU小于预设阈值 FN：漏检测 TN:由于TN有无数个，所以TN不考虑。 p=TP/(TP+FP)=TP/all detections (p为精度) recall=TP/(TP+FN)=TP/all ground truths (recall为召回率) FPR=FP/(FP+FN)（FPR即为召回率） F1=2TP/(2TP+FP+FN）	在目标检测算法中，要评估算法的准确率和鲁棒性、查全率等，算法的准确率、精度、召回率以及FPR都是需要计算出来作为重要参考的，f1指标更是基于TP、FP、FN三者的综合考虑指标。
PR曲线-AP值	PR曲线是以precision为纵坐标，recall为横坐标的曲线，AP是曲线所围成的面积，综合考量了recall和precision的影响。	PR曲线综合考量了recall和precision的影响，而AP则是PR围成的面积，在算法检测过程中，需要综合考虑recall和precision两者的影响，所以PR可以作为评价指标。
mAP-平均精度均值	如果是多类别目标检测任务，则需要使用mean AP,定义公式如下: mAP=(1/N)*=1i∑_(i=1)^N▒APi	mAP指不同召回率下最大精度的平均值，具有可靠的参考性，能够较好地反映算法的性能。

FPS	每秒内可以处理的图片数量，这是一个速度指标。	在算法历程中，算法的时间复杂度不可忽略，FPS是一个速度指标，通过计算每秒内可以处理的图片数量，反应出算法十的时间性能
非极大值抑制（NMS）	单个预测目标的NMS计算: 1.计算出每一个bounding box的面积，然后根据置信度进行排序，把置信度最大的bounding box作为队列中首个比较的对象。 2.计算其余bounding box与当前最大的score的IoU,，去除IoU大于设定阈值的bounding box，保留小的IoU预测框。 3.再重复上面的过程，直到候选bounding box为空。多个预测目标的NMS计算: 当存在多目标预测时，先选取置信度最大的候选框B1，然后根据IoU阈值来去除B1候选框周围的框，再选取置信度第二大的候选框B2，再根据IOU阈值去除B2候选框周围的框。	非极大值抑制是不可缺少的评价指标，它是用来找到预测目标，由于目标检测存在多个框，而准确的锚框很少，通过NMS后，可以减少重复的锚框，提高小目标算法的速度性能和锚框的准确性。所以该指标在小目标检测算法中十分重要。
F1-measure	F1=2*PR/(P+R)	综合了P和R的影响，F1越大，实验方法比较理想。
ROC和AUC	ROC的横坐标是FPR，而纵坐标是TRP,AUC是ROC曲线下的面积	ROC指标综合了FPR和TPR二者的影响，AUC可以侧面反映该模型的性能，AUC越大模型越好。二者可作为评价指标综合评价。

上述内容来自于个人PPT，需要可在作者的资源中下载或者私聊获取，小可爱可以点个赞吗。

你可能感兴趣的:(计算机视觉,大数据)

霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？架构师李肯嵌入式物联网开发进阶 c语言面试性能优化
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？我相信大部分初中级C程序员在面试的过程中，可能都被问过关于memcpy函数的问题，甚至需要手撕memcpy。本文从另一个角度带你领悟一下memcpy的面试题，你可以看看是否能接得住？文章目录1写在前面2源码实现2.1函数申明2.2简单的功能实现2.3满足大数据量拷贝的功能实现3源码测试4小小总结5更多分享1写在前面假如你遇到下面的面试
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
OpenCV图片操作100例：从入门到精通指南（1）总有刁民想爱朕ha opencv 计算机视觉人工智能
OpenCV图片操作100例：从入门到精通指南本文整理了100个OpenCV实用技巧，涵盖图像处理各个领域，助你轻松掌握计算机视觉核心技能！一、入门必备：基础操作1.图像读写与显示importcv2#读取图像（BGR格式）img=cv2.imread('image.jpg')#显示图像cv2.imshow('示例图片',img)cv2.waitKey(0)#按任意键退出cv2.destroyAll
OpenCV图片操作100例：从入门到精通指南（3）总有刁民想爱朕ha opencv 人工智能计算机视觉
高效学习路径：1️⃣分阶段学习：入门：1-20例（基础操作）进阶：21-50例（图像处理）高级：51-100例（计算机视觉）2️⃣项目驱动学习：证件照背景替换（1-15例）停车场车位检测（30-45例）视频运动追踪（70-85例）3️⃣性能优化技巧：#使用UMat加速图像处理umat_img=cv2.UMat(img)processed=cv2.GaussianBlur(umat_img,(5,5
如何通过YashanDB优化企业大数据处理流程数据库
在当今数据驱动的商业环境中，企业面临着巨大的数据处理挑战。性能瓶颈、数据一致性问题和可扩展性需求使得大数据处理成为一项复杂任务。作为一种新兴的数据库管理系统，YashanDB以其独特的架构设计和强大的数据处理能力，在解决这些挑战方面提供了有效的手段。本文旨在探讨如何利用YashanDB优化大数据处理流程，为企业提供高效、可靠的解决方案。YashanDB的体系架构与部署形态YashanDB支持多种部
OpenCV入门到精通：AI视觉处理的完整指南 AI云原生与云计算技术学院人工智能 opencv 计算机视觉 ai
OpenCV入门到精通：AI视觉处理的完整指南关键词：OpenCV、计算机视觉、图像预处理、目标检测、AI视觉应用摘要：本文是一份面向AI视觉爱好者的OpenCV完整学习指南。从OpenCV的核心概念讲起，结合生活案例、代码示例和项目实战，逐步拆解图像读取/显示、灰度化、边缘检测、目标检测等关键技术。无论你是想入门计算机视觉的新手，还是希望用OpenCV解决实际问题的开发者，都能通过本文掌握从理论
CNN 猫狗识别：从理论到实战的深度解析爱熬夜的小古 cnn 深度学习人工智能
在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetwork，CNN）凭借其强大的特征提取和模式识别能力，成为图像分类任务的主流技术。猫狗识别作为经典的图像分类问题，不仅能帮助我们理解CNN的工作原理，还能为实际应用提供技术支持。本文将深入探讨CNN在猫狗识别中的应用，从理论基础到实战代码，带你全面掌握这项技术。一、CNN基础理论概述（一）CNN的核心组件卷积层：是CNN的
OpenCV入门到精通：从基础到实战的全面指南
摘要：本文旨在为初学者和有一定经验的开发者提供OpenCV从入门到精通的全面指南。文章首先介绍了OpenCV的基本概念和安装方法，然后深入讲解了图像处理基础、特征检测与匹配、视频处理与分析等核心内容，最后通过实战案例展示了OpenCV在计算机视觉任务中的应用。关键词：OpenCV；图像处理；特征检测；视频分析；实战案例引言OpenCV（OpenSourceComputerVisionLibrary
Pandas 学习教程 _pass_ Data-Alaysis pandas 信息可视化
目录定义基本操作一维数组操作二维数组操作数据选择过滤数据处理数据清洗数据转换数据分析排序分组聚合数据透视表高级操作合并数据时间序列处理自定义函数调用数据可视化集成数据导出和导入大数据分块处理定义全称：'paneldata'and'pythondataanalysis'Analy:Series(一维数据)、DataFrame(二维数据)主要应用：数据清洗：处理缺失数据、重复数据等数据转换：改变数据的
如何通过YashanDB提升客户体验数据库
如何优化查询速度？这是许多企业在使用数据库技术时常常会遇到的问题。查询速度的快慢直接影响到用户的体验，尤其是在大数据量和高并发的使用场景中。顾客期望迅速获取信息，若响应时间过长，可能导致客户流失。因此，优化数据库的性能成为提升客户体验的关键举措之一。YashanDB作为一种高性能的数据库技术架构，提供了多种优化机制，以提升系统的查询速度和整体处理能力。多种部署架构YashanDB支持多种部署架构，
如何通过YashanDB数据库实现企业级数据分区管理？数据库
在当今大数据时代，企业面临着海量数据的管理和优化访问的问题。如何有效地组织和划分庞大的数据集，以提升查询性能和运维效率，成为数据库系统设计的核心挑战。数据分区技术作为解决大规模数据处理的关键手段，能够显著减少无关数据的访问，优化资源利用率。本文聚焦于YashanDB数据库，详细解析其数据分区管理的实现机制及应用，为企业级应用提供高效、灵活的数据分区解决方案。YashanDB中的数据分区基础Yash
国产开源高性能对象存储RustFS保姆级上手指南光爷不秃对象存储 rust 国产开源软件 rust 云计算开源软件 github 开源数据仓库 database
在云计算与大数据爆发的时代，企业和开发者对存储方案的要求愈发严苛——不仅要能扛住海量数据的读写压力，还得兼顾安全性、可扩展性和兼容性。今天给大家介绍一款基于Rust语言开发的开源分布式对象存储系统——RustFS，它不仅是MinIO的国产化优秀替代方案，更是AI、大数据和云原生场景的理想之选。本文将从基础介绍到实战操作，带大家快速上手这款"优雅的存储解决方案"。一、RustFS核心特性解析Rust
通过YashanDB提升大数据处理能力的指南数据库
数据的急剧增长给数据库技术领域带来了诸多挑战，包括性能瓶颈、数据一致性问题及处理效率低下等。为了应对这些挑战，企业需采取有效的技术手段来提升大数据处理能力。YashanDB作为一款高性能的数据库产品，通过其先进的体系架构、优化的数据存储形式以及强大的并发控制能力，有效地提升了大数据环境下的处理性能。本文旨在为技术人员和决策者提供深入的技术分析和可操作的建议，通过YashanDB的功能特性来实现大数
Java多线程实战指南：从基础到高并发的核心技术解析添砖Java中 java python 开发语言 spring boot spring cloud spring
一、为什么必须掌握多线程？在单核CPU时代，多线程主要用于提高程序响应速度；在如今的多核处理器时代，多线程已成为榨干硬件性能的必备技能。无论是高并发Web服务器、实时数据处理系统，还是游戏引擎，都离不开多线程技术的支撑。典型案例：电商秒杀系统：1秒内处理10万+请求大数据处理：并行计算TB级数据金融交易系统：毫秒级订单撮合二、线程创建的四大核心方式1.继承Thread类（不推荐）classMyTh
3D 可视化技术开启污水治理全新发展阶段广州华锐视点 3d
3D可视化大屏展示技术在污水厂的应用，已然开启了污水处理的全新篇章。它不仅为污水厂解决了当下管理和展示的难题，更如同一座灯塔，照亮了未来污水处理领域的发展道路。随着科技的持续进步，3D可视化大屏展示技术必将迎来更加辉煌的发展。一方面，其与人工智能、大数据、物联网等前沿技术的融合将愈发紧密。借助人工智能算法，大屏系统将具备更强大的自主学习和分析能力，能够根据实时数据和历史经验，自动优化污水处理工艺参
UI前端大数据可视化实战策略：如何设计交互式数据探索界面？ UI前端开发工作室 ui 前端信息可视化
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“被动观看”到“主动探索”的可视化革命传统大数据可视化常陷入“图表堆砌”的困境：企业dashboard上布满折线图、饼图，却难以回答“销售额下降的核心区域是哪里”“用户流失与哪个行为强相关”等深度问题。
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb