不学污术的小Z

COCO数据集人体姿态估计关键点检测评估

本页介绍了COCO使用的关键点评估指标。此处提供的评估代码可用于在公开可用的COCO验证集上获得结果。它计算下面描述的多个指标。为了在COCO测试集上获得结果，其中隐藏了实际真值注释，必须将生成的结果上传到评估服务器。下面描述的评估代码用于评估测试集的结果。

1 Keypoint Detection（关键点检测）json详解

1.1 anns

anns为标注信息，每条标注数据有一个标注Id,anns通过anns[ann['id']] = ann实现某一条标注ann的id映射到该ann。即每个ann有一个唯一的id。

包含所有anno 的字典，有11004个键值对。key是anno的id，value是anno的值，也就是一条标注。

ann={
    "segmentation": RLE or [polygon],  # 分割信息
    "num_keypoints": int,              # 标注的关节点数
    "area": float,                     # 标注区域面积
    "iscrowd": 0 or 1,                 # 是否是单人
    "keypoints": [x1,y1,v1,...],       # 关节点信息，按照(x,y,v)的顺序排列，即坐标为(x,y)，可见性为v; v=0，没有标注；v=1，有标注不可见（被遮挡）；v=2，有标注可见
    "image_id": int,                   # 图片id
    "bbox": [x,y,width,height],        # 图片中人的边框，这里x，y为边框的左上角的坐标
    "category_id": int,                # 类别id，等于1表示人这一类
    "id": int,                         # 对象id（每个对象id都是唯一的，即不能出现重复）
}

注意：
（1）新增的keypoints是一个长度为3*k的数组，其中k是category中keypoints的总数量，为17个。(1-‘nose’ 2-‘left_eye’ 3-‘right_eye’ 4-‘left_ear’ 5-‘right_ear’ 6-‘left_shoulder’ 7-‘right_shoulder’ 8-‘left_elbow’ -‘right_elbow’ 10-‘left_wrist’ 11-‘right_wrist’ 12-‘left_hip’ 13-‘right_hip’ 14-‘left_knee’ 15-‘right_knee’ 16-‘left_ankle’ 17-‘right_ankle’ )

每一个keypoint是一个长度为3的数组，第一和第二个元素分别是x和y坐标值，第三个元素是个标志位v，v为0时表示这个关键点没有标注（这种情况下x=y=v=0），v为1时表示这个关键点标注了但是不可见（被遮挡了），v为2时表示这个关键点标注了同时也可见。

（2）num_keypoints表示这个目标上被标注的关键点的数量（v>0），比较小的目标上可能就无法标注关键点。
ps：
iscrowd=0的时候，表示这是一个单独的物体，轮廓用Polygon(多边形的点)表示，iscrowd=1的时候表示两个没有分开的物体，轮廓用RLE编码表示，比如说一张图片里面有三个人，一个人单独站一边，另外两个搂在一起（标注的时候距离太近分不开了），这个时候，单独的那个人的注释里面的iscrowing=0，segmentation用Polygon表示，而另外两个用放在同一个anatation的数组里面用一个segmention的RLE编码形式表示
补充：
什么是RLE格式：

RLE：Run Length Encoding（行程长度压缩算法）
在机器视觉领域的深度学习中，每个数据集都有一份标注好的数据用于训练神经网络。
为了节省空间，很多数据集的标注文件使用RLE的格式，比如 kaggle 挑战赛的 Airbus Ship Detection Challenge。
但是神经网络的输入一定是一张图片，为此必须把RLE格式的文件转变为图像格式。
RLE用来表示二值图，里面有大量的0和1，所以很多重复，所以可以压缩，比如2*2的图像， [0,0；1,1] ，首先变成一维向量 [0,0,1,1] ,然后RLE标记[2,2]，上面提到的就是先用bbox得到图像位置，然后用RLE来标记，可以看到 is_crowd=1的时候bbox是整数

注意：
iscrowd=0那么segmentation就是polygon格式；只要iscrowd=1那么segmentation就是RLE格式。另外，每个对象（不管是iscrowd=0还是iscrowd=1）都会有一个矩形框bbox，矩形框左上角的坐标和矩形框的长宽会以数组的形式提供，数组第一个元素就是左上角的横坐标值。polygon格式比较简单，这些数按照相邻的顺序两两组成一个点的xy坐标，如果有n个数（必定是偶数），那么就是n/2个点坐标。

ploygon：这是对于单个对象来说的，表示的是多边形轮廓的写x，y坐标，肯定是偶数，如果有n个数，表示有n/2个坐标

RLE：size是图片大小，比如3*3

area是area of encoded masks，是标注区域的面积。如果是矩形框，那就是高乘宽；如果是polygon或者RLE，那就复杂点。
在一个annotation的实例中有两个id，其中image_id指的是这个annotation属于哪一张图片，即前面提到的图片的id，另外一个“id”指的是这个annotation的一个id。

注意： annotation的image_id是不唯一的，代表的是，这个annotation是指向image_id图片的标注，因为图片的标注不止一个，可能有好几个标注。

从person_keypoints_val2017.json文件中摘出一个annotation的实例如下：

"annotations": [{
		"segmentation": [  # 对象的边界点（边界多边形）
			[125.12, 539.69, 140.94, 522.43, 100.67, 496.54, 84.85, 469.21, 73.35, 450.52, 104.99, 342.65, 168.27, 290.88, 179.78, 288, 189.84, 286.56, 191.28, 260.67, 202.79, 240.54, 221.48, 237.66, 248.81, 243.42, 257.44, 256.36, 253.12, 262.11, 253.12, 275.06, 299.15, 233.35, 329.35, 207.46, 355.24, 206.02, 363.87, 206.02, 365.3, 210.34, 373.93, 221.84, 363.87, 226.16, 363.87, 237.66, 350.92, 237.66, 332.22, 234.79, 314.97, 249.17, 271.82, 313.89, 253.12, 326.83, 227.24, 352.72, 214.29, 357.03, 212.85, 372.85, 208.54, 395.87, 228.67, 414.56, 245.93, 421.75, 266.07, 424.63, 276.13, 437.57, 266.07, 450.52, 284.76, 464.9, 286.2, 479.28, 291.96, 489.35, 310.65, 512.36, 284.76, 549.75, 244.49, 522.43, 215.73, 546.88, 199.91, 558.38, 204.22, 565.57, 189.84, 568.45, 184.09, 575.64, 172.58, 578.52, 145.26, 567.01, 117.93, 551.19, 133.75, 532.49]
		],
		"num_keypoints": 10,
		"area": 47803.27955,
		"iscrowd": 0,
		"keypoints": [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 142, 309, 1, 177, 320, 2, 191, 398, 2, 237, 317, 2, 233, 426, 2, 306, 233, 2, 92, 452, 2, 123, 468, 2, 0, 0, 0, 251, 469, 2, 0, 0, 0, 162, 551, 2],
		"image_id": 425226,
		"bbox": [73.35, 206.02, 300.58, 372.5],
		"category_id": 1,
		"id": 183126
	},
	{
	#另一个annotations的信息
	}
	......
	],

1.2 cats

cats为种类信息，每条种类数据有一个种类id，cats通过cats[cat['id']] = cat实现种类cat_id到某条种类数据的映射。即每个种类都是有唯一的id。

包含所有的category的字典，有1个键值对。key是category的id，value是对应category的一些基本信息。对于行人检测的只有一个类来说，这里只有person。

最后，对于每一个category结构体，keypoints是一个长度为k的数组，包含了每个关键点的名字；skeleton定义了各个关键点之间的连接性（比如人的左手腕和左肘就是连接的，但是左手腕和右手腕就不是）。目前，COCO的keypoints只标注了person category （分类为人）。
categories是一个包含多个category实例的列表，而一个category结构体描述如下：

{
    "supercategory": str,    #主类别名    这里仅为person这一类别
    "id": int,               #类对应的id （0 默认为背景）这里仅为1，person类别
    "name": str,             #子类别
    "keypoints": [str],      #每个关键点的名字
    "skeleton": [edge]       #各个关键点之间的连接性
}

从person_keypoints_val2017.json文件中摘出一个category的实例如下：

cat = {'supercategory': 'person', 
        'id': 1, 
        'name': 'person', 
        'keypoints': ['nose', 'left_eye', 'right_eye', 'left_ear', 'right_ear', 'left_shoulder', 
                       'right_shoulder', 'left_elbow', 'right_elbow', 'left_wrist', 'right_wrist', 
                        'left_hip', 'right_hip', 'left_knee', 'right_knee', 'left_ankle', 'right_ankle'], 
        'skeleton': [[16, 14], [14, 12], [17, 15], [15, 13], [12, 13], [6, 12], [7, 13], [6, 7], [6, 8], [7, 9], 
                    [8, 10], [9, 11], [2, 3], [1, 2], [1, 3], [2, 4], [3, 5], [4, 6], [5, 7]]}

1.3 imgs

imgs为图片信息，每条图片数据有一个图片Id，imgs通过imgs[img['id']] = img实现图片img_id映射到img。即每张图片有一个唯一的id。

包含所image的字典，有5000个键值对。key是image_id，value是image的基本信息。

imgs={'license': 3, 
      'file_name': 'COCO_val2017_000000016744.jpg', 
      'coco_url': 'http://mscoco.org/images/16744', 
      'height': 335, 
      'width': 500, 
      'date_captured': '2013-11-20 14:29:03', 
      'flickr_url': 'http://farm3.staticflickr.com/2393/2228750191_11de3ec047_z.jpg', 
      'id': 16744
     },
 ..... 不断的重复 其他相同格式的数据

1.4 imgToAnns

imgToAnns为图片的id，即img_id到图片对应的标注信息的映射，因为一张图片可能有多个标注，故该映射的默认值为list,通过imgToAnns[ann['image_id']].append(ann)实现。即一张图片可以有多个标注。

image和anno的对应关系，imgToAnns有字典有1个键值对，其值为长度为11004的list对象，list中的每个元素都是Img_id，对应每条anns的img_id。key是image_id，value是一个包含了这张图片里所有anno的list。

1.5 catToImgs

catToImgs为种类id到属于该种类的具体图片的映射，因为一个种类可以对应多张图片，即一个类别映射到图片id,所以该映射的默认值为list，通过catToImgs[ann['category_id']].append(ann['image_id'])实现。即一个种类可以有多张图片。

category和image的对应关系，有2693个键值对，每个键为img_id,每个值为一个存放了1至多个ann标注信息的list。key是category，value是一个包含了有这个category的image的image_id。

取coco的几个具体标注例子，简单的代码示例如下：

from collections import defaultdict
anns,cats,imgs = {},{},{}
imgToAnns, catToImgs = defaultdict(list), defaultdict(list)

ann ={'segmentation': [[125.12, 539.69, 140.94, 522.43, 100.67, 496.54, 84.85, 469.21, 73.35, 450.52, 104.99, 342.65, 168.27, 290.88, 179.78, 288, 189.84, 286.56, 191.28, 260.67, 202.79, 240.54, 221.48, 237.66, 248.81, 243.42, 257.44, 256.36, 253.12, 262.11, 253.12, 275.06, 299.15, 233.35, 329.35, 207.46, 355.24, 206.02, 363.87, 206.02, 365.3, 210.34, 373.93, 221.84, 363.87, 226.16, 363.87, 237.66, 350.92, 237.66, 332.22, 234.79, 314.97, 249.17, 271.82, 313.89, 253.12, 326.83, 227.24, 352.72, 214.29, 357.03, 212.85, 372.85, 208.54, 395.87, 228.67, 414.56, 245.93, 421.75, 266.07, 424.63, 276.13, 437.57, 266.07, 450.52, 284.76, 464.9, 286.2, 479.28, 291.96, 489.35, 310.65, 512.36, 284.76, 549.75, 244.49, 522.43, 215.73, 546.88, 199.91, 558.38, 204.22, 565.57, 189.84, 568.45, 184.09, 575.64, 172.58, 578.52, 145.26, 567.01, 117.93, 551.19, 133.75, 532.49]], 'num_keypoints': 10, 'area': 47803.27955, 'iscrowd': 0, 'keypoints': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 142, 309, 1, 177, 320, 2, 191, 398, 2, 237, 317, 2, 233, 426, 2, 306, 233, 2, 92, 452, 2, 123, 468, 2, 0, 0, 0, 251, 469, 2, 0, 0, 0, 162, 551, 2], 'image_id': 425226, 'bbox': [73.35, 206.02, 300.58, 372.5], 'category_id': 1, 'id': 183126}
img = {'license': 2, 'file_name': '000000015335.jpg', 'coco_url': 'http://images.cocodataset.org/val2017/000000015335.jpg', 'height': 480, 'width': 640, 'date_captured': '2013-11-25 14:00:10', 'flickr_url': 'http://farm6.staticflickr.com/5533/10257288534_c916fafd78_z.jpg', 'id': 15335}
cat = {'supercategory': 'person', 'id': 1, 'name': 'person', 'keypoints': ['nose', 'left_eye', 'right_eye', 'left_ear', 'right_ear', 'left_shoulder', 'right_shoulder', 'left_elbow', 'right_elbow', 'left_wrist', 'right_wrist', 'left_hip', 'right_hip', 'left_knee', 'right_knee', 'left_ankle', 'right_ankle'], 'skeleton': [[16, 14], [14, 12], [17, 15], [15, 13], [12, 13], [6, 12], [7, 13], [6, 7], [6, 8], [7, 9], [8, 10], [9, 11], [2, 3], [1, 2], [1, 3], [2, 4], [3, 5], [4, 6], [5, 7]]}

anns[ann['id']] = ann
imgs[img['id']] = img
cats[cat['id']] = cat

imgToAnns[ann['image_id']].append(ann)
catToImgs[ann['category_id']].append(ann['image_id'])

print(anns)
print(imgs)
print(cats)
print(imgToAnns)
print(catToImgs)

以下代码参考cocoapi：

import json
from collections import defaultdict
annotation_file = '../../annotations/instances_val2017.json'
dataset = json.load(open(annotation_file, 'r'))
# print(dataset)

#共有5类映射关系需要保存
anns, cats, imgs = {}, {}, {}
imgToAnns, catToImgs = defaultdict(list), defaultdict(list)

print(dataset.keys())
if 'annotations' in dataset:
    # for ann in dataset['annotations']:
    #第1条标注
    ann = dataset['annotations'][0]
    print(ann)
    print(type(ann))
    for k in ann.keys():
        print(k,ann[k])
    imgToAnns[ann['image_id']].append(ann) #根据image_id映射到对应的标注
    anns[ann['id']] = ann      #根据标注id映射到对应的标注
    print(imgToAnns)
    print(anns)
    print(' ')

if 'images' in dataset:
    # for img in dataset['images']:
    img =  dataset['images'][0]
    print(img)
    print(type(img))
    for k in img.keys():
        print(k,img[k])
    imgs[img['id']] = img #根据image_id映射到对应的图片信息
    print(imgs)
    print(' ')

if 'categories' in dataset:
    # for cat in dataset['categories']:

    cat = dataset['categories'][0]
    print(cat)
    cats[cat['id']] = cat  #根据cat_id映射到对应的cat种类
    print(cats)
    print('  ')

if 'annotations' in dataset and 'categories' in dataset:
    # for ann in dataset['annotations']:
    ann =  dataset['annotations'][0]
    for k in ann.keys():
        print(k,ann[k])
    catToImgs[ann['category_id']].append(ann['image_id']) #根据种类的id映射到对应的图片的id。
    print(catToImgs)

1.6 annotations

包含person_keypoints_train2017.json和person_keypoints_val2017.json两个文件。

格式如下：

info{
	"year"			: int,	# 数据集年份号
	"version"		: str,	# 数据集版本
	"description"	: str,	# 数据集描述
	"contributor"	: str,	# 贡献者
	"url"			: str,	# 数据集官方网址
	"date_created"	: datetime,	# 数据集创建详细时间
}
 
images{
	"id"			: int, 	# 图像id
	"width"			: int, 	# 图像宽度
	"height"		: int, 	# 图像高度
	"file_name"		: str, 	# 图像文件名
	"license"		: int, 	# 许可证
	"flickr_url"	: str, 	# flickr链接
	"coco_url"		: str, 	# coco链接
	"date_captured"	: datetime,	# 拍摄时间
}
 
licenses{
	"id"	        : int,	# license的编号，1-8
	"name"	        : str,	# 许可证名称
	"url"	        : str,	# 许可证网址
}

annotation{	    
    "segmentation"  : RLE or [polygon],  # 分割信息
	"num_keypoints"	: int, 	# v=1，2的关键点的个数，即有标记的关键点个数
    "area"			: float, 	# 面积
    "iscrowd"		: 0 or 1,	# 0时segmentation为polygon，1为REL
    "keypoints"		: [x1,y1,v1,...], 
    "image_id"		: int,
    "bbox"          : [x,y,width,height],
    "category_id"	: int,    
    "id"			: int,	# annotation的id，每个对象对应一个annotation
}

segmentation{
	"counts"    	: int, 
	"size"	        : width,height,     
}

categories{
    "supercategory" : str,	# person
    "id"			: int,	# annotation的id，每个对象对应一个annotation
    "name"	        : str,	# person
    "keypoints"		: [str] # 长度为k的关键点名字符串
                              ["nose","left_eye","right_eye","left_ear","right_ear",                                                        
                               "left_shoulder","right_shoulder","left_elbow",
                               "right_elbow","left_wrist","right_wrist",                     
                               "left_hip","right_hip","left_knee","right_knee",
                               "left_ankle","right_ankle"]
    "skeleton"	: [edge], 	# 关键点的连通性，主要是通过一组关键点边缘队列表的形式表示，
                            # 用于可视化.
                              [[16,14],[14,12],[17,15],[15,13],[12,13],
                               [6,12],[7,13],[6,7],[6,8],[7,9],[8,10],
                               [9,11],[2,3],[1,2],[1,3],[2,4],[3,5],[4,6],[5,7]]
}

1.7 person_detection_results

包含COCO_test-dev2017_detr_detections.json和COCO_val2017_detr_detections.json两个文件。表示的需要读取的DETR检测框信息。格式如下：

[{
	"image_id"		: int, 
	"category_id"	: int,
	"bbox"          : [x,y,width,height], 
    "segmentation"	: RLE or [polygon], 
	"score"		    : float,
    "id"			: int,	# annotation的id，每个对象对应一个annotation
	"area"			: float, 	# 面积
	"iscrowd"		: 0 or 1,	# 0时segmentation为polygon，1为REL
}]

score表示人体检测框的置信度，得到过程如下：

给定一张图，运行目标检测程序（例如YOLO）后，总共有N个bounding box输出出来，可以通过非极大值抑制算法得到最后可靠的结果。大致分两步，第一步根据阈值去除那些置信度低的bounding box，然后进入一个循环，首先挑选出最大置信度的bounding box作为预测输出，然后去除那些与这个最大置信度的bounding box的IoU超过0.5的bounding box，因为我们可以看到一个对象有很多bounding box，它们很多是相交的，这样一个对象的bounding box就确定好了，然后，我们再进入循环，找出下一个对象的bounding box，最后直到没有剩余的bounding box，循环结束。

2 Keypoint Evaluation

2.1 评估概述

COCO关键点任务需要同时检测对象并将其关键点定位（对象位置不在测试时间给出）。由于同时检测和关键点估计的任务是相对较新的，我们选择采用受物体检测度量启发的新颖度量。为了简单起见，我们将这个任务称为关键点检测，将预测算法称为关键点检测器。我们建议在继续之前查看对象检测的评估指标。

评估关键点检测的核心思想是模拟用于目标检测的评估指标，即平均精确度（AP,average precision）和平均召回率（AR,average recall）及其变体。这些度量的核心是实际真实对象和预测对象之间的相似性度量。在对象检测的情况下，IoU（intersection-over-union，叫做交并比）作为这种相似性度量（对于框和片段）。IoU隐含定义了实际真实对象与预测对象之间的匹配，并允许计算精度召回曲线。为了采用AP / AR进行关键点检测，我们只需要定义一个类似的相似性度量。我们通过定义与IoU具有相同作用的对象关键点相似度（OKS,object keypoint similarity）来实现这一点。

2.2 对象关键点相似性OKS

对于每个对象，实际真值关键点具有形式 $[x_{1},y_{1},v_{1},...,x_{k},y_{k},v_{k}]$ ，其中x，y是关键点位置，v是定义为的可见性标志。v = 0表示未标记，v = 1表示标记但不可见，v = 2表示标记且可见。每个地面真值对象也有一个比例尺s，我们将其定义为物体分段区域的平方根（Each ground truth object also has a scale s which we define as the square root of the object segment area）。有关实际真值格式的详细信息，请参阅下载页面。

对于每个对象，关键点检测器都必须输出关键点位置和对象级别的置信度（object-level confidence）。对象的预测关键点应该具有与实际真值相同的形式： $[x_{1},y_{1},v_{1},...,x_{k},y_{k},v_{k}]$ 。然而，在评估过程中，检测器的预测vi并不是目前使用的，即关键点检测器不需要预测每个关键点的可见度或置信度（visibilities or confidences）。

我们将对象关键点相似性（OKS）定义为：

$OKS=\sum_{i}^{}[exp(-d_{i}^{2}/2s^{2}k_{i}^{2})\delta (v_{i}^{}>0)]/\sum_{i}^{}[\delta (v_{i}^{}>0)]$

$d_{i}$ 是每个关键点相应的实际真值和检测到的关键点之间的欧几里德距离，
，scale 的控制，表示当前人的尺度因子，这个值等于此人在groundtruth中所占面积的平方根，即 $\sqrt{(x_{2}-x_{1})(y_{2}-y_{1})}$ 。注意，比例是固定的，eg 192：256，大小为实际 bbox 的 1.25 倍
k，表示骨骼点的归一化因子，这个因子是通过对已有的数据集中所有 groundtruth 计算的标准差而得到的，反映出当前骨骼点对与整体的影响程度。值越大,说明在整个数据集中对这个点的标注效果越差; 值越小,说明整个数据集中对这个点的标注效果越好！一般取 $2\sigma$ ，其中

$\sigma _{i}^{2}=E[d_{i}^{2}/s^{2}]$

$v_{i}$ ，visibility flag，是实际真值的可见性标记（检测器的预测 $v_{i}$ 不被使用）

v = 0，GT 没有点
v = 1，GT 有点但是看不见（被遮挡）
v = 2， GT 有点也看得见

为了计算OKS，我们通过一个非标准化的高斯将标准差传递给标准偏差 $sk_{i}$ ，其中s是对象尺度， $k_{i}$ 是一个控制衰减的按键控制常数。对于每个关键点，这产生范围在0和1之间的关键点相似性。这些相似性在所有标记的关键点（ $v_{i}>0$ 的关键点）上被平均。未标记的预测关键点（ $v_{i}=0$ ）不影响OKS。完美的预测将有OKS = 1，并且所有关键点的偏离超过几个标准差 $sk_{i}$ 的预测都会有OKS〜0。OKS类似于IoU。考虑到OKS，我们可以计算AP和AR，就像IoU允许我们计算盒/段（box/segment）检测的这些度量一样。

2.3 调整OKS

我们调整 $k_{i}$ 使得OKS是一个感知上有意义且易于解释的相似性度量。首先，在val中使用5000个冗余注释的图像，对于每个关键点类型，我们测量关于对象尺度的每个关键点标准偏差 $\sigma _{i}$ 。那就是我们计算 $\sigma _{i}^{2}=E[d_{i}^{2}/s^{2}]$ 。 $\sigma _{i}$ 对于不同的关键点有很大的不同：人的关键点（肩膀，膝盖，臀部等shoulders, knees, hips）往往比人的头部（眼睛，鼻子，耳朵eyes, nose, ears）对应的 $\sigma _{i}^{2}$ 大得多，公式中取 $2\sigma _{i}^{2}$ 作为最终的标准差。

为了获得感知上有意义和可解释的相似性度量，我们设置 $k_{i}=2\sigma _{i}$ 。通过设定 $k_{i}$ ，在 $d_{i}/s$ 的一个，两个和三个标准偏差处，关键点相似度 $exp(-d_{_{i}}^{2}/2s^{2}k_{i}^{2})$ 取值为 $e^{-1/8}=0.88,e^{-4/8}=0.61,e^{-9/8}=0.32$ 。正如所料，人类注释的关键点是正态分布的（忽略偶尔的异常值）。因此，回顾68–95–99.7规则，设定 $k_{i}=2\sigma _{i}$ 意味着人类注释关键点的68％，95％和99.7％分别具有0.88，0.61或0.32或更高的关键点相似性（在实践中百分比是75％，95％和98.7％）。

OKS是所有（标记的）对象关键点之间的平均关键点相似度。下面我们用 $k_{i}=2\sigma _{i}$ 来描绘预测的OKS分布，假设每个对象有10个独立的关键点（蓝色曲线），以及在双重注释数据（绿色曲线）上人类OKS得分的实际分布：

图像不完全匹配的原因有如下几个:

（1）对象关键点不是独立的，

（2）每个对象的标记关键点的数量是不同的，

（3）真实数据包含1-2％的异常值（大部分是是由于注释者误将左当成右或当两个人靠近时注释错误造成的）。

不过，这种行为大致如预期的那样。我们得出一些关于人类表现的结论

（1）在0.50的OKS中，人类的表现几乎完美（95％），

（2）人类的中位数为~0.91，

（3）在OKS为0.95后人类的表现迅速下降。请注意，此OKS分布可用于预测人类AR（因为AR不依赖于误报）。

3 度量（metrics）

Precision 精确率（查准率）。表示正确识别物体A的个数占总识别出的物体个数n的百分数Precision = TP / (TP+FP)

Recall 召回率（查全率）。表示正确识别物体A的个数占测试集中物体A的总个数的百分数Recall = TP / (TP+FN)

fp :false positive误报，即预测错误

fn :false negative漏报，即没有预测到

tp:true positive

tn:true negative

iou：intersection-over-union

Accuracy 准确率。正确分类的样本数除以所有的样本数，正确率越高，分类器越好。Accuracy=（TP+TN）/ (TP+TN+FP+FN)

以上介绍都是基于2分类的，并不是多分类的

以下10个指标用于表征COCO上的关键点检测器的性能：

Average Precision (AP):

AP % AP at OKS=0.50:0.05:0.95(primary challenge metric)

APOKS=.50 % AP at OKS=0.50 (loose metric)

APOKS=.75 % AP at OKS=0.75 (strict metric)

AP Across Scales:

APmedium % AP for medium objects: 322 < area < 962

APlarge % AP for large objects: area > 962

Average Recall (AR):

AR % AR at OKS=0.50:0.05:0.95

AROKS=.50 % AR at OKS=0.50

AROKS=.75 % AR at OKS=0.75

AR Across Scales:

ARmedium % AR for medium objects: 322 < area < 962

ARlarge % AR for large objects: area > 962

1）除非另有说明，否则AP和AR在多个OKS值（0.50：0.05：0.95）之间取平均值。

2）正如所讨论的，我们为每个关键点类型设置 $k_{i}=2\sigma _{i}$ 。对于人来说，括号内为 $\sigma$ 取值，鼻子（0.026，nose），眼睛（0.025，eyes），耳朵（0.035，ears），肩膀（0.079，shoulders），手肘（0.072,elbows），手腕(0.062,wrists)，臀部（0.107，hips），膝盖（0.087，knees），脚踝（0.089，ankles）

3）AP（所有10个OKS阈值的平均值）将决定挑战胜利者。当考虑COCO的关键点性能时，这应该被认为是最重要的一个指标。

4）计算所有度量标准，每个图像最多允许20个最高得分检测（我们使用20个检测，而不是像对象检测挑战那样的100个，因为当前人是唯一具有关键点的类别）。

5）小对象（分段区域面积（segment area）<322）不包含关键点注释。

6）对于没有标注关键点的对象（包括人群），我们使用宽松的启发式方法，以允许根据幻觉关键点（hallucinated keypoints）（置于实际真实对象内以便最大化OKS）匹配检测结果。这与使用框/段（boxes/segments）来忽略区域的处理非常相似。详细信息请参阅代码。

7）无论被标记的还是可见的关键点的数量如何，每个对象都具有相同的重要性。我们不过滤只有几个关键点的对象，也不会根据存在的关键点的数量来加权对象示例。

4 评估的代码（evalutation code）

评估代码可在COCO github上找到。具体来说，分别参见Matlab或Python代码中的CocoEval.m或cocoeval.py。另请参阅Matlab或Python代码（demo）中的evalDemo。在运行评估代码之前，请按结果格式页面上描述的格式准备结果，建议先看一下这个格式。

5 分析代码（Analysis Code）

除了评估代码之外，我们还提供了一个函数analyze（）来详细分析多实例关键点估计中的错误。这在Ronchi等人的多实例姿态估计的基准和误差诊断中（Benchmarking and Error Diagnosis in Multi-Instance Pose Estimation）被广泛地描述。代码生成这样的图像。

我们展示了来自Zhe Cao等人的2016年ECCV 2016关键挑战获胜者Pose Affinity Fields检测器的分析结果。

该图总结了所有类型的错误对多实例姿态估计算法的性能的影响。它由一系列精确召回（PR，Precision Recall）曲线组成，其中每条曲线保证严格地高于前面的曲线，因为该算法的检测在（任意的）OKS阈值为0.9时被逐步校正。图例显示曲线下面积（AUC，Area Under the Curve）。曲线如下（检查项目页面的完整说明）：

1）Original Dts.：在OKS = 0.9（严格的OKS(strict KOS)下的AP）时，原始检测获得的PR，对应于APOKS=0.9度量的曲线下面积。

2）Miss：在所有遗漏错误(miss error)都被纠正之后，OKS = 0.9处的PR（严格的OKS下的AP）。缺失(miss)是一个很大的定位误差：检测到的关键点不在正确的身体部位附近。

3）Swap：在所有交换错误(swap errors)都被纠正之后，OKS =0.9处的PR（严格的OKS下的AP）。交换(swap)是由于图像中不同人的相同身体部分（即右肘right elbow）之间的混淆。

4）Inversion：在所有的逆误差（inversion errors）被纠正之后，OKS =0.9处的PR（严格的OKS下的AP）。倒置(inversion)是由于同一个人身体部位的混乱（即左右肘）造成的。

5）Jitter：在所有抖动错误(jitter errors)被纠正之后，OKS =0.9处的PR（严格的OKS下的AP）。抖动(jitter)是一个小的定位误差：检测到的关键点在正确的身体部位附近。

6）Opt. Score：所有的检测算法在评估时使用oracle函数重新计算之后，OKS = 0.9处的PR（AP在严格的OKS）。在检测和实际真值之间匹配的数量重新计分达到最大值。
7）FP：所有背景误报（fps）被移除后的PR。 FP是一个阶跃函数，直到达到最大召回率为1，然后降到0（跨类别平均后曲线更平滑）。

8）FN:删除所有剩余的错误时的PR（微不足道的AP = 1(trivially AP=1)）。

在上述检测器的情况下，OKS = 0.9的整体AP是0.327。纠正所有miss错误导致AP的大幅改善到0.415。修正swaps改善到0.488，修正inversions改善到0.545，获得较小的收益。当jitter错误被消除时，获得另一个大的改进，导致0.859的AUC。这显示了如果CMU算法具有关键点的完美定位，性能将会如何。在定位很好的情况下，置信度得分错误（confidence score errors）的影响并不显著，但仍然导致AUC提高约2％（0.879）。最佳评分检测大大减少了背景误报(Background False Positives)的影响，因为检测很少保持不匹配。最后，去除背景错报(Background False Negatives)提供了剩余的AUC以获得完美的表现。总之，在OKS = 0.9时CMU的错误主要是不完美的定位，主要是抖动错误和错过检测（missed detections）。

对于给定的检测器，代码共生成180个图，在3个区域范围（中，大，全）和10个评估阈值（0.5 :0. 05 :0.95）内分析所有错误。分析代码将自动生成一个PDF报告，其中包含总体性能总结，方法行为对不同类型错误的敏感性及其对性能的影响，以及几个最重要的失败案例。

注意：analyze()可能需要很长时间才能运行，请耐心等待。因此，我们通常不会在评估服务器上运行此代码，您必须使用验证集在本地运行代码。你可以在这个GitHub repository中找到analyze()函数。

6 pth文件

用来存储预训练参数的文件。其中288为宽，384为高，宽高比为3:4。coco数据集存储方式如下：

${POSE_ROOT}
 `-- models
     `-- pytorch
         |-- imagenet
         |   `-- hrnetv2_w32_imagenet_pretrained.pth
         |-- pose_coco
         |   |-- deform_pose_transformer_res101_384x288.pth
         |   |-- deform_pose_transformer_res50_384x288.pth
         |   |-- pose_transformer_hrnet_w32_384x288.pth
         |   |-- pose_transformer_hrnet_w32_512x384.pth
         |   |-- pose_transformer_res101_384x288.pth
         |   |-- pose_transformer_res101_512x384.pth
         |   |-- pose_transformer_res50_384x288.pth
         |   `-- pose_transformer_res50_512x384.pth
         `-- pose_mpii
             |-- pose_transformer_hrnet_w32_256x256.pth
             |-- pose_transformer_hrnet_w32_384x384.pth
             |-- pose_transformer_res101_256x256.pth
             |-- pose_transformer_res101_384x384.pth
             |-- pose_transformer_res101_512x512.pth
             |-- pose_transformer_res152_256x256.pth
             |-- pose_transformer_res152_384x384.pth
             |-- pose_transformer_res50_256x256.pth
             |-- pose_transformer_res50_384x384.pth
             `-- pose_transformer_res50_512x512.pth

7 yaml文件

用来存储模型超参数的文件。coco数据集一般如下：

${POSE_ROOT}
|-- experiments
`-- |-- coco
    `-- |-- transformer
            |-- w32_384x288_adamw_lr1e-4.yaml
            |-- w32_512x384_adamw_lr1e-4.yaml
            |-- res50_384x288_adamw_lr1e-4.yaml
            |-- res50_512x384_adamw_lr1e-4.yaml
            |-- res101_384x288_adamw_lr1e-4.yaml
            |-- res101_512x384_adamw_lr1e-4.yaml

参考文献

MS COCO数据集人体关键点评估（Keypoint Evaluation）（来自官网）_南国那片枫叶的博客-CSDN博客_coco人体关键点数据集COCO系列文章：MS COCO数据集目标检测评估（Detection Evaluation）（来自官网）MS COCO数据集人体关键点评估（Keypoint Evaluation）（来自官网）MS COCO数据集输出数据的结果格式（result format）和如何参加比赛（participate）（来自官网）MS COCO官网数据集(百度云）下载，COCO API、MASK A...https://blog.csdn.net/u014734886/article/details/78837961

MS COCO官网数据集(百度云）下载，COCO API、MASK API和Annotation format介绍（来自官网）_南国那片枫叶的博客-CSDN博客_coco数据集下载百度云COCO系列文章：MS COCO数据集目标检测评估（Detection Evaluation）（来自官网）MS COCO数据集人体关键点评估（Keypoint Evaluation）（来自官网）MS COCO数据集输出数据的结果格式（result format）和如何参加比赛（participate）（来自官网）MS COCO官网数据集(百度云）下载，COCO API、MASK A...https://blog.csdn.net/u014734886/article/details/78830713

你可能感兴趣的:(姿态识别,深度学习,机器学习)

什么是证书吊销列表？CRL 解释 WoTrusSSL ssl https
数字证书是安全在线互动的支柱，用于验证身份和确保加密通信。但是，当这些证书被盗用或滥用时，必须立即撤销它们以维持信任。这就是证书撤销列表(CRL)的作用所在。CRL由证书颁发机构(CA)维护，对于识别和撤销已撤销的证书，防止其造成危害至关重要。在本指南中，我们将探讨什么是CRL、它们如何运作以及为什么它们对网络安全至关重要。什么是证书吊销列表(CRL)？证书吊销列表(CRL)是证书颁发机构(CA)
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
windows安装pnpm后报错：pnpm : 无法将“pnpm”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。 Ithao2 Vue npm 前端 node.js
使用npm方式安装pnpm,命令如下：npminstall-gpnpm安装完以后，执行pnpm-v查看版本号：pnpm-v执行完发现报错：pnpm:无法将“pnpm”项识别为cmdlet、函数、脚本文件或可运行程序的名称。尝试配置环境变量，重启后均不生效。解决方案：使用PowerShell进行安装1.以管理员用户打开PowerShell，执行如下命令：iwrhttps://get.pnpm.io/
Linux操作系统磁盘管理 CZZDg linux 运维服务器
目录一.硬盘介绍1.硬盘的物理结构2.CHS编号3.磁盘存储划分4.开机流程5.要点6.磁盘存储数据的形式二.Linux文件系统1.根文件系统2.虚拟文件系统3.真文件系统4.伪文件系统三.磁盘分区与挂载1.磁盘分区方式2.分区命令3.查看与识别命令4.格式化命令5.挂载命令四.LVM逻辑卷1.概述2.管理命令五.磁盘配额1.概述usrquota:支持对用户的磁盘配额grpquota：支持对组的磁
“Datawhale AI夏令营”基于带货视频评论的用户洞察挑战赛 fzyz123 Datawhale AI夏令营人工智能 Datawhale 大模型技术 NLP 深度学习 AI夏令营
前言：本次是DatawhaleAI夏令营2025年第一期的内容，赛事是：基于带货视频评论的用户洞察挑战赛（科大讯飞AI大赛）一、赛事背景在直播电商爆发式增长浪潮中，短视频平台积累的海量带货视频及用户评论数据蕴含巨大商业价值。这些数据不仅是消费者体验的直接反馈，更是驱动品牌决策的关键资产。用户洞察的核心在于视频内容与评论数据的联合挖掘：通过智能识别推广商品分析评论中的情感表达与观点聚合精准捕捉消费者
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
【Linux内核模块】Linux内核模块程序结构 byte轻骑兵 #嵌入式Linux驱动开发实战 linux 运维服务器
如果你已经写过第一个"HelloWorld"内核模块，可能会好奇：为什么那个几行代码的程序能被内核识别？那些module_init、MODULE_LICENSE到底是什么意思？今天咱们就来扒一扒内核模块的程序结构，搞清楚一个合格的内核模块到底由哪些部分组成，每个部分又承担着什么角色。目录一、内核模块的"骨架"：最简化结构解析二、头文件：内核模块的"说明书"2.1最常用的三个头文件2.2按需添加的其
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
什么是RFM模型走过冬季学习笔记大数据数据分析
RFM模型是客户价值分析中一种经典且实用的量化模型，它通过三个关键维度评估用户价值，帮助企业识别最有价值的客户群体。名称RFM由三个核心指标的英文首字母组成：R（Recency）-最近一次消费时间定义：用户上一次发生交易行为距今的时间长度（如多少天前）。意义：衡量用户的活跃度和流失风险。R值越小（最近有消费），说明用户越活跃，流失风险越低；R值越大（很久没消费），用户流失风险越高。母婴场景示例：一
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
不同行业的 AI 数据安全与合规实践：7 大核心要点全解析观熵人工智能 DeepSeek 私有化部署
不同行业的AI数据安全与合规实践：7大核心要点全解析关键词AI数据安全、行业合规、私有化部署、数据分类分级、国产大模型、隐私保护、DeepSeek部署摘要随着国产大模型在金融、医疗、政务、教育等关键领域的深入部署，AI系统对数据安全与行业合规提出了更高要求。本文结合DeepSeek私有化部署实战，系统梳理当前各行业主流的数据安全合规标准与落地策略，从数据分类分级、访问控制、审计追踪到敏感信息识别与
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
在 Obsidian 中本地使用 DeepSeek — 无需互联网！知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek
简介您是否想在Obsidian内免费使用类似于ChatGPT的本地LLM？如果是，那么本指南适合您！我将引导您完成在Obsidian中安装和使用DeepSeek-R1模型的确切步骤，这样您就可以在笔记中拥有一个由AI驱动的第二大脑。推荐文章《24GBGPU中的DeepSeekR1：UnslothAI针对671B参数模型进行动态量化》权重1，DeepSeek类《在RaspberryPi上运行语音识别
php中调用对象的方法可以使用array($object, ‘methodName‘)？ IT 老王 php android 开发语言
是的，在PHP中，array($object,'methodName')是一种标准的回调语法，用于表示“调用某个对象的特定方法”。这种语法可以被许多函数（如call_user_func()、call_user_func_array()、usort()等）识别并执行。语法原理在PHP中，可调用对象（callable）有多种形式，其中之一是[对象实例,方法名]数组：第一个元素：对象实例（必须是已实例化
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
SpringAOP中的JointPoint和ProceedingJoinPoint使用详解（附带详细示例）如何在5年薪百万 springboot
概念JointPointJointPoint是程序运行过程中可识别的点，这个点可以用来作为AOP切入点。JointPoint对象则包含了和切入相关的很多信息。比如切入点的对象，方法，属性等。我们可以通过反射的方式获取这些点的状态和信息，用于追踪tracing和记录logging应用信息。Pointcutpointcut是一种程序结构和规则，它用于选取joinpoint并收集这些point的上下文信
网安学习NO.12
下一代防火墙（Next-GenerationFirewall，简称NGFW）是在传统防火墙基础上发展而来的新一代网络安全防护设备，其核心目标是解决传统防火墙在复杂网络环境（如云计算、移动办公、加密流量激增等）中“防护维度不足、威胁识别滞后、功能单一”等痛点，通过融合多元安全能力，实现对网络流量更精准、更智能、更全面的管控与防御。一、下一代防火墙与传统防火墙的核心差异传统防火墙主要依赖“端口-协议”
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
使用Adb wifi Android真机运行Uni-app pony1688 adb uni-app android
1、手机安装Adbwifi,我的用是这个：ADBWiFi(com.rair.adbwifi)-5.1.5-应用-酷安2、手机上运行ADB，运行后点击开始后界面如下3、如果手机已root,在电脑上运行adbconnect192.168.200.33:5555就可以连上了（注意:(1)不要进PowerShell,否则报错：无法将“adb”项识别为cmdlet、函数、脚本文件或可运行程序的名称。...(
试题公式ocr识别数据集
试题公式ocr识别数据集insurance_formula_latexhttps://github.com/LeeXYZABC/insurance_formula_latex.gitreference---
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号