神洛华

Kaggle——海星目标检测比赛

文章目录

- 一、赛事简介
- 二、数据描述
- 三、数据预处理
- - 3.1 导入相关库，设置超参数
  - 3.2 数据清洗
  - 3.3 ✏️写入标注图片
  - 3.4 获取bbox，生成标注文件
  - 3.5 创建Folds字段，划分训练集和验证集
- 四、数据分析，可视化展示
- - 4.1 ⭕BBox分布
  - 4.2 可视化展示
- 五、 [YOLOv5](https://github.com/ultralytics/yolov5/)训练
- - 5.1 ⭐ WandB跟踪训练
  - 5.2 ⚙️配置参数
  - 5.3 设定参数，开始训练
  - 5.4 ✨查看训练结果
  - 5.5 Result
- 六、推理
- - 6.1 加载训练结果为数据集
  - 6.2 定义加载模型和预测函数
  - 6.3 推理
- 七、 PyTorch Hub yolov5
- - 7.1 推理示例
  - 7.2 训练

参考《Kaggle-海底海星目标检测Baseline》、《Great-Barrier-Reef: YOLOv5 [train]》

一、赛事简介

赛事地址：https://www.kaggle.com/c/tensorflow-great-barrier-reef
赛题目标：建立一个根据珊瑚礁水下视频训练的目标检测模型，实时准确地识别海星。
赛题背景：
- 澳大利亚美丽无比的大堡礁是世界上最大的珊瑚礁，有1500种鱼类、400种珊瑚、130种鲨鱼、鳐鱼和大量其他海洋生物。
- 不幸的是，珊瑚礁正面临威胁，部分原因是一种特殊海星的数量过多，这种海星是吃珊瑚的刺海星冠（简称COTS）。科学家、旅游经营者和珊瑚礁管理者制定了一项大规模干预计划，将COTS疫情控制在生态可持续的水平。
- 在这次比赛中，你将在大堡礁周围不同时间和地点拍摄的水下图像中（其实是拍摄视频中抽取的图像），预测刺海星冠的存在和位置。预测采用边界框的形式，并对每一个确定的海星进行置信度评分。
评价指标：F2-Score
选择F2指标目的是为了尽量不漏检允许一些FP. 因此处理FN比处理FP要重要.。
注意事项：本次比赛是Code Competition，CPU/GPU笔记本<=9小时运行时间，提交文件必须命名为Submission.csv。

二、数据描述

本次比赛使用了一个隐藏的测试集，该测试集将由一个API提供，以确保您以每个视频中记录的相同顺序评估图像。当你提交的笔记本被打分时，你的笔记本上会有实际的测试数据（包括提交的样本）。

训练集：video_{video_id}/{video_frame_number}.jpg.格式的图片。一共有23501张图片，其中只有4917张有标注信息（有CTOS）。查看一张标注图片，如下图所示：
train.csv中包含了三个视频抽帧后的图片信息标注，其中几个重要参数：
- video_id：图像所属视频的 ID 号。
- video_frame：视频中图像的帧数。当潜水员浮出水面时，预计会偶尔看到帧数的差距。
- sequence：给定视频的无间隙子集的 ID。序列 id 没有有意义的排序。
- sequence_frame ：给定序列中的帧号。
- image_id ：图像的 ID 代码，格式为“{video_id}-{video_frame}”
- annotations：边界框，由其在图像内左上角的像素坐标 (x_min, y_min) 及其宽度和高度（以像素为单位）来表示。
其它文件/文件夹：

greatbarrierreef：用于生成测试集图片的API，API按照视频和帧编号的顺序，将图像一个接一个地作为pixel arrays提供。测试集图片大约13000张。初始化后运行API需要消耗很多内存，建议运行此API后再加载模型。
example_sample_submission.csv：提交示例，每个预测行都需要包含图像的所有边界框。提交格式似乎也是COCO，即[x_min，y_min，width，height]。

三、数据预处理

注意：3-6章代码是《Great-Barrier-Reef: YOLOv5 [train]》的代码，建议fork后运行。

3.1 导入相关库，设置超参数

安装需要的包

# !pip install -qU wandb kaggle现在依旧默认安装了wandb
!pip install -qU bbox-utility # check https://github.com/awsaf49/bbox for source code

import numpy as np
from tqdm.notebook import tqdm
tqdm.pandas() # 可以显示pandas操作的进度条
import pandas as pd
import os
import cv2
import matplotlib.pyplot as plt
import glob

import shutil
import sys
sys.path.append('../input/tensorflow-great-barrier-reef')

from joblib import Parallel, delayed
from IPython.display import display

设置超参数

FOLD      = 1 # which fold to train
REMOVE_NOBBOX = True # remove images with no bbox
ROOT_DIR  = '../input/tensorflow-great-barrier-reef/' # 原始数据集的路径
IMAGE_DIR = './kaggle/images' # 新的训练集图片路径
LABEL_DIR = './kaggle/labels' # 新的训练集图片标签路径

新建两个文件夹，用于存放标注图片和其标注信息

!mkdir -p {IMAGE_DIR}
!mkdir -p {LABEL_DIR}

3.2 数据清洗

先读取train.csv，如下图所示，原始图片位置是"数据集地址/train_images/video_id/video_frame.jpg"

# Train Data
df = pd.read_csv(f'{ROOT_DIR}/train.csv')
df['old_image_path'] = f'{ROOT_DIR}/train_images/video_'+df.video_id.astype(str)+'/'+df.video_frame.astype(str)+'.jpg'
# image_id 已经包含了video_id和video_frame，直接以此作为图片样本编号
df['image_path']  = f'{IMAGE_DIR}/'+df.image_id+'.jpg'
df['label_path']  = f'{LABEL_DIR}/'+df.image_id+'.txt'
df['annotations'] = df['annotations'].progress_apply(eval) # progress_apply可以监视运行进度
display(df.head(2))

	video_id	sequence	video_frame	sequence_frame	image_id	annotations				old_image_path							image_path				label_path
0		0		40258		  0				0				0-0			[]	/kaggle/input/tensorflow-great-barrier-reef//t...	/kaggle/images/0-0.jpg	/kaggle/labels/0-0.txt
1		0		40258		  1				1				0-1			[]	/kaggle/input/tensorflow-great-barrier-reef//t...	/kaggle/images/0-1.jpg	/kaggle/labels/0-1.txt

将近80%的图片没有标注框

df['num_bbox'] = df['annotations'].progress_apply(lambda x: len(x))
data = (df.num_bbox>0).value_counts(normalize=True)*100
print(f"No BBox: {data[0]:0.2f}% | With BBox: {data[1]:0.2f}%")

No BBox: 79.07% | With BBox: 20.93%

选取有标注框的图片信息

df = df.query("num_bbox>0")

3.3 ✏️写入标注图片

我们需要将有标注的图像复制到当前目录（/kaggle/working）中作为训练集，因为/kagglet/input没有YOLOv5所需的写入权限。使用joblib进行并行计算可加快此过程。

def make_copy(row):
    shutil.copyfile(row.old_image_path, row.image_path)
    return

image_paths = df.old_image_path.tolist()
_ = Parallel(n_jobs=-1, backend='threading')(delayed(make_copy)(row) for _, row in tqdm(df.iterrows(), total=len(df)))

针对日常的文件和目录管理任务，shutil 模块提供了一个易于使用的高级接口。简单用法也可参考帖子《shutil 用法》。

Joblib就是一个可以简单地将Python代码转换为并行计算模式的软件包，它提供了一个简单地程序并行方案，主要有Parallel函数实现，并涉及了一个技巧性的函数delayed。可参考帖子《python并行库------joblib》

3.4 获取bbox，生成标注文件

获取bbox信息

from bbox.utils import coco2yolo, coco2voc, voc2yolo
from bbox.utils import draw_bboxes, load_image
from bbox.utils import clip_bbox, str2annot, annot2str

def get_bbox(annots):
    bboxes = [list(annot.values()) for annot in annots]
    return bboxes

def get_imgsize(row):
    row['width'], row['height'] = imagesize.get(row['image_path'])
    return row

np.random.seed(32)
colors = [(np.random.randint(255), np.random.randint(255), np.random.randint(255))\
          for idx in range(1)]

df['bboxes'] = df.annotations.progress_apply(get_bbox) # 直接得到标注框的[xmin，ymin，w，h]信息
colors

[(215, 43, 133)]

获取图片尺寸

df['width']  = 1280
df['height'] = 720
df

生成yolo格式标注文件

yolo格式标注文件是*.txt，每个对象一行，每行都是class [x_center, y_center, width, height] 的格式。
标注框坐标必须为标准化xywh格式（从0到1）。如果框以像素为单位，要将x_center和width除以图像宽度，将y_center与height除以图像高度。
比赛的bbox格式为COCO，即[x_min，y_min，width，height]，要将其转为yolo格式。

cnt = 0
all_bboxes = []
bboxes_info = []
for row_idx in tqdm(range(df.shape[0])):
    row = df.iloc[row_idx] # 读取df的一行数据
    image_height = row.height
    image_width  = row.width
    # 读取coco格式的标注框信息，比如array([[559., 213.,  50.,  32.]], dtype=float32)
    bboxes_coco  = np.array(row.bboxes).astype(np.float32).copy() 
    num_bbox     = len(bboxes_coco) # 标注框个数
    names        = ['cots']*num_bbox # 每个标注框名字都是cots（刺海星冠）
    labels       = np.array([0]*num_bbox)[..., None].astype(str) #  array([['0'],['0']],[..., None]表示增加一个维度
    ## Create Annotation(YOLO)
    with open(row.label_path, 'w') as f:
    	# 这一步表示如果读取的行没有标注框，标注信息就填''，且表示'Missing:'的cnt+1
        if num_bbox<1:
            annot = ''
            f.write(annot)
            cnt+=1
            continue
        # 将coco格式标注框[xmin,ymin,w,h]转为voc格式标注框[xmin,ymin,xmax,ymax]比如array([[559., 213., 609., 245.]])
        bboxes_voc  = coco2voc(bboxes_coco, image_height, image_width)
        bboxes_voc  = clip_bbox(bboxes_voc, image_height, image_width)
        # 将voc格式标注框[xmin,ymin,w,h]转为yolo格式标注框[xcenter,ycenter,w,h]
        # 比如array([['0.5407407', '0.31805557', '0.0462963', '0.04444447']])，标准格式
        bboxes_yolo = voc2yolo(bboxes_voc, image_height, image_width).astype(str)
        
        all_bboxes.extend(bboxes_yolo.astype(float))
        bboxes_info.extend([[row.image_id, row.video_id, row.sequence]]*len(bboxes_yolo))
        # 将标签信息连上标注框信息
        annots = np.concatenate([labels, bboxes_yolo], axis=1)
        string = annot2str(annots) # 转为字符格式，比如'0 0.5407407 0.31805557 0.0462963 0.04444447'
        f.write(string) # 将转换完的标签和yolo格式标注框信息写入label文件夹下对应名字的txt文件，每行为一个目标样本
print('Missing:',cnt)

我们读取一个txt文件看看：

!cat ./kaggle/labels/0-100.txt

0 0.2609375 0.9375 0.090625 0.122222185

3.5 创建Folds字段，划分训练集和验证集

每个fold中的样本数不相同，这可能会在交叉验证（Cross-Validation中产生较大差异。所以使用GroupKFold。GroupKFold 会保证同一个group的数据不会同时出现在训练集和测试集上。因为如果训练集中包含了每个group的几个样例，可能训练得到的模型能够足够灵活地从这些样例中学习到特征，在测试集上也会表现很好，但是来了一个新的group就会表现很差。

简单说一会就是用video1的所有图片做验证集，video0和video2的图片做训练集，划分时不会跨group的范围

from sklearn.model_selection import GroupKFold
kf = GroupKFold(n_splits = 3)
df = df.reset_index(drop=True) # 重设索引，之前索引是原始train.csv中的索引，不连续
df['fold'] = -1
# 根据video_id给df每一行添加fold字段，其值等于video_id
for fold, (train_idx, val_idx) in enumerate(kf.split(df, groups=df.video_id.tolist())):
    df.loc[val_idx, 'fold'] = fold
display(df.fold.value_counts()) # # 三段视频分别有2143、2099和677张有标注的图片

0    2143
1    2099
2     677
Name: fold, dtype: int64

打印df，可以看到

# 前面设定了FOLD = 1，query引用外部变量，前面要加@
train_files = []
val_files   = []
train_df = df.query("fold!=@FOLD")
valid_df = df.query("fold==@FOLD")
train_files += list(train_df.image_path.unique())
val_files += list(valid_df.image_path.unique())
len(train_files), len(val_files)

(2820, 2099)

四、数据分析，可视化展示

4.1 ⭕BBox分布

bbox_df = pd.DataFrame(np.concatenate([bboxes_info, all_bboxes], axis=1),
             columns=['image_id','video_id','sequence',
                     'xmid','ymid','w','h'])
bbox_df[['xmid','ymid','w','h']] = bbox_df[['xmid','ymid','w','h']].astype(float)
bbox_df['area'] = bbox_df.w * bbox_df.h * 1280 * 720
bbox_df = bbox_df.merge(df[['image_id','fold']], on='image_id', how='left')
bbox_df.head(2)

Area

import matplotlib as mpl
import seaborn as sns

f, ax = plt.subplots(figsize=(12, 6))
sns.despine(f)

sns.histplot(
    bbox_df,
    x="area", hue="fold",
    multiple="stack",
    palette="viridis",
    edgecolor=".3",
    linewidth=.5,
    log_scale=True,
)
ax.xaxis.set_major_formatter(mpl.ticker.ScalarFormatter())
ax.set_xticks([500, 1000, 2000, 5000, 10000]);

2. 长宽比分析

x_val = all_bboxes[...,2]
y_val = all_bboxes[...,3]

# Calculate the point density
xy = np.vstack([x_val,y_val])
z = gaussian_kde(xy)(xy)

fig, ax = plt.subplots(figsize = (10, 10))
# ax.axis('off')
ax.scatter(x_val, y_val, c=z, s=100, cmap='viridis')
# ax.set_xlabel('bbox_width')
# ax.set_ylabel('bbox_height')
plt.show()

4.2 可视化展示

df2 = df[(df.num_bbox>0)].sample(100) # takes samples with bbox
y = 3; x = 2
plt.figure(figsize=(12.8*x, 7.2*y))
for idx in range(x*y):
    row = df2.iloc[idx]
    img           = load_image(row.image_path)
    image_height  = row.height
    image_width   = row.width
    with open(row.label_path) as f:
        annot = str2annot(f.read())
    bboxes_yolo = annot[...,1:]
    labels      = annot[..., 0].astype(int).tolist()
    names         = ['cots']*len(bboxes_yolo)
    plt.subplot(y, x, idx+1)
    plt.imshow(draw_bboxes(img = img,
                           bboxes = bboxes_yolo, 
                           classes = names,
                           class_ids = labels,
                           class_name = True, 
                           colors = colors, 
                           bbox_format = 'yolo',
                           line_thickness = 2))
    plt.axis('OFF')
plt.tight_layout()
plt.show()

五、 YOLOv5训练

5.1 ⭐ WandB跟踪训练

Weights&Biases（W&B）是MLOps平台用于跟踪我们的试验，W&B的一些功能：

跟踪、比较和可视化ML实验
获取实时指标、终端日志和系统统计数据流式传输到集中式仪表板。
解释您的模型是如何工作的，显示模型版本如何改进的图表，讨论bug，并演示里程碑的进展。

import wandb

try:
    from kaggle_secrets import UserSecretsClient
    user_secrets = UserSecretsClient()
    api_key = user_secrets.get_secret("WANDB")
    wandb.login(key=api_key)
    anonymous = None
except:
    wandb.login(anonymous='must')
    print('To use your W&B account,\nGo to Add-ons -> Secrets and provide your W&B access token. Use the Label name as WANDB. \nGet your W&B access token from here: https://wandb.ai/authorize')

5.2 ⚙️配置参数

关于yolov5的原理和配置参数的解释（比如数据增强策略），可以参考我的帖子《YOLOv1——YOLOX系列及FCOS目标检测算法详解》第六章YOLOV5，好评点赞啊。

dataset config需要：

数据集根目录相对于train / val / test image目录或txt文件目录的相对路径
类别数nc
类别名列表

将以上信息处理完毕写入gbr.yaml

import yaml

cwd = '/kaggle/working/'

# 创建train.txt和val.txt，每一行都是一个图片名，比如'./kaggle/images/1-461.jpg'
with open(os.path.join( cwd , 'train.txt'), 'w') as f:
    for path in train_df.image_path.tolist():
        f.write(path+'\n')
            
with open(os.path.join(cwd , 'val.txt'), 'w') as f:
    for path in valid_df.image_path.tolist():
        f.write(path+'\n')

data = dict(
    path  = '/kaggle/working',
    train =  os.path.join( cwd , 'train.txt') ,
    val   =  os.path.join( cwd , 'val.txt' ),
    nc    = 1,
    names = ['cots'],
    )

with open(os.path.join( cwd , 'gbr.yaml'), 'w') as outfile:
    yaml.dump(data, outfile, default_flow_style=False)

f = open(os.path.join( cwd , 'gbr.yaml'), 'r')
print('\nyaml:')
print(f.read())

yaml:
names:
- cots
nc: 1
path: /kaggle/working
train: /kaggle/working/train.txt
val: /kaggle/working/val.txt

将训练参数设定完，写入hyp.yaml

%%writefile /kaggle/working/hyp.yaml
lr0: 0.01  # 初始学习率 (SGD=1E-2, Adam=1E-3)
lrf: 0.1  # 最终OneCycleLR学习率 (lr0 * lrf)
momentum: 0.937  # SGD momentum/Adam beta1
weight_decay: 0.0005  # optimizer weight decay 5e-4
warmup_epochs: 3.0  # warmup epochs (fractions ok)
warmup_momentum: 0.8  # warmup initial momentum
warmup_bias_lr: 0.1  # warmup initial bias lr
box: 0.05  # box loss gain
cls: 0.5  # cls loss gain
cls_pw: 1.0  # cls BCELoss positive_weight
obj: 1.0  # obj loss gain (scale with pixels)
obj_pw: 1.0  # obj BCELoss positive_weight
iou_t: 0.20  # IoU training threshold
anchor_t: 4.0  # anchor-multiple threshold
# anchors: 3  # anchors per output layer (0 to ignore)
fl_gamma: 0.0  # focal loss gamma (efficientDet default gamma=1.5)
hsv_h: 0.015  # image HSV-Hue augmentation (fraction)
hsv_s: 0.7  # image HSV-Saturation augmentation (fraction)
hsv_v: 0.4  # image HSV-Value augmentation (fraction)
# 下面是数据增强策略
degrees: 0.0  # image rotation (+/- deg)
translate: 0.10  # image translation (+/- fraction)
scale: 0.5  # image scale (+/- gain)
shear: 0.0  # image shear (+/- deg)
perspective: 0.0  # image perspective (+/- fraction), range 0-0.001
flipud: 0.5  # image flip up-down (probability)
fliplr: 0.5  # image flip left-right (probability)
mosaic: 0.5  # image mosaic (probability)
mixup: 0.5 # image mixup (probability)
copy_paste: 0.0  # segment copy-paste (probability)

%cd /kaggle/working
!rm -r /kaggle/working/yolov5
# !git clone https://github.com/ultralytics/yolov5 # clone
!cp -r /kaggle/input/yolov5-lib-ds /kaggle/working/yolov5 #
%cd yolov5
%pip install -qr requirements.txt  # install

from yolov5 import utils
display = utils.notebook_init()  # check

5.3 设定参数，开始训练

上面都跑通没有问题的时候，点击notebook右上角save version，弹出窗口选Run&Save All。真正开始跑的时候，下面弹出窗口会有一个查看log选项（我这是跑完了，没有log选项），可以实时查看训练日志。

我这么做是因为kaggle notebook的output文件夹不能保存结果，每次重新打开都会清理掉。保存版本，输出会保存。

DIM       = 3000 
MODEL     = 'yolov5s6'
BATCH     = 4
EPOCHS    = 7
OPTMIZER  = 'Adam'

PROJECT   = 'great-barrier-reef-public' # w&b in yolov5
NAME      = f'{MODEL}-dim{DIM}-fold{FOLD}' # w&b for yolov5

!python train.py --img {DIM}\
--batch {BATCH}\
--epochs {EPOCHS}\
--optimizer {OPTMIZER}\
--data /kaggle/working/gbr.yaml\
--hyp /kaggle/working/hyp.yaml\
--weights {MODEL}.pt\
--project {PROJECT} --name {NAME}\
--exist-ok

运行日志：Successfully ran in 18086.5s

18006.6s	293	[34m[1mwandb[0m:           best/epoch 6
18006.6s	294	[34m[1mwandb[0m:         best/mAP_0.5 0.87645
18006.6s	295	[34m[1mwandb[0m:    best/mAP_0.5:0.95 0.39294
18006.6s	296	[34m[1mwandb[0m:       best/precision 0.91159
18006.6s	297	[34m[1mwandb[0m:          best/recall 0.78313
18006.6s	298	[34m[1mwandb[0m:      metrics/mAP_0.5 0.87644
18006.6s	299	[34m[1mwandb[0m: metrics/mAP_0.5:0.95 0.39324
18006.6s	300	[34m[1mwandb[0m:    metrics/precision 0.9094
18006.6s	301	[34m[1mwandb[0m:       metrics/recall 0.78359
18006.6s	302	[34m[1mwandb[0m:       train/box_loss 0.03609
18006.6s	303	[34m[1mwandb[0m:       train/cls_loss 0.0
18006.6s	304	[34m[1mwandb[0m:       train/obj_loss 0.03753
18006.6s	305	[34m[1mwandb[0m:         val/box_loss 0.02665
18006.6s	306	[34m[1mwandb[0m:         val/cls_loss 0.0
18006.6s	307	[34m[1mwandb[0m:         val/obj_loss 0.04279
18006.6s	308	[34m[1mwandb[0m:                x/lr0 0.00135
18006.6s	309	[34m[1mwandb[0m:                x/lr1 0.00135
18006.6s	310	[34m[1mwandb[0m:                x/lr2 0.00135

5.4 ✨查看训练结果

wandb跟踪训练结果
点击此处查看训练完成的跟踪结果，比如metrics：

设定输出文件夹

OUTPUT_DIR = '{}/{}'.format(PROJECT, NAME)
!ls {OUTPUT_DIR}

F1_curve.png				   results.png
PR_curve.png				   train_batch0.jpg
P_curve.png					   train_batch1.jpg
R_curve.png					   train_batch2.jpg
confusion_matrix.png		   val_batch0_labels.jpg 								
hyp.yaml					   val_batch1_labels.jpg
labels.jpg					   val_batch2_labels.jpg
labels_correlogram.jpg		   val_batch1_pred.jpg
opt.yaml					   val_batch2_pred.jpg
results.csv					   val_batch0_pred.jpg
weights
events.out.tfevents.1642514935.08fbaec58f7c.146.0

查看类别分布：

# 也就是刚打开的Wandb界面的Labels（index=0）

plt.figure(figsize = (10,10))
plt.axis('off')
plt.imshow(plt.imread(f'{OUTPUT_DIR}/labels_correlogram.jpg'));

# Wandb界面的Labels（index=1）

plt.figure(figsize = (10,10))
plt.axis('off')
plt.imshow(plt.imread(f'{OUTPUT_DIR}/labels.jpg'));

查看一个bacth的图片

# Wandb界面的Mosaics(yolov5s6-dim3000-fold1)

import matplotlib.pyplot as plt
plt.figure(figsize = (10, 10))
plt.imshow(plt.imread(f'{OUTPUT_DIR}/train_batch0.jpg'))

plt.figure(figsize = (10, 10))
plt.imshow(plt.imread(f'{OUTPUT_DIR}/train_batch1.jpg'))

plt.figure(figsize = (10, 10))
plt.imshow(plt.imread(f'{OUTPUT_DIR}/train_batch2.jpg'))

真实框和预测框对比：

fig, ax = plt.subplots(3, 2, figsize = (2*9,3*5), constrained_layout = True)
for row in range(3):
    ax[row][0].imshow(plt.imread(f'{OUTPUT_DIR}/val_batch{row}_labels.jpg'))
    ax[row][0].set_xticks([])
    ax[row][0].set_yticks([])
    ax[row][0].set_title(f'{OUTPUT_DIR}/val_batch{row}_labels.jpg', fontsize = 12)
    
    ax[row][1].imshow(plt.imread(f'{OUTPUT_DIR}/val_batch{row}_pred.jpg'))
    ax[row][1].set_xticks([])
    ax[row][1].set_yticks([])
    ax[row][1].set_title(f'{OUTPUT_DIR}/val_batch{row}_pred.jpg', fontsize = 12)
plt.show()

5.5 Result

Score Vs Epoch
metics

六、推理

我醉了，做完才发现，比赛截止，greatbarrierreef API不再生成测试集了，现在没法提交比赛结果。

本节加载模型和预测部分，使用的是pytorch hub的模式，不懂的可以看第七章。

6.1 加载训练结果为数据集

跑完之后，在刚刚的notebook的Data标签页可以看到输出结果，这个会一直保存。

重新打开notebook，将刚刚的output作为数据集添加进来。

添加成功：

如果你打开看，会发现只有图片。这是因为output的kaggle文件夹下，图片太多导致显示不全。用ls打印就知道啦：

# 训练完当前路径可能在output/working/yolov5，要先切回working目录
!ls ../input/great-barrier-reef-yolov5-train

__notebook__.ipynb  __results___files  hyp.yaml     train.txt  yolov5
__output__.json     custom.css	       kaggle	    val.cache
__results__.html    gbr.yaml	       train.cache  val.txt

6.2 定义加载模型和预测函数

def load_model(ckpt_path, conf=0.25, iou=0.50):
    model = torch.hub.load('/kaggle/input/yolov5-lib-ds',
                           'custom',
                           path=ckpt_path,
                           source='local',
                           force_reload=True)  # local repo
    model.conf = conf  # NMS confidence threshold
    model.iou  = iou  # NMS IoU threshold
    model.classes = None   # (optional list) filter by class, i.e. = [0, 15, 16] for persons, cats and dogs
    model.multi_label = False  # NMS multiple labels per box
    model.max_det = 1000  # maximum number of detections per image
    return model

模型预测结果results.pandas().xyxy[0]打印出来就是：

        xmin        ymin        xmax        ymax  confidence  class  name
0  886.161499  466.744629  957.082031  530.237793    0.601243    0  cots
1  743.790710  616.339294  813.644897  683.003784    0.433469    0  cots

# 预测模型结果，bboxes是voc格式，将其转为coco格式
def predict(model, img, size=768, augment=False):
    height, width = img.shape[:2]
    results = model(img, size=size, augment=augment)  # custom inference size
    preds   = results.pandas().xyxy[0] # 预测结果的tensor格式
    bboxes  = preds[['xmin','ymin','xmax','ymax']].values
    if len(bboxes):
        bboxes  = voc2coco(bboxes,height,width).astype(int)
        confs   = preds.confidence.values
        return bboxes, confs
    else:
        return [],[]

# 将刚刚预测结果进行比赛结果的标准化，即  {conf} {xmin} {ymin} {w} {h}  的格式
def format_prediction(bboxes, confs):
    annot = ''
    if len(bboxes)>0:
        for idx in range(len(bboxes)):
            xmin, ymin, w, h = bboxes[idx]
            conf             = confs[idx]
            annot += f'{conf} {xmin} {ymin} {w} {h}'
            annot +=' '
        annot = annot.strip(' ')
    return annot

def show_img(img, bboxes, bbox_format='yolo'):
    names  = ['starfish']*len(bboxes)
    labels = [0]*len(bboxes)
    img    = draw_bboxes(img = img,
                           bboxes = bboxes, 
                           classes = names,
                           class_ids = labels,
                           class_name = True, 
                           colors = colors, 
                           bbox_format = bbox_format,
                           line_thickness = 2)
    return Image.fromarray(img).resize((800, 400))

ROOT_DIR  = '/kaggle/input/tensorflow-great-barrier-reef/'
# CKPT_DIR  = '/kaggle/input/greatbarrierreef-yolov5-train-ds'
CKPT_PATH = '../input/great-barrier-reef-yolov5-train/yolov5/great-barrier-reef-public/yolov5s6-dim3000-fold2/weights/best.pt' # 这是刚刚加载output为数据集后的模型最优参数
IMG_SIZE  = 9000
CONF      = 0.25
IOU       = 0.40
AUGMENT   = True

6.3 推理

在训练集上进行推理

import torch
from PIL import Image
from bbox.utils import  voc2coco

model = load_model(CKPT_PATH, conf=CONF, iou=IOU)
image_paths = df[df.num_bbox>1].sample(100).image_path.tolist()
for idx, path in enumerate(image_paths):
    img = cv2.imread(path)[...,::-1]
    bboxes, confis = predict(model, img, size=IMG_SIZE, augment=AUGMENT)
    #display(show_img(img, bboxes, bbox_format='coco'))
    print(bboxes)
    if idx>5:
        break

在测试集上进行推理

import greatbarrierreef
env = greatbarrierreef.make_env()# initialize the environment
iter_test = env.iter_test()

model = load_model(CKPT_PATH, conf=CONF, iou=IOU)
for idx, (img, pred_df) in enumerate(tqdm(iter_test)):
    bboxes, confs  = predict(model, img, size=IMG_SIZE, augment=AUGMENT) 
    annot          = format_prediction(bboxes, confs) # 比赛要的结果格式
    pred_df['annotations'] = annot
    env.predict(pred_df)

sub_df = pd.read_csv('submission.csv')
sub_df

七、 PyTorch Hub yolov5

本节介绍如何从 PyTorch Hub下载yolov5进行训练。首先安装：

不需要再克隆 https://github.com/ultralytics/yolov5仓库了

$ pip install -r https://raw.githubusercontent.com/ultralytics/yolov5/master/requirements.txt

7.1 推理示例

下面是用yolov5进行推理的简单示例，yolov5s是最轻量级和最快的yolov5模型。

import torch

# Model
model = torch.hub.load('ultralytics/yolov5', 'yolov5s')

# Image
img = 'https://ultralytics.com/images/zidane.jpg'

# Inference
results = model(img)

详细示例
下面示例是进行一个batch的图片推理，result可以在控制台打印，或者保存到runs/hub。也可以在屏幕上打印显示，或者转换为tensors 或者pandas dataframes。

import cv2
import torch
from PIL import Image

# Model
model = torch.hub.load('ultralytics/yolov5', 'yolov5s')

# Images
for f in ['zidane.jpg', 'bus.jpg']:
    torch.hub.download_url_to_file('https://ultralytics.com/images/' + f, f)  # download 2 images
img1 = Image.open('zidane.jpg')  # PIL image
img2 = cv2.imread('bus.jpg')[:, :, ::-1]  # OpenCV image (BGR to RGB)
imgs = [img1, img2]  # batch of images

# Inference
results = model(imgs, size=640)  # includes NMS

# Results
results.print()  
results.save()  # or .show()

results.xyxy[0]  # img1 predictions (tensor)
results.pandas().xyxy[0]  # img1 predictions (pandas)
#      xmin    ymin    xmax   ymax  confidence  class    name
# 0  749.50   43.50  1148.0  704.5    0.874023      0  person
# 1  433.50  433.50   517.5  714.5    0.687988     27     tie
# 2  114.75  195.75  1095.0  708.0    0.624512      0  person
# 3  986.00  304.00  1028.0  420.0    0.286865     27     tie

推理设置选项可以查看 YOLOv5 autoShape() 前向传播方法:

def forward(self, imgs, size=640, augment=False, profile=False): 
     # Inference from various sources. For height=640, width=1280, RGB images example inputs are: 
     #   filename:   imgs = 'data/images/zidane.jpg' 
     #   URI:             = 'https://github.com/ultralytics/yolov5/releases/download/v1.0/zidane.jpg' 
     #   OpenCV:          = cv2.imread('image.jpg')[:,:,::-1]  # HWC BGR to RGB x(640,1280,3) 
     #   PIL:             = Image.open('image.jpg')  # HWC x(640,1280,3) 
     #   numpy:           = np.zeros((640,1280,3))  # HWC 
     #   torch:           = torch.zeros(16,3,320,640)  # BCHW (scaled to size=640, 0-1 values) 
     #   multiple:        = [Image.open('image1.jpg'), Image.open('image2.jpg'), ...]  # list of images

推理settings还包括一些其它属性，如置信阈值、IoU阈值等，可通过以下方式设置：

model.conf = 0.25  # NMS confidence threshold
      iou = 0.45  # NMS IoU threshold
      agnostic = False  # NMS class-agnostic
      multi_label = False  # NMS multiple labels per box
      classes = None  # (optional list) filter by class, i.e. = [0, 15, 16] for COCO persons, cats and dogs
      max_det = 1000  # maximum number of detections per image
      amp = False  # Automatic Mixed Precision (AMP) inference

results = model(im, size=320)  # custom inference size

推理设置：

model.conf = 0.25  # confidence threshold (0-1)
model.iou = 0.45  # NMS IoU threshold (0-1)
model.classes = None  # (optional list) filter by class, i.e. = [0, 15, 16] for persons, cats and dogs

results = model(imgs, size=320)  # custom inference size

7.2 训练

加载yolov5s预训练权重，类别数为10.
force_reload=True表示如果加载出了问题，将清除缓存，强制下载最新版的yolov5

model = torch.hub.load('ultralytics/yolov5', 'yolov5s', classes=10,force_reload=True,device='cuda')

下载yolov5模型用来训练而不是推理，要设置autoshape=False，如果要从头训练而不是加载预训练模型，要设置pretrained=False。

model = torch.hub.load('ultralytics/yolov5', 'yolov5s', autoshape=False)  # load pretrained
model = torch.hub.load('ultralytics/yolov5', 'yolov5s', autoshape=False, pretrained=False)  # load scratch

Base64 Results

results = model(imgs)  # inference

results.imgs # array of original images (as np array) passed to model for inference
results.render()  # updates results.imgs with boxes and labels
for img in results.imgs:
    buffered = BytesIO()
    img_base64 = Image.fromarray(img)
    img_base64.save(buffered, format="JPEG")
    print(base64.b64encode(buffered.getvalue()).decode('utf-8'))  # base64 encoded image with results

使用PyTorch Hub加载自己在voc数据集上训练好的YOLOv5s 模型（20个类别，模型权重best.pt）

model = torch.hub.load('ultralytics/yolov5', 'custom', path='path/to/best.pt')  # default
model = torch.hub.load('path/to/yolov5', 'custom', path='path/to/best.pt', source='local')  # 本地加载

你可能感兴趣的:(CV,赛事,目标检测,深度学习,人工智能)

深度学习训练中GPU内存管理 @Mr_LiuYang 遇到过的问题内存管理内存溢出 out of memory GPU内存
文章目录概述常见问题1、设备选择和数据迁移2、显存监控函数3、显存释放函数4、自适应batchsize调节5、梯度累积概述在深度学习模型训练中，主流GPU显存通常为8GB~80GB，内存不足会导致训练中断或BatchSize受限，GPU内存管理是优化性能和避免OutOfMemoryError的关键挑战。本博客简介PyTorch中GPU内存管理的核心函数、用法和实战技巧，帮助开发者高效利用显存资源。
深度学习pytorch之简单方法自定义9类卷积即插即用 @Mr_LiuYang 计算机视觉基础卷积类型非对称卷积深度卷积空洞卷积组卷积深度可分离卷积动态卷积
本文详细解析了PyTorch中torch.nn.Conv2d的核心参数，通过代码示例演示了如何利用这一基础函数实现多种卷积操作。涵盖的卷积类型包括：标准卷积、逐点卷积（1x1卷积）、非对称卷积（长宽不等的卷积核）、空洞卷积（扩大感受野）、深度卷积（逐通道滤波）、组卷积（分组独立处理）、深度可分离卷积（深度+逐点组合）、转置卷积（上采样）和动态卷积（动态生成卷积核），帮助读者理解如何通过调整参数灵活
一学就会的深度学习基础指令及操作步骤（5）使用预训练模型小圆圆666 深度学习人工智能 python 卷积神经网络
文章目录使用预训练模型加载预训练模型图像加载与预处理预测使用预训练模型查看模型库和常用模型加载预训练模型fromtorchvision.modelsimportvgg16#VGG16模型架构的定义fromtorchvision.modelsimportVGG16_Weights#VGG16的预训练权重配置#loadtheVGG16network*pre-trained*ontheImageNetd
NTIRE比赛：技术前沿、国内企业表现与计算机视觉未来展望 AndrewHZ 深度学习新浪潮计算机视觉人工智能深度学习调研报告算法 NTIRE 画质算法
一、NTIRE比赛概述：图像恢复与增强领域的全球竞技场1.1NTIRE的定位与历史NTIRE（NewTrendsinImageRestorationandEnhancement）是计算机视觉领域最具影响力的国际赛事之一，聚焦于图像恢复与增强技术的前沿探索。自2017年首次举办以来，NTIRE每年与计算机视觉顶会CVPR联合召开，成为学术界与工业界技术实力的重要展示平台。其竞赛内容涵盖图像超分辨率、
清华DeepSeek以手札为剑，破AI迷津雾霭，开启荣耀进阶征途 2501_91080610 pdf
清华DeepSeek：以手札为剑，破AI迷津雾霭，开启荣耀进阶征途在当下这个科技浪潮奔涌不息的时代，人工智能领域成为了无数科研人员竞逐的“战场”。在这片充满无限可能却又迷雾重重的天地中，清华DeepSeek宛如一位英勇无畏的剑客，紧握“手札”这把利剑，奋力劈开迷津雾霭，大步踏上荣耀进阶的征途。溯源：手札中的智慧传承与沉淀清华DeepSeek背后，是一群怀揣着对AI炽热梦想的清华学子与科研精英。手札
深度学习PyTorch之数据加载DataLoader @Mr_LiuYang 计算机视觉基础深度学习 pytorch 人工智能
深度学习pytorch之简单方法自定义9类卷积即插即用文章目录数据加载基础架构1、Dataset类详解2、DataLoader核心参数解析3、数据增强数据加载基础架构核心类关系图torch.utils.data├──Dataset(抽象基类)├──DataLoader(数据加载器)├──Sampler(采样策略)├──BatchSampler(批量采样)└──IterableDataset(流式数
模型上下文协议（MCP）：构建 AI 与数据交互的新范式 xxgshxs 人工智能 chatgpt prompt 文心一言 llama copilot
引言在人工智能领域，大型语言模型（LLMs）的应用正从通用问答向复杂任务执行演进，但数据孤岛、工具集成碎片化及隐私安全等问题制约了其潜力。模型上下文协议（ModelContextProtocol,MCP）作为Anthropic提出的开放标准，旨在通过标准化接口连接AI应用与异构数据源及工具，重塑AI开发范式。本文从技术架构、核心功能、应用场景等维度解析MCP的设计逻辑与实践价值。一、核心概念与设计
量子计算如何颠覆能源优化领域：从理论到实践 Echo_Wish 人工智能前沿技术量子计算能源
量子计算如何颠覆能源优化领域：从理论到实践大家好，我是Echo_Wish，一个热爱探索前沿技术的人工智能与Python领域的技术分享者。今天，我们将深入探讨一个激动人心的话题——量子计算在能源优化中的应用。这不仅是科技领域的全新趋势，也可能为全人类的能源利用效率带来革命性突破。从理论模型到实际应用，量子计算已经在一些能源相关领域崭露头角，例如电网优化、可再生能源分配和物流节能规划。以下，让我们一步
AI人工智能 Agent：电力系统中智能体的应用 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能Agent：电力系统中智能体的应用作者：禅与计算机程序设计艺术1.背景介绍1.1电力系统的挑战与机遇电力系统是现代社会运行的基石，其安全、可靠、高效运行对经济发展和人民生活至关重要。近年来，随着可再生能源的快速发展、电力需求的不断增长以及电力市场化的推进，电力系统面临着前所未有的挑战，同时也迎来了新的发展机遇。挑战：可再生能源的波动性和间歇性：太阳能和风能等可再生能源的输出功率受天气条
CV如何开启多摄像头并且多线程艾米莉亚小汉堡 opencv python 计算机视觉
常规importcv2cv.imshow("窗口名称",照片)这个是开启窗口最为常见的方式开启摄像头读取图片一个简易的开启本机摄像头重要语句cv2.VideoCapturecap1.readimshowreleasedestoryAllWindowsimportcv2cap1=cv2.VideoCapture(0)#开启本机的摄像头#也可以是视频流#cap2=cv2.VideoCapture("r
卷积神经网络（笔记01）天行者@ cnn 人工智能深度学习
视觉处理三大任务：分类、目标检测、图像分割CNN网络主要有三部分构成：卷积层（ConvolutionalLayer）、池化层（PoolingLayer）和激活函数一、解释卷积层中的偏置项是什么，并讨论在神经网络中引入偏置项的好处。在卷积神经网络（CNN）的卷积层里，卷积操作本质上是输入数据与卷积核（滤波器）进行逐元素相乘再求和的过程。偏置项（Bias）是一个额外的可学习参数，对于每个卷积核而言，都
常用图像增强算法原理及 OpenCV C++ 实现埃菲尔铁塔_CV算法 opencv 计算机视觉人工智能 c++算法机器学习
一、引言图像增强是数字图像处理中的一个重要分支，其目的是改善图像的视觉效果，突出图像中的重要信息，或者将图像转换为更适合人或机器分析处理的形式。在实际应用中，图像增强技术广泛应用于医学影像、遥感图像、安防监控等领域。本文将详细介绍常用的图像增强算法原理，并给出基于OpenCVC++库的实现代码。二、图像增强算法分类图像增强算法可以分为空间域增强和频域增强两大类。空间域增强是直接对图像的像素值进行操
Python从0到100（七十六）：计算机视觉-直方图和自适应直方图均衡化是Dream呀 python 计算机视觉开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
opencv借助ffmpeg读取sdp文件进行rtp拉流 20231019 诗筱涵 rtsp 用简单代码实现功能 OpenCV rtp
20231019ffmpeg装起来很快编译命令g++rtp_ffmpeg_test.cpp-ooutput$(pkg-config--libsopencv4)代码如下#include#include#include#includeusingnamespacestd;usingnamespacecv;intmain(intargc,char**argv){cout>frame;if(frame.em
autoMate - AI实现电脑任务自动化的本地工具小众AI AI开源人工智能自动化运维
GitHub：https://github.com/yuruotong1/autoMate更多AI开源软件：发现分享好用的AI工具、AI开源软件、AI模型、AI变现-小众AIautoMate是一款由开源开发的本地自动化工具，以AI+RPA（人工智能+机器人流程自动化）为核心特色。它将大型语言模型的智能理解与RPA的流程执行能力结合，用户只需用自然语言描述任务，如“整理桌面文件”或“生成周报”，即可
【OpenCV C++】存图，如何以时间命名，“年月日-时分秒“产生唯一的文件名呢？“年月日-时分秒-毫秒“ 自动检查存储目录，若不存在自动创建存图 R-G-B OpenCV C++C/C++opencv c++人工智能
文章目录1生成文件名（格式:"年月日-时分秒"格式）2生成文件名（格式:"年月日-时分秒-毫秒"）3多模式存图函数4综合调用实例5注意：默认参数只能在头文件中定义，不能在实现中重复默认参数mode==1→“年月日-时分”→YYYYMMDD-HHMM的文件名；例如：20250310-1647mode==2→"年月日-时分秒-毫秒"→YYYYMMDD-HHMMSS-MMM（适用采集存储帧率搞得图片，增
CV：傅里叶变换壹十壹 CV 人工智能计算机视觉 python
图像中的傅里叶变换主要指将图像从空间域转换到频域的过程。通过傅里叶变换，我们可以将图像看作是不同频率正弦波的叠加，这有助于分析图像的周期性特征、纹理和噪声等信息。主要概念频域表示幅值谱（MagnitudeSpectrum）：反映了各个频率成分的能量或强度。低频部分一般对应图像中的整体轮廓和大致结构，高频部分则反映图像的边缘、细节和噪声。相位谱（PhaseSpectrum）：包含了图像的空间位置信息
深度学习：马氏距离壹十壹深度学习深度学习人工智能
马氏距离（MahalanobisDistance）是一种用于计算不同维度数据点之间距离的度量方法。它考虑了数据的协方差结构，因此在处理具有相关性的多维数据时更加有效。与欧氏距离不同，马氏距离不仅考虑了各个变量的量纲，还考虑了它们之间的相关性。公式马氏距离计算两个向量(x)和(y)之间的距离，定义为：DM(x,y)=(x−y)TS−1(x−y)\D_M(x,y)=\sqrt{(x-y)^TS^{-1
深度学习：CPU和GPU算力壹十壹深度学习深度学习 gpu算力人工智能
一、算力“算力”（ComputingPower）通常是指计算机或计算系统执行计算任务的能力。它是衡量系统处理数据、运行算法以及执行计算任务效率的重要指标。根据上下文，算力可以在以下几种场景中具体化：1.单机算力CPU算力：中央处理器的计算能力，通常用核心数量（cores）、时钟频率（GHz）、以及每秒浮点运算次数（FLOPS）等指标衡量。GPU算力：图形处理单元用于并行处理的能力，尤其是在深度学习
深度学习：偏差和方差壹十壹深度学习深度学习人工智能 python 机器学习
偏差（Bias）偏差衡量了模型预测值的平均值与真实值之间的差距。换句话说，偏差描述了模型预测的准确度。一个高偏差的模型容易出现欠拟合，即模型无法捕捉数据中的真实关系，因为它对数据的特征做出了错误的假设。特征：高偏差的模型通常是过于简单的模型，无法对数据中的复杂关系进行准确建模。高偏差模型的训练误差和测试误差可能都较高。解决方法：增加模型复杂度：例如增加多项式的阶数、增加神经网络的层数等。使用更多的
SOPHON SDK解码视频流的常见调试方法算能开发者社区 SOPHON SDK常见问题 linux 人工智能
SOPHONSDK解码视频流的常见调试方法1.rtsp连接测试2.判断rtsp是否正常工作3.确认解码器是否能正常工作：（url为文件名或者rtsp连接地址）4.确认解码器和vpp的OpenCV接口是否正常工作5.解码不正确或者无法解码的最终调试手段1.rtsp连接测试ffmpeg-rtsp_transporttcp-iurl-frawvideo-y/dev/null或者ffmpeg-rtsp_t
目标检测煤烦恼目标检测人工智能大数据 pytorch
1.概念：目标检测是识别图片中物体并确定其位置的多任务技术，面临目标种类数量多、尺度不均、外部环境干扰等问题。这里的数字为置信度2.数据集：VOC数据集分4大类20小类；COCO数据集含20万图像、80个类别、超50万目标标注，平均每图7.2个目标。3.GroundTruth格式：包含类别和边界框坐标，常见的有YOLO（归一化中心点坐标和宽高）、VOC（左上角和右下角坐标）、COCO（左上角坐标和
从零开始构建大模型(LLM)应用和老莫一起学AI 人工智能 ai 大模型语言模型 llm 自然语言处理学习
大模型（LLM）已经成为当前人工智能的重要部分。但是，在这个领域还没有固定的操作标准，开发者们往往没有明确的指导，需要不断尝试和摸索。在过去两年中，我帮助了许多公司利用LLM来开发了很多创新的应用产品。基于这些经验，我形成了一套实用的方法，并准备在这篇文章中与大家分享。这套方法将提供一些步骤，帮助需要的小伙伴在LLM应用开发的复杂环境中找到方向。从最初的构思到PoC、评估再到产品化，了解如何将创意
《 YOLOv5、YOLOv8、YOLO11训练的关键文件：data.yaml文件编写全解》空云风语人工智能 YOLO 机器视觉目标跟踪人工智能计算机视觉 YOLO
走进YOLOv5、YOLOv8、YOLO11的data.yaml在计算机视觉领域的广袤星空中，目标检测无疑是一颗璀璨的明星，它广泛应用于自动驾驶、智能安防、工业检测、医疗影像分析等众多关键领域，发挥着不可或缺的作用。而YOLO系列算法，更是以其独特的“一次看全（YouOnlyLookOnce）”理念和卓越的性能，在目标检测领域中独树一帜，成为了众多研究者和开发者的首选工具。从最初的YOLOv1横空
uniApp实战二：仿今日相机水印功能博主逸尘 uniApp实战 uni-app 数码相机 javascript
文章目录1.最终效果预览2.页面实现1.最终效果预览2.页面实现页面布局拍照data定义data(){return{snapSrc:"",cvHeight:"",cvWidth:"",tKey:"时间:",addKey:"地点:",};},点击事件及方法handleTakePhotoNew(){this.snapSrc=""uni.chooseImage({count:1,success:(res
CV：图像的直方图均衡化壹十壹 CV opencv 计算机视觉人工智能
均衡化在图像处理中通常指的是直方图均衡化（HistogramEqualization），其主要目的是改善图像的对比度，使图像细节更加明显。以下是对直方图均衡化的详细说明：直方图均衡化原理直方图图像的直方图表示各灰度级在图像中出现的频率。对于对比度较低的图像，直方图可能集中在灰度范围的某一小区间。均衡化目标直方图均衡化通过将原图的灰度分布重新映射，使得输出图像的直方图尽量均匀分布在整个灰度范围内。这
机器学习之线性代数珠峰日记 AI理论与实践机器学习线性代数人工智能
文章目录一、引言：线性代数为何是AI的基石二、向量：AI世界的基本构建块（一）向量的定义（二）向量基础操作（三）重要概念三、矩阵：AI数据的强大容器（一）矩阵的定义（二）矩阵运算（三）矩阵特性（四）矩阵分解（五）Python示例（使用NumPy库）四、线性代数在AI中的应用（一）数据表示（二）降维：PCA（三）线性回归（四）计算机视觉（五）自然语言处理一、引言：线性代数为何是AI的基石在人工智能领
深度解析：DETR的多尺度特征融合 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
"深度解析：DETR的多尺度特征融合"作者：禅与计算机程序设计艺术1.背景介绍1.1目标检测的挑战与传统方法的局限性目标检测是计算机视觉领域中的一个基本任务，其目标是识别图像或视频中所有感兴趣的目标，并确定它们的位置和类别。传统的目标检测方法，如FasterR-CNN和YOLO，通常依赖于预定义的锚框或候选区域来生成目标proposals。然而，这些方法存在一些固有的局限性：人工先验知识:锚框的设
基于transformer实现机器翻译(日译中) 小白_laughter 课程学习 transformer 机器翻译深度学习
文章目录一、引言二、使用编码器—解码器和注意力机制来实现机器翻译模型2.0含注意力机制的编码器—解码器2.1读取和预处理数据2.2含注意力机制的编码器—解码器2.3训练模型2.4预测不定长的序列2.5评价翻译结果三、使用Transformer架构和PyTorch深度学习库来实现的日中机器翻译模型3.1、导入必要的库3.2、数据集准备3.3、准备分词器3.4、构建TorchText词汇表对象，并将句
【NLP 39、激活函数 ⑤ Swish激活函数】 L_cl NLP 自然语言处理人工智能
我的孤独原本是座荒岛，直到你称成潮汐，原来爱是让个体失序的永恒运动——25.2.25Swish激活函数是一种近年来在深度学习中广泛应用的激活函数，由GoogleBrain团队在2017年提出。其核心设计结合了Sigmoid门控机制和线性输入的乘积，通过引入平滑性和非单调性来提升模型性能。一、数学定义与变体1.基础形式Swish的标准表达式为：Swish(x)=x⋅σ(βx)其中：σ(x)是Sigm
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟