Re-赟

【代码解读】RRNet: A Hybrid Detector for Object Detection in Drone-captured Images

文章目录

- 1. train.py
- 2. DistributedWrapper类
- - 2.1 init函数
  - 2.2 train函数
  - 2.3 dist_training_process函数
- 3. RRNetOperator类
- - 3.1 init函数
  - - 3.1.1 make_dataloader函数
  - 3.2 training_process函数
  - - 3.2.1 criterion函数
- 4. RRNet类（网络模型类）
- - 4.1 init函数
  - - 4.1.1 get_backbone函数
    - 4.1.2 CenterNetDetector类
    - 4.1.3 FasterRCNNDetector类
  - 4.2 forward函数
  - - 4.2.1 forward_stage1函数
    - 4.2.2 transform_bbox函数
    - 4.2.3 forward_stage2函数
- 5. DronesDET类（数据集类）
- - 5.1 init函数
  - - 5.1.1 self.transforms组合类
    - - 5.1.1.1 FillDuck类
  - 5.2 __getitem__函数

1. train.py

首先我们将代码从GitHub上下载下来：代码地址

找到程序的主入口train.py这个类，可以看到这个类比较简单，大部分是引用其他类。具体每一个类的定义可以从不同小节中查看

from configs.rrnet_config import Config
from operators.distributed_wrapper import DistributedWrapper
from operators.rrnet_operator import RRNetOperator


if __name__ == '__main__':
    dis_operator = DistributedWrapper(Config, RRNetOperator)  详见 2 节
    dis_operator.train()
    print('Training is Done!')

2. DistributedWrapper类

2.1 init函数

首先来看这个类的初始化函数

def __init__(self, cfg, operator_class):
    """
    This is a wrapper class for distributed training.
    :param cfg: configuration.
    :param operator_class: We use this class to construct the operator for training and evaluating.
    """
    self.cfg = cfg
    self.operator_class = operator_class

这是一个用于分布式训练的包装器（Wrapper）类。它用于在分布式环境下进行训练。

构造函数中的参数说明如下：
	cfg: 表示配置参数，用于设置训练过程中的各种参数和超参数。
	operator_class: 这是一个类（Class），用于构造训练和评估操作符（Operator）

2.2 train函数

def train(self):
    """
    Start multiprocessing training.
    """
    self.setup_distributed_params()
    mp.spawn(self.dist_training_process, nprocs=self.cfg.Distributed.ngpus_per_node,
             args=(self.cfg.Distributed.ngpus_per_node, self.cfg))

mp.spawn 函数用于启动多个训练进程，并在每个进程中调用 self.dist_training_process 方法
nprocs 参数表示启动的进程数，即用于分布式训练的GPU数量（或进程数量）
args 参数是传递给每个进程的参数，这里传递了 self.cfg.Distributed.ngpus_per_node 和 self.cfg。

2.3 dist_training_process函数

def dist_training_process(self, gpu, ngpus_per_node, cfg):
   operator = self.init_operator(gpu, ngpus_per_node, cfg)
   operator.training_process()

来看一下 init_operator 函数

def init_operator(self, gpu, ngpus_per_node, cfg):
    """
    Create distributed model operator.
    :param gpu: gpu id.
    :param ngpus_per_node: to calculate the real rank.
    :param cfg: configuration.
    :return: model operator.
    """
    cfg.Distributed.gpu_id = gpu
    print("=> Use GPU: {}".format(gpu))

    # I. Init distributed process group.
    cfg.Distributed.rank = cfg.Distributed.rank * ngpus_per_node + gpu
    dist.init_process_group(backend='nccl', init_method=cfg.Distributed.dist_url,
                            world_size=cfg.Distributed.world_size, rank=cfg.Distributed.rank)
    torch.cuda.set_device(gpu)
    # II. Init operator.
    return self.operator_class(cfg)

首先将当前进程的GPU编号 gpu 赋值给配置参数 cfg.Distributed.gpu_id，用于指定当前进程使用的GPU
然后，根据当前进程的GPU编号和 ngpus_per_node 计算当前进程的真实排名（rank），赋值给配置参数 cfg.Distributed.rank。排名是用于在分布式训练中标识不同进程的标识符，每个进程都有唯一的排名。
接下来，通过调用 dist.init_process_group 方法初始化分布式进程组
随后，通过 torch.cuda.set_device(gpu) 将当前进程的GPU设备设置为 gpu，以确保模型和数据存储在正确的GPU上。
最后，通过调用 self.operator_class(cfg) 创建并初始化模型操作符，并将其返回。

init_operator 的返回值是RRNetOperator类，紧接着调用operator.training_process()进行训练，所以需要查看RRNetOperator的定义（详见 3 节）。

3. RRNetOperator类

3.1 init函数

def __init__(self, cfg):
   self.cfg = cfg

   model = RRNet(cfg).cuda(cfg.Distributed.gpu_id)
   model = nn.SyncBatchNorm.convert_sync_batchnorm(model)

   self.optimizer = optim.Adam(model.parameters(), lr=cfg.Train.lr)

   self.lr_sch = optim.lr_scheduler.MultiStepLR(self.optimizer, milestones=cfg.Train.lr_milestones, gamma=0.1)
   self.training_loader, self.validation_loader = make_dataloader(cfg, collate_fn='rrnet')

   super(RRNetOperator, self).__init__(cfg=self.cfg, model=model, lr_sch=self.lr_sch)

   # TODO: change it to our class
   self.hm_focal_loss = FocalLossHM()
   self.l1_loss = RegL1Loss()

   self.main_proc_flag = cfg.Distributed.gpu_id == 0

初始化 RRNet 模型，并将其移动到 cfg.Distributed.gpu_id 指定的GPU上  （详见 4 节）
将模型中的 BatchNorm 层转换为同步 BatchNorm，以便在分布式训练中使用

初始化 Adam 优化器，用于更新模型参数。
初始化学习率调度器，用于调整优化器的学习率

初始化训练数据加载器和验证数据加载器，用于加载训练和验证数据 （详见3.1.1）
调用父类 BaseOperator 的构造函数，传递配置参数、模型和学习率调度器。

初始化热图的 Focal Loss，用于计算热图的损失函数。
初始化回归损失函数，用于计算目标的回归损失

判断当前进程是否为主进程（即 GPU 编号为 0 的进程），如果是主进程，则设置 self.main_proc_flag 为 True，否则为 False。

3.1.1 make_dataloader函数

datasets = {
    'drones_det': DronesDET
}

def make_dataloader(cfg, collate_fn=None):
    if cfg.dataset not in datasets:
        raise NotImplementedError

    train_dataset = datasets[cfg.dataset](root_dir=cfg.data_root, transforms=cfg.Train.transforms, split='train',
                                          with_road_map=cfg.Train.with_road)	（详见 5 节）
    val_dataset = datasets[cfg.dataset](root_dir=cfg.data_root, transforms=cfg.Val.transforms, split='val')

    if collate_fn is 'ctnet':
        collate_fn = train_dataset.collate_fn_ctnet
    elif collate_fn is 'rrnet':
        collate_fn = train_dataset.collate_fn_ctnet
    else:
        collate_fn = train_dataset.collate_fn

    train_loader = _Dataloader(DataLoader(train_dataset,
                                          batch_size=cfg.Train.batch_size, num_workers=cfg.Train.num_workers,
                                          sampler=cfg.Train.sampler(train_dataset) if cfg.Train.sampler else None,
                                          pin_memory=True, collate_fn=collate_fn,
                                          shuffle=True if cfg.Train.sampler is None else False))
    val_loader = DataLoader(val_dataset,
                                        batch_size=cfg.Val.batch_size, num_workers=cfg.Val.num_workers,
                                        sampler=cfg.Val.sampler(val_dataset) if cfg.Val.sampler else None,
                                        pin_memory=True, collate_fn=train_dataset.collate_fn,
                                        shuffle=True if cfg.Val.sampler is None else False)

    return train_loader, val_loader

根据配置参数 cfg.dataset 确定数据集的名称，并检查数据集是否在 datasets 字典中注册
根据配置参数创建训练和验证数据集 train_dataset 和 val_dataset  

根据 collate_fn 的值确定使用哪个数据集的 collate_fn
	如果 collate_fn 为 'ctnet' 或 'rrnet'：则使用相应数据集的 collate_fn_ctnet 方法
	否则使用数据集的默认 collate_fn 方法
	
创建训练数据加载器 train_loader 和验证数据加载器 val_loader
最后，返回创建的训练和验证数据加载器 train_loader 和 val_loader

3.2 training_process函数

def training_process(self):
    if self.main_proc_flag:
        logger = Logger(self.cfg)

    self.model.train()

    total_loss = 0
    total_hm_loss = 0
    total_wh_loss = 0
    total_off_loss = 0
    total_s2_reg_loss = 0

    for step in range(self.cfg.Train.iter_num):
        self.lr_sch.step()
        self.optimizer.zero_grad()
        
        try:
            imgs, annos, gt_hms, gt_whs, gt_inds, gt_offsets, gt_reg_masks, names = self.training_loader.get_batch()
            targets = gt_hms, gt_whs, gt_inds, gt_offsets, gt_reg_masks, annos
        except RuntimeError as e:
            if 'out of memory' in str(e):
                print("WARNING: ran out of memory with exception at step {}.".format(step))
            continue

        outs = self.model(imgs)
        targets = gt_hms, gt_whs, gt_inds, gt_offsets, gt_reg_masks, annos
        hm_loss, wh_loss, offset_loss, s2_reg_loss = self.criterion(outs, targets)

        if step < 2000:
            s2_factor = 0
        else:
            s2_factor = 1
        loss = hm_loss + (0.1 * wh_loss) + offset_loss + s2_reg_loss*s2_factor
        loss.backward()
        self.optimizer.step()

        total_loss += float(loss)
        total_hm_loss += float(hm_loss)
        total_wh_loss += float(wh_loss)
        total_off_loss += float(offset_loss)
        total_s2_reg_loss += float(s2_reg_loss)

        if self.main_proc_flag:
            if step % self.cfg.Train.print_interval == self.cfg.Train.print_interval - 1:
                # Loss
                for param_group in self.optimizer.param_groups:
                    lr = param_group['lr']
                log_data = {'scalar': {
                    'train/total_loss': total_loss / self.cfg.Train.print_interval,
                    'train/hm_loss': total_hm_loss / self.cfg.Train.print_interval,
                    'train/wh_loss': total_wh_loss / self.cfg.Train.print_interval,
                    'train/off_loss': total_off_loss / self.cfg.Train.print_interval,
                    'train/s2_reg_loss': total_s2_reg_loss / self.cfg.Train.print_interval,
                    'train/lr': lr
                }}

                # Generate bboxs
                s1_pred_bbox, s2_pred_bbox = self.generate_bbox(outs, batch_idx=0)

                # Visualization
                img = (denormalize(imgs[0].cpu()).permute(1, 2, 0).cpu().numpy() * 255).astype(np.uint8)
                # Do nms
                s2_pred_bbox = self._ext_nms(s2_pred_bbox)
                #
                s1_pred_on_img = visualize(img.copy(), s1_pred_bbox, xywh=True, with_score=True)
                s2_pred_on_img = visualize(img.copy(), s2_pred_bbox, xywh=True, with_score=True)
                gt_img = visualize(img.copy(), annos[0, :, :6], xywh=False)

                s1_pred_on_img = torch.from_numpy(s1_pred_on_img).permute(2, 0, 1).unsqueeze(0).float() / 255.
                s2_pred_on_img = torch.from_numpy(s2_pred_on_img).permute(2, 0, 1).unsqueeze(0).float() / 255.
                gt_on_img = torch.from_numpy(gt_img).permute(2, 0, 1).unsqueeze(0).float() / 255.
                log_data['imgs'] = {'Train': [s1_pred_on_img, s2_pred_on_img, gt_on_img]}
                logger.log(log_data, step)

                total_loss = 0
                total_hm_loss = 0
                total_wh_loss = 0
                total_off_loss = 0
                total_s2_reg_loss = 0

            if step % self.cfg.Train.checkpoint_interval == self.cfg.Train.checkpoint_interval - 1 or \
                    step == self.cfg.Train.iter_num - 1:
                self.save_ckp(self.model.module, step, logger.log_dir)

判断当前进程是否是主进程，如果是则初始化一个记录器，用于记录训练过程和指标。
将模型设置为训练模式
初始化变量以跟踪训练过程中的总损失和不同损失组件 total_loss，total_hm_loss，total_wh_loss，total_off_loss，total_s2_reg_loss
循环遍历训练步骤（iter_num 是总训练步数）：
	self.lr_sch.step()：使用学习率调度器调整学习率。
	self.optimizer.zero_grad()：在反向传播之前将所有模型参数的梯度清零。
	
尝试从训练数据加载器中加载一个批次的训练数据：
	self.training_loader.get_batch()：获取一个训练数据批次，包括图像、注释、gt热图、gt宽高、gt索引、gt偏移量、gt区域掩码和图像名称
	如果数据加载过程中出现 "out of memory" 错误，捕获错误并跳过下一个训练步骤

通过模型进行前向传播，以获取给定输入图像imgs的预测结果outs （详见4.2节）
将gt_hms, gt_whs, gt_inds, gt_offsets, gt_reg_masks, annos赋值为targets
self.criterion(outs, targets)：计算损失，包括热图损失（hm_loss）、宽高损失（wh_loss）、偏移量损失（offset_loss）和 s2 回归损失（s2_reg_loss）（详见3.3.1节）

在前2000个训练步之前，将 s2_factor 设置为 0，之后设置为 1。它是应用于 s2 回归损失的缩放因子
将损失组件组合在一起以计算用于反向传播的总损失（loss）。
	loss.backward()：计算损失相对于模型参数的梯度。
	self.optimizer.step()：使用计算得到的梯度更新模型参数。
更新当前迭代的总损失和各个损失组件，包括：total_loss，total_hm_loss，total_wh_loss，total_off_loss，total_s2_reg_loss

如果当前进程是主进程，并且当前步数是打印间隔的最后一步（print_interval 是打印间隔），则执行以下操作：
	为每个参数组获取学习率，并保存到 lr 中。
	创建一个字典 log_data，用于存储要记录的数据，包括总损失和各个损失组件的平均值以及学习率。
	生成预测的边界框 s1_pred_bbox 和 s2_pred_bbox。
	将图像从张量转换为NumPy数组，用于可视化。
	执行非最大抑制（NMS）算法，筛选出 s2_pred_bbox 中的重叠边界框。
	用 visualize 函数，将预测的边界框绘制在图像上，并将结果存储在 s1_pred_on_img 和 s2_pred_on_img 中。
	将原始注释（ground truth）绘制在图像上，结果存储在 gt_img 中。
	将图像转换回PyTorch张量，并进行相应的归一化操作。
	创建一个字典 log_data['imgs'] 来存储生成的图像。这些图像将在日志中记录。
	将损失组件的计数器重置为零，以便下一个打印间隔时重新计算平均值。
	
	如果当前步数是保存检查点的间隔的最后一步，或者当前步数是训练的最后一步，则执行以下操作：
		调用 self.save_ckp 函数保存模型的检查点

3.2.1 criterion函数

 def criterion(self, outs, targets):
     s1_hms, s1_whs, s1_offsets, s2_reg, bxyxy, scores, _ = outs
     gt_hms, gt_whs, gt_inds, gt_offsets, gt_reg_masks, gt_annos = targets
     bs = s1_hms[0].size(0)
     hm_loss = 0
     wh_loss = 0
     off_loss = 0

     # I. Stage 1
     for s in range(self.cfg.Model.num_stacks):
         s1_hm = s1_hms[s]
         s1_wh = s1_whs[s]
         s1_offset = s1_offsets[s]
         s1_hm = torch.clamp(torch.sigmoid(s1_hm), min=1e-4, max=1-1e-4)
         # Heatmap Loss
         hm_loss += self.hm_focal_loss(s1_hm, gt_hms) / self.cfg.Model.num_stacks
         # WH Loss
         wh_loss += self.l1_loss(s1_wh, gt_reg_masks, gt_inds, gt_whs) / self.cfg.Model.num_stacks
         # OffSet Loss
         off_loss += self.l1_loss(s1_offset, gt_reg_masks, gt_inds, gt_offsets) / self.cfg.Model.num_stacks

     # II. Stage2 Loss
     s2_reg_loss = 0
     # Calculate IOU between prediction and bbox
     # 1. Transform bbox.
     gt_annos[:, :, 2:4] += gt_annos[:, :, 0:2]
     for b_idx in range(bs):
         batch_flag = bxyxy[:, 0] == b_idx
         bbox = bxyxy[batch_flag][:, 1:]
         gt_anno = gt_annos[b_idx]
         iou = torchvision.ops.box_iou(bbox*self.cfg.Train.scale_factor, gt_anno[:, :4])
         max_iou, max_idx = torch.max(iou, dim=1)
         pos_idx = max_iou > 0.5
         # 2. Regression Loss
         if pos_idx.sum() == 0:
             pos_idx = torch.zeros_like(max_iou, device=max_iou.device).byte()
             pos_idx[0] = 1
             pos_factor = 0
         else:
             pos_factor = 1
         gt_reg = self.generate_bbox_target(bbox[pos_idx, :]*self.cfg.Train.scale_factor, gt_anno[max_idx[pos_idx], :4])
         s2_reg_loss += F.smooth_l1_loss(s2_reg[batch_flag][pos_idx], gt_reg) * pos_factor / bs
     return hm_loss, wh_loss, off_loss, s2_reg_loss

将outs解包为各个阶段的预测结果
将targets解包为真实的标签信息
获取batch size
初始化heatmap、WH和Offset的损失为0

循环遍历网络输出的每个阶段：
	获取当前阶段的heatmap、WH和Offset预测结果
	对当前阶段的heatmap进行sigmoid激活函数并进行范围截断，避免出现取log时的溢出和计算NaN
	计算heatmap损失，使用Focal Loss作为损失函数，并将每个阶段的heatmap损失累加到hm_loss中
	计算WH损失，使用平滑L1损失函数，并将每个阶段的WH损失累加到wh_loss中
	计算Offset损失，使用平滑L1损失函数，并将每个阶段的Offset损失累加到off_loss中

初始化Stage2的回归损失为0
将真实边界框的坐标从(x_min, y_min, w, h)形式转换为(x_min, y_min, x_max, y_max)形式
循环遍历batch中的每个样本：
	从bbox的第一列中得到当前样本的标识
	获取当前样本对应的预测边界框
	获取当前样本的真实边界框
	计算预测边界框和真实边界框之间的IoU
	找到每个预测边界框与真实边界框最匹配的IoU和对应的真实边界框索引
	找到IoU大于0.5的预测边界框的索引（表示匹配的边界框）

  	如果没有匹配的边界框，则选择一个预测边界框作为匹配，以确保至少有一个匹配的边界框
    并将pos_factor设置为0表示没有匹配的边界框，否则设置为1表示有至少一个匹配的边界框
    生成匹配的预测边界框和对应的真实边界框的回归目标
	使用平滑L1损失函数计算回归损失，并将每个样本的回归损失累加到s2_reg_loss中。

返回第一阶段的heatmap损失hm_loss，WH损失wh_loss，Offset损失off_loss
和第二阶段的回归损失s2_reg_loss作为损失函数的输出。

4. RRNet类（网络模型类）

4.1 init函数

def __init__(self, cfg):
    super(RRNet, self).__init__()
    self.num_stacks = cfg.Model.num_stacks
    self.num_classes = cfg.num_classes
    self.nms_type = cfg.Model.nms_type_for_stage1
    self.nms_per_class = cfg.Model.nms_per_class_for_stage1

    self.backbone = get_backbone(cfg.Model.backbone, num_stacks=self.num_stacks)		详见4.1.1
    self.hm = CenterNetDetector(planes=self.num_classes, num_stacks=self.num_stacks, hm=True) 详见4.1.2
    self.wh = CenterNetWHDetector(planes=1, num_stacks=self.num_stacks)
    self.offset_reg = CenterNetDetector(planes=2, num_stacks=self.num_stacks)
    self.head_detector = FasterRCNNDetector()							详见4.1.3

4.1.1 get_backbone函数

根据配置文件我们可以知道，model的backbone是hourglass

def hourglass_net(num_stacks=2):
    """
    Make Hourglass Net.
    :param num_stacks: number of stacked blocks.
    :return: model
    """
    model = HourglassNet(num_stacks=num_stacks)
    model.load_state_dict(torch.load('./hourglass.pth'), strict=False)
    return model

4.1.2 CenterNetDetector类

class CenterNetDetector(nn.Module):
    def __init__(self, planes, hm=True, num_stacks=2):
        super(CenterNetDetector, self).__init__()
        self.hm = hm
        self.num_stacks = num_stacks
        self.detect_layer = nn.ModuleList([nn.Sequential(
            BasicCov(3, 256, 256, with_bn=False),
            # BasicCov(3, 40 * (2 ** _), 256, with_bn=False),
            nn.Conv2d(256, planes, (1, 1))
        ) for _ in range(self.num_stacks)
        ])
        if self.hm:
            for heat in self.detect_layer:
                heat[-1].bias.data.fill_(-2.19)

    def forward(self, input, index):
        output = self.detect_layer[index](input)
        return output

在__init__方法中，设置了一些属性：
	self.hm: 一个布尔值，表示是否生成热图（heatmap）的预测。如果hm=True，则需要生成热图的预测，否则不需要。
	self.num_stacks: 表示堆叠的数量。该属性用于确定需要生成多少个堆叠的预测结果。
	创建了一个nn.ModuleList，其中每个元素是一个包含几个层的nn.Sequential对象。
	对于每个堆叠，nn.Sequential中包含：
		一个BasicCov层，这是一个自定义的卷积层，输入通道为3，输出通道为256。
		一个nn.Conv2d层，用于将256通道的特征图输出到指定的planes通道。这里默认为num_classes
	如果self.hm为True，则对所有的nn.Conv2d层的bias进行初始化

在forward方法中，输入input和索引index，然后调用相应堆叠的detect_layer，并将input传递给它，得到输出output。该输出表示对应堆叠的检测器的预测结果。

4.1.3 FasterRCNNDetector类

class FasterRCNNDetector(nn.Module):
    def __init__(self):
        super(FasterRCNNDetector, self).__init__()

        self.top_layer = Bottleneck(inplanes=256, planes=64)
        self.regressor = nn.Conv2d(256, 4, kernel_size=1)

    def forward(self, feat):
        feat = self.top_layer(feat)
        feat = F.adaptive_avg_pool2d(feat, 1)
        reg = self.regressor(feat)
        reg = reg.view(reg.size(0), reg.size(1))
        return reg

在__init__方法中，创建了两个成员变量：
	self.top_layer：表示Faster R-CNN中的顶层特征层。这里采用了Bottleneck作为顶层特征层。
					Bottleneck是一个自定义的卷积层，其参数inplanes=256表示输入通道数为256，planes=64表示输出通道数为64。
	self.regressor：表示回归层，用于预测目标框的边界框坐标。
					nn.Conv2d(256, 4, kernel_size=1)定义了一个卷积层，输入通道数为256，输出通道数为4，即每个目标框有4个边界坐标。

在forward方法中，输入feat是从CenterNet中传递过来的特征图。
	首先，将feat传递给self.top_layer，得到顶层特征层feat。
	对feat进行自适应平均池化（adaptive average pooling）操作，将其尺寸调整为1x1，以得到一个固定大小的特征向量。
	将特征向量传递给self.regressor，进行回归操作，得到目标框的边界框坐标预测
	将预测结果展平为(batch_size, 4)的形状，其中4表示每个目标框的边界框坐标信息
	返回边界框坐标预测reg

4.2 forward函数

def forward(self, x, k=1500):
  # I. Forward Backbone
  pre_feat = self.backbone(x)
  # II. Forward Stage 1 to generate heatmap, wh and offset.
  hms, whs, offsets = self.forward_stage1(pre_feat)  								详见4.2.1
  # III. Generate the true xywh for Stage 1.
  bboxs = self.transform_bbox(hms[-1], whs[-1], offsets[-1], k)  # (bs, k, 6)		详见4.2.2

  # IV. Stage 2.
  bxyxys = []
  scores = []
  clses = []
  for b_idx in range(bboxs.size(0)):
      # Do nms
      bbox = bboxs[b_idx]
      bbox = self.nms(bbox)
      xyxy = bbox[:, :4]
      scores.append(bbox[:, 4])
      clses.append(bbox[:, 5])
      batch_idx = torch.ones((xyxy.size(0), 1), device=xyxy.device) * b_idx
      bxyxy = torch.cat((batch_idx, xyxy), dim=1)
      bxyxys.append(bxyxy)
  bxyxys = torch.cat(bxyxys, dim=0)
  scores = torch.cat(scores, dim=0)
  clses = torch.cat(clses, dim=0)
  #  Generate the ROIAlign features.
  roi_feat = torchvision.ops.roi_align(torch.relu(pre_feat[-1]), bxyxys, (3, 3))
  # Forward Stage 2 to predict and wh offset.
  stage2_reg = self.forward_stage2(roi_feat)											详见4.2.3
  return hms, whs, offsets, stage2_reg, bxyxys, scores, clses

首先，通过self.backbone(x)调用网络的backbone部分来对输入x进行前向传播，得到pre_feat。
然后，调用self.forward_stage1(pre_feat)来将pre_feat传递给Stage 1，以生成预测的热图（heatmap）、宽高（wh）和偏移（offsets）。这些预测存储在hms、whs和offsets变量中。

接下来，通过调用self.transform_bbox(hms[-1], whs[-1], offsets[-1], k)
对Stage 1的输出进行后处理，以生成真实的边界框坐标。这些边界框存储在变量bboxs中。

然后，对每个边界框进行非极大值抑制（NMS），以去除冗余的预测框。
处理后的边界框存储在变量bxyxys中，其中包含边界框的坐标（xyxy）、得分和类别

使用torchvision.ops.roi_align函数，将pre_feat[-1]和bxyxys作为输入，生成ROIAlign特征roi_feat。

最后，将roi_feat传递给Stage 2，即调用self.forward_stage2(roi_feat)，以预测边界框的宽高和偏移
将预测结果以元组的形式返回：hms、whs、offsets、stage2_reg、bxyxys、scores和clses。

4.2.1 forward_stage1函数

 def forward_stage1(self, feats):
     hms = []
     whs = []
     offsets = []
     for i in range(self.num_stacks):
         feat = feats[i]
         feat = torch.relu(feat)
         hm = self.hm(feat, i)
         wh = self.wh(feat, i)
         offset = self.offset_reg(feat, i)
         hms.append(hm)
         whs.append(wh)
         offsets.append(offset)
     return hms, whs, offsets

创建三个空列表：hms、whs和offsets
用for循环遍历feats中的每个特征图，并进行以下操作：
	通过torch.relu(feat)将特征图进行ReLU激活。
	将ReLU激活后的特征图传递给self.hm，并传递堆叠的索引i，得到热图预测hm。
	将ReLU激活后的特征图传递给self.wh，并传递堆叠的索引i，得到宽高预测wh。
	将ReLU激活后的特征图传递给self.offset_reg，并传递堆叠的索引i，得到偏移预测offset。
将每个堆叠的热图、宽高和偏移预测分别添加到对应的列表hms、whs和offsets中
最后，将三个列表hms、whs和offsets作为结果返回，这些列表分别包含了不同堆叠的热图、宽高和偏移预测结果

4.2.2 transform_bbox函数

 def transform_bbox(self, hm, wh, offset, k=250):
      batchsize, cls_num, h, w = hm.size()
      hm = torch.sigmoid(hm)

      scores, inds, clses, ys, xs = self._topk(hm, k)

      offset = self._transpose_and_gather_feat(offset, inds)
      offset = offset.view(batchsize, k, 2)
      xs = xs.view(batchsize, k, 1) + offset[:, :, 0:1]
      ys = ys.view(batchsize, k, 1) + offset[:, :, 1:2]
      wh = self._transpose_and_gather_feat(wh, inds).clamp(min=0)

      wh = wh.view(batchsize, k, 2)
      clses = clses.view(batchsize, k, 1).float()
      scores = scores.view(batchsize, k, 1)

      pred_x = (xs - wh[..., 0:1] / 2)
      pred_y = (ys - wh[..., 1:2] / 2)
      pred_w = wh[..., 0:1]
      pred_h = wh[..., 1:2]
      pred = torch.cat([pred_x, pred_y, pred_w + pred_x, pred_h + pred_y, scores, clses], dim=2)
      return pred

对热图hm应用Sigmoid激活函数，将其转换为概率值，表示每个像素点是目标的概率。
调用_topk函数，从热图中选取前k个最高概率的像素点，并获取这些像素点的坐标、类别、分数等信息。这个函数用于筛选预测结果。

对偏移offset进行变换和采样，将其应用到对应的高分概率像素点的坐标上，得到修正后的目标中心点坐标。

对宽高wh进行变换和采样，将其应用到对应的高分概率像素点上，并取值大于等于零，确保预测的宽高是非负的。
将预测的中心点坐标和宽高信息拼接在一起，形成最终的边界框预测结果。
返回包含边界框预测信息的pred

4.2.3 forward_stage2函数

def forward_stage2(self, feats,):
    stage2_reg = self.head_detector(feats)
    return stage2_reg

5. DronesDET类（数据集类）

5.1 init函数

def __init__(self, root_dir, transforms=None, split='train', with_road_map=False):
     '''
     :param root_dir: root of annotations and image dirs
     :param transform: Optional transform to be applied
             on a sample.
     '''
     # get the csv
     self.images_dir = os.path.join(root_dir, split, 'images')
     self.annotations_dir = os.path.join(root_dir, split, 'annotations')
     self.roadmap_dir = os.path.join(root_dir, split, 'roadmap')
     mdf = os.listdir(self.images_dir)
     restr = r'\w+?(?=(.jpg))'
     for index, mm in enumerate(mdf):
         mdf[index] = re.match(restr, mm).group()
     self.mdf = mdf
     self.transforms = transforms
     self.with_road_map = with_road_map

根据root_dir和split参数构建了指向'images'目录的路径。
根据root_dir和split参数构建了指向'annotations'目录的路径
根据root_dir和split参数构建了指向'roadmap'目录的路径
列出了'images'目录中的所有文件，并将它们赋值给变量mdf。
定义了一个正则表达式模式。用于匹配文件名中的字母数字字符（和下划线）

定义一个循环，它遍历mdf列表中的每个元素
	使用re.match函数将正则表达式模式（restr）应用于当前文件名（mm），提取文件名中的字母数字部分（不包括'.jpg'扩展名），并将其重新赋值给mdf列表的对应索引。
循环结束后，将只包含文件名（不带'.jpg'）的修改后的mdf列表赋值给实例变量self.mdf。

将传递给构造方法的transforms参数赋值给实例变量self.transforms
将传递给构造方法的with_road_map参数赋值给实例变量self.with_road_map	（这里默认是true）

5.1.1 self.transforms组合类

查看self.transforms的具体定义

Config.Train.transforms = Compose([
    MultiScale(scale=(1, 1.15, 1.25, 1.35, 1.5)),
    ToTensor(),
    MaskIgnore(Config.Train.mean),
    FillDuck(),
    HorizontalFlip(),
    RandomCrop(Config.Train.crop_size),
    Normalize(Config.Train.mean, Config.Train.std),
    ToHeatmap(scale_factor=Config.Train.scale_factor)
])

MultiScale是一个多尺度缩放转换。它将图像按照指定的尺度因子进行多次缩放，以增加训练数据的多样性
ToTensor将图像和注释数据转换为张量形式
MaskIgnore是一个mask忽略转换。它使用指定的均值（Config.Train.mean）来标记忽略区域

FillDuck这是一个填充“Duck”的转换				（论文中的数据增强，详见5.1.1.1）  

HorizontalFlip这是一个水平翻转转换。它以一定的概率水平翻转图像，从而增加数据的多样性。
RandomCrop(Config.Train.crop_size)是一个随机裁剪转换。它将图像随机裁剪到指定的尺寸
Normalize(Config.Train.mean, Config.Train.std)是一个图像归一化转换。它将图像像素值标准化为均值为Config.Train.mean，标准差为Config.Train.std的数据
ToHeatmap(scale_factor=Config.Train.scale_factor)是一个转换，将图像数据转换为热图（heatmap）数据。热图常用于一些特定的目标检测或姿态估计任务，用于标记目标的位置或关键点。

5.1.1.1 FillDuck类

class FillDuck(object):
    def __init__(self, cls_list=(1, 2, 3, 7, 8, 10), factor=0.00005):
        self.cls_list = torch.tensor(cls_list).unsqueeze(0)
        self.factor = factor

    def __call__(self, data):
        return F.fill_duck(data, self.cls_list, self.factor)

cls_list 是一个包含需要填充的目标类别的列表，默认包含类别 1、2、3、7、8 和 10。（论文中提到的类别）
factor 是一个填充因子，用于控制填充的程度，默认为 0.00005

接下来来看fill_duck的具体定义

def fill_duck(data, cls_list, factor):
    try:
        img, annos, roadmap = data

        # I. Get valid area.
        valid_idx = roadmap.view(-1)
        idx = torch.nonzero(valid_idx).view(-1)
        if idx.size(0) == 0:
            return img, annos
        xs = idx % roadmap.size(1)
        ys = idx // roadmap.size(1)
        coor = torch.stack((xs, ys), dim=1)

        annos_cls = annos[:, 5]
		
从data中解包出图像、注释和roadmap数据，分别赋值给img、annos和roadmap。
将roadmap数据展平为一维张量，valid_idx中的元素是原始roadmap图像中每个像素的值。
通过torch.nonzero函数找到valid_idx中非零元素的索引，即有效区域的索引。然后使用view(-1)将索引展平为一维张量。
如果有效区域中的像素数量为0（即没有有效区域）
	则直接返回原始图像和注释数据，不进行后续的处理。
计算有效区域中每个像素的x坐标
计算有效区域中每个像素的y坐标
将x坐标和y坐标合并为一个坐标张量coor，其中每一行包含一个有效像素的(x, y)坐标。
从注释数据annos中提取出目标类别信息
		
        # II Calculate scale factor for depth.
        people_flag = annos_cls == 1
        people_bbox = annos[people_flag, :4]
        if people_bbox.size(0) != 0:
            people_diag = people_bbox[:, 2:4].pow(2).sum(dim=1).sqrt()
            topk = min(3, people_diag.size(0))
            max_diag, max_idx = torch.topk(people_diag, k=topk)
            min_diag, min_idx = torch.topk(people_diag, k=1, largest=False)
            y_diff = people_bbox[max_idx, 1] - people_bbox[min_idx, 1]
            scale_factor = ((max_diag - min_diag) / (y_diff.abs() + 1e-5)).mean()
        else:
            scale_factor = 1
            
创建了一个布尔索引，用于选择目标类别为1的目标
使用布尔索引people_flag来选择目标类别为1的目标的边界框信息，用people_flag选择出这些目标的前4列，即包含边界框的左上角坐标和右下角坐标的信息。
判断是否存在目标类别为1的目标
	计算目标类别为1的目标框的对角线长度
	取其右下角坐标减去左上角坐标得到边界框的宽和高，然后使用勾股定理计算对角线长度。
	确定了最大尺度因子的计算个数
	找到目标类别为1的目标中，对角线长度最大的k个目标，并返回它们的对角线长度和对应的索引。
	找到目标类别为1的目标中，对角线长度最小的1个目标，并返回它的对角线长度和对应的索引。
	算了目标类别为1的目标中，对角线长度最大和最小的目标的上下边界之间的差值。
	计算目标类别为1的目标的尺度因子。
		它通过最大和最小对角线长度之间的差值除以上下边界之间的差值得到尺度因子，并取平均值作为最终的尺度因子。
如果目标类别为1的目标不存在（即people_bbox.size(0) == 0），则尺度因子设为1，表示不进行尺度变换。

        # III. For relation class.

        people_flag = annos_cls == 2
        people_select_annos = annos[people_flag, :]

        relation_flag = torch.zeros_like(annos_cls).byte()

        if people_select_annos.size(0) != 0:
            iou = bbox_iou(people_select_annos[:, :4], annos[:, :4], x1y1x2y2=False)
            if iou.size(1) > 2:
                max_v, max_i = torch.topk(iou, dim=1, k=2)
                flag = max_v[:, 1] > 0
                max_i = max_i[flag, :]
                people_idx = max_i[:, 0]
                vechile_idx = max_i[:, 1]

                relation_flag[people_idx] = 1
                relation_flag[vechile_idx] = 1

创建了一个布尔索引，用于选择目标类别为2的目标
使用布尔索引people_flag来选择目标类别为2的目标的所有信息
创建了一个与annos_cls形状相同的零张量relation_flag ，并将其转换为布尔型
判断是否存在目标类别为2的目标
	计算目标类别为2的目标与所有目标之间的IOU（交并比）
	判断IOU矩阵的列数是否大于2
		找到IOU矩阵中每行的最大和次大的值，并返回它们的值和索引
		创建一个布尔索引，用于选择次大的IOU值大于0的行
		使用布尔索引flag来选择满足条件的行
		分别提取次大IOU值对应的行的第一个索引和第二个索引
		将人目标的索引和其他与人目标有关系的目标的索引设置为1

        # IV. Calculate aug N.
        cls = cls_list.repeat(annos.size(0), 1)
        normal_flag = (cls == annos_cls.unsqueeze(1).repeat(1, cls.size(1)).long()).sum(dim=1) > 0
        normal_flag = normal_flag * (1 - relation_flag)

        total_n = max(int(factor * valid_idx.sum()), 5)
        relation_n = relation_flag.float().sum() / 2
        normal_n = normal_flag.float().sum()
        if relation_n + normal_n == 0:
            return img, annos
        r_n = int(relation_n / (relation_n + normal_n) * total_n)
        n_n = total_n - r_n

将目标类别列表cls_list重复annos.size(0)次，生成一个形状为(annos.size(0), len(cls_list))的张量cls
通过布尔索引生成一个标记向量normal_flag，用于标记目标是否为普通（normal）目标
根据normal_flag和relation_flag的取值，对普通目标的标记向量进行进一步调整
计算总样本数，用于控制数据增强的采样数量
计算关系目标的数量
计算普通目标的数量
判断关系目标和普通目标的数量之和是否为0。如果为0，表示没有需要采样的目标，直接返回原始图像和注释数据
计算关系目标的采样数量
计算普通目标的采样数量

        # V. Fill image
        paste_idx = torch.randint(low=0, high=coor.size(0), size=(total_n,))
        paste_coors = coor[paste_idx]

        new_annos = []
        # 1. Sample normal object.
        if n_n != 0:
            normal_annos = annos[normal_flag, :]
            sample_idx = torch.randint(low=0, high=normal_annos.size(0), size=(n_n,))
            sample_annos = normal_annos[sample_idx]
            for i, anno in enumerate(sample_annos):
                paste_coor = paste_coors[i].float()

                # Apply depth scale.
                anno_ct_y = anno[1] + anno[3] / 2
                diff = (anno_ct_y - paste_coor[1]).abs() * scale_factor
                anno_diag = (anno[2].pow(2) + anno[3].pow(2)).sqrt()
                if anno_ct_y > paste_coor[1]:
                    # Do reduce.
                    factor = 1 - diff / anno_diag
                else:
                    factor = 1 + diff / anno_diag
                cropped_obj = img[:, int(anno[1]):int(anno[1]+anno[3]), int(anno[0]):int(anno[0]+anno[2])]
                factor = factor.clamp(min=0.5, max=2)
                cropped_obj = F.interpolate(
                    cropped_obj.unsqueeze(0),
                    scale_factor=float(factor),
                    mode='bilinear',
                    align_corners=True
                )[0]
                obj_h, obj_w = cropped_obj.size()[-2:]
                paste_coor[0] -= obj_w / 2
                paste_coor[1] -= obj_h / 2
                paste_coor[0] = paste_coor[0].clamp(min=1, max=img.size(2)-obj_w - 1)
                paste_coor[1] = paste_coor[1].clamp(min=1, max=img.size(1)-obj_h - 1)
                img[:, int(paste_coor[1]):int(paste_coor[1]+obj_h),
                int(paste_coor[0]):int(paste_coor[0]+obj_w)] = cropped_obj
                new_annos.append(torch.tensor([[int(paste_coor[0]), int(paste_coor[1]), int(obj_w), int(obj_h), anno[4], anno[5], anno[6], anno[7]]]))

生成一个随机索引paste_idx，用于从坐标张量coor中随机采样total_n个坐标。
使用随机索引paste_idx从坐标张量coor中选取对应的坐标，得到paste_coors，即采样得到的随机坐标。
创建一个空列表new_annos，用于存储生成的新的目标注释
判断是否需要对普通目标进行采样
	使用布尔索引normal_flag，选择普通目标的注释数据
	生成一个随机索引sample_idx，用于从普通目标的注释数据中随机采样n_n个目标。
	使用随机索引sample_idx从普通目标的注释数据中选取对应的目标
	for循环，遍历随机采样得到的普通目标的注释数据
		获取当前目标的随机坐标，将其转换为浮点数类型
		计算目标的中心y坐标
		计算目标中心y坐标与随机坐标y的差值，并乘以尺度因子scale_factor，用于调整目标的尺度。
		计算目标边界框的对角线长度
		如果目标中心y坐标大于随机坐标y，说明随机坐标位于目标下方，此时将尺度因子设为1减去差值与对角线长度比例的值。
		如果目标中心y坐标小于随机坐标y，说明随机坐标位于目标上方，此时将尺度因子设为1加上差值与对角线长度比例的值。
		从原始图像img中裁剪出目标的图像块
		将尺度因子限制在0.5到2之间，避免过大或过小的尺度变换
		使用双线性插值对目标图像块进行尺度变换
		获取经过尺度变换后的目标图像块的高度和宽度
		将随机坐标paste_coor的x和y分别减去目标图像块的宽度和高度的一半，将随机坐标对准到目标图像块的中心。
		将随机坐标的x和y限制在图像的有效范围内，避免出现坐标越界
		将经过尺度变换后的目标图像块插入到原始图像img中的随机坐标位置处
		将当前增强后的目标的信息添加到new_annos列表中

        # 2. Sample Relation Object.
        if r_n != 0:
            people_annos = annos[people_idx, :]
            vechile_annos = annos[vechile_idx, :]

            sample_idx = torch.randint(low=0, high=people_annos.size(0), size=(r_n,))
            sample_people_annos = people_annos[sample_idx]
            sample_vechile_annos = vechile_annos[sample_idx]
            sample_people_annos[:, 2:4] += sample_people_annos[:, 0:2]
            sample_vechile_annos[:, 2:4] += sample_vechile_annos[:, 0:2]

            for i in range(r_n):
                paste_coor = paste_coors[i + n_n].float()

                people_anno = sample_people_annos[i]
                vechile_anno = sample_vechile_annos[i]

                min_x = int(min(people_anno[0], vechile_anno[0]))
                min_y = int(min(people_anno[1], vechile_anno[1]))
                max_x = int(max(people_anno[2], vechile_anno[2]))
                max_y = int(max(people_anno[3], vechile_anno[3]))

                # Apply depth scale.
                anno_ct_y = (min_y + max_y) / 2
                diff = (anno_ct_y - paste_coor[1]).abs() * scale_factor
                anno_diag = math.sqrt((max_x-min_x)**2 + (max_y-min_y)**2)
                if anno_ct_y > paste_coor[1]:
                    # Do reduce.
                    factor = 1 - diff / anno_diag
                else:
                    factor = 1 + diff / anno_diag
                cropped_obj = img[:, min_y:max_y, min_x:max_x]
                factor = factor.clamp(min=0.5, max=2)
                cropped_obj = F.interpolate(
                    cropped_obj.unsqueeze(0),
                    scale_factor=float(factor),
                    mode='bilinear',
                    align_corners=True
                )[0]

                obj_h, obj_w = cropped_obj.size()[-2:]
                paste_coor[0] -= obj_w / 2
                paste_coor[1] -= obj_h / 2
                paste_coor[0] = paste_coor[0].clamp(min=1, max=img.size(2)-obj_w - 1)
                paste_coor[1] = paste_coor[1].clamp(min=1, max=img.size(1)-obj_h - 1)
                img[:, int(paste_coor[1]):int(paste_coor[1]+obj_h),
                int(paste_coor[0]):int(paste_coor[0]+obj_w)] = cropped_obj
                x_bias = min_x - paste_coor[0]
                y_bias = min_y - paste_coor[1]
                new_people = people_anno
                new_people[2:4] -= new_people[0:2]
                new_people[2:4] *= factor
                new_people[0] -= x_bias
                new_people[1] -= y_bias

                new_vechile = vechile_anno
                new_vechile[2:4] -= new_vechile[0:2]
                new_vechile[2:4] *= factor
                new_vechile[0] -= x_bias
                new_vechile[1] -= y_bias

                new_annos.append(new_people.unsqueeze(0).floor())
                new_annos.append(new_vechile.unsqueeze(0).floor())
        new_annos = torch.cat(new_annos)
        annos = torch.cat((annos, new_annos))

判断是否需要对关系目标进行采样
	使用索引people_idx和vechile_idx分别从原始目标注释数据中选择关系目标和与之相关的目标
	生成一个随机索引sample_idx，用于从关系目标的注释数据中随机采样r_n个目标
	使用随机索引sample_idx从关系目标和与之相关的目标的注释数据中选取对应的目标。
	将目标的边界框坐标转换为(x_min, y_min, x_max, y_max)的形式。
	遍历关系目标的采样结果
		获取当前关系目标的随机坐标，将其转换为浮点数类型
		分别获取当前关系目标和与之相关的目标的注释数据
		别计算当前目标的左上角x和y坐标
		分别计算当前目标的右下角x和y坐标
		计算目标的中心y坐标，并计算其与随机坐标y的差值，并乘以尺度因子scale_factor。
		计算目标的对角线长度，用于后续计算尺度变换的缩放因子
		根据目标的中心y坐标和随机坐标y的关系来选择尺度变换的因子
			如果目标的中心y坐标大于随机坐标y，说明随机坐标位于目标下方，此时将尺度因子设为1减去差值与对角线长度比例的值。
			如果目标的中心y坐标小于随机坐标y，说明随机坐标位于目标上方，此时将尺度因子设为1加上差值与对角线长度比例的值。
		从原始图像img中裁剪出包含目标的图像块
		行将尺度因子限制在0.5到2之间，避免过大或过小的尺度变换
		使用双线性插值对目标图像块进行尺度变换
		获取缩放后的目标图像块的高度和宽度
		将随机坐标paste_coor的x和y分别减去目标图像块的宽度和高度的一半，将随机坐标对准到目标图像块的中心。
		将随机坐标的x和y限制在图像的有效范围内，避免出现坐标越界
		将经过尺度变换后的目标图像块插入到原始图像img中的随机坐标位置处，完成数据增强的操作。
		
		分别计算目标图像块左上角相对于随机坐标的x和y偏移量
		分别创建新的张量new_people和new_vechile，用于存储经过尺度变换和偏移后的目标注释信息。
		将目标的右下角坐标转换为宽度和高度
		将目标的宽度和高度乘以尺度因子，完成尺度变换
		将目标的左上角坐标加上x和y偏移量，完成位置偏移
		将经过尺度变换和偏移后的人和车辆目标的注释信息添加到new_annos列表中。
		使用torch.cat()函数将所有增强后的目标注释信息拼接成一个张量，形状为(N, 8)，N是增强后的目标数量。
		将原始目标注释信息和增强后的目标注释信息拼接在一起，形成最终的目标注释信息。
		返回增强后的图像img和增强后的目标注释信息annos
		
        return img, annos
    except:
        return data[0], data[1]

5.2 getitem函数

def __getitem__(self, item):
    name = self.mdf[item]
    img_name = os.path.join(self.images_dir, '{}.jpg'.format(name))
    txt_name = os.path.join(self.annotations_dir, '{}.txt'.format(name))
    # read image
    image = Image.open(img_name).convert("RGB")

    # read annotation
    annotation = pd.read_csv(txt_name, header=None)
    annotation = np.array(annotation)[:, :8]
    annotation = annotation[annotation[:, 5] != 11]

    # read road segmentation
    roadmap = None
    if self.with_road_map:
        roadmap_name = os.path.join(self.roadmap_dir, '{}.jpg'.format(name))
        roadmap = cv2.imread(roadmap_name)

    sample = (image, annotation, roadmap)

    if self.transforms:
        sample = self.transforms(sample)
    return sample + (name,)

根据传入的item索引，从self.mdf列表中获取相应的文件名（不包括'.jpg'扩展名）
构建了图像文件的完整路径，用于读取图像数据（加入了后缀名jpg）
构建了注释文件的完整路径，用于读取注释数据

使用PIL库打开图像文件，然后将其转换为RGB格式。Image.open()用于读取图像数据。
使用Pandas库从注释文件中读取CSV格式的注释数据
将读取的注释数据转换为NumPy数组，并保留前8列数据
筛选掉注释中第5列等于11的行。这可能是为了排除某个特定的类别。
创建一个变量roadmap并初始化为None
判断self.with_road_map是否为True：
	如果数据集包含roadmap数据，这一行构建了roadmap图像文件的完整路径，用于读取roadmap数据。
	数据集包含roadmap数据，则使用OpenCV库读取roadmap图像数据

将图像、注释和roadmap数据（如果有的话）打包成一个元组，并赋值给变量sample
检查self.transforms是否存在（非None）。
	如果存在，说明数据集已经定义了数据变换（数据增强等），则将sample应用到这些变换上

将打包好的样本元组返回，并附加文件名（不包括'.jpg'）作为元组的最后一个元素。这样，样本数据和对应的文件名就一并返回了。

你可能感兴趣的:(目标检测,人工智能,计算机视觉)

在线视频创作平台（Vidnami） deepdata_cn 视频生成视频剪辑视频创作
Vidnami是一款功能强大的在线视频创作平台，前身为ContentSamurai，于2015年推出，2020年更名为Vidnami。它运用人工智能技术，能够分析输入的文本，自动从大量素材中选取合适的图像和视频片段，将文字快速转化为具有专业外观的视频，无需用户具备视频编辑经验。该平台提供多种视频模板、全主题定制功能以及内置的免版权媒体库，包括3000万张图片和3万首音乐，还支持自动配音，用户可以录
OpenCV第1课OpenCV 介绍及其树莓派下环境的搭建嵌入式老牛树莓派之OpenCV opencv 人工智能计算机视觉
1.机器是如何“看”的我们人类可以通过眼睛看到五颜六色的世界，是因为人眼的视觉细胞中存在分别对红、绿、蓝敏感的3种细胞。其中的光感色素根据光线的不同进行不同比例的分解，从而让我们识别到各种颜色。对人工智能而言，学会“看”也是非常关键的一步。那么机器人是如何看到这个世界的呢？这就涉及到人工智能方向重要的分支--机器视觉。机器视觉即用机器人代替人眼来做测量和判断，通过机器视觉产品（即图像摄取装置，分C
Opencv计算机视觉编程攻略-第一节图像读取与基本处理 weixin_44242403 深度学习 opencv 计算机视觉
1.图像读取导入依赖项的h文件#include#include#include#include项目Valuecore.hpp基础数据结构和操作（图像存储、矩阵运算、文件I/O）highgui.hpp图像显示、窗口管理、用户交互（图像/视频显示、用户输入处理、结果保存）imgproc.hpp图像处理算法（图像滤波、几何变换、边缘检测、形态学操作）二读取图片Matimage;//图像矩阵std::co
Linux安装Anaconda和Jupyter 硬水果糖人工智能 Linux linux jupyter 运维
一、了解Anaconda和Jupyter引言：Anaconda是一个流行的开源数据科学平台，广泛用于数据分析、机器学习、人工智能等领域。它是一个集成了大量科学计算和数据科学工具的Python和R编程语言环境。Anaconda的主要目标是简化数据科学和机器学习的开发流程，提供一个易于安装和管理的环境。而预装了大量常用的Python和R库，这些库涵盖了数据科学的各个方面，包括：数据分析：Pandas、
DeepSeek 大模型落地成都高新区：科技赋能警务的创新变革 AGI大模型学习科技人工智能 DeepSeek 大模型 chatgpt 大模型应用 AI大模型
在科技飞速发展的当下，人工智能正以前所未有的速度融入各个领域，深刻改变着人们的生活与工作方式。公安领域也不例外，积极拥抱科技创新，成为提升警务效能、维护社会稳定的关键路径。全国第一例警用DeepSeek大模型落地成都高新区，这一突破性举措在警务智能化发展进程中具有里程碑意义，为公安工作带来了全方位的革新。一、警用DeepSeek大模型落地的时代背景近年来，国产AI蓬勃发展，不断涌现出令人瞩目的成果
大数据和人工智能概念全面解析就犯得上方法
一、大数据和人工智能大数据是伴随着信息数据爆炸式增长和网络计算技术迅速发展而兴起的一个新型概念。根据麦肯锡全球研究所的定义，大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据能够帮助各行各业的企业从原本毫无价值的海量数据中挖掘出用户的需求，使数据能够从量变到质变，真正产生价值
DeepSeek爆火，背后模型竟藏着这些秘密！ qq_23519469 ai
DeepSeek是什么来头最近，AI圈可是被一个名字刷爆了屏，那就是DeepSeek！它就像一颗横空出世的超级新星，在全球范围掀起了一阵狂热的追捧潮，这热度，简直了！大家都在疯狂讨论它，各种测评、对比层出不穷。它到底有啥过人之处，能让这么多人都为之疯狂？今天咱就来好好唠唠。DeepSeek，全称杭州深度求索人工智能基础技术研究有限公司，是一家专注于开发先进大语言模型（LLM）和相关技术的企业。它成
AI人工智能代理工作流AI Agent WorkFlow：设计智能任务处理流程 AI天才研究院计算 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能代理工作流AIAgentWorkFlow：设计智能任务处理流程作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在当今的数字化时代，随着数据量的爆炸式增长和复杂性的提升，传统的手动任务处理方式已经无法满足高效、准确的需求。人工智能技术的发展为自动化任务处理提供了新的可能性。AI人工智能代理（AIAgent）作为一
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
Halcon 和 opencv比有什么区别与优劣 yuanpan opencv 人工智能计算机视觉
Halcon和OpenCV都是机器视觉领域的重要工具，但它们的设计目标、功能特点和适用场景有所不同。以下是两者的详细对比：1.定位与目标用户Halcon：定位：商业机器视觉软件，专注于工业应用。目标用户：工业自动化、质量控制、机器人引导等领域的专业开发者。OpenCV：定位：开源计算机视觉库，适用于通用图像处理和计算机视觉任务。目标用户：学术研究、教育、初创公司以及需要低成本解决方案的开发者。2.
EmbodiedSAM：在线实时3D实例分割,利用视觉基础模型实现高效场景理解数据猎手小k 3D 实例分割在线实时感知视觉基础模型（VFM）应用
2025-02-12，由清华大学和南洋理工大学的研究团队开发一种名为EmbodiedSAM（ESAM）的在线3D实例分割框架。该框架利用2D视觉基础模型辅助实时3D场景理解，解决了高质量3D数据稀缺的难题，为机器人导航、操作等任务提供了高效、准确的视觉感知能力。一、研究背景随着机器人技术和人工智能的发展，机器人在复杂环境中执行任务（如导航、操作和交互）的能力越来越依赖于对三维（3D）场景的实时、准
国产信创AI IDE：开启智能编程新时代 InsCode AI IDE
国产信创AIIDE：开启智能编程新时代随着信息技术的迅猛发展，软件开发工具也在不断演进。近年来，人工智能（AI）技术的应用为编程工具带来了革命性的变化。其中，国产信创AIIDE——InsCodeAIIDE，作为一款由CSDN、GitCode和华为云CodeArtsIDE联合开发的新一代集成开发环境（IDE），以其智能化、高效化的特点，正在引领智能编程的新时代。最新接入DeepSeek-V3模型，点
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
人工智能（AI）系统化学习路线 xiaoyu❅ python 人工智能学习
一、为什么需要系统化学习AI？人工智能技术正在重塑各行各业，但许多初学者容易陷入误区：❌盲目跟风：直接学习TensorFlow/PyTorch，忽视数学与算法基础。❌纸上谈兵：只看理论不写代码，无法解决实际问题。❌方向模糊：对CV/NLP/RL等细分领域缺乏认知，难以针对性提升。正确的学习姿势：“金字塔式”分层学习（理论→算法→框架→应用→工程化），逐步构建完整的AI知识体系。二、人工智能学习路线
使用TensorFlow、OpenCV和Pygame实现图像处理与游戏开发 UwoiGit tensorflow opencv pygame
在本篇文章中，我们将介绍如何结合使用TensorFlow、OpenCV和Pygame来进行图像处理和游戏开发。这三个工具在机器学习、计算机视觉和游戏开发领域都非常流行，并且它们的结合可以提供强大的功能和无限的创造力。我们将逐步介绍如何安装和配置这些工具，并提供相关的源代码示例。安装TensorFlowTensorFlow是一个基于数据流图的开源机器学习框架，提供了丰富的工具和库来构建和训练各种深度
MMScan数据集：首个最大的多模态3D场景数据集，包含层次化的语言标注数据集
2024-10-24，由上海人工智能实验室联合多所高校创建了MMScan，这是迄今为止最大的多模态3D场景数据集，包含了层次化的语言标注。数据集的建立，不仅推动了3D场景理解的研究进展，还为训练和评估多模态3D感知模型提供了宝贵的资源。一、研究背景：随着大型语言模型（LLMs）的兴起和与其他数据模态的融合，多模态3D感知因其与物理世界的连接而受到越来越多的关注，并取得了快速进展。然而，现有的数据集
【AI大模型】RAG如何让生成AI更智能？最新方法与优劣深度解析健忘的派大星人工智能语言模型 ai AI大模型 agi RAG 程序员
前言近年来，人工智能技术突飞猛进，尤其是生成式AI，简直像是开了挂一样，各种惊艳的表现让人直呼“未来已来”。根据IDC的研究，生成式AI的市场规模在2022年已经达到了107亿美元，而到2026年，这个数字预计会飙升至326亿美元！不过，尽管生成式AI很强大，但它也并非完美无缺——比如生成内容的质量、准确性和可靠性，依然有提升的空间。这时候，检索增强生成（RAG）技术登场了！RAG的核心思路很简单
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算【超级详细版】 AI筑梦师计算机视觉算法深度学习人工智能机器学习计算机视觉 python
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算1.引言1.1研究背景在计算机视觉、模式识别、医学影像分析和自动驾驶等领域，形状匹配是核心任务之一。然而，现实世界的形状往往存在可变性（Variability），主要体现在以下几个方面：形变（Deformation）：物体可能由于柔性材料、外力作用或生物运动发生非刚性形变。尺度变化（ScaleVariation）：目标形状在不同场景下可能大
A Survey of Large Language Models大模型综述论文章节总结 WhyteHighmore 论文语言模型人工智能自然语言处理论文笔记
ASurveyofLLM人大译ASurveyofLargeLanguageModels这篇论文全面回顾了大型语言模型(LLM)的最新进展，重点关注其发展背景、关键发现和主流技术。文章主要围绕LLM的四个主要方面展开：1引言自从1950年图灵测试被提出以来，人类一直在探索机器掌握语言智能的方法。语言本质上是一种受语法规则支配的复杂、精细的人类表达系统，这使得开发能够理解和掌握语言的强大人工智能(AI
AI：对比ChatGPT这类聊天机器人，人形机器人对人类有哪些不一样的影响？ InnoLink_1024 AGI 人工智能机器学习 chatgpt 人工智能机器人
人形机器人与像ChatGPT这样的聊天机器人相比，虽然都属于人工智能技术的应用，但由于其具备的物理形态和与环境的互动能力，它们对人类的影响会有很大的不同。下面从多个角度进行对比，阐述它们各自对人类的不同影响：1.物理交互与虚拟交互人形机器人：具有物理形态，能够在物理世界中与人类进行直接交互。例如，搬运物品、进行日常家务、提供身体上的帮助（如扶持老人、帮助走路等），以及进行非语言的沟通（如手势、面部
基于PyTorch和ResNet18的花卉识别实战（附完整代码）意.远 pytorch 人工智能 python 深度学习
一、项目背景与效果花卉分类是计算机视觉的经典任务。本文使用PyTorch框架，基于ResNet18模型实现了102种花卉的分类任务。完整代码可直接复制运行，最终验证集准确率达8.2%，文中同步分析性能瓶颈与优化方案。二、环境配置与数据准备1.环境要求#主要依赖库importtorchfromtorchimportnn,optimfromtorchvisionimporttransforms,dat
DeepSeek从入门到精通「清华团队」 YuKeeHgg DeepSeek 人工智能 ai
由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余梦珑博士后及其团队撰写文档的核心内容围绕DeepSeek的技术特点、应用场景、使用方法以及如何通过提示语设计提升AI使用效率等方面展开，帮助用户从入门到精通DeepSeek的使用。「文末附下载方式」第一部分：DeepSeek基础概念1.1DeepSeek简介定义：专注通用人工智能（AGI）的中国科技公司，主攻大模型研发与应用。核心产品：开源
人工智能的未来：从基础到前沿的探索与展望小二爱编程· 人工智能 ai AI编程 AI写作 AI作画
1.人工智能简介内容概述：人工智能（AI）是指模拟和执行人类智能任务的技术。随着计算能力和数据量的增加，AI在各个领域取得了显著进展，从自动化的基本任务到解决复杂的实际问题，人工智能正渗透到我们生活的各个方面。2.人工智能的种类与发展内容概述：AI的种类可以按智能的复杂度分为三大类：弱人工智能（NarrowAI）：目前大多数应用都属于弱AI，如语音助手、自动驾驶等。它们专注于特定任务，并且无法扩展
【论文精读】PatchTST-基于分块及通道独立机制的Transformer模型打酱油的葫芦娃时序预测算法时序预测 PatchTST Transformer 预训练微调表征学习
《ATIMESERIESISWORTH64WORDS:LONG-TERMFORECASTINGWITHTRANSFORMERS》的作者团队来自PrincetonUniversity和IBMResearch，发表在ICLR2023会议上。动机Transformer模型因其自注意力机制在处理序列数据方面的优势，在自然语言处理（NLP）、计算机视觉（CV）、语音等多个领域取得了巨大成功。这种机制使得模型
SciER：首个大规模科学文档中的实体和关系抽取数据集数据集
2024-10-28，为科学文档中的实体和关系抽取领域带来了突破，提供了一个包含106篇完整科学出版物、超过24,000个实体和12,000个关系的大规模数据集，这对于构建科学知识图谱和促进科学信息抽取技术的发展具有重要意义。数据集地址：SciER|科学信息提取数据集|人工智能数据集一、研究背景：在科学文档中，实体（如数据集、方法、任务）和它们之间的关系对于理解科学发现和推动研究进展至关重要。然而
元戎启行最新战略RoadAGI：所有移动智能体都将被AI驱动量子位
2025年3月18日（北京时间），元戎启行作为国内人工智能企业代表，出席由NVIDIA主办的GTC大会。会上，公司CEO周光发表了技术主题演讲，展示了公司的最新战略布局RoadAGI，并发布道路通用人工智能平台——AISpark（以下简称”Spark平台”）。RoadAGI是元戎启行实现物理世界通用人工智能的关键一步，旨在让包括智能驾驶汽车在内的移动智能体，都具有在道路上自主行驶、与物理世界深度交
【财经信息差】2024年12月27日最新财经资讯一览每日财经热点一网打尽代码简单说 AI观财经:财经信息差 AI观财经财经信息差今日财经资讯财经热点今日资讯
大家好，欢迎来到财经信息差！每天，我们将带你直击全球财经动态，精选最新的市场变化、政策动向与产业趋势，让你在最短的时间内，轻松掌握最关键的财经资讯。随着人工智能技术的迅猛发展，我们将用AI的视角为你解析财经热点、企业动向及全球经济变化，让复杂的信息变得简单易懂，帮助你做出更明智的投资决策。财经领域股票市场美股三大指数集体低开，大型科技股多数下跌，纳斯达克金龙指数跌1.07%。小鹏汽车跌3.32%，
探索AI知识库的无限潜力：定义、应用与未来展望知识库知识库管理知识库软件
一、AI知识库的定义AI知识库，作为人工智能技术与传统知识库概念的融合，是指利用人工智能算法和技术构建、管理和维护的信息存储系统。它不仅包含了大量的结构化、半结构化和非结构化数据，还具备智能检索、推理分析、自我学习和优化等高级功能。AI知识库通过模拟人类的认知过程，实现了对知识的有效组织和高效利用，为各种应用场景提供了强大的支持。二、AI知识库的应用1.客户服务与支持在电子商务领域，AI知识库的应
低代码平台未来发展趋势有哪些？低代码
低代码平台的未来发展趋势呈现出多维度的创新与深化，以下结合JNPF快速开发平台的特性，为您分析其未来的发展方向：1.智能化与AI深度融合低代码平台将与人工智能技术深度融合，实现开发流程的智能化升级。例如，JNPF平台有望通过自然语言处理技术，让开发者仅需用自然语言描述需求，平台即可自动生成初步的应用架构和代码逻辑。此外，AI技术还将用于智能推荐、代码自动生成、流程自动化等功能，进一步提升开发效率。
探索“AI知识库”的未来：重塑信息获取与教育的新篇章知识库知识库管理
在数字化时代，信息的爆炸性增长既为人类带来了前所未有的知识盛宴，也带来了信息筛选与理解的巨大挑战。在此背景下，“AI知识库”作为人工智能技术与知识管理深度融合的产物，正逐步成为解决这一难题的关键。本文旨在探讨“AI知识库”的核心价值、技术进展、应用领域以及对未来教育与社会信息获取方式的深远影响，并在此基础上展望其发展前景。一、AI知识库的定义与核心价值定义：AI知识库，简而言之，是利用人工智能技术
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST