图波列夫

open-vot：PyTorch 实现 Siamese-FC

open-vot 集成了 KCF、SiamFC、GOTURN 等8种跟踪算法，采用模块化设计，利于不同算法的比较及扩展。本文主要介绍其中的 SiamFC 实现。

运行要求

代码运行需安装以下依赖包：

conda install matplotlib shapely
conda install -c conda-forge tensorboardx

对于 Python3 ，直接安装 urllib3：

conda install urllib3：

而 python2.7 需要参考 pip install urllib2失败进行以下修改：

#from urllib.request import urlretrieve
import urllib2

    #return urlretrieve(url, filename, _reporthook)
    return urllib2.urlretrieve(url, filename, _reporthook)

模型和数据

预训练模型可直接在项目主页下载:

color
color+gray

alexnet-owt-4df8aa71.pth 可通过迅雷下载。

数据下载参考：CFNet视频目标跟踪源码运行笔记（2）——training and then tracking。

ILSVRC2015_VID.tar.gz
cfnet_ILSVRC2015.stats.mat 密码：hqhbwm

VID 训练集拥有3862个片段，平均帧数为290。

代码概述

SiamFC 训练主要涉及到 TrainerSiamFC、TrackerSiamFC 、SiameseNet、Pairwise 和 TransformSiamFC 几个对象。训练示例可参考 TestManagerSiamFC 。

TrackerSiamFC 组织模型训练，TrackerSiamFC 实现了跟踪器训练和推理的功能。SiameseNet 由 AlexNet 基础网络和 XCorr、Adjust2d 附加操作组成，Pairwise 对基本数据集进行封装，从中读取样本对。TransformSiamFC 对数据进行处理。

TrainerSiamFC

Trainer 调用 Tracker。

TrainerSiamFC

TrackerSiamFC

打开文件加载参数，并选择对应模型的参数。

接口设计有 bug，没有传入net_path。

    def __init__(self, branch='alexv1', cfg_file=None):
        cfg = {}
        if cfg_file is not None:
            with open(cfg_file, 'r') as f:
                cfg = json.load(f)
            cfg = cfg[branch]

构造一个 TrackerSiamFC 跟踪器。

这里并不需要self.branch，net_path没有赋值。self.tracker.cfg在这里似乎也并不需要。

Logger 继承 tensorboardX 的 SummaryWriter 类。

        self.branch = branch
        self.tracker = TrackerSiamFC(branch=branch, net_path=None, **cfg)
        self.cfg = self.tracker.cfg
        self.logger = Logger(log_dir='logs/siamfc')
        self.cuda = torch.cuda.is_available()

train

Created with Raphaël 2.2.0 train initialize_weights TransformSiamFC multiprocessing.cpu_count ImageNetVID Pairwise DataLoader tracker.step logger.add_text logger.add_scalar tracker.model.module.state_dict logger.add_checkpoint End

initialize_weights 对不同的层参数进行初始化。

这里是一个 bug，初始化应放在 Tracker 中，而这里调用会覆盖已加载的模型。

        tracker = self.tracker
        initialize_weights(tracker.model)
        transform = TransformSiamFC(stats_path, **self.cfg._asdict())

multiprocessing.cpu_count() 返回系统中的CPU数量。此数字不等于当前进程可以使用的 CPU 数量。可以使用len(os.sched_getaffinity(0))获得可用 CPU 的数量。

        epoch_num = self.cfg.epoch_num
        cpu_num = multiprocessing.cpu_count()

vot_dataset没有用到。

        if vot_dir is not None:
            vot_dataset = VOT(vot_dir, return_rect=True, download=True)
        base_dataset = ImageNetVID(vid_dir, return_rect=True)

Pairwise 产生图像对。根据欧式距离生成dataset_train中的标签。
torch.utils.data.DataLoader 数据加载器。组合数据集和采样器，并在数据集上提供单进程或多进程迭代器。


        # training dataset
        dataset_train = Pairwise(
            base_dataset, transform, subset='train')
        dataloader_train = DataLoader(
            dataset_train, batch_size=self.cfg.batch_size, shuffle=True,
            pin_memory=self.cuda, drop_last=True, num_workers=cpu_num)

        # validation dataset
        dataset_val = Pairwise(
            base_dataset, transform, subset='val')
        dataloader_val = DataLoader(
            dataset_val, batch_size=self.cfg.batch_size, shuffle=False,
            pin_memory=self.cuda, drop_last=True, num_workers=cpu_num)

        train_iters = len(dataloader_train)
        val_iters = len(dataloader_val)

训练。

        for epoch in range(epoch_num):
            # training loop
            loss_epoch = 0

            for it, batch in enumerate(dataloader_train):
                loss = tracker.step(batch, update_lr=(it == 0))
                loss_epoch += loss

                # logging
                step = epoch * train_iters + it
                self.logger.add_text('train/iter_loss', '--Epoch: {}/{} Iter: {}/{} Loss: {:.6f}'.format(
                    epoch + 1, epoch_num, it + 1, train_iters, loss), step)
                self.logger.add_scalar('train/iter_loss', loss, step)

            loss_epoch /= train_iters

            # logging
            self.logger.add_text('train/epoch_loss', 'Epoch: {}/{} Loss: {:.6f}'.format(
                epoch + 1, epoch_num, loss_epoch), epoch)
            self.logger.add_scalar('train/epoch_loss', loss_epoch, epoch)

测试。

            # validation loop
            loss_val = 0

            for it, batch in enumerate(dataloader_val):
                loss = tracker.step(batch, backward=False)
                loss_val += loss

            loss_val /= val_iters

            # logging
            self.logger.add_text('train/val_epoch_loss', 'Epoch: {}/{} Val. Loss: {:.6f}'.format(
                epoch + 1, epoch_num, loss_val), epoch)
            self.logger.add_scalar('train/val_epoch_loss', loss_val, epoch)

在 VOT 上测试。self.track 应该是tracker.track。不过这里与 track 的接口并不一致。

            # tracking loop if vot_dir is available
            if vot_dir is not None:
                self.track(vot_dir, visualize=False)

添加检查点。
torch.nn.Module.state_dict 返回包含模块整个状态的字典。包括参数和持久缓冲区（例如，运行平均值）。键是对应的参数和缓冲区名称。
add_checkpoint 保存字典到文件。

            # add checkpoint
            self.logger.add_checkpoint(
                'siamfc', self.tracker.model.module.state_dict(),
                (epoch + 1) // 100 + 1)

TrackerSiamFC(object)

对象初始化过程中调用 setup_model 和 setup_optimizer 函数。
self.name并不需要。

    def __init__(self, branch='alexv2', net_path=None, **kargs):
        self.name = 'SiamFC'
        self.parse_args(**kargs)
        self.cuda = torch.cuda.is_available()
        self.device = torch.device('cuda:0' if self.cuda else 'cpu')
        self.setup_model(branch, net_path)
        self.setup_optimizer()

step

Created with Raphaël 2.2.0 step scheduler.step model.train optimizer.zero_grad torch.set_grad_enabled model criterion loss.backward optimizer.step End

为什么仅在第一次运行self.scheduler.step()？

torch.optim.lr_scheduler.StepLR 将每个参数组的学习速率设置为每个step_size epoch 按 gamma 衰减的初始 lr。当last_epoch = -1时，将初始 lr 设置为 lr。

这里self.scheduler.step()的调用应放在调用 step 的循环之外，否则就变成了每次迭代调整学习率。

        if backward:
            if update_lr:
                self.scheduler.step()
            self.model.train()
        else:
            self.model.eval()

torch.Tensor.to 执行 Tensor dtype 和（或）设备转换。从self.to(*args, **kwargs)的参数推断出 torch.dtype 和 torch.device。

如果self Tensor 已经有正确的 torch.dtype 和 torch.device，则返回self。否则，返回的张量是具有所需 torch.dtype 和 torch.device 的self的副本。

函数传入4个数据。

        z, x, labels, weights = \
            batch[0].to(self.device), batch[1].to(self.device), \
            batch[2].to(self.device), batch[3].to(self.device)

torch.optim.Optimizer.zero_grad 清除所有优化 torch.Tensor 的梯度。

torch.autograd.set_grad_enabled 上下文管理器，将梯度计算设置为打开或关闭。

依次运行前向->损失函数->反向->优化器。

torch.Tensor.backward 计算当前张量关于图叶子的梯度。

使用链式法则差分图。如果张量是非标量的（即其数据具有多于一个元素）并且需要梯度，则该函数还需要指定gradient。它应该是类型和位置匹配的张量，包含差分函数关于自身的梯度。

此函数在叶子中累积梯度 - 您可能需要在调用之前将它们归零。
参数：

gradient（Tensor或 None）—梯度相关张量。如果是张量，它将自动转换为不需要求梯度的张量，除非create_graph为True。对于标量张量或不需要梯度的张量，不能指定任何值。如果 None 值是可接受的，则此参数是可选的。
retain_graph（bool，可选）—如果为 False，将释放用于计算梯度的图。请注意，几乎在所有情况下都不需要将此选项设置为True，并且通常可以以更有效的方式解决此问题。默认为create_graph的值。
create_graph（bool，可选）—如果为True，将构造派生图，允许计算更高阶的导数。默认为False。

torch.optim.Optimizer.step 执行单个优化步骤（参数更新）。

torch.Tensor.item 以标准 Python 数返回此张量的值。这仅适用于具有一个元素的张量。对于其他情况，请参阅tolist()。此操作不可差分。

        self.optimizer.zero_grad()
        with torch.set_grad_enabled(backward):
            pred = self.model(z, x)
            loss = self.criterion(pred, labels, weights)
            if backward:
                loss.backward()
                self.optimizer.step()

        return loss.item()

setup_optimizer

torch.nn.Module.named_parameters 返回模块参数的迭代器，同时产生参数名称和参数本身。
.0表示 conv，.1表示 bn。

这里应检查param.requires_grad，不应将冻结的参数加入到列表中。

        params = []
        for name, param in self.model.named_parameters():
            lr = self.cfg.initial_lr
            weight_decay = self.cfg.weight_decay
            if '.0' in name:  # conv
                if 'weight' in name:
                    lr *= self.cfg.lr_mult_conv_weight
                    weight_decay *= 1
                elif 'bias' in name:
                    lr *= self.cfg.lr_mult_conv_bias
                    weight_decay *= 0
            elif '.1' in name or 'bn' in name:  # bn
                if 'weight' in name:
                    lr *= self.cfg.lr_mult_bn_weight
                    weight_decay *= 0
                elif 'bias' in name:
                    lr *= self.cfg.lr_mult_bn_bias
                    weight_decay *= 0
            elif 'linear' in name:
                if 'weight' in name:
                    lr *= self.cfg.lr_mult_linear_weight
                    weight_decay *= 1
                elif 'bias' in name:
                    lr *= self.cfg.lr_mult_linear_bias
                    weight_decay *= 0
            params.append({
                'params': param,
                'initial_lr': lr,
                'weight_decay': weight_decay})

        self.optimizer = optim.SGD(
            params, lr=self.cfg.initial_lr,
            weight_decay=self.cfg.weight_decay)
        gamma = (self.cfg.final_lr / self.cfg.initial_lr) ** \
            (1 / (self.cfg.epoch_num // self.cfg.step_size))
        self.scheduler = StepLR(self.optimizer, self.cfg.step_size, gamma=gamma)
        self.criterion = BCEWeightedLoss().to(self.device)

BCEWeightedLoss

binary_cross_entropy_with_logits

    def __init__(self):
        super(BCEWeightedLoss, self).__init__()

torch.nn.functional.binary_cross_entropy_with_logits 测量目标和输出logits之间的二进制交叉熵的函数。
torch.nn.BCEWithLogitsLoss 将 Sigmoid 层和 BCELoss 组合在一个单独的类中。这个版本在数值上比使用普通的 Sigmoid 后跟 BCELoss 更稳定，因为通过将操作组合成一个层，我们利用 log-sum-exp 技巧来实现数值稳定性。
损失可以描述为：

$\ell(x, y) = L = \{l_1,\dots,l_N\}^\top$
$l_n = - w_n \left[ t_n \cdot \log \sigma(x_n)+ (1 - t_n) \cdot \log (1 - \sigma(x_n)) \right]$

其中 $N$ 是批量大小。如果reduce为True，那么
$size_average = True , sum ⁡ ( L ) , if size_average = False . \ell(x, y) = \begin{cases} \operatorname{mean}(L), & \text{if}\; \text{size\_average} = \text{True},\\ \operatorname{sum}(L), & \text{if}\; \text{size\_average} = \text{False}. \end{cases}$
这用于测量例如自动编码器中的重建误差。注意，目标 $t_i$ 应该是0到1之间的数字。

通过在正例中添加权重，可以权衡召回和精确度。在这种情况下，损失可以描述为：
$\ell(x, y) = L = \{l_1,\dots,l_N\}^\top$
$l_n = - w_n \left[ p_n t_n \cdot \log \sigma(x_n)+ (1 - t_n) \cdot \log (1 - \sigma(x_n)) \right],$
其中 $p_n$ 是 $n$ 类的正权重。 $p_n>1$ 增加召回率， $p n < 1$ 增加精度。
或者，如果数据集包含单个类的100个正数和300个负数示例，则该类的 pos_weight 应该等于 $\frac{300}{100}=3$ 。损失将表现为数据集包含数学： $3\times 100=300$ 个正例。

    def forward(self, input, target, weight=None):
        return F.binary_cross_entropy_with_logits(
            input, target, weight, size_average=True)

track

init

update

根据帧数初始化变量。

        frame_num = len(img_files)
        bndboxes = np.zeros((frame_num, 4))
        bndboxes[0, :] = init_rect
        speed_fps = np.zeros(frame_num)

进入循环，使用 Python Imaging Library 读取图像。

        for f, img_file in enumerate(img_files):
            image = Image.open(img_file)
            if image.mode == 'L':
                image = image.convert('RGB')

第1帧进行初始化，后续进行位置预测。

            start_time = time.time()
            if f == 0:
                self.init(image, init_rect)
            else:
                bndboxes[f, :] = self.update(image)
            elapsed_time = time.time() - start_time
            speed_fps[f] = elapsed_time

init

Created with Raphaël 2.2.0 init _deduce_network_params crop _extract_feature End

init 根据初试框初始化跟踪器。
获取目标的中心和宽高。
根据目标面积确定背景扩展大小。

        # initialize parameters
        self.center = init_rect[:2] + init_rect[2:] / 2
        self.target_sz = init_rect[2:]
        context = self.cfg.context * self.target_sz.sum()
        self.z_sz = np.sqrt((self.target_sz + context).prod())
        self.x_sz = self.z_sz * self.cfg.search_sz / self.cfg.exemplar_sz

_deduce_network_params 推断出得分图大小和网络的总步长。
计算上采样后的得分图大小。

        self.scale_factors = self.cfg.scale_step ** np.linspace(
            -(self.cfg.scale_num // 2),
            self.cfg.scale_num // 2, self.cfg.scale_num)
        self.score_sz, self.total_stride = self._deduce_network_params(
            self.cfg.exemplar_sz, self.cfg.search_sz)
        self.final_score_sz = self.cfg.response_up * (self.score_sz - 1) + 1

构造一个与得分图等大的 hanning 窗。

        hann_1d = np.expand_dims(np.hanning(
            self.final_score_sz), axis=0)
        self.penalty = np.transpose(hann_1d) * hann_1d
        self.penalty = self.penalty / self.penalty.sum()

截取模板图像并提取特征。

        # extract template features
        crop_z = crop(image, self.center, self.z_sz,
                      out_size=self.cfg.exemplar_sz)
        self.z = self._extract_feature(crop_z)

update

Created with Raphaël 2.2.0 update image _crop _extract_feature _calc_score x_sz, center, target_sz, z, z_sz End

更新多尺度测试的尺寸数组。

        # update scaled sizes
        scaled_exemplar = self.scale_factors * self.z_sz
        scaled_search_area = self.scale_factors * self.x_sz
        scaled_target = self.scale_factors[:, np.newaxis] * self.target_sz

_crop 截取图像块并进行填充和缩放。
_calc_score 计算x和z的相关分数，加惩罚之后寻找最高得分。

        # locate target
        crops_x = self._crop(image, self.center, scaled_search_area,
                             out_size=self.cfg.search_sz)
        x = self._extract_feature(crops_x)
        score, scale_id = self._calc_score(self.z, x)

更新x_sz和target_sz。
_locate_target 计算目标中心位置。

        self.x_sz = (1 - self.cfg.scale_lr) * self.x_sz + \
            self.cfg.scale_lr * scaled_search_area[scale_id]
        self.center = self._locate_target(self.center, score, self.final_score_sz,
                                          self.total_stride, self.cfg.search_sz,
                                          self.cfg.response_up, self.x_sz)
        self.target_sz = (1 - self.cfg.scale_lr) * self.target_sz + \
            self.cfg.scale_lr * scaled_target[scale_id]

如果设置了模板学习率则更新模板特征，否则仅更新z_sz 似乎应与论文中不同。这里z_sz 似乎应与z同步。

        # update the template
        # self.z_sz = (1 - self.cfg.scale_lr) * self.z_sz + \
        #     self.cfg.scale_lr * scaled_exemplar[scale_id]
        if self.cfg.z_lr > 0:
            crop_z = crop(image, self.center, self.z_sz,
                          out_size=self.cfg.exemplar_sz)
            new_z = self._extract_feature(crop_z)
            self.z = (1 - self.cfg.z_lr) * self.z + \
                self.cfg.z_lr * new_z
        self.z_sz = (1 - self.cfg.scale_lr) * self.z_sz + \
            self.cfg.scale_lr * scaled_exemplar[scale_id]

numpy.concatenate 沿现有轴加入一系列数组。
返回目标框的对角线坐标。

        return np.concatenate([
            self.center - self.target_sz / 2, self.target_sz])

_crop

_crop 根据sizes传入的尺寸从图像中裁剪出图像块。

numpy.tile 通过按照reps给出的次数重复A来构造数组。
如果reps的长度为d，则结果的维度为max(d, A.ndim)。
如果A.ndim < d，则通过预先添加新轴将A提升为d维。因此，形状(3,)的阵列被提升为(1, 3)用于2-D复制，或形状(1, 1, 3)用于3-D复制。如果这不是所需的行为，请在调用此函数之前手动将A提升为d维。

如果A.ndim> d，则通过前填1来将reps提升为A.ndim。因此，对于形状A(2, 3, 4, 5)，(2, 2)的reps被视为(1, 1, 2, 2)。

注意：尽管可以使用 tile 进行广播，但强烈建议使用 numpy 的广播操作和功能。

如果sizes仅为一个值，则将其构造为行向量。

        sizes = np.array(sizes)
        if sizes.ndim == 1:
            sizes = np.tile(sizes, (2, 1)).T

求尺度数组中的最大值，依此截取图像块。

        max_size = np.max(sizes, axis=0)
        anchor_patch = crop(image, center, max_size, padding=padding)

计算每个尺寸相对于图像块的偏移，依此截取。

        patches = []
        for i, size in enumerate(sizes):
            if np.all(size == max_size):
                patch = anchor_patch
            else:
                offset = (max_size - size) / 2
                patch = anchor_patch.crop((
                    int(offset[0]),
                    int(offset[1]),
                    int(offset[0] + round(size[0])),
                    int(offset[1] + round(size[1]))))
            if out_size is not None:
                patch = patch.resize((out_size, out_size), Image.BILINEAR)
            patches.append(patch)

如果仅有一个尺寸，修改patches的类型。

        if len(sizes) == 1:
            patches = patches[0]

        return patches

_deduce_network_params

初始化z和x，运行网络获得score_sz。实际运行的话成本过高，应通过计算获得。

        z = torch.zeros(1, 3, exemplar_sz, exemplar_sz).to(self.device)
        x = torch.zeros(1, 3, search_sz, search_sz).to(self.device)
        with torch.set_grad_enabled(False):
            self.model.eval()
            y = self.model(z, x)
        score_sz = y.size(-1)

计算网络总步长。

        total_stride = 1
        for m in self.model.modules():
            if isinstance(m, (nn.Conv2d, nn.MaxPool2d)):
                stride = m.stride[0] if isinstance(
                    m.stride, tuple) else m.stride
                total_stride *= stride

        return score_sz, total_stride

_extract_feature

torchvision.transforms.functional.to_tensor 将 PIL 图像或 numpy.ndarray 转换为张量。

        if isinstance(image, Image.Image):
            image = (255.0 * TF.to_tensor(image)).unsqueeze(0)
        elif isinstance(image, (list, tuple)):
            image = 255.0 * torch.stack([TF.to_tensor(c) for c in image])
        else:
            raise Exception('Incorrect input type: {}'.format(type(image)))

torch.autograd.set_grad_enabled 是上下文管理器，将梯度计算设置为打开或关闭。
eval() 设置模块为评估模式。这仅对某些模块有影响。有关其在训练/评估模式中的行为的详细信息，请参阅特定模块的文档，例如： Dropout，BatchNorm等。

        with torch.set_grad_enabled(False):
            self.branch.eval()
            return self.branch(image.to(self.device))

Pairwise

torch.utils.data.Dataset 表示数据集的抽象类。所有其他数据集都应该对其进行子类化。所有子类都应覆盖__len__，它提供数据集的大小，__getitem__，支持整数索引，范围从0到len(self)（不包含）。
pairs_per_video=25会影响对训练集的大小估计。

    def __init__(self, base_dataset, transform=None, pairs_per_video=25,
                 frame_range=100, causal=False, return_index=False,
                 rand_choice=True, subset='train', train_ratio=0.95):
        super(Pairwise, self).__init__()
        assert subset in ['train', 'val']

        self.base_dataset = base_dataset
        self.transform = transform
        self.pairs_per_video = pairs_per_video
        self.frame_range = frame_range
        self.causal = causal
        self.return_index = return_index
        self.rand_choice = rand_choice

base_dataset是 ImageNetVID 的返回值。

        n = len(self.base_dataset)
        split = int(n * train_ratio)
        split = np.clip(split, 10, n - 10)
        if subset == 'train':
            self.indices = np.arange(0, split, dtype=int)
            self.indices = np.tile(self.indices, pairs_per_video)
        elif subset == 'val':
            self.indices = np.arange(split, n, dtype=int)

`getitem`

检查索引超出。

        if index >= len(self):
            raise IndexError('list index out of range')

numpy.random.choice 从给定的1-D 阵列生成随机样本。

        if self.rand_choice:
            index = np.random.choice(self.indices)
        else:
            index = self.indices[index]
        img_files, anno = self.base_dataset[index]

_sample_pair 返回随即的x和z的索引。

        rand_z, rand_x = self._sample_pair(len(img_files))
        img_z = Image.open(img_files[rand_z])
        img_x = Image.open(img_files[rand_x])
        if img_z.mode == 'L':
            img_z = img_z.convert('RGB')
            img_x = img_x.convert('RGB')
        bndbox_z = anno[rand_z, :]
        bndbox_x = anno[rand_x, :]

构造item元组。

        if self.return_index:
            item = (img_z, img_x, bndbox_z, bndbox_x, rand_z, rand_x)
        else:
            item = (img_z, img_x, bndbox_z, bndbox_x)

TransformSiamFC 对图像进行处理，主要包括切图和生成标签。

        if self.transform is not None:
            return self.transform(*item)
        else:
            return item

SiameseNet

SiameseNet 需同时输入z和x，没有对z进行暂存。这样方便训练，而在测试时越过 SiameseNet 直接调用 branch。

Created with Raphaël 2.2.0 SiameseNet x, z branch xcorr norm out End

    def __init__(self, branch, norm='bn'):
        super(SiameseNet, self).__init__()
        self.branch = branch
        self.norm = Adjust2d(norm=norm)
        self.xcorr = XCorr()

    def forward(self, z, x):
        assert z.size()[:2] == x.size()[:2]
        z = self.branch(z)
        x = self.branch(x)
        out = self.xcorr(z, x)
        out = self.norm(out, z, x)

        return out

XCorr

XCorr 模块批量计算x和z的互相关。
torch.cat 在给定维度中连接给定的seq张量序列。所有张量必须具有相同的形状（在连接维度中除外）或为空。


    def __init__(self):
        super(XCorr, self).__init__()

    def forward(self, z, x):
        out = []
        for i in range(z.size(0)):
            out.append(F.conv2d(x[i, :].unsqueeze(0),
                                z[i, :].unsqueeze(0)))

        return torch.cat(out, dim=0)

Adjust2d

Adjust2d 模块在2D 平面上进行处理。
bn和linear需要初始化权重参数。

    def __init__(self, norm='bn'):
        super(Adjust2d, self).__init__()
        assert norm in [None, 'bn', 'cosine', 'euclidean', 'linear']
        self.norm = norm
        if norm == 'bn':
            self.bn = nn.BatchNorm2d(1)
        elif norm == 'linear':
            self.linear = nn.Conv2d(1, 1, 1, bias=True)
        self._initialize_weights()

cosine和euclidean为自行构造的函数。

    def forward(self, out, z=None, x=None):
        if self.norm == 'bn':
            out = self.bn(out)
        elif self.norm == 'linear':
            out = self.linear(out)
        elif self.norm == 'cosine':
            n, k = out.size(0), z.size(-1)
            norm_z = torch.sqrt(
                torch.pow(z, 2).view(n, -1).sum(1)).view(n, 1, 1, 1)
            norm_x = torch.sqrt(
                k * k * F.avg_pool2d(torch.pow(x, 2), k, 1).sum(1, keepdim=True))
            out = out / (norm_z * norm_x + 1e-32)
            out = (out + 1) / 2
        elif self.norm == 'euclidean':
            n, k = out.size(0), z.size(-1)
            sqr_z = torch.pow(z, 2).view(n, -1).sum(1).view(n, 1, 1, 1)
            sqr_x = k * k * \
                F.avg_pool2d(torch.pow(x, 2), k, 1).sum(1, keepdim=True)
            out = out + sqr_z + sqr_x
            out = out.clamp(min=1e-32).sqrt()
        elif self.norm == None:
            out = out

        return out

    def _initialize_weights(self):
        if self.norm == 'bn':
            self.bn.weight.data.fill_(1)
            self.bn.bias.data.zero_()
        elif self.norm == 'linear':
            self.linear.weight.data.fill_(1e-3)
            self.linear.bias.data.zero_()

TransformSiamFC

Created with Raphaël 2.2.0 __call__ _crop _create_labels _acquire_augment torchvision.transforms.functional.to_tensor torch.from_numpy End

load_siamfc_stats 从文件中加载x和z的均值和方差。

    def __init__(self, stats_path=None, **kargs):
        self.parse_args(**kargs)
        self.stats = None
        if stats_path:
            self.stats = load_siamfc_stats(stats_path)

根据参数设置属性。

    def parse_args(self, **kargs):
        # default branch is AlexNetV1
        default_args = {
            'exemplar_sz': 127,
            'search_sz': 255,
            'score_sz': 17,
            'context': 0.5,
            'r_pos': 16,
            'r_neg': 0,
            'total_stride': 8,
            'ignore_label': -100,
            # augmentation parameters
            'aug_translate': True,
            'max_translate': 4,
            'aug_stretch': True,
            'max_stretch': 0.05,
            'aug_color': True}

        for key, val in default_args.items():
            if key in kargs:
                setattr(self, key, kargs[key])
            else:
                setattr(self, key, val)

_crop 截取图像块并进行填充和缩放。
_create_labels

    def __call__(self, img_z, img_x, bndbox_z, bndbox_x):
        crop_z = self._crop(img_z, bndbox_z, self.exemplar_sz)
        crop_x = self._crop(img_x, bndbox_x, self.search_sz)
        labels, weights = self._create_labels()

_acquire_augment

        crop_z = self._acquire_augment(
            crop_z, self.exemplar_sz, self.stats.rgb_variance_z)
        crop_x = self._acquire_augment(
            crop_x, self.search_sz, self.stats.rgb_variance_x)

F.to_tensor 将 PIL Image 转为 [0,1] 之间的值。

        crop_z = (255.0 * F.to_tensor(crop_z)).float()
        crop_x = (255.0 * F.to_tensor(crop_x)).float()
        labels = torch.from_numpy(labels).float()
        weights = torch.from_numpy(weights).float()

        return crop_z, crop_x, labels, weights

_crop

bndbox格式为[x1,y1,x2,y2]，类型为 np.array。

        center = bndbox[:2] + bndbox[2:] / 2
        size = bndbox[2:]

背景为宽高和的一半。计算拓展面积，参照exemplar_sz计算图像块大小。

        context = self.context * size.sum()
        patch_sz = out_size / self.exemplar_sz * \
            np.sqrt((size + context).prod())

crop_pil 处理裁剪中的填充问题。

        return crop_pil(image, center, patch_sz, out_size=out_size)

_create_labels

_create_logisticloss_labels 生成大小为score_sz的标签，半径r_pos范围内的标签为正，其余为负。

        labels = self._create_logisticloss_labels()

weights使正负损失均衡。

        weights = np.zeros_like(labels)

        pos_num = np.sum(labels == 1)
        neg_num = np.sum(labels == 0)
        weights[labels == 1] = 0.5 / pos_num
        weights[labels == 0] = 0.5 / neg_num
        weights *= pos_num + neg_num

新加一个维度。

        labels = labels[np.newaxis, :]
        weights = weights[np.newaxis, :]

        return labels, weights

_create_logisticloss_labels

r_pos为正样本半径，r_neg为负样本半径。

        label_sz = self.score_sz
        r_pos = self.r_pos / self.total_stride
        r_neg = self.r_neg / self.total_stride
        labels = np.zeros((label_sz, label_sz))

标签值为0-1。

        for r in range(label_sz):
            for c in range(label_sz):
                dist = np.sqrt((r - label_sz // 2) ** 2 +
                               (c - label_sz // 2) ** 2)
                if dist <= r_pos:
                    labels[r, c] = 1
                elif dist <= r_neg:
                    labels[r, c] = self.ignore_label
                else:
                    labels[r, c] = 0

        return labels

_acquire_augment

numpy.random.rand 给定形状的随机值。创建给定形状的数组，并使用来自[0,1]上的均匀分布的随机样本填充它。
如果进行拉伸延展，scale区间为[1-max_stretch, 1+max_stretch]。而且size<=patch_sz。
这里patch_sz等于out_size，np.minimum似乎有问题。
acquire_augment 处理与之相同。

        center = (out_size // 2, out_size // 2)
        patch_sz = np.asarray(patch.size)

        if self.aug_stretch:
            scale = (1 + self.max_stretch * (-1 + 2 * np.random.rand(2)))
            size = np.round(np.minimum(out_size * scale, patch_sz))
        else:
            size = patch_sz

如果进行平移增强，计算平移范围。
size<patch_sz，意味着进行拉伸的情况下平移才生效。

        if self.aug_translate:
            mx, my = np.minimum(
                self.max_translate, np.floor((patch_sz - size) / 2))
            rx = np.random.randint(-mx, mx) if mx > 0 else 0
            ry = np.random.randint(-my, my) if my > 0 else 0
            dx = center[0] - size[0] // 2 + rx
            dy = center[1] - size[1] // 2 + ry
        else:
            dx = center[0] - size[0] // 2
            dy = center[1] - size[1] // 2

        patch = patch.crop((
            int(dx), int(dy),
            int(dx + round(size[0])),
            int(dy + round(size[1]))))
        patch = patch.resize((out_size, out_size), Image.NEAREST)

numpy.random.randn 从“标准正态”分布中返回一个（或多个）样本。
如果使用颜色增强，减去一个随机颜色值。

        if self.aug_color:
            offset = np.reshape(np.dot(
                rgb_variance, np.random.randn(3)), (1, 1, 3))
            out = Image.fromarray(np.uint8(patch - offset))
        else:
            out = patch

        return out

load_siamfc_from_matconvnet

检查跟踪器使用的网络类型。两个模型层名不同。

    assert isinstance(model.branch, (AlexNetV1, AlexNetV2))
    if isinstance(model.branch, AlexNetV1):
        p_conv = 'conv'
        p_bn = 'bn'
        p_adjust = 'adjust_'
    elif isinstance(model.branch, AlexNetV2):
        p_conv = 'br_conv'
        p_bn = 'br_bn'
        p_adjust = 'fin_adjust_bn'

load_matconvnet 从文件中读取到参数名和值的列表。
conv1f 为卷积核的信息，conv1b 为卷积的 bias 信息。

    params_names_list, params_values_list = load_matconvnet(filename)
    params_values_list = [torch.from_numpy(p) for p in params_values_list]
    for l, p in enumerate(params_values_list):
        param_name = params_names_list[l]
        if 'conv' in param_name and param_name[-1] == 'f':
            p = p.permute(3, 2, 0, 1)
        p = torch.squeeze(p)
        params_values_list[l] = p

构造网络元组。

    net = (
        model.branch.conv1,
        model.branch.conv2,
        model.branch.conv3,
        model.branch.conv4,
        model.branch.conv5)

layer[0]为卷积。

    for l, layer in enumerate(net):
        layer[0].weight.data[:] = params_values_list[
            params_names_list.index('%s%df' % (p_conv, l + 1))]
        layer[0].bias.data[:] = params_values_list[
            params_names_list.index('%s%db' % (p_conv, l + 1))]

如果不是最后一个卷积层，加载 BN 的参数。

        if l < len(net) - 1:
            layer[1].weight.data[:] = params_values_list[
                params_names_list.index('%s%dm' % (p_bn, l + 1))]
            layer[1].bias.data[:] = params_values_list[
                params_names_list.index('%s%db' % (p_bn, l + 1))]

            bn_moments = params_values_list[
                params_names_list.index('%s%dx' % (p_bn, l + 1))]
            layer[1].running_mean[:] = bn_moments[:, 0]
            layer[1].running_var[:] = bn_moments[:, 1] ** 2

如果是最后一个卷积层，根据norm的类型加载相应参数。

        elif model.norm.norm == 'bn':
            model.norm.bn.weight.data[:] = params_values_list[
                params_names_list.index('%sm' % p_adjust)]
            model.norm.bn.bias.data[:] = params_values_list[
                params_names_list.index('%sb' % p_adjust)]

            bn_moments = params_values_list[
                params_names_list.index('%sx' % p_adjust)]
            model.norm.bn.running_mean[:] = bn_moments[0]
            model.norm.bn.running_var[:] = bn_moments[1] ** 2
        elif model.norm.norm == 'linear':
            model.norm.linear.weight.data[:] = params_values_list[
                params_names_list.index('%sf' % p_adjust)]
            model.norm.linear.bias.data[:] = params_values_list[
                params_names_list.index('%sb' % p_adjust)]

    return model

load_siamfc_stats

定义状态结构体。

    Stats = namedtuple('Stats', [
        'rgb_mean_z',
        'rgb_variance_z',
        'rgb_mean_x',
        'rgb_variance_x'])

读取 mat 文件。

 mat = h5py.File(stats_path, mode='r')

numpy.linalg.eig 计算正方形阵列的特征值和右特征向量。

    rgb_mean_z = mat['z']['rgbMean'][:]
    d, v = np.linalg.eig(mat['z']['rgbCovariance'][:])
    rgb_variance_z = 0.1 * np.dot(np.sqrt(np.diag(d)), v.T)

    rgb_mean_x = mat['x']['rgbMean'][:]
    d, v = np.linalg.eig(mat['z']['rgbCovariance'][:])
    rgb_variance_x = 0.1 * np.dot(np.sqrt(np.diag(d)), v.T)

    stats = Stats(
        rgb_mean_z,
        rgb_variance_z,
        rgb_mean_x,
        rgb_variance_x)

    return stats

ImageNetVID

    def __init__(self, root_dir, return_rect=False,
                 subset='train', rand_choice=True, download=False):
        r'''TODO: make the track_id sampling deterministic
        '''
        super(ImageNetVID, self).__init__()
        self.root_dir = root_dir
        self.return_rect = return_rect
        self.rand_choice = rand_choice
        if download:
            self._download(self.root_dir)

        if not self._check_integrity():
            raise Exception('Dataset not found or corrupted. ' +
                            'You can use download=True to download it.')

glob.glob 返回与pathname匹配的可能为空的路径名列表，路径名必须是包含路径规范的字符串。pathname可以是绝对的（如/usr/src/Python-1.5/Makefile）或相对的（如../../Tools/*/*.gif），也可以包含 shell 样式的通配符。结果中包含损坏的符号链接（如在 shell 中）。

        if subset == 'val':
            self.seq_dirs = sorted(glob.glob(os.path.join(
                self.root_dir, 'Data/VID/val/ILSVRC2015_val_*')))
            self.seq_names = [os.path.basename(s) for s in self.seq_dirs]
            self.anno_dirs = [os.path.join(
                self.root_dir, 'Annotations/VID/val', s) for s in self.seq_names]
        elif subset == 'train':
            self.seq_dirs = sorted(glob.glob(os.path.join(
                self.root_dir, 'Data/VID/train/ILSVRC*/ILSVRC*')))
            self.seq_names = [os.path.basename(s) for s in self.seq_dirs]
            self.anno_dirs = [os.path.join(
                self.root_dir, 'Annotations/VID/train',
                *s.split('/')[-2:]) for s in self.seq_dirs]
        else:
            raise Exception('Unknown subset.')

`getitem`

检查index是否在序列名列表中。

        if isinstance(index, six.string_types):
            if not index in self.seq_names:
                raise Exception('Sequence {} not found.'.format(index))
            index = self.seq_names.index(index)
        elif self.rand_choice:
            index = np.random.randint(len(self.seq_names))

读取 xml 文件中的’object’字段。

        anno_files = sorted(glob.glob(
            os.path.join(self.anno_dirs[index], '*.xml')))
        objects = [ET.ElementTree(file=f).findall('object')
                   for f in anno_files]

        # choose the track id randomly
        track_ids, counts = np.unique([obj.find(
            'trackid').text for group in objects for obj in group], return_counts=True)
        track_id = random.choice(track_ids[counts >= 2])

        anno = []
        for f, group in enumerate(objects):
            for obj in group:
                if not obj.find('trackid').text == track_id:
                    continue
                frames.append(f)
                anno.append([
                    int(obj.find('bndbox/xmin').text),
                    int(obj.find('bndbox/ymin').text),
                    int(obj.find('bndbox/xmax').text),
                    int(obj.find('bndbox/ymax').text)])

        img_files = [os.path.join(
            self.seq_dirs[index], '%06d.JPEG' % f) for f in frames]
        anno = np.array(anno)
        if self.return_rect:
            anno[:, 2:] = anno[:, 2:] - anno[:, :2] + 1

        return img_files, anno

OTB

定义数据集列表。

    __otb13_seqs = ['Basketball', 'Bolt', 'Boy', 'Car4', 'CarDark',
                    'CarScale', 'Coke', 'Couple', 'Crossing', 'David',
                    'David2', 'David3', 'Deer', 'Dog1', 'Doll', 'Dudek',
                    'FaceOcc1', 'FaceOcc2', 'Fish', 'FleetFace',
                    'Football', 'Football1', 'Freeman1', 'Freeman3',
                    'Freeman4', 'Girl', 'Ironman', 'Jogging', 'Jumping',
                    'Lemming', 'Liquor', 'Matrix', 'Mhyang', 'MotorRolling',
                    'MountainBike', 'Shaking', 'Singer1', 'Singer2',
                    'Skating1', 'Skiing', 'Soccer', 'Subway', 'Suv',
                    'Sylvester', 'Tiger1', 'Tiger2', 'Trellis', 'Walking',
                    'Walking2', 'Woman']

    __tb50_seqs = ['Basketball', 'Biker', 'Bird1', 'BlurBody', 'BlurCar2',
                   'BlurFace', 'BlurOwl', 'Bolt', 'Box', 'Car1', 'Car4',
                   'CarDark', 'CarScale', 'ClifBar', 'Couple', 'Crowds',
                   'David', 'Deer', 'Diving', 'DragonBaby', 'Dudek',
                   'Football', 'Freeman4', 'Girl', 'Human3', 'Human4',
                   'Human6', 'Human9', 'Ironman', 'Jump', 'Jumping',
                   'Liquor', 'Matrix', 'MotorRolling', 'Panda', 'RedTeam',
                   'Shaking', 'Singer2', 'Skating1', 'Skating2', 'Skiing',
                   'Soccer', 'Surfer', 'Sylvester', 'Tiger2', 'Trellis',
                   'Walking', 'Walking2', 'Woman']

    __tb100_seqs = ['Bird2', 'BlurCar1', 'BlurCar3', 'BlurCar4', 'Board',
                    'Bolt2', 'Boy', 'Car2', 'Car24', 'Coke', 'Coupon',
                    'Crossing', 'Dancer', 'Dancer2', 'David2', 'David3',
                    'Dog', 'Dog1', 'Doll', 'FaceOcc1', 'FaceOcc2', 'Fish',
                    'FleetFace', 'Football1', 'Freeman1', 'Freeman3',
                    'Girl2', 'Gym', 'Human2', 'Human5', 'Human7', 'Human8',
                    'Jogging', 'KiteSurf', 'Lemming', 'Man', 'Mhyang',
                    'MountainBike', 'Rubik', 'Singer1', 'Skater',
                    'Skater2', 'Subway', 'Suv', 'Tiger1', 'Toy', 'Trans',
                    'Twinnings', 'Vase']

    __otb15_seqs = __tb50_seqs + __tb100_seqs

    __version_dict = {
        2013: __otb13_seqs,
        2015: __otb15_seqs,
        'otb2013': __otb13_seqs,
        'otb2015': __otb15_seqs,
        'tb50': __tb50_seqs,
'tb100': __tb100_seqs}

`init`

检查版本。_check_integrity 获取路径下的子文件夹，检查是否都存在。
chain.from_iterable chain() 的替代构造函数。获取来自延迟计算的单个可迭代参数的链式输入。

    def __init__(self, root_dir, version=2015, download=True):
        super(OTB, self).__init__()
        assert version in self.__version_dict

        self.root_dir = root_dir
        self.version = version
        if download:
            self._download(root_dir, version)
        self._check_integrity(root_dir, version)

        valid_seqs = self.__version_dict[version]
        self.anno_files = list(chain.from_iterable(glob.glob(
            os.path.join(root_dir, s, 'groundtruth*.txt')) for s in valid_seqs))
        # remove empty annotation files
        # (e.g., groundtruth_rect.1.txt of Human4)
        self.anno_files = self._filter_files(self.anno_files)
        self.seq_dirs = [os.path.dirname(f) for f in self.anno_files]
        self.seq_names = [os.path.basename(d) for d in self.seq_dirs]
        # rename repeated sequence names
        # (e.g., Jogging and Skating2)
self.seq_names = self._rename_seqs(self.seq_names)

`getitem`

        if isinstance(index, six.string_types):
            if not index in self.seq_names:
                raise Exception('Sequence {} not found.'.format(index))
            index = self.seq_names.index(index)

        img_files = sorted(glob.glob(
            os.path.join(self.seq_dirs[index], 'img/*.jpg')))

        # special sequences
        # (visit http://cvlab.hanyang.ac.kr/tracker_benchmark/index.html for detail)
        seq_name = self.seq_names[index]
        if seq_name.lower() == 'david':
            img_files = img_files[300-1:770]
        elif seq_name.lower() == 'football1':
            img_files = img_files[:74]
        elif seq_name.lower() == 'freeman3':
            img_files = img_files[:460]
        elif seq_name.lower() == 'freeman4':
            img_files = img_files[:283]
        elif seq_name.lower() == 'diving':
            img_files = img_files[:215]

        # to deal with different delimeters
        with open(self.anno_files[index], 'r') as f:
            anno = np.loadtxt(io.StringIO(f.read().replace(',', ' ')))
        assert len(img_files) == len(anno)
        assert anno.shape[1] == 4

return img_files, anno

参考文献

huanglianghua/siamfc-pytorch
huanglianghua/open-vot
torrvision/siamfc-tf
zlj199502/siamfc_pytorch
PyTorch(六)——梯度反向传递(BackPropogate)的理解
PyTorch入门学习（二）：Autogard之自动求梯度
Task 4 CNN back-propagation 反向传播算法
CFNet视频目标跟踪源码运行笔记（2）——training and then tracking
Loading weights from pretrained model with different module names
MatConvNet实现深度学习
pytorch如何使用多块gpu?
PyTorch使用tensorboardX
rafellerc/Pytorch-SiamFC

你可能感兴趣的:(VisualTracking,PyTorch,DeepLearning)

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
vllm本地部署bge-reranker-v2-m3模型API服务实战教程雷电法王大模型部署 linux python vscode language model
文章目录一、说明二、配置环境2.1安装虚拟环境2.2安装vllm2.3对应版本的pytorch安装2.4安装flash_attn2.5下载模型三、运行代码3.1启动服务3.2调用代码验证一、说明本文主要介绍vllm本地部署BAAI/bge-reranker-v2-m3模型API服务实战教程本文是在Ubuntu24.04+CUDA12.8+Python3.12环境下复现成功的二、配置环境2.1安装虚
pycharm无法识别conda环境（已解决） Reborker pycharm conda ide
文章目录前言研究过程解决办法前言好久不用pycharm了，打开后提示更新，更新到了2023.1版本。安装conda后在新建了一个虚拟环境pytorch，但是无论是基础环境还是虚拟环境，pycharm都识别不出conda里的python.exe(如图)。如果不想看啰嗦直接看后面的解决办法，比较闲的话可以看看我的研究过程。研究过程看了很多博客，尝试了以下解决办法：加载conda.bat文件，虽然出现了
jetson agx orin 刷机、cuda、pytorch配置指南【亲测有效】
jetsonagxorin刷机指南注意事项刷机具体指南cuda环境配置指南Anconda、Pytorch配置注意事项1.使用设备自带usbtoc的传输线时，注意c口插到orin左侧的口，右侧的口不支持数据传输；2.刷机时需准备ubuntu系统，可以是虚拟机，注意安装SDKManager刷机时，JetPack版本要选对，JetPack6.0的对应ubuntu22，cuda12版本，对应pytorch
Yolov5-obb(旋转目标poly_nms_cuda.cu编译bug记录及解决方案)
关于在执行pythonsetup.pydevelop#or"pipinstall-v-e."时poly_nms_cuda.cu报错问题。前面步骤严格按照install.md环境1.pytorch版本较低时（我的是1.10）：poly_nms_cuda.cu文件添加”#defineeps1e-8“，删除“constdoubleeps=1E-8;”这句2.pytorch版本较高时（我用的是1.27）h
【深度学习实战】当前三个最佳图像分类模型的代码详解云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习人工智能分类模型机器学习 Transformer EfficientNet ConvNeXt
下面给出三个在当前图像分类任务中精度表现突出的模型示例，分别基于SwinTransformer、EfficientNet与ConvNeXt。每个模型均包含：训练代码（使用PyTorch）从预训练权重开始微调（也可注释掉预训练选项，从头训练）数据集目录结构：└──dataset_root├──buy#第一类图像└──nobuy#第二类图像随机拆分：80%训练，20%验证每个Epoch输出一次loss
Text2Reward学习笔记
1.提示词请问，“glew”是一个RL工程师常用的工具库吗？请问,thiscodebase主要是做什么用的呀？1.1解释代码是否可以请您根据thiscodebase的主要功能，参考PyTorch的文档格式和文档风格，使用Markdown格式为选中的代码行编写一段相应的文档说明呢？2.项目环境配置2.1新建环境[official]2.1.1Featurizecondacreate-p~/work/d
Embabel：下一代企业级JVM AI智能体框架的革命引言：AI时代的Java生态新机遇 DZSpace 软件开发 jvm 人工智能 java
在生成式AI（如ChatGPT、Claude、Gemini）席卷全球的背景下，Python凭借其丰富的AI工具链（如PyTorch、LangChain）成为主流开发语言。然而，在企业级软件开发领域，Java和JVM生态（如Kotlin、Scala）长期以来占据主导地位，尤其是在金融、电信、电商等对稳定性、可扩展性、事务管理要求极高的场景。RodJohnson（Spring框架创始人）敏锐地发现了这
【第三章:神经网络原理详解与Pytorch入门】02.深度学习框架PyTorch入门-(4)Pytorch实战 IT古董人工智能课程深度学习神经网络 pytorch
第三章:神经网络原理详解与Pytorch入门第二部分：深度学习框架PyTorch入门第四节：Pytorch模型构建内容：如何搭建复杂网络以及如何修改模型与保存一、构建复杂神经网络结构在PyTorch中，构建复杂模型通常通过继承nn.Module类，分模块组织层与前向传播逻辑。示例：自定义一个卷积神经网络（CNN）importtorch.nnasnnimporttorch.nn.functional
ER综述论文阅读-Emotion recognition in EEG signals using deep learning methods: A review 今天早睡了情绪识别Emotion Recognition 论文阅读深度学习人工智能
EmotionrecognitioninEEGsignalsusingdeeplearningmethods:AreviewQ1期刊，2023论文链接：https://d1wqtxts1xzle7.cloudfront.net/105887899/emotionreview-libre.pdf?1695460941=&response-content-disposition=inline%3B+f
jetson orin nano安装GPU版本的pytorch过程小鲈鱼- pytorch 人工智能 python
一、安装jetpack组件和安装CUDA/cuDNN可以参考下面这个博客「解析」JetsonOrinNX安装CUDA/cuDNN_jetsoncuda-CSDN博客二、安装Pytorch和torchaudio可以直接看官方给的步骤https://pytorch.org/audio/main/build.jetson.html
lstm 输入数据维度_[mcj]pytorch中LSTM的输入输出解释||LSTM输入输出详解萬重 lstm 输入数据维度
最近想了解一些关于LSTM的相关知识，在进行代码测试的时候，有个地方一直比较疑惑，关于LSTM的输入和输出问题。一直不清楚在pytorch里面该如何定义LSTM的输入和输出。首先看个pytorch官方的例子：#首先导入LSTM需要的相关模块importtorchimporttorch.nnasnn#神经网络模块#数据向量维数10,隐藏元维度20,2个LSTM层串联(如果是1，可以省略，默认为1)r
pytorch 自动微分 this_show_time pytorch 人工智能 python 机器学习
自动微分1.基础概念1.1.**张量**1.2.**计算图**：1.3.**反向传播**1.4.**梯度**2.计算梯度2.1标量梯度计算2.2向量梯度计算2.3多标量梯度计算2.4多向量梯度计算3.梯度上下文控制3.1控制梯度计算（withtorch.no_grad()）3.2累计梯度3.3梯度清零(torch.zero_())自动微分模块torch.autograd负责自动计算张量操作的梯度，
PyTorch 在 Python 自然语言处理中的运用 Python编程之道 Python编程之道 python pytorch 自然语言处理 ai
PyTorch在Python自然语言处理中的运用关键词：PyTorch，Python，自然语言处理，深度学习，文本分类，情感分析摘要：本文全面探讨了PyTorch在Python自然语言处理（NLP）领域的运用。首先介绍了相关背景知识，包括目的范围、预期读者等内容。接着详细阐述了核心概念，如词嵌入、循环神经网络等，并给出了相应的原理示意图和流程图。深入讲解了核心算法原理，结合Python代码进行详细
【AI大模型】PyTorch Lightning 简化工具我爱一条柴ya 学习AI记录人工智能 pytorch python ai AI编程
PyTorchLightning是一个轻量级的PyTorch封装库，它通过抽象训练循环的工程细节，让研究人员可以专注于模型设计和实验。以下是PyTorchLightning的核心概念和实战指南。核心优势基础使用：三步搭建训练流程1.定义LightningModuleimporttorchimporttorch.nnasnnimportpytorch_lightningasplfromtorchme
【零基础学AI】第30讲：生成对抗网络(GAN)实战 - 手写数字生成 1989 0基础学AI 人工智能生成对抗网络神经网络 python 机器学习近邻算法深度学习
本节课你将学到GAN的基本原理和工作机制使用PyTorch构建生成器和判别器DCGAN架构实现技巧训练GAN模型的实用技巧开始之前环境要求Python3.8+需要安装的包：pipinstalltorchtorchvisionmatplotlibnumpyGPU推荐（可大幅加速训练）前置知识第21讲TensorFlow基础第23讲神经网络原理基本PyTorch使用经验核心概念什么是GAN？GAN就像
huggingface 笔记： Trainer UQI-LIUWJ 笔记人工智能
Trainer是一个为Transformers中PyTorch模型设计的完整训练与评估循环只需将模型、预处理器、数据集和训练参数传入Trainer，其余交给它处理，即可快速开始训练自动处理以下训练流程：根据batch计算loss使用backward()计算梯度根据梯度更新权重重复上述流程直到达到指定的epoch数1配置TrainingArguments使用TrainingArguments定义训练
【深度学习-Day 35】实战图像数据增强：用PyTorch和TensorFlow扩充你的数据集吴师兄大模型深度学习入门到精通深度学习 pytorch tensorflow 人工智能 python 大模型 LLM
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
PyTorch+CNN进行猫狗识别项目
任务介绍数据结构为：big_data├──train│└──cat│└──XXX.jpg（每个文件夹含若干张图像）│└──dog│└──XXX.jpg（每个文件夹含若干张图像）├──val│└──cat│└──XXX.jpg（每个文件夹含若干张图像）│└──dog└─────└──XXX.jpg（每个文件夹含若干张图像）需要对train数据集进行训练，达到给定val数据集中的一张猫/狗的图片，识别
人体坐姿检测系统开发实战（YOLOv8+PyTorch+可视化） Loving_enjoy 计算机学科论文创新点人工智能深度学习迁移学习经验分享
本文将手把手教你构建智能坐姿检测系统，结合目标检测与姿态估计技术，实现不良坐姿的实时识别与预警###一、项目背景与价值现代人每天平均坐姿时间超过8小时，不良坐姿会导致：-脊椎压力增加300%-颈椎病发病率提升45%-腰椎间盘突出风险增加60%本系统通过计算机视觉技术实时监测坐姿状态，对驼背、侧倾、前倾等不良姿势进行智能识别和预警。相较于传统传感器方案，我们的视觉方案具有非接触、低成本、易部署的优势
macOS运行python程序遇libiomp5.dylib库冲突错误解决方案 screenCui macos python 开发语言
用途说明在macOS系统运行某些涉及OpenMP或多线程的Python程序（如PyTorch、NumPy等科学计算库）时，可能会出现libiomp5.dylib库冲突的错误。设置os.environ['KMP_DUPLICATE_LIB_OK']='True'允许系统加载重复的动态链接库，临时解决冲突问题。典型错误场景错误信息通常包含以下内容：OMP:Error#15:Initializingli
【零基础学AI】第33讲：强化学习基础 - 游戏AI智能体 1989 0基础学AI 人工智能游戏 transformer 分类深度学习神经网络
本节课你将学到理解强化学习的基本概念和框架掌握Q-learning算法原理使用Python实现贪吃蛇游戏AI训练能够自主玩游戏的智能体开始之前环境要求Python3.8+PyTorch2.0+Gymnasium(原OpenAIGym)NumPyMatplotlib推荐使用JupyterNotebook进行实验前置知识Python基础编程（第1-8讲）基本数学概念（函数、导数）神经网络基础（第23讲
基于Abp Vnext、FastMCP构建一个企业级的模型即服务（MaaS）平台方案 NetX行者 Abp vnext Maas Abp vnext FastMCP 企业级平台解决方案开源 python
企业级MaaS平台技术可行性分析报告一、总体技术架构HTTP/WebSocketgRPC/RESTgRPC/RESTgRPCVue3前端ABPvNextAPI网关.NET9业务微服务ABPvNextMCPClientFastMCP模型仓库PyTorch/TensorFlowHuggingFaceHeyGem/ChatGLM自定义模型统一鉴权中心二、核心框架与中间件组件技术选型官方链接作用前端框架V
TensorRT-LLM：大模型推理加速引擎的架构与实践
前言：技术背景与发展历程：随着GPT-4、LLaMA等千亿级参数模型的出现，传统推理框架面临三大瓶颈：显存占用高（单卡可达80GB）、计算延迟大（生成式推理需迭代处理）、硬件利用率低（Transformer结构存在计算冗余）。根据MLPerf基准测试，原始PyTorch推理的token生成速度仅为12.3tokens/s（A100显卡）。一、TensorRT-LLM介绍：TensorRT-LLM是
服务器无对应cuda版本安装pytorch-gpu[自用] 片月斜生梦泽南 pytorch
服务器无对应cuda版本安装pytorch-gpu服务器无对应cuda版本安装pytorch-gpu网址下载非root用户安装tmux查看服务器ubuntu版本conda安装tensorflow-gpu安装1.x版本服务器无对应cuda版本安装pytorch-gpu网址GPU版本的pytorch、pytorchvision的下载链接https://download.pytorch.org/whl/
Python机器学习与深度学习：决策树、随机森林、XGBoost与LightGBM、迁移学习、循环神经网络、长短时记忆网络、时间卷积网络、自编码器、生成对抗网络、YOLO目标检测等 WangYan2022 机器学习/深度学习 Python 机器学习深度学习随机森林迁移学习
融合最新技术动态与实战经验，旨在系统提升以下能力：①掌握ChatGPT、DeepSeek等大语言模型在代码生成、模型调试、实验设计、论文撰写等方面的实际应用技巧②深入理解深度学习与经典机器学习算法的关联与差异，掌握其理论基础③熟练运用PyTorch实现各类深度学习模型，包括迁移学习、循环神经网络（RNN）、长短时记忆网络（LSTM）、时间卷积网络（TCN）、自编码器、生成对抗网络（GAN）、YOL
Python打卡：Day40
#先继续之前的代码importtorchimporttorch.nnasnnimporttorch.optimasoptimfromtorch.utils.dataimportDataLoader,Dataset#DataLoader是PyTorch中用于加载数据的工具fromtorchvisionimportdatasets,transforms#torchvision是一个用于计算机视觉的库，
Ubuntu下安装多版本CUDA及灵活切换全攻略芯作者 D2：ubuntu linux ubuntu
——释放深度学习潜能，告别版本依赖的烦恼！**为什么需要多版本CUDA？在深度学习、科学计算等领域，不同框架（TensorFlow、PyTorch等）对CUDA版本的要求各异。同时升级框架或维护旧项目时，版本冲突频发。多版本CUDA共存+一键切换是高效开发的刚需！本文将手把手教你实现这一能力，并分享独创的“动态软链接+环境隔离”技巧，让版本管理行云流水！环境准备硬件要求NVIDIA显卡（支持CUD
PyTorch安装总失败？看完这篇保姆级教程，从0到1轻松搞定！喜欢编程就关注我 pytorch 人工智能 python
引言：为什么你装不好PyTorch？“CUDA版本不匹配？pip安装超时？conda环境冲突？”新手安装PyTorch的坑比代码bug还多！这篇博客整合CSDN高赞实战技巧，手把手教你绕过10大安装陷阱，附赠代码级验证指南！一、安装前必看：环境检查清单检查项操作方法Python版本python--version（推荐3.8-3.11）CUDA驱动nvidia-smi（仅NVIDIA显卡需要）con
Python打卡DAY36
DAY36：复习日恩师@浙大疏锦行在PyTorch中，nn.Model是所有神经网络模块的基类，为构建和训练神经网络提供了丰富的方法，如下：1.模型构建与参数管理__init__方法功能：用于初始化神经网络模块的参数和子模块。在自定义网络时，通常会重写此方法来定义网络的结构。细节解释：在__init__方法中，可以定义各种层，如卷积层、全连接层等。这些层会被自动注册为子模块，方便后续管理。impo
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息