图波列夫

DeepSORT 多目标跟踪算法笔记

SORT 是一种实用的多目标跟踪算法，然而由于现实中目标运动多变且遮挡频繁，该算法的身份转换（Identity Switches）次数较高。DeepSORT 整合外观信息使得身份转换的数量减少了45％。所提方案为：

使用马氏距离和深度特征余弦距离两种度量；
采取级联匹配，优先匹配距上次出现间隔短的目标；
第一级关联以余弦距离作为成本函数，但设定马氏距离和余弦距离两个阈值约束；
第二级关联与 SORT 中相同，尝试关联未确认和年龄为 $n = 1$ 的不匹配轨迹；
同样采用试用期甄别目标，但大幅提高轨迹寿命 $A_{\mathrm{max}}=30$ 。

带有深度关联度量的 SORT 算法

DeepSORT 属于传统的单假设跟踪方法，采用递归卡尔曼滤波和逐帧数据关联。

轨迹处理和状态估计

多目标跟踪问题的一个普遍场景为：摄像机未校准且没有自身运动信息可用。这也是多目标跟踪基准测试中最常见的设置（MOT16）。因此，DeepSORT

将跟踪场景定义在八维状态空间—— $\gamma, h, \dot{x}, \dot{y}, \dot{\gamma}, \dot{h})$ ，包含边界框中心位置 $(u, v)$ 、纵横比 $\gamma$ 、高度 $h$ 以及它们各自在图像坐标中的速度。
使用具有等速运动和线性观测模型的标准卡尔曼滤波器，并把边界坐标 $\gamma, h)$ 作为物体状态的直接观测。
轨迹处理和卡尔曼滤波框架与 SORT 中的原始公式基本相同。

每个轨迹 $K$ 内部记录自上次成功关联到测量 $a_k$ 以来的帧数。该计数器在卡尔曼滤波器预测期间递增，并且当轨迹与测量相关联时重置为0。

将超过预定义最大寿命 $A_{\rm max}$ 的轨迹视为已离开场景并从轨迹集中删除。
由无法与现有轨迹相关联的检测创建新的轨迹假设。这些新轨迹在前三帧中被列为暂定轨迹。在此期间，每次检测后如不能关联到则删除该轨迹。

关联问题

关联预测卡尔曼状态与新到达测量值的常规方法是将其看作分配问题，利用匈牙利算法求解。DeepSORT 通过结合目标框马氏距离和特征余弦距离两个度量来整合运动和外观信息。一方面，马式距离基于运动提供了有关物体可能位置的信息，这对短期预测特别有用。另一方面，余弦距离考虑外观信息，这对于在长期遮挡之后找回身份特别有用，此时运动不那么具有辨别力。

预测卡尔曼状态和新到测量值之间的（平方）马氏距离(Mahalanobis 距离)：

$\begin{aligned} d^{(1)}(i,j) = (d_j - y_i)^\top S^{-1}_i (d_j - y_i), \end{aligned}$
其中， $y_i, S_i)$ 表示第 $i$ 个轨迹分布到测量空间的投影， $d_j$ 表示第 $j$ 个检测边界框。

马氏距离通过测算检测与平均轨迹位置的距离超过多少标准差来考虑状态估计的不确定性。此外，可以通过从逆 $\chi^2$ 分布计算 $95\%$ 置信区间的阈值，排除可能性小的关联。四维测量空间对应的马氏阈值为 $t^{(1)} = 9.4877$ 。如果第 $i$ 条轨迹和第 $j$ 个检测之间的关联是可采纳的，则：
$\begin{aligned} b_{i,j}^{(1)} = \mathbb{1}[d^{(1)}(i, j) \leq t^{(1)}] \end{aligned}$

当运动不确定性较低时，马式距离是一个合适的关联度量。但在跟踪的图像空间问题公式中，卡尔曼滤波框架仅提供目标位置的粗略估计。尤其是，未考虑的摄像机运动会在图像平面中引入快速位移，使得在遮挡情况下跟踪时马式距离度量相当不精确。因此，DeepSORT

对于每个检测边界框 $d_j$ 计算一个外观描述符 $r_j$ ，满足 $\lVert r_j\rVert = 1$ ；
每个轨迹保留最后 $L_k=100$ 个关联外观描述符的原型库（gallery） $\mathcal{R}_k = \{\vec{r}_k^{(i)}\}_{k=1}^{L_k}$ ；
外观空间中第 $i$ 个轨迹和第 $j$ 个检测之间的最小余弦距离为：
$\begin{aligned} d^{(2)}(i, j) = \min\{1 - r^\top_j r^{(i)}_k \| r^{(i)}_k\in \mathcal{R}_i\} \end{aligned}$
引入一个二进制变量来指示根据此度量标准是否允许关联：
$\begin{aligned} b_{i,j}^{(2)} = \mathbb{1}[d^{(2)}(i, j) \leq t^{(2)}] \end{aligned}$

算法在一个独立训练数据集上找到该指标的合适阈值。在实践中，DeepSORT 应用一个预训练的 CNN 来计算边界框外观描述符。

关联问题的成本函数为以上两个指标的加权和：
$\begin{aligned} c_{i,j} = \lambda \, d^{(1)}(i, j) + (1 - \lambda) d^{(2)}(i, j) \end{aligned}$
超参数 $\lambda$ 控制每个度量对组合关联成本的影响。在实验中，作者发现当有大量的相机运动时，设置 $\lambda=0$ 是一个合理的选择。此时，关联成本中仅使用外观信息。然而，关联结果仍受两方面的约束。仅当关联在两个度量的选通区域内时，称其为可接受关联：

$\begin{aligned} b_{i,j} = \prod_{m=1}^{2} b_{i, j}^{(m)}. \end{aligned}$

级联匹配

当目标被遮挡一段较长的时间后，随后的卡尔曼滤波预测会增加与目标位置相关的不确定性。因此，概率质量在状态空间中扩散，观测概率变得不那么尖峰。直观地说，关联度量应该通过增加测量跟踪距离来解释概率质量的这种扩散。与直觉相反，当两条轨迹竞争同一检测时，马式距离倾向于更大的不确定性，因为它有效地减少了检测的标准偏差到投影轨迹平均值的距离。这不是我们所期望的，因为它可能导致轨迹碎片增加和轨迹不稳定。因此，DeepSORT
引入级联匹配，优先考虑更常见的目标，以编码关联似然中概率扩散的概念。

在最后的匹配阶段，使用 SORT 算法中提出的 IoU 度量方法尝试关联未确认和年龄为 $n = 1$ 的不匹配轨迹。这有助于解决外观的突然变化，如静态场景几何体的部分遮挡，并且增加了针对错误初始化的鲁棒性。

Deep Appearance Descriptor

以上方法的成功应用需要提前离线训练区分度高的特征嵌入。为此，DeepSORT 采用了一个在大规模行人重新识别数据集（MARS）上训练的 CNN，其中包含1261个行人的超过110万张图像，这使得它非常适合行人跟踪中的深度度量学习。

如下表所示，模型结构为宽残差网络（WRNS），其中有两个卷积层，后面是六个残差块。维度 $128$ 的全局特征映射在 “Dense 10”层中计算。最终 BN 和 $\ell_2$ 规范化投影特征到单元超球面上从而与余弦外观度量兼容。网络参数量为2.67M，在 Nvidia GeForce GTX 1050移动 GPU 上，32个边界框的一次前向花费大约 $30\,\textrm{ms}$ 。因此，只要有现代 GPU，该网络就非常适合在线跟踪。作者在 GitHub 仓库中提供了预先训练的模型以及可用于生成特征的脚本。

程序分为两部分：运行框架（application_util）和算法（deep_sort）。程序运行时由 Visualization 或者 NoVisualization 进行管理。算法主要实体为 Tracker、KalmanFilter、Track、NearestNeighborDistanceMetric 和 Detection。KalmanFilter 中自己定义了马氏距离的计算，NearestNeighborDistanceMetric 能够计算特征相似度。linear_assignment.py 中定义了阈值选通和匹配函数。

deep_sort_app.py

main

parse_args

run

    args = parse_args()
    run(
        args.sequence_dir, args.detection_file, args.output_file,
        args.min_confidence, args.nms_max_overlap, args.min_detection_height,
        args.max_cosine_distance, args.nn_budget, args.display)

parse_args()

解析命令行参数。

    parser = argparse.ArgumentParser(description="Deep SORT")
    parser.add_argument(
        "--sequence_dir", help="Path to MOTChallenge sequence directory",
        default=None, required=True)
    parser.add_argument(
        "--detection_file", help="Path to custom detections.", default=None,
        required=True)
    parser.add_argument(
        "--output_file", help="Path to the tracking output file. This file will"
        " contain the tracking results on completion.",
        default="/tmp/hypotheses.txt")
    parser.add_argument(
        "--min_confidence", help="Detection confidence threshold. Disregard "
        "all detections that have a confidence lower than this value.",
        default=0.8, type=float)
    parser.add_argument(
        "--min_detection_height", help="Threshold on the detection bounding "
        "box height. Detections with height smaller than this value are "
        "disregarded", default=0, type=int)
    parser.add_argument(
        "--nms_max_overlap",  help="Non-maxima suppression threshold: Maximum "
        "detection overlap.", default=1.0, type=float)
    parser.add_argument(
        "--max_cosine_distance", help="Gating threshold for cosine distance "
        "metric (object appearance).", type=float, default=0.2)
    parser.add_argument(
        "--nn_budget", help="Maximum size of the appearance descriptors "
        "gallery. If None, no budget is enforced.", type=int, default=None)
    parser.add_argument(
        "--display", help="Show intermediate tracking results",
        default=True, type=bool_string)
    return parser.parse_args()

run

Created with Raphaël 2.2.0 run sequence, detection gather_sequence_info NearestNeighborDistanceMetric Tracker display? Visualization Visualization.run frame_callback results End NoVisualization NoVisualization.run yes no

gather_sequence_info 收集序列信息，例如图像文件名、检测、标注（如果有的话）。
NearestNeighborDistanceMetric 最近邻距离度量，对于每个目标，返回到目前为止已观察到的任何样本的最近距离（欧式或余弦）。
由距离度量方法构造一个 Tracker。

    seq_info = gather_sequence_info(sequence_dir, detection_file)
    metric = nn_matching.NearestNeighborDistanceMetric(
        "cosine", max_cosine_distance, nn_budget)
    tracker = Tracker(metric)
    results = []

嵌套定义回调函数，过滤检测结果，预测目标并进行更新。
create_detections 从原始检测矩阵创建给定帧索引的检测。
non_max_suppression 抑制重叠的检测。

    def frame_callback(vis, frame_idx):
        print("Processing frame %05d" % frame_idx)

        # Load image and generate detections.
        detections = create_detections(
            seq_info["detections"], frame_idx, min_detection_height)
        detections = [d for d in detections if d.confidence >= min_confidence]

        # Run non-maxima suppression.
        boxes = np.array([d.tlwh for d in detections])
        scores = np.array([d.confidence for d in detections])
        indices = preprocessing.non_max_suppression(
            boxes, nms_max_overlap, scores)
        detections = [detections[i] for i in indices]

Tracker.predict 将跟踪状态分布向前传播一步。
Tracker.update 执行测量更新和跟踪管理。

        # Update tracker.
        tracker.predict()
        tracker.update(detections)

vis为 Visualization 或者 NoVisualization。
Visualization.set_image 设置 ImageViewer。
Visualization.draw_detections 绘制检测框。
Visualization.draw_trackers 绘制跟踪框。

        # Update visualization.
        if display:
            image = cv2.imread(
                seq_info["image_filenames"][frame_idx], cv2.IMREAD_COLOR)
            vis.set_image(image.copy())
            vis.draw_detections(detections)
            vis.draw_trackers(tracker.tracks)

Track.is_confirmed 检查该轨迹是否确认过。
Track.to_tlwh 以[x, y, width, height]边界框格式获取当前位置。

        # Store results.
        for track in tracker.tracks:
            if not track.is_confirmed() or track.time_since_update > 1:
                continue
            bbox = track.to_tlwh()
            results.append([
                frame_idx, track.track_id, bbox[0], bbox[1], bbox[2], bbox[3]])

根据序列信息创建一个 Visualization 或者 NoVisualization 对象。由其运行跟踪器。
update_ms为 ImageViewer 刷新显示的最小间隔（包含了跟踪处理时间）。

    # Run tracker.
    if display:
        visualizer = visualization.Visualization(seq_info, update_ms=5)
    else:
        visualizer = visualization.NoVisualization(seq_info)
    visualizer.run(frame_callback)

    # Store results.
    f = open(output_file, 'w')
    for row in results:
        print('%d,%d,%.2f,%.2f,%.2f,%.2f,1,-1,-1,-1' % (
            row[0], row[1], row[2], row[3], row[4], row[5]),file=f)

Visualization

显示 OpenCV 图像查看器中的跟踪输出。
seq_info主要包含图片大小和帧起止索引。

    def __init__(self, seq_info, update_ms):
        image_shape = seq_info["image_size"][::-1]
        aspect_ratio = float(image_shape[1]) / image_shape[0]
        image_shape = 1024, int(aspect_ratio * 1024)
        self.viewer = ImageViewer(
            update_ms, image_shape, "Figure %s" % seq_info["sequence_name"])
        self.viewer.thickness = 2
        self.frame_idx = seq_info["min_frame_idx"]
        self.last_idx = seq_info["max_frame_idx"]

run

ImageViewer.run

_update_fun

        self.viewer.run(lambda: self._update_fun(frame_callback))

_update_fun

frame_callback

_update_fun 对 frame_callback 进行封装。根据帧索引判断是否终止，调用 frame_callback 进行处理。

        if self.frame_idx > self.last_idx:
            return False  # Terminate
        frame_callback(self, self.frame_idx)
        self.frame_idx += 1
        return True

set_image

        self.viewer.image = image

draw_groundtruth

create_unique_color_uchar 为给定的轨迹 ID（标签）创建唯一的 RGB 颜色代码。

draw_groundtruth

create_unique_color_uchar

rectangle

        self.viewer.thickness = 2
        for track_id, box in zip(track_ids, boxes):
            self.viewer.color = create_unique_color_uchar(track_id)
            self.viewer.rectangle(*box.astype(np.int), label=str(track_id))

draw_detections

绘制红色检测框。

        self.viewer.thickness = 2
        self.viewer.color = 0, 0, 255
        for i, detection in enumerate(detections):
            self.viewer.rectangle(*detection.tlwh)

draw_trackers

绘制目标轨迹，跳过未确认或者本次未检到的目标。

        self.viewer.thickness = 2
        for track in tracks:
            if not track.is_confirmed() or track.time_since_update > 0:
                continue
            self.viewer.color = create_unique_color_uchar(track.track_id)
            self.viewer.rectangle(
                *track.to_tlwh().astype(np.int), label=str(track.track_id))
            # self.viewer.gaussian(track.mean[:2], track.covariance[:2, :2],
            #                      label="%d" % track.track_id)

Tracker

参数：

metric：NearestNeighborDistanceMetric 测量与轨迹关联的距离度量。
max_age：int，删除轨迹前的最大未命中数 $A_{\mathrm{max}}$ 。
n_init：int，确认轨迹前的连续检测次数。如果前n_init帧内发生未命中，则将轨迹状态设置为Deleted。


    def __init__(self, metric, max_iou_distance=0.7, max_age=30, n_init=3):
        self.metric = metric
        self.max_iou_distance = max_iou_distance
        self.max_age = max_age
        self.n_init = n_init

        self.kf = kalman_filter.KalmanFilter()
        self.tracks = []
        self._next_id = 1

predict

Tracker.predict

Track.predict

KalmanFilter.predict

对于每个轨迹，由一个 KalmanFilter 预测状态分布。每个轨迹记录自己的均值和方差作为滤波器输入。

        for track in self.tracks:
            track.predict(self.kf)

update

Created with Raphaël 2.2.0 update detections _match Track.update Track.mark_missed _initiate_track NearestNeighborDistanceMetric.partial_fit End

调用 _match 进行级联匹配。

        """Perform measurement update and track management.
        Parameters
        ----------
        detections : List[deep_sort.detection.Detection]
            A list of detections at the current time step.
        """
        # Run matching cascade.
        matches, unmatched_tracks, unmatched_detections = \
            self._match(detections)

根据匹配结果更新轨迹集合。

        # Update track set.
        for track_idx, detection_idx in matches:
            self.tracks[track_idx].update(
                self.kf, detections[detection_idx])
        for track_idx in unmatched_tracks:
            self.tracks[track_idx].mark_missed()
        for detection_idx in unmatched_detections:
            self._initiate_track(detections[detection_idx])
        self.tracks = [t for t in self.tracks if not t.is_deleted()]

传入特征列表及其对应 id，NearestNeighborDistanceMetric.partial_fit 构造一个活跃目标的特征字典。

        # Update distance metric.
        active_targets = [t.track_id for t in self.tracks if t.is_confirmed()]
        features, targets = [], []
        for track in self.tracks:
            if not track.is_confirmed():
                continue
            features += track.features
            targets += [track.track_id for _ in track.features]
            track.features = []
        self.metric.partial_fit(
            np.asarray(features), np.asarray(targets), active_targets)

_match

_match 实现了论文2.3. Matching Cascade 的内容。

内部嵌套定义 gated_metric 函数，由特征距离构建门矩阵。

gated_metric

NearestNeighborDistanceMetric.distance

linear_assignment.gate_cost_matrix

$\begin{aligned} d^{(2)}(i, j) &= \min\{1 - r^\top_j r^{(i)}_k \| r^{(i)}_k\in \mathcal{R}_i\}\\ b_{i,j}^{(2)} &= \mathbb{1}[d^{(2)}(i, j) \leq t^{(2)}] \end{aligned}$
NearestNeighborDistanceMetric.distance 计算 $d^{(2)}(i, j)$ 。

        def gated_metric(tracks, dets, track_indices, detection_indices):
            features = np.array([dets[i].feature for i in detection_indices])
            targets = np.array([tracks[i].track_id for i in track_indices])
            cost_matrix = self.metric.distance(features, targets)
            cost_matrix = linear_assignment.gate_cost_matrix(
                self.kf, cost_matrix, tracks, dets, track_indices,
                detection_indices)

            return cost_matrix

将轨迹集合拆分为已确认和未确认的，得到两个集合的索引。
Track.is_confirmed 查询轨迹的状态。

        # Split track set into confirmed and unconfirmed tracks.
        confirmed_tracks = [
            i for i, t in enumerate(self.tracks) if t.is_confirmed()]
        unconfirmed_tracks = [
            i for i, t in enumerate(self.tracks) if not t.is_confirmed()]

matching_cascade 根据特征将检测框匹配到确认的轨迹。
传入门矩阵 $\mathit{B} = [b_{i,j}]$ 而不是成本矩阵 $\mathit{C} = [c_{i,j}]$ 。

        # Associate confirmed tracks using appearance features.
        matches_a, unmatched_tracks_a, unmatched_detections = \
            linear_assignment.matching_cascade(
                gated_metric, self.metric.matching_threshold, self.max_age,
                self.tracks, detections, confirmed_tracks)

min_cost_matching 使用匈牙利算法解决线性分配问题。
传入 iou_cost，尝试关联剩余的轨迹与未确认的轨迹。

        # Associate remaining tracks together with unconfirmed tracks using IOU.
        iou_track_candidates = unconfirmed_tracks + [
            k for k in unmatched_tracks_a if
            self.tracks[k].time_since_update == 1]
        unmatched_tracks_a = [
            k for k in unmatched_tracks_a if
            self.tracks[k].time_since_update != 1]
        matches_b, unmatched_tracks_b, unmatched_detections = \
            linear_assignment.min_cost_matching(
                iou_matching.iou_cost, self.max_iou_distance, self.tracks,
                detections, iou_track_candidates, unmatched_detections)

        matches = matches_a + matches_b
        unmatched_tracks = list(set(unmatched_tracks_a + unmatched_tracks_b))
        return matches, unmatched_tracks, unmatched_detections

_initiate_track

KalmanFilter.initiate

Track

KalmanFilter.initiate 由检测目标构建均值向量与协方差矩阵。

        mean, covariance = self.kf.initiate(detection.to_xyah())
        self.tracks.append(Track(
            mean, covariance, self._next_id, self.n_init, self.max_age,
            detection.feature))
        self._next_id += 1

min_cost_matching

distance_metric

linear_assignment

解决线性分配问题。
参数:

distance_metric：Callable[List[Track], List[Detection], List[int], List[int]) -> ndarray。距离度量给出了轨迹和检测的列表以及 N 个轨迹索引和 M 个检测索引的列表。度量应该返回 NxM 维度成本矩阵，其中元素（i，j）是给定轨迹索引中的第 i 个轨迹与给定的检测索引中的第 j 个检测之间的关联成本。
max_distance：门控阈值，float。忽略成本大于此值的关联。
tracks：列表[track.Track]，当前时间步骤的预测轨迹列表。
detections：列表[detection.Detection]当前时间步骤的检测列表。
track_indices：int 型列表。将cost_matrix中的行映射到轨迹的轨迹索引列表track（见上面的描述）。
detection_indices：int 型列表。将cost_matrix中的列映射到的检测索引列表detections 中的检测（见上面的描述）。

返回值：
(List[(int, int)], List[int], List[int])
返回包含以下三个条目的元组：

匹配的跟踪和检测索引列表。
不匹配的轨迹索引列表。
未匹配的检测索引列表。

    if track_indices is None:
        track_indices = np.arange(len(tracks))
    if detection_indices is None:
        detection_indices = np.arange(len(detections))

    if len(detection_indices) == 0 or len(track_indices) == 0:
        return [], track_indices, detection_indices  # Nothing to match.

由距离度量指标计算成本矩阵。设置超过阈值max_distance的成本为固定值，消除差异。
linear_assignment 关联检测框。

    cost_matrix = distance_metric(
        tracks, detections, track_indices, detection_indices)
    cost_matrix[cost_matrix > max_distance] = max_distance + 1e-5
    indices = linear_assignment(cost_matrix)

    matches, unmatched_tracks, unmatched_detections = [], [], []
    for col, detection_idx in enumerate(detection_indices):
        if col not in indices[:, 1]:
            unmatched_detections.append(detection_idx)
    for row, track_idx in enumerate(track_indices):
        if row not in indices[:, 0]:
            unmatched_tracks.append(track_idx)
    for row, col in indices:
        track_idx = track_indices[row]
        detection_idx = detection_indices[col]
        if cost_matrix[row, col] > max_distance:
            unmatched_tracks.append(track_idx)
            unmatched_detections.append(detection_idx)
        else:
            matches.append((track_idx, detection_idx))
    return matches, unmatched_tracks, unmatched_detections

matching_cascade

    if track_indices is None:
        track_indices = list(range(len(tracks)))
    if detection_indices is None:
        detection_indices = list(range(len(detections)))

初始化匹配集matches $\gets \emptyset$
未匹配检测集unmatched_detections $\gets D$

    unmatched_detections = detection_indices
    matches = []

$\begin{aligned} \mathbf{for}& \, n\in\{1,\dots,A_{\rm max}\}\, \mathbf{do}\\ &\text{Select tracks by age } T_n \gets \{i \in T \mid a_i = n\} \end{aligned}$

    for level in range(cascade_depth):
        if len(unmatched_detections) == 0:  # No detections left
            break

        track_indices_l = [
            k for k in track_indices
            if tracks[k].time_since_update == 1 + level
        ]
        if len(track_indices_l) == 0:  # Nothing to match at this level
            continue

$min_cost_matching ( C , T n , U ) M ← M ∪ { ( i , j ) ∣ b i , j ⋅ x i , j > 0 } U ← U ∖ { j ∣ ∑ i b i , j ⋅ x i , j > 0 } [x_{i,j}] \gets \text{min\_cost\_matching}(\mathit{C}, \mathcal{T}_n, \mathcal{U})\\ \mathcal{M} \gets \mathcal{M} \cup \{(i, j) \mid b_{i,j}\cdot x_{i,j} > 0 \}\\ \mathcal{U} \gets \mathcal{U} \setminus \{j \mid \sum_i b_{i,j}\cdot x_{i,j} > 0\}$
min_cost_matching 输出的匹配直接满足 $b_{i,j}>0$ 。

        matches_l, _, unmatched_detections = \
            min_cost_matching(
                distance_metric, max_distance, tracks, detections,
                track_indices_l, unmatched_detections)
        matches += matches_l
    unmatched_tracks = list(set(track_indices) - set(k for k, _ in matches))
    return matches, unmatched_tracks, unmatched_detections

gate_cost_matrix

基于卡尔曼滤波获得的状态分布，使成本矩阵中的不可行条目无效。
参数：

kf：卡尔曼滤波器。
cost_matrix：ndarray NxM 维度成本矩阵，其中 N 是轨迹索引的数量，M 是检测索引的数量，使得条目(i, j)是track[track_indices [i]]和detections[detection_indices[j]]关联成本。
tracks：列表 [track.Track]，当前时间点的预测轨迹列表。
detections：列表 [detection.Detection]，当前时间步骤的检测列表。
track_indices：List [int] 将cost_matrix中的行映射到轨道的轨道索引列表track（见上面的描述）。
detection_indices：List [int] 将“cost_matrix”中的列映射到“检测”中的检测的检测索引列表（参见上面的描述）。
gated_cost：可选[float] 与不可行关联对应的成本矩阵中的条目设置为此值。默认为非常大的值。
only_position：可选[bool] 如果为True，则在门控期间仅考虑状态分布的x，y位置。默认为False。

返回值：

ndarray，返回修改后的成本矩阵。

chi2inv95 具有N个自由度的卡方分布的0.95分位数的表（包含N=1, ..., 9的值）。取自 MATLAB/Octave 的 chi2inv 函数并用作 Mahalanobis 门控阈值。
KalmanFilter.gating_distance 计算状态分布和测量之间的选通距离。

    gating_dim = 2 if only_position else 4
    gating_threshold = kalman_filter.chi2inv95[gating_dim]
    measurements = np.asarray(
        [detections[i].to_xyah() for i in detection_indices])
    for row, track_idx in enumerate(track_indices):
        track = tracks[track_idx]
        gating_distance = kf.gating_distance(
            track.mean, track.covariance, measurements, only_position)
        cost_matrix[row, gating_distance > gating_threshold] = gated_cost
    return cost_matrix

NearestNeighborDistanceMetric

最近邻距离度量。对于每个目标，返回到目前为止已观察到的所有样本的最近距离。
参数：

metric：str 类型，“euclidean"或者是"cosine”。
matching_threshold：float 型，匹配阈值。将距离较大的样本视为无效匹配。
budget：int 型（可选），如果不是 None，则最多每个类抽样到为此数字。达到预算时删除最旧的样本。
属性：
samples：Dict [int - > List [ndarray]]，从目标身份映射到目前已观察到的样本列表的字典。

 
    def __init__(self, metric, matching_threshold, budget=None):


        if metric == "euclidean":
            self._metric = _nn_euclidean_distance
        elif metric == "cosine":
            self._metric = _nn_cosine_distance
        else:
            raise ValueError(
                "Invalid metric; must be either 'euclidean' or 'cosine'")
        self.matching_threshold = matching_threshold
        self.budget = budget
        self.samples = {}

partial_fit

使用新数据更新距离指标。
参数：

features：ndarray 类型，具有维数 M 的 N 个特征的 N×M 矩阵。
targets：ndarray 类型，关联目标标识的整数数组。
active_targets：int 型列表，场景中当前存在的目标列表。

setdefault 如果字典存在键key，返回它的值。如果不存在，插入值为default的键key，并返回default。default默认为None。

由目标及对应特征构造样本字典self.samples并剔除其中不活跃的。

        for feature, target in zip(features, targets):
            self.samples.setdefault(target, []).append(feature)
            if self.budget is not None:
                self.samples[target] = self.samples[target][-self.budget:]
        self.samples = {k: self.samples[k] for k in active_targets}

ImageViewer

具有绘图程序和视频捕获功能的图像查看器。

    def __init__(self, update_ms, window_shape=(640, 480), caption="Figure 1"):
        self._window_shape = window_shape
        self._caption = caption
        self._update_ms = update_ms
        self._video_writer = None
        self._user_fun = lambda: None
        self._terminate = False

        self.image = np.zeros(self._window_shape + (3, ), dtype=np.uint8)
        self._color = (0, 0, 0)
        self.text_color = (255, 255, 255)
        self.thickness = 1

    @property
    def color(self):
        return self._color

    @color.setter
    def color(self, value):
        if len(value) != 3:
            raise ValueError("color must be tuple of 3")
        self._color = tuple(int(c) for c in value)

rectangle

绘制一个矩形。输入矩形参数格式为[x, y, w, h]，在矩形左上角放置文本标签。

        pt1 = int(x), int(y)
        pt2 = int(x + w), int(y + h)
        cv2.rectangle(self.image, pt1, pt2, self._color, self.thickness)

        if label is not None:
            text_size = cv2.getTextSize(
                label, cv2.FONT_HERSHEY_PLAIN, 1, self.thickness)

            center = pt1[0] + 5, pt1[1] + 5 + text_size[0][1]
            pt2 = pt1[0] + 10 + text_size[0][0], pt1[1] + 10 + \
                text_size[0][1]
            cv2.rectangle(self.image, pt1, pt2, self._color, -1)
            cv2.putText(self.image, label, center, cv2.FONT_HERSHEY_PLAIN,
                        1, (255, 255, 255), self.thickness)

circle

绘制圆圈。

        image_size = int(radius + self.thickness + 1.5)  # actually half size
        roi = int(x - image_size), int(y - image_size), \
            int(2 * image_size), int(2 * image_size)
        if not is_in_bounds(self.image, roi):
            return

        image = view_roi(self.image, roi)
        center = image.shape[1] // 2, image.shape[0] // 2
        cv2.circle(
            image, center, int(radius + .5), self._color, self.thickness)
        if label is not None:
            cv2.putText(
                self.image, label, center, cv2.FONT_HERSHEY_PLAIN,
                2, self.text_color, 2)

gaussian

绘制二维高斯分布的95％置信椭圆。

        # chi2inv(0.95, 2) = 5.9915
        vals, vecs = np.linalg.eigh(5.9915 * covariance)
        indices = vals.argsort()[::-1]
        vals, vecs = np.sqrt(vals[indices]), vecs[:, indices]

        center = int(mean[0] + .5), int(mean[1] + .5)
        axes = int(vals[0] + .5), int(vals[1] + .5)
        angle = int(180. * np.arctan2(vecs[1, 0], vecs[0, 0]) / np.pi)
        cv2.ellipse(
            self.image, center, axes, angle, 0, 360, self._color, 2)
        if label is not None:
            cv2.putText(self.image, label, center, cv2.FONT_HERSHEY_PLAIN,
                        2, self.text_color, 2)

annotate

        cv2.putText(self.image, text, (int(x), int(y)), cv2.FONT_HERSHEY_PLAIN,
                    2, self.text_color, 2)

colored_points

        if not skip_index_check:
            cond1, cond2 = points[:, 0] >= 0, points[:, 0] < 480
            cond3, cond4 = points[:, 1] >= 0, points[:, 1] < 640
            indices = np.logical_and.reduce((cond1, cond2, cond3, cond4))
            points = points[indices, :]
        if colors is None:
            colors = np.repeat(
                self._color, len(points)).reshape(3, len(points)).T
        indices = (points + .5).astype(np.int)
        self.image[indices[:, 1], indices[:, 0], :] = colors

enable_videowriter

        fourcc = cv2.VideoWriter_fourcc(*fourcc_string)
        if fps is None:
            fps = int(1000. / self._update_ms)
        self._video_writer = cv2.VideoWriter(
            output_filename, fourcc, fps, self._window_shape)

    def disable_videowriter(self):
        """ Disable writing videos.
        """
        self._video_writer = None

run

启动图像查看器。此方法将阻塞，直到用户请求关闭窗口。
运行传入的函数，保存视频并显示。enable_videowriter 函数会创建 VideoWriter。

        if update_fun is not None:
            self._user_fun = update_fun

        self._terminate, is_paused = False, False
        # print("ImageViewer is paused, press space to start.")
        while not self._terminate:
            t0 = time.time()
            if not is_paused:
                self._terminate = not self._user_fun()
                if self._video_writer is not None:
                    self._video_writer.write(
                        cv2.resize(self.image, self._window_shape))
            t1 = time.time()
            remaining_time = max(1, int(self._update_ms - 1e3*(t1-t0)))
            cv2.imshow(
                self._caption, cv2.resize(self.image, self._window_shape[:2]))
            key = cv2.waitKey(remaining_time)
            if key & 255 == 27:  # ESC
                print("terminating")
                self._terminate = True
            elif key & 255 == 32:  # ' '
                print("toggeling pause: " + str(not is_paused))
                is_paused = not is_paused
            elif key & 255 == 115:  # 's'
                print("stepping")
                self._terminate = not self._user_fun()
                is_paused = True

销毁窗口后重新调用imshow。

        # Due to a bug in OpenCV we must call imshow after destroying the
        # window. This will make the window appear again as soon as waitKey
        # is called.
        #
        # see https://github.com/Itseez/opencv/issues/4535
        self.image[:] = 0
        cv2.destroyWindow(self._caption)
        cv2.waitKey(1)
        cv2.imshow(self._caption, self.image)

stop

        self._terminate = True

KalmanFilter

一种简单的卡尔曼滤波器，用于跟踪图像空间中的边界框。8维状态空间[x, y, a, h, vx, vy, va, vh]包含边界框中心位置(x, y)，纵横比a，高度h和它们各自的速度。物体运动遵循等速模型。边界框位置(x, y, a, h)被视为状态空间的直接观察（线性观察模型）。

创建卡尔曼滤波器模型矩阵self._motion_mat和self._update_mat。

    def __init__(self):
        ndim, dt = 4, 1.

        # Create Kalman filter model matrices.
        self._motion_mat = np.eye(2 * ndim, 2 * ndim)
        for i in range(ndim):
            self._motion_mat[i, ndim + i] = dt
        self._update_mat = np.eye(ndim, 2 * ndim)

依据当前状态估计（高度）选择运动和观测不确定性。这些权重控制模型中的不确定性。这有点 hacky。

        # Motion and observation uncertainty are chosen relative to the current
        # state estimate. These weights control the amount of uncertainty in
        # the model. This is a bit hacky.
        self._std_weight_position = 1. / 20
        self._std_weight_velocity = 1. / 160

initiate

由测量初始化均值向量（8维）和协方差矩阵（8x8维）。
numpy.r_ 沿第一轴连接切片对象。

        mean_pos = measurement
        mean_vel = np.zeros_like(mean_pos)
        mean = np.r_[mean_pos, mean_vel]

        std = [
            2 * self._std_weight_position * measurement[3],
            2 * self._std_weight_position * measurement[3],
            1e-2,
            2 * self._std_weight_position * measurement[3],
            10 * self._std_weight_velocity * measurement[3],
            10 * self._std_weight_velocity * measurement[3],
            1e-5,
            10 * self._std_weight_velocity * measurement[3]]
        covariance = np.diag(np.square(std))
        return mean, covariance

predict

卡尔曼滤波器由目标上一时刻的均值和协方差进行预测。

motion_cov是过程噪声 $W_k$ 协方差矩阵 $Q_k$

        std_pos = [
            self._std_weight_position * mean[3],
            self._std_weight_position * mean[3],
            1e-2,
            self._std_weight_position * mean[3]]
        std_vel = [
            self._std_weight_velocity * mean[3],
            self._std_weight_velocity * mean[3],
            1e-5,
            self._std_weight_velocity * mean[3]]
        motion_cov = np.diag(np.square(np.r_[std_pos, std_vel]))

$\begin{aligned} \hat{\mathrm{x}}_{k|k-1} &= F_k\hat{\mathrm{x}}_{k-1|k-1}+B_k u_k\\ P_{k|k-1}&= F_k P_{k-1|k-1}F^\top_k+Q_k \end{aligned}$
self._motion_mat为 $F_k$ 是作用在 $\mathrm{x}_{k-1}$ 上的状态变换模型（/矩阵/矢量）。
$B_k$ 是作用在控制器向量 $u_k$ 上的输入－控制模型。
covariance为 $P_{k|k}$ ，后验估计误差协方差矩阵，度量估计值的精确程度。

        mean = np.dot(self._motion_mat, mean)
        covariance = np.linalg.multi_dot((
            self._motion_mat, covariance, self._motion_mat.T)) + motion_cov

        return mean, covariance

project

投影状态分布到测量空间。
参数：

mean：ndarray，状态的平均向量（8维数组）。
covariance：ndarray，状态的协方差矩阵（8x8维）。

返回（ndarray，ndarray），返回给定状态估计的预计平均值和协方差矩阵。
numpy.linalg.multi_dot 在单个函数调用中计算两个或多个数组的点积，同时自动选择最快的求值顺序。


        std = [
            self._std_weight_position * mean[3],
            self._std_weight_position * mean[3],
            1e-1,
            self._std_weight_position * mean[3]]
        innovation_cov = np.diag(np.square(std))

        mean = np.dot(self._update_mat, mean)
        covariance = np.linalg.multi_dot((
            self._update_mat, covariance, self._update_mat.T))
        return mean, covariance + innovation_cov

update

        projected_mean, projected_cov = self.project(mean, covariance)

        chol_factor, lower = scipy.linalg.cho_factor(
            projected_cov, lower=True, check_finite=False)
        kalman_gain = scipy.linalg.cho_solve(
            (chol_factor, lower), np.dot(covariance, self._update_mat.T).T,
            check_finite=False).T
        innovation = measurement - projected_mean

$\begin{aligned} \hat{\mathrm{x}}_{k|k} &= \hat{\mathrm{x}}_{k|k-1}+K_k \tilde{\mathrm{y}}_k\\ P_{k|k}&= (I- K_{k}H_k)P_{k|k-1} \end{aligned}$

        new_mean = mean + np.dot(innovation, kalman_gain.T)
        new_covariance = covariance - np.linalg.multi_dot((
            kalman_gain, projected_cov, kalman_gain.T))
        return new_mean, new_covariance

gating_distance

计算状态分布和测量之间的选通距离。可以从 chi2inv95 获得合适的距离阈值。如果only_position为 False，则卡方分布具有4个自由度，否则为2。
参数：

mean：ndarray，状态分布上的平均向量（8维）。
covariance：ndarray，状态分布的协方差（8x8维）。
measurements：ndarray，N 个测量的 N×4维矩阵，每个矩阵的格式为（x，y，a，h），其中（x，y）是边界框中心位置，纵横比和h高度。
only_position：可选[bool]，如果为True，则相对于边界进行距离计算盒子中心位置。

返回，ndarray，返回一个长度为N的数组，其中第i个元素包含（mean，covariance）和measurements [i]之间的平方Mahalanobis距离。

numpy.linalg.cholesky Cholesky 分解。返回方阵a的 Cholesky 分解 $L * L . H$ ，其中 $L$ 是下三角形， $. H$ 是共轭转置算子（如果a是实值则是普通转置）。 a必须是 Hermitian（对称的，如果是实值的）和正定的。实际只返回 $L$ 。
scipy.linalg.solve_triangular 假设a是三角阵，求解x的等式a x = b。


        mean, covariance = self.project(mean, covariance)
        if only_position:
            mean, covariance = mean[:2], covariance[:2, :2]
            measurements = measurements[:, :2]

        cholesky_factor = np.linalg.cholesky(covariance)
        d = measurements - mean
        z = scipy.linalg.solve_triangular(
            cholesky_factor, d.T, lower=True, check_finite=False,
            overwrite_b=True)
        squared_maha = np.sum(z * z, axis=0)
        return squared_maha

改进思路

Challenges on Large Scale Surveillance Video Analysis 跟踪与 DeepSORT 类似，但使用 Re-ranking Person Re-identification with k-reciprocal Encoding 方法。

参考资料：

人脸跟踪：deepsort代码解读
bitzy/DeepSort
Mahalanobis distance
多目标跟踪(MOT)论文随笔-SIMPLE ONLINE AND REALTIME TRACKING WITH A DEEP ASSOCIATION METRIC (Deep SORT)
欧氏距离与马氏距离
马氏距离(Mahalanobis Distance)
Chi-Square Statistic: How to Calculate It / Distribution
Khan公开课 - 统计学学习笔记：（十）Chi-square分布
Challenges on Large Scale Surveillance Video Analysis
WRNS：Wide Residual Networks 论文笔记

你可能感兴趣的:(MOT,DeepLearning)

如何使用MATLAB进行高效的GPU加速深度学习模型训练？百态老人 matlab 深度学习开发语言
要使用MATLAB进行高效的GPU加速深度学习模型训练，可以遵循以下步骤和策略：选择合适的GPU硬件：首先，确保您的计算机配备有支持CUDA的NVIDIAGPU，并且其计算能力至少为3.0或以上。可以通过gpuDevice命令检查GPU是否具备加速功能。安装必要的工具箱：确保安装了MATLAB的DeepLearningToolbox和ParallelComputingToolbox，这些工具箱提供
深度学习和机器学习的差异 The god of big data 教程深度学习机器学习人工智能
一、技术架构的本质差异传统机器学习（MachineLearning）建立在统计学和数学优化基础之上，其核心技术是通过人工设计的特征工程（FeatureEngineering）构建模型。以支持向量机（SVM）为例，算法通过核函数将数据映射到高维空间，但特征提取完全依赖工程师的领域知识。这种"人工特征+浅层模型"的结构在面对复杂非线性关系时容易遭遇性能瓶颈。深度学习（DeepLearning）作为机器
【OpenAI官方课程】第一课：GPT-Prompt 的构建原则指南 euffylee ChatGPT Prompt官方课程 gpt prompt 人工智能
欢迎来到ChatGPT开发人员提示工程课程（ChatGPTPromptEngineeringforDevelopers）！本课程将教您如何通过OpenAIAPI有效地利用大型语言模型（LLM）来创建强大的应用程序。本课程由OpenAI的IsaFulford和DeepLearning.AI的AndrewNg主讲，深入了解LLM的运作方式，提供即时工程的最佳实践，并演示LLMAPI在各种应用程序中的使
深入探索Deeplearning4j（DL4J）：Java深度学习的全面指南软件职业规划 java 深度学习开发语言
一、DL4J框架概述Deeplearning4j（DL4J）是一个开源的深度学习框架，专为Java和Scala设计，运行在Java虚拟机（JVM）上。它由Skymind公司开发并维护，旨在将深度学习技术应用于大规模商业应用。DL4J支持多种深度学习模型，包括卷积神经网络（CNN）、循环神经网络（RNN）、长短期记忆网络（LSTM）等。自2014年首次发布以来，DL4J已经成为Java深度学习领域的
Python 在 AI 领域的应用：从零构建你的第一个 AI 模型嵌入式Jerry Python python 人工智能开发语言嵌入式硬件 windows ubuntu
引言人工智能（AI）已经成为现代科技的核心，而Python是AI领域最受欢迎的编程语言之一。其强大的库和框架，如TensorFlow、PyTorch、scikit-learn，使AI开发变得更加简单高效。本文将带你深入理解Python在AI中的应用，并通过机器学习（MachineLearning）和深度学习（DeepLearning）的实际示例，讲解如何构建一个AI模型。1.Python为什么适合
人工智能与深度学习的应用案例：从技术原理到实践创新 accurater 人工智能深度学习科技
第一章引言人工智能（AI）作为21世纪最具变革性的技术之一，正通过深度学习（DeepLearning）等核心技术推动各行业的智能化进程。从计算机视觉到自然语言处理，从医疗诊断到工业制造，深度学习通过模拟人脑神经网络的层次化学习机制，实现了对复杂数据的高效分析与决策。本文结合前沿技术框架与行业应用案例，探讨深度学习的核心原理及其在多个领域的实践路径，并附代码实例以增强技术理解。第二章深度学习的技术基
人工智能与深度学习的应用案例解析及代码实现 accurater 人工智能深度学习科技机器人
引言人工智能（AI）与深度学习（DeepLearning）作为21世纪最具变革性的技术之一，已渗透到医疗、金融、交通、制造等各个领域。深度学习通过多层神经网络模拟人类认知过程，显著提升了复杂任务的自动化水平。本文将从技术原理、核心应用案例及代码实现三个维度，系统解析其实际应用，并探讨未来挑战与发展方向。一、深度学习技术概述1.1核心技术框架深度学习基于深度神经网络（DNN），其核心在于通过多层非线
pandas学习笔记—DataFrame查询风之小西 pandas 学习笔记
1、列查询importpandasaspd#创建测试dfdf_book=pd.DataFrame(data=[['论语',5,5],['三体',10,6],['资治通鉴',8,9],['DEEPLEARNING',3,5],['黄帝内经',7,10]],columns=['书名','数量','单价'],index=['a','b','c','d','e'])#用列名直接访问，单列会返回series
成为LLM大师的必读书籍：这几本大模型书籍，详细到让你一篇文章就收藏足够 AGI大模型老王产品经理大模型教程学习大模型人工智能 LLM 大模型书籍
以下是几本关于大模型和人工智能领域的经典书籍，它们各自具有独特的特点和适用人群：《深度学习》（DeepLearning）作者：伊恩·古德费洛（IanGoodfellow）、约书亚·本吉奥（YoshuaBengio）、亚伦·库维尔（AaronCourville）简介：《深度学习》是深度学习领域的经典之作，全面介绍了深度学习的基础知识、主要模型及其应用。书中详细讲解了神经网络、卷积神经网络、循环神经网
深度学习现状与未来发展趋势分析报告（深度学习还是主流吗？）与光同尘大道至简深度学习人工智能
此博客分析深度学习当前的主流应用领域、其受关注度的变化趋势、可能的技术替代或补充方案、产业界和学术界的不同发展方向，以及影响其受关注度变化的核心因素。报告将包括结构化分析（背景、现状、挑战、未来趋势）、数据驱动（市场趋势、论文发表量等数据支持）以及行业案例分析，以展示某些行业如何逐步减少对深度学习的依赖。背景深度学习的概念与发展历程：深度学习（DeepLearning）是机器学习中的一类方法，源于
一文讲清楚自我学习和深度学习平凡而伟大(心之所向) 人工智能人工智能深度学习机器学习
自我学习（Self-Learning）和深度学习（DeepLearning）是两个不同的概念，但它们在某些应用场景中可以有交集。下面我们将分别介绍这两个概念，并探讨如何将它们结合起来用于自我学习系统。自我学习（Self-Learning）自我学习是指个体或系统通过自主探索、实践和反思来获取知识和技能的过程。它强调的是无需外部直接指导的学习方式，通常包括以下几个方面：自主性：学习者根据自己的兴趣、需
大语言模型生成式AI学习笔记——1. 1.1 大语言模型及生成式AI项目生命周期简介——课程简介预见未来to50 机器学习深度学习（ML/DL)人工智能语言模型学习
GenerativeAIwithLargeLanguageModelsbyDeepLearning.AI&AmazonWebServicesAboutthisCourseInGenerativeAIwithLargeLanguageModels(LLMs),you’lllearnthefundamentalsofhowgenerativeAIworks,andhowtodeployitinreal
机器学习与深度学习资料 JasonDing1354 【Machine Learning】
《BriefHistoryofMachineLearning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Adaboost到随机森林、DeepLearning.《DeepLearninginNeuralNetworks:AnOverview》介绍:这是瑞士人工智能实验室JurgenSchmidhuber写的最新版本《神经网络与深度学习综述》本综述的特点是以
深度学习的前沿与挑战：从基础到最新进展 Jason_Orton 深度学习人工智能数据挖掘机器学习
目录引言什么是深度学习？深度学习的工作原理深度学习的关键技术1.卷积神经网络（CNN）2.循环神经网络（RNN）3.生成对抗网络（GAN）4.变分自编码器（VAE）5.自注意力机制与Transformer深度学习的应用1.计算机视觉2.自然语言处理（NLP）3.语音识别与合成4.推荐系统5.医学影像分析深度学习面临的挑战结语引言深度学习（DeepLearning）近年来成为人工智能领域的核心技术之
深度学习：从神经网络到智能应用 Jason_Orton 深度学习神经网络人工智能机器学习
目录引言一.什么是深度学习？二.深度学习的基本原理1.神经网络的组成2.激活函数3.反向传播（Backpropagation）三.深度学习的常见模型四.深度学习的应用场景五.深度学习的挑战与未来结语引言深度学习（DeepLearning）作为机器学习的一个分支，近年来在人工智能领域取得了革命性的进展。无论是语音识别、图像识别，还是自动驾驶、自然语言处理，深度学习都在推动着技术的发展和行业的变革。那
书籍-《在AWS上构建可扩展的深度学习Pipeline》深度学习机器学习人工智能
书籍：BuildingScalableDeepLearningPipelinesonAWS:Develop,Train,andDeployDeepLearningModels作者：AbdelazizTestas出版：Apress编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《在AWS上构建可扩展的深度学习Pipeline》01书籍介绍本书是您在亚马逊网络服务（AWS）上创建强大且端到端深度学
终于明白了！人工智能、机器学习、深度学习、集成学习及大模型的定义与联系大模型玩家人工智能机器学习深度学习产品经理算法学习方法集成学习
在当今快速发展的科技领域，人工智能（ArtificialIntelligence,AI）、机器学习（MachineLearning,ML）、深度学习（DeepLearning,DL）、集成学习（EnsembleLearning）以及大模型（LargeModels）等概念频繁出现在人们的视野中。它们不仅推动了科技的进步，也深刻影响了社会生活的方方面面。本文将对这些概念进行全面解析，并探讨它们之间的联
深度学习与搜索引擎优化的结合：DeepSeek的创新与探索 m0_74825634 面试学习路线阿里巴巴深度学习搜索引擎人工智能
目录引言1.传统搜索引擎的局限性2.深度学习在搜索引擎中的作用3.DeepSeek实现搜索引擎优化的关键技术3.1神经网络与搜索引擎优化3.2自然语言处理与查询理解3.3深度强化学习与搜索结果排序4.DeepSeek的深度学习架构4.1?查询解析与语义理解4.2?搜索排名与相关性排序4.3?个性化推荐与用户行为分析5、总结引言随着人工智能（AI）技术的迅速发展，深度学习（DeepLearning）
深度学习模型：原理、架构与应用一ge科研小菜菜工具深度学习
深度学习（DeepLearning）是机器学习中的一个分支，基于人工神经网络的发展，尤其是多层神经网络的研究，使其在语音识别、图像处理、自然语言处理等领域取得了显著进展。深度学习的核心是通过大量数据的训练，学习到数据的内在结构和模式，并且具备自动从复杂的输入中提取特征的能力。本文将从深度学习的基本原理、常见模型、训练技巧、应用领域及其面临的挑战等方面进行详细探讨，帮助理解深度学习模型如何在现代科技
25/2/18 ＜算法笔记＞ ByteTrack 青椒大仙KI11 笔记
ByteTrack（发表在2021年）是一种高效且精确的**多目标跟踪（Multi-ObjectTracking,MOT）**算法。它属于目标跟踪领域中基于检测的类别（trackingbydetection），核心思想是利用目标检测器的高置信度和低置信度检测结果，通过简单的后处理策略实现高效和准确的目标跟踪。多目标跟踪(MOT)的主要目的是对视频或帧序列中的多个对象进行检测和跟踪。在MOT方法中通
深度学习在医疗影像分析中的革命性应用 Echo_Wish 人工智能前沿技术深度学习人工智能
深度学习在医疗影像分析中的革命性应用引言医疗影像分析是现代医学中不可或缺的一部分，特别是在疾病诊断和治疗过程中发挥了至关重要的作用。随着深度学习技术的发展，医疗影像分析的效率和准确性得到了显著提升。本文将探讨如何利用深度学习技术，特别是Python编程语言，来优化医疗影像分析，展示具体的代码实例，并举例说明其实际应用效果。深度学习与医疗影像分析深度学习（DeepLearning）是一种基于人工神经
论文代码阅读及部分复现：Revisiting Deep Learning Models for Tabular Data thorn_r 论文阅读深度学习人工智能
论文地址：https://arxiv.org/pdf/2106.11959.pdf项目地址：GitHub-yandex-research/rtdl-revisiting-models:(NeurIPS2021)RevisitingDeepLearningModelsforTabularData相关数据：https://www.dropbox.com/s/o53umyg6mn3zhxy/2024年2
快速搭建GRU循环神经网络预测模型智汇未来 rnn 深度学习 gru 人工智能神经网络 matlab 算法
首先，我需要使用GRU神经网络进行预测。GRU是GatedRecurrentUnit的缩写，是一种常用的循环神经网络结构，适用于序列数据的预测任务。但是，我需要确保MATLAB支持GRU网络的创建和训练。让我想想，MATLAB的DeepLearningToolbox提供了设计和训练神经网络的功能，包括GRU层。等等，我需要确认一下如何在MATLAB中创建包含GRU层的网络。好的，那我就开始写代码吧
pytorch 人脸修复_修复pytorch数据加载器 weixin_26729375 人工智能 python java 人脸识别
pytorch人脸修复黑客数据科学工作流程(Hackingdatascienceworkflows)Icameacrossaninterestingproblemrecently.AteammateandIwereworkingonaseriesofDeepLearningexperimentsthatinvolvedanimagedatasetthatspannedhundredsofgigab
基于对比增强的超声视频的域知识为乳腺癌诊断提供了深度学习 Philo` 医学图像分割论文阅读深度学习人工智能论文阅读图像处理 pytorch 机器学习
DomainKnowledgePoweredDeepLearningforBreastCancerDiagnosisBasedonContrast-EnhancedUltrasoundVideos期刊分析摘要引言相关工作乳腺癌中的CAD基于乳房CEU的CAD方法整体框架原始C3D骨干领域知识指导的时间注意模块(DKG-TMA)域知识引导的通道注意模块数据集和实验乳腺-对比增强超声数据集实验设置实验
Apache MXNet 深度学习框架教程娄妃元Kacey
ApacheMXNet深度学习框架教程mxnetLightweight,Portable,FlexibleDistributed/MobileDeepLearningwithDynamic,Mutation-awareDataflowDepScheduler;forPython,R,Julia,Scala,Go,Javascriptandmore项目地址:https://gitcode.com/g
深度可分离卷积_主干网络系列(6) - Xception: 使用深度可分离卷积的深度学习 weixin_39630106 深度可分离卷积
论文地址：Xception:DeepLearningwithDepthwiseSeparableConvolutions工程代码：Github链接0.摘要该论文对Inception模块做了新的解释，认为Inception模块是常规卷积神经网络到深度可分离卷积神经网络的过渡手段，基于这种思想，深度可分离卷积可以看作一个具有最大数量tower的Inception模块(tower是指Inception模
深度学习与搜索引擎优化的结合：DeepSeek的创新与探索云边有个稻草人热门文章深度学习搜索引擎人工智能 DeepSeek
目录引言1.传统搜索引擎的局限性2.深度学习在搜索引擎中的作用3.DeepSeek实现搜索引擎优化的关键技术3.1神经网络与搜索引擎优化3.2自然语言处理与查询理解3.3深度强化学习与搜索结果排序4.DeepSeek的深度学习架构4.1查询解析与语义理解4.2搜索排名与相关性排序4.3个性化推荐与用户行为分析5、总结引言随着人工智能（AI）技术的迅速发展，深度学习（DeepLearning）和自然
深度学习框架PyTorch原理与实践 AI天才研究院 AI实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.简介2.背景介绍3.基本概念和术语3.1PyTorch简介3.2PyTorch的特点1）自动求导机制2）GPU加速3）模型部署4）数据管道5）代码阅读友好4.核心算法原理4.1神经网络结构4.2神经网络层4.3激活函数5.实际案例——MNIST手写数字识别数据准备模型定义训练测试整体代码1.简介Deeplearning(DL)hasbeenanincreas
斯坦福吴恩达-深度学习和机器学习全套视频+课件！ Alexquyun 人工智能机器学习深度学习 python
这些课程专为已有一定基础（基本的编程知识，熟悉Python、对机器学习有基本了解），想要尝试进入人工智能领域的计算机专业人士准备。介绍显示：“深度学习是科技业最热门的技能之一，本课程将帮你掌握深度学习。”学生将可以学习到深度学习的基础，学会构建神经网络，并用在包括吴恩达本人在内的多位业界顶尖专家指导下创建自己的机器学习项目。DeepLearningSpecialization对卷积神经网络(CNN
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin