QTreeY123

两万字深入浅出yolov5+deepsort实现目标跟踪，含完整代码， yolov，卡尔曼滤波估计，ReID目标重识别，匈牙利匹配KM算法匹配

一：前言

二：跟踪部分：

ReID结构编辑

第一帧（生成track）

第二帧

更新先验的预测值

状态矩阵的初始化

对预测值进行更新（矫正）：

匹配完成，进行矫正的更新，同时更新state是否超过第三帧，需要置为2变成确认状态：

删除。添加track

第三帧与第二帧一样

第四帧开始（可以做级联匹配）

预测

更新

匹配

级联匹配

真正的级联匹配min_cost_matching

级联匹配函数

通过距离的计算得到最优的匹配结果的索引

ReID特征匹配和运动配

下面进行运动匹配

卡尔曼滤波更新图

deepsort更新流程

一：前言

上两篇讲了yolov5的训练和检测部分，这一篇在检测的基础上，使用deepsort和ReID和匈牙利算法对目标进行跟踪。

二：跟踪部分：

# pass detections to deepsort,这里的模型是只用了含有人在这一类别的。 im0s存储这一帧所有图片的像素点（第一个是（73，46，3），hwc）
# 做了这么多，就是为了得出每个物体的ID保持一致，核心思想：计算并且更新卡尔曼增益代价矩阵，做匹配，返回结果
# 追踪：主要物体检测的好，追踪就不会差

outputs = deepsort.update(xywhs, confss, im0)

将得到的xywh和图片的像素值，输入到ReID网络进行人的图像的特征提取

class Extractor(object):
    def __init__(self, model_path, use_cuda=True):
        self.net = Net(reid=True)
        self.device = "cuda" if torch.cuda.is_available() and use_cuda else "cpu"
        state_dict = torch.load(model_path, map_location=torch.device(self.device))[
            'net_dict']
        self.net.load_state_dict(state_dict)
        logger = logging.getLogger("root.tracker")
        logger.info("Loading weights from {}... Done!".format(model_path))
        self.net.to(self.device)
        self.size = (64, 128)
        self.norm = transforms.Compose([
            transforms.ToTensor(),
            transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]),
        ])

    def _preprocess(self, im_crops):
        """
        TODO:
            1. to float with scale from 0 to 1
            2. resize to (64, 128) as Market1501 dataset did
            3. concatenate to a numpy array
            3. to torch Tensor
            4. normalize
        """
        def _resize(im, size):
            return cv2.resize(im.astype(np.float32)/255., size)

        im_batch = torch.cat([self.norm(_resize(im, self.size)).unsqueeze(
            0) for im in im_crops], dim=0).float()
        return im_batch

    def __call__(self, im_crops):
        im_batch = self._preprocess(im_crops)
        with torch.no_grad():
            im_batch = im_batch.to(self.device)
            features = self.net(im_batch)  # 这个网络是detection文件里面的
        return features.cpu().numpy()

ReID结构

第一帧（生成track）

第一帧只有detection，没有track，所以不会进行预测操作

 # update tracker 先计算预测值，然后基于预测值更新参数。例如追踪每一帧的状态肯定要变的，预测完需要根据观测值来修正，修正后的状态值去估计下一帧
        self.tracker.predict()  # 预测操作：卡尔曼滤波 首先得有track。预测两条公式
        self.tracker.update(detections)  # 更新3条公式，对匹配后的结果进行更新

先_initiate_track计算出mean和协方差，在去Track进行初始化属性，这里是新建track的操作（要添加很多属性），每一帧都是重新append到sel.tracks中。对于新的track，第一帧需要线初始化一个初始值，mean（x（k-1））和误差协方差矩阵（p（k-1））

 # 先_initiate_track计算出mean和协方差，在去Track进行初始化属性，这里是新建track的操作（要添加很多属性），每一帧都是重新append到sel.tracks中
        for detection_idx in unmatched_detections:
            self._initiate_track(detections[detection_idx])

    def initiate(self, measurement):
        """Create track from unassociated measurement.

        Parameters
        ----------
        measurement : ndarray
            Bounding box coordinates (x, y, a, h) with center position (x, y),
            aspect ratio a, and height h.

        Returns
        -------
        (ndarray, ndarray)
            Returns the mean vector (8 dimensional) and covariance matrix (8x8
            dimensional) of the new track. Unobserved velocities are initialized
            to 0 mean.

        """  # mean是位置信息，各个速度初始化为0；协方差是位置信息之间的关系
        mean_pos = measurement
        mean_vel = np.zeros_like(mean_pos)
        mean = np.r_[mean_pos, mean_vel]  # 设定h是因为当目标远近的适合，xya确实变化都不明显，但是h很明显
        # 感觉这些变量都跟高度关系比较紧密？高度越小就越远，高度越大就越近？与其当前位置无关
        std = [
            2 * self._std_weight_position * measurement[3],
            2 * self._std_weight_position * measurement[3],
            1e-2,
            2 * self._std_weight_position * measurement[3],
            10 * self._std_weight_velocity * measurement[3],
            10 * self._std_weight_velocity * measurement[3],
            1e-5,
            10 * self._std_weight_velocity * measurement[3]]
        covariance = np.diag(np.square(std))
        return mean, covariance

创建一个新的跟踪轨迹，根据传入的未关联测量值进行初始化。讲这个track的一些变量全部append到自己”身上“去。然后让编号加1，给下一个track继续append

    def _initiate_track(self, detection):
        # mean是[242, 266.5, 0.63014, 73, 0, 0, 0, 0]，目标状态向量被扩展为包含位置 (x, y)、宽高 (a, h) 和速度 (vx, vy)，va角度速度vh高度速度的八维向量
        # 因此，协方差矩阵的维度也是 8x8，表示状态mean的向量各个维度之间的关联和不确定性。
        mean, covariance = self.kf.initiate(detection.to_xyah())
        # 第一帧只做了初始化Track类的东西
        self.tracks.append(Track(
            mean, covariance, self._next_id, self.n_init, self.max_age,
            detection.feature))
        self._next_id += 1  # 表示当前track的id

遍历所有的track，因为这些track不是是已确认的（因为才第一帧，连续三帧才行），

 for track in self.tracks:
            if not track.is_confirmed():
                continue
            features += track.features  # 已确认目标加入到features列表中
            targets += [track.track_id for _ in track.features]
            # targets.append(track.track_id)遍历track.features有点奇怪，感觉这样就可以了
            # 如果不清空特征列表，而是简单地将当前帧的特征追加到列表中，那么特征列表会越来越长，包含之前帧的特征，这可能会导致不必要的计算和内存消耗。
            track.features = []
        # 最多100个。将已确认的active_targets 保存特征到self.samples = {}里面，为了级联匹配的计算
        self.metric.partial_fit(np.asarray(features), np.asarray(targets), active_targets)

第二帧

前面还是跟第一帧一样，先得到目标检测的xywh，置信度，每个目标的像素值，然后利用xywh和每个目标的像素值获得每个目标的特征，后面需要进行重识别

然后先进性预测部分。

self.mean, self.covariance是上一次 的x（k-1）和p（k-1），进行根预测得到先验和先验误差的协方差

    self.tracker.predict()  # 预测操作：卡尔曼滤波 首先得有track。预测两条公式

    def predict(self, kf):
        """Propagate the state distribution to the current time step using a
        Kalman filter prediction step.

        Parameters
        ----------
        kf : kalman_filter.KalmanFilter
            The Kalman filter.
                         x, y, a, h, vx, vy, va, vh
        """  # mean是[242, 266.5, 0.63014, 73, 0, 0, 0, 0]，目标状态向量被扩展为包含位置 (x, y)、宽高 (a, h) 和速度 (vx, vy)，va角度速度vh高度速度的八维向量
        # 因此，协方差矩阵的维度也是 8x8，表示状态mean的向量各个维度之间的关联和不确定性。
        # self.mean, self.covariance是上一次 的x（k-1）和p（k-1），进行根预测得到先验和先验误差的协方差
        self.mean, self.covariance = kf.predict(self.mean, self.covariance)
        self.increment_age()

 kf.predict(self.mean, self.covariance)函数
设定h是因为当目标远近的适合，xya确实变化都不明显，但是h很明显，所以下面计算都是基于h来计算的

更新先验的预测值

self.mean,  self.covariance   ，进行变量更新self.age += 1 self.time_since_update += 1self.age += 1   self.time_since_update += 1

    def predict(self, mean, covariance):
        """Run Kalman filter prediction step.

        Parameters
        ----------
        mean : ndarray
            The 8 dimensional mean vector of the object state at the previous
            time step.
        covariance : ndarray
            The 8x8 dimensional covariance matrix of the object state at the
            previous time step.

        Returns
        -------
        (ndarray, ndarray)
            Returns the mean vector and covariance matrix of the predicted
            state. Unobserved velocities are initialized to 0 mean.

        """  # mean[3],：设定h是因为当目标远近的适合，xya确实变化都不明显，但是h很明显，所以下面计算都是基于h来计算的
        std_pos = [
            self._std_weight_position * mean[3],   # _std_weight_position是权重，mean[3]是高度，他们相乘用作测量噪声的标准差，好像只考虑了这个？数学估计没有考虑噪音？
            self._std_weight_position * mean[3],
            1e-2,
            self._std_weight_position * mean[3]]
        std_vel = [
            self._std_weight_velocity * mean[3],
            self._std_weight_velocity * mean[3],
            1e-5,
            self._std_weight_velocity * mean[3]]
        motion_cov = np.diag(np.square(np.r_[std_pos, std_vel]))  # 看看那些噪音会影响这个系统的状态，先初始化噪声矩阵Q（也是8*8的矩阵）

        mean = np.dot(self._motion_mat, mean)  # x' = Fx 得到预测状态（八个量） 用状态转移矩阵*均值得到下一时刻的状态
        covariance = np.linalg.multi_dot((  # p' = FPF^T + Q  计算新的协方差矩阵
            self._motion_mat, covariance, self._motion_mat.T)) + motion_cov

        return mean, covariance  # 这样就完成了预测操作

状态矩阵的初始化

 def __init__(self):
        ndim, dt = 4, 1.

        # 状态转移矩阵（motion matrix）和观测矩阵（update matrix）
        # 在卡尔曼滤波器中，状态转移矩阵描述了系统状态在时间步之间的变化规律。它是一个方阵，其维度与状态向量的维度相同。在这个例子中，self._motion_mat
        # 初始状态转移矩阵8*8。每个状态变量都在时间步之间保持不变。在许多实际应用中，一些状态变量可能在短时间内不发生显著变化，而卡尔曼滤波器可以利用这种先验知识来提高状态估计的准确性。
        #非线性系统：卡尔曼滤波器最初设计用于线性系统。然而，在处理非线性系统时，通常需要使用扩展卡尔曼滤波器（Extended Kalman Filter，EKF）或其他非线性滤波技术
        self._motion_mat = np.eye(2 * ndim, 2 * ndim)
        for i in range(ndim):#修改状态转移矩阵的一部分元素
            self._motion_mat[i, ndim + i] = dt # 第0行第4列置为1等等....
        # 观测矩阵则描述了如何从状态空间中观测到系统的观测值。
        self._update_mat = np.eye(ndim, 2 * ndim)

        # Motion and observation uncertainty are chosen relative to the current
        # state estimate. These weights control the amount of uncertainty in
        # the model. This is a bit hacky.
        self._std_weight_position = 1. / 20  # 位置的方差
        self._std_weight_velocity = 1. / 160  # 速度的方差

对预测值进行更新（矫正）：

与第一帧不同，第二帧已经有track了，虽然还不能级联匹配，但是可以进行iou的匹配了，因为只有确认的才会进入级联匹配，没确认的会与级联后的一起进行iou，这里没有确认的track进行级联所以只有未被确认的和detection一起做iou、如图

matches_b, unmatched_tracks_b, unmatched_detections = \
            linear_assignment.min_cost_matching(
                iou_matching.iou_cost, self.max_iou_distance, self.tracks, #第二帧：因为iou_track_candidates是unmatched_detections生成的track，所以第二帧全部都匹配上了，这一点知道就行，不那么zhongyao要
                detections, iou_track_candidates, unmatched_detections)  # 因为 匈牙利匹配会尽可能的多的去匹配，所以要设置一个最大距离，超过就不要了
        # iou_track_candidates里面有些是未被确定的,对于一个新建的track来说:(删除在前三帧中没有匹配到的目标)和unmatched_tracks_a看看是不是超过了70帧,要删除
        matches = matches_a + matches_b

        unmatched_tracks = list(set(unmatched_tracks_a + unmatched_tracks_b))
        return matches, unmatched_tracks, unmatched_detections#unmatched_tracks要么是已被确认但是超过70帧，要么是前三帧没检测到，

匹配完成，进行矫正的更新，同时更新state是否超过第三帧，需要置为2变成确认状态：

# 更新当前track的一些变量
        for track_idx, detection_idx in matches:  # matches是当前跟踪帧和检测帧的匹配结果
            self.tracks[track_idx].update(
                self.kf, detections[detection_idx])

仔细阅读代码，与公式是一样一样的的

    def update(self, kf, detection):
        """Perform Kalman filter measurement update step and update the feature
        cache.

        Parameters
        ----------
        kf : kalman_filter.KalmanFilter
            The Kalman filter.
        detection : Detection
            The associated detection.
        """
        # ！！！！！更新了当前track的一些变量！！！！！这些值的更新，track的值也跟着更新，怎样才能一步一步往下进行预测
        # ************************************************************************
        # ************这里的每个变量都是针对一个track而言的。***************************
        # ************************************************************************
        self.mean, self.covariance = kf.update(  # 当前的状态值self.mean, self.covariance，当前的框detection（传感器得到的，或者是观测值）
            self.mean, self.covariance, detection.to_xyah())
        self.features.append(detection.feature)  # 保存这个track的每一帧的特征，以后要对比的，最多存100个，好像没说
        self.hits += 1  # 命中次数，每一个track ID都要做在三条公式的更新（他们都有自己的self.hits，）计算自己的帧数是不是到了第三帧了
        self.time_since_update = 0  # 清.零表示当前帧是最新的更新帧。，也就是这个目标刚更新过，数值越大表示距离上次更新越久
        if self.state == TrackState.Tentative and self.hits >= self._n_init:  # self._n_init用来判断当前更新是不是第三帧以上
            self.state = TrackState.Confirmed  # 是第三帧就改变state标志位

kf.update函数

    def update(self, mean, covariance, measurement):
        """Run Kalman filter correction step.

        Parameters
        ----------
        mean : ndarray
            The predicted state's mean vector (8 dimensional).
        covariance : ndarray
            The state's covariance matrix (8x8 dimensional).
        measurement : ndarray
            The 4 dimensional measurement vector (x, y, a, h), where (x, y)
            is the center position, a the aspect ratio, and h the height of the
            bounding box.

        Returns
        -------
        (ndarray, ndarray)
            Returns the measurement-corrected state distribution.

        """

        projected_mean, projected_cov = self.project(mean, covariance)  # 映射：一个是为了计算增益，一个是为了计算新的估计值
        # 下面的计算公式，是ppt那边的公式，证明可能公式的由来可能有点难，这里直接拿公式来用
        chol_factor, lower = scipy.linalg.cho_factor(  # 矩阵分解
            projected_cov, lower=True, check_finite=False)
        # 卡尔曼增益。卡尔曼增益表示预测状态和观测之间的关系，用于根据观测值来调整预测状态。
        kalman_gain = scipy.linalg.cho_solve(  # 计算卡尔曼增益
            (chol_factor, lower), np.dot(covariance, self._update_mat.T).T,
            check_finite=False).T  # measurement是传感器的观测值。是更新公式里面的yk，C是projected映射过来的，projected_mean是xk
        # 即观测值与预测状态之间的差异
        innovation = measurement - projected_mean  # y=z-Hx',z为detection的均值向量，不包含速度变化值，

        # z=[cx,cy,r,h],H称为测量矩阵，它将track的均值向量x'映射到检测空间，该公式计算detection和track的均值误差。
        # 计算出更新后的状态估计（均值向量和协方差矩阵）。
        new_mean = mean + np.dot(innovation, kalman_gain.T)  # 新的均值向量x=x'+Ky=x'+k(z-Hx') ppt中的公式
        new_covariance = covariance - np.linalg.multi_dot((  # 新的协方差向量P=P'-KHK^T
            kalman_gain, projected_cov, kalman_gain.T)) #covariance + innovation_cov = projected_cov  #HP'H^T+R
        # 计算出更新后的状态估计（均值向量和协方差矩阵）。
        return new_mean, new_covariance

删除。添加track

在第二帧的时候，track刚在第一帧生成，但是在第二帧就没有匹配到检测对象，那就删除。这可能意味着该目标的检测结果不稳定或者系统的初始化不准确。

 如果一个跟踪目标在有了track后，但是下一帧没有匹配到任何检测对象，这可能意味着该目标的检测结果不稳定或者系统的初始化不准确。
        # 总之，对于一个新建的track来说：（删除在前三帧中没有匹配到的目标）和（连续超过70帧）没有匹配到的目标可以帮助保持目标跟踪系统的准确性、效率和稳定性。
        # 如果它是超过了三帧已确认的话，那就只能判断有没有超过70帧了
        for track_idx in unmatched_tracks:
            self.tracks[track_idx].mark_missed()


    def mark_missed(self):
        """Mark this track as missed (no association at the current time step).
        """
        # 为什么要判断TrackState.Tentative这个？？还不懂，懂了，因为大于3帧的时候state就是2了，然后只能判断是不是70帧都没有进行更新了
        if self.state == TrackState.Tentative:
            self.state = TrackState.Deleted
        elif self.time_since_update > self._max_age:
            self.state = TrackState.Deleted

还没到第三帧，函数不能进行真正的匹配，不过要将保存下来的track的feature, target进行存储，最多存100个

# 保存特征到self.samples = {}里面，为了级联匹配的计算
    def partial_fit(self, features, targets, active_targets):
        """Update the distance metric with new data.

        Parameters
        ----------
        features : ndarray
            An NxM matrix of N features of dimensionality M.
        targets : ndarray
            An integer array of associated target identities.
        active_targets : List[int]
            A list of targets that are currently present in the scene.

        example:
            假设 self.budget = 3，self.samples[target] 是一个包含 6 个元素的列表 [1, 2, 3, 4, 5, 6]。
            如果使用 self.samples[target][-self.budget:]，则取出最近的 3 个元素，即 [4, 5, 6]。
            如果使用 self.samples[target][:self.budget]，则取出最早的 3 个元素，即 [1, 2, 3]。
        """
        # 将特征和跟踪目标的ID配对，并将它们存储在字典 self.samples 中。每个目标都对应一个特征列表，其中存储了该目标在不同时间步的特征。
        for feature, target in zip(features, targets):
            self.samples.setdefault(target, []).append(feature)
            if self.budget is not None:
                self.samples[target] = self.samples[target][-self.budget:]  # 这里才是才是100个，因为一个track存100个512的特征已经很多了
        # 只保留与活跃目标相关的特征列表。避免存储过多的无效信息。并以 k 作为键，将 self.samples[k] 的值作为对应的值，构建一个新的字典。
        # 这里不是存100个，可以存无限个，上面才是100个，因为一个track存100个512的特征已经很多了
        self.samples = {k: self.samples[k] for k in active_targets}

第三帧与第二帧一样

第四帧开始（可以做级联匹配）

因为在第三帧的结束阶段，会更新track的一些变量，所以会更新一些变量，包括帧数，上一帧

time_since_update置为0表示上一帧更新过等等

预测

前面的初始化与第一二三帧一样，预测也跟第二帧是一样的，先进行预测先验self.mean, self.covariance ，进行变量更新self.age += 1 self.time_since_update += 1

更新

匹配

matches, unmatched_tracks, unmatched_detections = \
            self._match(detections)

此时的track在前三帧都有匹配（matches）到的话，就append到confirmed_tracks.append(i)中

# 跟踪对象状态判断 确认还是未确认
        confirmed_tracks = []
        unconfirmed_tracks = []

        for i, t in enumerate(self.tracks):
            if t.is_confirmed():  # 一个新建的track，必须经过三次更新才会得到self.state = TrackState.Confirmed，也就是需要三帧
                confirmed_tracks.append(i)
            else:
                unconfirmed_tracks.append(i)

级联匹配

self.tracks是这一帧之前的所有self.tracks包括新初始化的，已经超过三帧的，

detections是当前这一帧用yolo检测测量的目标（包括其坐标，置信度，人的特征）

confirmed_tracks是超过三帧的track

# 级联匹配： 将确认的track进行级联匹配，筛选出mathch的
        matches_a, unmatched_tracks_a, unmatched_detections = \
            linear_assignment.matching_cascade(
                gated_metric, self.metric.matching_threshold, self.max_age,
                self.tracks, detections, confirmed_tracks)

级联匹配：1.外观信息（128维度特征）2.运动信息（基于卡尔曼滤波预测的track的位置）

因为超过70帧后就要删除，所以首先是确保70帧以内的track都可以做级联，比如第65帧没有匹配到检测对象，但是可能第66帧他就能匹配到了，就是这样意思

所以要遍历70次

 for level in range(cascade_depth):

        if len(unmatched_detections) == 0:
            break
        # 使得一些可能由于目标形变、遮挡或检测器误检等原因导致匹配困难的目标有更多的机会进行匹配。
        track_indices_l = [        #tracks[k].time_since_update == 1是优先遍历上一次更新的了track
            k for k in track_indices  # tracks就是self.track
            if tracks[k].time_since_update == 1 + level
        ]
        # 如果在当前级联匹配的层级中，没有任何跟踪目标需要进行匹配，可以跳过当前层级的匹配过程，继续处理下一个层级的匹配
        if len(track_indices_l) == 0:
            continue
        # ppt第28页。这里只是计算前70帧大家的匹配结果，真正判断是在mark_missed这里判断，反正如果是三帧以上了，以后每次都匹配不到，
        # 那么每一帧他都会+1，直到70帧他就会被mark_missed删除的了
        matches_l, _, unmatched_detections = \
            min_cost_matching(
                distance_metric, max_distance, tracks, detections,
                track_indices_l, unmatched_detections)  # unmatched_detections检测对象，track_indices_l优先遍历的track
        matches += matches_l
    # 计算未匹配的跟踪目标索引列表 set(track_indices)获取所有跟踪目标索引的集合➖set(k for k, _ in matches)获取已匹配的跟踪目标索引集合
    unmatched_tracks = list(set(track_indices) - set(k for k, _ in matches))
    # unmatched_tracks表示剩下几个跟踪对象没有匹配成功，unmatched_detections表示剩下几个检测对象没有匹配成功,
    # 守门员应该是unmatched_tracks(之前与跟踪结果 ，但后来消失了一会)
    return matches, unmatched_tracks, unmatched_detections

真正的级联匹配min_cost_matching

先声明：这里面的track是已经确认的了，一定要记住，很重要！
tracks是已确认的track，detections是 yolo这一帧的，track_indices_l是优先遍历的track，因为有70个level，帧数丢失越少的越早匹配 ，unmatched_detections检测对象，不知道为什么要叫unmatched_detections，叫matched_detections更好理解点

 matches_l, _, unmatched_detections = \
            min_cost_matching(
                distance_metric, max_distance, tracks, detections,
                track_indices_l, unmatched_detections)  # unmatched_detections检测对象，track_indices_l优先遍历的track

级联匹配函数

拿着卡尔曼滤波估计的值，也就是track的那些每一帧更新的变量，与yolo检测的进行匹配，筛选，通过阈值限制一些无用的目标框，这样做的目的是过滤掉那些与当前状态分布不一致的关联，以提高关联的准确性和可靠性。

构建代价矩阵，我这里第一帧和第二帧都是16，所以是16*16的代价矩阵，在第一步计算级联匹配筛选的时候，distance_metric计算出来的是目标特征向量和检测特征向量之间的距离

mean：状态分布的均值向量（8维）。covariance：状态分布的协方差矩阵（8x8维）。测量值（measurements）only_position：可选参数，如果为True，则仅在计算距离时考虑边界框的中心位置。默认为False。

#  #这段代码是一个目标跟踪算法的一部分。它的目的是计算目标和特征之间的相似性度量，并生成一个代价矩阵（cost_matrix），用于表示目标与特征之间的关联代价。
        def gated_metric(tracks, dets, track_indices, detection_indices):
            # 从检测到的物体中提取特征（features）和目标跟踪器的ID（targets）。特征可以是物体的视觉特征，例如图像中的颜色、纹理、形状等。目标跟踪器的ID是唯一标识跟踪器的值。
            features = np.array([dets[i].feature for i in detection_indices])
            targets = np.array([tracks[i].track_id for i in track_indices])
            # 通过计算目标和特征之间的距离或相似性，可以得到一个初始的关联矩阵，其中较小的值表示更可能的匹配。
            # 然后，通过进一步的处理（例如卡尔曼滤波器进行无效化操作），可以对关联进行筛选和调整，以提高匹配的准确性和可靠性。
            cost_matrix = self.metric.distance(features, targets)
            # 通过调用 linear_assignment.gate_cost_matrix 函数，使用卡尔曼滤波器的状态分布来无效化代价矩阵中的不可行条目
            cost_matrix = linear_assignment.gate_cost_matrix(
                self.kf, cost_matrix, tracks, dets, track_indices,
                detection_indices)

            return cost_matrix

cost_matrix是通过distance_metric计算得到的iou距离的矩阵（16*16），（使用了1-iou）

第一部分：级联匹配筛选中，大于max_distance（0.2）赋值（马氏距离，大的可以大到100000，小的有0.01左右）为0.20001，就大一点点，第二部分：在iou筛选大于max_distance（0.7）赋值为7.00001，就大一点点

通过距离的计算得到最优的匹配结果的索引

def min_cost_matching(
        distance_metric, max_distance, tracks, detections, track_indices=None,
        detection_indices=None):
 
    if track_indices is None:
        track_indices = np.arange(len(tracks))
    if detection_indices is None:
        detection_indices = np.arange(len(detections))

    # 构建代价矩阵，我这里第一帧和第二帧都是16，所以是16*16的代价矩阵
    if len(detection_indices) == 0 or len(track_indices) == 0:
        return [], track_indices, detection_indices  # Nothing to match.
    # 在第一步计算级联匹配筛选的时候，distance_metric计算出来的是目标特征向量和检测特征向量之间的距离。第二部计算iou筛选的时候，
    cost_matrix = distance_metric(#cost_matrix是通过distance_metric计算得到的iou距离的矩阵（16*16），（使用了1-iou）
        tracks, detections, track_indices, detection_indices)
    # 第一部分：级联匹配筛选中，大于max_distance（0.2）赋值（马氏距离，大的可以大到100000，小的有0.01左右）为0.20001，就大一点点，第二部分：在iou筛选大于max_distance（0.7）赋值为7.00001，就大一点点
    cost_matrix[cost_matrix > max_distance] = max_distance + 1e-5
    # 匈牙利算法或者KM算法匹配：也称为二分图中的最小权重匹配问题，解决最小权重匹配问题，并返回最优分配的行索引和列索引。根据实际问题的要求，你可以选择最小化或最大化目标函数，通过设置参数maximize=True来计算最大权重匹配问题。
    row_indices, col_indices = linear_assignment(cost_matrix)  # !!!!cost_matrix是一个二维矩阵，表示跟踪结果和检测结果之间的相似性或匹配程度。

行和列分开遍历是为了找到匹配成功和匹配失败的跟踪对象和检测对象。行索引对应跟踪对象，列索引对应检测对象。通过这些索引，可以确定哪些跟踪对象和检测对象成功匹配。

 # 遍历检测对象.....行和列分开遍历是为了找到匹配成功和匹配失败的跟踪对象和检测对象。行索引对应跟踪对象，列索引对应检测对象。通过这些索引，可以确定哪些跟踪对象和检测对象成功匹配。
    # 假设有15个检测对象，10个跟踪对象 经过匹配算法后其中5个跟踪对象成功匹配到了相应的检测对象，那么现在unmatched_detections就是10
    for col, detection_idx in enumerate(detection_indices):
        # 如果跟踪目标（好像是状态转移矩阵的出来的）和检测出来对象没有匹配，那么这大概率是个新目标或者上一帧没有被跟踪到的目标。则加入到没有匹配成功的检测对象
        # 可能的情况：新目标(因为新目标没有对应的target)，跟踪丢失，目标离开视野（跟踪的目标可能在当前帧中已经离开了摄像机的视野范围，因此无法被检测到。）
        # 检测器失败（在某些情况下，检测器可能无法正确检测目标，例如目标形变、低分辨率图像或运动模糊等。） 检测器误检
        if col not in col_indices:
            unmatched_detections.append(detection_idx)

    # 那么unmatched_tracks是5
    for row, track_idx in enumerate(track_indices):
        # 之前跟踪了，但是这次消失的。足球守门员
        # 对于跟踪结果没有匹配到任何检测结果的情况，可以理解为检测结果没有与之对应的跟踪结果。在这种情况下，可能发生遮挡、
        # 检测器误检、目标离开视野或跟踪器失败等情况，导致检测结果无法与之前的跟踪结果进行匹配。
        if row not in row_indices:
            unmatched_tracks.append(track_idx)
    # 又重新遍历row_indices，col_indices？？？不是重新遍历了，可能存在误判，第四帧有这种情况，误判后的结果肯定是 大于max_distance的，也要加入unmatched中
    for row, col in zip(row_indices, col_indices):  # 全都是匹配到了的。而且小于阈值的了
        track_idx = track_indices[row]
        detection_idx = detection_indices[col]

        if cost_matrix[row, col] > max_distance:
            unmatched_tracks.append(track_idx)  # 这里是行号,好像一定要行号，因为上面构建矩阵的时候已经定死了
            unmatched_detections.append(detection_idx)  # 这里是列号
        else:
            matches.append((track_idx, detection_idx))  # 其他符合的，就加入匹配成功matches

    # 三个返回值：matches：第二批领导iou(小于0.7的)， 如果这里unmatched_detections还有值的话，那就是新目标，需要初始化track
    return matches, unmatched_tracks, unmatched_detections

级联匹配后，再一次进行iou筛选，在这里的unmatched_tracks_a，肯定是已确认的track了，这部分跟踪目标是在上一帧中更新过的，

iou_track_candidates里面有未被确定的,对于一个新建的track来说:(删除在前三帧中没有匹配到的目标)和unmatched_tracks_a看看是不是超过了70帧,要删除

不管是距离还是级联后的iou，都会执行min_cost_matching进行筛选，第一部分：级联匹配筛选中，大于max_distance（0.2）赋值（马氏距离，大的可以大到100000，小的有0.01左右）为0.20001，就大一点点，第二部分：在iou筛选大于max_distance（0.7）赋值为7.00001，就大一点点

def min_cost_matching(
        distance_metric, max_distance, tracks, detections, track_indices=None,
        detection_indices=None):
   
    if track_indices is None:
        track_indices = np.arange(len(tracks))
    if detection_indices is None:
        detection_indices = np.arange(len(detections))

    # 构建代价矩阵，我这里第一帧和第二帧都是16，所以是16*16的代价矩阵
    if len(detection_indices) == 0 or len(track_indices) == 0:
        return [], track_indices, detection_indices  # Nothing to match.
    # 在第一步计算级联匹配筛选的时候，distance_metric计算出来的是目标特征向量和检测特征向量之间的距离。第二部计算iou筛选的时候，
    cost_matrix = distance_metric(#cost_matrix是通过distance_metric计算得到的iou距离的矩阵（16*16），（使用了1-iou）
        tracks, detections, track_indices, detection_indices)
    # 第一部分：级联匹配筛选中，大于max_distance（0.2）赋值（马氏距离，大的可以大到100000，小的有0.01左右）为0.20001，就大一点点，第二部分：在iou筛选大于max_distance（0.7）赋值为7.00001，就大一点点
    cost_matrix[cost_matrix > max_distance] = max_distance + 1e-5
    # 匈牙利算法或者KM算法匹配：也称为二分图中的最小权重匹配问题，解决最小权重匹配问题，并返回最优分配的行索引和列索引。根据实际问题的要求，你可以选择最小化或最大化目标函数，通过设置参数maximize=True来计算最大权重匹配问题。
    row_indices, col_indices = linear_assignment(cost_matrix)  # !!!!cost_matrix是一个二维矩阵，表示跟踪结果和检测结果之间的相似性或匹配程度。

    matches, unmatched_tracks, unmatched_detections = [], [], []

    # 遍历检测对象.....行和列分开遍历是为了找到匹配成功和匹配失败的跟踪对象和检测对象。行索引对应跟踪对象，列索引对应检测对象。通过这些索引，可以确定哪些跟踪对象和检测对象成功匹配。
    # 假设有15个检测对象，10个跟踪对象 经过匹配算法后其中5个跟踪对象成功匹配到了相应的检测对象，那么现在unmatched_detections就是10
    for col, detection_idx in enumerate(detection_indices):
        # 如果跟踪目标（好像是状态转移矩阵的出来的）和检测出来对象没有匹配，那么这大概率是个新目标或者上一帧没有被跟踪到的目标。则加入到没有匹配成功的检测对象
        # 可能的情况：新目标(因为新目标没有对应的target)，跟踪丢失，目标离开视野（跟踪的目标可能在当前帧中已经离开了摄像机的视野范围，因此无法被检测到。）
        # 检测器失败（在某些情况下，检测器可能无法正确检测目标，例如目标形变、低分辨率图像或运动模糊等。） 检测器误检
        if col not in col_indices:
            unmatched_detections.append(detection_idx)

    # 那么unmatched_tracks是5
    for row, track_idx in enumerate(track_indices):
        # 之前跟踪了，但是这次消失的。足球守门员
        # 对于跟踪结果没有匹配到任何检测结果的情况，可以理解为检测结果没有与之对应的跟踪结果。在这种情况下，可能发生遮挡、
        # 检测器误检、目标离开视野或跟踪器失败等情况，导致检测结果无法与之前的跟踪结果进行匹配。
        if row not in row_indices:
            unmatched_tracks.append(track_idx)
    # 又重新遍历row_indices，col_indices？？？不是重新遍历了，可能存在误判，第四帧有这种情况，误判后的结果肯定是 大于max_distance的，也要加入unmatched中
    for row, col in zip(row_indices, col_indices):  # 全都是匹配到了的。而且小于阈值的了
        track_idx = track_indices[row]
        detection_idx = detection_indices[col]

        if cost_matrix[row, col] > max_distance:
            unmatched_tracks.append(track_idx)  # 这里是行号,好像一定要行号，因为上面构建矩阵的时候已经定死了
            unmatched_detections.append(detection_idx)  # 这里是列号
        else:
            matches.append((track_idx, detection_idx))  # 其他符合的，就加入匹配成功matches

    # 三个返回值：matches：第二批领导iou(小于0.7的)， 如果这里unmatched_detections还有值的话，那就是新目标，需要初始化track
    return matches, unmatched_tracks, unmatched_detections

最终没有被删除的track进行存储features, targets

self.metric.partial_fit(np.asarray(features), np.asarray(targets), active_targets)

这个就是ReID的数据，用来行人重识别

ReID特征匹配和运动配

得到Reid的代价矩阵，但是还不够，还需要运动的匹配 linear_assignment.gate_cost_matrix

 def distance(self, features, targets):

        cost_matrix = np.zeros((len(targets), len(features)))
        for i, target in enumerate(targets):
            cost_matrix[i, :] = self._metric(self.samples[target], features)#找到当前目标的target和特征
        return cost_matrix

def _nn_cosine_distance(x, y):
    # 对特征进行计算余弦相似度，返回离它最近的
    distances = _cosine_distance(x, y)
    return distances.min(axis=0)

    def _match(self, detections):

        def gated_metric(tracks, dets, track_indices, detection_indices):
            # 从检测到的物体中提取特征（features）和目标跟踪器的ID（targets）。特征可以是物体的视觉特征，例如图像中的颜色、纹理、形状等。目标跟踪器的ID是唯一标识跟踪器的值。
            features = np.array([dets[i].feature for i in detection_indices])
            targets = np.array([tracks[i].track_id for i in track_indices])
            #得到Reid的代价矩阵
            cost_matrix = self.metric.distance(features, targets)
            # 得到特征的代价矩阵再一步进行运动匹配（与估计值与测量值进行匹配）
            cost_matrix = linear_assignment.gate_cost_matrix(
                self.kf, cost_matrix, tracks, dets, track_indices,
                detection_indices)

            return cost_matrix

下面进行运动匹配

# 这个函数会计算目标跟踪器的状态分布与测量之间的马氏距离（Mahalanobis distance）
def gate_cost_matrix(
        kf, cost_matrix, tracks, detections, track_indices, detection_indices,
        gated_cost=INFTY_COST, only_position=False):

    gating_dim = 2 if only_position else 4
    gating_threshold = kalman_filter.chi2inv95[gating_dim]
    measurements = np.asarray(
        [detections[i].to_xyah() for i in detection_indices])
    for row, track_idx in enumerate(track_indices):#对于每一个track都要计算它跟detection之间的
        track = tracks[track_idx]
        # 计算状态分布与测量之间的马氏距离（Mahalanobis distance）。并将超过门限值的马氏距离对应的代价矩阵条目设置为gated_cost。
        # 这样做的目的是过滤掉那些与当前状态分布不一致的关联，以提高关联的准确性和可靠性。
        gating_distance = kf.gating_distance(  # gating_distance方法用于计算状态分布与一组测量之间的门限距离（gating distance）。
            track.mean, track.covariance, measurements, only_position)
        cost_matrix[row, gating_distance > gating_threshold] = gated_cost#gating_threshold阈值，
    return cost_matrix  # 最后，返回经过无效化操作后的代价矩阵，该矩阵将用于进一步的关联和匹配过程。
    # mean：状态分布的均值向量（8维）。
    # covariance：状态分布的协方差矩阵（8x8维）。
    # measurements：包含N个测量值的Nx4维矩阵，每个测量值的格式为(x, y, a, h)，其中(x, y)是边界框的中心位置，a是宽高比，h是高度。
    # only_position：可选参数，如果为True，则仅在计算距离时考虑边界框的中心位置。默认为False。

通过匈牙利算法后再进行iou筛选

# 匈牙利的门限，因为他会尽可能的匹配多个物体
        matches_b, unmatched_tracks_b, unmatched_detections = \
            linear_assignment.min_cost_matching(
                iou_matching.iou_cost, self.max_iou_distance, self.tracks, #第二帧：因为iou_track_candidates是unmatched_detections生成的track，所以第二帧全部都匹配上了，这一点知道就行，不那么zhongyao要
                detections, iou_track_candidates, unmatched_detections)  # 因为 匈牙利匹配会尽可能的多的去匹配，所以要设置一个最大距离，超过就不要了
        # iou_track_candidates里面有些是未被确定的,对于一个新建的track来说:(删除在前三帧中没有匹配到的目标)和unmatched_tracks_a看看是不是超过了70帧,要删除
        matches = matches_a + matches_b
unmatched_tracks = list(set(unmatched_tracks_a + unmatched_tracks_b))
        return matches, unmatched_tracks, unmatched_detections#unmatched_tracks要么是已被确认但是超过70帧，要么是前三帧没检测到，

卡尔曼滤波更新图

deepsort更新流程

你可能感兴趣的:(目标跟踪,YOLO,计算机视觉,深度学习,目标检测)

Opencv计算机视觉编程攻略-第一节图像读取与基本处理 weixin_44242403 深度学习 opencv 计算机视觉
1.图像读取导入依赖项的h文件#include#include#include#include项目Valuecore.hpp基础数据结构和操作（图像存储、矩阵运算、文件I/O）highgui.hpp图像显示、窗口管理、用户交互（图像/视频显示、用户输入处理、结果保存）imgproc.hpp图像处理算法（图像滤波、几何变换、边缘检测、形态学操作）二读取图片Matimage;//图像矩阵std::co
智慧城市道路防护栏破损缺陷检测数据集VOC+YOLO格式6939张3类别 FL1623863129 数据集 YOLO 深度学习机器学习
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：6939标注数量(xml文件个数)：6939标注数量(txt文件个数)：6939标注类别数：3标注类别名称(注意yolo格式类别顺序不和这个对应，而以labels文件夹classes.txt为准):["body","cr
将 VOC 格式 XML 转换为 YOLO 格式 TXT JeJe同学 xml YOLO
目录1.导入必要的模块2.定义类别名称3.设置文件路径完整代码1.导入必要的模块importosimportxml.etree.ElementTreeasETos：用于文件和目录操作，例如创建目录、遍历文件等。xml.etree.ElementTree：用于解析XML文件，从中提取信息。2.定义类别名称class_names=['nest','balloon','kite','trash']这是一
图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
目前市场上主流的机器视觉的框架有哪些？他们的特点及优劣 yuanpan 机器学习计算机视觉
目前市场上主流的机器视觉框架和工具可以分为商业软件、开源工具和深度学习框架三大类。以下是它们的总结及特点对比：1.商业软件(1)Halcon(MVTec)特点：专注于工业机器视觉，提供高精度、高效率的算法。支持复杂的工业应用，如缺陷检测、3D视觉、深度学习等。提供图形化开发工具HDevelop和多种编程接口。优势：算法优化好，适合实时工业应用。硬件兼容性强，支持多种工业相机和设备。劣势：商业软件，
1.1PaddleTS_环境配置：一个易用的深度时序建模的Python库 pythonQA python paddlepaddle
PaddleTS是一个易用的深度时序建模的Python库，它基于飞桨深度学习框架PaddlePaddle，专注业界领先的深度模型，旨在为领域专家和行业用户提供可扩展的时序建模能力和便捷易用的用户体验。PaddleTS的主要特性包括：设计统一数据结构，实现对多样化时序数据的表达，支持单目标与多目标变量，支持多类型协变量封装基础模型功能，如数据加载、回调设置、损失函数、训练过程控制等公共方法，帮助开发
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
代码逐行解析 | 教你在C++中使用深度学习提取特征点 3Ｄ视觉工坊 3D视觉从入门到精通 c++深度学习开发语言人工智能
点击下方卡片，关注「3D视觉工坊」公众号选择星标，干货第一时间送达扫描下方二维码，加入3D视觉技术星球，星球内汇集了众多3D视觉实战问题，以及各个模块的学习资料：最新顶会论文、书籍、源码、视频（近20门系统课程[星球成员可免费学习]）等。想要入门3D视觉、做项目、搞科研，就加入我们吧。作者：泡椒味的口香糖|来源：3DCV添加微信：dddvision
Halcon 和 opencv比有什么区别与优劣 yuanpan opencv 人工智能计算机视觉
Halcon和OpenCV都是机器视觉领域的重要工具，但它们的设计目标、功能特点和适用场景有所不同。以下是两者的详细对比：1.定位与目标用户Halcon：定位：商业机器视觉软件，专注于工业应用。目标用户：工业自动化、质量控制、机器人引导等领域的专业开发者。OpenCV：定位：开源计算机视觉库，适用于通用图像处理和计算机视觉任务。目标用户：学术研究、教育、初创公司以及需要低成本解决方案的开发者。2.
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
深度学习-130-RAG技术之基于Anything LLM搭建本地私人知识库的应用策略问题总结(一) 皮皮冰燃深度学习深度学习人工智能 RAG
文章目录1AnythingLLM的本地知识库1.1本地知识库应用场景1.2效果对比及思考1.3本地体现在哪些方面1.3.1知识在本地1.3.2分割后的文档在本地1.3.3大模型部署运行在本地2问错问题带来的问题2.1常见的问题2.2原因分析3为什么LLM不使用我的文件？3.1LLM不是万能的【omnipotent】3.2LLM不会自省【introspect】3.3AnythingLLM是如何工作的
3DMAX点云算法：实现毫米级BIM模型偏差检测（附完整代码）夏末之花人工智能
摘要本文基于激光雷达点云数据与BIM模型的高精度对齐技术，提出一种融合动态体素化与多模态特征匹配的偏差检测方法。通过点云预处理、语义分割、模型配准及差异分析，最终实现建筑构件毫米级偏差的可视化检测。文中提供关键代码实现，涵盖点云处理、特征提取与深度学习模型搭建。一、核心算法流程点云预处理与特征增强去噪与下采样：采用统计滤波与体素网格下采样，去除离群点并降低数据量。语义分割：基于PointNet++
数据增强：扩充数据集，提升模型的鲁棒性 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 LLM大模型落地实战指南计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
数据增强：扩充数据集，提升模型的鲁棒性1.背景介绍1.1数据集的重要性在机器学习和深度学习领域中,数据集是训练模型的基础。高质量的数据集对于构建准确、鲁棒的模型至关重要。然而,在现实世界中,获取大量高质量的数据通常是一个巨大的挑战。数据采集过程耗时耗力,而且成本高昂。此外,某些领域的数据存在隐私和安全问题,难以获取。1.2数据集不足的挑战当数据集规模有限时,模型很容易过拟合,无法很好地推广到新的、
Docker打包深度学习项目 FLY_LTL docker 深度学习容器
文章目录Docker打包深度学习项目1.Docker和NVIDIAContainerToolkit的安装1.Docker2.NVIDIAContainerToolkit3.添加国内镜像源2.使用Dockerfile打包并保存镜像1.Dockerfile2.通过Dockerfile生成镜像3.保存镜像和加载4.运行Docker并测试参考Docker打包深度学习项目本文来源于个人实践总结，供各位同学参
使用TensorFlow、OpenCV和Pygame实现图像处理与游戏开发 UwoiGit tensorflow opencv pygame
在本篇文章中，我们将介绍如何结合使用TensorFlow、OpenCV和Pygame来进行图像处理和游戏开发。这三个工具在机器学习、计算机视觉和游戏开发领域都非常流行，并且它们的结合可以提供强大的功能和无限的创造力。我们将逐步介绍如何安装和配置这些工具，并提供相关的源代码示例。安装TensorFlowTensorFlow是一个基于数据流图的开源机器学习框架，提供了丰富的工具和库来构建和训练各种深度
深度革命：ResNet 如何用 “残差连接“ 颠覆深度学习安意诚Matrix 机器学习笔记深度学习人工智能
一文快速了解ResNet创新点在深度学习的历史长河中，2015年或许是最具突破性的一年。这一年，微软亚洲研究院的何恺明团队带着名为ResNet（残差网络）的模型横空出世，在ImageNet图像分类竞赛中以3.57%的错误率夺冠，将人类视觉的识别误差（约5.1%）远远甩在身后。更令人震撼的是，ResNet将神经网络的深度推至152层，彻底打破了"深层网络无法训练"的魔咒。这场革命的核心，正是一个简单
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算【超级详细版】 AI筑梦师计算机视觉算法深度学习人工智能机器学习计算机视觉 python
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算1.引言1.1研究背景在计算机视觉、模式识别、医学影像分析和自动驾驶等领域，形状匹配是核心任务之一。然而，现实世界的形状往往存在可变性（Variability），主要体现在以下几个方面：形变（Deformation）：物体可能由于柔性材料、外力作用或生物运动发生非刚性形变。尺度变化（ScaleVariation）：目标形状在不同场景下可能大
基于PyTorch和ResNet18的花卉识别实战（附完整代码）意.远 pytorch 人工智能 python 深度学习
一、项目背景与效果花卉分类是计算机视觉的经典任务。本文使用PyTorch框架，基于ResNet18模型实现了102种花卉的分类任务。完整代码可直接复制运行，最终验证集准确率达8.2%，文中同步分析性能瓶颈与优化方案。二、环境配置与数据准备1.环境要求#主要依赖库importtorchfromtorchimportnn,optimfromtorchvisionimporttransforms,dat
Python 模拟鼠标轨迹算法 a485240 鼠标轨迹计算机外设
一.鼠标轨迹模拟简介传统的鼠标轨迹模拟依赖于简单的数学模型，如直线或曲线路径。然而，这种方法难以捕捉到人类操作的复杂性和多样性。AI大模型的出现，使得能够通过深度学习技术，学习并模拟更自然的鼠标移动行为。二.鼠标轨迹算法实现AI大模型通过学习大量的人类鼠标操作数据，能够识别和模拟出自然且具有个体差异的鼠标轨迹。以下是实现这一技术的关键步骤：数据收集：收集不同玩家在各种游戏环境中的鼠标操作数据，包括
Yolov8训练自己的数据集(脱离ultralytics库) 爱吃肉的鹏 YOLO
最近在整理关于yolov8的相关内容，有个很大的问题，抛开yolov8性能不谈，yolov8代码的使用灵活性不如yolov5，尤其是对于一些新手或者对yolo框架不是很熟悉的人(这也是因人而异，有些人可能会喜欢v8代码的使用方式)。比如在使用v8的时候需要安装ultralytics库，然后再调用YOLO进行训练或者预测，那么就有这几个问题：问题1：安装了ultralytics库后如何使用YOLO呢
【论文精读】PatchTST-基于分块及通道独立机制的Transformer模型打酱油的葫芦娃时序预测算法时序预测 PatchTST Transformer 预训练微调表征学习
《ATIMESERIESISWORTH64WORDS:LONG-TERMFORECASTINGWITHTRANSFORMERS》的作者团队来自PrincetonUniversity和IBMResearch，发表在ICLR2023会议上。动机Transformer模型因其自注意力机制在处理序列数据方面的优势，在自然语言处理（NLP）、计算机视觉（CV）、语音等多个领域取得了巨大成功。这种机制使得模型
什么是机器视觉3D引导大模型视觉人机器视觉机器视觉3D 3d 数码相机机器人人工智能大数据
机器视觉3D引导大模型是结合深度学习、多模态数据融合与三维感知技术的智能化解决方案，旨在提升工业自动化、医疗、物流等领域的操作精度与效率。以下从技术架构、行业应用、挑战与未来趋势等方面综合分析：一、技术架构与核心原理多模态数据融合与深度学习3D视觉引导大模型通常整合RGB图像、点云数据、深度信息等多模态输入，通过深度学习算法（如卷积神经网络、Transformer）进行特征提取与融合。例如，油田机
深度学习在医学影像分析中的应用：DeepSeek系统的实践与探索 Evaporator Core #深度学习 #DeepSeek快速入门 DeepSeek进阶开发与应用深度学习人工智能
随着人工智能技术的迅猛发展，深度学习在医学领域的应用逐渐成为研究热点。医学影像分析作为医疗诊断的重要组成部分，正受益于深度学习技术的突破。DeepSeek系统是一种基于深度学习的医学影像分析平台，旨在通过高效、精准的算法辅助医生进行疾病诊断和治疗决策。本文将深入探讨DeepSeek系统的技术原理、实现方法及其在医学影像分析中的实际应用，并结合代码示例展示其核心功能。1.DeepSeek系统的技术架
【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割 985小水博一枚呀论文解读深度学习 transformer 人工智能网络 cnn
【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割文章目录【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割2.Re
PyTorch 深度学习博客 Zoro｜ PyTorch Deep Learning 人工智能
PyTorch深度学习博客欢迎来到我的PyTorch深度学习博客！在这里，我将分享使用PyTorch学习和实践深度学习项目的点滴经验。本博客适用于初学者和有一定基础的开发者，旨在帮助大家快速搭建环境、掌握核心概念，并通过实例了解实际应用。环境配置为了确保项目的稳定性和兼容性，我选择了Python3.9环境，并在conda创建的虚拟环境中运行最新且稳定的PyTorch版本2.6.0。1.创建Pyth
深度学习五大模型：CNN、Transformer、BERT、RNN、GAN详细解析深度学习
卷积神经网络（ConvolutionalNeuralNetwork,CNN）原理：CNN主要由卷积层、池化层和全连接层组成。卷积层通过卷积核在输入数据上进行卷积运算，提取局部特征；池化层则对特征图进行下采样，降低特征维度，同时保留主要特征；全连接层将特征图展开为一维向量，并进行分类或回归计算。CNN利用卷积操作实现局部连接和权重共享，能够自动学习数据中的空间特征。适用场景：广泛应用于图像处理相关的
算力技术创新驱动多场景应用演进智能计算研究中心其他
内容概要算力技术创新正成为数字经济时代的基础性驱动力，从异构计算架构的多元融合到量子计算的颠覆性突破，技术演进不断突破物理与算法的双重边界。在工业互联网场景中，边缘计算通过分布式节点实现毫秒级响应，支撑智能制造产线的实时控制；智能安防系统依托深度学习模型与流计算技术，完成海量视频数据的动态解析；而科学计算领域通过分布式计算与模型压缩技术，将基因测序、气候模拟等复杂任务的效率提升至新量级。值得注意的
AI模型技术前沿与跨场景应用实践智能计算研究中心其他
内容概要当前AI模型技术正呈现多维度突破与跨领域融合的特征。从技术演进角度看，可解释性模型与量子计算框架的协同发展正在突破传统黑箱限制，而联邦学习、自适应优化等技术则为复杂场景建模提供了新的方法论支撑。应用层面，TensorFlow与PyTorch框架在医疗影像诊断、金融时序预测等领域的实战案例，验证了深度学习模型在垂直行业的泛化能力。值得关注的是，工具链整合已成为技术落地的关键环节，MXNet与
融合AMD与NVIDIA GPU集群的MLOps：异构计算环境中的分布式训练架构实践
在深度学习的背景下，NVIDIA的CUDA与AMD的ROCm框架缺乏有效的互操作性，导致基础设施资源利用率显著降低。随着模型规模不断扩大而预算约束日益严格，2-3年更换一次GPU的传统方式已不具可持续性。但是Pytorch的最近几次的更新可以有效利用异构计算集群，实现对所有可用GPU资源的充分调度，不受制于供应商限制。本文将深入探讨如何混合AMD/NVIDIAGPU集群以支持PyTorch分布式训
深度学习框架PyTorch——从入门到精通（4）数据转换 Fansv587 Torch框架学习深度学习 pytorch 人工智能 python 经验分享
转换（Transforms）很多时候，数据并不总是以训练机器学习算法所需的最终处理形式出现。所以我们需要使用变换对数据进行一些处理，使其适合训练。所有TorchVision数据集都有两个参数——transform来修改特征，target_transform来修改标签——接受包含转换逻辑的可调用项。torchvision.transform模块提供了几个开箱即用的转换。FashionMNIST数据集
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><