Ewing_yy

使用YOLOv2和MobileNet_SSD检测算法与KCF对象跟踪器进行视频流的实时对象跟踪和检测

微信公众号：小白图像与视觉

关于技术、关注yysilence00。有问题或建议，请公众号留言。

主题：使用YOLOv2和MobileNet_SSD检测算法与KCF对象跟踪器进行视频流的实时对象跟踪和检测

1、版本：opencv3.4.1 numpy imutils

2、载权重并将其放置在model_data /中

3、项目结构：

使用YOLOv2和MobileNet_SSD检测算法与KCF对象跟踪器进行视频流的实时对象跟踪和检测_第1张图片

media:存放视频文件
misc:存放结构文件动图
model_data:存放模型文件，这里使用coco和mobilenet数据集进行训练和测试，利用caffe框架进行网络参数训练获取模型
out:存放结果
src:存放源码

使用方法：先cd到项目文件中路径中，然后执行

python src/main.py -h
usage: main.py [-h] [--input INPUT] [--output OUTPUT] --model MODEL
               [--config CONFIG] [--classes CLASSES] [--thr THR]

Object Detection and Tracking on Video Streams

optional arguments:
  -h, --help         show this help message and exit
  --input INPUT      Path to input image or video file. Skip this argument to
                     capture frames from a camera.
  --output OUTPUT    Path to save output as video file. Skip this argument if
                       you don't want the output to be saved. 
  --model MODEL      Path to a binary file of model that contains trained weights.
                     It could be a file with extensions .caffemodel (Caffe) or
                     .weights (Darknet)
  --config CONFIG    Path to a text file of model that contains network
                     configuration. It could be a file with extensions
                     .prototxt (Caffe) or .cfg (Darknet)
  --classes CLASSES  Optional path to a text file with names of classes to
                     label detected objects.
  --thr THR          Confidence threshold for detection. Default: 0.35

然后在终端执行：

- yolov2
usge0:python src/main.py --model model_data/yolov2.weights --config model_data/yolov2.cfg --classes model_data/coco_classes.txt --input media/sample_video.mp4 --output out/sample_output.avi

-mobilenet_ssd
usge1:python src/main.py --model model_data/MobileNetSSD_deploy.caffemodel --config model_data/MobileNetSSD_deploy.prototxt --classes model_data/MobileNet_classes.txt --input media/sample_video.mp4 --output out/sample_output.avi

4、带有KCF跟踪器的YOLOv2

5、带有KCF跟踪器的MobileNet_SSD

6、完整项目代码

main.py

#usge0:python src/main.py --model model_data/yolov2.weights --config model_data/yolov2.cfg --classes model_data/coco_classes.txt --input media/sample_video.mp4 --output out/sample_output.avi
#usge1:python src/main.py --model model_data/MobileNetSSD_deploy.caffemodel --config model_data/MobileNetSSD_deploy.prototxt --classes model_data/MobileNet_classes.txt --input media/sample_video.mp4 --output out/sample_output.avi

"""
Author: Apoorva Vinod Gorur
Email: [email protected]

update Vesion:
Author: YanYong
Email: [email protected]

"""

import cv2 as cv
import argparse
import sys
import numpy as np
import time
from copy import deepcopy
import imutils
from object_detection import object_detector

#绘制预测框图
def drawPred(frame, objects_detected):

    objects_list = list(objects_detected.keys())

    for object_, info in objects_detected.items():
        box = info[0]
        confidence = info[1]
        label = '%s: %.2f' % (object_, confidence)
        p1 = (int(box[0]), int(box[1]))
        p2 = (int(box[0] + box[2]), int(box[1] + box[3]))
        #p1=（x=box[0],y=box[1])是矩阵左上点的坐标，w=box[2]，h=box[3]是矩阵的宽和高  p2 =(box[0] + box[2]), int(box[1] + box[3])为右下角坐标
        cv.rectangle(frame, p1, p2, (0, 255, 0))
        left = int(box[0])
        top = int(box[1])
        labelSize, baseLine = cv.getTextSize(label, cv.FONT_HERSHEY_SIMPLEX, 0.5, 1)
        top = max(top, labelSize[1])
        cv.rectangle(frame, (left, top - labelSize[1]), (left + labelSize[0], top + baseLine), (255, 255, 255), cv.FILLED)
        cv.putText(frame, label, (left, top), cv.FONT_HERSHEY_SIMPLEX, 0.5, (0, 0, 0))  

#后处理
def postprocess(frame, out, threshold, classes, framework):

    frameHeight = frame.shape[0]
    frameWidth = frame.shape[1]
    objects_detected = dict()

    if framework == 'Caffe':
        # Network produces output blob with a shape 1x1xNx7 where N is a number of
        # detections and an every detection is a vector of values
        # [batchId, classId, confidence, left, top, right, bottom]
        for detection in out[0, 0]:
            confidence = detection[2]
            if confidence > threshold:
                left = int(detection[3] * frameWidth)
                top = int(detection[4] * frameHeight)
                right = int(detection[5] * frameWidth)
                bottom = int(detection[6] * frameHeight)
                #classId = int(detection[1]) - 1  # Skip background label

                classId = int(detection[1])
                i = 0
                label = classes[classId]
                label_with_num = str(label) + '_' + str(i)
                while(True):
                    if label_with_num not in objects_detected.keys():
                        break
                    label_with_num = str(label) + '_' + str(i)
                    i = i+1
                objects_detected[label_with_num] = [(int(left),int(top),int(right - left), int(bottom-top)),confidence] 
                print(label_with_num + ' at co-ordinates '+ str(objects_detected[label_with_num]))

    else:
        # Network produces output blob with a shape NxC where N is a number of
        # detected objects and C is a number of classes + 4 where the first 4
        # numbers are [center_x, center_y, width, height]
        for detection in out:
            confidences = detection[5:]
            classId = np.argmax(confidences)
            confidence = confidences[classId]
            if confidence > threshold:
                center_x = int(detection[0] * frameWidth)
                center_y = int(detection[1] * frameHeight)
                width = int(detection[2] * frameWidth)
                height = int(detection[3] * frameHeight)
                left = center_x - (width / 2)
                top = center_y - (height / 2)

                i = 0
                label = classes[classId]
                label_with_num = str(label) + '_' + str(i)
                while(True):
                    if label_with_num not in objects_detected.keys():
                        break
                    label_with_num = str(label) + '_' + str(i)
                    i = i+1
                objects_detected[label_with_num] = [(int(left),int(top),int(width),int(height)),confidence]
                print(label_with_num + ' at co-ordinates '+ str(objects_detected[label_with_num]))

    return objects_detected

#中途检测处理函数
def intermediate_detections(stream, predictor, threshold, classes):


    _,frame = stream.read()
    predictions = predictor.predict(frame)
    objects_detected = postprocess(frame, predictions, threshold, classes, predictor.framework)

    objects_list = list(objects_detected.keys())
    print('Tracking the following objects', objects_list)

    trackers_dict = dict()    
    #multi_tracker = cv.MultiTracker_create()

    if len(objects_list) > 0:

        trackers_dict = {key : cv.TrackerKCF_create() for key in objects_list}
        for item in objects_list:
            trackers_dict[item].init(frame, objects_detected[item][0])

    return stream, objects_detected, objects_list, trackers_dict

#处理函数
def process(args):

    objects_detected = dict()

    #选择跟踪器
    tracker_types = ['BOOSTING', 'MIL','KCF', 'TLD', 'MEDIANFLOW', 'GOTURN']
    tracker_type = tracker_types[2] #选择KCF 类型
    tracker = None


    if tracker_type == 'BOOSTING':
        tracker = cv.TrackerBoosting_create()
    if tracker_type == 'MIL':
        tracker = cv.TrackerMIL_create()
    if tracker_type == 'KCF':
        tracker = cv.TrackerKCF_create()
    if tracker_type == 'TLD':
        tracker = cv.TrackerTLD_create()
    if tracker_type == 'MEDIANFLOW':
        tracker = cv.TrackerMedianFlow_create()
    if tracker_type == 'GOTURN':
        tracker = cv.TrackerGOTURN_create()

    #调用对象检测器（在自定义object_detection.py模块中导入自己写的类object_detector） 返回预测器
    predictor = object_detector(args.model, args.config)#传入带参数的的类对象，调用后自动运行到_init_构造函数及后续api
    stream = cv.VideoCapture(args.input if args.input else 0)
    window_name = "Tracking in progress"
    cv.namedWindow(window_name, cv.WINDOW_NORMAL)
    cv.setWindowProperty(window_name, cv.WND_PROP_AUTOSIZE, cv.WINDOW_AUTOSIZE)        
    cv.moveWindow(window_name,10,10)


    if args.output:
        _, test_frame = stream.read()
        height = test_frame.shape[0]
        width = test_frame.shape[1]
        fourcc = cv.VideoWriter_fourcc(*'XVID')#编解码器的fourcc 用于解析视频文件
        #out = cv.VideoWriter(args.output,fourcc, 20.0, (640,480))
        out = cv.VideoWriter(args.output,fourcc, 20.0, (width, height))
        failTolerance = 0

    if args.classes:
        with open(args.classes, 'rt') as f:
            classes = f.read().rstrip('\n').split('\n')
    else:
        classes = list(np.arange(0,100))

    stream, objects_detected, objects_list, trackers_dict = intermediate_detections(stream, predictor, args.thr, classes)    

    while stream.isOpened():

        grabbed, frame = stream.read()

        if not grabbed:
            break

        timer = cv.getTickCount()

        """
        #Did not use OpenCV's multitracker because of the restrivtive nature of its Python counterpart.
        #If one tracker in the multitracker fails, there's no way to find out which tracker failed.
        #There's no easy way to delete individual trackers in the multitracker object.
        #Even when multitracker fails,  bboxes will have old values, but 'ok' will be false

        #if len(objects_list) > 0:
            #ok, bboxes = multi_tracker.update(frame)
        #bboxes = multi_tracker.getObjects()
        #ok = multi_tracker.empty()
        """

        print('Tracking - ',objects_list)

        if len(objects_detected) > 0:
            del_items = []
            for obj,tracker in trackers_dict.items():
                ok, bbox = tracker.update(frame)
                if ok:
                    objects_detected[obj][0] = bbox
                else:
                    print('Failed to track ', obj)
                    del_items.append(obj) 

            for item in del_items:            
                trackers_dict.pop(item)
                objects_detected.pop(item)

        fps = cv.getTickFrequency() / (cv.getTickCount() - timer)

        if len(objects_detected) > 0:
            drawPred(frame, objects_detected)
            # Display FPS on frame
            cv.putText(frame, "FPS : " + str(int(fps)), (100,50), cv.FONT_HERSHEY_SIMPLEX, 0.75, (50,170,50), 2)

        else:
            cv.putText(frame, 'Tracking Failure. Trying to detect more objects', (50,80), cv.FONT_HERSHEY_SIMPLEX, 0.75,(0,0,255),2)
            stream, objects_detected, objects_list, trackers_dict = intermediate_detections(stream, predictor, args.thr, classes)   


        # Display result
        #If resolution is too big, resize the video
        if frame.shape[1] > 1240:
            cv.imshow(window_name, cv.resize(frame, (1240, 960)))
        else:
            cv.imshow(window_name, frame)

        #Write to output file
        if args.output:
            out.write(frame)
        k = cv.waitKey(1) & 0xff

        #Force detect new objects if 'q' is pressed
        if k == ord('q'):
            print('Refreshing. Detecting New objects')
            cv.putText(frame, 'Refreshing. Detecting New objects', (100,80), cv.FONT_HERSHEY_SIMPLEX, 0.75,(0,0,255),2)
            stream, objects_detected, objects_list, trackers_dict = intermediate_detections(stream, predictor, args.thr, classes)  

        # Exit if ESC pressed    
        if k == 27 : break 

    stream.release()
    if args.output:
        out.release()
    cv.destroyAllWindows()


def main():

    parser = argparse.ArgumentParser(description='Object Detection and Tracking on Video Streams')

    parser.add_argument('--input', help='Path to input image or video file. Skip this argument to capture frames from a camera.')

    parser.add_argument('--output', help='Path to save output as video file. If nothing is given, the output will not be saved.')

    parser.add_argument('--model', required=True,
                        help='Path to a binary file of model contains trained weights. '
                             'It could be a file with extensions .caffemodel (Caffe), '
                             '.weights (Darknet)')

    parser.add_argument('--config',
                        help='Path to a text file of model contains network configuration. '
                             'It could be a file with extensions .prototxt (Caffe), .cfg (Darknet)')

    parser.add_argument('--classes', help='Optional path to a text file with names of classes to label detected objects.')

    parser.add_argument('--thr', type=float, default=0.35, help='Confidence threshold for detection')

    args = parser.parse_args()

    process(args)

if __name__ == '__main__':
    main()

object_detection.py

import cv2 as cv
import sys
import numpy as np

def imcv2_recolor(im, a=.1):
    # t = [np.random.uniform()]
    # t += [np.random.uniform()]
    # t += [np.random.uniform()]
    # t = np.array(t) * 2. - 1.
    t = np.random.uniform(-1, 1, 3)
    print(t)
    # random amplify each channel
    im = im.astype(np.float)
    im *= (1 + t * a)
    mx = 255. * (1 + a)
    up = np.random.uniform(-1, 1)
    im = np.power(im / mx, 1. + up * .5)
    # return np.array(im * 255., np.uint8)
    return im

#定义检测器对象类
class object_detector:
    #初始化（相当于构造函数）
    def __init__(self, model, cfg):
        self.model = model
        self.cfg = cfg
        self.framework = None
        self.load_model()

    #载入何种模型
    def load_model(self):
        if self.model.endswith('weights') and self.cfg.endswith('cfg'):
            self.net = cv.dnn.readNetFromDarknet(self.cfg, self.model)
            self.framework = 'Darknet'
        elif self.model.endswith('caffemodel') and self.cfg.endswith('prototxt'):
            self.net = cv.dnn.readNetFromCaffe(self.cfg, self.model)
            # self.net = cv.dnn.readNet(self.cfg, self.model)
            self.framework = 'Caffe'
        else:
            sys.exit('Wrong input for model weights and cfg')

        self.net.setPreferableBackend(cv.dnn.DNN_BACKEND_DEFAULT)
        self.net.setPreferableTarget(cv.dnn.DNN_TARGET_CPU)

    #定义检测器预测函数
    def predict(self,frame):

        # Create a 4D blob from a frame.
        if self.framework == 'Darknet':
            #blob = cv.dnn.blobFromImage(frame, 0.007843, (416, 416), 127.5, crop = False)
            blob = cv.dnn.blobFromImage(cv.resize(frame, (416, 416)), 0.003921, (416, 416), (0,0,0), swapRB=True,  crop=False)
        else:
            blob = cv.dnn.blobFromImage(cv.resize(frame, (300, 300)),0.007843, (300, 300), 127.5)

        # Run a model 运行模型
        self.net.setInput(blob)
        #预测时候只前向传播
        out = self.net.forward()

        return out

更多请扫码关注：

【Python深度学习】零基础掌握Pytorch Pooling layers nn.MaxPool方法 Mr数据杨 Python 深度学习 python 深度学习 pytorch
在深度学习的世界中，MaxPooling是一种关键的操作，用于降低数据的维度并保留重要特征。这就像是从一堆照片中挑选出最能代表某个场景的那张。PyTorch提供了多种MaxPooling层，包括nn.MaxPool1d、nn.MaxPool2d和nn.MaxPool3d，它们分别适用于不同维度的数据处理。如果处理的是声音信号（一维数据），就会用到nn.MaxPool1d。而处理图像（二维数据）时，
阅读笔记(2) 单层网络:回归 a2507283885 笔记
阅读笔记(2)单层网络:回归该笔记是DataWhale组队学习计划（共度AI新圣经：深度学习基础与概念）的Task02以下内容为个人理解，可能存在不准确或疏漏之处，请以教材为主。1.从泛函视角来看线性回归还记得线性代数里学过的“基”这个概念吗？一组基向量是一组线性无关的向量，它们通过线性组合可以张成一个向量空间。也就是说，这个空间里的任意一个向量，都可以表示成这组基的线性组合。函数其实也可以看作是
【深度学习解惑】如果用RNN实现情感分析或文本分类，你会如何设计数据输入？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 分类人工智能机器学习神经网络
以下是用RNN实现情感分析/文本分类时数据输入设计的完整技术方案：1.引言与背景介绍情感分析/文本分类是NLP的核心任务，目标是将文本映射到预定义类别（如正面/负面情感）。RNN因其处理序列数据的天然优势成为主流方案。核心挑战在于如何将非结构化的文本数据转换为适合RNN处理的数值化序列输入。2.原理解释文本到向量的转换流程：原始文本分词建立词汇表词索引映射词嵌入层序列向量关键数学表示：词嵌入表示：
Pytorch模型安卓部署 python&java pytorch 人工智能 python
Pytorch是一种流行的深度学习框架，用于算法开发，而Android是一种广泛应用的操作系统，多应用于移动设备当中。目前多数的研究都是在于算法上，个人觉得把算法落地是一件很有意思的事情，因此本人准备分享一些模型落地的文章(后续可能分享微信小程序部署，PyQt部署以及exe打包，ncnn部署，tensorRT部署，MNN部署)。本篇文章主要分享Pytorch的Android端部署。看这篇文章的读者
人工智能-基础篇-5-建模方式（判别式模型和生成式模型）
机器学习包括了多种建模方式，其中判别式建模（DiscriminativeModel）和生成式建模是最常见的两种。这两种建模方式都可以通过深度学习技术来实现，并用于创建不同类型的模型。简单来说：想要创建一个模型，依赖需求需要合适的建模方式来创建这个模型。通常建模方式主要分为两大类。一类是判别式模型，针对输入数据给出特定的输出。如：判断一张图片是猫还是狗，直接学习“猫”和“狗”的特征差异（如耳朵形状、
PyTorch教程：LSTM语言模型的动态量化技术解析怀灏其Prudent
PyTorch教程：LSTM语言模型的动态量化技术解析tutorialsPyTorchtutorials.项目地址:https://gitcode.com/gh_mirrors/tuto/tutorials前言在深度学习模型部署过程中，模型大小和推理速度是两个至关重要的考量因素。PyTorch提供的动态量化技术能够在不显著影响模型准确率的前提下，有效减小模型体积并提升推理速度。本文将深入解析如何对
【机器学习】数学基础——张量（傻瓜篇）一叶千舟深度学习【理论】机器学习人工智能
目录前言一、张量的定义1.标量（0维张量）2.向量（1维张量）3.矩阵（2维张量）4.高阶张量（≥3维张量）二、张量的数学表示2.1张量表示法示例三、张量的运算3.1常见张量运算四、张量在深度学习中的应用4.1PyTorch示例：张量在神经网络中的运用五、总结：张量的多维世界延伸阅读前言在机器学习、深度学习以及物理学中，张量是一个至关重要的概念。无论是在人工智能领域的神经网络中，还是在高等数学、物
后端开发实习生简历迭代的5个版本，希望能帮你找到实习今天不coding 简历实习后端 Java 大厂暑期实习
后端开发实习生简历迭代的5个版本，希望能帮你找到实习1.0研究生开学时写的第一份简历，主要是对本科做的项目的一些总结。本科主要是以深度学习的项目为主+比赛，开发的技术学的比较少，后端的项目也没有做过。但是凭此找到了一份算法的实习。当时研一还是想走算法工程师的。后面觉得自己不适合，就放弃了。2.0经历过几个月的算法实习和论文折磨之后，决定走后端开发岗了，选择Java为主语言，在B站大学做了一个项目，
【机器学习实战】Datawhale夏令营2：深度学习回顾城主_全栈开发机器学习机器学习深度学习人工智能
#DataWhale夏令营#ai夏令营文章目录1.深度学习的定义1.1深度学习＆图神经网络1.2机器学习和深度学习的关系2.深度学习的训练流程2.1数学基础2.1.1梯度下降法基本原理数学表达步骤学习率α梯度下降的变体2.1.2神经网络与矩阵网络结构表示前向传播激活函数反向传播批处理卷积操作参数更新优化算法正则化初始化2.2激活函数Sigmoid函数:Tanh函数:ReLU函数(Rectified
深度学习详解：通过案例了解机器学习基础 beist 深度学习机器学习人工智能
引言机器学习（MachineLearning，ML）和深度学习（DeepLearning，DL）是现代人工智能领域中的两个重要概念。通过让机器具备学习的能力，机器可以从数据中自动找到函数，并应用于各种任务，如语音识别、图像识别和游戏对战等。在这篇笔记中，我们将通过一个简单的案例，逐步了解机器学习的基础知识。1.1机器学习案例学习1.1.1回归问题与分类问题在机器学习中，根据所要解决的问题类型，任务
大模型量化需要重新演唱大模型量化
大模型量化是一种优化技术，旨在减少深度学习模型的内存占用和提高推理速度，同时尽量保持模型的精度。量化通过将模型中的浮点数权重和激活值转换为较低精度的表示形式来实现这一目标。以下是关于大模型量化的详细知识：目录1.量化基础1.1量化定义1.2量化优势1.3量化挑战2.量化方法2.1量化类型2.2量化粒度2.3量化算法3.量化实践3.1量化流程3.2量化工具4.量化案例4.1BERT量化4.2GPT-
pytorch 要点之雅可比向量积 AI大模型教程 pytorch 人工智能 python facebook 深度学习机器学习 webpack
自动微分是PyTorch深度学习框架的核心。既然是核心，就需要敲黑板、划重点学习。同时，带来另外一个重要的数学概念：雅可比向量积。PyTorch中的自动微分与雅可比向量积自动微分（AutomaticDifferentiation，AD）是深度学习框架中的关键技术之一，它使得模型训练变得更加简单和高效。且已知：PyTorch是一个广泛使用的深度学习框架，它内置了强大的自动微分功能。在本文中，我们将深
昇腾AI生态组件全解析：与英伟达生态的深度对比
随着人工智能技术的快速发展，国产AI芯片的崛起正在改变全球计算产业的格局。华为昇腾（Ascend）系列AI处理器凭借自主创新的达芬奇架构，构建了完整的软硬件生态体系。本文将从核心组件对比、显卡性能对标两个维度，深入剖析昇腾与英伟达（NVIDIA）生态的技术差异与适用场景。一、昇腾核心组件与英伟达对标分析1.推理引擎：MindIEvsTensorRT昇腾MindIE1.0.0基于昇腾芯片的深度学习推
智能汽车图像及视频处理方案，支持视频智能包装创作能力美摄科技汽车
在这个日新月异的智能时代，每一帧画面都承载着超越想象的力量。随着自动驾驶技术的飞速发展，智能汽车不仅成为了未来出行的代名词，更是技术与艺术完美融合的典范。在这场变革的浪潮中，美摄科技以创新为翼，推出了领先的智能汽车图像及视频处理方案，为智能汽车行业带来了前所未有的视觉盛宴，重新定义了智能出行的视觉体验。一、智能重塑，视觉新境界美摄科技的智能汽车图像及视频处理方案，是基于深度学习、人工智能及大数据处
深度学习计算机视觉开源系统OpenMMLab（mmsegmentation、mmdetection、mmpose）环境配置【详细、可运行】 nomoremorphine 深度学习计算机视觉开源
OpenMMLab（mmsegmentation、mmdetection、mmpose）环境配置OpenMMLab简介优势：一、Windows/Linux下环境配置（以mmsegmentationv1.2.2（最新版）为例）0.确认安装版本信息1）确认电脑显卡版本2）确认mmcv对应版本3）确认版本1.安装CUDA和cuDNN2.创建conda环境，下载pytorch3.安装mmcv4.安装MMS
编译OpenCV支持CUDA视频解码 AI标书 python openvc cuda nvidia docker build
如何在Ubuntu上编译OpenCV并启用CUDA视频解码支持（cudacodec）在深度学习、视频处理等高性能计算领域，OpenCV的GPU加速功能非常重要。特别是它的cudacodec模块，能直接利用NVIDIA硬件实现高效的视频解码，极大提升性能。本文将基于Ubuntu环境，详细介绍从环境准备到编译安装OpenCV，并开启cudacodec模块的全过程。完整的shell脚本以及本次编译所用到
深度学习：梯度下降法数字化与智能化人工智能深度学习深度学习梯度下降法
一、梯度的概念（1）什么是梯度梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。对于一个多元函数f(x1,x2,...,xn)，其梯度是一个由函数偏导数组成的向量，其梯度表示为：Gradient=(∂f/∂x1,∂f/∂x2,...,∂f/∂xn)其中，∂f/∂xi表示函数f对第i个自变量
C# vs Python：谁更适合初学者？用5个关键点教你掌握深度学习中的线性代数墨瑾轩一起学学C#【四】c#python 深度学习
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣嘿，小伙伴们！今天我们要一起探索如何使用C#来入门深度学习的世界，特别关注其中的线性代数部分。你可能会好奇：“为什么是C#而不是Python？”别急，我们会在接下来的内容中详细解释这个问题，并通过对比两种语言的特点，让你明白选择C#进行深度学习并不是一个坏主意
合规视角下银行智能客服风险防控 AI 智能服务智能客服人工智能 AIGC 数据库 chatgpt
1.AI驱动金融变革的政策与技术背景政策导向：我国《新一代人工智能发展规划》明确提出发展智能金融，要求：构建金融大数据平台，提升多媒体数据处理能力；创新智能金融产品与服务形态；推广智能客服、监控等技术应用；建立智能风控预警体系。技术支撑：云计算、大数据技术成熟为AI发展奠定了基础。深度学习算法的突破则引爆了本轮AI浪潮，显著提升了复杂任务处理精度，进而推动了计算机视觉、机器学习、自然语言处理（NL
GRU与Transformer结合：新一代序列模型 AI大模型应用工坊 gru transformer 深度学习 ai
GRU与Transformer结合：新一代序列模型关键词：GRU、Transformer、序列模型、结合、深度学习摘要：本文深入探讨了GRU与Transformer结合所形成的新一代序列模型。先介绍了GRU和Transformer各自的核心概念及工作原理，然后阐述了二者结合的原因、方式和优势。通过代码实际案例展示了如何搭建结合的模型，还探讨了其在自然语言处理、语音识别等领域的实际应用场景。最后对未
AI人工智能领域中OpenCV的深度学习融合 AI大模型应用实战人工智能 opencv 深度学习 ai
AI人工智能领域中OpenCV的深度学习融合关键词：AI人工智能、OpenCV、深度学习融合、计算机视觉、图像识别摘要：本文深入探讨了在AI人工智能领域中OpenCV与深度学习的融合。我们将先介绍OpenCV和深度学习的基本概念，再讲解它们融合的原理和方式，通过实际代码案例展示融合的具体操作，探讨其在不同场景的应用，推荐相关工具和资源，分析未来发展趋势与挑战。希望能让大家对这一融合有全面且深入的了
《AI办公类工具PPT系列之七——智谱清言》再见孙悟空_ 【2025 AI工具合集】人工智能 iSlide AI AI智能PPT powerpoint AI PPT PPT
一.简介官网地址为chatglm.cn智谱清言（也被称为ChatGLM）是一款基于大模型技术的人工智能产品，旨在通过其强大的自然语言处理能力，为用户提供高效、智能的交互体验。该产品不仅具备广泛的应用场景，还能够在多个领域内实现深度学习和自我优化。二.功能介绍内容创作：创意写作：帮助用户进行故事、诗歌等文学作品的创作。媒体写作：辅助撰写新闻稿、社交媒体帖子等内容。写作辅助：提供写作建议、结构安排和编
【深度学习解惑】训练RNN时如何解决梯度消失或梯度爆炸？
训练RNN时如何解决梯度消失或梯度爆炸？1.引言与背景介绍循环神经网络（RNN）是处理序列数据的核心模型，但在训练过程中面临两大挑战：梯度消失（GradientVanishing）和梯度爆炸（GradientExplosion）。梯度消失导致长距离依赖难以学习（如文本中相距50个词的关联），而梯度爆炸会造成参数剧烈震荡甚至数值溢出（NaN值）。本文系统分析问题根源并提供工程级解决方案。2.原理解释
找组织——机器学习社区、团体洞察小哥伯涵机器学习人工智能
在Github上，有一些中文社区可以看一看：prompt“如果我是个AI小白，想参加到一个组织，接收最新的AI有趣源项目、一些定期的刊物等。我应该加入哪些组织？”AI社区——深度学习社区Reddit上的MachineLearningsubreddit:https://www.reddit.com/r/MachineLearning/是一个拥有超过400,000名成员的活跃社区。在这里，您可以找到有
计算机视觉实战：OpenCV 与深度学习结合 QuantumWalker 计算机视觉 opencv 深度学习 python
```html计算机视觉实战：OpenCV与深度学习结合计算机视觉实战：OpenCV与深度学习结合在当今数字化时代，计算机视觉技术已经渗透到我们生活的方方面面。从智能手机的面部识别解锁，到自动驾驶汽车的环境感知，计算机视觉正在改变我们的世界。而在这个领域中，OpenCV和深度学习的结合，更是推动了计算机视觉技术的发展。什么是OpenCV？OpenCV（OpenSourceComputerVisio
AI 在自动驾驶路径规划中的深度强化学习优化 QuantumWalker 人工智能自动驾驶机器学习
```htmlAI在自动驾驶路径规划中的深度强化学习优化在当今快速发展的科技领域中，人工智能（AI）的应用正在不断拓展其边界。特别是在自动驾驶技术中，AI的应用已经从简单的感知和识别发展到了复杂的决策和控制阶段。其中，深度强化学习作为AI的一个重要分支，在自动驾驶路径规划中发挥着越来越重要的作用。一、深度强化学习简介深度强化学习是一种结合了深度学习和强化学习的机器学习方法。它通过让智能体在环境中进
深入理解AI人工智能深度学习的原理架构 AI学长带你学AI 人工智能深度学习 ai
深入理解AI人工智能深度学习的原理架构关键词：人工智能、深度学习、原理架构、神经网络、数学模型摘要：本文旨在深入剖析AI人工智能深度学习的原理架构。首先介绍了深度学习的背景，包括其目的、预期读者、文档结构和相关术语。接着阐述了深度学习的核心概念，如神经网络、激活函数等，并通过示意图和流程图进行直观展示。详细讲解了核心算法原理，如反向传播算法，并给出Python代码示例。同时，介绍了深度学习中的数学
umi搭建react项目小刘，刘不刘 react.js 前端前端框架 umi
UMI是一个基于React的可扩展企业级前端应用框架，提供路由、状态管理、构建和部署等功能，可以帮助开发者快速构建复杂的单页面应用（SPA）和多页面应用（MPA）。它与React的关系是，UMI构建在React生态系统之上，利用React提供的组件化开发方式和生态系统的丰富资源来进行开发。所以学习react的同时可以借助umi这个框架进行深度学习react第一步创建umi项目在终端输入npmins
【大模型】【机器学习】【面试宝典】曾小文机器学习面试人工智能
面试热点科普：BatchNorm和LayerNorm有什么区别？在深度学习面试中，经常会被问到模型训练稳定性相关的问题。其中两个关键词BatchNorm和LayerNorm绝对是高频词！今天就带大家快速梳理两者的核心区别，用最通俗的方式掌握它们的原理和应用场景，面试不再含糊！1.什么是归一化（Normalization）？归一化是神经网络训练过程中的一项重要技巧，目的是：缓解梯度爆炸/消失加快收敛
Python Robot Framework【自动化测试框架】简介老胖闲聊 Python库大全 python 开发语言
想全面了解DeepSeek的看过来【包邮】DeepSeek全攻略人人需要的AI通识课零基础掌握DeepSeek的实用操作手册指南【限量作者亲笔签名版售完即止】玩转DeepSeek这本就够了【自营包邮】DeepSeek实战指南deepseek从入门到精通实用操作指南现代科技科普读物AI普及知识读物人工智能使用教程中小学读物京东超级618Python初学者的入门教程动手学深度学习PyTorch版李沐和
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地

使用YOLOv2和MobileNet_SSD检测算法与KCF对象跟踪器进行视频流的实时对象跟踪和检测

主题：使用YOLOv2和MobileNet_SSD检测算法与KCF对象跟踪器进行视频流的实时对象跟踪和检测

1、版本：opencv3.4.1 numpy imutils

2、载权重并将其放置在model_data /中

3、项目结构：

4、带有KCF跟踪器的YOLOv2

5、带有KCF跟踪器的MobileNet_SSD

6、完整项目代码

main.py

object_detection.py

你可能感兴趣的:(深度学习)