下课别走

Tensorflow object detection API 搭建自己的目标识别模型

在上一期中我们搭建了目标识别的环境并且测试了自带的案例
本期我们将使用自己的图片进行相应的目标识别

本次我们使用Demo里面的 ssd_mobilenet_v1_coco_2017_11_17 进行识别，ssd_mobilenet_v1_coco_2017_11_17 速度比较快
github上也有对应官方的各种模型

见上图，第一列是模型名字，第二列是速度，第三列是精度

1、使用labelImg打标签
链接：https://pan.baidu.com/s/1lETFKH6z3IXiFV0FHlRBqg
提取码：xawz
解压后直接双击 labelImg.exe 即可
选择自己要打标签的区域

CTRL+S另存为xml文件，文件名默认为图片名称

2、配置文件
在object_detection 文件夹中新建raccoon_images文件夹，再在raccoon_images文件夹中新建test和train文件夹
在raccoon_images新建xml_to_csv.py和generate_tfrecord.py
xml_to_csv.py内容：

import os
import glob
import pandas as pd
import xml.etree.ElementTree as ET

os.chdir(r'D:\Develop\tensorflow\models\research\object_detection\images\train')  # 修改为自己的读取、输出路径
path =r'D:\Develop\tensorflow\models\research\object_detection\images\train'


def xml_to_csv(path):
    xml_list = []
    for xml_file in glob.glob(path + '/*.xml'):
        tree = ET.parse(xml_file)
        root = tree.getroot()
        for member in root.findall('object'):
            value = (root.find('filename').text,
                     int(root.find('size')[0].text),
                     int(root.find('size')[1].text),
                     member[0].text,
                     int(member[4][0].text),
                     int(member[4][1].text),
                     int(member[4][2].text),
                     int(member[4][3].text)
                     )
            xml_list.append(value)
    column_name = ['filename', 'width', 'height', 'class', 'xmin', 'ymin', 'xmax', 'ymax']
    xml_df = pd.DataFrame(xml_list, columns=column_name)
    return xml_df


def main():
    image_path = path
    xml_df = xml_to_csv(image_path)
    xml_df.to_csv('raccoon_train.csv', index=None)  #修改输出后csv文件的文件名，test和train要对应
    print('Successfully converted xml to csv.')


main()

generate_tfrecord.py内容:

import os
import io
import pandas as pd
import tensorflow as tf

from PIL import Image
from object_detection.utils import dataset_util
from collections import namedtuple, OrderedDict

os.chdir(r'D:\Develop\tensorflow\models\research\object_detection\raccoon_images')
# 修改为自己的路径，之后会自动寻找test及train文件夹

flags = tf.app.flags
flags.DEFINE_string('csv_input', '', 'Path to the CSV input')
flags.DEFINE_string('output_path', '', 'Path to output TFRecord')
FLAGS = flags.FLAGS


# TO-DO replace this with label map
# 注意将对应的label改成自己的类别！！！！！！！！！！

def class_text_to_int(row_label):

    if row_label == 'raccoon': #修改为自己的类别
        return 1
    else:
        return None

def split(df, group):
    data = namedtuple('data', ['filename', 'object'])
    gb = df.groupby(group)
    return [data(filename, gb.get_group(x)) for filename, x in zip(gb.groups.keys(), gb.groups)]

def create_tf_example(group, path):
    with tf.gfile.GFile(os.path.join(path, '{}'.format(group.filename)), 'rb') as fid:
        encoded_jpg = fid.read()
    encoded_jpg_io = io.BytesIO(encoded_jpg)
    image = Image.open(encoded_jpg_io)
    width, height = image.size

    filename = group.filename.encode('utf8')
    image_format = b'jpg'
    xmins = []
    xmaxs = []
    ymins = []
    ymaxs = []
    classes_text = []
    classes = []

    for index, row in group.object.iterrows():
        xmins.append(row['xmin'] / width)
        xmaxs.append(row['xmax'] / width)
        ymins.append(row['ymin'] / height)
        ymaxs.append(row['ymax'] / height)
        classes_text.append(row['class'].encode('utf8'))
        classes.append(class_text_to_int(row['class']))

    tf_example = tf.train.Example(features=tf.train.Features(feature={
        'image/height': dataset_util.int64_feature(height),
        'image/width': dataset_util.int64_feature(width),
        'image/filename': dataset_util.bytes_feature(filename),
        'image/source_id': dataset_util.bytes_feature(filename),
        'image/encoded': dataset_util.bytes_feature(encoded_jpg),
        'image/format': dataset_util.bytes_feature(image_format),
        'image/object/bbox/xmin': dataset_util.float_list_feature(xmins),
        'image/object/bbox/xmax': dataset_util.float_list_feature(xmaxs),
        'image/object/bbox/ymin': dataset_util.float_list_feature(ymins),
        'image/object/bbox/ymax': dataset_util.float_list_feature(ymaxs),
        'image/object/class/text': dataset_util.bytes_list_feature(classes_text),
        'image/object/class/label': dataset_util.int64_list_feature(classes),
    }))
    return tf_example


def main(_):
    writer = tf.python_io.TFRecordWriter(FLAGS.output_path)
    path = os.path.join(os.getcwd(), 'train')  
    # 修改为test  train然后各运行一次
    examples = pd.read_csv(FLAGS.csv_input)
    grouped = split(examples, 'filename')
    for group in grouped:
        tf_example = create_tf_example(group, path)
        writer.write(tf_example.SerializeToString())

    writer.close()
    output_path = os.path.join(os.getcwd(), FLAGS.output_path)
    print('Successfully created the TFRecords: {}'.format(output_path))


if __name__ == '__main__':
    tf.app.run()

运行第一个py文件得到对应的csv文件，运行第二个py文件时需要在raccoon_images文件夹下打开cmd运行命令：

 python generate_tfrecord.py --csv_input=test/raccoon_test.csv  --output_path=test.record

将test改为train再次运行即可得到test.record和train.record

然后在raccoon_images文件夹下新建raccoon.pbtxt文件，内容如下，根据自己的情况进行修改

最后我们拥有的文件如下：

3、准备训练
我们在object_detection文件夹下新建一个training文件夹，在里面新建一个记事本文件并命名为 ssd_mobilenet_v1_coco.config
内容为：

# SSD with Mobilenet v1 configuration for MSCOCO Dataset.
# Users should configure the fine_tune_checkpoint field in the train config as
# well as the label_map_path and input_path fields in the train_input_reader and
# eval_input_reader. Search for "PATH_TO_BE_CONFIGURED" to find the fields that
# should be configured.

model {
  ssd {
    num_classes: 1                          # 你类别的数量，我这里只分了一类
    box_coder {
      faster_rcnn_box_coder {
        y_scale: 10.0
        x_scale: 10.0
        height_scale: 5.0
        width_scale: 5.0
      }
    }
    matcher {
      argmax_matcher {
        matched_threshold: 0.5
        unmatched_threshold: 0.5
        ignore_thresholds: false
        negatives_lower_than_unmatched: true
        force_match_for_each_row: true
      }
    }
    similarity_calculator {
      iou_similarity {
      }
    }
    anchor_generator {
      ssd_anchor_generator {
        num_layers: 6
        min_scale: 0.2
        max_scale: 0.95
        aspect_ratios: 1.0
        aspect_ratios: 2.0
        aspect_ratios: 0.5
        aspect_ratios: 3.0
        aspect_ratios: 0.3333
      }
    }
    image_resizer {
      fixed_shape_resizer {
        height: 300
        width: 300
      }
    }
    box_predictor {
      convolutional_box_predictor {
        min_depth: 0
        max_depth: 0
        num_layers_before_predictor: 0
        use_dropout: false
        dropout_keep_probability: 0.8
        kernel_size: 1
        box_code_size: 4
        apply_sigmoid_to_scores: false
        conv_hyperparams {
          activation: RELU_6,
          regularizer {
            l2_regularizer {
              weight: 0.00004
            }
          }
          initializer {
            truncated_normal_initializer {
              stddev: 0.03
              mean: 0.0
            }
          }
          batch_norm {
            train: true,
            scale: true,
            center: true,
            decay: 0.9997,
            epsilon: 0.001,
          }
        }
      }
    }
    feature_extractor {
      type: 'ssd_mobilenet_v1'
      min_depth: 16
      depth_multiplier: 1.0
      conv_hyperparams {
        activation: RELU_6,
        regularizer {
          l2_regularizer {
            weight: 0.00004
          }
        }
        initializer {
          truncated_normal_initializer {
            stddev: 0.03
            mean: 0.0
          }
        }
        batch_norm {
          train: true,
          scale: true,
          center: true,
          decay: 0.9997,
          epsilon: 0.001,
        }
      }
    }
    loss {
      classification_loss {
        weighted_sigmoid {
        }
      }
      localization_loss {
        weighted_smooth_l1 {
        }
      }
      hard_example_miner {
        num_hard_examples: 3000
        iou_threshold: 0.99
        loss_type: CLASSIFICATION
        max_negatives_per_positive: 3
        min_negatives_per_image: 0
      }
      classification_weight: 1.0
      localization_weight: 1.0
    }
    normalize_loss_by_num_matches: true
    post_processing {
      batch_non_max_suppression {
        score_threshold: 1e-8
        iou_threshold: 0.6
        max_detections_per_class: 100
        max_total_detections: 100
      }
      score_converter: SIGMOID
    }
  }
}

train_config: {
  batch_size: 1                                       # 电脑好的话可以调高点，我电脑比较渣就调成1了
  optimizer {
    rms_prop_optimizer: {
      learning_rate: {
        exponential_decay_learning_rate {
          initial_learning_rate: 0.004
          decay_steps: 800720
          decay_factor: 0.95
        }
      }
      momentum_optimizer_value: 0.9
      decay: 0.9
      epsilon: 1.0
    }
  }
  fine_tune_checkpoint: "ssd_mobilenet_v1_coco_2017_11_17/model.ckpt"
  from_detection_checkpoint: true
  # Note: The below line limits the training process to 200K steps, which we
  # empirically found to be sufficient enough to train the pets dataset. This
  # effectively bypasses the learning rate schedule (the learning rate will
  # never decay). Remove the below line to train indefinitely.
  num_steps: 200000
  data_augmentation_options {
    random_horizontal_flip {
    }
  }
  data_augmentation_options {
    ssd_random_crop {
    }
  }
}

train_input_reader: {
  tf_record_input_reader {
    input_path: "raccoon_images/train.record"                 # 训练的tfrrecord文件路径
  }
  label_map_path: "raccoon_images/raccoon.pbtxt"
}

eval_config: {
  num_examples: 30
  # Note: The below line limits the evaluation process to 10 evaluations.
  # Remove the below line to evaluate indefinitely.
  max_evals: 10
}

eval_input_reader: {
  tf_record_input_reader {
    input_path: "raccoon_images/test.record"                   # 测试的tfrrecord文件路径
  }
  label_map_path: "raccoon_images/raccoon.pbtxt"
  shuffle: false
  num_readers: 1
}

在object_detection文件夹下打开cmd，输入命令:

python model_main.py --pipeline_config_path=training/ssd_mobilenet_v1_coco.config --model_dir=training --num_train_steps=50000 --num_eval_steps=2000 --alsologtostderr

就开始训练了

Tensorflow还提供功能强大的Tensorboard来可视化训练过程。
cmd定位到 models\research\object_detection 文件夹下，运行:

tensorboard --logdir=training

可以看到返回的网址，在浏览器中打开即可

训练完成后，training文件夹下是这样的情况:

4、模型输出及测试
定位到object_detection目录下，打开cmd输入命令：
python export_inference_graph.py \ --input_type image_tensor \ --pipeline_config_path training/ssd_mobilenet_v1_coco.config \ --trained_checkpoint_prefix training/model.ckpt-50000 \ --output_directory raccoon_detection

注意加粗的地方：
50000是自己迭代的次数，output_directory是模型输出的路径，我在object_detection新建了一个raccoon_detection文件夹原来存储输出的模型，运行后：

打开object_detection文件夹中的object_detection_tutorial.py，修改MODEL_NAME、NUM_CLASSES、PATH_TO_TEST_IMAGES_DIR和TEST_IMAGE_PATHS，此外，object_detection/data文件夹中还要留意新建raccoon.pbtxt和在object_detection文件夹下新建raccoon_test_images文件夹放置测试图片，raccoon.pbtxt内容如下：

item {
  id: 1
  name: 'raccoon'
}

object_detection_tutorial.py完整代码，根据自己的情况进行修改：

# coding: utf-8

# # Object Detection Demo
# Welcome to the object detection inference walkthrough!  This notebook will walk you step by step through the process of using a pre-trained model to detect objects in an image. Make sure to follow the [installation instructions](https://github.com/tensorflow/models/blob/master/research/object_detection/g3doc/installation.md) before you start.


from distutils.version import StrictVersion
import numpy as np
import os
import six.moves.urllib as urllib
import sys
import tarfile
import tensorflow as tf
import zipfile

from collections import defaultdict
from io import StringIO
from matplotlib import pyplot as plt
from PIL import Image

# This is needed since the notebook is stored in the object_detection folder.
sys.path.append("..")
from object_detection.utils import ops as utils_ops

# if StrictVersion(tf.__version__) < StrictVersion('1.9.0'):
#   raise ImportError('Please upgrade your TensorFlow installation to v1.9.* or later!')


# ## Env setup

# In[2]:


# This is needed to display the images.
# get_ipython().magic(u'matplotlib inline')


# ## Object detection imports
# Here are the imports from the object detection module.



from utils import label_map_util

from utils import visualization_utils as vis_util


# # Model preparation

# ## Variables
#
# Any model exported using the `export_inference_graph.py` tool can be loaded here simply by changing `PATH_TO_FROZEN_GRAPH` to point to a new .pb file.
#
# By default we use an "SSD with Mobilenet" model here. See the [detection model zoo](https://github.com/tensorflow/models/blob/master/research/object_detection/g3doc/detection_model_zoo.md) for a list of other models that can be run out-of-the-box with varying speeds and accuracies.

# In[4]:


# What model to download.
MODEL_NAME = 'raccoon_detection'   ###############
# MODEL_FILE = MODEL_NAME + '.tar.gz'
# DOWNLOAD_BASE = 'http://download.tensorflow.org/models/object_detection/'

# Path to frozen detection graph. This is the actual model that is used for the object detection.
PATH_TO_FROZEN_GRAPH = MODEL_NAME + '/frozen_inference_graph.pb'

# List of the strings that is used to add correct label for each box.
PATH_TO_LABELS = os.path.join('data', 'raccoon.pbtxt')  ################

NUM_CLASSES = 1  ######################


# ## Download Model



# opener = urllib.request.URLopener()
# opener.retrieve(DOWNLOAD_BASE + MODEL_FILE, MODEL_FILE)
'''
tar_file = tarfile.open(MODEL_FILE)
for file in tar_file.getmembers():
  file_name = os.path.basename(file.name)
  if 'frozen_inference_graph.pb' in file_name:
    tar_file.extract(file, os.getcwd())
'''

# ## Load a (frozen) Tensorflow model into memory.



detection_graph = tf.Graph()
with detection_graph.as_default():
  od_graph_def = tf.GraphDef()
  with tf.gfile.GFile(PATH_TO_FROZEN_GRAPH, 'rb') as fid:
    serialized_graph = fid.read()
    od_graph_def.ParseFromString(serialized_graph)
    tf.import_graph_def(od_graph_def, name='')


# ## Loading label map
# Label maps map indices to category names, so that when our convolution network predicts `5`, we know that this corresponds to `airplane`.  Here we use internal utility functions, but anything that returns a dictionary mapping integers to appropriate string labels would be fine



label_map = label_map_util.load_labelmap(PATH_TO_LABELS)
categories = label_map_util.convert_label_map_to_categories(label_map, max_num_classes=NUM_CLASSES, use_display_name=True)
category_index = label_map_util.create_category_index(categories)


# ## Helper code

# In[8]:


def load_image_into_numpy_array(image):
  (im_width, im_height) = image.size
  return np.array(image.getdata()).reshape(
      (im_height, im_width, 3)).astype(np.uint8)


# # Detection



# For the sake of simplicity we will use only 2 images:
# image1.jpg
# image2.jpg
# If you want to test the code with your images, just add path to the images to the TEST_IMAGE_PATHS.
PATH_TO_TEST_IMAGES_DIR = 'raccoon_test_images'    ####################
TEST_IMAGE_PATHS = [ os.path.join(PATH_TO_TEST_IMAGES_DIR, 'raccoon{}.jpg'.format(i)) for i in range(1, 11) ]
##########################
# Size, in inches, of the output images.
IMAGE_SIZE = (12, 8)


# In[10]:


def run_inference_for_single_image(image, graph):
  with graph.as_default():
    with tf.Session() as sess:
      # Get handles to input and output tensors
      ops = tf.get_default_graph().get_operations()
      all_tensor_names = {output.name for op in ops for output in op.outputs}
      tensor_dict = {}
      for key in [
          'num_detections', 'detection_boxes', 'detection_scores',
          'detection_classes', 'detection_masks'
      ]:
        tensor_name = key + ':0'
        if tensor_name in all_tensor_names:
          tensor_dict[key] = tf.get_default_graph().get_tensor_by_name(
              tensor_name)
      if 'detection_masks' in tensor_dict:
        # The following processing is only for single image
        detection_boxes = tf.squeeze(tensor_dict['detection_boxes'], [0])
        detection_masks = tf.squeeze(tensor_dict['detection_masks'], [0])
        # Reframe is required to translate mask from box coordinates to image coordinates and fit the image size.
        real_num_detection = tf.cast(tensor_dict['num_detections'][0], tf.int32)
        detection_boxes = tf.slice(detection_boxes, [0, 0], [real_num_detection, -1])
        detection_masks = tf.slice(detection_masks, [0, 0, 0], [real_num_detection, -1, -1])
        detection_masks_reframed = utils_ops.reframe_box_masks_to_image_masks(
            detection_masks, detection_boxes, image.shape[0], image.shape[1])
        detection_masks_reframed = tf.cast(
            tf.greater(detection_masks_reframed, 0.5), tf.uint8)
        # Follow the convention by adding back the batch dimension
        tensor_dict['detection_masks'] = tf.expand_dims(
            detection_masks_reframed, 0)
      image_tensor = tf.get_default_graph().get_tensor_by_name('image_tensor:0')

      # Run inference
      output_dict = sess.run(tensor_dict,
                             feed_dict={image_tensor: np.expand_dims(image, 0)})

      # all outputs are float32 numpy arrays, so convert types as appropriate
      output_dict['num_detections'] = int(output_dict['num_detections'][0])
      output_dict['detection_classes'] = output_dict[
          'detection_classes'][0].astype(np.uint8)
      output_dict['detection_boxes'] = output_dict['detection_boxes'][0]
      output_dict['detection_scores'] = output_dict['detection_scores'][0]
      if 'detection_masks' in output_dict:
        output_dict['detection_masks'] = output_dict['detection_masks'][0]
  return output_dict


# In[ ]:


for image_path in TEST_IMAGE_PATHS:
  image = Image.open(image_path)
  # the array based representation of the image will be used later in order to prepare the
  # result image with boxes and labels on it.
  image_np = load_image_into_numpy_array(image)
  # Expand dimensions since the model expects images to have shape: [1, None, None, 3]
  image_np_expanded = np.expand_dims(image_np, axis=0)
  # Actual detection.
  output_dict = run_inference_for_single_image(image_np, detection_graph)
  # Visualization of the results of a detection.
  vis_util.visualize_boxes_and_labels_on_image_array(
      image_np,
      output_dict['detection_boxes'],
      output_dict['detection_classes'],
      output_dict['detection_scores'],
      category_index,
      instance_masks=output_dict.get('detection_masks'),
      use_normalized_coordinates=True,
      line_thickness=8)
  plt.figure(figsize=IMAGE_SIZE)
  plt.imshow(image_np)
  plt.show()

之后运行这个py文件即可看到识别效果

下一期我将介绍Tensorflow调用object_detection中的自带模型识别视频流，敬请期待哦 ^ - ^
参考博客：
https://www.cnblogs.com/brillant-ordinary/p/10624864.html
https://blog.csdn.net/dy_guox/article/details/79111949?tdsourcetag=s_pcqq_aiomsg
希望对大家有帮助，也欢迎评论哦
觉得有帮助的可以点个赞，感谢支持

2025最新Python机器视觉实战：基于OpenCV与YOLOv8的实时目标检测与跟踪（附完整代码） emmm形成中 python opencv YOLO
2025最新Python机器视觉实战：基于OpenCV与YOLOv8的实时目标检测与跟踪（附完整代码）摘要：本文基于OpenCV与YOLOv8模型，实现实时目标检测与跟踪功能，支持多类别目标识别与运动轨迹绘制。代码兼容Python3.7+，步骤清晰且经过稳定性测试，适合中高级开发者参考。所有依赖库均为最新版本，确保运行流畅。一、环境准备安装依赖库pipinstallopencv-python==4
动态蛇形卷积在YOLOv8中的探索与实践：提高目标识别与定位精度向哆哆 YOLO 目标跟踪深度学习 YOLOv8
文章目录动态蛇形卷积在YOLOv8中的探索与实践：提高目标识别与定位精度1.什么是动态蛇形卷积？2.YOLOv8的卷积改进2.1常规卷积与动态蛇形卷积的区别2.2动态蛇形卷积的实现原理2.3YOLOv8中集成动态蛇形卷积3.手把手实现动态蛇形卷积3.1安装依赖3.2设计动态蛇形卷积层3.3集成到YOLOv8中3.4训练与优化4.动态蛇形卷积的进一步优化4.1蛇形路径的动态学习4.1.1学习动态路径
基于python深度学习遥感影像地物分类与目标识别、分割实践技术应用 xiao5kou4chang6kai4 深度学习遥感勘测 python 深度学习分类
专题一：深度学习发展与机器学习深度学习的历史发展过程机器学习，深度学习等任务的基本处理流程梯度下降算法讲解不同初始化，学习率对梯度下降算法的实例分析从机器学习到深度学习算法专题二深度卷积网络、卷积神经网络、卷积运算的基本原理池化操作，全连接层，以及分类器的作用BP反向传播算法的理解一个简单CNN模型代码理解特征图，卷积核可视化分析专题三TensorFlow与keras介绍与入门TensorFlow
双光吊舱应用行业！！云卓SKYDROID 无人机云卓科技知识高科技双光吊舱
1.军事领域侦察与监视：双光吊舱能够全天候、全气候地提供高清图像数据，支持军事侦察和监视任务。通过可见光相机和红外热成像仪的结合，吊舱可以在白天和夜晚、晴天和恶劣天气条件下，为无人机等空中平台提供清晰的战场图像，帮助指挥人员做出准确的决策。目标识别与跟踪：吊舱内置的目标识别算法能够实现对远距离目标的追踪、摄像和监控，特别是在夜间或恶劣天气条件下，红外热成像技术能够发挥重要作用。远程打击：无人机搭载
基于华为自研NPU Ascend 910的TensorFlow 1.x训练脚本迁移和使能混合精度记录 Tianyi Li 1997 华为云 tensorflow 华为人工智能深度学习 python
简介基于TesorFlow1.x以Sess.run形式搭建入门级——手写数字分类网络，并迁移到华为自研NPUAscend910，同时使能混合精度。硬件介绍华为自研NPUAscend910，即昇腾910AI处理器（简称NPU），根据官方介绍，是在2019年发布的人工智能（AI）专用的神经网络处理器，其算力高达256T，最新款算力高达310T，是业界主流芯片算力的2倍。当前业界大多数训练脚本基于Ten
双目立体视觉（1） 2501_90596733 双目立体视觉人工智能计算机视觉
1.背景计算机视觉技术，是以摄像头作为传感器来获取二维图像数据，并依靠计算机运用各类算法对这些图像数据展开处理。依据所采用视觉传感器数量的差异，可分为单目、双目以及多目视觉这几类。单目视觉依赖单摄像头获取二维平面图像，在知晓物体实际尺寸的前提下，结合相机成像模型能够计算出距离，但这种单一的2D图像在深度感知能力上存在局限，且较易受到动态背景的干扰，通常被应用于缺陷检测、目标识别等相关领域。多目视觉
无人机目标追踪技术 kely117 无人机
无人机目标追踪是指通过无人机搭载的传感器和计算系统，实时跟踪和定位特定目标的技术：传感器技术：无人机通常配备摄像头、雷达、激光雷达等传感器，用于捕捉目标的图像和距离信息。图像处理与计算机视觉：通过先进的图像处理和计算机视觉算法，无人机能够从传感器获取的原始数据中提取有用的信息，如目标的位置、形状和运动轨迹。目标识别与跟踪算法：采用机器学习和深度学习算法，无人机能够识别和分类不同的目标，并对目标进行
无人机系统组合方案技术详解，提升复杂环境作业效能无人机技术圈无人机技术无人机
无人机系统组合方案技术旨在提升无人机在复杂环境中的作业效能。以下是对该技术的详细解析：一、无人机系统组合方案概述无人机系统组合方案通常包括无人机机体、飞控系统、通信设备、电池、地面控制站设备、操作系统和数据库等多个组成部分。这些部分共同协作，为无人机提供自主飞行控制、数据采集与处理、任务规划与执行等功能。二、提升复杂环境作业效能的关键技术1.AI算法引擎目标识别：无人机通过集成的人工智能算法，能够
yolo目标识别数据集无人机长了一个脑袋 YOLO
在目标识别领域，在机器学习和计算机视觉中，使用YOLO（YouOnlyLookOnce）模型进行目标检测是一种常见的方法。为了使用YOLO进行目标识别，你需要准备一个适当的数据集。以下是关于如何准备和使用YOLO目标识别数据集的步骤：1.选择或创建数据集选择数据集：如果已经有现成的数据集，如COCO、PascalVOC、ImageNet等，可以直接使用。创建数据集：如果没有合适的现成数据集，你可以
无人机之传感器篇云卓科技无人机科技制造机器人安全
无人机的传感器系统是其实现自主飞行、导航、避障、目标识别和环境感知等功能的关键部分。以下是对无人机中常见传感器的详细解析：一、主要传感器类型GPS（全球卫星定位系统）功能：提供无人机的位置和导航信息。原理：通过接收卫星信号，确定无人机的经度、纬度、海拔高度、速度及航向等数据。惯性测量单元（IMU）组成：由加速度计和陀螺仪组成。功能：测量无人机的线性加速度和角速度，用于确定无人机的姿态、运动状态和位
Python深度学习（使用 LSTM 生成文本）--学习笔记（十八）呆萌的小透明深度学习神经网络深度学习
第8章生成式深度学习人工智能模拟人类思维过程的可能性，并不局限于被动性任务（比如目标识别）和大多数反应性任务（比如驾驶汽车），它还包括创造性活动。的确，到目前为止，我们见到的人工智能艺术作品的水平还很低。人工智能还远远比不上人类编剧、画家和作曲家。但是，替代人类始终都不是我们要谈论的主题，人工智能不会替代我们自己的智能，而是会为我们的生活和工作带来更多的智能，即另一种类型的智能。在许多领域，特别是
OPenCV和OPenGL的区别 zxz520zmg opencv 人工智能计算机视觉
OPenCV主要用来处理图像和视频，还涉及到一些机器学习的算法。专注于从图像中获取信息是用机器来理解图像。比如：视频降噪、运动物体的跟踪、目标识别（比如人脸识别）。OPenGL主要用于三维图形的渲染。专注于用机器绘制图像给人看。Graphics，3D绘图。Opencv是从图像到数据OpenGL是从数据到图像
深度学习，创新点，模型改进揽星河@ 计算机视觉机器学习深度学习 python 人工智能
深度学习添加创新点①在现有模型上添加自己的创新点②或者混合多个模型等等③提供创新点添加各种注意力机制，各种模型block。机器学习，目标检测，目标识别，语义分割，GAN，CNN等(只要是深度学习均可)编程语言限于Python，pytorch欢迎大家咨询~
深入了解OpenCVSharp中常见的图像处理功能仰望大佬007 图像处理 opencv 计算机视觉 c#
深入了解OpenCVSharp中常见的图像处理功能前言1.图像加载与保存2.图像基本操作3.图像滤波4.边缘检测5.图像分割6.特征检测与描述子7.目标识别与跟踪8.图像融合与拼接9.形状匹配与模板匹配10.颜色空间转换与直方图11.图像转换与绘制12.图像分类与机器学习13.高级图像处理算法14.GPU加速与并行计算前言OpenCVSharp是C#语言中用于图像处理和计算机视觉的开源库，它提供了
[机器学习]详解transformer---小白篇是安澜啊深度学习神经网络
1.背景：Transformer是2017年的一篇论文《AttentionisAllYouNeed》提出的一种模型架构，这篇论文里只针对机器翻译这一种场景做了实验，并且由于encoder端是并行计算的，训练的时间被大大缩短了。全面击败了当时的SOTA，现阶段，Transformer在cv领域也是全面开花，基于transformer的目标识别，语义分割等算法也是经常屠榜。论文:[1706.03762
决策树最骚操作统计学家
大家好，最近我原创了一系列文章LightGBM可视化调参用Excel玩机器学习！用浏览器玩机器学习比Tesorflow还强的机器学习库AI黑科技！从此只看高清视频AI黑科技，老照片修复，模糊变高清腾讯的这个算法，我搬到了网上，随便玩！不知道大家是否喜欢这种类型的文章，其实我最近又打算开始更新100天搞定机器学习了，就想用类似lightgbm可视化调参这篇文章的风格，让大家在学习一个模型的时候有参与
YOLO系列详解（YOLOV1-YOLOV3） X.AI666 深度学习 yolo
YOLO算法简介本文主要介绍YOLO算法，包括YOLOv1、YOLOv2/YOLO9000和YOLOv3。YOLO算法作为one-stage目标检测算法最典型的代表，其基于深度神经网络进行对象的识别和定位，运行速度很快，可以用于实时系统。了解YOLO是对目标检测算法研究的一个必须步骤。目标检测思路目标检测属于计算机视觉的一个中层任务，该任务可以细化为目标定位与目标识别两个任务，简单来说，找到图片中
基于傅里叶变换和带通滤波器实现脑电信号EEG目标识别附Matlab实现天天Matlab代码科研顾问信号处理 matlab
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，代码获取、论文复现及科研仿真合作可私信。个人主页：Matlab科研工作室个人信条：格物致知。更多Matlab完整代码及仿真定制内容点击智能优化算法神经网络预测雷达通信无线传感器电力系统信号处理图像处理路径规划元胞自动机无人机内容介绍1.脑电信号EEG简介脑电信号（EEG）是大脑皮层神经元群体同步放电产生的生物电位，反映了大脑的电活动
[文献翻译]Towards Good Practices for Very Deep Two-Stream ConvNets 夏迪End
摘要：深度卷积网络已经在静态图像目标识别中取得了了的巨大成功。但是，对于视频的动作识别，深度卷积网络的改进不是那么明显。我们认为这样子的结果可能有两个原因。首先，与图像中非常深的模型（例如VGGNet[13]，GoogLeNet[15]）相比，当前的网络体系结构（例如，双流ConvNets[12]）相对较浅，因此它们的建模能力受到其深度的限制。其次，更重要的可能是，动作识别的训练数据集与Image
基于pytorch深度学习遥感影像地物分类与目标识别、分割实践技术应用数字化信息化智能化解决方案深度学习 pytorch 分类
基于PyTorch的深度学习遥感影像地物分类、目标识别与分割实践技术应用是一个涉及多个步骤的复杂过程。以下是一个基本的框架和实践技术应用的概述：数据收集与预处理:收集遥感影像数据，包括不同地物类别、不同分辨率和不同场景的数据。对遥感影像进行预处理，包括辐射定标、大气校正、几何校正等，使其更适合深度学习模型。数据增强:使用图像增强技术，如旋转、裁剪、翻转等，增加数据多样性，提高模型的泛化能力。构建深
小目标识别方法 LittroInno 人工智能目标识别
小目标识别是计算机视觉和人工智能领域中的一个重要研究方向，主要关注于如何有效地从图像或视频中识别尺寸较小、分辨率低的目标。这一任务在军事侦察、遥感图像分析、无人机监控、医学成像等多个领域有着广泛的应用。随着深度学习技术的发展，小目标识别的研究也取得了显著的进步。小目标识别面临的挑战主要包括目标尺寸小、易受背景干扰、目标特征不明显等问题。为了解决这些问题，研究者们提出了多种基于人工智能的方法，尤其是
OpenCV学习记录——特征匹配 KAIs32 树莓派——OpenCV opencv 学习人工智能嵌入式硬件计算机视觉
文章目录前言一、暴力匹配步骤分析二、代码分析前言特征匹配是一种图像处理技术，用于在不同图像之间寻找相似的特征点，并将它们进行匹配。特征匹配在计算机视觉和图像处理领域中具有广泛的应用，包括目标识别、图像拼接、三维重建等。一、暴力匹配步骤分析暴力匹配是一种简单直接的匹配方法，它遍历所有特征点的描述符，并计算它们之间的距离。然后根据距离进行排序，选择距离最短的特征点作为匹配点。虽然暴力匹配方法简单，但在
ubuntu22.04@laptop OpenCV安装 lida2003 Linux opencv 人工智能计算机视觉
ubuntu22.04@laptopOpenCV安装1.源由2.验证环境3.OpenCV安装3.1系统升级3.2Python安装3.3OpenCVC/C++环境安装3.4OpenCVPython虚拟环境安装3.5OpenCV检查4.总结5.参考资料6.补充-python环境1.源由最近，打算在CompanionComputer上一些目标识别的算法，最流行、最基础的可能就是OpenCV了。首先，将算
【抛物线检测】基于Hough变换检测图像上的抛物线附matlab代码前程算法matlab屋图像处理 matlab 开发语言
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，代码获取、论文复现及科研仿真合作可私信。个人主页：Matlab科研工作室个人信条：格物致知。更多Matlab完整代码及仿真定制内容点击智能优化算法神经网络预测雷达通信无线传感器电力系统信号处理图像处理路径规划元胞自动机无人机内容介绍1.概述抛物线是一种常见的几何图形，在图像处理和计算机视觉领域有着广泛的应用，如图像分割、目标识别和运
【tensorflow 版本 & keras版本】挪威的深林 tensorflow keras
#.安装tensorflowandkeras，总是遇到版本无法匹配的问题。安装之前先查表https://master--floydhub-docs.netlify.app/guides/environments/1.先确定你的pythonversion2.再根据下面表，确定安装的tesorflow,keras
目标检测算法小森( ﹡ˆoˆ﹡ ) 目标检测人工智能计算机视觉
图像识别三大任务目标识别：或者说分类，定性目标，确定目标是什么目标检测：定位目标，确定目标是什么以及位置目标分割：像素级的对前景与背景进行分类，将背景剔除目标检测定义识别图片中有哪些物体以及物体的位置目标检测中能检测出来的物体取决于当前任务（数据集）需要检测的物体有哪些。目标检测的位置信息一般由两种格式:极坐标表示：(xmin,ymin,xmax,ymax)xmin,ymin:x,y坐标的最小值x
【低照度图像增强系列（5）】Zero-DCE算法详解与代码实现（CVPR 2020）路人贾'ω' 低照度图像增强人工智能图像增强深度学习低照度图像增强
前言☀️在低照度场景下进行目标检测任务，常存在图像RGB特征信息少、提取特征困难、目标识别和定位精度低等问题，给检测带来一定的难度。使用图像增强模块对原始图像进行画质提升，恢复各类图像信息，再使用目标检测网络对增强图像进行特定目标检测，有效提高检测的精确度。⭐本专栏会介绍传统方法、Retinex、EnlightenGAN、SCI、Zero-DCE、IceNet、RRDNet、URetinex-Ne
第8章 python深度学习——波斯美女 weixin_42963026 深度学习美女人工智能
第8章生成式深度学习本章包括以下内容：使用LSTM生成文本实现DeepDream实现神经风格迁移变分自编码器了解生成式对抗网络人工智能模拟人类思维过程的可能性，并不局限于被动性任务（比如目标识别）和大多数反应性任务（比如驾驶汽车），它还包括创造性活动。2015年夏天，我们见识了Google的DeepDream算法，它能够将一张图像转化为狗眼睛和错觉式伪影（pareidolicartifact）混合
毫米波雷达的系统设计细节(2) - 关于目标RCS的问题墨@#≯ 自动驾驶全栈工程师的毫米波雷达部分自动驾驶经验分享车载系统算法
说明目标的RCS是目标很重要的一个特征。从雷达方程来看，目标的RCS值直接影响其所反射的电磁波能量，并进而决定雷达所能探测的该目标的最远距离。从后端的数据处理来看，如果我们可以获取目标准确的RCS值，可以辅助我们做目标识别与分类。本博文探讨基于毫米波雷达的目标RCS估计问题，通过模型理解与仿真、设计对比实验等方法尽可能详尽地阐述目标RCS与毫米波雷达测量之间的联系。本博文会随着经验的积累和理解的加
yolo,c++目标识别码狂☆ AI YOLO c++
yolo,c++目标识别yolo官网https://pjreddie.com/darknet/yolo/yologithubhttps://github.com/pjreddie/darknet/下载编译yolo源码gitclonehttps://github.com/pjreddie/darknetcddarknetmake下载预训练权值文件wgethttps://pjreddie.com/me
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地

Tensorflow object detection API 搭建自己的目标识别模型

你可能感兴趣的:(Tesorflow,目标识别)