Meta.Qing

使用 TensorFlow.js 在浏览器中进行自定义对象检测

准备数据

训练模型

克隆并安装Tensorflow对象检测API

Testing the trained model

对象检测是检测对象在图像中的位置并对给定图像中的每个感兴趣对象进行分类的任务。在计算机视觉中，该技术用于图片检索、安全摄像头和自动驾驶汽车等应用。

用于对象检测的最著名的深度卷积神经网络 (DNN) 系列之一是 YOLO（You Only Look Once）。

在这篇文章中，我们将使用TensorFlow 开发一个端到端的解决方案，在Python中训练一个自定义对象检测模型，然后将其投入生产，并通过TensorFlow.js在浏览器中运行实时推理。

这篇文章将分为四个步骤，如下：

准备数据

训练一个好的模型的第一步是拥有高质量的数据。在开发这个项目时，我没有找到合适的（并且足够小的）物体检测数据集，所以我决定创建自己的。

我环顾四周，看到卧室里有一个袋鼠标志——这是我买来纪念我在澳大利亚的日子的纪念品。所以我决定做一个袋鼠探测器。

为了构建我的数据集，我从袋鼠的图像搜索中下载了 350 张袋鼠图像，并使用LabelImg应用程序手动标记了所有这些图像。由于每张图像可以有不止一只动物，因此该过程产生了 520 只标记的袋鼠。

在这种情况下，我只选择了一个类，但该软件也可以用来注释多个类。它将为每个图像（Pascal VOC 格式）生成一个 XML 文件，其中包含所有注释和边界框。


    images
    kangaroo-0.jpg
    /home/hugo/Documents/projects/tfjs/dataset/images/kangaroo-0.jpg
  
    Unknown
  
  
    3872
    2592
    3
  
  0

XML 注释示例

为了便于转换为 TF.record 格式（如下），我随后将上述程序的 XML 转换为两个 CSV 文件，其中包含已在训练和测试中拆分的数据（80%-20%）。这些文件有 9 列：

文件名：图像名称
宽度：图像宽度
高度：图像高度
类：图像类（袋鼠）
xmin : 最小边界框 x 坐标值
ymin : 最小边界框 y 坐标值
xmax：边界框x坐标的最大值
ymax : 边界框y坐标的最大值
来源：图片来源

使用LabelImg可以轻松创建自己的数据集，但请随意使用我的 kangaroo 数据集，我已将其上传到 Kaggle：

袋鼠数据集

训练模型

有了好的数据集，就该考虑模型了。TensorFlow 2 提供了一个对象检测 API，可以轻松构建、训练和部署对象检测模型。在这个项目中，我们将使用这个 API 并使用Google Colaboratory Notebook训练模型。本节的其余部分解释了如何设置环境、模型选择和训练。

设置环境

创建一个新的 Google Colab 笔记本并选择一个 GPU 作为硬件加速器：

untime > Change runtime type > Hardware accelerator: GPU

克隆、安装和测试 TensorFlow 对象检测 API：

克隆并安装Tensorflow对象检测API

为了使用TensorFlow对象检测API，我们需要克隆它的GitHub Repo。

Dependencies

谷歌Colab中预加载了所需的大部分依赖项。不需要额外的安装

Protocol Buffers

TensorFlow对象检测API依赖于所谓的协议缓冲区(也称为protobufs)。protobuf是描述信息的一种语言中立的方式。这意味着您可以编写一次protobuf，然后编译它以用于其他语言，如Python、Java或C[5]。

下面使用的protoc命令正在编译Python的object_detection/protos文件夹中的所有协议缓冲区。
!git clone https://github.com/tensorflow/models.git
Cloning into 'models'...
remote: Enumerating objects: 12, done.
remote: Counting objects: 100% (12/12), done.
remote: Compressing objects: 100% (12/12), done.
remote: Total 50253 (delta 3), reused 9 (delta 0), pack-reused 50241
Receiving objects: 100% (50253/50253), 559.90 MiB | 20.79 MiB/s, done.
Resolving deltas: 100% (34186/34186), done.
%cd /content/models/research/
!protoc object_detection/protos/*.proto --python_out=.
# Install TensorFlow Object Detection API.
!cp object_detection/packages/tf2/setup.py .
!python -m pip install .
/content/models/research
Successfully installed apache-beam-2.27.0 avro-python3-1.10.1 dill-0.3.1.1 fastavro-1.2.3 future-0.18.2 hdfs-2.5.8 lvis-0.5.3 mock-2.0.0 object-detection-0.1 opencv-python-headless-4.5.1.48 pbr-5.5.1 py-cpuinfo-7.0.0 pyarrow-2.0.0 pyyaml-5.3.1 requests-2.25.1 sentencepiece-0.1.95 seqeval-1.2.2 tensorflow-model-optimization-0.5.0 tf-models-official-2.4.0 tf-slim-1.1.0

运行模型构建器测试
!python /content/models/research/object_detection/builders/model_builder_tf2_test.py
INFO:tensorflow:time(__main__.ModelBuilderTF2Test.test_unknown_meta_architecture): 0.0s
I0113 21:31:21.168457 140501804394368 test_util.py:2076] time(__main__.ModelBuilderTF2Test.test_unknown_meta_architecture): 0.0s
[       OK ] ModelBuilderTF2Test.test_unknown_meta_architecture
[ RUN      ] ModelBuilderTF2Test.test_unknown_ssd_feature_extractor
INFO:tensorflow:time(__main__.ModelBuilderTF2Test.test_unknown_ssd_feature_extractor): 0.0s
I0113 21:31:21.169473 140501804394368 test_util.py:2076] time(__main__.ModelBuilderTF2Test.test_unknown_ssd_feature_extractor): 0.0s
[       OK ] ModelBuilderTF2Test.test_unknown_ssd_feature_extractor
----------------------------------------------------------------------
Ran 20 tests in 35.358s

OK (skipped=1)

获取和处理数据

如前所述，该模型将使用Kaggle 上的袋鼠数据集进行训练。如果你也想使用它，则需要创建一个用户，进入 Kaggle 的帐户部分，并获取一个 API Token：

!pip install -q kaggle
!pip install -q kaggle-cli

   |████████████████████████████████| 81kB 6.1MB/s 
     |████████████████████████████████| 5.3MB 8.9MB/s 
     |████████████████████████████████| 133kB 47.8MB/s 
     |████████████████████████████████| 51kB 8.3MB/s 
  Building wheel for kaggle-cli (setup.py) ... done
  Building wheel for PrettyTable (setup.py) ... done
  Building wheel for pyperclip (setup.py) ... done

import os
os.environ['KAGGLE_USERNAME'] = 'your-username'
os.environ['KAGGLE_KEY'] = 'your-key'

%%bash
mkdir /content/dataset
cd /content/dataset
kaggle datasets download -d hugozanini1/kangaroodataset --unzip

Downloading kangaroodataset.zip to /content/dataset

100%|##########| 72.6M/72.6M [00:01<00:00, 47.1MB/s]

现在，有必要创建一个标签映射文件来定义将要使用的类。Kangaroo 是唯一的，所以在Google Colab上的File部分右键单击并创建一个名为labelmap.pbtxt 的新文件，如下所示：

 item {
    name: "kangaroo"
    id: 1
}

最后一步是将数据转换为二进制记录序列，以便将它们输入到 Tensorflow 的对象检测 API 中。为此，请使用Kangaroo Dataset中的 generate_tf_records.py 脚本将数据转换为 TFRecord 格式：

%cd /content/

/content

!python dataset/generate_tf_records.py -l /content/labelmap.pbtxt -o dataset/train.record -i dataset/images -csv dataset/train_labels.csv
!python dataset/generate_tf_records.py -l /content/labelmap.pbtxt -o dataset/test.

2020-12-22 18:53:28.918788: I tensorflow/stream_executor/platform/default/dso_loader.cc:49] Successfully opened dynamic library libcudart.so.10.1
INFO:Successfully created the TFRecords: dataset/train.record
2020-12-22 18:53:31.432478: I tensorflow/stream_executor/platform/default/dso_loader.cc:49] Successfully opened dynamic library libcudart.so.10.1
INFO:Successfully created the TFRecords: dataset/test.record

选择型号

我们已准备好选择将成为袋鼠探测器的模型。TensorFlow 2 在COCO 2017 数据集上提供了 40 个预训练的检测模型。该集合是TensorFlow 2 检测模型动物园，可在此处访问。

每个模型都有速度、平均精度（mAP）和输出。通常，较高的 mAP 意味着较低的速度，但由于该项目基于一类对象检测问题，因此更快的模型（SSD MobileNet v2 320x320）应该足够了。

除了 Model Zoo，TensorFlow 还提供了Models Configs Repository。在那里，可以获得在训练之前必须修改的配置文件。让我们下载文件：

%cd /content
!wget http://download.tensorflow.org/models/object_detection/classification/tf2/20200710/mobilenet_v2.tar.gz
!tar -xvf mobilenet_v2.tar.gz
!rm mobilenet_v2.tar.gz

/content
mobilenet_v2.tar.gz 100%[===================>]   8.01M  30.8MB/s    in 0.3s    

2020-12-22 19:20:36 (30.8 MB/s) - ‘mobilenet_v2.tar.gz’ saved [8404070/8404070]

mobilenet_v2/
mobilenet_v2/mobilenet_v2.ckpt-1.index
mobilenet_v2/checkpoint
mobilenet_v2/mobilenet_v2.ckpt-1.data-00001-of-00002
mobilenet_v2/mobilenet_v2.ckpt-1.data-00000-of-00002

!wget https://raw.githubusercontent.com/tensorflow/models/master/research/object_detection/configs/tf2/ssd_mobilenet_v2_320x320_coco17_tpu-8.config
!mv ssd_mobilenet_v2_320x320_coco17_tpu-8.config mobilenet_v2.config

ssd_mobilenet_v2_32 100%[===================>]   4.38K  --.-KB/s    in 0s      

2020-12-22 19:20:42 (77.4 MB/s) - ‘ssd_mobilenet_v2_320x320_coco17_tpu-8.config’ saved [4484/4484]

配置训练

如前所述，下载的权重在COCO 2017 数据集上进行了预训练，但这里的重点是训练模型以识别一个类，因此这些权重将仅用于初始化网络——这种技术称为转移learning，它通常用于加快学习过程。

从现在开始，要做的就是设置mobilenet_v2.config文件，并开始训练。我强烈建议阅读MobileNetV2 论文（Sandler, Mark, et al. - 2018）以了解架构的要点。

选择最佳超参数是一项需要进行一些实验的任务。由于 Google Colab 中的资源有限，我将使用与论文相同的批量大小，设置多个步骤以获得合理的低损失，并将所有其他值保留为默认值。如果您想尝试更复杂的方法来查找超参数，我推荐Keras Tuner - 一个易于使用的框架，它应用了贝叶斯优化、超频带和随机搜索算法。

定义训练参数

num_classes = 1
batch_size = 96
num_steps = 7500
num_eval_steps = 1000

train_record_path = '/content/dataset/train.record'
test_record_path = '/content/dataset/test.record'
model_dir = '/content/training/'
labelmap_path = '/content/labelmap.pbtxt'

pipeline_config_path = 'mobilenet_v2.config'
fine_tune_checkpoint = '/content/mobilenet_v2/mobilenet_v2.ckpt-1'

编辑配置文件

import re

with open(pipeline_config_path) as f:
    config = f.read()

with open(pipeline_config_path, 'w') as f:

  # Set labelmap path
  config = re.sub('label_map_path: ".*?"', 
             'label_map_path: "{}"'.format(labelmap_path), config)
  
  # Set fine_tune_checkpoint path
  config = re.sub('fine_tune_checkpoint: ".*?"',
                  'fine_tune_checkpoint: "{}"'.format(fine_tune_checkpoint), config)
  
  # Set train tf-record file path
  config = re.sub('(input_path: ".*?)(PATH_TO_BE_CONFIGURED/train)(.*?")', 
                  'input_path: "{}"'.format(train_record_path), config)
  
  # Set test tf-record file path
  config = re.sub('(input_path: ".*?)(PATH_TO_BE_CONFIGURED/val)(.*?")', 
                  'input_path: "{}"'.format(test_record_path), config)
  
  # Set number of classes.
  config = re.sub('num_classes: [0-9]+',
                  'num_classes: {}'.format(num_classes), config)
  
  # Set batch size
  config = re.sub('batch_size: [0-9]+',
                  'batch_size: {}'.format(batch_size), config)
  
  # Set training steps
  config = re.sub('num_steps: [0-9]+',
                  'num_steps: {}'.format(num_steps), config)
  
  f.write(config)

设置好参数后，开始训练：

!python /content/models/research/object_detection/model_main_tf2.py \
    --pipeline_config_path={pipeline_config_path} \
    --model_dir={model_dir} \
    --alsologtostderr \
    --num_train_steps={num_steps} \
    --sample_1_of_n_eval_examples=1 \
    --num_eval_steps={num_eval_steps}

...
I1220 16:47:51.772446 140535951021952 model_lib_v2.py:651] Step 6500 per-step time 2.645s loss=0.328
INFO:tensorflow:Step 6600 per-step time 2.494s loss=0.293
I1220 16:52:02.806725 140535951021952 model_lib_v2.py:651] Step 6600 per-step time 2.494s loss=0.310
INFO:tensorflow:Step 6700 per-step time 2.443s loss=0.268
I1220 16:56:13.485662 140535951021952 model_lib_v2.py:651] Step 6700 per-step time 2.443s loss=0.308 
INFO:tensorflow:Step 6800 per-step time 2.363s loss=0.293
I1220 17:00:22.396368 140535951021952 model_lib_v2.py:651] Step 6800 per-step time 2.363s loss=0.294
INFO:tensorflow:Step 6900 per-step time 2.287s loss=0.304
I1220 17:04:32.806847 140535951021952 model_lib_v2.py:651] Step 6900 per-step time 2.287s loss=0.293
INFO:tensorflow:Step 7000 per-step time 2.484s loss=0.284
I1220 17:08:44.175837 140535951021952 model_lib_v2.py:651] Step 7000 per-step time 2.484s loss=0.304
INFO:tensorflow:Step 7100 per-step time 2.257s loss=0.310
I1220 17:12:55.832094 140535951021952 model_lib_v2.py:651] Step 7100 per-step time 2.257s loss=0.293
INFO:tensorflow:Step 7200 per-step time 2.470s loss=0.328
I1220 17:17:06.899618 140535951021952 model_lib_v2.py:651] Step 7200 per-step time 2.470s loss=0.284
INFO:tensorflow:Step 7300 per-step time 2.376s loss=0.281
I1220 17:21:16.386411 140535951021952 model_lib_v2.py:651] Step 7300 per-step time 2.376s loss=0.281
INFO:tensorflow:Step 7400 per-step time 2.312s loss=0.275
I1220 17:25:26.509467 140535951021952 model_lib_v2.py:651] Step 7400 per-step time 2.312s loss=0.275
INFO:tensorflow:Step 7500 per-step time 2.525s loss=0.308
I1220 17:29:36.155840 140535951021952 model_lib_v2.py:651] Step 7500 per-step time 2.525s loss=0.268

为了确定训练的进展情况，我们使用损失值。损失是一个数字，表明模型对训练样本的预测有多糟糕。如果模型的预测是完美的，则损失为零；否则，损失更大。训练模型的目标是在所有示例中找到一组平均具有低损失的权重和偏差（下降到 ML：训练和损失|机器学习速成课程）。

从日志中可以看到数值呈下降趋势，因此我们说“模型正在收敛”。在下一节中，我们将为所有训练步骤绘制这些值，并且趋势会更加清晰。

该模型需要大约 4 小时来训练（使用 Colab GPU），但通过设置不同的参数，您可以使过程更快或更慢。一切都取决于您使用的类数量和您的 Precision/Recall 目标。识别多个类的高度准确的网络将采取更多步骤，并需要更详细的参数调整。

验证模型

现在让我们使用测试数据评估训练好的模型：

在这里，我们将通过一个循环运行代码，等待检查点进行计算。一旦评估完成，您将看到以下消息:

INFO:tensorflow:Waiting for new checkpoint at /content/training/

Then you can stop the cell

!python /content/models/research/object_detection/model_main_tf2.py \
    --pipeline_config_path={pipeline_config_path} \
    --model_dir={model_dir} \
    --checkpoint_dir={model_dir}

INFO:tensorflow:Performing evaluation on 89 images.
I1220 17:34:19.304409 139900847355776 coco_evaluation.py:293] Performing evaluation on 89 images.
creating index...
index created!
INFO:tensorflow:Loading and preparing annotation results...
I1220 17:34:19.304893 139900847355776 coco_tools.py:116] Loading and preparing annotation results...
INFO:tensorflow:DONE (t=0.00s)
I1220 17:34:19.308917 139900847355776 coco_tools.py:138] DONE (t=0.00s)
creating index...
index created!
Running per image evaluation...
Evaluate annotation type *bbox*
DONE (t=0.42s).
Accumulating evaluation results...
DONE (t=0.05s).
 Average Precision  (AP) @[ IoU=0.50:0.95 | area=   all | maxDets=100 ] = 0.222
 Average Precision  (AP) @[ IoU=0.50      | area=   all | maxDets=100 ] = 0.405
 Average Precision  (AP) @[ IoU=0.75      | area=   all | maxDets=100 ] = 0.221
 Average Precision  (AP) @[ IoU=0.50:0.95 | area= small | maxDets=100 ] = -1.000
 Average Precision  (AP) @[ IoU=0.50:0.95 | area=medium | maxDets=100 ] = 0.003
 Average Precision  (AP) @[ IoU=0.50:0.95 | area= large | maxDets=100 ] = 0.239
 Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets=  1 ] = 0.293
 Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets= 10 ] = 0.414
 Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets=100 ] = 0.514
 Average Recall     (AR) @[ IoU=0.50:0.95 | area= small | maxDets=100 ] = -1.000
 Average Recall     (AR) @[ IoU=0.50:0.95 | area=medium | maxDets=100 ] = 0.067
 Average Recall     (AR) @[ IoU=0.50:0.95 | area= large | maxDets=100 ] = 0.543
INFO:tensorflow:Eval metrics at step 7000
I1220 17:34:19.793375 139900847355776 model_lib_v2.py:954] Eval metrics at step 7000
INFO:tensorflow:	+ Loss/localization_loss: 0.345804
INFO:tensorflow:	+ Loss/classification_loss: 1.496982
INFO:tensorflow:	+ Loss/regularization_loss: 0.130125
INFO:tensorflow:	+ Loss/total_loss: 1.972911
INFO:tensorflow:Waiting for new checkpoint at /content/training/

评估是在 89 张图像中完成的，并基于COCO 检测评估指标提供三个指标：Precision、Recall 和 Loss。

Recall 衡量模型在命中正类方面的好坏，即从正样本中，算法有多少是正确的？

精度定义了您可以在多大程度上依赖正类预测：从模型所说的正样本中，实际有多少？

设置一个实际示例：假设我们有一张包含 10 只袋鼠的图像，我们的模型返回 5 次检测，即 3 只真正的袋鼠（TP = 3，FN =7）和 2 次错误检测（FP = 2）。在这种情况下，我们有 30% 的召回率（模型在图像中检测到 10 只袋鼠中的 3 只）和 60% 的准确率（从 5 次检测中，3 次是正确的）。

精度和召回率除以联合交集 (IoU) 阈值。IoU 定义为交集的面积除以预测边界框 (B) 与真实框 (B) 的并集面积 ( Zeng, N. - 2018 )：

为简单起见，可以考虑使用 IoU 阈值来确定检测是真阳性 (TP)、假阳性 (FP) 还是假阴性 (FN)。请参阅下面的示例：

考虑到这些概念，我们可以分析从评估中获得的一些指标。从TensorFlow 2 Detection Model Zoo来看，SSD MobileNet v2 320x320的 mAP 为 0.202。我们的模型针对不同的 IoU 呈现以下平均精度 (AP)：

AP@[IoU=0.50:0.95 | area=all | maxDets=100] = 0.222
AP@[IoU=0.50      | area=all | maxDets=100] = 0.405
AP@[IoU=0.75      | area=all | maxDets=100] = 0.221

这很不错！我们可以将获得的 AP 与来自COCO 数据集文档的SSD MobileNet v2 320x320 mAP 进行比较：

我们不区分 AP 和 mAP（以及 AR 和 mAR），并假设从上下文中可以清楚地看出区别。

平均召回率（AR）被每张图像的最大检测次数（1、10、100）分割。当我们每张图像只有一只袋鼠时，召回率约为 30%，而当我们有多达 100 只袋鼠时，召回率约为 51%。这些值不是那么好，但对于我们试图解决的问题来说是合理的。

(AR)@[ IoU=0.50:0.95 | area=all | maxDets=  1] = 0.293
(AR)@[ IoU=0.50:0.95 | area=all | maxDets= 10] = 0.414
(AR)@[ IoU=0.50:0.95 | area=all | maxDets=100] = 0.514

损失分析非常简单，我们有 4 个值：

INFO:tensorflow: + Loss/localization_loss: 0.345804
INFO:tensorflow: + Loss/classification_loss: 1.496982
INFO:tensorflow: + Loss/regularization_loss: 0.130125
INFO:tensorflow: + Loss/total_loss: 1.972911

定位损失计算预测的边界框和标记的边界框之间的差异。分类损失指示边界框类是否与预测类匹配。正则化损失是由网络的正则化函数产生的，有助于推动优化算法朝着正确的方向发展。最后一项是总损失，是前三个损失的总和。

Tensorflow 提供了一个工具来以一种简单的方式可视化所有这些指标。它被称为TensorBoard，可以通过以下命令进行初始化：

 
%load_ext tensorboard
%tensorboard --logdir '/content/training/'

这将显示出来，您可以探索所有培训和评估指标。

在“图像”选项卡中，可以并排找到预测和基本事实之间的一些比较。在验证过程中也可以探索一个非常有趣的资源。

导出模型

现在训练已经过验证，是时候导出模型了。我们要将训练检查点转换为protobuf (pb) 文件。该文件将包含图形定义和模型的权重。

导出推理图

下面的代码单元格向tf_utils.py文件添加一行。这是对Tensorflow 2使用API时出现的导出问题的临时修复。

with open('/usr/local/lib/python3.6/dist-packages/tensorflow/python/keras/utils/tf_utils.py') as f:
    tf_utils = f.read()

with open('/usr/local/lib/python3.6/dist-packages/tensorflow/python/keras/utils/tf_utils.py', 'w') as f:
  # Set labelmap path
  throw_statement = "raise TypeError('Expected Operation, Variable, or Tensor, got ' + str(x))"
  tf_utils = tf_utils.replace(throw_statement, "if not isinstance(x, str):" + throw_statement)
  f.write(tf_utils)

output_directory = 'inference_graph'

!python /content/models/research/object_detection/exporter_main_v2.py \
    --trained_checkpoint_dir {model_dir} \
    --output_directory {output_directory} \
    --pipeline_config_path {pipeline_config_path}

2020-12-20 17:30:11.903455: I tensorflow/stream_executor/platform/default/dso_loader.cc:49] Successfully opened dynamic library libcudart.so.10.1
2020-12-20 17:30:17.311425: I tensorflow/compiler/jit/xla_cpu_device.cc:41] Not creating XLA devices, tf_xla_enable_xla_devices not set
2020-12-20 17:30:17.325027: I tensorflow/stream_executor/platform/default/dso_loader.cc:49] Successfully opened dynamic library libcuda.so.1
INFO:tensorflow:Assets written to: inference_graph/saved_model/assets
I1220 17:30:57.785869 139885737965440 builder_impl.py:775] Assets written to: inference_graph/saved_model/assets
INFO:tensorflow:Writing pipeline config file to inference_graph/pipeline.config
I1220 17:30:58.405525 139885737965440 config_util.py:254] Writing pipeline config file to inference_graph/pipeline.config

由于我们将使用 TensorFlow.js 部署模型，而 Google Colab 的最大生命周期限制为 12 小时，让我们下载训练好的权重并将它们保存在本地。运行命令 files.download('/content/saved_model.zip") 时，colab 会自动提示文件。

下载权重

!zip -r /content/saved_model.zip /content/inference_graph/saved_model/

 adding: content/inference_graph/saved_model/ (stored 0%)
  adding: content/inference_graph/saved_model/saved_model.pb (deflated 93%)
  adding: content/inference_graph/saved_model/assets/ (stored 0%)
  adding: content/inference_graph/saved_model/variables/ (stored 0%)
  adding: content/inference_graph/saved_model/variables/variables.data-00000-of-00001 (deflated 7%)
  adding: content/inference_graph/saved_model/variables/variables.index (deflated 76%)

from google.colab import files
files.download("/content/saved_model.zip")

如果要检查模型是否正确保存，请加载并测试它。我创建了一些函数来简化此过程，因此请随意从我的 GitHub克隆 inferenceutils.py 文件以测试一些图像。

Testing the trained model

Based on Object Detection API Demo and Inference from saved model tf2 colab.

!wget https://raw.githubusercontent.com/hugozanini/object-detection/master/inferenceutils.py
from inferenceutils import *

--2020-12-24 15:30:44--  https://raw.githubusercontent.com/hugozanini/object-detection/master/inferenceutils.py
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 151.101.0.133, 151.101.64.133, 151.101.128.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|151.101.0.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 2219 (2.2K) [text/plain]
Saving to: ‘inferenceutils.py’

inferenceutils.py   100%[===================>]   2.17K  --.-KB/s    in 0s      

2020-12-24 15:30:44 (46.5 MB/s) - ‘inferenceutils.py’ saved [2219/2219]

加载模型

output_directory = 'inference_graph/'

category_index = label_map_util.create_category_index_from_labelmap(labelmap_path, use_display_name=True)
tf.keras.backend.clear_session()
model = tf.saved_model.load(f'/content/{output_directory}/saved_model')

选择一些图像去测试

import pandas as pd
test = pd.read_csv('/content/dataset/test_labels.csv')
#Getting 3 random images to test
images = list(test.sample(n=3)['filename'])

做出推论

for image_name in images:
  
  image_np = load_image_into_numpy_array('/content/dataset/images/' + image_name)
  output_dict = run_inference_for_single_image(model, image_np)
  vis_util.visualize_boxes_and_labels_on_image_array(
      image_np,
      output_dict['detection_boxes'],
      output_dict['detection_classes'],
      output_dict['detection_scores'],
      category_index,
      instance_masks=output_dict.get('detection_masks_reframed', None),
      use_normalized_coordinates=True,
      line_thickness=8)
  display(Image.fromarray(image_np))

一切运行良好，因此我们已准备好将模型投入生产。

部署模型

该模型将以任何人都可以打开 PC 或移动摄像头并通过 Web 浏览器实时执行推理的方式进行部署。为此，我们将保存的模型转换为 Tensorflow.js 层格式，在 javascript 应用程序中加载模型，并使所有内容在Glitch上可用。

转换模型

此时，您应该在本地保存了类似于此结构的内容：

 
├── inference-graph
│ ├── saved_model
│ │ ├── assets
│ │ ├── saved_model.pb
│ │ ├── variables
│ │ ├── variables.data-00000-of-00001
│ │ └── variables.index

在开始之前，让我们创建一个隔离的 Python 环境以在空工作区中工作并避免任何库冲突。安装 virtualenv然后在 inference-graph 文件夹中打开一个终端并创建并激活一个新的虚拟环境：

virtualenv -p python3 venv
source venv/bin/activate

安装TensorFlow.js 转换器：

  pip install tensorflowjs[wizard]

启动转换向导：

tensorflowjs_wizard

现在，该工具将指导您完成转换，为您需要做出的每个选择提供解释。下图显示了为转换模型所做的所有选择。其中大多数是标准的，但可以根据您的需要更改分片大小和压缩等选项。

为了使浏览器能够自动缓存权重，建议将它们拆分为大约 4MB 的分片文件。为保证转换能够正常工作，也不要跳过操作验证，并非所有 TensorFlow 操作都受支持，因此某些模型可能与 TensorFlow.js 不兼容 - 请参阅此列表以了解当前支持的操作。

使用 Tensorflow.js 转换器进行模型转换（此处为全分辨率图像

如果一切正常，您将在 web_model 目录中将模型转换为Tensorflow.js层格式。该文件夹包含一个 model.json 文件和一组二进制格式的分片权重文件。model.json 既有模型拓扑（又名“架构”或“图”：对层及其连接方式的描述）和权重文件清单（Lin、Tsung-Yi 等）。

  
└ web_model
  ├── group1-shard1of5.bin
  ├── group1-shard2of5.bin
  ├── group1-shard3of5.bin
  ├── group1-shard4of5.bin
  ├── group1-shard5of5.bin
  └── model.json

配置应用程序

该模型已准备好在 javascript 中加载。我创建了一个应用程序来直接从浏览器执行推理。让我们克隆存储库以了解如何实时使用转换后的模型。这是项目结构：


├── models
│   └── kangaroo-detector
│       ├── group1-shard1of5.bin
│       ├── group1-shard2of5.bin
│       ├── group1-shard3of5.bin
│       ├── group1-shard4of5.bin
│       ├── group1-shard5of5.bin
│       └── model.json
├── package.json
├── package-lock.json
├── public
│   └── index.html
├── README.MD
└── src
    ├── index.js
    └── styles.css

为了简单起见，我已经在模型文件夹中提供了一个转换后的袋鼠探测器模型。不过，我们还是把上一节生成的web_model放到models文件夹中测试一下。

首先要做的是定义如何在函数 load_model 中加载模型（文件 src>index.js 中的第 10-15 行）。有两种选择。

第一个选项是在本地创建一个 HTTP 服务器，这将使模型在允许请求的 URL 中可用，并被视为 REST API。加载模型时，TensorFlow.js 将执行以下请求：

 
GET /model.json
GET /group1-shard1of5.bin
GET /group1-shard2of5.bin
GET /group1-shard3of5.bin
GET /group1-shardo4f5.bin
GET /group1-shardo5f5.bin

如果选择此选项，请按如下方式定义 load_model 函数：

 async function load_model() {
    // It's possible to load the model locally or from a repo
    // You can choose whatever IP and PORT you want in the "http://127.0.0.1:8080/model.json"     just set it before in your https server
    const model = await loadGraphModel("http://127.0.0.1:8080/model.json");
    //const model = await loadGraphModel("https://raw.githubusercontent.com/hugozanini/TFJS-object-detection/master/models/web_model/model.json");
    return model;
}

然后安装http-server：

 npm install http-server -g

转到模型 > web_model 并运行以下命令以使模型在 http://127.0.0.1:8080 可用。当您希望将模型权重保存在安全的地方并控制谁可以请求对其进行推断时，这是一个不错的选择。添加 -c1 参数以禁用缓存，并且 --cors 标志启用跨源资源共享，允许客户端 JavaScript 为给定域使用托管文件。

http-server -c1 --cors .

或者，您可以在某处上传模型文件，就我而言，我选择了自己的 Github 存储库并在 load_model 函数中引用了 model.json URL：


async function load_model() {
    // It's possible to load the model locally or from a repo
    //const model = await loadGraphModel("http://127.0.0.1:8080/model.json");
    const model = await loadGraphModel("https://raw.githubusercontent.com/hugozanini/TFJS-object-detection/master/models/web_model/model.json");
    return model;
}

这是一个不错的选择，因为它为应用程序提供了更大的灵活性，并使其更容易像Glitch一样在某些平台上运行。

在本地运行

要在本地运行应用程序，请安装所需的包：

 npm install

 npm start

该应用程序将在 http://localhost:3000 上运行，您应该会看到类似以下内容：

本地运行的应用程序

加载模型需要 1 到 2 秒，之后，您可以向相机显示袋鼠图像，应用程序将在它们周围绘制边界框。

在 Glitch 中发布

Glitch是一个用于创建 Web 应用程序的简单工具，我们可以在其中上传代码并使该应用程序可供网络上的每个人使用。在 GitHub 存储库中上传模型文件并在 load_model 函数中引用它们，我们可以简单地登录Glitch，单击 New project > Import from Github 并选择应用程序存储库。

等待几分钟安装软件包，您的应用程序将在公共 URL 中可用。单击“显示”>“在新窗口中”，将打开一个选项卡。复制此 URL 并将其粘贴到任何 Web 浏览器（PC 或移动）中，您的对象检测就可以运行了。请参阅以下视频中的一些示例：

在不同设备上运行模型

首先，我做了一个显示袋鼠标志的测试，以验证应用程序的稳健性。它表明该模型专门关注袋鼠的特征，并没有关注许多图像中存在的不相关特征，例如浅色或灌木。

然后，我在手机上打开了该应用程序，并展示了一些来自测试集的图像。该模型运行平稳，可以识别大部分袋鼠。如果您想测试我的实时应用程序，可以在此处获得（故障需要几分钟才能唤醒）。

除了准确性之外，这些实验的一个有趣部分是推理时间——一切都通过 JavaScript 在浏览器中实时运行。在浏览器中运行并使用少量计算资源的良好对象检测模型在许多应用程序中是必须的，主要是在工业中。将机器学习模型放在客户端意味着降低成本和更安全的应用程序，因为用户隐私得到保护，因为不需要将信息发送到任何服务器来执行推理。

相关github链接:https://gist.github.com/hugozanini

你可能感兴趣的:(人工智能/机器学习,人工智能,计算机视觉,深度学习)

从零开始构建大模型(LLM)应用和老莫一起学AI 人工智能 ai 大模型语言模型 llm 自然语言处理学习
大模型（LLM）已经成为当前人工智能的重要部分。但是，在这个领域还没有固定的操作标准，开发者们往往没有明确的指导，需要不断尝试和摸索。在过去两年中，我帮助了许多公司利用LLM来开发了很多创新的应用产品。基于这些经验，我形成了一套实用的方法，并准备在这篇文章中与大家分享。这套方法将提供一些步骤，帮助需要的小伙伴在LLM应用开发的复杂环境中找到方向。从最初的构思到PoC、评估再到产品化，了解如何将创意
《 YOLOv5、YOLOv8、YOLO11训练的关键文件：data.yaml文件编写全解》空云风语人工智能 YOLO 机器视觉目标跟踪人工智能计算机视觉 YOLO
走进YOLOv5、YOLOv8、YOLO11的data.yaml在计算机视觉领域的广袤星空中，目标检测无疑是一颗璀璨的明星，它广泛应用于自动驾驶、智能安防、工业检测、医疗影像分析等众多关键领域，发挥着不可或缺的作用。而YOLO系列算法，更是以其独特的“一次看全（YouOnlyLookOnce）”理念和卓越的性能，在目标检测领域中独树一帜，成为了众多研究者和开发者的首选工具。从最初的YOLOv1横空
机器学习之线性代数珠峰日记 AI理论与实践机器学习线性代数人工智能
文章目录一、引言：线性代数为何是AI的基石二、向量：AI世界的基本构建块（一）向量的定义（二）向量基础操作（三）重要概念三、矩阵：AI数据的强大容器（一）矩阵的定义（二）矩阵运算（三）矩阵特性（四）矩阵分解（五）Python示例（使用NumPy库）四、线性代数在AI中的应用（一）数据表示（二）降维：PCA（三）线性回归（四）计算机视觉（五）自然语言处理一、引言：线性代数为何是AI的基石在人工智能领
深度解析：DETR的多尺度特征融合 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
"深度解析：DETR的多尺度特征融合"作者：禅与计算机程序设计艺术1.背景介绍1.1目标检测的挑战与传统方法的局限性目标检测是计算机视觉领域中的一个基本任务，其目标是识别图像或视频中所有感兴趣的目标，并确定它们的位置和类别。传统的目标检测方法，如FasterR-CNN和YOLO，通常依赖于预定义的锚框或候选区域来生成目标proposals。然而，这些方法存在一些固有的局限性：人工先验知识:锚框的设
基于transformer实现机器翻译(日译中) 小白_laughter 课程学习 transformer 机器翻译深度学习
文章目录一、引言二、使用编码器—解码器和注意力机制来实现机器翻译模型2.0含注意力机制的编码器—解码器2.1读取和预处理数据2.2含注意力机制的编码器—解码器2.3训练模型2.4预测不定长的序列2.5评价翻译结果三、使用Transformer架构和PyTorch深度学习库来实现的日中机器翻译模型3.1、导入必要的库3.2、数据集准备3.3、准备分词器3.4、构建TorchText词汇表对象，并将句
【NLP 39、激活函数 ⑤ Swish激活函数】 L_cl NLP 自然语言处理人工智能
我的孤独原本是座荒岛，直到你称成潮汐，原来爱是让个体失序的永恒运动——25.2.25Swish激活函数是一种近年来在深度学习中广泛应用的激活函数，由GoogleBrain团队在2017年提出。其核心设计结合了Sigmoid门控机制和线性输入的乘积，通过引入平滑性和非单调性来提升模型性能。一、数学定义与变体1.基础形式Swish的标准表达式为：Swish(x)=x⋅σ(βx)其中：σ(x)是Sigm
机器学习(Machine Learning) 七指琴魔御清绝大数据学习
原文链接：http://blog.csdn.net/zhoubl668/article/details/42921187希望转载的朋友，你可以不用联系我．但是一定要保留原文链接，因为这个项目还在继续也在不定期更新．希望看到文章的朋友能够学到更多．《BriefHistoryofMachineLearning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Ada
机器学习实战——音乐流派分类（主页有源码）喵了个AI 机器学习实战机器学习分类人工智能
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.简介音乐流派分类是音乐信息检索（MusicInformationRetrieval,MIR）中的一个重要任务，旨在通过分析音频信号的特征，将音乐自动分类到不同的流派（如古典、摇滚、爵士、流行等）。随着数字音乐平台的普及，音乐流派分类技术被广泛应用于音乐推荐、自动标签生成和音乐库管理
AI大模型零基础金融人如何一周自学大模型，从零基础到入门，看这篇就够了！冻感糕人~ 人工智能金融 AI大模型 LLM 大模型技术大模型学习路线大模型基础
前几天参加了字节跳动在上海举办的火山引擎Force原动力大会，OpenAI也连续开了12天发布会，最近堪称科技界的春晚了。如果说2022年ChatGPT横空出世把人工智能的发展带上了一个新的台阶，那么2024年末，大模型对工作、生活的全面“侵入”让我们越来越接近库兹韦尔所描述的那个奇点时刻。作为金融民工，我们想通过这篇文章讲讲从用户的角度如何一周快速掌握大模型，以及为什么我建议每一个金融从业人员（
SeisMoLLM: Advancing Seismic Monitoring via Cross-modal Transfer with Pre-trained Large Language UnknownBody LLM Daily Multimodal 语言模型人工智能自然语言处理
摘要深度学习的最新进展给地震监测带来了革命性变化，但开发一个能在多个复杂任务中表现出色的基础模型仍然充满挑战，尤其是在处理信号退化或数据稀缺的情况时。本文提出SeisMoLLM，这是首个利用跨模态迁移进行地震监测的基础模型，它无需在地震数据集上进行直接预训练，就能充分发挥大规模预训练大语言模型的强大能力。通过精心设计的波形标记化处理和对预训练GPT-2模型的微调，SeisMoLLM在DiTing和
目标检测项目 sho_re 神经网络人工智能 pytorch 目标检测
·识别图片中有哪些物体并且找到物体的存在位置多任务：位置+类别目标种类与数量繁多的问题目标尺度不均的问题遮挡、噪声等外部环境干扰VOC数据集：PASCALVOC挑战赛(ThePASCALVisualObjectClasses)是一个世界级的计算机视觉挑战赛。4大类，20小类VOC2007：9963图片/24640目标VOC2012：23080图片/54900目标·COCO数据集：起源于微软2014
如何通过深度学习优化操作系统中的故障诊断与恢复机制金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 深度学习人工智能
如何通过深度学习优化操作系统中的故障诊断与恢复机制（副标题：智能监控、自适应诊断与自动恢复——操作系统故障自愈的新方向）摘要随着现代操作系统在多核、高并发和分布式环境中的广泛应用，系统故障及其恢复问题日益成为影响系统稳定性和业务连续性的关键挑战。传统的故障诊断方法依赖于预设规则和人工干预，难以应对复杂多变的故障场景。本文提出了一种基于深度学习的故障诊断与恢复机制，通过对大量历史日志、监控数据和故障
HarmonyNext实战案例：基于ArkTS的高性能分布式机器学习应用开发 harmonyos-next
HarmonyNext实战案例：基于ArkTS的高性能分布式机器学习应用开发引言在HarmonyNext生态系统中，分布式机器学习是其核心特性之一。通过分布式机器学习，开发者可以充分利用多设备的计算资源，实现复杂模型的训练与推理。本文将深入探讨如何使用ArkTS12+语法开发一个高性能的分布式机器学习应用，涵盖从基础概念到高级技巧的全面讲解。通过本案例，您将学习到如何利用HarmonyNext的分
成功案例丨开发时间从1小时缩短到3分钟：如何利用历史数据训练AI模型，预测设计性能？ Altair澳汰尔 PhysicsAI 仿真 AI 机器学习 HyperWorks 数据分析
案例简介PhysicsAI™助力HEROMOTOCORP实现设计效率提升99%印度领先的跨国摩托车和踏板车制造商HeroMotoCorpLtd.（以下简称Hero）致力于通过将人工智能（AI）和机器学习技术融入有限元分析（FEA）流程，以加速产品开发周期。在其首个AI驱动项目——摩托车把手设计优化中，Hero采用了PhysicsAI™几何深度学习解决方案，利用历史数据训练AI模型并预测设计性能。A
关于两次项目的学习感悟罗婕斯特大数据
经过这两次项目，我学到了以下几点：1.模块化与结构化思维：代码展示了如何将深度学习任务分解为多个模块（如数据加载、模型定义、训练循环、评估等）。这种模块化的思维方式不仅适用于编程，也可以应用于解决复杂问题时的结构化思考。2.细节决定成败：代码中涉及了许多细节，如数据预处理、学习率调整、损失函数的选择等。这些细节对模型的最终性能有着重要影响。这提醒我们，在解决实际问题时，细节往往决定成败，需要耐心和
数据分析与AI丨AI Fabric：数据和人工智能架构的未来 Altair澳汰尔数据分析 ai RapidMiner 知识图谱人工智能
AIFabric架构是模块化、可扩展且面向未来的，是现代商业环境中企业实现卓越的关键。在当今商业环境中，数据分析和人工智能领域发展可谓日新月异。几乎每天都有新兴技术诞生，新的应用场景不断涌现，前沿探索持续拓展。可遗憾的是，众多企业在利用数据和人工智能方面，脚步总是滞后。这是每个行业进行创新和获得竞争优势的冲刺阶段，但正如大多数企业时常感受到的那样，大规模实施下一代数据和AI工具说起来容易做起来难。
Manus演示案例：英伟达财务估值建模解锁投资洞察的深度剖析 ylfhpy Manus 深度学习人工智能机器学习机器翻译 Manus
在当今瞬息万变的金融投资领域，精准剖析企业价值是投资者决胜市场的关键。英伟达（NVIDIA），作为科技行业的耀眼明星，其在人工智能和半导体领域的卓越表现备受瞩目。Manus凭借专业的财务估值建模能力，深入挖掘英伟达的潜在价值，为投资者提供了一份极具价值的分析报告。Manus在接到为英伟达进行详细财务估值建模的任务后，迅速且有条不紊地开展工作。数据收集是建模的基石，其重要性不言而喻。在收集英伟达公司
Python学习指南：系统化路径 + 避坑建议程之编 Python全栈通关秘籍青少年编程 python 开发语言人工智能机器学习
新手小白学习编程就像搭积木——需要从基础开始，逐步构建知识体系。以下是为你量身定制的Python学习路径，帮你告别杂乱，高效入门！一、学习前的关键认知明确目标：想用Python做什么？数据分析（如Excel自动化、可视化）Web开发（如搭建网站）人工智能（如机器学习）自动化办公（如处理文件、邮件）目标不同，后续学习侧重点不同（但基础通用）。避免误区：❌只看教程不写代码✅边学边动手，哪怕抄代码也要运
机器学习之KMeans算法 Mr终游机器学习机器学习算法 kmeans
目录一、KMeans的核心思想二、KMeans算法流程三、KMeans的关键点1.优点：2.缺点：四、如何确定最佳k值1.肘部法则2.轮廓系数五、Kmeans的典型应用场景六、代码示例KMeans是一种广泛使用的无监督学习算法，主要用于聚类分析（Clustering）。它的目标是将数据集划分为K个互不重叠的子集（簇，Cluster），使得同一簇内的数据点尽可能相似，不同簇之间的数据点尽可能差异显著
大语言模型原理基础与前沿双层路由多模态融合、多任务学习和模块化架构 AI智能涌现深度研究 AI大语言模型和知识图谱融合 Python入门实战 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿：双层路由多模态融合、多任务学习和模块化架构关键词：大语言模型、双层路由、多模态融合、多任务学习、模块化架构、神经网络、自然语言处理1.背景介绍大语言模型（LargeLanguageModels，LLMs）已经成为人工智能和自然语言处理领域的重要研究方向。随着GPT-3、BERT等模型的出现，大语言模型在各种任务中展现出了惊人的性能。然而，随着模型规模的不断扩大和应用场景的
新的一年，新的感受和成长是小天才哦 #高职生闲谈服务器
本人现在是工作快2年的打工人，我是前年7月份毕业的大专生。其实我在大学刚开始的时候因为体验过社会的毒打，所以发誓一定要好好学习，而我也的确好好学习了，在学校2年时间里，大部分时间都是在图书馆里面看书，主要为啥天天在图书馆很大原因是本专业的课程自己不是非常喜欢（我是人工智能专业，人工智能专业大专学历出来基本也是打框的无聊活）所以我就自己学习了系统运维方向，这个过程也考取了RHCE认证，也是因为这个认
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务 AGI大模型与大数据研究院程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务1.背景介绍1.1问题的由来翻译是跨语言沟通的重要桥梁，随着全球化进程的加速，翻译需求日益增长。传统的机器翻译方法主要依赖于规则和统计方法，如基于短语的翻译、基于统计的机器翻译等。然而，这些方法难以处理复杂的语言现象，翻译质量参差不齐。近年来，随着深度学习技术的快速发展，基于神经网络序列到序列（Sequence-to-Seq
Python第十六课：深度学习入门 | 神经网络解密程之编 Python全栈通关秘籍 python 神经网络青少年编程
本节目标理解生物神经元与人工神经网络的映射关系掌握激活函数与损失函数的核心作用使用Keras构建手写数字识别模型可视化神经网络的训练过程掌握防止过拟合的基础策略一、神经网络基础（大脑的数字化仿生）1.神经元对比生物神经元人工神经元树突接收信号输入层接收特征数据细胞体整合信号加权求和（∑(权重×输入)+偏置）轴突传递电信号激活函数处理输出2.核心组件解析激活函数：神经元的"开关"（如ReLU：max
【大模型开发】深入解析 DeepSpeed：原理、核心技术与示例代码云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习大模型开发大模型微调 deepseek deepspeed python 人工智能 pytorch
深入解析DeepSpeed：原理、核心技术与示例代码DeepSpeed是由微软开源的高性能深度学习训练优化引擎，专注于帮助研究人员和工程团队在分布式环境中高效地训练超大规模模型。其核心目标是提供高吞吐、低内存占用、低成本的分布式训练方案，让数千亿甚至万亿级参数模型的训练成为可能。本文将从DeepSpeed的核心原理、关键组件、代码示例及实现过程详解等方面做详细阐述，帮助读者更好地理解并使用Deep
【漫话机器学习系列】130.主成分（Principal Components） IT古董漫话机器学习系列专辑机器学习人工智能 python
主成分（PrincipalComponents）详解1.什么是主成分？主成分（PrincipalComponents，PCs）是数据集中方差最大的线性组合，它是主成分分析（PrincipalComponentAnalysis，PCA）中的核心概念。主成分可以看作是对原始特征的新表述方式，它通过数学变换找到一组新的正交坐标轴，使得数据的主要变化方向与这些轴对齐。简单来说：主成分是数据集中信息量（方差
一学就会的深度学习基础指令及操作步骤（6）迁移学习小圆圆666 深度学习迁移学习人工智能卷积神经网络
文章目录迁移学习模型准备数据增强模型训练模型微调和预测检查预测结果迁移学习迁移学习是将一个任务中学到的知识应用到另一个相关任务上，以提高新任务的学习效率和性能。优势：节省训练时间，提高模型性能，尤其在小数据场景下效果显著。核心是利用源域的知识来帮助目标域任务，比如在ImageNet上预训练的模型用于医疗影像分类。源域（SourceDomain）：已有知识的领域（如ImageNet图像库）。目标域（
通义万相2.1：AI视频生成迎来“质变”，运镜、文字、物理规律全面突破 that's boy 人工智能通义万象2.1 chatgpt openai qwen AI作画 AI编程
AI视频生成，从“能看”到“惊艳”的跨越在人工智能的浪潮中，AI视频生成无疑是最受瞩目的领域之一。从最初的简单动画到如今的逼真模拟，AI视频生成技术正在快速发展，不断刷新人们的认知。近日，阿里云旗下通义万相视频生成模型宣布了2.1版本的重磅升级，不仅在性能上实现了全面提升，更在运镜、文字生成、物理规律模拟等方面取得了突破性进展，让AI视频生成真正进入了“质变”的新阶段。通义万相2.1的出现，不仅是
C++开源库大全大王算法 C/C++开发实战365 C++入门及项目实战宝典 c++开源
程序员要站在巨人的肩膀上，C++拥有丰富的开源库，这里包括：标准库、Web应用框架、人工智能、数据库、图片处理、机器学习、日志、代码分析等。标准库C++StandardLibrary：是一系列类和函数的集合，使用核心语言编写，也是C++ISO自身标准的一部分。
基于PyTorch的深度学习6——数据处理工具箱2 Wis4e 深度学习 pytorch 人工智能
torchvision有4个功能模块：model、datasets、transforms和utils。主要介绍如何使用datasets的ImageFolder处理自定义数据集，以及如何使用transforms对源数据进行预处理、增强等。下面将重点介绍transforms及ImageFolder。transforms提供了对PILImage对象和Tensor对象的常用操作。1)对PILImage的常
基于PyTorch的深度学习——机器学习3 Wis4e 深度学习机器学习 pytorch
激活函数在神经网络中作用有很多，主要作用是给神经网络提供非线性建模能力。如果没有激活函数，那么再多层的神经网络也只能处理线性可分问题。在搭建神经网络时，如何选择激活函数？如果搭建的神经网络层数不多，选择sigmoid、tanh、relu、softmax都可以；而如果搭建的网络层次较多，那就需要小心，选择不当就可导致梯度消失问题。此时一般不宜选择sigmoid、tanh激活函数，因它们的导数都小于1
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p