__Sunny__

[转载]tensorflow二次开发

本文转载自
https://leslie-fang.github.io/2019/02/27/tensorflow%E4%BA%8C%E6%AC%A1%E5%BC%80%E5%8F%91/

1. 编译

方法1

./configure
bazel build --config=opt //tensorflow/tools/pip_package:build_pip_package
build出错清理：
/root/.cache/bazel
把下面的之前出错的缓存文件给删除掉
生成whell包
bazel-bin/tensorflow/tools/pip_package/build_pip_package /root/tensorflow/wheel_pkg/build_withSource

方法2

yes "" | python configure.py
bazel build --config=mkl --copt=-mavx2 --copt=-O3 --copt=-DINTEL_MKL_QUANTIZED -s //tensorflow/tools/pip_package:build_pip_package
生成whell包
bazel-bin/tensorflow/tools/pip_package/build_pip_package /root/tensorflow/wheel_pkg/build_withSource

1.1 编译命令和过程分析

视频：https://www.youtube.com/watch?v=Rw-KrbfyABQ
https://www.cnblogs.com/shouhuxianjian/p/9416934.html

运行configure.py会把一些编译参数放入.bazelrc和.tf_configure.bazelrc文件里面(https://www.jianshu.com/p/5cd111ebb8bb)
bazelrc文件的解释
https://docs.bazel.build/versions/master/guide.html

build 后面接的都是默认的编译参数
build:mkl 后面接的编译参数只有当bazel build –config=mkl的时候mkl后面的编译参数才会起作用

bazel build的其他编译选项：
https://docs.bazel.build/versions/master/user-manual.html
–copt： This option takes an argument which is to be passed to the compiler. 所以–copt后面传进来的都是gcc或者是icc的编译参数

–strip是否删除debug信息，never表示不删除debug信息

1.2 增量编译

直接bazel build
然后重新生成wheel包
pip unistall tensorflow
一定先卸载然后重新安装
否则还是原来的包

2. 编译之后

生成pywrap_tensorflow_internal.py 以及 pywrap_tensorflow_internal.cc在~/.cache/bazel目录下面,所有代码都在_pywrap_tensorflow_internal.so 的动态链接库里面
pywrap_tensorflow_internal.py: 负责对接上层 Python 调用
pywrap_tensorflow_internal.cc: 负责对接下层 C API 调用

pywrap_tensorflow_internal.py 模块首次被导入时，自动地加
载 _pywrap_tensorflow_internal.so 的动态链接库；其中， _pywrap_tensorflow_internal.so
包含了整个 TensorFlow 运行时的所有符号。
在 pywrap_tensorflow_internal.cc 的实现中，静态注册了一个函数符号表，实现了 Python 函数名到 C 函数名的二元关系。在运行时，按照 Python 的函数名称，匹找到对应的 C 函数实现，最终实现 Python 到 c_api.c 具体实现的调用关系。

3. 调整tensorflow运行的日志等级

TF代码又两个函数打印日志,LOG以及VLOG
LOG是正常的打印日志，通过TF_CPP_MIN_LOG_LEVEL

export TF_CPP_MIN_LOG_LEVEL=level

去设置，值越小，打印日志越多
VLOG通过

export TF_CPP_MIN_VLOG_LEVEL=level

去设置，但是VLOG只有在LOG等级为0的时候设置才有用
比如要打印mkl_layout_pass.cc初始化rewirte op时的信息

export TF_CPP_MIN_LOG_LEVEL=0
export TF_CPP_MIN_VLOG_LEVEL=1

4. 编译debug版本的tensorflow

添加 -c dbg选项
移除优化选项 –copt=-O3 以及 -c opt

bazel build --config=mkl --copt=-mavx2 --copt=-O3 --copt=-DINTEL_MKL_QUANTIZED -s -c dbg //tensorflow/tools/pip_package:build_pip_package

debug版本编译完大概有20G左右
export OMP_NUM_THREADS=1
设置intra和inter值为1

4.1 指定编译目录

默认编译在/root/.cache/bazel目录下面，有时候root目录空间不够

build_dir=/home/lesliefang/bazel_build
bazel --output_user_root=$build_dir clean
bazel --output_user_root=$build_dir build --config=mkl --copt=-mavx2 --copt=-O3 --copt=-DINTEL_MKL_QUANTIZED -s -c dbg //tensorflow/tools/pip_package:build_pip_package

4.2 编译报错找不到–march=broadwell

使用gcc6.3以及以上版本，低版本的编译器不认识broadwell的选项

4.3 whell太大无法打包

https://github.com/tensorflow/tensorflow/issues/5538

5. 替换mkldnn版本

以TF从0.18升级到0.19为例

5.1 下载mkldnn0.19计算sha256sum

wget https://github.com/intel/mkl-dnn/archive/v0.19.tar.gz
sha256sum v0.19.tar.gz
记录这个结果
ba39da6adb263df05c4ca2a120295641fc97be75b588922e4274cb628dbe1dcd
后面会用到

5.2 修改$tensorflow_root/tensorflow/workspace.bzl

搜索mkl_dnn

 121     # Important: If you are upgrading MKL-DNN, then update the version numbers
 122     # in third_party/mkl_dnn/mkldnn.BUILD. In addition, the new version of
 123     # MKL-DNN might require upgrading MKL ML libraries also. If they need to be
 124     # upgraded then update the version numbers on all three versions above
 125     # (Linux, Mac, Windows).
 126     tf_http_archive(
 127         name = "mkl_dnn",
 128         build_file = clean_dep("//third_party/mkl_dnn:mkldnn.BUILD"),
 129         sha256 = "38a1c02104ee9f630c1ad68164119cd58ad0aaf59e04ccbe7bd5781add7bfbea",
 130         strip_prefix = "mkl-dnn-0.18",
 131         urls = [
 132             "http://mirror.tensorflow.org/github.com/intel/mkl-dnn/archive/v0.18.tar.gz",
 133             "https://github.com/intel/mkl-dnn/archive/v0.18.tar.gz",
 134         ],
 135     )

把里面所有0.18替换成0.19
替换上面得到的sha256sum

5.3 看第二步的注释和代码

需要修改”//third_party/mkl_dnn:mkldnn.BUILD”
$tensorflow_root/tensorflow/workspace.bzl

vim $tensorflow_root/third_party/mkl_dnn/mkldnn.BUILD

把里面的版本号从0.18改到0.19

注意：
tensorflow里面，mkldnn是被当做source code编译进去的，
所以不存在动态链接库

check:
build_dir/b3a4cb07d89ceca0353d37b5d32ffadc/external/mkl_dnn
里面是mkldnn下载下来的代码
里面有个readme文件在开头的地方可以check版本是0.18还是0.19

6. gdb 调试

二种方法方法去debug TF:
method1:

1. gdb python
2. run file.py
3. bt

method2:

1. 跑测试
2. top 看到python进程的pid
3. gdb -p pid
挂上之后，原来测试会挂住
break 函数名或者其它打上断点,tensorflow找不到符号的情况下可以 文件名:line的方式去打断点
continue 继续测试直到core-dump

如何添加python的信息参考这个blog
http://jcf94.com/2018/01/13/2018-01-13-tfunpacking/

6.1 warning找不到文件

dir 目录
去指定文件的搜索根目录
使用gdbgui去调试的时候，也需要指定了目录之后才可以显示文件

6.2 调试前的参数设置以及技巧

所有并行计算线程设置为1，避免多线程导致断点带来的麻烦
命令后加&echo $!输出PID，进行gdb -p的调试

7. mkldnn调试

export MKLDNN_VERBOSE=1
python ***

在运行测试之前，添加环境变量
可以打出mkldnn的信息
每一行的信息Each line with verbose information is formatted as a comma-separated list containing:

mkldnn_verbose
stage, e.g. create or exec
primitive-kind, e.g. convolution, reorder, sum, …
primitive implementation name
propagation-kind, e.g. forward_training
input/output data info, e.g. data type and data format
auxiliary information, e.g. algorithm or number of input
problem description
- for convolution the problem description is dumped in benchdnn friendly format
- for reorder, sum, and concat problem description is simply logical dims
- for other primitives the problem description is similar to convolution one
execution time in milliseconds

8. 看python到C++调用关系

8.1 以Session 为例子：tf.Session时候的调用关系

python api
/root/tensorflow_src/test_code/private-tensorflow/tensorflow/python
目录下面：

grep -rni “class Session”
client/session.py:1475:class Session(BaseSession):
里面调用了baseSession的构造函数
看baseSession
里面调用了tf_session

self._session = tf_session.TF_NewSessionRef(self._graph._c_graph, opts)
from tensorflow.python import pywrap_tensorflow as tf_session

看pywrap_tensorflow.py
这个就是对应了编译出来的so文件
在source insight里面搜索TF_NewSessionRef
看到定义在tf_session_help.cc里面
里面调用了TF_NewSession
source insight里面搜索TF_NewSession
已经进入到C++ 代码内部

8.2 以matmul为列

https://ggaaooppeenngg.github.io/zh-CN/2018/05/29/Tensorflow-%E7%9A%84-Tensor-%E5%92%8C-OpKernel-%E5%88%86%E6%9E%90/
调用 tf.matmul(a,b)

查看

grep -rni "tf_export.*matmul" #这个函数需要用tf_export导出

ops/math_ops.py:2277:@tf_export(“linalg.matmul”, “matmul”)

看math_ops.py:2277
api的使用有详细的解释
调用了gen_math_ops.batch_mat_mul 或者 gen_math_ops.mat_mul
看gen_math_ops.py

find / -name "gen_math_ops.py"

这个文件看文件名字，应该是在编译的时候生成的
这个文件里面搜:batch_mat_mul

batch_mat_mul函数
这个函数里面调用了

_result = _pywrap_tensorflow.TFE_Py_FastPathExecute(
        _ctx._context_handle, _ctx._eager_context.device_name, "BatchMatMul",
        name, _ctx._post_execution_callbacks, x, y, "adj_x", adj_x, "adj_y",
        adj_y)

所以C++里面的op函数应该是BatchMatMul

搜索所有注册这个op的地方
搜索op定义

[root@localhost private-tensorflow]# grep -rni "REGISTER_OP(\"MatMul\")"
tensorflow/core/ops/math_ops.cc:763:REGISTER_OP("MatMul")

搜索op的kernel实现

grep -rni "Name(\"MatMul\")"

找到所有定义operation
break 文件名:行
在每个computer的d地方打断点
看看调用到了哪个kernel

看class MatMulOp 的Compute方法里面最后调用了LaunchMatMul方法
LaunchMatMul 继承自LaunchMatMulBase，在 LaunchMatMulBase 当中调用了 functor::MatMulFunctor，这个 functor 主要就会执行乘法操作添加链接描述

MatMulFunctor里面调用了MatMul方法
MatMul方法里面进一步调用了out.device(d) = in0.contract(in1, dim_pair);

contract是Eigen的一个方法，表示矩阵相乘，Eigen是一套高效的C++中调用的数学平台，里面实现了很多通用的数学运算。

8.3 以conv2d为例

这个人博客很多好文章：http://lanhin.xyz/
http://lanhin.xyz/2018/10/29/tensorflow%E4%B8%AD2d%E5%8D%B7%E7%A7%AF%E4%BB%A3%E7%A0%81%E7%AE%80%E6%9E%90/

python 接口 tf.nn.conv2d

grep -rni "tf_export.*conv2d"

tensorflow_src/test_code/private-tensorflow/tensorflow/python/ops/nn_ops.py:1376:@tf_export(“nn.conv2d”, v1=[])

查找输出的地方

find / -name "gen_math_ops.py"

查看op注册和实现的地方

grep -rni "REGISTER_OP(\"Conv2D\")"
grep -rni "Name(\"Conv2D\")"

进入conv_ops.cc文件
看Compute方法

输入为浮点数float调用LaunchDeepConvOp::Run

其它输入类型调用launcher_
进一步看调用到了
LaunchConv2DOp::operator()
再往下
tensorflow::LaunchGeneric::operator
这个函数里面通过不同的条件判断调用两个不同的计算kernel：functor::MatMulConvFunctor()和functor::SpatialConvolution()

MatMulConvFunctor定义在conv_2d.h文件里面
out.device(d) = in0.contract(in1, dim_pair, output_kernel);
到最后还是调用了矩阵乘法的函数
这个contract应该是eigen库提供的接口

8.4 INT8 operation

读取RN50 int8的pb
用tensorboard查看
看到用到了op：QuantizedConv2DWithBiasAndReluAndRequantize
搜索不到对应op的时候
tensorflow做了op的转换
private-tensorflow\tensorflow\core\graph\mkl_layout_pass.cc
参考这个文件
果然再这个文件里面可以搜索到
QuantizedConv2DWithBiasAndReluAndRequantize
mkl_layout_pass.cc 根据PPT里面的解释，会把标准的输入的TF的graph转换成mkl优化的图，里面有个run函数应该是转换的入口

也有可能定义tensorflow/core/api_def/base_api/api_def_QuantizedMatMulWithBias.pbtxt
这个目录下面也可能定义了pb文件

python api有两种定义方法（https://groups.google.com/a/tensorflow.org/forum/#!topic/developers/LmKn-y7LZ_E）：
Python API endpoints are currently added using 2 ways:

apidef.pbtxt files (python_op_gen_internal.cc would actually add tf_export decorator for each visible endpoint specified in apidef.pbtxt files)
tf_export decorators

搜索这个op

[root@localhost ~]# grep -rni "name(\"QuantizedConv2DWithBiasAndReluAndRequantize\")"
tensorflow_src/test_code/private-tensorflow/tensorflow/core/kernels/mkl_conv_ops.cc:1997:REGISTER_KERNEL_BUILDER(Name("QuantizedConv2DWithBiasAndReluAndRequantize")

这个op对应的kernel实现就是QuantizedConv2DWithBiasAndReluAndRequantize
对应的kernel叫做NoOp
看到注释：

// Register NoOp kernel for QuantizedConv2DWithBiasAndRelu to get a python
// interface.
// This kernel will be replaced by an MKL kernel during graph-optimization pass.

NoOp是因为这个op在图优化阶段被rewrite了(mkl_layout_pass.cc的RunPass函数)

同一个文件里面看另外一个op
_MklQuantizedConv2DWithBiasSumAndRelu
对应的kernel是MklQuantizedConv2DSumReluOp
继承了MklQuantizedConv2DOp这个kernel
MklQuantizedConv2DOp这个kernel继承了MklConvOp
MklQuantizedConv2DOp的compute方法首先调用了

// Compute int32 output tensor
MklConvOp::Compute(context);

MklConvOp里面的compute方法调用了mkldnn
conv_fwd->Execute执行mkldnn的计算

注意
class MklConvOp在这个文件里面有两个类的定义
通过template Execute

根据文件里面的宏的定义，应该只有一个函数会被编译出来

看这个mkldnn的类的实现代码，可以先看看MKLDNN的教程和实例代码mkldnn代码库的simple_net.cpp以及解释
基本概念比较清晰，先创建memory/operator descriptor,再创建对应的Primitive descriptor ，最后创建primitive,然后把primitive放到stream里面去执行
tensorflow的这个类的实现follow这个逻辑只是加了一些封装
至于mkldnn里面进一步的实现(如何多线程等)就是mkldnn的事情了
可以看我的mkldnn的文章

9. 自己定义个operation

参考文档

9.1 定义operation

#include "tensorflow/core/framework/op.h"
REGISTER_OP("ZeroOut")
    .Input("to_zero: int32")
    .Output("zeroed: int32");`

9.2 定义kernel

#include "tensorflow/core/framework/op_kernel.h"
using namespace tensorflow;
class ZeroOutOp : public OpKernel {
 public:
  explicit ZeroOutOp(OpKernelConstruction* context) : OpKernel(context) {}
  void Compute(OpKernelContext* context) override {
    // 获取输入 tensor.
    const Tensor& input_tensor = context->input(0);
    auto input = input_tensor.flat();
   // 创建一个输出 tensor.
    Tensor* output_tensor = NULL;
    OP_REQUIRES_OK(context, context->allocate_output(0, input_tensor.shape(),
                                                     &output_tensor));
    auto output = output_tensor->template flat();
    // 设置 tensor 除第一个之外的元素均设为 0.
    const int N = input.size();
    for (int i = 1; i < N; i++) {
      output(i) = 0;
    }
    // 尽可能地保留第一个元素的值.
    if (N > 0) output(0) = input(0);
  }
};
REGISTER_KERNEL_BUILDER(Name("ZeroOut").Device(DEVICE_CPU), ZeroOutOp);

9.3 添加python wrap

经过前面两步在编译之后，可以在bazel-genfiles/tensorflow/python/ops/gen_user_ops.py文件，比如我的一个例子

vim /home/lesliefang/bazel_build/615e7e34d0a05b2b7ebac45eda8ba3c5/execroot/org_tensorflow/bazel-out/k8-opt/bin/tensorflow/tools/pip_package/build_pip_package.runfiles/org_tensorflow/tensorflow/python/ops/gen_user_ops.py

里面找到对应的operation的函数
为了使得python可以调用到,在tensorflow/python/user_ops/user_ops.py 文件中添加接口

@tf_export(v1=['user_ops.leslie_zero_out'])
def leslie_zero_out(input):
  """Example of overriding the generated code for an Op."""
  return _gen_user_ops.zero_out(input)

9.4 测试

重新编译之后安装之后
测试代码

import tensorflow as tf
import numpy as np
import datetime
import os
import time
if __name__ == "__main__":
	#time.sleep(30)
	with tf.Session() as sess:
		sess.run(tf.global_variables_initializer())
		result = tf.user_ops.leslie_zero_out([5, 4, 3, 2, 1])
		print("result is {}".format(result))
		print("result is {}".format(sess.run(result)))

10. 多线程

To write a multi-threaded CPU kernel, the Shard function in work_sharder.h can be used. This function shards a computation function across the threads configured to be used for intra-op threading (see intra_op_parallelism_threads in config.proto).

11. 核心运行机制

推荐一个很好的Blog:http://jcf94.com/2018/01/13/2018-01-13-tfunpacking/
这个blog对C++部分session的机制分析的很清楚

这边从python调用session.run开始分析

11.1 在python里面

session.run

result = self._run(None, fetches, feed_dict, options_ptr,
                   run_metadata_ptr)

在_run里面

results = self._do_run(handle, final_targets, final_fetches,
                      feed_dict_tensor, options, run_metadata)

do_run里面

return self._call_tf_sessionrun(
    options, feed_dict, fetch_list, target_list, run_metadata)

call_tf_sessionrun里面

return tf_session.TF_SessionRun_wrapper(
   self._session, options, feed_dict, fetch_list, target_list,
   run_metadata)

TF_SessionRun_wrapper 定义在pywrap_tensorflow_internal.py里面
就是python和C++的桥梁

11.2 下面进入C++的部分

_SessionRun_wrapper_helper函数
里面调用了TF_SessionRun
TF_SessionRun 函数
调用了TF_Run_Helper函数
TF_Run_Helper函数
调用了session->Run函数
这是个虚函数
用gdb跟进去看
参考这篇文章：https://zhuanlan.zhihu.com/p/26031658
local用direction_session
分布式用grpc_session
所以我们这边调用到了DirectSession::Run
看DirectSession::Run函数
这个函数的分析：http://jcf94.com/2018/01/13/2018-01-13-tfunpacking/
GetOrCreateExecutors函数里面会去寻找有没有符合条件的exectuor，不存在的话则调用CreateExecutors函数去创建executors
同时CreateExecutors里面调用到了CreateGraphs
在CreateExecutors调用了CreateGraphs之后看到：

params.create_kernel = [this, lib, opseg](const NodeDef& ndef,
                                              OpKernel** kernel)

我理解就是在这里实现了param里面的创建kernel的函数指针
在CreateExecutors的最后调用了NewExecutor函数，会传入param变量(里面带上了create_kernel方法)
NewExecutor函数里面通过工厂模式来生成Executor
是个虚函数，通过gdb看到里面调用了
tensorflow::(anonymous namespace)::DefaultExecutorRegistrar::Factory::NewExecutor (this=0x1fffd10, params=…, graph=…,
out_executor=0x72fdee8) at tensorflow/core/common_runtime/executor.cc:2857

class Factory : public ExecutorFactory {
  Status NewExecutor(const LocalExecutorParams& params,
                     std::unique_ptr graph,
                     std::unique_ptr* out_executor) override {
    Executor* ret = nullptr;
    TF_RETURN_IF_ERROR(NewLocalExecutor(params, std::move(graph), &ret));
    out_executor->reset(ret);
    return Status::OK();
  }
};

里面调用了NewLocalExecutor
进一步调用ExecutorImpl->Initialize函数
这个函数里面调用了params_.create_kernel函数去创建kernel
(这个create_kernel函数就是之前在CreateExecutors函数里面定义的)
同时在这个函数里面看到了一行注释

// Preprocess every node in the graph to create an instance of op
// kernel for each node.

11.3 调试CreateExecutors的create_kernel函数

gdb断点进去CreateKernel函数
tensorflow/core/common_runtime/function.cc:521
调用到526行的CreateKernel函数
tensorflow/core/common_runtime/function.cc:526
executor.cc的CreateNonCachedKernel函数
op_kernel.cc的CreateOpKernel函数（*kernel = registration->factory->Create(&context);）
mkl_conv_ops.cc的TF_CALL_float(REGISTER_MKL_CPU_2D_FUSED);函数
mkl_conv_ops.cc的MklFusedConvOp的构造函数

所以调用session.run多次，因为已经存在符合条件的exectuors，并不会多次创建图
（别人的评论：第一次执行 sess.run(….) 的时候会根据 python 层的图构造出 C++ 层的图然后保存下来，之后如果下次 sess.run() 的目标节点是相同的，就不需要重新构造一遍了。详细可以去分析 sess.run() 的执行流程）

调用到了RunInternal函数

RunInternal函数
里面调用了item.executor->RunAsync(args, barrier->Get());
去执行异步计算
通过日志知道RunAsync会调用到executor的Process()函数
process函数做了什么：
http://jcf94.com/2018/01/13/2018-01-13-tfunpacking/
遍历每个节点，针对每个节点的kernel进行计算（调用device->Compute，里面调用op_kernel->Compute(context);）
在每个kernel里面都可以搜索到对应的Compute函数

12. 看一个inner product的kernel是怎么生成的

断点打在

b mkl_qmatmul_op.cc:183(一个setup函数里面)

分析代码知道这个setup函数是设置上下文变量的
查看调用栈

#0  tensorflow::MklIPFwdPrimitive::Setup (this=0x3d1a300, IPFwdDims=...)
    at tensorflow/core/kernels/mkl_qmatmul_op.cc:183
#1  0x00007f6a77ee938c in tensorflow::MklIPFwdPrimitive::MklIPFwdPrimitive (this=0x3d1a300, IPFwdDims=...)
    at tensorflow/core/kernels/mkl_qmatmul_op.cc:77
#2  0x00007f6a77ee81c3 in tensorflow::MklIPFwdPrimitiveFactory::Get (IPFwdDims=..., do_not_cache=false)
    at tensorflow/core/kernels/mkl_qmatmul_op.cc:298
#3  0x00007f6a77ee0515 in tensorflow::MklIPOp::Compute (
    this=0x1ea0f20, context=0x7f6a53f1d5f0) at tensorflow/core/kernels/mkl_qmatmul_op.cc:499
#4  0x00007f6a77edee0e in tensorflow::MklQuantizedIPOp::Compute (this=0x1ea0f20,
    context=0x7f6a53f1d5f0) at tensorflow/core/kernels/mkl_qmatmul_op.cc:752
#5  0x00007f6a78410eae in tensorflow::Device::Compute (this=0x40a6780, op_kernel=0x1ea0f20, context=0x7f6a53f1d5f0) at ./tensorflow/core/common_runtime/device.h:89
#6  0x00007f6a6c90f868 in tensorflow::(anonymous namespace)::ExecutorState::Process (this=0x54f6480, tagged_node=..., scheduled_nsec=0)
    at tensorflow/core/common_runtime/executor.cc:1817

#0 mkl_qmatmul_op.cc:183 在tensorflow里面这个primitive的setup函数
看这个setup里面，看到先创建mkldnn的primitive的desc

// create a inner product
 context_.fwd_desc.reset(new inner_product_forward::desc(
       prop_kind::forward_inference, *context_.src_md, *context_.weight_md,
       *context_.bias_md,
       *context_.dst_md));

然后通过这个desc去创建primitive_desc(pd),跟进到mkldnn里面看，就是在创建pd的时候回去遍历mkldnn里面所有pd找到对应的满足条件的pd

#1 mkl_qmatmul_op.cc:77 MklIPFwdPrimitive的构造函数
#2 mkl_qmatmul_op.cc:298 MklIPFwdPrimitiveFactory的Get函数，Get函数根据输入的MklIPFwdParams去try to find a suitable one in pool
没有找到的话(if (IP_fwd == nullptr))会去创建
#3 mkl_qmatmul_op.cc:499 MklIPOp的compute方法，里面调用了MklIPFwdPrimitiveFactory的Get方法去拿到对应的IP_fwd(Primitive)
MklIPOp的compute方法应该是tensorflow在运行图的节点的时候会被调用到的方法
继续看这个MklIPOp的compute方法
后面会调用IP_fwd->Execute(src_data, weight_data, bias_data, dstdata);
去做计算
这个根据前几步选中的mkldnn的pd，会调用到mkldnn的submit函数(context.fwdstream->submit(context.fwd_primitives)?
可以用GDB去跟进mkldnn去看调用关系，这里已经比较好理解了
结论
所以tensorflow的node到mkldnn的kernel的对应关系，是在第一次运行这个图的时候确认的，同时如果set了cache(默认都是设置的),后面几次运行的时候就会保留这个对应关系
#4 mkl_qmatmul_op.cc:752 MklQuantizedIPOp的Compute函数，这个函数会去调用MklIPOp的compute方法
#5 device.h:89 Device的Compute()是个虚函数,对应了device信息
#6 executor.cc:1817 ExecutorState::Process函数，这里已经是tensorflow创建了exectuor之后的执行了
#7 executor.cc:2258 ExecutorState::ScheduleReady
总结，关键是这个MklIPOp的compute方法，先通过Get方法去获得对应的mkldnn的kernel，然后调用execute去执行

13. 通过pb文件去看调用的kernel

13.1 读取pb文件，查看模型的结构

使用tensorboard或者Netron
推荐使用Netron，很好用，里面还可以看到各个节点的参数的值

13.2 打印pb文件中每个节点的名字

在代码里面加载输出每个节点的名字

graph_def = graph_pb2.GraphDef()
with open(args.input_graph, "rb") as f:
  graph_def.ParseFromString(f.read()) #f就是pb文件
for node in graph_def.node:
    k = node.name
    print("node op is {}".format(node.op))

打印出node的名字
比如其中一个MatMul

加载pb用tensorboard大概看一下

2 import pandas as pd
3 import csv
4 import struct
5 from PIL import Image
6 import numpy as np
7 import datetime
8 import os
9 import argparse
10 import tensorflow as tf
11
12 if __name__ == "__main__":
13         parser = argparse.ArgumentParser()
14         parser.add_argument("mode", help="display a square of a given number")
15         args = parser.parse_args()
16         from tensorflow.python.platform import gfile
17         with gfile.FastGFile(args.mode, 'rb') as f:
18                 graph_def = tf.GraphDef()
19                 graph_def.ParseFromString(f.read())
20                 for node in graph_def.node:
21                         print("node name is: {} \t node op is: {}".format(node.name,node.op))
22                 #tensorboard
23                 with tf.Session() as sess:
24                         sess.graph.as_default()
25                         tf.import_graph_def(graph_def, name='')
26                         summaryWriter = tf.summary.FileWriter('log/', sess.graph)

跑完之后，命令行运行
tensorboard –logdir log/

在tensorlfow里面搜索注册这个op和kernel的地方
比如第二步打印看到的node.op是 Conv2D
在代码里面搜索
grep -rni "Name(\".*Conv2D.*\")"
因为注册的kernel可能是Conv2D
也有可能加了mkl前缀比如:REGISTER_KERNEL_BUILDER(Name(“_MklConv2D”)
在directSession，创建新的exector的时候会去优化graph，这个时候会把Conv2D这个op转换成_MklConv2D，一般就是添加_MKL的前缀
在mkl_layout_pass.cc这个文件的RunPass函数里面，会去做图的优化，包括临近节点的合成，op的rewrite以及mkldnn节点前添加数据格式的转换等op
创建kernel时候的调用栈
断点打在mkl_conv_ops.cc:861

#0  tensorflow::MklConvOp::MklConvOp (this=this@entry=0x36b35400,
    context=context@entry=0x7ffca8d435c0) at tensorflow/core/kernels/mkl_conv_ops.cc:861
#1  0x00007fa3b9de7ecc in tensorflow::MklFusedConvOp::MklFusedConvOp (
    this=0x36b35400, context=0x7ffca8d435c0) at tensorflow/core/kernels/mkl_conv_ops.cc:1474
#2  0x00007fa3b9dcd7b2 in operator() (__closure=0x0, context=0x7ffca8d435c0) at tensorflow/core/kernels/mkl_conv_ops.cc:2165
#3  tensorflow::::_FUN(tensorflow::OpKernelConstruction *) ()
    at tensorflow/core/kernels/mkl_conv_ops.cc:2165
#4  0x00007fa3b469ac77 in tensorflow::CreateOpKernel (device_type=..., device=device@entry=0x3c346e0, allocator=allocator@entry=0x1c1e380,
    flib=flib@entry=0x36bae2c0, node_def=..., graph_def_version=0, kernel=0x15b5c4bc8) at tensorflow/core/framework/op_kernel.cc:1302
#5  0x00007fa3b498f80f in tensorflow::CreateNonCachedKernel (device=0x3c346e0, flib=flib@entry=0x36bae2c0, ndef=...,
    graph_def_version=, kernel=kernel@entry=0x15b5c4bc8) at tensorflow/core/common_runtime/executor.cc:2764
#6  0x00007fa3b49aaaf7 in tensorflow::FunctionLibraryRuntimeImpl::CreateKernel (this=0x36bae2c0, ndef=..., lib_def=0x372c000, kernel=0x15b5c4bc8)
    at tensorflow/core/common_runtime/function.cc:539
#7  0x00007fa3b49aac18 in tensorflow::FunctionLibraryRuntimeImpl::CreateKernel (this=, ndef=..., kernel=)
    at tensorflow/core/common_runtime/function.cc:515
#8  0x00007fa3ba11e40b in operator() (kernel=0x15b5c4bc8, ndef=..., __closure=0x2ef1e660) at tensorflow/core/common_runtime/direct_session.cc:1261
#9  std::_Function_handler*, std::unique_ptr*, tensorflow::DirectSession::RunStateArgs*):: >::_M_invoke(const std::_Any_data &, const tensorflow::NodeDef &, ) (__functor=..., __args#0=..., __args#1=)
    at /home/lesliefang/gcc63/lib/gcc/x86_64-pc-linux-gnu/6.3.0/../../../../include/c++/6.3.0/functional:1717
#10 0x00007fa3b49a164e in operator() (__args#1=, __args#0=..., this=0x169d87cf8)
    at /home/lesliefang/gcc63/lib/gcc/x86_64-pc-linux-gnu/6.3.0/../../../../include/c++/6.3.0/functional:2127
#11 tensorflow::(anonymous namespace)::ExecutorImpl::Initialize (this=this@entry=0x169d87ce0) at tensorflow/core/common_runtime/executor.cc:620
#12 0x00007fa3b49a3646 in tensorflow::NewLocalExecutor (params=..., graph=..., executor=executor@entry=0x7ffca8d44218)
    at tensorflow/core/common_runtime/executor.cc:2749
#13 0x00007fa3b49a36d2 in tensorflow::(anonymous namespace)::DefaultExecutorRegistrar::Factory::NewExecutor (this=, params=...,
    graph=..., out_executor=0x3ab72bb8) at tensorflow/core/common_runtime/executor.cc:2785
#14 0x00007fa3b49a61b2 in tensorflow::NewExecutor (executor_type=..., params=..., graph=..., out_executor=out_executor@entry=0x3ab72bb8)
    at tensorflow/core/common_runtime/executor_factory.cc:82
#15 0x00007fa3ba128ee4 in tensorflow::DirectSession::CreateExecutors (this=this@entry=0x2edd8480, callable_options=...,
    out_executors_and_keys=out_executors_and_keys@entry=0x7ffca8d448a0, out_func_info=out_func_info@entry=0x7ffca8d448b0,
    run_state_args=run_state_args@entry=0x7ffca8d44fb0) at tensorflow/core/common_runtime/direct_session.cc:1296
#16 0x00007fa3ba12a730 in tensorflow::DirectSession::GetOrCreateExecutors (this=this@entry=0x2edd8480, inputs=..., outputs=..., target_nodes=...,
    executors_and_keys=0x7ffca8d44f48, run_state_args=0x7ffca8d44fb0) at tensorflow/core/common_runtime/direct_session.cc:1429
    #17 0x00007fa3ba12b747 in tensorflow::DirectSession::Run (this=, run_options=..., inputs=..., output_names=..., target_nodes=...,
    ---Type  to continue, or q  to quit---
        outputs=0x7ffca8d45340, run_metadata=0x7ffca8d453a0) at tensorflow/core/common_runtime/direct_session.cc:749
    #18 0x00007fa3b76729f1 in tensorflow::SessionRef::Run (this=0x38d4a5f0, run_options=..., inputs=..., output_tensor_names=...,
        target_node_names=..., outputs=0x7ffca8d45340, run_metadata=0x7ffca8d453a0) at tensorflow/python/client/session_ref.cc:427
    #19 0x00007fa3b78c2d9d in TF_Run_Helper (session=0x38d4a5f0, handle=handle@entry=0x0, run_options=run_options@entry=0x0, input_pairs=...,
        output_tensor_names=..., c_outputs=c_outputs@entry=0x7ffca8d45708, target_oper_names=..., run_metadata=0x0, status=0x2b657788)
        at tensorflow/c/c_api.cc:787
    #20 0x00007fa3b78c3a3a in TF_SessionRun (session=session@entry=0x3b57ef60, run_options=run_options@entry=0x0, inputs=,
        input_values=, ninputs=, outputs=0x36bbfc00, output_values=0x7ffca8d45708, noutputs=1, target_opers=0x0,
        ntargets=0, run_metadata=0x0, status=0x2b657788) at tensorflow/c/c_api.cc:2638
    #21 0x00007fa3b76710df in tensorflow::TF_SessionRun_wrapper_helper (session=0x3b57ef60, handle=handle@entry=0x0, run_options=0x0, inputs=...,
        input_ndarrays=..., outputs=..., targets=..., run_metadata=0x0, out_status=0x2b657788, py_outputs=0x7ffca8d45a50)
        at tensorflow/python/client/tf_session_helper.cc:410
    #22 0x00007fa3b76711b2 in tensorflow::TF_SessionRun_wrapper (session=, run_options=, inputs=..., input_ndarrays=...,
        outputs=..., targets=..., run_metadata=0x0, out_status=0x2b657788, py_outputs=0x7ffca8d45a50)
        at tensorflow/python/client/tf_session_helper.cc:452
    #23 0x00007fa3b760b8d0 in _wrap_TF_SessionRun_wrapper (args=)
        at bazel-out/k8-dbg/bin/tensorflow/python/pywrap_tensorflow_internal.cc:20508

关键代码分析：
op_kernel.cc:1302 CreateOpKernel函数

// Everything needed for OpKernel construction.
OpKernelConstruction context(
    device_type, device, allocator, &node_def, op_def, flib, inputs,
    input_memory_types, outputs, output_memory_types, graph_def_version, &s);
*kernel = registration->factory->Create(&context);

OpKernelConstruction context构造了找寻合适的tensorflow的条件

总结：tensorflow这边node的多态有两层

第一层是在tensorflow自己框架的设计上，在session.run的时候，第一次运行创建exectuor的时候进行
第二层多态是mkldnn层面上的，在调用op.Compute的方法的时候，第一次调用会去根据输入的数据类型选择并创建正确的mkldnn的pd

14. INT8化操作

理论介绍：
https://aidc.gallery.video/detail/videos/all-videos/video/5790616836001/understanding-new-vector-neural-network-instructions-vnni

重点推荐这篇文章，介绍量化很详细
https://petewarden.com/2016/05/03/how-to-quantize-neural-networks-with-tensorflow/

基本思想：

对于输入的张量
每一个FP32的输入张量，额外通过一个Min Op得到最小值Min，通过一个Max op得到最大值Max。原始FP32张量，和Min以及Max一起过一个quantize的op得到INT8的张量，再过INT8的计算op(POOL,Conv2D)。再将计算结果，和Min以及Max值一起过一个Dequantize的op反量化得到FP32的输出
如果邻近两个节点都是INT8的量化操作，它们之间的反量化和量化操作可以省略
对于原来存储的FP32格式的weight以及bias
直接INT8化存储就可以了，存INT8值以及Min以及Max
TF1.10版本

14.1 transform_graph 工具

tensorflow/tools/graph_transforms 目录下面有个readme去介绍怎么做的
包括transform_graph里面每个trainform操作做了什么
这一步不是必须的
对原来的FP32的图做一些预处理的操作
每个操作的内容都写在–transforms参数里面，生成一个列表
每一个操作在对应的文件里面通过
REGISTER_GRAPH_TRANSFORM("fold_batch_norms", FoldBatchNorms);
函数写到transform_registry里面

在主函数里面遍历–transforms的输入列表，从transform_registry里面找到对应操作的函数，执行操作，返回新的graph_def

14.2 quantize_graph.py 脚本

这一步是必须的
这个脚本的作用：

是把原来图中的op转换成对应的INT8操作的op，比如conv2D转换成QuantizedConv2DWithBias或者QuantizedConv2DWithBiasAndRelu或者等等等
同时插入量化和反量化计算的节点，额外得到Min，Max 以及quantize和dequantize的op
weights的量化操作也是在这一步做的，将FP32的weights值存成INT8的，有个quantize_weight_eightbit函数，将base_name对应的fp32节点换成int8，min,max 3个节点
转换之后多了几个节点：
输入计算节点之前：

Min：计算输入张量的最小值
Max：计算输入张量的最大值
QuantizeV2：输入FP32，Min，Max计算量化的INT8输出，输入计算节点
输入计算节点之后：计算节点的输出：比如量化卷积计算的输出是 INT32 的(MKLDNN x8s8X32的primitive)
RequantizationRange：因为输出是INT32的，而且量化成INT8的scale不在原始图里面存着，需要再量化一次，通过- RequantizationRange去计算INT32张量的最大值和最小值
Requantize：具体计算INT32输出量化成INT8
Dequantize：INT8结果反量化成FP32的格式

14.3 插入log节点，并得到每一层的参数范围

这一步是必须的
使用transform_graph 工具插入log节点

Freeze Re-quantization Range
因为量化卷积(mkldnn)输出是INT32的，需要重新量化成INT8，而且量化成INT8的scale不在原始图里面存着，所以通过这一步，做一次inference，记录scala，去需要再量化一次，通过RequantizationRange去计算
如果量化节点的输出已经是INT8的格式(比如Maxpool节点)，就不需要Re-quantization
这一步 freeze之后就没有RequantizationRange这个节点了只保留了量化的scala

找到RequantizationRange这个节点，在这个节点后面插入一个Print节点去打印输出数据的范围信息
RequantizationRange节点似乎是跟在Conv2D节点后面的，打印Conv2D的INT32输出的最大值和最小值
选取一部分训练数据，进行inference，记录最大和最小值（Print节点会打出来的），保存成min_max.log文件
python Inference.py 2> min_max.log
因为Print节点的输出是error所以用2去重定向就可以了
利用min_max.log和transform_graph工具去freeze这个requantization_ranges这个节点，把节点值变成常量，加快运算
freeze之后就没有RequantizationRange这个节点了
freeze之后把这个requantization_ranges节点通过2个const(name/frozen_min和name/frozen_max)替换了
tensorflow/tools/graph_transforms 里面的readme有介绍freeze_requantization_ranges这个transform做了什么

Freeze max ranges
Max节点一般在量化之前出现，计算输入张量的最大值，用于量化

找到Max这个节点，在这个节点后面插入一个Print节点去打印输出数据的范围信息
选取一部分训练数据，进行inference，记录最大值（Print节点会打出来的），保存成max.log文件
利用max.log文件去freeze Max这个节点((去除Max节点，用大值const的节点去替换name/frozen_max_only)，加速inference的运算
freeze之后就没有Max这个节点了

Freeze min ranges
Min节点一般在量化之前出现，计算输入张量的最小值，用于量化

找到Min这个节点，在这个节点后面插入一个Print节点去打印输出数据的范围信息
选取一部分训练数据，进行inference，记录最大值（Print节点会打出来的），保存成min.log文件
利用min.log文件去freeze Min这个节点(去除Min节点，用小值const节点替换name/frozen_min_only)，加速inference的运算
freeze之后就没有Min这个节点了

通过这几步之后，quantize_graph.py 脚本生成的6个节点，只剩下了三个:

QuantizeV2：输入FP32，Min，Max计算量化的INT8输出，输入计算节点
输入计算节点之后：计算节点的输出：比如量化卷积计算的输出是 INT32 的(MKLDNN x8s8X32的primitive)
Requantize：具体计算INT32输出量化成INT8
Dequantize：INT8结果反量化成FP32的格式

Requantize 又可以和conv合并成一个节点

14.4 利用transform_graph 工具

这一步不是必须的，最好运行下

因为前面几步产生了一些不需要的节点，利用transform_graph 工具再移除一些不必要的节点strip_unused_nodes
将INT8的conv和后面的requantize节点合并:fuse_quantized_conv_and_requantize

14.5 对比FP32以及INT8模型

FP32
model.pb是训练得到的FP32模型
BS1 精度： 0.94085
BS128时的Throughput：2300 FPS

conv层调用 op是Conv2D，经过mkl_layer_pass之后对应了TF里面_mklconv这个op，对应了TF的MklConvOp这个kernel，

REGISTER_KERNEL_BUILDER(Name("_MklConv2D")                               \
                            .Device(DEVICE_CPU)                          \
                            .TypeConstraint("T")                      \
                            .Label(mkl_op_registry::kMklOpLabel),        \
                        MklConvOp);

根据这个函数去创建MklConvOp对象并调用Compute方法
对应mkldnn里面的jit_avx512_common_convolution_fwd_t这个primitive

mkldnn verbose的输出：mkldnn_verbose,exec,convolution,jit:avx512_common,forward_training,fsrc:nChw16c fwei:OIhw16i16o fbia:undef fdst:nChw16c,alg:convolution_direct,mb128_ic32oc64_ih14oh14kh5sh1dh0ph2_iw14ow14kw5sw1dw0pw2,1.41382

INT8
一步步量化得到的INT8模型是： min_max_frozen_int8_model.pb
BS1 精度： 0.93885
BS128时的Throughput： 2380.7939278833765 images/second
这个模型有两个卷积运算，第一个卷积运算没有INT8化，第二个卷积运算INT8化了
我们这里关注第二个卷积运算

conv调用了 op是QuantizedConv2D，经过mkl_layer_pass之后对应了TF里面_MklQuantizedConv2D这个op,TF的MklQuantizedConv2DOp这个kernel，MklQuantizedConv2DOp的Compute方法先调用了MklConvOp的Compute的方法
虽然也调用了MklConvOp的Compute的方法
但是MklQuantizedConv2DOp这个kernel是通过

MklConvOp::Compute(context);

去创建 MklConvOp对象并调用Compute方法，和FP32的模板参数类型不一样对应了Tinput, Tfilter以及Toutput
因为模板参数不一样，调用MklConvOp的compute方法的时候对应找到的对应的mkldnn的pd也不一样，所以对应的mkldnn的primitive也不一样
通过看mkldnn的cpu_engine.cpp的cpu_impl_list怀疑对应了mkldnn的jit_avx512_core_x8s8s32x_convolution_fwd_t
这个primitive
如何证实：

通过gdb去debug，证实了猜想
export MKLDNN_JIT_DUMP=1 去看dump出来的bin，里面果然有mkldnn_dump__jit_avx512_core_x8s8s32x_conv_fwd_ker_t.23.bin
jit_avx512_core_x8s8s32x_convolution_fwd_t这个op里面在满足输入条件时会去调用VNNI的指令集VPDPBUSD

问题
在运行测试时，dump jit-bin去查看是否调用了指令

xed64 -ir mkldnn_dump__jit_avx512_core_x8s8s32x_conv_fwd_ker_t.23.bin | grep vpdpbusd

我们这里没有看到调用VNNI的指令集
重要加-64选项

xed64 -ir mkldnn_dump__jit_avx512_core_x8s8s32x_conv_fwd_ker_t.23.bin -64 | grep vpdpbusd

这样就可以看到VPDPBUSD的指令被dump出来了
我们单步调试，看到mkldnn里面jit_avx512_core_x8s8s32x_convolution_fwd_t里面jcp_ver 是 ver_vnni
同时compute_ker函数(jit_avx512_core_x8s8s32x_conv_kernel.cpp)里面的cpmpute部分也的确调用到了vpdpbusd

mkldnn verbose的输出：
mkldnn_verbose,exec,convolution,jit_int8:avx512_core,forward_training,fsrc:nhwc fwei:OIhw4i16o4i fbia:undef fdst:nhwc,alg:convolution_direct,mb128_ic32oc64_ih14oh14kh5sh1dh0ph2_iw14ow14kw5sw1dw0pw2,0.535156

看到精度只掉了0.002
但是Throughput也没有显著提高
但是只看这一层的性能从1.4ms提高到了0.53ms

15. GDB打印变量值

Tensor变量

Tensor* out
p *(unsigned long *)(out->buf_->data_)

out->buf->data 是数据指针 const
根据代码里面数据类型，转换成unsigned long 类型
再*取指针值

nodedef 和grahdef
都是定义在 tensorflow/core/framework/.proto 文件里面
用DebugString可以打印值

p nodedef->DebugString()
p grahdef->DebugString()

16. 编写和触发单元测试

16.1 编写

在编写单元测试的时候可以参考Netron查看的模型结构

在tensorflow/python/kernel_tests/ 目录下面写在对应的单元测试的文件里面
比如之前写的concat的单元测试，测试是否成功创建concat op
tensorflow/python/kernel_tests/concat_op_test.py
写在这个文件目录下面

16.2 触发

# All tests (for C++ changes).
$bazel test //tensorflow/...
# All Python tests (for Python front-end changes).
bazel --output_user_root=$build_dir test --config=mkl --copt=-O3 //tensorflow/python/...
# 只想运行一个文件
bazel --output_user_root=$build_dir test --config=mkl --copt=-O3 //tensorflow/python/kernel_tests:concat_op_test

17. 语法检查

17.1 pylint 检查python语法规范

pip install pylint
## rcfile 文件 指定了pylint使用的规则
export rcfile=$tensorflow_root/tensorflow/tools/ci_build/pylintrc
pylint --rcfile=$rcfile $tensorflow_root/tensorflow/python/kernel_tests/concat_op_test.py

输出可能有很多语法不规范，选择和自己这个commit相关的不规范语法去修改

17.2 clang-format 检查 C++ 语法规范

#ubuntu：
apt-get install clang-format
#centos：
#http://releases.llvm.org/download.html 下载预编译版本，**现在似乎用不了**
wget https://github.com/llvm/llvm-project/releases/download/llvmorg-8.0.1/clang+llvm-8.0.1-powerpc64le-linux-rhel-7.4.tar.xz
clang-format -style=Google mkl_concat_op.cc 2>&1 | tee mkl_concat_op.cc.bk
diff mkl_concat_op.cc mkl_concat_op.cc.bk

运行之后会生成一个标准语法的文件版本，和自己的版本的代码对比，修改语法不规范的地方

18. Appendix

18.1 Intel优化版本的介绍

https://www.youtube.com/watch?v=VI5vjB6-zNE

你可能感兴趣的:(TensorFlow)

Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
关于python版本与TensorFlow安装的版本问题 iiimharrygGc. python tensorflow 开发语言
实测在conda环境下，python3.12的版本无法安装TensorFlow2.14.0（截至2024.5.21）最新版本在python3.7版本下正常安装ps：上述安装均在anacondanavigator软件内安装
Vue + Django的人脸识别系统 DXSsssss python DRF tensorflow 人脸识别
最近在研究机器学习，刚好最近看了vue+Djangodrf的一些课程，学以致用，做了一个人脸识别系统。项目前端使用Vue框架，用到了elementui组件，写起来真是方便。比之前传统的dtl方便了太多。后端使用了drf，识别知识刚开始打算使用opencv+tensorflow,但是发现吧识别以后的结果返回到浏览器当中时使用opencv比较麻烦（主要是我太菜，想不到比较好的方法），因此最终使用了tf
Awesome TensorFlow weixin_30594001 人工智能移动开发大数据
AwesomeTensorFlowAcuratedlistofawesomeTensorFlowexperiments,libraries,andprojects.Inspiredbyawesome-machine-learning.WhatisTensorFlow?TensorFlowisanopensourcesoftwarelibraryfornumericalcomputationusin
【ShuQiHere】小白也能懂的 TensorFlow 和 PyTorch GPU 配置教程 ShuQiHere tensorflow pytorch 人工智能
【ShuQiHere】在深度学习中，GPU的使用对于加速模型训练至关重要。然而，对于许多刚刚入门的小白来说，如何在TensorFlow和PyTorch中指定使用GPU进行训练可能会感到困惑。在本文中，我将详细介绍如何在这两个主流的深度学习框架中指定使用GPU进行训练，并确保每一个步骤都简单易懂，跟着我的步骤来，你也能轻松上手！1.安装所需库首先，确保你已经安装了TensorFlow或PyTorch
TensorFlow的基本概念以及使用场景张柏慈决策树
TensorFlow是一个机器学习平台，用于构建和训练机器学习模型。它使用图形表示计算任务，其中节点表示数学操作，边表示计算之间的数据流动。TensorFlow的主要特点包括：1.多平台支持：TensorFlow可以运行在多种硬件和操作系统上，包括CPU、GPU和移动设备。2.自动求导：TensorFlow可以自动计算模型参数的梯度，通过优化算法更新参数，以提高模型的准确性。3.分布式计算：Ten
基于VGG的猫狗识别卑微小鹿 tensorflow tensorflow
由于猫和狗的数据在这里，所以就做了一下分类的神经网络1、首先进行图像处理：importcsvimportglobimportosimportrandomos.environ['TF_CPP_MIN_LOG_LEVEL']='2'importtensorflowastffromtensorflowimportkerasfromtensorflow.kerasimportlayersimportnum
轻松升级：Ollama + OpenWebUI 安装与配置【AIStarter】 ai_xiaogui AI作画 AI软件人工智能 AI写作 AIStarter
Ollama是一个开源项目，用于构建和训练大规模语言模型，而OpenWebUI则提供了一个方便的前端界面来管理和监控这些模型。本文将指导你如何更新这两个工具，并顺利完成配置。准备工作确保你的系统已安装Git和Python环境。安装必要的依赖库，如TensorFlow或PyTorch等。更新步骤克隆项目：使用Git命令行工具克隆最新的Ollama和OpenWebUI仓库到本地。更新代码：确保你正在使
深度学习之基于Tensorflow卷积神经网络水果蔬菜分类识别系统 qq1744828575 python python plotly
欢迎大家点赞、收藏、关注、评论啦，由于篇幅有限，只展示了部分核心代码。文章目录一项目简介二、功能三、系统四.总结一项目简介一、项目背景与目标背景：在现代农业、智能零售等领域，自动化分类与识别技术对于提高效率、优化供应链管理具有重要意义。为了响应这一需求，本项目旨在构建一个基于深度学习技术的水果蔬菜分类识别系统。目标：构建一个准确率高、性能稳定的水果蔬菜分类识别模型，利用Tensorflow框架
ImportError: cannot import name ‘conv_utils‘ from ‘keras.utils‘ CheCacao keras 深度学习 python tensorflow tensorflow2 人工智能
将fromkeras.utilsimportconv_utils改为fromtensorflow.python.keras.utilsimportconv_utilsImportError:nomodulenamed'tensorflow.keras.engine将fromkeras.engine.topologyimportLayer改为fromtensorflow.python.keras.l
jupyter出错ImportError: cannot import name ‘np_utils‘ from ‘keras.utils‘ ，怎么解决？七月初七淮水竹亭～人工智能 python jupyter keras 深度学习
文章前言此篇文章主要是记录一下我遇到的问题以及我是如何解决的，希望下次遇到类似问题可以很快解决。此外，也希望能帮助到大家。遇到的问题出错：ImportError:cannotimportname'np_utils'from'keras.utils'，如图：如何解决首先我根据网上文章的一些提示，将fromkeras.utilsimportnp_utils换成了fromtensorflow.keras
tensorflow和python不兼容_tensorflow与numpy的版本兼容性问题的解决 weixin_39727934
在Python交互式窗口导入tensorflow出现了下面的错误：ox8免费资源网root@ubuntu:~#python3Python3.6.8(default,Oct72019,12:59:55)[GCC8.3.0]onlinuxType"help","copyright","credits"or"license"formoreinformation.>>>importtensorflowas
numpy python 兼容_tensorflow与numpy的版本兼容性问题 weixin_39761822 numpy python 兼容
在Python交互式窗口导入tensorflow出现了下面的错误：root@ubuntu:~#python3Python3.6.8(default,Oct72019,12:59:55)[GCC8.3.0]onlinuxType"help","copyright","credits"or"license"formoreinformation.>>>importtensorflowastf;/usr/
安装tensorflow2.5.0 发现 tensorflow 和 numba 两者对应Numpy版本冲突 GJK_ tensorflow numpy 人工智能
问题：python3.8安装tensorflow2.5.0发现tensorflow和numba两者对应Numpy版本冲突tensorflow-gpu2.5.0requiresnumpy~=1.19.2numba0.58.1requiresnumpy=1.22解决方法：将numba降低版本为0.53pipinstallnumba==0.53再将numpy版本改为1.19.2pipinstallnum
python3.7安装keras教程_python 3.7 安装 sklearn keras(tf.keras) weixin_39641103
#1sklearn一般方法网上有很多教程，不再赘述。注意顺序是numpy+mkl，然后scipy的环境，scipy，然后sklearn#2anocondaanaconda原始的环境已经自带了sklearn，这里说一下新建环境（比如创建了一个tensorflow的环境），activatetensorflow2.0，然后condainstallsklearn即可，会帮你把各种需要的库都安装。#kera
Python高层神经网络 API库之Keras使用详解 Rocky006 python keras 开发语言
概要随着深度学习在各个领域的广泛应用，许多开发者开始使用各种框架来构建和训练神经网络模型。Keras是一个高层神经网络API，使用Python编写，并能够运行在TensorFlow、CNTK和Theano之上。Keras旨在简化深度学习模型的构建过程，使得开发者能够更加专注于实验和研究。本文将详细介绍Keras库，包括其安装方法、主要特性、基本和高级功能，以及实际应用场景，帮助全面了解并掌握该库的
将本地已有的项目上传到新建的git仓库的方法 10676
将本地已有的一个非git项目上传到新建的git仓库的方法一共有两种。一、克隆+拷贝第一种方法比较简单，直接用把远程仓库拉到本地，然后再把自己本地的项目拷贝到仓库中去。然后push到远程仓库上去即可。此方法适用于本地项目不是一个git仓库的情况。1、首先克隆[email protected]:yuanmingchen/tensorflow_study.git2、然后复制自己项目的所有文件到
Python(PyTorch和TensorFlow)图像分割卷积网络导图(生物医学) 亚图跨际交叉知识 Python 生物医学脑肿瘤图像皮肤病变多模态医学图像多尺度特征生物医学腹部胰腺图像病灶边界气胸图像
要点语义分割图像三层分割椭圆图像脑肿瘤图像分割动物图像分割皮肤病变分割多模态医学图像多尺度特征生物医学肖像多类和医学分割通用图像分割模板腹部胰腺图像分割分类注意力网络病灶边界分割气胸图像分割Python生物医学图像卷积网络该网络由收缩路径和扩展路径组成，收缩路径是一种典型的卷积网络，由重复应用卷积组成，每个卷积后跟一个整流线性单元(ReLU)和一个最大池化操作。在收缩过程中，空间信息减少，而特征信
AttributeError: ‘tuple‘ object has no attribute ‘shape‘ 晓胡同学 keras 深度学习 tensorflow
AttributeError:‘tuple’objecthasnoattribute‘shape’在将keras代码改为tensorflow2代码的时候报了如下错误AttributeError:'tuple'objecthasnoattribute'shape'经过调查发现，损失函数写错了原来的是这样model.compile(loss=['binary_crossentropy'],optimi
Autoencoder chuange6363 人工智能 python
自编码器Autoencoder稀疏自编码器SparseAutoencoder降噪自编码器DenoisingAutoencoder堆叠自编码器StackedAutoencoder本博客是从梁斌博士的博客上面复制过来的，本人利用Tensorflow重新实现了博客中的代码深度学习有一个重要的概念叫autoencoder，这是个什么东西呢，本文通过一个例子来普及这个术语。简单来说autoencoder是一
OSError: libnccl.so.2: cannot open shared object file: No such file or directory 王小葱鸭 python
linux安装完torch或者tensorflow的gpu版本，安装没问题，但是import就有问题，报错OSError:libnccl.so.2:cannotopensharedobjectfile:Nosuchfileordirectory，是缺少nvidia的ncll，下面介绍解决方法：1安装ncll下载链接https://developer.nvidia.com/nccl/nccl-dow
深度学习框架人工智能操作系统训练&前向推理 PyTorch Tensorflow MindSpore caffe 张量加速引擎TBE 深度学习编译器多面体 polyhedral AI集群框架 EwenWanW 深度学习人工智能 pytorch 深度学习编译器
深度学习框架人工智能操作系统训练&前向推理深度学习框架发展到今天，目前在架构上大体已经基本上成熟并且逐渐趋同。无论是国外的Tensorflow、PyTorch，亦或是国内最近开源的MegEngine、MindSpore，目前基本上都是支持EagerMode和GraphMode两种模式。AI嵌入式框架OneFlow&清华计图Jittor&华为深度学习框架MindSpore&旷视深度学习框架MegEn
Tensorflow中Keras搭建神经网络六步法及参数详解 -- Tensorflow自学笔记12 青瓷看世界 tensorflow 笔记人工智能深度学习神经网络
一.tf.keras搭建神经网络六步法1.import相关模块如importtensorflowastf。2.指定输入网络的训练集和测试集如指定训练集的输入x_train和标签y_train，测试集的输入x_test和标签y_test。3.逐层搭建网络结构model=tf.keras.models.Sequential()。4.在model.compile()中配置训练方法选择训练时使用的优化器、
MacBook Air M1 使用 miniconda 安装python3.11.7 和 tensorflow2.16.1详细 - TensorFlow自学笔记1 青瓷看世界 tensorflow tensorflow 人工智能 mac python 深度学习
1m1mac安装xcode命令工具在Terminal终端执行以下代码：xcode-select--install2下载支持m1芯片arm64的miniconda在miniconda官网，找到下图中保护AppleM1的bash安装包，Miniconda—Anacondadocumentation3安装miniconda在Terminal执行下列代码：1）cd"miniconda下载目录"2）bash
机器学习框架巅峰对决：TensorFlow vs. PyTorch vs. Scikit-Learn实战分析 @sinner 技术选型机器学习 tensorflow pytorch scikit-learn
1.引言1.1机器学习框架的重要性在机器学习的黄金时代，框架的选择对于开发高效、可扩展的模型至关重要。合适的框架可以极大地提高开发效率，简化模型的构建和训练过程，并支持大规模的模型部署。因此，了解和选择最合适的机器学习框架对于研究人员和工程师来说是一个关键的步骤。1.2三大框架概览：TensorFlow、PyTorch、Scikit-Learn目前，最流行的机器学习框架主要有TensorFlow、
Tensorflow2.16中的Keras包含哪些层(layers)?层的功能及参数详细解释 -- TensorFlow自学笔记6 青瓷看世界 tensorflow tensorflow keras 人工智能
在Keras中，层（Layer）是构建神经网络的基本组件。Keras提供了多种类型的层，用于处理不同类型的输入数据和执行特定的数学操作。英文版可参考TensorFlow官方文档：Module:tf.keras.layers|TensorFlowv2.16.1一.层的分类‌1.基本网络层‌1.1.Dense层用于执行全连接操作；1.2.卷积层Conv1D、Conv2D、Conv3D层，用于执行一维、
Tensorflow2 如何扩展现有数据集(缩放、随机旋转、水平翻转、平移等)，从而提高模型的准确率 -- Tensorflow自学笔记14 青瓷看世界 tensorflow 人工智能 python
实际生活中的数据集，往往不是标准的数据，而是有倾斜角度、有旋转、有偏移的数据，为了提高数据集的真实性，提高模型预测的准确率，可以用ImageDataGenerator函数来扩展数据集importtensorflowastffromtensorflow.keras.preprocessing.imageimportImageDataGeneratorimage_gen_train=ImageData
机器学习100天-Day2503 Tensorboard 训练数据可视化（线性回归）我的昵称违规了
首页.jpg源代码来自莫烦python(https://morvanzhou.github.io/tutorials/machine-learning/tensorflow/4-1-tensorboard1/)今日重点读懂教程中代码，手动重写一遍，在浏览器中获取到训练数据Tensorboard是一个神经网络可视化工具，通过使用本地服务器在浏览器上查看神经网络训练日志，生成相应的可是画图，帮助炼丹师
Python(TensorFlow)和Java及C++受激发射损耗导图亚图跨际 Python 交叉知识算法去噪预测算法聚焦荧光团伪影消除算法囊泡动力学自动化多尺度统计物距
要点神经网络监督去噪预测算法聚焦荧光团和检测模拟平台伪影消除算法性能优化方法自动化多尺度囊泡动力学成像生物研究多维分析统计物距粒子概率算法Python和MATLAB图像降噪算法消除噪声的一种方法是将原始图像与表示低通滤波器或平滑操作的掩模进行卷积。例如，高斯掩模包含由高斯函数确定的元素。这种卷积使每个像素的值与其相邻像素的值更加协调。一般来说，平滑滤波器将每个像素设置为其自身及其附近相邻像素的平均
中文车牌识别系统 `End-to-end-for-Chinese-Plate-Recognition` 教程皮静滢Annette
中文车牌识别系统End-to-end-for-Chinese-Plate-Recognition教程End-to-end-for-chinese-plate-recognition基于u-net，cv2以及cnn的中文车牌定位，矫正和端到端识别软件，其中unet和cv2用于车牌定位和矫正，cnn进行车牌识别，unet和cnn都是基于tensorflow的keras实现项目地址:https://gi
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_