shelley__huang

深度学习模型部署浅析

关于模型部署可能有很多种概念或者解释。

根据看的一些文献和接触的一些开源工具，进行梳理。

模型部署说到底，就是通信传输，以及平台存储打通，以及任务的定时工作(定时工作可能偏向于调度了)。

1. 模型部署的抽象理解

1.1 模型导出

对于新训练完的模型进行通信传输（磁盘io或者网络io），这里可以考虑类似于k8或者hdfs这些大数据或者云计算的工具，将模型存储于分布式环境，

即模型从 内存 ---> 缓存端(hdfs或其他s3等介质中，甚至说是磁盘)

1.2 模型文件传输

系统部署中，需要get到新的模型，因此需要到之前的缓存端去读取

即模型 缓存端 ---> 目标系统端，

这种情况下，我们可能理解目标系统需要去缓存端提取model，可能会有通信瓶颈，如目标端和缓存端在两个集群上，需要socket或者scp的传输来实现model提取，也即磁盘io或网络io的方式；

1.3 模型读入

在目标端的深度框架(tf/torch/mxnet...)对model文件读取，目标文件通过一些函数调用或者其他工具，如可以使用pyarrow工具进行传递，读取到model；

1.4 模型预测

根据进行深度框架对应的predict或者run等功能实现预测。这里可以有多种方式，如也可以通过spark的udf来实现模型的预测，将model进行广播之后，在对数据集进行udf的map计算。

2. 模型的在线预测与部署

tf一般有三个模型的口子，即session、estimator、keras。

先简单看下三者里面最麻烦的session是如何进行模型输入输出与预测的。

keras与estimator或者pytorch的导出方式相对简单，与sklearn等方法较为接近，可以是h5或者pickle等文件形式。

2.1 session环境模型保存与导入

原生的session包含2种模型输出和导入方式，即

###方式1
#1.1 模型写出文件（ckpt或者pb的保存模式差不多）
#save之后，包括图结构，变量的内容，都会被存入到新创建的 saved_model_dir 目录内
builder = tf.saved_model.builder.SavedModelBuilder(modelpath)
builder.add_meta_graph_and_variables(
        sess=sess,
        tags=['test_saved_model'],
        signature_def_map={signature_key: signature},
        clear_devices=True)
builder.save()
    
#1.2 模型导入
meta_graph_def = tf.saved_model.loader.load(sess1, ['test_saved_model'], saved_model_dir)
signature = meta_graph_def.signature_def
x_tensor_name = signature[signature_key].inputs[input_key].name
y_tensor_name = signature[signature_key].outputs[output_key].name

##1.3 模型预测
x = sess1.graph.get_tensor_by_name(x_tensor_name)
y = sess1.graph.get_tensor_by_name(y_tensor_name)
feed_dict = {x: np.ones([1, 10])}
pred = sess1.run(y, feed_dict=feed_dict)

##详细步骤参考  https://www.jianshu.com/p/de8ae24d574a
#本文仅为代码片段

###方式2
#2.1 模型写出文件（ckpt或者pb的保存模式差不多）
saver1  = tf.train.saver()
saver1.save(sess,'net/my_net.ckpt')

#2.2 导入图和ckpt,pb不能再进行训练，ckpt可以进一步炼丹
saver = tf.train.import_meta_graph('./xxx/xxx.ckpt.meta')
saver.restore(sess, './xxx/xxx.ckpt')

##2.3 模型预测
inputs = tf.get_default_graph().get_tensor_by_name('inputs:0')
prediction = tf.get_default_graph().get_tensor_by_name('prediction:0')
pred = sess.run(prediction, feed_dict={inputs: xxx}

#详细步骤参考 https://www.jianshu.com/p/c9fd5c01715e
#本文仅为代码片段

根据上述代码可以发现：

1）与前面第一章讲的类似，都会有对应的导出过程、模型读入、模型预测这些，唯独缺了模型文件传输这一块；

2）实际场景中，可能存在跨集群或者跨环境等，因而需要有模型文件传输这一环节；

3）在不涉及client端的模型框架不一致或者版本不一致等问题上，基本上第一章节的方法都可以有效应对；

3. 跨语言/环境的部署与预测

遇到跨语言或者环境时，可能相对较为尴尬，目前没有相对比较好的方法，都在摸索阶段吧。

本文讲解的环境，可能以python和java之间的跨语言为主，可能涉及scala，但和java差别不大。暂时不涉及C/C++，后续遇到了补上。

3.1 cs架构

3.1.1 flask提供服务

采用cs架构，设置一个服务端一个客户端，主要采用flask的方式进行restful实现。

1）当client触发时，会将数据通过http进行传输，

2）server端对模型预测后，将预测结果数据以json或其他的格式，传到约定的port/xxx/进行交互；

3）client端在约定端口的目录下获得结果；

从而形成了模型的预测，且模型不需要再目标客户端进行部署，在server端进行定时更新即可。

3.1.2 类连接池方式

R或者python，都支持与java进行通信连接；

对于数据量大时，需要考虑数据流，减少数据的一些io。

3.1.2.1 R语言实现连接

首先讲R，R语言用到较多的方式，就是Rserver。

1）在建立好R脚本，并且部署好Rserver环境；

2）在client端则编写好java的代码，代码逻辑是调用了R脚本，实现数据交互和在java中自动开启了Rserver;

3) 连接的开启，主要调用了RConnection，也即类似于会话的功能，可以跨线程乃至进程使用；

面对数据量较大时，需要考虑io问题，代码中减少数据io，尽量在其他逻辑中实现。

library(mlr)
library(xgboost)
library(tensorflow)
library(keras)

getSquareSum <- function(x,y){
  m <- x*x + y*y
  print("我们执行了R函数")  
  return(m)
}
## 代码取材于来自于公众号“Python爱好者社区”，文章名为 Java调用R与python
## 可以将上述代码修改成keras或者tf的代码，从而实现深度学习的模型调用，相当于在线调用训练或预测

同时构造一个Java2r的Java类，用来调用上面的R脚本，并且实现数据交互和在Java中自动开启Rserve:

import org.rosuda.REngine.REXP;
import org.rosuda.REngine.REXPMismatchException;
import org.rosuda.REngine.Rserve.RConnection;
import org.rosuda.REngine.Rserve.RserveException;


public class Java2r {

    public static void main(String[] args) {

        System.out.println(StartRserve.checkLocalRserve());

        System.out.println("准备开始Java调用R");
        System.out.println("-----------------------------------------------");
        RConnection rConnection = null;

        try {
         rConnection = new RConnection();
         rConnection.eval("source('C:/test.R')");

        } catch (RserveException e) {
        e.printStackTrace();
        } // 文件名不能带中文,否则报错：eval failed, request status: error code: 127
        int a = 2;
        int b = 3;
        int c = 4;
        int sum = 0;

        try {
        sum = rConnection.eval("getSquareSum(" + a + "," + b + ")").asInteger();
        } catch (Exception e) {
        e.printStackTrace();
        }

        System.out.println("the sum = " + sum);
        rConnection.close();

        // 调用R代码
        System.out.println("调用R代码");

        RConnection rc = null;
        try {
            rc = new RConnection();
        } catch (RserveException e) {
            e.printStackTrace();
        }
        REXP x = null;
        try {
            x = rc.eval("library(xgboost);R.version.string");
        } catch (RserveException e) {
            e.printStackTrace();
        }
        try {
            System.out.println(x.asString());
        } catch (REXPMismatchException e) {
            e.printStackTrace();
        }
        rc.close();
        System.out.println("-----------------------------------------------");
        System.out.println("回到Java");

    }
} 
//## 代码取材于来自于公众号“Python爱好者社区”，文章名为 Java调用R与python

3.1.2.2 Python实现连接(java调用命令行)

早期对机器学习模型的部署，不少前辈采用shell的方式实现，目前可能用到的比较少了。而，强大的java同样可以使用这种方法来实现python脚本的运行，核心代码就是：

Runtime.getRuntime().exec(args1);

但是，这种方法面对大数据量时，往往会力不从心，python代码中尽量避免数据流，减少数据的io。

首先准备要有一个Python脚本文件，当然与R一样，需要准备这些包，比如：

import sys
import pandas as pd
import numpy as np
import sklearn
import xgboost
import lightgbm
import tensorflow as tf
import keras

def my_test(str1,str2,str3,str4):
    return "Python函数运行：java调Python测试："+str1+str2+str3+str4
    

if __name__=="__main__":
    print("脚本名：", sys.argv[0])

    my_arg = []
    for i in range(0, len(sys.argv)):
        my_arg.append(sys.argv[i])
    print("Java传入的参数长度为:"+str(len(my_arg)))
    
    result = my_test(my_arg[1],my_arg[2],my_arg[3],my_arg[4])
    print(result)
## 代码取材于来自于公众号“Python爱好者社区”，文章名为 Java调用R与python

其次我们构造一个J2py类用来调用上述Python脚本,并且实现Java数据与Python的交互(动态传参的过程）：

import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.io.PrintStream;
import java.util.ArrayList;
import java.util.List;


public class J2py {

    public static void main(String[] args) {
        // 需传入的参数
        String a = "你好", b = "123", c = "徐静", d = "qingdao";
        System.out.println("Java中动态参数已经初始化,准备传参");
        // 设置命令行传入参数
        String[] args1 = new String[] { "python","java\\03_project\\J2py\\src\\my_model.py", a,b, c, d }; 
        //Java数据a,b,c,d传入Python
        Process pr;
        try {
            pr = Runtime.getRuntime().exec(args1); //最核心的函数

            BufferedReader in = new BufferedReader(new InputStreamReader(pr.getInputStream(), "gbk"));
            String line;
            List lines = new ArrayList();

            System.out.println("-----------------------------------------------");

            while ((line = in.readLine()) != null) {
                System.out.println(line);
                lines.add(line); //把Python的print值保存了下来

            }
            System.out.println("-------------------------------------------------");

            in.close();

            pr.waitFor();
        } catch (Exception e) {
            e.printStackTrace();
        }

        System.out.println("Java调Python结束");

    }

}
//## 代码取材于来自于公众号“Python爱好者社区”，文章名为 Java调用R与python

现在可能py4j会用的多一些，

3.1.3 thrift

前面的flask通过http的方式，在数据量大的情况下，性能影响会较大，涉及到大数据量的传输可能不现实，因此这里面讲另外一块，通过thrift实现跨语言服务，通过Thrift实现python和java之间的RPC调用。

1）主要是将java端的数据集（或者干脆称之为训练集）丢到首先经过序列化，通过thrift；

#thrift -r --gen cpp student.thrift  //生成C++代码
thrift -r --gen py student.thrift　　//生成python代码
thrift -r --gen java student.thrift   //生成java代码

这一部分主要参考了https://blog.csdn.net/huanucas/article/details/90146636

3.2 中间层转换

3.2.1 onnx

传统的ml项目则是通过pmml的方式进行预测，但精度会有所损失，这也是无法避免的问题。

而面对深度框架时候，也存在模型的标准格式，可以兼容不同深度学习框架，如采用onnx的中间格式，tf和torch都会兼容这种格式。

具体的模式中体与第一章中讲解的类似，就是讲导出的模型文件，中间转成了onnx，最后模型读入的时候，再根据实际的深度框架再转回来即可。

详细步骤不具体展开。

3.2.2 thrift

这里面讲另外一块，通过thrift实现跨语言服务。由于前面已经阐述过thrift，因此这里不再阐述。RPC或者说序列化中间格式，往往都会混在一块，很难说清楚。

3.2.3 tvm

tensorflow对于终端(android/ios)有tflite的强力支持，也有针对移动端剪枝蒸馏的pocketflow库（腾讯开源，依然导出tflite）。

pytorch在1.3之后添加了对移动端的支持，pytorch模型经onnx转化为tvm模型，可能在使用上没有tf的支持度好。

从而回到主题，谈到模型部署在移动端这种环境，与常规的服务端的部署差别较大，需要特定的虚拟机提供支持，即tvm，严格意义上来说，这种部署方式不称之为是介质或者说容器的，类似于jvm，但又似乎不全对，毕竟也是生成了一些中间的文件。因此暂时放置在这里。

环境准备----编译安装llvm/tvm/onnx，
这些基本的必要条件，预编译的文件可能会有报错，因而需要自己手动进行源码下载并编译，我们在大数据场景中，如spark/hive等，也会遇到类似的问题。llvm是一个编译器框架。onnx用conda/pip会出现一些问题，也需从源码下载并编译
pytorch转onnx
这一块可能资料较多，根据对应的场景，图像还是nlp或者其他的，进行一些转换
onnx转tvm
tvm是深度学习工作负载部署到硬件的端到端IR（中间表示）堆栈，把深度学习模型分发到各种硬件设备上的、端到端的解决方案。
因而这里是关键的一步，需要依赖llvm。
对onnx的转换编译完成，得到gemfield.so / gemfield.json / gemfield.params三个文件，
gemfield.so 动态库文件
gemfield.json 使用json结构描述了神经网络结构
gemfield.params 包含了网络权重参数

import onnx
import numpy as np
import tvm
import tvm.relay as relay

##1.载入源onnx文件
onnx_model = onnx.load('gemfield.onnx')   

x = np.ones([1,3,256,256])
# arch = "arm64"     
# target =  "llvm -target=%s-linux-android" % arch
target = 'llvm' ##这里的转换设备方向是llvm，后续可以修改为安卓，即前一行代码
input_name = 'gemfield'
shape_dict = {input_name: x.shape}
##2.导入onnx
sym, params = relay.frontend.from_onnx(onnx_model, shape_dict)
##3.计算图构建
with relay.build_config(opt_level=1):
 intrp = relay.build_module.create_executor('graph', sym, tvm.cpu(0), target)

dtype = 'float32'
##4.
tvm_output = intrp.evaluate(sym)(tvm.nd.array(x.astype(dtype)), **params).asnumpy()
##5.编译生成目标文件
with relay.build_config(opt_level=2):
 graph, lib, params = relay.build_module.build(sym, target, params=params)

libpath = "gemfield.so"
lib.export_library(libpath)

graph_json_path = "gemfield.json"
with open(graph_json_path, 'w') as fo:
 fo.write(graph)

param_path = "gemfield.params"
with open(param_path, 'wb') as fo:
 fo.write(relay.save_param_dict(params))
##代码源自https://zhuanlan.zhihu.com/p/58995914     大佬Gemfield写的。
4.推断
上述编译出来的gemfield.so通过tvm.module加载。使用gemfield.so和tvm模块进行推断。
即尝试在新的环境中测试生成的文件，是否可以在新环境中跑起来，进行结果的预测推断。
代码可以参考前面地址，这里就不贴了。

tvm参考官方文档。https://docs.tvm.ai/tutorials/frontend/from_onnx.html#sphx-glr-tutorials-frontend-from-onnx-py

对于详细的经过tvm可以参考

https://zhuanlan.zhihu.com/p/108679717

https://zhuanlan.zhihu.com/p/58995914

3.3 网络权重传递

目前在tf的部署上，使用frozen pb的方案较多，不大使用tf serving，graph对网络搞不定，使用带宽效率不高

3.4 函数与依赖调用

实际上，在传统的机器学习项目中，面对java环境也可以类似的，可以将python或R语言生成的model做成一个jar，后续java进行调用即可。

这里以spark调用tf模型举例，在java环境下也适用。

使用spark-scala调用tensorflow2.0训练好的模型，具体可以参考

https://github.com/lyhue1991/eat_tensorflow2_in_30_days/blob/master/6-7%2C%E4%BD%BF%E7%94%A8spark-scala%E8%B0%83%E7%94%A8tensorflow%E6%A8%A1%E5%9E%8B.md

大致思路如下：

1）模型导出

将tf训练完成的model进行保存，如pb格式；

2）spark工程中，引入tensorflow依赖，即后续spark将调用这个jar包，如


    org.tensorflow
    tensorflow
    1.15.0

3）模型读入

模型通过tf的方法载入，由于spark是分布式的，因而需要进行广播，告知所有节点这个model了；

val spark = SparkSession
    .builder()
    .appName("TfRDD")
    .enableHiveSupport()
    .getOrCreate()
val sc = spark.sparkContext
//在Driver端加载模型
val bundle = tf.SavedModelBundle.load("/Users/model/1","serve")

//利用广播将模型发送到excutor上
val broads = sc.broadcast(bundle)

## 代码截取于https://github.com/lyhue1991/eat_tensorflow2_in_30_days/blob/master/6-7%2C%E4%BD%BF%E7%94%A8spark-scala%E8%B0%83%E7%94%A8tensorflow%E6%A8%A1%E5%9E%8B.md

4）模型预测(推断)

采用rdd或者sparksql均可，两者基本一致，

即将广播中的model获取

调用model中的session方法，和在tf中一样，

最后run

从而udf的编写完成，或者说是推断完成，这样就可以直接采用spark的withcolumn/selectExpr进行实现。rdd的也类似，只是将方法写在了map函数中。

//方法1，rdd实现
//通过mapPartitions调用模型进行批量推断
val rdd_result = rdd_data.mapPartitions(iter => {
    val arr = iter.toArray
    val model = broads.value
    val sess = model.session()
    val x = tf.Tensor.create(arr)
    val y =  sess.runner().feed("serving_default_inputs:0", x)
             .fetch("StatefulPartitionedCall:0").run().get(0)

//将预测结果拷贝到相同shape的Float类型的Array中
    val result = Array.ofDim[Float](y.shape()(0).toInt,y.shape()(1).toInt)
    y.copyTo(result)
    result.iterator  
})

//方法2,sparksql实现
//构造预测函数，并将其注册成sparkSQL的udf
val tfpredict = (features:WrappedArray[Float])  => {
            val bund = broads.value
            val sess = bund.session()
            val x = tf.Tensor.create(Array(features.toArray))
            val y =  sess.runner().feed("serving_default_inputs:0", x)
                     .fetch("StatefulPartitionedCall:0").run().get(0)
            val result = Array.ofDim[Float](y.shape()(0).toInt,y.shape()(1).toInt)
            y.copyTo(result)
            val y_pred = result(0)(0)
            y_pred
        }
spark.udf.register("tfpredict",tfpredict)
        
//构造DataFrame数据集，将features放到一列中
val dfdata =sc.parallelize(List(Array(1.0f,2.0f),Array(3.0f,5.0f),Array(7.0f,8.0f))).toDF("features")

//调用sparkSQL预测函数，增加一个新的列作为y_preds
val dfresult = dfdata.selectExpr("features","tfpredict(features) as y_preds")

## 代码截取于地址与上述一样

3.5 Api接口

尽管并不是任何方式都可以完美契合多种语言，但一个接口确实可以帮助解决很多问题，当然背后是不少工程师的心血。

我们常用的spark支持较多的主流的机器学习语言如Python/R/java/scala，H2O工具也是支持这4种语言，也是我工作中最常用的4种语言，当然4种语言各有千秋，其实4者也从前面的介绍中发现，各自有一些连接或者通信方式实现交互。本文主要对Python和R实现Spark的调用进行理解。

3.5.1 py4j

在可能py4j会用的多一些，PySpark 使用了 Py4j开源库，PySpark通过Py4J库与Spark 基于Scala的API进行通信。

Py4J并不特定于PySpark或Spark，Py4J允许任何Python程序与基于JVM的代码进行对话。

PySpark 使用了 Py4j开源库，创建 Python 端的 SparkContext 对象时，实际会启动 JVM，并创建一个 Scala 端的 SparkContext 对象。PySpark满足了对大数据场景的愿望。

关于py4j的使用可以参考官方文档，http://www.py4j.org/py4j_python.html，也是类似于服务端和客户端的操作

pyspark和py4j可以参考 https://www.jianshu.com/p/013fe44422c9?from=timeline&isappinstalled=0

我们在flink的流式在线计算，对模型在线预测，如果是调用python，比如sklearn的算法比如xgb等，可以利用py4j帮助实现；

3.5.2 Sparklyr

类似的R语言也开发了类似的功能，SparkR 和 Sparklyr，是两个基于Spark的R语言接口，通过简单的语法深度集成到R语言生态中。

Sparklyr 通过拓展程序，graphframes 实现图挖掘，比如Pagerank、LPA等

Sparklyr 通过拓展程序 Rsparkling 实现深度学习，如 Anto-Encoder

SparkR 仅在实时计算上领先于 Sparklyr，在图计算、机器学习、深度学习等领域已经被拉开差距，在大多数场景下，Sparklyr将是一个更好的选择，在不久的将来，Sparklyr也将集成Streaming模块，届时将全面覆盖SparkR功能。

上述关于SparkR 和 Sparklyr，都是参考了这篇文章，详细比较可以参考文献https://segmentfault.com/a/1190000013806395?utm_source=tag-newest

4.模型部署一些成熟工具的对比

mlflow: 一种机器学习生命周期管理平台，可以快速将机器学习的每个model进行保存，记录实验，同事具备一个前端，支持多语言多框架，将模型保存在本地或者hdfs等，即但需要通过pyarrow作为桥梁，目前是开源的框架，之前还给他们提过一个小小的bug，他们也发现了这个问题，无奈他们最终没有办法修改，api改改太麻烦

https://github.com/mlflow/mlflow

一些使用可以查看https://www.cnblogs.com/CheeseZH/p/11943280.html，或者查看官方文档

sagemaker: 是一项完全托管的服务，可以帮助机器学习开发者和数据科学家快速构建、训练和部署模型，没有开源，毕竟是amazon的东西，不过开源的autogulon好像也引用了它；

bentoml: An open-source platform for high-performance ML model serving, https://github.com/bentoml/BentoML，开源的框架

操作可以参考https://docs.bentoml.org/en/latest/quickstart.html

三者比较后续补上，目前主要使用mlflow较多

5.小结

后续还需要补充一些优劣点，路漫漫，不知道为啥，markdown复制过来的格式怎么这么丑

你可能感兴趣的:(模型部署,模型部署)

【大模型】triton inference server idiotyi 大模型自然语言处理语言模型人工智能
前言：tritoninferenceserver常用于大模型部署，可以采用http或GRPC调用，支持大部分的backend，单GPU、多GPU都可以支持，CPU也支持。本文主要是使用tritoninferenceserver部署大模型的简单流程示例。目录1.整体流程2.搭建本地仓库3.服务端代码4.启动服务5.客户端调用1.整体流程搭建模型仓库模型配置服务端调用代码docker启动服务客户端调用
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程牙牙要健康深度学习 onnx onnxruntime 深度学习 python 人工智能
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程提示:博主取舍了很多大佬的博文并亲测有效,分享笔记邀大家共同学习讨论文章目录【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程前言模型转换--pytorch转onnxWindows平台搭建依赖环境onnxruntime调用onnx模型ONNXRuntime推理核
Ollama全面指南：安装、使用与高级定制我就是全世界 ollama
本文全面介绍了Ollama工具，包括其安装、基本使用、高级定制以及实际应用案例。详细讲解了如何在不同操作系统上安装Ollama，如何运行和自定义大型语言模型，以及如何通过Ollama进行模型部署和交互。此外，还提供了丰富的故障排除和FAQ，帮助用户解决使用过程中的常见问题。文章目录Ollama基础入门Ollama简介支持的操作系统安装Ollama快速开始使用OllamaOllama的安装与配置ma
本地部署大语言模型详细讲解程序员小羊！杂文语言模型人工智能自然语言处理
大家好，我是程序员小羊！前言：本地部署大语言模型（LLM，LargeLanguageModel）需要相应的硬件资源和技术栈支持，如GPU计算能力、大量内存、存储空间，以及模型部署框架。以下是如何在本地部署大语言模型的详细解释，包括选择模型、硬件需求、安装必要的软件和工具、下载和配置模型、以及优化运行性能的建议。一、前期准备1.硬件需求部署大语言模型的硬件要求主要取决于模型的大小和运行任务的复杂度。
【环境搭建：onnx模型部署】onnxruntime-gpu安装与测试（python）(1) 2401_83703835 程序员 python 深度学习 pytorch
cuda==10.2cudnn==8.0.3onnxruntime-gpu==1.5.0or1.6.0pipinstallonnxruntime-gpu==1.6.0###2.2方法二：onnxruntime-gpu不依赖于本地主机上cuda和cudnn在conda环境中安装，不依赖于本地主机上已安装的cuda和cudnn版本，灵活方便。这里，先说一下已经测试通过的组合：*python3.6,cu
机器学习框架巅峰对决：TensorFlow vs. PyTorch vs. Scikit-Learn实战分析 @sinner 技术选型机器学习 tensorflow pytorch scikit-learn
1.引言1.1机器学习框架的重要性在机器学习的黄金时代，框架的选择对于开发高效、可扩展的模型至关重要。合适的框架可以极大地提高开发效率，简化模型的构建和训练过程，并支持大规模的模型部署。因此，了解和选择最合适的机器学习框架对于研究人员和工程师来说是一个关键的步骤。1.2三大框架概览：TensorFlow、PyTorch、Scikit-Learn目前，最流行的机器学习框架主要有TensorFlow、
并行处理的艺术：深入探索PyTorch中的torch.nn.parallel模块杨哥带你写代码 pytorch 人工智能 python
标题：并行处理的艺术：深入探索PyTorch中的torch.nn.parallel模块在深度学习领域，模型的规模和复杂性不断增长，这要求我们利用所有可用的计算资源来加速训练和推理过程。PyTorch，作为当前流行的深度学习框架之一，提供了torch.nn.parallel模块，允许我们轻松地将模型部署到多个GPU上。本文将详细介绍如何使用这个模块，以及如何通过并行化来提高模型的计算效率。引言深度学
最新视频合成后调优技术ExVideo模型部署杰说新技术 AIGC 多模态 AIGC 人工智能
ExVideo是一种新型的视频合成模型后调优技术，由华东师范大学和阿里巴巴的研究人员共同开发。ExVideo提出了一种新的后调优策略，无需对整个模型进行大规模重训，仅通过对模型中时序相关组件的微调，就能够显著增强其生成更长视频片段的能力，大大降低了对计算资源的需求，仅需1.5kgpu小时就能将视频生成帧数提高至原模型的5倍。ExVideo在提升视频长度的同时，并没有牺牲模型的泛化能力，生成的视频在
[模型部署] ONNX模型转TRT模型部分要点 lainegates 深度学习人工智能
本篇讲“ONNX模型转TRT模型”部分要点。以下皆为TRT模型的支持情况。模型存为ONNX格式后，已经丢失了很多信息，与原python代码极难对应。因为在“ONNX转TRT”时，转换出错，更难映射回python代码。解决此类问题的关键为：转onnx时要打开verbose选项，输出每一行python的模型代码被转成了哪些ONNX算子。torch.onnx.export(model,(dummy_in
深度学习系列70：模型部署torchserve IE06 深度学习系列深度学习人工智能
1.流程说明ts文件夹下，从launcher.py进入，执行jar文件。入口为model_server.py的start()函数。内容包含：读取args，创建pid文件找到java，启动model-server.jar程序，同时读取log-config文件，TEMP文件夹地址，TS_CONFIG_FILE文件根据cpu核数、gpu个数，启动多进程。每个进程有一个socket_name和socket
在STM32上实现嵌入式人工智能应用嵌入式详谈 stm32 人工智能嵌入式硬件
引言随着微控制器的计算能力不断增强，人工智能（AI）开始在嵌入式系统中扮演越来越重要的角色。STM32微控制器由于其高性能和低功耗的特性，非常适合部署轻量级AI模型。本文将探讨如何在STM32平台上实现深度学习应用，特别是利用STM32Cube.AI工具链将训练好的神经网络模型部署到STM32设备上。环境准备硬件选择：STM32F746GDiscoverykit，具备足够的计算资源和内存支持复杂模
数据科学生命周期的7个步骤–在业务中应用AI 听忆. 人工智能
数据科学生命周期的7个步骤–在业务中应用AI1.问题定义（BusinessUnderstanding）2.数据收集（DataCollection）3.数据准备（DataPreparation）4.数据探索（ExploratoryDataAnalysis,EDA）5.模型构建（Modeling）6.模型评估（Evaluation）7.模型部署与维护（DeploymentandMaintenance）
Yolov8：模型部署到安卓端爱编码的小陈深度学习 YOLO
1.项目准备1.1先安装JDK和Androidstudio（1）JDK下载：官网站：https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html同意协议后，下载相应版本的JDK我这里没有下载JDK21版的，下载的是jdk1.8版本，参考文章：AndroidStudio开发环境快速搭建（超详细
【机器学习】Whisper：开源语音转文本（speech-to-text）大模型实战 LDG_AGI AI智能体研发之路-模型篇机器学习 whisper 人工智能语音识别实时音视频 python transformer
目录一、引言二、Whisper模型原理2.1模型架构2.2语音处理2.3文本处理三、Whisper模型实战3.1环境安装3.2模型下载3.3模型推理3.4完整代码3.5模型部署四、总结一、引言上一篇对ChatTTS文本转语音模型原理和实战进行了讲解，第6次拿到了热榜第一。今天，分享其对称功能（语音转文本）模型：Whisper。Whisper由OpenAI研发并开源，参数量最小39M，最大1550M
pyinstaller打包onnxruntime-gpu报错找不到CUDA的解决方案布呐呐na 人工智能 python
问题说明：使用onnxruntime-gpu完成了深度学习模型部署，但在打包时发生了报错：找不到CUDA具体问题描述：RuntimeError:D:\a\_work\1\s\onnxruntime\python\onnxruntime_pybind_state.cc:857onnxruntime::python::CreateExecutionProviderInstanceCUDA_PATHis
大模型量化技术原理-LLM.int8()、GPTQ 吃果冻不吐果冻皮动手学大模型人工智能
近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，从而导致模型变得越来越大，因此，我们需要一些大模型压缩技术来降低模型部署的成本，并提升模型的推理性能。模型压缩主要分为如下几类：剪枝（Pruning）知识蒸馏（KnowledgeDistillation）量化之前也写过一些文章涉及大模型量化相关的内容。基于LLaMA-7B/Bloomz-7B1-mt复现开
我把ChatGPT部署到我的手机上人工智能
正常的大模型部署都是在服务器上的但是最近我看到一个手机上可以运行的大模型分享给大家MiniCPMMiniCPM是基于MLC-LLM开发，将MiniCPM和MiniCPM-V在Android手机端上运行。使用起来很简单，下载好安装包后按照教程安装好下载2个模型一个是MiniCPM一个是MiniCPM-vMiniCPM-v是可以处理图像的下载好后，点击模型的进行对话即可安装MiniCPM只占2GB空间
81TensorFlow 2 模型部署方法实践--TensorFlow Serving 部署模型 Jachin111
TensorFlowServing部署模型TensorFlowServing是一个针对机器学习模型的灵活、高性能的服务系统，专为生产环境而设计。本节实验将使用TensorFlowServing部署MobileNetV2模型，并通过两种方法访问TensorFlowServing服务进行图像识别。TensorFlowServing安装在这里我们通过Docker来安装TensorFlowServing，
深度学习笔记：推理服务 TaoTao Li tensorflow 深度学习深度学习人工智能机器学习
在线推理服务解决的问题样本处理特征抽取(生成)特征抽取过程特征定义通用定义具体定义特征抽取加速Embeding查询NN计算DL框架计算优化图优化量化优化异构计算CodeGen总结参考资料解决的问题模型训练解决模型效果问题，模型推理解决模型实时预测问题。推理服务是把训练好的模型部署到线上，进行实时预测的过程。如阿里的RTP系统顾名思义，实时预测是相对于非实时预测(离线预测)而言，非实时预测是将训练好
如何实现远程云服务器模型部署在本地使用时光诺言服务器运维 ssh
远程云服务器模型部署在本地使用1.问题说明：在使用pycharm的ssh连接到远程云服务器时，模型已经加载成功并且出现了如下标识：但是我们打开本地的7080端口，发现是拒绝访问。这是什么情况？起初我认为是代理的问题，但是我关闭代理后并无卵用。然后又重启电脑还是无效。2.解决方案直到我了解了我使用的命令是基于Gradio实现的。那么有以下几种解决方案（以远程云服务器打开7860端口为例）：2.1直接
LMDeploy 大模型量化部署实践查里王人工智能
在浦语的MDeploy大模型量化部署实践课程中，可能需要完成的任务包括：大模型部署背景2、LMDeploy简介环境配置：这个部分你需要安装并设置相关的开发工具和库。这可能包括Python环境、LMDeploy库等等。你需要明确写出你使用的操作系统以及安装所有需要的软件和库的步骤。这些信息可以来自官方文档或者课程提供的指南。服务部署：这个部分你需要使用LMDeploy部署InternLM-Chat-
AI工程化工具设计 LabVIEW_Python
1，需要有一个方便的爬虫工具，输入名字和内容，可以一键式爬出图片；2，需要有一个方便的改名字的工具，将下载的图片，一键式改名；3，需要有一个方便的，自动化的标注工具，提高标注效率4，需要有一个方便的，图形化的训练和测试工具，自动训练，并给出训练结果报告5，需要有一个方便的部署工具，方便把模型部署到CPU/GPU/ARM上
开发者都能玩转的大模型训练机器学习canvasaigc
前言看了刚结束的亚马逊云科技2023re:Invent大会，了解到AmazonSageMakerCanvas是亚马逊云科技最近刚推出的一种完全托管的机器学习服务，开发者通过AmazonSageMakerCanvas可以快速且轻松地构建、训练机器语言学习模型，最重要的是无代码界面形式的。而且基于亚马逊云科技的云服务器优势，可以直接将模型部署到线上托管环境上，非常方便，且无技术“隔阂”，无缝操作。据我
hummingbird，一个便于将模型部署到边缘设备的Python库！漫走云雾 python 开发语言边缘计算机器学习
前言随着人工智能和机器学习的快速发展，将训练好的模型部署到生产环境中成为了一个重要的任务。而边缘计算设备，如智能手机、嵌入式系统和物联网设备，也需要能够运行机器学习模型以进行实时推理。PythonHummingbird是一个强大的工具，可以轻松地将机器学习模型部署到边缘设备。本文将详细介绍PythonHummingbird的使用方法，并提供丰富的示例代码。目录前言什么是PythonHummingb
hummingbird，一个非常好用的 Python 库！近咫／＼ぃ天涯 python 开发语言
随着人工智能和机器学习的快速发展，将训练好的模型部署到生产环境中成为了一个重要的任务。而边缘计算设备，如智能手机、嵌入式系统和物联网设备，也需要能够运行机器学习模型以进行实时推理。PythonHummingbird是一个强大的工具，可以轻松地将机器学习模型部署到边缘设备。本文将详细介绍PythonHummingbird的使用方法，并提供丰富的示例代码。什么是PythonHummingbird？Py
论文撰写八大技巧与八大心得，一文读懂墨理学AI
版权:本文由【墨理学AI】原创、首发、各位大佬、敬请查阅声明:作为全网AI领域干货最多的博主之一，❤️不负光阴不负卿❤️日常搬砖帮老板审了不少Paper，总结一些心得分享给各位正在路上的科研小伙伴计算机视觉、超分重建、图像修复、目标检测、模型部署都在学习墨理学AI论文撰写八大技巧写论文的目的是为了发表，发表论文就需要按照论文的套路来写，不然审稿人就会以“不专业”的理由拒稿。辛辛苦苦做出来的科研成果
使用阿里云通义千问14B（Qianwen-14B）模型自建问答系统 wangqiaowq 人工智能
使用阿里云通义千问14B（Qianwen-14B）模型自建问答系统时，调度服务器资源的详情将取决于以下关键因素：模型部署：GPU资源：由于Qianwen-14B是一个大规模语言模型，推理时需要高性能的GPU支持。模型参数量大，推理过程中对显存（GPU内存）的要求高，可能需要多块高端GPU，并且考虑是否支持模型并行或数据并行以充分利用硬件资源。单卡显存需求：根据之前的信息，Qianwen-14B微调
hummingbird，一个非常好用的 Python 库！漫走云雾 python 开发语言
前言随着人工智能和机器学习的快速发展，将训练好的模型部署到生产环境中成为了一个重要的任务。而边缘计算设备，如智能手机、嵌入式系统和物联网设备，也需要能够运行机器学习模型以进行实时推理。PythonHummingbird是一个强大的工具，可以轻松地将机器学习模型部署到边缘设备。本文将详细介绍PythonHummingbird的使用方法，并提供丰富的示例代码。目录编辑前言什么是PythonHummin
读懂 FastChat 大模型部署源码所需的异步编程基础 javastart python python fastapi gunicorn
原文：读懂FastChat大模型部署源码所需的异步编程基础-知乎目录0.前言1.同步与异步的区别2.协程3.事件循环4.await5.组合协程6.使用Semaphore限制并发数7.运行阻塞任务8.异步迭代器asyncfor9.异步上下文管理器asyncwith10.参考本文是读懂FastChat大模型部署源码系列的第二篇，持续更新中，欢迎关注：不理不理：读懂FastChat大模型部署源码所需的W
llama2模型部署方案的简单调研-GPU显存占用(2023年7月25日版) 海皇海皇吹 llama 人工智能自然语言处理语言模型 chatgpt gpt-3
先说结论全精度llama27B最低显存要求：28GB全精度llama213B最低显存要求：52GB全精度llama270B最低显存要求：280GB16精度llama27B预测最低显存要求：14GB16精度llama213B预测最低显存要求：26GB16精度llama270B预测最低显存要求：140GB8精度llama27B预测最低显存要求：7GB8精度llama213B预测最低显存要求：13GB8
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs