zxros10

【TVM源码学习笔记】附录1 TVM python调用C++的机制

1. tvm relay op python调用C++

在tvm前端涉及relay算子（比如说外部框架算子转vm relay ir）的时候，会调用到tvm/relay/op下对应算子的接口，进而调用_make.xxx()接口。这个接口最终会调用到C++端对应的算子处理接口。这里我们将探寻Python调用C++的实现。

我们以2D卷积算子为例，对应的接口在python/tvm/relay/op/nn/nn.py中：

def conv2d(
    ...
):
    ...
    return _make.conv2d(
        ...
    )

_make的导入：

from . import _make

也就是python/tvm/relay/op/nn/_make.py：

import tvm._ffi

tvm._ffi._init_api("relay.op.nn._make", __name__)

这里__name__是一个python内置变量，表示当前模块的文件名（不包括.py），即tvm/relay/op/nn/_make。

tvm._ffi模块位于python/tvm/_ffi。函数_init_api的定义在python/tvm/_ffi/registry.py中

def _init_api(namespace, target_module_name=None):
    """Initialize api for a given module name

    namespace : str
       The namespace of the source registry

    target_module_name : str
       The target module name if different from namespace
    """
    target_module_name = target_module_name if target_module_name else namespace
    if namespace.startswith("tvm."):
        _init_api_prefix(target_module_name, namespace[4:])
    else:
        _init_api_prefix(target_module_name, namespace)

这里传入的第一个参数namespace为relay.op.nn._make， target_module_name参数为tvm/relay/op/nn/_make。这样传入_init_api_prefix的两个参数将是 tvm.relay.op.nn._make和relay.op.nn._make。

def _init_api_prefix(module_name, prefix):
    module = sys.modules[module_name]

    for name in list_global_func_names():
        if not name.startswith(prefix):
            continue

        fname = name[len(prefix) + 1 :]
        target_module = module

        if fname.find(".") != -1:
            continue
        f = get_global_func(name)
        ff = _get_api(f)
        ff.__name__ = fname
        ff.__doc__ = "TVM PackedFunc %s. " % fname
        setattr(target_module, ff.__name__, ff)

module = sys.modules[module_name]获取的是tvm.relay.op.nn._make模块的句柄。list_global_func_names()定义在python/tvm/_ffi/registry.py中：

def list_global_func_names():
    """Get list of global functions registered.

    Returns
    -------
    names : list
       List of global functions names.
    """
    plist = ctypes.POINTER(ctypes.c_char_p)()
    size = ctypes.c_uint()

    check_call(_LIB.TVMFuncListGlobalNames(ctypes.byref(size), ctypes.byref(plist)))
    fnames = []
    for i in range(size.value):
        fnames.append(py_str(plist[i]))
    return fnames

接口种通过ctypes方式，调用C++库的TVMFuncListGlobalNames接口，得到的结果字符串数组plist，该数组为所有全局接口的函数名集合。TVMFuncListGlobalNames接口定义在src/runtime/registry.cc中

int TVMFuncListGlobalNames(int* out_size, const char*** out_array) {
  API_BEGIN();
  TVMFuncThreadLocalEntry* ret = TVMFuncThreadLocalStore::Get();
  ret->ret_vec_str = tvm::runtime::Registry::ListNames();
  ret->ret_vec_charp.clear();
  for (size_t i = 0; i < ret->ret_vec_str.size(); ++i) {
    ret->ret_vec_charp.push_back(ret->ret_vec_str[i].c_str());
  }
  *out_array = dmlc::BeginPtr(ret->ret_vec_charp);
  *out_size = static_cast(ret->ret_vec_str.size());
  API_END();
}

函数中调用tvm::runtime::Registry::ListNames()得到函数名表：

std::vector Registry::ListNames() {
  Manager* m = Manager::Global();
  std::lock_guard lock(m->mutex);
  std::vector keys;
  keys.reserve(m->fmap.size());
  for (const auto& kv : m->fmap) {
    keys.push_back(kv.first);
  }
  return keys;
}

可以看到，函数名都是从Manager类实例的fmap表的第一个元素。而且Manager还是各单实例类。而fmap的定义：

struct Registry::Manager {
  // map storing the functions.
  // We deliberately used raw pointer.
  // This is because PackedFunc can contain callbacks into the host language (Python) and the
  // resource can become invalid because of indeterministic order of destruction and forking.
  // The resources will only be recycled during program exit.
  std::unordered_map fmap;
  // mutex
  std::mutex mutex;

  Manager() {}

  static Manager* Global() {
    // We deliberately leak the Manager instance, to avoid leak sanitizers
    // complaining about the entries in Manager::fmap being leaked at program
    // exit.
    static Manager* inst = new Manager();
    return inst;
  }
};

从注释看，这个fmap是一个存储函数的map表。表单元的第一个元素是string类型。

再看_init_api_prefix中的get_global_func：

def get_global_func(name, allow_missing=False):
    return _get_global_func(name, allow_missing)

def _get_global_func(name, allow_missing=False):
    handle = PackedFuncHandle()
    check_call(_LIB.TVMFuncGetGlobal(c_str(name), ctypes.byref(handle)))

    if handle.value:
        return _make_packed_func(handle, False)

    if allow_missing:
        return None

    raise ValueError("Cannot find global function %s" % name)

_get_global_func中使用ctypes方式调用C++库中的TVMFuncGetGlobal函数：

int TVMFuncGetGlobal(const char* name, TVMFunctionHandle* out) {
  API_BEGIN();
  const tvm::runtime::PackedFunc* fp = tvm::runtime::Registry::Get(name);
  if (fp != nullptr) {
    *out = new tvm::runtime::PackedFunc(*fp);  // NOLINT(*)
  } else {
    *out = nullptr;
  }
  API_END();
}

const PackedFunc* Registry::Get(const std::string& name) {
  Manager* m = Manager::Global();
  std::lock_guard lock(m->mutex);
  auto it = m->fmap.find(name);
  if (it == m->fmap.end()) return nullptr;
  return &(it->second->func_);
}

TVMFuncGetGlobal调用了Registry::Get，从Manager的fmap表中，找到第一个元素为python传入的函数名的单元，从该单元的第二个元素中获取了函数指针。也就是根据函数名获取函数句柄。

搜索下谁在往fmap成员中写数据，可以看到是Registry::Register接口：

Registry& Registry::Register(const std::string& name, bool can_override) {  // NOLINT(*)
  Manager* m = Manager::Global();
  std::lock_guard lock(m->mutex);
  if (m->fmap.count(name)) {
    ICHECK(can_override) << "Global PackedFunc " << name << " is already registered";
  }

  Registry* r = new Registry();
  r->name_ = name;
  m->fmap[name] = r;
  return *r;
}

可以看到调用Registry::Register接口接口时，如果name在fmap中不存在，就会创建一个Registry实例，加入Manager的fmap表，并返回新建的Registry实例。搜索Registry::Register接口的调用，在include/tvm/runtime/registry.h中有定义

/*!
 * \brief Register a function globally.
 * \code
 *   TVM_REGISTER_GLOBAL("MyPrint")
 *   .set_body([](TVMArgs args, TVMRetValue* rv) {
 *   });
 * \endcode
 */
#define TVM_REGISTER_GLOBAL(OpName) \
  TVM_STR_CONCAT(TVM_FUNC_REG_VAR_DEF, __COUNTER__) = ::tvm::runtime::Registry::Register(OpName)

这里调用Registry::Register接口，传入的是一个函数名。在代码中搜索TVM_REGISTER_GLOBAL宏的使用会有很多。这里我们继续关注relay.op.nn._make.conv2d的，搜索到src/relay/op/nn/convolution.cc中代码：

TVM_REGISTER_GLOBAL("relay.op.nn._make.conv2d")
    .set_body_typed([](Expr data, Expr weight, Array strides, Array padding,
                       Array dilation, int groups, IndexExpr channels,
                       Array kernel_size, String data_layout, String kernel_layout,
                       String out_layout, DataType out_dtype) {
      return MakeConv(data, weight, strides, padding, dilation, groups, channels,
                                   kernel_size, data_layout, kernel_layout, out_layout, out_dtype,
                                   "nn.conv2d");
    });

这里set_body_typed的参数为一个lamad表达式,函数体部分调用了MakeConv。所以这里是向Manager的fmap注册了一个函数，名字为relay.op.nn._make.conv2d，函数体部分是调用MakeConv。

简单的讲，TVM relay op的python到C++调用，就是在C++里，创建一个函数管理表（Manager::fmap），各算子向这个表注册接口，并给每个接口一个标记符；python部分在对应目录下放一个_make.py文件，在这个文件中设置注册的函数标记符和对应的C++函数句柄；当算子转换以标记符调用接口时，就会调用到C++里面的对应的函数体。

我们看下MakeConv的实现：

template 
inline Expr MakeConv(Expr data, Expr weight, Array strides, Array padding,
                     Array dilation, int groups, IndexExpr channels,
                     Array kernel_size, std::string data_layout,
                     std::string kernel_layout, std::string out_layout, DataType out_dtype,
                     std::string op_name) {
  auto attrs = make_object();
  attrs->strides = std::move(strides);
  attrs->padding = std::move(padding);
  attrs->dilation = std::move(dilation);
  attrs->groups = groups;
  attrs->channels = std::move(channels);
  attrs->kernel_size = std::move(kernel_size);
  attrs->data_layout = std::move(data_layout);
  attrs->kernel_layout = std::move(kernel_layout);
  attrs->out_layout = std::move(out_layout);
  attrs->out_dtype = std::move(out_dtype);
  const Op& op = Op::Get(op_name);
  return Call(op, {data, weight}, Attrs(attrs), {});
}

这里将卷积参数打包，生成一个Op实例，然后生成一个Call实例返回。

python/tvm/relay/op/tensor.py中的数学算符可能会多绕一步，根据算符的类型，先在src/relay/op/tensor目录下的文件中TVM_REGISTER_NODE_TYPE、RELAY_REGISTER_BINARY_OP或者RELAY_REGISTER_UNARY_OP定义，这些宏中再调用TVM_REGISTER_GLOBAL宏，参见src/relay/op/op_common.h

2. tvm relay function python调用C++

在Graphproto.from_onnx的最后，使用网络的输入输出和权重参数打包成一个Function实例，然后生成一个IRModule实例：

# 由模型输入, 输出表达式依赖的权重和输出表达式生成一个function
func = _function.Function([v for k, v in self._inputs.items()], outputs)
# 返回表达式和所有权重
return IRModule.from_expr(func), self._params

这两步也都是会调用到C++代码。先看_function.Function的流程：

@tvm._ffi.register_object("relay.Function")
class Function(BaseFunc):
    def __init__(self, params, body, ret_type=None, type_params=None, attrs=None):
        if type_params is None:
            type_params = convert([])

        self.__init_handle_by_constructor__(
            _ffi_api.Function, params, body, ret_type, type_params, attrs
        )

    def __call__(self, *args):
        return Call(self, args, None, None)

__init__函数第二个参数body是函数体，而前面在调用_function.Function时传入的时outputs。这是因为outputs并不是网络或者函数的输出张量，而是输出的计算表达式，而且这个表达式描述的是从输入开始，一步一步的到输出的计算过程，也就是函数实现的所有计算过程了。所以这个outputs就是函数体。

__init__中调用了self.__init_handle_by_constructor__，参数_ffi_api.Function这种形式在前面算子调用流程中我们已经分析过，_ffi_api引入的是模块，Function是具体的函数，所以我们看下当前目录下的_ffi_api是什么模块，见python/tvm/relay/_ffi_api.py：

import tvm._ffi

tvm._ffi._init_api("relay.ir", __name__)

模块为relay.ir，所以_ffi_api.Function就是relay.ir.Function。

搜索该标记符的注册TVM_REGISTER_GLOBAL("relay.ir.Function")可以看到：

TVM_REGISTER_GLOBAL("relay.ir.Function")
    .set_body_typed([](tvm::Array params, Expr body, Type ret_type,
                       tvm::Array ty_params, tvm::DictAttrs attrs) {
      return Function(params, body, ret_type, ty_params, attrs);
    });

也就是调用_ffi_api.Function会在C++端实例化一个Function。

在python的Function类中， _ffi_api.Function是作为参数传给self.__init_handle_by_constructor__，这个方法定义在python/tvm/_ffi/_ctypes/object.py中的基类ObjectBase中，而ObjectBase.__init_handle_by_constructor__调用的是

def __init_handle_by_constructor__(fconstructor, args):
    """Initialize handle by constructor"""
    temp_args = []
    values, tcodes, num_args = _make_tvm_args(args, temp_args)
    ret_val = TVMValue()
    ret_tcode = ctypes.c_int()
    if (
        _LIB.TVMFuncCall(
            fconstructor.handle,
            values,
            tcodes,
            ctypes.c_int(num_args),
            ctypes.byref(ret_val),
            ctypes.byref(ret_tcode),
        )
        != 0
    ):
        raise get_last_ffi_error()
    _ = temp_args
    _ = args
    assert ret_tcode.value == ArgTypeCode.OBJECT_HANDLE
    handle = ret_val.v_handle
    return handle

我们看下TVMFuncCall的调用链

src/runtime/c_runtime_api.cc:

int TVMFuncCall(TVMFunctionHandle func, TVMValue* args, int* arg_type_codes, int num_args,
                TVMValue* ret_val, int* ret_type_code) {
  API_BEGIN();

  TVMRetValue rv;
  (*static_cast(func)).CallPacked(TVMArgs(args, arg_type_codes, num_args), &rv);

...

}


include/tvm/runtime/packed_func.h:

inline void PackedFunc::CallPacked(TVMArgs args, TVMRetValue* rv) const { body_(args, rv); }

这里最后调用到的body_就是TVM_REGISTER_GLOBAL("relay.ir.Function").set_typed_body设置的lamabd函数体。

这里比较绕，我们理下：

1. 首先将注册的relay.ir.Function作为参数传给了__init_handle_by_constructor__；

2. __init_handle_by_constructor__调用了_LIB.TVMFuncCall；

3. _LIB.TVMFuncCall相当于一个函数执行器，它执行了relay.ir.Function；

4. relay.ir.Function的函数体被执行时，返回一个C++端的Function对象句柄。

3. tvm relay op IRModule python调用C++

onnx.py中GraphProto.from_onnx最后return IRModule.from_expr(func), self._params，这个from_expr代码在python/tvm/ir/module.py中：

    def from_expr(expr, functions=None, type_defs=None):
        funcs = functions if functions is not None else {}
        defs = type_defs if type_defs is not None else {}
        return _ffi_api.Module_FromExpr(expr, funcs, defs)

这里直接调用_ffi_api.Module_FromExpr，python/tvm/ir/目录定义的模块名为ir(见python/tvm/ir/_ffi_api.py)，搜索对应的函数注册TVM_REGISTER_GLOBAL("ir.Module_FromExpr")，注册函数执行IRModule::FromExpr，FromExpr调用IRModule::FromExprInContext，生成一个C++端的IRModule实例

建筑兔零基础人工智能自学记录34|深度学习与神经网络2 阿克兔人工智能toto学习人工智能深度学习神经网络
1、人工神经网络ANN从生物课上学到的有关神经元、突触的生物神经网络，被模仿出了简化的人工神经网络（ANN,artificialneuralnetwork）。ANN结构为：输入层、隐藏层、输出层人工神经元：基于生物神经元的数学模型ANN过程：输入---加权求和---激活函数激活函数：类似生物神经元的阈值，达到阈值输出信号（‘神经网络的万能逼近定理’---两层以上神经网络可以逼近任意函数）2、深度学
自然语言处理NLP入门 -- 第十节简单的聊天机器人山海青风 #自然语言处理自然语言处理 chatgpt
一、为什么要做聊天机器人？在互联网时代，我们日常接触到的“在线客服”“自动问答”等，大多是以聊天机器人的形式出现。它能帮我们快速回复常见问题，让用户获得及时的帮助，并在一定程度上减少人工客服的压力。同时，聊天机器人也是了解自然语言处理（NLP）最好的实战项目之一。因为它整合了文字理解（NLU）、对话管理、文本生成（NLG）等多方面知识，既能看到很直观的对话效果，也能结合深度学习模型让机器人变得更智
机器学习与深度学习资料 JasonDing1354 【Machine Learning】
《BriefHistoryofMachineLearning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Adaboost到随机森林、DeepLearning.《DeepLearninginNeuralNetworks:AnOverview》介绍:这是瑞士人工智能实验室JurgenSchmidhuber写的最新版本《神经网络与深度学习综述》本综述的特点是以
全过程带你从入门到精通《动手学PyTorch深度学习建模与应用》第二章：2.1-2.3节详解，篇幅超了，缺的后面再补吧环工人学Python 深度学习 pytorch 人工智能 python 机器学习
写在前面：点点关注不迷路，免费的赞和收藏走起来！后续更新第一时间提示哦，每周会更新不同内容，下周更新如何用各种模态的大模型去为你服务，编写代码。在深度学习的世界里，理解基础概念是构建复杂模型的关键。第二章“深度学习基础与PyTorch实现”将帮助我们深入理解深度学习的核心概念，并通过PyTorch实现这些概念。这一章的内容非常重要，因为它不仅涵盖了神经网络的基本原理，还介绍了激活函数、损失函数和优
基于 Pytorch 的全卷积网络人脸表情识别：从数据到部署的实战之旅那年一路北 Pytorch理论+实践 pytorch 网络人工智能
前言：本文将详细介绍基于Pytorch框架，利用全卷积网络进行人脸表情识别的完整过程，涵盖从数据集的准备、模型的设计与训练，再到模型的部署与预测，通过代码实现以及详细讲解，帮助读者深入理解并掌握这一技术。一、引言人脸表情是人类情感交流的重要方式，不同的表情能够传达出丰富的情感信息。人脸表情识别在智能交互、安防监控、心理健康分析等众多领域有着广泛的应用前景。随着深度学习技术的发展，基于卷积神经网络的
基于yolov8的糖尿病视网膜病变严重程度检测系统python源码+pytorch模型+评估指标曲线+精美GUI界面 FL1623863129 深度学习 YOLO
【算法介绍】基于YOLOv8的糖尿病视网膜病变严重程度检测系统基于YOLOv8的糖尿病视网膜病变严重程度检测系统是一款利用深度学习技术，专为糖尿病视网膜病变早期诊断设计的智能辅助工具。该系统采用YOLOv8目标检测模型，结合经过标注和处理的医学影像数据集，能够高效且准确地检测并分类糖尿病视网膜病变的不同严重程度。YOLOv8模型以其高速和高精度的特点，在处理眼底图像时展现了强大的能力。通过优化模型
【深度学习】矩阵的核心问题&解析大数据追光猿数学基础-矩阵深度学习矩阵人工智能
一、基础问题1.如何实现两个矩阵的乘法？问题描述：给定两个矩阵AAA和BBB，编写代码实现矩阵乘法。解法：使用三重循环实现标准矩阵乘法。或者使用NumPy的dot方法进行高效计算。defmatrix_multiply(A,B):m,n=len(A),len(A[0])n,p=len(B),len(B[0])C=[[0for_inrange(p)]for_inrange(m)]foriinrange
基于yolov10的水果成熟度之石榴成熟度检测 qq1309399183 计算机视觉实战项目集合 YOLO 目标检测目标跟踪计算机视觉人工智能水果成熟度检测视觉检测
石榴成熟度检测**Pomegranate*是一个基于深度学习的系统，旨在自动化检测和分类石榴果实的生长阶段（未成熟、成熟、成熟期）。该系统采用最新的YOLOv10目标检测模型，能够高效地分析图像或视频中的石榴果实，并根据其外观特征识别其生长阶段。通过这种技术，农民可以更好地监控石榴果实的发育过程，优化作物管理，合理安排收获时间，从而提高生产效率和经济收益。系统概述石榴作为一种重要的水果作物，广泛种
yolov5-训练好的模型部署的几种方式-ONNX 黄晓魚 halcon3d PCL点云处理深度神经网络 YOLO C#python
ONNX，即OpenNeuralNetworkExchange，是微软和Facebook发布的一个深度学习开发工具生态系统，旨在让AI开发人员能够随着项目发展而选择正确的工具。ONNX所针对的是深度学习开发生态中最关键的问题之一，在任意一个框架上训练的神经网络模型，无法直接在另一个框架上用。开发者需要耗费大量时间精力把模型从一个开发平台移植到另一个。因此，如何实现不同框架之间的互操作性，简化从研究
【人工智能】数据挖掘与应用题库（101-200）奋力向前123 人工智能人工智能数据挖掘
1、有矩阵A3×2，B2×3，C3×3，下列运算有意义的是（）答案：BC2、13524的逆序数为（）答案：33、矩阵A中元素a14的余子式记作M14，代数余子式记作A14，二者关系为（）答案：相反4、关于机器学习与深度学习的范畴关系，下列说法正确的是？答案：深度学习是机器学习的子集（分支）5、关于机器学习的本质，下列表述最恰当的是？答案：从数据或环境反馈中自主学习到规则6、深度学习的“深度”是指？
大语言模型原理与工程实践：手把手教你训练 7B 大语言模型自动化训练框架 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：手把手教你训练7B大语言模型自动化训练框架关键词：大语言模型、7B模型、自动化训练、深度学习、神经网络、自然语言处理、分布式计算文章目录大语言模型原理与工程实践：手把手教你训练7B大语言模型自动化训练框架1.背景介绍2.核心概念与联系3.核心算法原理&具体操作步骤3.1算法原理概述3.2算法步骤详解3.3算法优缺点3.4算法应用领域4.数学模型和公式&详细讲解&举例说明4
【十二】Golang 映射张胤尘 Golang golang 开发语言后端
欢迎来到张胤尘的开源技术站开源如江河，汇聚众志成。代码似星辰，照亮行征程。开源精神长，传承永不忘。携手共前行，未来更辉煌文章目录映射映射的定义映射初始化`make`函数使用字面量源码分析数据结构`hmap``bmap`数据存储键值访问竞态检测`Sanitizer`检测空检查并发写检查哈希值计算桶定位扩容情况处理桶内查找键值插入、扩容机制参数检查竞态检测`Sanitizer`检测并发检测哈希值计算初
怎样通过人机融合智能去除“机器幻觉”？人机与认知实验室
人机融合智能的目标是通过深度结合人类智能和机器智能，解决现有人工智能系统（特别是深度学习模型，如各种大模型）可能出现的问题，比如“机器幻觉”现象。机器幻觉指的是人工智能模型在处理信息时，做出错误的、非理性的判断或预测，这种现象往往源于模型在训练数据中的偏差、不完全信息或过度依赖某些特定模式。通过人机融合的方式，可以有效减少这种“幻觉”，进而提升人机环境系统智能的可靠性和解释能力。1.结合人类的直觉
深度学习-【完整代码+数据集】逻辑回归预测乳腺癌检测案例编程千纸鹤人工智能学习专栏深度学习逻辑回归人工智能癌症预测
作者主页：编程千纸鹤作者简介：Java、前端、Python开发多年，做过高程，项目经理，架构师主要内容：Java项目开发、Python项目开发、大学数据和AI项目开发、单片机项目设计、面试技术整理、最新技术分享收藏点赞不迷路关注作者有好处文末获得源码机器学习分为：有监督学习：数据带有标签无监督学习：数据没有标签，根据属性聚类在机器学习有监督学习中大致可以分为两大任务，一种是回归任务，一种是分类任务
端到端自动驾驶的分布式传感器融合架构 AI智能涌现深度研究计算机软件编程原理与应用实践 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
自动驾驶,分布式传感器融合,深度学习,计算机视觉,雷达,lidar,惯性导航,Kalman滤波,决策控制1.背景介绍自动驾驶技术作为未来交通运输的重要发展方向，近年来取得了显著进展。然而，实现真正安全的自动驾驶仍然面临着诸多挑战，其中之一就是如何有效地融合来自不同传感器的数据，构建一个可靠的感知、决策和控制系统。传统的自动驾驶系统通常依赖于单一传感器，例如摄像头或雷达，这会导致感知信息的缺失和鲁棒
大模型时代的软件架构设计 AI天才研究院计算 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
引言当今世界，人工智能（AI）技术正以惊人的速度发展，其中大模型（LargeModels）的崛起尤为引人注目。大模型，也被称为深度学习模型，因其庞大的参数规模和强大的数据处理能力，成为推动AI技术前进的重要力量。随着大模型的广泛应用，软件架构设计面临着前所未有的挑战和机遇。大模型时代的软件架构设计，不仅需要解决传统软件架构所面对的问题，如性能、可靠性和可扩展性等，还需要应对大模型带来的新挑战，如计
计算机毕业设计 ——jspssm508Springboot 的旅游管理奔强的程序课程设计旅游
博主小档案：花花，一名来自世界500强的资深程序猿，毕业于国内知名985高校。技术专长：花花在深度学习任务中展现出卓越的能力，包括但不限于java、python等技术。近年来，花花更是将触角延伸至AI领域，对于机器学习、自然语言处理、智能推荐等前沿技术都有独到的见解和实践经验。服务内容：1、提供科研入门辅导(主要是代码方面)2、代码部署3、定制化需求解决等4、期末考试复习计算机毕业设计——jsps
Crawl4AI：开源的网络爬虫和抓取工惟贤箬溪穷玩Ai github 开源 ai
crawl4ai是一个开源项目，旨在帮助用户爬取GitHub上与AI（人工智能）相关的内容。这些内容通常包括AI相关的开源项目、库、资源、论文、教程等。项目提供了一个爬虫工具，可以自动化地抓取并提取GitHub上与人工智能相关的资源。以下是对该项目的详细解读：1.项目概述crawl4ai是一个爬虫框架，专门用于从GitHub上抓取与AI相关的开源项目或仓库。这些仓库包括AI领域的机器学习、深度学习
【DeepSeek + Chatbox】本地局域网多用户协作全流程！从本地部署到高效交互，深度学习任务这样搞就对了～磕盐小宋的日常深度学习人工智能
文章目录『概要』『干货分享』『技术细节』『DeepSeek概述』『工作站配置』『所实现的功能』『具体实现流程』『短板与前瞻』『总结』『概要』最近团队在搞深度学习相关的研究，遇到了个头大的问题：设备依赖太重，每个人都要配备高性能硬件才能跑模型。于是我开始思考，有没有办法让大家共享资源，降低设备要求？经过一番调研和实践，我们终于打通了DeepSeek平台+Chatbox可视化界面的全流程局域网协作方案
Anaconda配置tensorflow-gpu教程 rubisco214 tensorflow 人工智能 python
最近在入门tensorflow深度学习，配置环境吃了不少苦头，写个完整的教程首先得在自己主机上装cuda（我之前就是主机上没装cuda,只在虚拟环境里面装了，结果jupyter里面怎么调都识别不到GPU）打开Nvidia控制面板，左上角帮助-系统信息-组件NVCUDA64.DLL后面的NVIDIACUDA12.1就是你的显卡支持的CUDA版本，去CUDA官网CUDAToolkitArchive|N
【llm对话系统】大模型源码分析之 LLaMA 模型的 Masked Attention kakaZhui llama 人工智能 AIGC chatgpt python
在大型语言模型（LLM）中，注意力机制（AttentionMechanism）是核心组成部分。然而，在自回归（autoregressive）模型中，例如LLaMA，我们需要对注意力进行屏蔽（Masking），以防止模型“偷看”未来的信息。本文将深入探讨LLaMA模型中MaskedAttention的实现逻辑，并对比其他类型大模型中常用的MaskedAttention方案。1.什么是MaskedAt
LSTM：解决梯度消失问题 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍在深度学习领域，循环神经网络（RNN）是一种处理序列数据的强大工具。然而，RNN在处理长序列时面临着梯度消失的问题。为了解决这个问题，Hochreiter和Schmidhuber于1997年提出了长短期记忆（LSTM）网络。本文将深入探讨LSTM如何解决梯度消失问题。2.核心概念与联系2.1梯度消失问题在深度神经网络中，梯度消失是一个常见的问题。当网络的层数增加时，反向传播的梯度会随着
基于深度学习的SSD口罩识别项目完整资料版（视频教程+课件+源码+数据） AI方案2025 深度学习人工智能
基于深度学习的SSD口罩识别项目完整资料版，包含视频教程、PPT课件和源码.01项目介绍.mp402SSD算法原理回顾.mp403数据集收集.mp404自定义数据集.mp405生成anchors.mp406展示anchors.mp407计算iou值.mp408计算target.mp409定义模型.mp410模型训练.mp411预测和总结.mp412ssd生成anchor源码编写.mp413计算of
55、深度学习-自学之路-自己搭建深度学习框架-16、使用LSTM解决RNN梯度消失和梯度爆炸的问题，重写莎士比亚风格文章。小宇爱深度学习-自学之路深度学习 rnn 人工智能自然语言处理神经网络
importnumpyasnpclassTensor(object):def__init__(self,data,autograd=False,creators=None,creation_op=None,id=None):self.data=np.array(data)self.autograd=autogradself.grad=Noneif(idisNone):self.id=np.rand
自然语言处理入门：从基础概念到实战项目范范0825 自然语言处理人工智能
自然语言处理入门：从基础概念到实战项目一、引言自然语言处理（NaturalLanguageProcessing，简称NLP）是人工智能的重要分支，旨在让计算机能够理解、生成和处理人类语言。随着大数据和深度学习的发展，NLP技术在文本分类、机器翻译、问答系统、情感分析等领域得到了广泛应用。本文将从NLP的基础概念入手，逐步介绍关键技术，最终通过一个完整的实战项目帮助读者掌握如何在实际应用中使用NLP
Python深度学习实践：使用TensorFlow构建图像分类器 Evaporator Core Python开发经验 python 深度学习 tensorflow
摘要随着深度学习技术的飞速发展，图像识别已成为AI领域的热点应用之一。本篇文章将引导读者使用Python和Google的TensorFlow框架，从零开始构建一个简单的图像分类器。我们将深入探讨卷积神经网络（CNN）的基本原理，实现一个能够识别MNIST手写数字的数据集模型，并通过实战代码演示整个过程，最终展示模型的训练与评估。一、环境配置与库导入确保已安装Python3.7+版本，以及Tenso
深度学习进阶：构建多层神经网络孤寂大仙v 深度学习神经网络人工智能
在上一篇文章中，我们从零开始构建了一个简单的两层神经网络，并通过异或问题（XOR）展示了神经网络的强大能力。今天，我们将进一步深入，构建一个更复杂的多层神经网络，并引入更多高级概念，如多隐藏层、激活函数选择、正则化等。我们还会使用更复杂的分类任务来训练模型，并评估其性能。1.多层神经网络的结构在实际应用中，深度学习模型通常包含多个隐藏层，这种结构被称为深度神经网络（DNN）。多层神经网络能够学习更
pytorch基础-layernormal 与 batchnormal yuweififi pytorch 人工智能 python
nn.LayerNorm（层归一化）和nn.BatchNorm（批量归一化）是深度学习中常用的两种归一化方法，都有助于提高模型的训练效率和稳定性，但它们在归一化维度、应用场景、计算方式等方面存在明显区别，以下为你详细介绍：1、归一化维度nn.LayerNorm：对单个样本的特征维度进行归一化。无论输入数据的形状如何，它会计算每个样本在特征维度上的均值和方差，然后进行归一化。例如，对于一个形状为(b
通过TensorFlow实现简单深度学习模型（2） yyc_audio 人工智能深度学习 python 机器学习
前文我们已经实现了对每批数据的训练，下面继续实现一轮完整的训练。完整的训练循环一轮训练就是对训练数据的每个批量都重复上述训练步骤，而完整的训练循环就是重复多轮训练。deffit(model,images,labels,epochs,batch_size=128):forepoch_counterinrange(epochs):print(f"Epoch{epoch_counter}")batch_
阿里巴巴DIN模型原理与Python实现 eso1983 python 开发语言算法推荐算法
阿里巴巴的DeepInterestNetwork(DIN)是一种用于点击率预测（CTR）的深度学习模型，特别针对电商场景中用户兴趣多样化和动态变化的特性设计。其核心思想是通过注意力机制动态捕捉用户历史行为中与当前候选商品相关的兴趣。1.DIN模型原理1.核心问题传统推荐模型（如Embedding+MLP）将用户历史行为视为固定长度的向量，忽略了用户兴趣的多样性。例如，用户历史行为中可能包含多个互不
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt

【TVM源码学习笔记】附录1 TVM python调用C++的机制

1. tvm relay op python调用C++

2. tvm relay function python调用C++

3. tvm relay op IRModule python调用C++

你可能感兴趣的:(TVM源码分析,深度学习)