yuanfz1998

TVM Relay softmax算子调度分析

https://github.com/apache/tvm/pull/8909/files

计算+调度分离

TOPI中的算子分为其算子的定义和算子的schedule两部分。算子的定义是唯一的，而对于不同的后端（x86、cuda等）schedule可以不同。可以不定义schedule，此时一切按照算子的定义执行且不加入任何优化，执行性能较差。

python/tvm/relay/op/strategy/目录下定义了一系列算子+调度的组合策略（strategy）。它们属于relay中的op。

比如，python/tvm/relay/op/strategy/x86.py是专为x86后端设计的策略，而python/tvm/relay/op/strategy/cuda.py则是为了cuda后端：

@softmax_strategy.register("cpu")
def softmax_strategy_cpu(attrs, inputs, out_type, target):
    """softmax x86 strategy"""
    strategy = _op.OpStrategy()
    strategy.add_implementation(
        wrap_compute_softmax(topi.nn.softmax),
        wrap_topi_schedule(topi.x86.schedule_softmax),
        name="softmax.x86",
    )
    return strategy

@softmax_strategy.register(["cuda", "gpu"])
def softmax_strategy_cuda(attrs, inputs, out_type, target):
    """softmax cuda strategy"""
    strategy = _op.OpStrategy()
    strategy.add_implementation(
        wrap_compute_softmax(topi.nn.softmax),
        wrap_topi_schedule(topi.cuda.schedule_softmax),
        name="softmax.cuda",
    )
    if target.kind.name == "cuda" and "cudnn" in target.libs:
        strategy.add_implementation(
            wrap_compute_softmax(topi.cuda.softmax_cudnn),
            wrap_topi_schedule(topi.cuda.schedule_softmax_cudnn),
            name="softmax.cudnn",
            plevel=15,
        )
    return strategy

可以观察到，wrap_compute_softmax的参数都是topi.nn.softmax，而wrap_topi_schedule包裹的调度函数则不同。这直接体现了TVM计算和调度分离的核心思想。

Fuse Ops 算子融合

调度不仅仅需要考虑当前算子本身如何高效执行，还需要考虑算子融合，即当前算子与其他算子融合之后的执行是否高效。这让调度的开发变得更加复杂。

例如：

python/tvm/topi/x86/dense.py

def dense_vnni_schedule(cfg, s, C, O, do_parallel=True):
    """Schedule dense compute using VNNI vpdpbusd instruction"""
    # C: The output of GEMM
    # O: The output of the fused op
    def split_y(out):
        default_y_split_factor = 32
        a_y = out.op.axis[-2]

        if cfg.is_fallback:
            return s[out].split(a_y, factor=default_y_split_factor)

        return cfg["tile_y"].apply(s, out, a_y)

    (a_k,) = C.op.reduce_axis

    a_yo, a_yi = split_y(C)
    a_xo, a_xi = s[C].split(C.op.axis[-1], factor=16)
    a_ko, a_ki = s[C].split(a_k, factor=4)

    s[C].reorder(a_yo, a_xo, a_yi, a_ko, a_xi, a_ki)

    pc = dot_16x1x16_uint8_int8_int32_cascadelake()
    s[C].tensorize(a_xi, pc)

    if C == O:
        fused = s[O].fuse(a_yo, a_xo)
    else:
        a_yo, a_yi = split_y(O)
        a_xo, a_xi = s[O].split(O.op.axis[-1], factor=16)

        s[O].reorder(a_yo, a_xo, a_yi, a_xi)
        s[O].vectorize(a_xi)
        s[C].compute_at(s[O], a_yi)

        fused = s[O].fuse(a_yo, a_xo)

    if do_parallel:
        s[O].parallel(fused)

    return s, fused

把C≠O作为判断是否是fuse op的条件：C==O则当前算子（dense）是未被融合的算子，反之，算子之后还存在某个依赖于当前算子计算结果的算子，此时C≠O。

另外，vnni dense的调度策略可以看这篇。

s[C].tensorize(a_xi, pc)

调用张量化调度策略。而在C≠O时，需要将输出变量O的调度安排到C上：

a_yo, a_yi = split_y(O)
a_xo, a_xi = s[O].split(O.op.axis[-1], factor=16)

s[O].reorder(a_yo, a_xo, a_yi, a_xi)
s[O].vectorize(a_xi)
s[C].compute_at(s[O], a_yi)

fused = s[O].fuse(a_yo, a_xo)

简单来说，就是在最内层的乘加（vpdpbusd）后加上另一个被融合的算子（例如biais_add）：

vpdpbusd + biais_add

test case中就测试了dense+biais_add的情况：

tests/python/relay/test_op_level1.py

@pytest.mark.skip("Requires cascadelake")
def test_dense_vnni():
    data_shape = (32, 96)
    weight_shape = (128, 96)

    for data_dtype in ["uint8", "int8"]:
        data = relay.var("data", shape=data_shape, dtype=data_dtype)
        weight = relay.var("weight", shape=weight_shape, dtype="int8")
        bias = relay.var("bias", shape=(weight_shape[0],), dtype="int32")
        dense = relay.nn.dense(data, weight, out_dtype="int32")
        out = relay.nn.bias_add(dense, bias)
        mod = tvm.IRModule.from_expr(out)

        target = "llvm -mcpu=cascadelake"
        with tvm.transform.PassContext(opt_level=3):
            lib = relay.build(mod, target=target)

        asm = lib.lib.get_source("asm")
        assert "vpdpbusd" in asm

        dev = tvm.device(target, 0)
        runtime = tvm.contrib.graph_executor.GraphModule(lib["default"](dev))

        a = np.random.uniform(1, 10, size=data_shape).astype(data_dtype)
        b = np.random.uniform(1, 10, size=weight_shape).astype("int8")
        c = np.random.uniform(1, 10, size=(weight_shape[0],)).astype("int32")

        runtime.set_input("data", a)
        runtime.set_input("weight", b)
        runtime.set_input("bias", c)
        runtime.run()

        out = runtime.get_output(0).numpy()
        ref = np.dot(a.astype("int32"), b.transpose().astype("int32")) + c

        np.testing.assert_equal(out, ref)

调度案例研究

官网上有很好的例子：

https://tvm.apache.org/docs/topic/vta/tutorials/optimize/convolution_opt.html?highlight=schedule

这里我们着重来看看TVM中如何实现这些调度。

以softmax为例：

softmax用numpy实现：

def softmax_python(a_np, axis=1):
    """Softmax operator.
    Parameters
    ----------
    a_np : numpy.ndarray
        N-D input data

    Returns
    -------
    output_np : numpy.ndarray
        N-D output with same shape
    """
    max_elem = np.amax(a_np, axis=axis, keepdims=True)
    e = np.exp(a_np - max_elem)
    expsum = np.sum(e, axis=axis, keepdims=True)
    out_np = e / expsum
    return out_np

不使用调度的TVM算子：

@main = primfn(A_1: handle) -> ()
  attr = {"from_legacy_te_schedule": True, "global_symbol": "main", "tir.noalias": True}
  buffers = {A: Buffer(A_2: Pointer(float32), float32, [12], [])}
  buffer_map = {A_1: A}
  preflattened_buffer_map = {A_1: A_3: Buffer(A_2, float32, [3, 4], [])} {
  allocate(T_softmax_maxelem: Pointer(global float32), float32, [3]), storage_scope = global;
  allocate(T_softmax_exp: Pointer(global float32), float32, [12]), storage_scope = global {
    for (i0: int32, 0, 3) {
      T_softmax_maxelem_1: Buffer(T_softmax_maxelem, float32, [3], [], align=8)[i0] = -3.40282e+38f32
      for (k: int32, 0, 4) {
        T_softmax_maxelem_1[i0] = max(T_softmax_maxelem_1[i0], A[((i0*4) + k)])
      }
    }
    for (i0_1: int32, 0, 3) {
      for (i1: int32, 0, 4) {
        let cse_var_1: int32 = ((i0_1*4) + i1)
        T_softmax_exp_1: Buffer(T_softmax_exp, float32, [12], [], align=32)[cse_var_1] = @tir.exp((A[cse_var_1] - T_softmax_maxelem_1[i0_1]), dtype=float32)
      }
    }
    for (i0_2: int32, 0, 3) {
      T_softmax_maxelem_2: Buffer(T_softmax_maxelem, float32, [3], [], align=8)[i0_2] = 0f32
      for (k_1: int32, 0, 4) {
        T_softmax_maxelem_2[i0_2] = (T_softmax_maxelem_2[i0_2] + T_softmax_exp_1[((i0_2*4) + k_1)])
      }
    }
    for (i0_3: int32, 0, 3) {
      for (i1_1: int32, 0, 4) {
        let cse_var_2: int32 = ((i0_3*4) + i1_1)
        T_softmax_exp_2: Buffer(T_softmax_exp, float32, [12], [], align=32)[cse_var_2] = (T_softmax_exp_1[cse_var_2] / T_softmax_maxelem_2[i0_3])
      }
    }
  }
}

可以观察到：原函数实现生成了整整4个for语句。增加了程序的复杂度。解决方案是，合并4个for语句并对outer axis做并行化处理。

python/tvm/topi/x86/nn.py

# only parallelize outer dimensions up to axis
outer_axes = [s[softmax_op].op.axis[i] for i in range(0, axis)]
fused_outer_axes = s[softmax_op].fuse(*outer_axes)
s[softmax_op].parallel(fused_outer_axes)

其中

axis=1
softmax_op= compute(T_softmax_norm, body=[(T_softmax_exp[i0, i1]/T_softmax_expsum[i0])], axis=[iter_var(i0, range(min=0, ext=3)), iter_var(i1, range(min=0, ext=4))], reduce_axis=[], tag=softmax_output, attrs={"axis": 1})
s[softmax_op].op.axis= [iter_var(i0, range(min=0, ext=3)), iter_var(i1, range(min=0, ext=4))]

由softmax_op的body可知，softmax_op对应的是最后一行的计算：

T_softmax_exp_2: Buffer(T_softmax_exp, float32, [12], [], align=32)[cse_var_2] = (T_softmax_exp_1[cse_var_2] / T_softmax_maxelem_2[i0_3])

s[softmax_op]也仅仅作用于最后一个for。

outer_axes是所有迭代变量。i0是最外部的for中的迭代变量，长度为3。i1则是内部for，长度为4。其中，

for i in range(0, axis)

保证了outer_axes只能取到所有外部的轴而只保留了最里层的for。当前的axis=1，则outer_axes储存了唯一一个轴i0。当axis=2或更大时，外部的轴有若干个。不管外部的轴有几个，它们都会通通被fuse到一起然后并行掉。

合并用到的函数是fuse。

https://tvm.apache.org/docs/how_to/work_with_schedules/schedule_primitives.html?highlight=primitives

得到：

@main = primfn(A_1: handle) -> ()
  attr = {"from_legacy_te_schedule": True, "global_symbol": "main", "tir.noalias": True}
  buffers = {A: Buffer(A_2: Pointer(float32), float32, [12], [])}
  buffer_map = {A_1: A}
  preflattened_buffer_map = {A_1: A_3: Buffer(A_2, float32, [3, 4], [])} {
  allocate(T_softmax_maxelem: Pointer(global float32), float32, [3]), storage_scope = global;
  allocate(T_softmax_exp: Pointer(global float32), float32, [12]), storage_scope = global {
    for (i0: int32, 0, 3) {
      T_softmax_maxelem_1: Buffer(T_softmax_maxelem, float32, [3], [], align=8)[i0] = -3.40282e+38f32
      for (k: int32, 0, 4) {
        T_softmax_maxelem_1[i0] = max(T_softmax_maxelem_1[i0], A[((i0*4) + k)])
      }
    }
    for (i0_1: int32, 0, 3) {
      for (i1: int32, 0, 4) {
        let cse_var_1: int32 = ((i0_1*4) + i1)
        T_softmax_exp_1: Buffer(T_softmax_exp, float32, [12], [], align=32)[cse_var_1] = @tir.exp((A[cse_var_1] - T_softmax_maxelem_1[i0_1]), dtype=float32)
      }
    }
    for (i0_2: int32, 0, 3) {
      T_softmax_maxelem_2: Buffer(T_softmax_maxelem, float32, [3], [], align=8)[i0_2] = 0f32
      for (k_1: int32, 0, 4) {
        T_softmax_maxelem_2[i0_2] = (T_softmax_maxelem_2[i0_2] + T_softmax_exp_1[((i0_2*4) + k_1)])
      }
    }
    for (i0_3: int32, 0, 3) "parallel" {
      for (i1_1: int32, 0, 4) {
        let cse_var_2: int32 = ((i0_3*4) + i1_1)
        T_softmax_exp_2: Buffer(T_softmax_exp, float32, [12], [], align=32)[cse_var_2] = (T_softmax_exp_1[cse_var_2] / T_softmax_maxelem_2[i0_3])
      }
    }
  }
}

可以观察到由i0表示的外部for被并行掉了，而内部for没有任何变动。

但这显然不够。我们要求的是所有外部for都并行掉，而不是最后一个for。

因此，我们需要找出其他的变量，然后重复上面的代码即可。

取出变量却没有那么容易。变量以input_tensors的形式储存着，通常是嵌套的。

softmax_op的input_tensors有两个：T_softmax_exp和T_softmax_expsum。

softmax_op= compute(T_softmax_norm, body=[(T_softmax_exp[i0, i1]/T_softmax_expsum[i0])], axis=[iter_var(i0, range(min=0, ext=3)), iter_var(i1, range(min=0, ext=4))], reduce_axis=[], tag=softmax_output, attrs={"axis": 1})
softmax_op.input_tensors= [Tensor(shape=[3, 4], op.name=T_softmax_exp), Tensor(shape=[3], op.name=T_softmax_expsum)]

它们都在softmax_op的body中。由于重命名规则，在打印出的调度中T_softmax_exp和T_softmax_expsum被分别重命名为了T_softmax_exp_1和T_softmax_maxelem_2。

T_softmax_exp和T_softmax_expsum被称为softmax_op的两个producer（生产者）。生产者为当前算子提供输入。取出它们的方法就很清晰了：

exp = softmax_op.input_tensors[0]
expsum = softmax_op.input_tensors[1]

现在，我们有了T_softmax_exp_1和T_softmax_maxelem_2，还缺少T_softmax_maxelem_1。同理，T_softmax_maxelem_1是T_softmax_exp_1的第二个生产者（第一个生产者是A）。

max_elem = s[exp].op.input_tensors[1]

现在我们完成了变量的获得，现在需要将其全部合并和改为并行。

# move computations with the same outer dimensions under the same root
s[max_elem].compute_at(s[softmax_op], fused_outer_axes)
s[expsum].compute_at(s[softmax_op], fused_outer_axes)
if exp is not None:
    s[exp].compute_at(s[softmax_op], fused_outer_axes)

这里用到了compute_at方法。compute_at将expsum变量的计算移动到softmax_op的fused_outer_axes轴上。

得到：

@main = primfn(A_1: handle) -> ()
  attr = {"from_legacy_te_schedule": True, "global_symbol": "main", "tir.noalias": True}
  buffers = {A: Buffer(A_2: Pointer(float32), float32, [12], [])}
  buffer_map = {A_1: A}
  preflattened_buffer_map = {A_1: A_3: Buffer(A_2, float32, [3, 4], [])} {
  allocate(T_softmax_norm: Pointer(global float32), float32, [12]), storage_scope = global;
  for (i0: int32, 0, 3) "parallel" {
    allocate(T_softmax_maxelem: Pointer(global float32), float32, [1]), storage_scope = global;
    allocate(T_softmax_exp: Pointer(global float32), float32, [4]), storage_scope = global;
    allocate(T_softmax_expsum: Pointer(global float32), float32, [1]), storage_scope = global {
      T_softmax_maxelem_1: Buffer(T_softmax_maxelem, float32, [1], [], align=4)[0] = -3.40282e+38f32
      for (k: int32, 0, 4) {
        T_softmax_maxelem_1[0] = max(T_softmax_maxelem_1[0], A[((i0*4) + k)])
      }
      for (i1: int32, 0, 4) {
        T_softmax_exp_1: Buffer(T_softmax_exp, float32, [4], [], align=16)[i1] = @tir.exp((A[((i0*4) + i1)] - T_softmax_maxelem_1[0]), dtype=float32)
      }
      T_softmax_expsum_1: Buffer(T_softmax_expsum, float32, [1], [], align=4)[0] = 0f32
      for (k_1: int32, 0, 4) {
        T_softmax_expsum_1[0] = (T_softmax_expsum_1[0] + T_softmax_exp_1[k_1])
      }
      for (i1_1: int32, 0, 4) {
        T_softmax_norm_1: Buffer(T_softmax_norm, float32, [12], [], align=32)[((i0*4) + i1_1)] = (T_softmax_exp_1[i1_1] / T_softmax_expsum_1[0])
      }
    }
  }
}

可以看到其他3个for也合并到了一起。

截止到本篇文章的TVM版本，可以观察到一个仍需优化的点：

T_softmax_exp_1计算完成后可以立即加到T_softmax_expsum_1上，这样做可以省去一个for。
内层for没有split，当第二个轴很长时，cache miss会增加。（比如第二个轴不是4而是1024或2048这种值）
常量化。T_softmax_maxelem_1可以常量化，而不是一个长度为1的数组。

Oracle数据库与Java全栈开发一篇搞定（指南式教学） Aphelios380 Oracle 数据库 oracle java
一、基础操作篇1.数据定义语言（DDL）核心操作1.1表结构设计技巧--电商用户表设计示例CREATETABLEtb_users(user_idNUMBER(10)PRIMARYKEY,usernameVARCHAR2(30)UNIQUENOTNULL,passwordCHAR(32)DEFAULT'e10adc3949ba59abbe56e057f20f883e',emailVARCHAR2(5
Python技术全景解析：从基础到前沿的深度探索靠近彗星 python 开发语言性能优化个人开发极限编程
目录一、Python为何成为开发者首选？1.核心优势矩阵2.性能进化史二、Python核心应用领域1.数据科学黄金三角2.AI开发新范式三、现代Python进阶技巧1.类型提示革命2.异步编程实战四、Python工程化实践1.现代项目架构2.性能优化矩阵五、Python未来生态展望1.前沿技术融合2.性能革命六、学习路线图1.技能成长路径基础阶段（1-3月）专业方向（3-6月）深度进阶（6-12月
回归任务训练--MNIST全连接神经网络（Mnist_NN）豆芽819 深度学习框架PyTorch pytorch 深度学习人工智能机器学习回归
importtorchimportnumpyasnpimportloggingfromtorch.utils.dataimportTensorDataset,DataLoaderfromtorch.utils.dataimportDataLoader#配置日志logging.basicConfig(level=logging.INFO,format='%(asctime)s-%(levelname
如何使用DeepSeek编写测试用例？海姐软件测试 deepseek 大数据测试工具
一、DeepSeek在测试用例设计中的定位DeepSeek作为AI工具，并非直接替代测试设计，而是通过以下方式提升效率：快速生成基础用例框架（等价类、边界值等）智能补充易遗漏场景（如特殊字符、异常流）自动化脚本片段生成（Python/pytest/JUnit等）测试数据构造建议（符合业务规则的Mock数据）二、四步法实战：AI协作编写测试用例Step1：明确需求输入输入质量决定输出质量，需向Dee
破界融合！北京首家AI+新材料全流程智能实验室落地沙河高教园人工智能
破界融合！北京首家AI+新材料全流程智能实验室落地沙河高教园3月21日上午，沙河高教园区AI+新材料合成校企联合实验室揭牌仪式在新元科技园区成功举办。昌平区副区长高阳，市科委、中关村管委会新材料与智能制造科技处，市经信局，未来城管委会校城融合处、沙河镇、昌发展等相关部门负责人及高校、科研院所、企业代表出席。“沙河高教园区AI+新材料合成校企联合实验室”揭牌仪式AI+新材料合成校企联合实验室位于新元
LLM-Agent方法评估与效果分析 agent人工智能ai开发
1.引言近年来，随着大型语言模型（LLM）的快速发展，基于强化学习（RL）对LLM进行微调以使其具备代理（Agent）能力成为研究热点。从基础的单智能体强化学习算法（如PPO）到多智能体协作、语料重组以及在线自学习等新技术不断涌现，研究人员致力于探索如何提高LLM在实际应用中的决策能力、推理能力和任务执行效率。本文主要聚焦于当前LLM-Agent方法的检索与评估，旨在全面探讨各类方法的技术实现、实
人工智能和云计算带来的技术变革：工业自动化的新趋势 AI天才研究院 LLM大模型落地实战指南大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能（AI）和云计算技术的发展，我们正面临着一场巨大的技术变革。这些技术正在改变我们的生活方式、工作方式和社会结构。在工业自动化领域，人工智能和云计算技术正在为我们提供新的可能性和挑战。本文将探讨这些技术如何影响工业自动化，以及未来的发展趋势和挑战。1.1人工智能的基本概念人工智能（ArtificialIntelligence，AI）是一种试图使计算机具有人类智能的技术。AI的
linux上安装postgresql9.5 crayon-shin-chan #postgresql surprise #linux linux ubuntu PostgreSQL 数据库
1.查看源版本czy@Mint~$sudoapt-getupdateczy@Mint~$apt-cachemadisonpostgresqlpostgresql|9.5+173ubuntu0.3|http://archive.ubuntu.com/ubuntuxenial-updates/mainamd64Packagespostgresql|9.5+173ubuntu0.3|http://arc
测试工程师Ai应用实战指南简例prompt 进击的雷神 prompt
阅读原文以下是一个真实具体的案例，展示测试工程师如何在不同阶段结合DeepSeek提升效率。案例基于电商平台"订单超时自动关闭"功能测试：案例背景项目名称：电商平台订单系统V2.3测试目标：验证"用户下单后30分钟未支付，订单自动关闭并释放库存"功能技术栈：SpringBoot+MySQL+Redis延迟队列1.需求分析阶段痛点：需求文档仅描述业务逻辑，未明确异常场景（如服务器时间不同步、Redi
使用 React 和 Cypress 进行单元测试 pxr007 单元测试 react.js junit
每个开发人员都希望发布一个没有错误的生产应用程序。为了实现这一点，我们需要考虑如何将测试集成到我们的应用程序中。我们可以使用许多测试工具、框架和测试类型。Cypress是一个现代化的自动化测试套件。它是一个基于JavaScript的完全开源的测试框架，由Mocha和Chai等支持BDD和TDD断言样式的库构建。此外，如果您熟悉用JavaScript编写测试，那么使用Cypress会很容易。Cypr
无锁并发环形队列(Java版) 呆呆的蜗牛数据结构和算法队列 java 多线程
环形队列是顺序队列的一种。普通的顺序队列，当队列不满且tail指针移动到数组的最后位置时，就需要将数组中的元素整体向前搬移，而环形队列却不用。这就提高了入队的效率。无锁并发主要基于CAS原理，在java中Unsafe类中提供了底层的CAS操作。但是我们可以不直接操作Unsafe类，JDK提供了一系列的Atomic类来满足一般的无锁需求。importjava.util.concurrent.atom
Android应用中实现Google登录 @半夏微凉科技 Android●知识点与疑难 Google登录 Google Android 谷歌登陆
背景Google登录是指使用Google账号（通常是Gmail地址及其关联的密码）来登录第三方网站或应用程序。它的背景可以追溯到Google希望建立一个统一的身份验证系统，让用户能够更方便地访问和使用各种在线服务。这种单点登录系统不仅方便了用户，还使开发者能够利用Google的身份验证服务，减少他们自行实施登录系统的工作量。Google登录的出现背景可以归结为以下几点：1.用户便利性：用户们拥有越
Windows faster whisper GUI-v0.8.5-开源版[AI支持超过100种语言的人声分离/声音转文本字幕] 私人珍藏库 whisper Windows faster whisper 人声分离声音转文本
WindowsfasterwhisperGUI链接：https://pan.xunlei.com/s/VOLwhsGJ1Rt5b24AhoPL8wvKA1?pwd=vydu#WindowsfasterwhisperGUI-v0.8.5-开源版[AI支持超过100种语言的人声分离/声音转文本字幕]whisperX+faster-whisper+Demucs把模型下载，然后加载模型用就好了，实在不会的
编程行业必备！12个热门AI工具帮你写代码~ DevSecOps选型指南人工智能软件供应链安全工具代码安全开发助手 SAST 安全
到今年，AI编程工具的发展已经非常成熟了，它们可以极大地提高开发效率，帮助程序员解决复杂问题，并优化代码质量。拒绝废话，今天给大家推荐12款AI编程工具！1悬镜安全灵脉AI开发安全卫士灵脉AI开发安全卫士是基于多模智能引擎的新一代静态代码安全扫描产品，通过自动化审查流程来定位潜在缺陷、提升审计效率和代码质量，并显著减少手动审查所需的时间和精力。该平台利用人工智能技术，提供逐行的代码反馈，建议改进和
算法刷题记录——LeetCode篇(1) [第1~100题](持续更新) Allen Wurlitzer 实战-算法解题算法 leetcode 职场和发展
更新时间：2025-03-21LeetCode刷题目录：算法刷题记录——专题目录汇总技术博客总目录：计算机技术系列博客——目录页优先整理热门100及面试150，不定期持续更新，欢迎关注！1.两数之和给定一个整数数组nums和一个整数目标值target，请你在该数组中找出和为目标值target的那两个整数，并返回它们的数组下标。你可以假设每种输入只会对应一个答案，并且你不能使用两次相同的元素。你可以
LLM 大模型技术知识最佳学习路径图发布！ AGI-杠哥学习人工智能语言模型 agi 自然语言处理
近日，经常有小伙伴私信我，大模型知识太多了，有点懵啊，我该如何学习LLM大模型？今天我们就来剖析下LLM大模型技术知识的学习路径。如果你是一个LLM大模型的“技术小白”，我们建议的学习路径如下：技术交流群前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~我们建了大模型技术与面试交流群
Mysql 报错: (1364, “Field ‘id‘ doesn‘t have a default value“) Lonelypatients° MySQL mysql
主要原因:在于主键表Id没有设置自增而报错,解决办法:设置主键自增会诱发另一个错误:Cannotchangecolumn'id':usedinaforeignkeyconstraint在于主键id已存在外键关系,不允许随意修改主键的属性值,所以我们须得先把外键关联删除之后,在更改主键,主键更改完毕后,加入外键,就好了
【Q&A】装饰模式在Qt中有哪些运用？浅慕Antonio Q&A qt 数据库服务器
在Qt框架中，装饰模式（DecoratorPattern）主要通过继承或组合的方式实现，常见于IO设备扩展和图形渲染增强场景。以下是Qt原生实现的装饰模式典型案例：一、QIODevice装饰体系（继承方式）场景为基础IO设备（如文件、缓冲区）添加数据格式解析、缓冲优化等功能。类图（Mermaid）«abstract»QIODevice+readData()+writeData()QFileQBuf
MiniMind：完全从 0 训练自己的大模型三花AI 三花AI 人工智能 LLM大模型
是B站UP主近在远方的远开源的一个微型语言模型，改进自DeepSeek-V2、Llama3结构，项目包含整个数据处理、pretrain、sft、dpo的全部阶段，包含混合专家(MoE)模型。其目标是把上手LLM的门槛无限降低，直接从0开始训练一个极其轻量的语言模型，最低仅需2G显卡即可推理训练！
minimind2学习：（1）训练溯源006 minimind学习学习深度学习生成模型
1、数据下载参考：https://github.com/jingyaogong/minimind/tree/master2、预训练训练6个epochspythontrain_pretrain.py--epochs6训练过程：LLM总参数量：25.830百万Epoch:[1/6](0/11040)loss:8.940lr:0.000550000000epoch_Time:106.0min:Epoch
DPO 核心理论推导：参考策略距离约束下的最优策略 + 损失函数设计 iiiiii11 机器学习人工智能论文阅读笔记语言模型深度学习
Rafailov,Rafael,etal.“Directpreferenceoptimization:Yourlanguagemodelissecretlyarewardmodel.”AdvancesinNeuralInformationProcessingSystems36(2023):53728-53741.本文整理了DPO论文中两个核心结论的推导，包括参考策略距离约束下的最优策略的形式，以及
Stacking算法：集成学习的终极武器 civilpy 算法集成学习机器学习
Stacking算法：集成学习的终极武器在机器学习的竞技场中，集成学习方法以其卓越的性能而闻名。其中，Stacking（堆叠泛化）作为一种高级集成技术，更是被誉为“集成学习的终极武器”。本文将带你深入了解Stacking算法的原理和实现，并提供一些实战技巧和最佳实践。1.Stacking算法原理探秘Stacking算法的核心思想是训练多个不同的基模型，并将它们的预测结果作为新模型的输入特征，以此来
MiniMind 亚伯拉罕·黄肯大模型人工智能
数据集分类：tokenizer训练集：这个数据集用于训练分词器（tokenizer），是文本处理中的一个重要步骤。它可以帮助模型更好地理解文本数据的结构。Pretrain数据：这是用于预训练模型的数据集，它可以帮助模型学习语言的基本结构和特征。SFT数据：SFT（SupervisedFine-Tuning）数据集，用于监督式微调，可以提高模型在特定任务上的性能。DPO数据1和DPO数据2：这两个数
集成学习（上）：Bagging集成方法万事可爱^ 机器学习修仙之旅 #监督学习集成学习机器学习人工智能 Bagging 随机森林
一、什么是集成学习？在机器学习的世界里，没有哪个模型是完美无缺的。就像古希腊神话中的"盲人摸象"，单个模型往往只能捕捉到数据特征的某个侧面。但当我们把多个模型的智慧集合起来，就能像拼图一样还原出完整的真相，接下来我们就来介绍一种“拼图”算法——集成学习。集成学习是一种机器学习技术，它通过组合多个模型（通常称为“弱学习器”或“基础模型”）的预测结果，构建出更强、更准确的学习算法。这种方法的主要思想是
直方图梯度提升：大数据时代的极速决策引擎万事可爱^ 大数据机器学习深度学习直方图梯度提升 GBDT 算法
一、为什么需要直方图梯度提升？在Kaggle竞赛的冠军解决方案中，超过70%的获奖方案都使用了梯度提升算法。但当数据量突破百万级时，传统梯度提升树（GBDT）面临三大致命瓶颈：训练耗时剧增：每个特征的分割点计算都需要全量数据排序内存消耗爆炸：存储排序后的特征值需要额外空间处理效率低下：无法有效利用现代CPU的多核特性而梯度提升决策树（GBDT）作为集成学习的代表算法，通过迭代构建决策树实现预测能力
【集成学习】：Stacking原理以及Python代码实现 Geeksongs 机器学习 python 机器学习深度学习人工智能算法
Stacking集成学习在各类机器学习竞赛当中得到了广泛的应用，尤其是在结构化的机器学习竞赛当中表现非常好。今天我们就来介绍下stacking这个在机器学习模型融合当中的大杀器的原理。并在博文的后面附有相关代码实现。总体来说，stacking集成算法主要是一种基于“标签”的学习，有以下的特点：用法：模型利用交叉验证，对训练集进行预测，从而实现二次学习优点：可以结合不同的模型缺点：增加了时间开销，容
LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混一个处女座的程序猿 NLP/LLMs CaseCode transformer minimind 预训练
LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混合精度优化/梯度累积/梯度裁剪/定期保存模型目录minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/
Redis 哨兵模式的选举算法是什么？少林码僧 redis sentinel
Redis哨兵模式中的选举算法主要用于在主节点出现故障时，从多个Sentinel节点中选出一个领导者（Leader）来执行故障转移操作。Redis哨兵的选举算法基于Raft算法的简化版本，但不完全等同于标准的Raft算法。以下是其主要过程：一、发现主节点故障当一个Sentinel节点主观地认为主节点不可达时（通常是在一定时间内没有收到主节点的PING回复），它会将主节点标记为主观下线（Subjec
ffmpeg录屏 _洛_神音视频音视频
qt+ffmpeg屏幕录制软件完整工程链接：https://download.csdn.net/download/weixin_42538789/85013858测试代码#include#include"screencapture.h"#includeusingnamespacestd;intmain(intargc,char*argv[]){QCoreApplicationa(argc,argv
Kafka 的消息压缩机制：优化存储与传输的利器阿贾克斯的黎明 java linq c#java
目录Kafka的消息压缩机制：优化存储与传输的利器一、消息压缩机制的重要意义1.减少存储成本2.提升网络传输效率二、Kafka常用的消息压缩算法1.GZIP压缩2.Snappy压缩3.前端展示压缩状态（Vue3+TS）在消息中间件的大家族中，Kafka以其卓越的性能而备受瞩目。其中，Kafka的消息压缩机制是一项非常重要的特性，它就像是一个高效的“压缩包”，在不损失数据内容的前提下，有效减少数据的
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多

TVM Relay softmax算子调度分析

计算+调度分离

Fuse Ops 算子融合

调度案例研究

你可能感兴趣的:(tvm,算法,compiler,ai)