NaiveYoungPeo

PyTorch中构建和调用C++/CUDA扩展

翻译至PyTorch官方教程
C++ 扩展有两种形式：它们可以使用 setuptools“提前”构建，或者通过 torch.utils.cpp_extension.load()“及时”构建。我们将从第一种方法开始，稍后讨论后者。

使用setuptools构建

对于“提前”风格，我们通过编写 setup.py 脚本来构建我们的 C++ 扩展，该脚本使用 setuptools 编译我们的 C++ 代码。对于 LLTM，它看起来很简单：

from setuptools import setup, Extension
from torch.utils import cpp_extension

setup(name='lltm_cpp',
      ext_modules=[cpp_extension.CppExtension('lltm_cpp', ['lltm.cpp'])],
      cmdclass={'build_ext': cpp_extension.BuildExtension})

在此代码中，CppExtension 是 setuptools.Extension 的便捷包装器，它传递正确的包含路径并将扩展的语言设置为 C++。等效的 vanilla setuptools 代码就是：

Extension(
   name='lltm_cpp',
   sources=['lltm.cpp'],
   include_dirs=cpp_extension.include_paths(),
   language='c++')

BuildExtension 执行许多必需的配置步骤和检查，并在混合 C++/CUDA 扩展的情况下管理混合编译。这就是我们现在真正需要了解的关于构建 C++ 扩展的全部内容！现在让我们看一下 lltm.cpp 中 C++ 扩展的实现。

编写 C++ 操作

让我们开始在 C++ 中实现 LLTM！反向传播需要的一个函数是 sigmoid 的导数。这是一段足够小的代码来讨论我们在编写 C++ 扩展时可用的整体环境：

#include 
#include 

torch::Tensor d_sigmoid(torch::Tensor z)
{
    auto s = torch::sigmoid(z);
    return (1 - s) * s;
}

是包含编写 C++ 扩展所需的所有 PyTorch 的一站式头文件。这包括：

ATen 库，这是我们用于张量计算的主要 API，
pybind11，这是我们为 C++ 代码创建 Python 绑定的方式，
管理 ATen 和 pybind11 之间交互细节的头文件。

d_sigmoid() 的实现展示了如何使用 ATen API。 PyTorch 的张量和变量接口是从 ATen 库自动生成的，因此我们可以或多或少地将我们的 Python 实现 1:1 翻译成 C++。我们所有计算的主要数据类型将是 torch::Tensor。可以在此处查看其完整 API。另请注意，我们可以包含或任何其他 C 或 C++ 头文件——我们可以使用 C++11 的全部功能。

前向传播

接下来，我们可以将整个前向传递移植到 C++：

#include 

std::vector lltm_forward(torch::Tensor input,
                                     torch::Tensor weights,
                                     torch::Tensor bias,
                                     torch::Tensor old_h,
                                     torch::Tensor old_cell)
{
    auto X = torch::cat({old_h, input}, /*dim=*/1);

    auto gate_weights = torch::addmm(bias, X, weights.transpose(0, 1));
    auto gates = gate_weights.chunk(3, /*dim=*/1);

    auto input_gate = torch::sigmoid(gates[0]);
    auto output_gate = torch::sigmoid(gates[1]);
    auto candidate_cell = torch::elu(gates[2], /*alpha=*/1.0);

    auto new_cell = old_cell + candidate_cell * input_gate;
    auto new_h = torch::tanh(new_cell) * output_gate;

    return {new_h,
            new_cell,
            input_gate,
            output_gate,
            candidate_cell,
            X,
            gate_weights};
}

反向传播

C++ 扩展 API 目前没有为我们提供自动生成向后函数的方法。因此我们还必须实现 LLTM 的反向传递，它计算关于正向传递的每个输入的损失的导数。最终我们会将前向和后向函数放入 torch.autograd.Function 以创建一个很好的 Python 绑定。向后函数稍微复杂一点，所以我们不会深入研究代码（如果你有兴趣，Alex Graves 的论文是一本很好的读物）：

// tanh'(z) = 1 - tanh^2(z)
torch::Tensor d_tanh(torch::Tensor z) 
{
    return 1 - z.tanh().pow(2);
}

// elu'(z) = relu'(z) + { alpha * exp(z) if (alpha * (exp(z) - 1)) < 0, else 0}
torch::Tensor d_elu(torch::Tensor z, torch::Scalar alpha = 1.0) 
{
    auto e = z.exp();
    auto mask = (alpha * (e - 1)) < 0;
    return (z > 0).type_as(z) + mask.type_as(z) * (alpha * e);
}

std::vector lltm_backward(torch::Tensor grad_h,
                                         torch::Tensor grad_cell,
                                         torch::Tensor new_cell,
                                         torch::Tensor input_gate,
                                         torch::Tensor output_gate,
                                         torch::Tensor candidate_cell,
                                         torch::Tensor X,
                                         torch::Tensor gate_weights,
                                         torch::Tensor weights)
{
    auto d_output_gate = torch::tanh(new_cell) * grad_h;
    auto d_tanh_new_cell = output_gate * grad_h;
    auto d_new_cell = d_tanh(new_cell) * d_tanh_new_cell + grad_cell;

    auto d_old_cell = d_new_cell;
    auto d_candidate_cell = input_gate * d_new_cell;
    auto d_input_gate = candidate_cell * d_new_cell;

    auto gates = gate_weights.chunk(3, /*dim=*/1);
    d_input_gate *= d_sigmoid(gates[0]);
    d_output_gate *= d_sigmoid(gates[1]);
    d_candidate_cell *= d_elu(gates[2]);

    auto d_gates = torch::cat({d_input_gate, d_output_gate, d_candidate_cell}, /*dim=*/1);

    auto d_weights = d_gates.t().mm(X);
    auto d_bias = d_gates.sum(/*dim=*/0, /*keepdim=*/true);

    auto d_X = d_gates.mm(weights);
    const auto state_size = grad_h.size(1);
    auto d_old_h = d_X.slice(/*dim=*/1, 0, state_size);
    auto d_input = d_X.slice(/*dim=*/1, state_size);

    return {d_old_h, d_input, d_weights, d_bias, d_old_cell};
}

绑定到 Python

一旦你用 C++ 和 ATen 编写了你的操作，你就可以使用 pybind11 以非常简单的方式将你的 C++ 函数或类绑定到 Python 中。您对 PyTorch C++ 扩展的这一部分的疑问或问题将主要由pybind11文档解决。

对于我们的扩展，必要的绑定代码只有四行：

PYBIND11_MODULE(TORCH_EXTENSION_NAME, m)
{
  m.def("forward", &lltm_forward, "LLTM forward");
  m.def("backward", &lltm_backward, "LLTM backward");
}

这里要注意的一点是宏 TORCH_EXTENSION_NAME。 torch扩展构建将其定义为您在 setup.py 脚本中为扩展指定的名称。在这种情况下，TORCH_EXTENSION_NAME 的值将是“lltm_cpp”。这是为了避免必须在两个地方（构建脚本和 C++ 代码）维护扩展名，因为两者之间的不匹配会导致令人讨厌且难以跟踪的问题。

使用您的扩展

我们现在准备在 PyTorch 中导入我们的扩展。此时，您的目录结构可能如下所示：

pytorch/
    lltm-extension/
    lltm.cpp
    setup.py

现在，运行 python setup.py install 来构建和安装你的扩展。

关于编译器的一个小说明：由于 ABI 版本问题，用于构建 C++ 扩展的编译器必须与构建 PyTorch 的编译器 ABI 兼容。实际上，这意味着您必须在 Linux 上使用 GCC 4.9 及更高版本。对于 Ubuntu 16.04 和其他更新的 Linux 发行版，这应该已经是默认编译器。在 MacOS 上，您必须使用 clang（它没有任何 ABI 版本控制问题）。在最坏的情况下，您可以使用编译器从源代码构建 PyTorch，然后使用相同的编译器构建扩展。

构建扩展后，您只需使用在 setup.py 脚本中指定的名称将其导入 Python 即可。请务必先导入 torch，因为这将解析动态链接器必须看到的一些符号：

In [1]: import torch
In [2]: import lltm_cpp
In [3]: lltm_cpp.forward
Out[3]:

如果我们在函数或模块上调用 help()，我们可以看到它的签名与我们的 C++ 代码匹配：

In[4] help(lltm_cpp.forward)
forward(...) method of builtins.PyCapsule instance
    forward(arg0: torch::Tensor, arg1: torch::Tensor, arg2: torch::Tensor, arg3: torch::Tensor, arg4: torch::Tensor) -> List[torch::Tensor]

    LLTM forward

由于我们现在可以从 Python 调用我们的 C++ 函数，我们可以用 torch.autograd.Function 和 torch.nn.Module 将它们包装起来，使它们成为 PyTorch 的一等公民：

import math
import torch

# Our module!
import lltm_cpp

class LLTMFunction(torch.autograd.Function):
    @staticmethod
    def forward(ctx, input, weights, bias, old_h, old_cell):
        outputs = lltm_cpp.forward(input, weights, bias, old_h, old_cell)
        new_h, new_cell = outputs[:2]
        variables = outputs[1:] + [weights]
        ctx.save_for_backward(*variables)

        return new_h, new_cell

    @staticmethod
    def backward(ctx, grad_h, grad_cell):
        outputs = lltm_cpp.backward(
            grad_h.contiguous(), grad_cell.contiguous(), *ctx.saved_tensors)
        d_old_h, d_input, d_weights, d_bias, d_old_cell = outputs
        return d_input, d_weights, d_bias, d_old_h, d_old_cell


class LLTM(torch.nn.Module):
    def __init__(self, input_features, state_size):
        super(LLTM, self).__init__()
        self.input_features = input_features
        self.state_size = state_size
        self.weights = torch.nn.Parameter(
            torch.empty(3 * state_size, input_features + state_size))
        self.bias = torch.nn.Parameter(torch.empty(3 * state_size))
        self.reset_parameters()

    def reset_parameters(self):
        stdv = 1.0 / math.sqrt(self.state_size)
        for weight in self.parameters():
            weight.data.uniform_(-stdv, +stdv)

    def forward(self, input, state):
        return LLTMFunction.apply(input, self.weights, self.bias, *state)

性能比较

现在我们可以使用和调用来自 PyTorch 的 C++ 代码，我们可以运行一个小型基准测试，看看我们通过用 C++ 重写我们的操作获得了多少性能。我们将向前和向后运行 LLTM 几次并测量持续时间：

import time

import torch

batch_size = 16
input_features = 32
state_size = 128

X = torch.randn(batch_size, input_features)
h = torch.randn(batch_size, state_size)
C = torch.randn(batch_size, state_size)

rnn = LLTM(input_features, state_size)

forward = 0
backward = 0
for _ in range(100000):
    start = time.time()
    new_h, new_C = rnn(X, (h, C))
    forward += time.time() - start

    start = time.time()
    (new_h.sum() + new_C.sum()).backward()
    backward += time.time() - start

print('Forward: {:.3f} us | Backward {:.3f} us'.format(forward * 1e6/1e5, backward * 1e6/1e5))

如果我们使用在本文开头用纯 Python 编写的原始 LLTM 运行此代码，我们会得到以下数字（在我的机器上）：

Forward: 506.480 us | Backward 444.694 us

以及我们的新 C++ 版本：

Forward: 349.335 us | Backward 443.523 us

我们已经可以看到前向函数的显著加速（超过 30%）。对于反向函数，可以看到一定的加速。上面写的反向传播没有特别优化，肯定可以改进。此外，PyTorch的自动微分引擎可以自动并行化计算图，总体上可以使用更高效的操作流程，并且也是用 C++ 实现的，因此预计速度会很快。尽管如此，这是一个好的开始。

GPU 设备上的性能提升

关于 PyTorch 的 ATen 后端的一个奇妙事实是它抽象了您正在运行的计算设备。这意味着我们为 CPU 编写的相同代码也可以在 GPU 上运行，并且各个操作将相应地分派到 GPU 优化的实现。对于矩阵乘法等某些运算（如 mm 或 addmm），这是一个巨大的胜利。让我们看看使用 CUDA 张量运行我们的 C++ 代码可以获得多少性能。不需要更改我们的实现，我们只需要将我们的张量从 Python 放入 GPU 内存中，在创建时添加 device=cuda_device 参数或在创建后使用 .to(cuda_device)：

import torch

assert torch.cuda.is_available()
cuda_device = torch.device("cuda")  # device object representing GPU

batch_size = 16
input_features = 32
state_size = 128

# Note the device=cuda_device arguments here
X = torch.randn(batch_size, input_features, device=cuda_device)
h = torch.randn(batch_size, state_size, device=cuda_device)
C = torch.randn(batch_size, state_size, device=cuda_device)

rnn = LLTM(input_features, state_size).to(cuda_device)

forward = 0
backward = 0
for _ in range(100000):
    start = time.time()
    new_h, new_C = rnn(X, (h, C))
    torch.cuda.synchronize()
    forward += time.time() - start

    start = time.time()
    (new_h.sum() + new_C.sum()).backward()
    torch.cuda.synchronize()
    backward += time.time() - start

print('Forward: {:.3f} us | Backward {:.3f} us'.format(forward * 1e6/1e5, backward * 1e6/1e5))

再次将我们的普通 PyTorch 代码与我们的 C++ 版本进行比较，现在两者都在 CUDA 设备上运行，我们再次看到性能提升。对于 Python/PyTorch：

Forward: 187.719 us | Backward 410.815 us

和 C++/ATen：

Forward: 149.802 us | Backward 393.458 us

与非 CUDA 代码相比，这是一个很好的整体加速。但是我们可以通过编写自定义 CUDA 内核来从 C++ 代码中获得更高的性能，我们很快就会深入研究。在此之前，让我们讨论另一种构建 C++ 扩展的方法。

JIT 编译扩展

之前，我提到有两种构建 C++ 扩展的方法：使用 setuptools 或 just in time (JIT)。讲完前者，我们来详细介绍后者。 JIT 编译机制通过调用 PyTorch 的 API 中名为 torch.utils.cpp_extension.load() 的简单函数，为您提供了一种动态编译和加载扩展的方法。对于 LLTM，这看起来很简单：

from torch.utils.cpp_extension import load

lltm_cpp = load(name="lltm_cpp", sources=["lltm.cpp"])

在这里，我们为该函数提供与 setuptools 相同的信息。在后台，这将执行以下操作：

创建一个临时目录/tmp/torch_extensions/lltm，
将 Ninja 构建文件发送到该临时目录中，
将您的源文件编译到共享库中，
将此共享库作为 Python 模块导入。

实际上，如果您将verbose=True 传递给cpp_extension.load()，您将被告知该过程：

Using /tmp/torch_extensions as PyTorch extensions root...
Emitting ninja build file /tmp/torch_extensions/lltm_cpp/build.ninja...
Building extension module lltm_cpp...
Loading extension module lltm_cpp...

生成的 Python 模块将与 setuptools 生成的完全相同，但不需要维护单独的 setup.py 构建文件。如果您的设置更复杂，并且您确实需要 setuptools 的全部功能，您可以编写自己的 setup.py，但在许多情况下，这种 JIT 技术会很好。第一次运行此行时，需要一些时间，因为扩展程序正在后台编译。由于我们使用 Ninja 构建系统来构建您的源代码，重新编译是增量的，因此如果您不更改扩展的源文件，第二次运行 Python 模块时重新加载扩展会很快并且开销很低。

编写混合 C++/CUDA 扩展

为了真正将我们的实现提升到一个新的水平，我们可以使用自定义 CUDA 内核手写部分向前和向后传递。对于 LLTM，这有可能特别有效，因为有大量按顺序进行的逐点操作，它们都可以在单个 CUDA 内核中融合和并行化。让我们看看如何编写这样的 CUDA 内核并使用这种扩展机制将其与 PyTorch 集成。

编写 CUDA 扩展的一般策略是首先编写一个 C++ 文件，该文件定义将从 Python 调用的函数，并使用 pybind11 将这些函数绑定到 Python。此外，该文件还将声明在 CUDA (.cu) 文件中定义的函数。然后，C++ 函数将进行一些检查，并最终将其调用转发到 CUDA 函数。在 CUDA 文件中，我们编写了实际的 CUDA 内核。然后，cpp_extension 包将负责使用 gcc 等 C++ 编译器编译 C++ 源代码，以及使用 NVIDIA 的 nvcc 编译器编译 CUDA 源代码。这确保了每个编译器都会处理它最知道要编译的文件。最终，它们将链接到一个共享库中，我们可以从 Python 代码中使用该库。

我们将从 C++ 文件开始，我们将其称为 lltm_cuda.cpp，例如：

#include 

#include 

// CUDA forward declarations

std::vector lltm_cuda_forward(torch::Tensor input,
                                             torch::Tensor weights,
                                             torch::Tensor bias,
                                             torch::Tensor old_h,
                                             torch::Tensor old_cell);

std::vector lltm_cuda_backward(torch::Tensor grad_h,
                                              torch::Tensor grad_cell,
                                              torch::Tensor new_cell,
                                              torch::Tensor input_gate,
                                              torch::Tensor output_gate,
                                              torch::Tensor candidate_cell,
                                              torch::Tensor X,
                                              torch::Tensor gate_weights,
                                              torch::Tensor weights);

// C++ interface

#define CHECK_CUDA(x) TORCH_CHECK(x.type().is_cuda(), #x " must be a CUDA tensor")
#define CHECK_CONTIGUOUS(x) TORCH_CHECK(x.is_contiguous(), #x " must be contiguous")
#define CHECK_INPUT(x) CHECK_CUDA(x); CHECK_CONTIGUOUS(x)

std::vector lltm_forward(torch::Tensor input,
                                        torch::Tensor weights,
                                        torch::Tensor bias,
                                        torch::Tensor old_h,
                                        torch::Tensor old_cell)
{
    CHECK_INPUT(input);
    CHECK_INPUT(weights);
    CHECK_INPUT(bias);
    CHECK_INPUT(old_h);
    CHECK_INPUT(old_cell);

    return lltm_cuda_forward(input, weights, bias, old_h, old_cell);
}

std::vector lltm_backward(torch::Tensor grad_h,
                                         torch::Tensor grad_cell,
                                         torch::Tensor new_cell,
                                         torch::Tensor input_gate,
                                         torch::Tensor output_gate,
                                         torch::Tensor candidate_cell,
                                         torch::Tensor X,
                                         torch::Tensor gate_weights,
                                         torch::Tensor weights)
{
    CHECK_INPUT(grad_h);
    CHECK_INPUT(grad_cell);
    CHECK_INPUT(input_gate);
    CHECK_INPUT(output_gate);
    CHECK_INPUT(candidate_cell);
    CHECK_INPUT(X);
    CHECK_INPUT(gate_weights);
    CHECK_INPUT(weights);

    return lltm_cuda_backward(grad_h,
                              grad_cell,
                              new_cell,
                              input_gate,
                              output_gate,
                              candidate_cell,
                              X,
                              gate_weights,
                              weights);
}

PYBIND11_MODULE(TORCH_EXTENSION_NAME, m)
{
    m.def("forward", &lltm_forward, "LLTM forward (CUDA)");
    m.def("backward", &lltm_backward, "LLTM backward (CUDA)");
}

如您所见，它主要是样板文件，检查并转发到我们将在 CUDA 文件中定义的函数。我们将此文件命名为 lltm_cuda_kernel.cu（注意 .cu 扩展名！）。 NVCC 可以合理地编译 C++11，因此我们仍然可以使用 ATen 和 C++ 标准库（但不是 torch.h）。请注意，setuptools 无法处理名称相同但扩展名不同的文件，因此如果您使用 setup.py 方法而不是 JIT 方法，则必须为 CUDA 文件指定一个不同于 C++ 文件的名称（对于 JIT 方法，lltm. cpp 和 lltm.cu 可以正常工作）。让我们看一下这个文件的样子：

#include 
#include 
#include 
#include 

template 
__device__ __forceinline__ scalar_t sigmoid(scalar_t z)
{
    return 1.0 / (1.0 + exp(-z));
}

在这里，我们看到了刚刚描述的头文件，以及我们正在使用 CUDA 特定声明（如 device 和 forceinline）以及函数（如 exp）这一事实。让我们继续使用一些我们需要的辅助函数：

template 
__device__ __forceinline__ scalar_t d_sigmoid(scalar_t z)
{
    const auto s = sigmoid(z);
    return (1.0 - s) * s;
}

template 
__device__ __forceinline__ scalar_t d_tanh(scalar_t z)
{
    const auto t = tanh(z);
    return 1 - (t * t);
}

template 
__device__ __forceinline__ scalar_t elu(scalar_t z, scalar_t alpha = 1.0)
{
    return fmax(0.0, z) + fmin(0.0, alpha * (exp(z) - 1.0));
}

template 
__device__ __forceinline__ scalar_t d_elu(scalar_t z, scalar_t alpha = 1.0)
{
    const auto e = exp(z);
    const auto d_relu = z < 0.0 ? 0.0 : 1.0;
    return d_relu + (((alpha * (e - 1.0)) < 0.0) ? (alpha * e) : 0.0);
}

现在要实际实现一个函数，我们将再次需要两件事：一个函数执行我们不想手动明确编写的操作并调用 CUDA 内核，然后是我们想要加速的部分的实际 CUDA 内核 . 对于前向传递，第一个函数应如下所示：

std::vector lltm_cuda_forward(torch::Tensor input,
                                             torch::Tensor weights,
                                             torch::Tensor bias,
                                             torch::Tensor old_h,
                                             torch::Tensor old_cell)
{
    auto X = torch::cat({old_h, input}, /*dim=*/1);
    auto gates = torch::addmm(bias, X, weights.transpose(0, 1));

    const auto batch_size = old_cell.size(0);
    const auto state_size = old_cell.size(1);

    auto new_h = torch::zeros_like(old_cell);
    auto new_cell = torch::zeros_like(old_cell);
    auto input_gate = torch::zeros_like(old_cell);
    auto output_gate = torch::zeros_like(old_cell);
    auto candidate_cell = torch::zeros_like(old_cell);

    const int threads = 1024;
    const dim3 blocks((state_size + threads - 1) / threads, batch_size);

    AT_DISPATCH_FLOATING_TYPES(gates.type(), "lltm_forward_cuda", ([&] 
    {
        lltm_cuda_forward_kernel<<>>(
        gates.data(),
        old_cell.data(),
        new_h.data(),
        new_cell.data(),
        input_gate.data(),
        output_gate.data(),
        candidate_cell.data(),
        state_size);
    }));
    return {new_h, new_cell, input_gate, output_gate, candidate_cell, X, gates};
}

这里的主要兴趣点是 AT_DISPATCH_FLOATING_TYPES 宏和内核启动（由 <<<…>>> 表示）。虽然 ATen 抽象了我们处理的张量的设备和数据类型，但张量在运行时仍将得到具体设备上具体类型的内存的支持。因此，我们需要一种在运行时确定张量是什么类型的方法，然后有选择地调用具有相应正确类型签名的函数。手动完成，这（概念上）看起来像这样：

switch (tensor.type().scalarType())
{
  case torch::ScalarType::Double:
    return function(tensor.data());
  case torch::ScalarType::Float:
    return function(tensor.data());
  ...
}

AT_DISPATCH_FLOATING_TYPES 的目的是为我们处理这个调度。它需要一个类型（在我们的例子中为 gates.type()）、一个名称（用于错误消息）和一个 lambda 函数。在这个 lambda 函数中，类型别名 scalar_t 可用，并被定义为张量在该上下文中实际运行时的类型。因此，如果我们有一个模板函数（如示例为我们的 CUDA 内核），我们可以用这个 scalar_t 别名实例化它，然后正确的函数将被调用。在这种情况下，我们还想检索张量的数据指针作为该 scalar_t 类型的指针。如果您想调度所有类型而不仅仅是浮点类型（Float 和 Double），您可以使用 AT_DISPATCH_ALL_TYPES。

请注意，我们使用普通的 ATen 执行一些操作。这些操作仍将在 GPU 上运行，但使用 ATen 的默认实现。这是有道理的，因为 ATen 将使用高度优化的例程来处理诸如矩阵乘法（例如 addmm）或卷积之类的事情，这对我们来说比较难以实现或改进。

至于内核启动本身，我们在这里指定每个 CUDA 块将有 1024 个线程，并且整个 GPU 网格被拆分为所需数量的 1 x 1024 线程块，以便用每个组件一个线程填充我们的矩阵。例如，如果我们的状态大小是 2048，我们的批处理大小是 4，我们将使用 1024 个线程总共启动 4 x 2 = 8 个块。如果您以前从未听说过 CUDA“块”或“网格”，那么阅读有关 CUDA 的介绍性读物可能会有所帮助。

实际的 CUDA 内核相当简单（如果您以前曾对 GPU 进行过编程）：

template 
__global__ void lltm_cuda_forward_kernel(const scalar_t* __restrict__ gates,
                                         const scalar_t* __restrict__ old_cell,
                                         scalar_t* __restrict__ new_h,
                                         scalar_t* __restrict__ new_cell,
                                         scalar_t* __restrict__ input_gate,
                                         scalar_t* __restrict__ output_gate,
                                         scalar_t* __restrict__ candidate_cell,
                                         size_t state_size)
{
    const int column = blockIdx.x * blockDim.x + threadIdx.x;
    const int index = blockIdx.y * state_size + column;
    const int gates_row = blockIdx.y * (state_size * 3);
    if(column < state_size)
    {
        input_gate[index] = sigmoid(gates[gates_row + column]);
        output_gate[index] = sigmoid(gates[gates_row + state_size + column]);
        candidate_cell[index] = elu(gates[gates_row + 2 * state_size + column]);
        new_cell[index] = old_cell[index] + candidate_cell[index] * input_gate[index];
        new_h[index] = tanh(new_cell[index]) * output_gate[index];
    }
}

这里主要有趣的是，我们能够为门矩阵中的每个单独组件完全并行地计算所有这些逐点操作。如果你想象必须用一个巨大的 for 循环超过一百万个连续元素来做到这一点，你就会明白为什么这会快得多。

使用Accessor

您可以在 CUDA 内核中看到我们直接处理具有正确类型的指针。事实上，直接在 CUDA 内核中使用高级类型不可知张量是非常低效的。

然而，这是以易用性和可读性为代价的，尤其是对于高维数据。在我们的例子中，我们知道例如连续门张量有 3 个维度：

batch, size of batch_size and stride of 3*state_size
row, size of 3 and stride of state_size
index, size of state_size and stride of 1

那么我们如何访问内核中的元素 gates[n][row][column] 呢？事实证明，您需要使用一些简单的算法来访问元素的步幅。

gates.data()[n*3*state_size + row*state_size + column]

除了冗长之外，该表达式还需要 stride 才能明确知道，从而在其参数中传递给内核函数。你可以看到，在核函数接受多个不同大小的张量的情况下，你最终会得到一个很长的参数列表。

对我们来说幸运的是，ATen 提供了通过单个动态检查创建的Accessor，即张量是维度的类型和数量。然后，访问器公开一个 API，用于高效访问 Tensor 元素，而无需转换为单个指针：

torch::Tensor foo = torch::rand({12, 12});

// assert foo is 2-dimensional and holds floats.
auto foo_a = foo.accessor();
float trace = 0;

for(int i = 0; i < foo_a.size(0); i++)
{
    // use the accessor foo_a to get tensor data.
    trace += foo_a[i][i];
}

Accessor对象有一个相对高层的接口，有 .size() 和 .stride() 方法和多维索引。 .accessor<> 接口旨在有效地访问 cpu 张量上的数据。 cuda 张量的等效项是packed_accessor64<> 和packed_accessor32<>，它们生成具有64 位或32 位整数索引的Packed Accessor。

与 Accessor 的根本区别在于 Packed Accessor 在其结构内部复制大小和步幅数据，而不是指向它。它允许我们将其传递给 CUDA 内核函数并在其中使用其接口。

我们可以设计一个使用 Packed Accessors 而不是指针的函数。

__global__ void lltm_cuda_forward_kernel(
    const torch::PackedTensorAccessor32 gates,
    const torch::PackedTensorAccessor32 old_cell,
    torch::PackedTensorAccessor32 new_h,
    torch::PackedTensorAccessor32 new_cell,
    torch::PackedTensorAccessor32 input_gate,
    torch::PackedTensorAccessor32 output_gate,
    torch::PackedTensorAccessor32 candidate_cell)

让我们分解这里使用的模板。前两个参数 scalar_t 和 2 与常规访问器相同。参数 torch::RestrictPtrTraits 指示必须使用 __restrict__ 关键字。另请注意，我们使用了 PackedAccessor32 变体，它将大小和步幅存储在 int32_t 中。这很重要，因为使用 64 位变体 (PackedAccessor64) 会使内核变慢。

函数声明变成

template 
__global__ void lltm_cuda_forward_kernel(
    const torch::PackedTensorAccessor32 gates,
    const torch::PackedTensorAccessor32 old_cell,
    torch::PackedTensorAccessor32 new_h,
    torch::PackedTensorAccessor32 new_cell,
    torch::PackedTensorAccessor32 input_gate,
    torch::PackedTensorAccessor32 output_gate,
    torch::PackedTensorAccessor32 candidate_cell)
{
    //batch index
    const int n = blockIdx.y;
    // column index
    const int c = blockIdx.x * blockDim.x + threadIdx.x;
    if(c < gates.size(2))
    {
        input_gate[n][c] = sigmoid(gates[n][0][c]);
        output_gate[n][c] = sigmoid(gates[n][1][c]);
        candidate_cell[n][c] = elu(gates[n][2][c]);
        new_cell[n][c] = old_cell[n][c] + candidate_cell[n][c] * input_gate[n][c];
        new_h[n][c] = tanh(new_cell[n][c]) * output_gate[n][c];
    }
}

实现更具可读性！然后通过在主机函数中使用 .packed_accessor32<> 方法创建打包访问器来调用此函数。

std::vector lltm_cuda_forward(torch::Tensor input,
                                             torch::Tensor weights,
                                             torch::Tensor bias,
                                             torch::Tensor old_h,
                                             torch::Tensor old_cell)
{
    auto X = torch::cat({old_h, input}, /*dim=*/1);
    auto gate_weights = torch::addmm(bias, X, weights.transpose(0, 1));

    const auto batch_size = old_cell.size(0);
    const auto state_size = old_cell.size(1);

    auto gates = gate_weights.reshape({batch_size, 3, state_size});
    auto new_h = torch::zeros_like(old_cell);
    auto new_cell = torch::zeros_like(old_cell);
    auto input_gate = torch::zeros_like(old_cell);
    auto output_gate = torch::zeros_like(old_cell);
    auto candidate_cell = torch::zeros_like(old_cell);

    const int threads = 1024;
    const dim3 blocks((state_size + threads - 1) / threads, batch_size);

    AT_DISPATCH_FLOATING_TYPES(gates.type(), "lltm_forward_cuda", ([&]
    {
        lltm_cuda_forward_kernel<<>>(
        gates.packed_accessor32(),
        old_cell.packed_accessor32(),
        new_h.packed_accessor32(),
        new_cell.packed_accessor32(),
        input_gate.packed_accessor32(),
        output_gate.packed_accessor32(),
        candidate_cell.packed_accessor32());
    }));

    return {new_h, new_cell, input_gate, output_gate, candidate_cell, X, gates};
}

向后传递遵循大致相同的模式，我不会进一步详细说明：

template 
__global__ void lltm_cuda_backward_kernel(
    torch::PackedTensorAccessor32 d_old_cell,
    torch::PackedTensorAccessor32 d_gates,
    const torch::PackedTensorAccessor32 grad_h,
    const torch::PackedTensorAccessor32 grad_cell,
    const torch::PackedTensorAccessor32 new_cell,
    const torch::PackedTensorAccessor32 input_gate,
    const torch::PackedTensorAccessor32 output_gate,
    const torch::PackedTensorAccessor32 candidate_cell,
    const torch::PackedTensorAccessor32 gate_weights)
{
    //batch index
    const int n = blockIdx.y;
    // column index
     const int c = blockIdx.x * blockDim.x + threadIdx.x;
    if (c < d_gates.size(2))
    {
        const auto d_output_gate = tanh(new_cell[n][c]) * grad_h[n][c];
        const auto d_tanh_new_cell = output_gate[n][c] * grad_h[n][c];
        const auto d_new_cell =
        d_tanh(new_cell[n][c]) * d_tanh_new_cell + grad_cell[n][c];


        d_old_cell[n][c] = d_new_cell;
        const auto d_candidate_cell = input_gate[n][c] * d_new_cell;
        const auto d_input_gate = candidate_cell[n][c] * d_new_cell;

        d_gates[n][0][c] = d_input_gate * d_sigmoid(gate_weights[n][0][c]);
        d_gates[n][1][c] = d_output_gate * d_sigmoid(gate_weights[n][1][c]);
        d_gates[n][2][c] = d_candidate_cell * d_elu(gate_weights[n][2][c]);
    }
}

std::vector lltm_cuda_backward(
    torch::Tensor grad_h,
    torch::Tensor grad_cell,
    torch::Tensor new_cell,
    torch::Tensor input_gate,
    torch::Tensor output_gate,
    torch::Tensor candidate_cell,
    torch::Tensor X,
    torch::Tensor gates,
    torch::Tensor weights)
{
    auto d_old_cell = torch::zeros_like(new_cell);
    auto d_gates = torch::zeros_like(gates);

    const auto batch_size = new_cell.size(0);
    const auto state_size = new_cell.size(1);

    const int threads = 1024;
    const dim3 blocks((state_size + threads - 1) / threads, batch_size);

    AT_DISPATCH_FLOATING_TYPES(X.type(), "lltm_backward_cuda", ([&]
    {
        lltm_cuda_backward_kernel<<>>(
        d_old_cell.packed_accessor32(),
        d_gates.packed_accessor32(),
        grad_h.packed_accessor32(),
        grad_cell.packed_accessor32(),
        new_cell.packed_accessor32(),
        input_gate.packed_accessor32(),
        output_gate.packed_accessor32(),
        candidate_cell.packed_accessor32(),
        gates.packed_accessor32());
    }));

    auto d_gate_weights = d_gates.reshape({batch_size, 3*state_size});
    auto d_weights = d_gate_weights.t().mm(X);
    auto d_bias = d_gate_weights.sum(/*dim=*/0, /*keepdim=*/true);

    auto d_X = d_gate_weights.mm(weights);
    auto d_old_h = d_X.slice(/*dim=*/1, 0, state_size);
    auto d_input = d_X.slice(/*dim=*/1, state_size);

    return {d_old_h, d_input, d_weights, d_bias, d_old_cell, d_gates};
}

将 C++/CUDA 操作与 PyTorch 集成

我们支持 CUDA 的操作与 PyTorch 的集成再次非常简单。如果你想写一个 setup.py 脚本，它可能是这样的：

from setuptools import setup
from torch.utils.cpp_extension import BuildExtension, CUDAExtension

setup(
    name='lltm',
    ext_modules=[
        CUDAExtension('lltm_cuda', [
            'lltm_cuda.cpp',
            'lltm_cuda_kernel.cu',
        ])
    ],
    cmdclass={
        'build_ext': BuildExtension
    })

我们现在使用 CUDAExtension() 代替 CppExtension()。我们可以只指定 .cu 文件和 .cpp 文件，该库会为您处理所有这些麻烦。 JIT 机制更简单：

from torch.utils.cpp_extension import load

lltm = load(name='lltm', sources=['lltm_cuda.cpp', 'lltm_cuda_kernel.cu'])

性能比较

我们希望将我们的代码的逐点操作与 CUDA 并行化和融合将提高我们的 LLTM 的性能。让我们看看这是否成立。我们可以运行我之前列出的代码来运行基准测试。我们之前最快的版本是基于 CUDA 的 C++ 代码：

Forward: 149.802 us | Backward 393.458 us

现在使用我们的自定义 CUDA 内核：

Forward: 129.431 us | Backward 304.641 us

更多的性能提升！

结论

您现在应该对 PyTorch 的 C++ 扩展机制有了一个很好的概述，以及使用它们的动机。您可以在此处找到本说明中显示的代码示例。如果您有任何问题，请使用PyTorch论坛。如果您遇到任何问题，请务必查看我们的常见问题解答。

你可能感兴趣的:(PyTorch,pytorch,c++,python)

社交媒体文章内容与评论抓取：Python 爬虫实战教程 Python爬虫项目 2025年爬虫实战项目媒体 python 爬虫
社交媒体平台是全球信息交流的重要渠道，成千上万的文章、评论和动态每天都在各大平台上发布。这些数据包含了丰富的用户行为、意见和情感分析的潜力，因此抓取社交媒体平台上的文章内容与评论已成为数据分析、市场研究和情感分析等领域的重要任务。本篇教程将为大家详细介绍如何使用Python编写爬虫，抓取社交媒体平台（如微博、Twitter、Facebook等）的文章内容和评论。我们将涵盖如何使用现代爬虫技术，包括
【项目实战】Miniforge安装和管理python 本本本添哥 Python python
Miniforge是一个轻量级的Conda安装器，它提供了一种快速、独立的方法来安装和管理Python的科学计算环境。Miniforge由社区维护，并专注于兼容ARM架构的设备（如AppleM1/M2/M3芯片）和其他CPU架构。与Anaconda和Miniconda相比，Miniforge提供了几个显著的优势，包括更小的安装包、更快的安装速度、较少的磁盘占用以及使用conda-forge作为默认
Python说课内容介绍 laocooon523857886 算法算法
一、明确课程目标1.课程目标的确定面向整个专业：Python课程作为计算机专业或相关专业中的一部分，需要对学生的编程能力、问题解决能力以及软件开发的基础技能进行培养。通过本课程，学生能够掌握Python编程的基本语法、面向对象编程、常见数据结构和算法。面向岗位：课程目标还需要结合市场需求和岗位要求。例如，数据分析、人工智能、Web开发等方向都需要具备Python编程能力。学生通过学习Python，
咱们一起学C++ 第一百八十八篇：之C++中全局new和delete运算符的重载探秘一杯年华@编程空间咱们一起学习C++c++jvm rpc 开发语言
咱们一起学C++第一百八十八篇：之C++中全局new和delete运算符的重载探秘大家好！C++作为一门强大的编程语言，在内存管理方面提供了丰富的机制。今天咱们来深入探讨C++中全局new和delete运算符的重载，希望通过这次学习，我们能对C++的内存管理有更深刻的理解，一起在编程的道路上不断进步！一、为什么要重载全局new和delete运算符在C++编程中，默认的全局new和delete运算符
idea 配置并运行python 鬼龙寺 intellij-idea python java ide 开发语言
我整理的一些关于【CI】的项目学习资料（附讲解～～）和大家一起分享、学习一下：https://d.51cto.com/xltfov使用IntelliJIDEA配置并运行Python项目在当今的编程世界中，选择合适的集成开发环境（IDE）对提高开发效率至关重要。IntelliJIDEA是一款强大的IDE，它不仅支持Java，还通过插件扩展支持Python等其他编程语言。本篇文章将指导读者如何在Int
python自动化框架pytest_全功能Python测试框架：pytest weixin_39637646
python通用测试框架大多数人用的是unittest+HTMLTestRunner，这段时间看到了pytest文档，发现这个框架和丰富的plugins很好用，所以来学习下pytest.image.pngpytest是一个非常成熟的全功能的Python测试框架，主要有以下几个特点：简单灵活，容易上手支持参数化能够支持简单的单元测试和复杂的功能测试，还可以用来做selenium/appnium等自动
print不起作用 pytest_全功能Python测试框架：pytest 吕欲知 print不起作用 pytest
python通用测试框架大多数人用的是unittest+HTMLTestRunner，这段时间看到了pytest文档，发现这个框架和丰富的plugins很好用，所以来学习下pytest.pytest是一个非常成熟的全功能的Python测试框架，主要有以下几个特点：简单灵活，容易上手支持参数化能够支持简单的单元测试和复杂的功能测试，还可以用来做selenium/appnium等自动化测试、接口自动化
Python自学知识清单(持续更新中...) 彩虹小黑馬 Python python 开发语言
Python自学知识清单第一章：数据结构Python自学-变量及对象Python自学-函数的使用Python自学-进制转换Python自学-字符串转义、查找及切片Python自学-字符串处理函数Python自学-字符串格式化输出详解Python自学-列表的用法Python自学-元组的用法Python自学-字典的用法Python自学-集合的用法Python自学-引用与拷贝第二章：语句Python自学
python基础知识介绍 tqs_12345 python 开发语言
Python基础知识主要包括以下几个方面：语法基础：Python采用简洁易懂的语法，使用缩进来表示代码块。它支持多种数据类型，如整数、浮点数、字符串、列表、元组、字典和集合等。变量和数据类型：在Python中，变量不需要事先声明类型，可以根据赋值自动推断类型。Python支持多种内置数据类型，并允许用户自定义数据类型。控制流语句：Python提供了条件语句（如if-elif-else）、循环语句（
Python测试框架：pytest 入门互联网杂货铺职场和发展 python 自动化测试测试工具软件测试 pytest 测试用例
点击文末小卡片，免费获取软件测试全套资料，资料在手，涨薪更快pytest是一个功能强大而易于使用的Python测试框架。它提供了简单的语法和灵活的功能，用于编写和组织测试代码。1、简单易用：pytest的语法简洁明了，使得编写测试用例更加直观和易于理解。它使用assert语句来验证预期结果，让测试代码更加简洁易读。2、自动发现测试：pytest能够自动发现并执行测试文件和测试函数。它遵循命名规则（
【数据结构】排序算法---基数排序（动图演示） Crossoads C语言之数据结构初阶排序算法数据结构算法开发语言 c语言
文章目录1.定义2.算法步骤2.1MSD基数排序2.2LSD基数排序3.LSD基数排序动图演示4.性质5.算法分析6.代码实现C语言PythonJavaC++Go结语⚠本节要介绍的不是计数排序1.定义基数排序（英语：Radixsort）是一种非比较型的排序算法，最早用于解决卡片排序的问题。基数排序将待排序的元素拆分为k个关键字，逐一对各个关键字排序后完成对所有元素的排序。如果是从第1关键字到第k关
Python满屏飘字代码 Want595 趣味编程 python 开发语言
系列专栏《Python趣味编程》《C/C++趣味编程》《HTML趣味编程》《Java趣味编程》系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Py
chattts本地化python部署及采坑记录(2024年亲测可用) Catformon python 开发语言
ChatTTS是一个文本转语音的开源项目，短短2周左右的时间，在GitHub上已经斩获了24.4k的Star！官网：https://chattts.com/zh开源地址：https://github.com/2noise/ChatTTSChatTTS模型：https://huggingface.co/2Noise/ChatTTSChatTTS在线网页Demo：https://huggingface
架构设计（4）面向服务架构SOA与C++模拟实现 CoderIsArt 架构设计研究 C++11 架构面向服务架构SOA
SOA架构SOA（面向服务的架构）是一种架构风格，通过将系统划分为服务来提高灵活性和可维护性。每个服务是一个独立的功能模块，通过标准化接口进行交互。SOA架构涉及多种技术和组件，以下是关键技术和它们的作用：1.服务设计与接口-服务接口定义：通常使用标准接口描述语言，如WSDL（WebServicesDescriptionLanguage）或OpenAPI（Swagger）来定义服务的接口。接口描述
Python数据永生秘籍：从菜鸟到存储大师的5层通关攻略李智 - 重庆 Python 精讲精练 -从入门到实战 python 案例学习经验分享考试通关错误分析
Python数据永生秘籍：从菜鸟到存储大师的5层通关攻略内容简介本系列文章是为Python3学习者精心设计的一套全面、实用的学习指南，旨在帮助读者从基础入门到项目实战，全面提升编程能力。文章结构由5个版块组成，内容层层递进，逻辑清晰。基础速通：n个浓缩提炼的核心知识点，夯实编程基础；经典范例：10个贴近实际的应用场景，深入理解Python3的编程技巧和应用方法；避坑宝典：10个典型错误解析，提供解
全新语句match，python新版本终于要引入switch-case了？「已注销」 python进阶 python
match语句(python3.10)在很多语言中，有一种用于条件判断的switch-case语句，但是在python中一直以来，没有switch-case。不过在python3.10的新版本中，加入了match-case语句。match语句的基础使用方法与switch-case语句比较类似，是通过match和case之间的组合，完成结构化模式匹配。但是match语句不等同于switch-case
python介绍&pycharm使用技巧倩倩倩倩千千*- python自动化测试 python pycharm 开发语言
一、python简单介绍python===>跨平台、面想对象，解释型（边运行边翻译）计算机程序设计语言被称为"胶水语言"ps：java是编译型语言学习编程要领（3+1）：编程语法编程规范编程技巧+带着工作任务多练、多实战，从小需求、小工具开始二、python优缺点优点：1、简单易学；2、免费开源；3、面向对象；4、丰富的库；5、可扩展性缺点：1、运行速度慢；2、好的中文资料匮乏三、python应用
《Python编程轻松进阶》干货整理 KLZZ66 python 开发语言 ide jupyter
《Python编程轻松进阶》干货整理最近把《Python编程轻松进阶》看完了，看得过程中顺便整理了一些自己觉得比较重要的点，分享出来，共同进步！文章目录《Python编程轻松进阶》干货整理第一章处理错误和寻求帮助1.1如何查看模块版本第二章环境设置和命令行2.1使用pathlib库可以让Python脚本跨平台兼容2.2Path常用命令2.3命令行参数2.3.1/?2.3.2python-c2.3.
Anaconda3 介绍和安装 gorgor在码农 #python入门基础 python conda
介绍Anaconda是一个开源的Python和R语言发行版，专注于数据科学、机器学习和科学计算，主要面向数据科学和机器学习领域。它集成了大量常用的科学计算库（如NumPy、Pandas、Matplotlib、Scikit-learn等），并提供了强大的包管理工具Conda和环境管理功能，适合快速部署和管理复杂的开发环境。特点：预装丰富库：包含250+常用的数据科学工具包，无需手动安装。跨平台支持：
【vLLM 学习】安装
vLLM是一款专为大语言模型推理加速而设计的框架，实现了KV缓存内存几乎零浪费，解决了内存管理瓶颈问题。更多vLLM中文文档及教程可访问→https://vllm.hyper.ai/vLLM是一个Python库，包含预编译的C++和CUDA(12.1)二进制文件。依赖环境操作系统：LinuxPython：3.8-3.12GPU：计算能力7.0或更高（例如V100、T4、RTX20xx、A100、L
三种方式实现人车流统计（yolov5+opencv+deepsort+bytetrack+iou） Jayson God 人工智能 c++yolov5 opencv 算法人工智能
一、运行环境1、项目运行环境如下2、CPU配置3、GPU配置如果没有GPUyolov5目标检测时间会比较久二、编程语言与使用库版本项目编程语言使用c++，使用的第三方库，onnxruntime-linux-x64-1.12.1，opencv-4.6.0opencv官方地址Releases-OpenCVopencvgithub地址https://github.com/opencv/opencv/tr
C++优选算法五位运算 gkdpjj 优选算法算法 c++开发语言
一、位运算位运算（BitwiseOperations）是直接在整数的二进制表示上进行的操作。这些操作包括位与（AND）、位或（OR）、位非（NOT）、位异或（XOR）、左移（LeftShift）和右移（RightShift）等。位运算在处理低级别数据、优化性能、实现加密算法等方面非常有用。以下是这些操作的详细介绍：位与（BitwiseAND,&）：对应位都为1时，结果位才为1，否则为0。示例：5&
Python 潮流周刊#89：Python 3.14 的新型解释器！（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了12篇文章，12个开源项目，2则热门讨论以下是本期摘要：文章&教程①Python3.14新特性：一种新型解释器②高效扩展Python：PyO3与Rust实战③使用uv开发和安装PythonC
C C++程序内存的分配_c++分配空间 2501_90326753 c语言 c++java
一、一个C/C++编译的程序占用内存分为以下几个部分：栈区（stack）：由编译器自动分配与释放，存放为运行时函数分配的局部变量、函数参数、返回数据、返回地址等。其操作类似于数据结构中的栈。堆区（heap）：一般由程序员自动分配，如果程序员没有释放，程序结束时可能有OS回收。其分配类似于链表。全局区（静态区static）：存放全局变量、静态数据、常量。程序结束后由系统释放。全局区分为已初始化全局区
python后端调用Deep Seek API YY_oot python ai 语言模型
python后端调用DeepSeekAPI需要依次下载●Ollama●DeepseekR1LLM模型●嵌入模型nomic-embed-text/bge-m3●AnythingLLM参考教程：DeepseekR1打造本地化RAG知识库:安装部署使用详细教程手把手教你：deepseekR1基于AnythingLLMAPI调用本地知识库python调用anythingllm的APIimportreque
多python环境配置搞不定看这篇就够了 Nothi.C python 环境 python 开发语言 linux windows
环境配置一直都是难倒无数入门选手的关键问题。如何在一台电脑中运行多个版本？本文章以virtualenv构建虚拟环境为例子首先，下载相对应的Python，windows版本下载完成后如若遇到PYTHON和PIP已安装却系统无法执行：此电脑高级设置—>环境变量->系统PATH->新建->粘贴PYTHON路径（为指定Python）和PYTHON\Scripts（为指定pip）或者执行命令setPATH=
下载多个python如何配置环境彪悍的高校 python 开发语言
多环境Python配置方案在数据科学和软件开发的领域，Python因其简单易用而广受欢迎。然而，随着项目的不断增多，我们常常需要在同一台机子上安装多个版本的Python及其依赖。为了解决这个问题，我们可以采用虚拟环境管理工具。本文将介绍如何通过venv和pyenv来配置多个Python环境，并提供相关的代码示例。一、环境准备在开始前，请确保你的计算机上已安装了以下软件：Python：确保安装了Py
Linux（WSL/Ubuntu）vscode配置C++调试环境与相关问题力行128 linux ubuntu vscode c++
步骤：先cmake编译得到可执行的二进制文件，将生成的二进制文件添加到launch.json的"program":处。可用的json文件如下，根据自己程序更改：tasks.json（编译器构建设置）launch.json（调试器设置）c_cpp_properties.json（编译器路径和IntelliSense设置）1.launch.json注：需要将可执行文件填到launch的program处
【python学习】深度解析 Python 的 .env配置与最佳实践：温格高的环境变量配置之道 NLP仙人 python python 学习开发语言人工智能
1.文章简介在开发和部署Python项目时，环境变量配置对于管理敏感信息如数据库连接字符串、API密钥至关重要。本文将以温格高（2023年环法冠军）的项目为例，详细介绍如何通过.env文件简化环境配置，并分享多环境管理、Docker集成等热门功能。我们还将覆盖一些小技巧和常见错误，帮助你避免开发中的踩坑。2.使用.env文件的好处温格高团队正在开发一个记录自行车赛事的应用，涉及多个开发环境和敏感信
Python爬虫获取股市数据，有哪些常用方法？股票程序化交易接口量化交易股票API接口 Python股票量化交易 python爬虫股市数据网页抓取 api 股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>网页直接抓取法Python中有许多库可用于解析HTML页面来获取股市数据。例如BeautifulSoup，它能够轻松地从网页的HTML结构中提取出想要的数据。当我们定位到包含股市数据的网页时，利用BeautifulSoup可以根据HT
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite