ariesjzj

C++强化学习通过Python bindings接OpenAI Gym

OpenAI gym是强化学习最为流行的实验环境。某种程度上，其接口已经成为了标准。一方面，很多算法实现都是基于gym开发；另一方面，新的场景也会封装成gym接口。经过这样一层抽象，算法与实验环境充分解耦隔离，可以方便地自由组合。但gym是python的接口，如果想用C++实现强化学习算法，则无法直接与gym相接。一种方案是跨进程：一个进程运行python环境，另一个进程运行强化学习算法，与环境交互数据经过序列化和反序列化通过IPC进行通信。另一种是单进程方案：gym和强化学习算法跑在同一进程，通过python binding来连接。本文尝试通过pybind11来桥接，从而实现在同一进程中gym与强化学习算法通信的目的。

C++机器学习框架采用PyTorch提供的Libtorch。因为在目前主流的几个训练框架中，在C++版本上相比下它是算支持地比较好的，安装也算方便。安装流程见INSTALLING C++ DISTRIBUTIONS OF PYTORCH。官方提供的sample中提供了一个REINFORCE算法（一种虽然比较古老但很经典的RL算法）的例子reinforce.py，我们就先以它为例。

首先来看python部分，参考原sample做一些小改动。将强化学习算法调用接口抽象在RLWrapper。这个类后面会binding到C++。初始化时传入gym环境的状态和动态空间描述，reset()函数通知环境重置并传入初始状态，act()函数根据当前状态根据策略给出动作，update()函数进行策略函数参数学习。

...
def state_space_desc(space):
    if isinstance(space, gym.spaces.Box):
        assert(type(space.shape)==tuple)
        return dict(stype='Box', dtype=str(space.dtype), shape=space.shape)
    else:
        raise NotImplementedError('unknown state space {}'.format(space))

def action_space_desc(space):
    if isinstance(space, gym.spaces.Discrete):
        return dict(stype='Discrete', dtype=str(space.dtype), shape=(space.n,))
    else:
        raise NotImplementedError('unknown action space {}'.format(space))

def main(args):
    env = gym.make(args.env)
    env.seed(args.seed)

    agent = nativerl.RLWrapper(state_space_desc(env.observation_space),
            action_space_desc(env.action_space))

    running_reward = 10
    for i in range(args.epoch):
        obs = env.reset()
        ep_reward = 0
        agent.reset(obs)
        for t in range(1, args.step):
            if args.render:
                env.render()
            action = agent.act(obs)
            obs, reward, done, info = env.step(action)
            agent.update(reward, done)
            ep_reward += reward
            if done:
                break

        running_reward = 0.05 * ep_reward + (1 - 0.05) * running_reward
        agent.episode_finish()

        if i % args.log_itv == 0:
            print("Episode {}\t Last reward: {:.2f}\t step: {}\t Average reward: {:.2f}"
                    .format(i, ep_reward, t, running_reward))
        if env.spec.reward_threshold and running_reward > env.spec.reward_threshold:
            print("Solved. Running reward: {}, Last reward: {}".format(running_reward, t))
            break

    env.close()

然后是RLWrapper的python binding部分。这里主要是将python的对象转为C++的数据结构。

...
namespace py = pybind11;

class RLWrapper {
public:
    RLWrapper(const py::dict& state_space, const py::dict& action_space) {
        spdlog::set_level(spdlog::level::info);
        torch::manual_seed(nrl::kSeed);

        nrl::SpaceDesc ss;
        nrl::SpaceDesc as;
        ss.stype = py::cast<std::string>(state_space["stype"]);
        as.stype = py::cast<std::string>(action_space["stype"]);
        ss.dtype = py::cast<std::string>(state_space["dtype"]);
        as.dtype = py::cast<std::string>(action_space["dtype"]);

        py::tuple shape;
        shape = py::cast<py::tuple>(state_space["shape"]);
        for (const auto& item : shape) {
            ss.shape.push_back(py::cast<int64_t>(item));
        }
        shape = py::cast<py::tuple>(action_space["shape"]);
        for (const auto& item : shape) {
            as.shape.push_back(py::cast<int64_t>(item));
        }

        mStateSpaceDesc = ss;
        mActionSpaceDesc = as;
        mAgent = std::make_shared<nrl::Reinforce>(ss, as);
    }

    void reset(py::array_t<float, py::array::c_style | py::array::forcecast> state) {
        py::buffer_info buf = state.request();
        float* pbuf = static_cast<float*>(buf.ptr);
        
        assert(buf.shape == mStateSpaceDesc.shape);
        mAgent->reset(nrl::Blob{pbuf, mStateSpaceDesc.shape});
    }

    py::object act(py::array_t<float, py::array::c_style | py::array::forcecast> state) {
        py::buffer_info buf = state.request();
        float* pbuf = static_cast<float *>(buf.ptr);
        assert(buf.shape == mStateSpaceDesc.shape);
        torch::Tensor action = mAgent->act(nrl::Blob{pbuf, mStateSpaceDesc.shape}).contiguous().cpu();
        return py::int_(action.item<long>());
    }

    void update(float reward, bool done) {
        mAgent->update(reward, done);
    }

    void episode_finish() {
        spdlog::trace("{}", __func__);
        mAgent->onEpisodeFinished();
    }

    ~RLWrapper() {
    }

private:
    nrl::SpaceDesc mStateSpaceDesc;
    nrl::SpaceDesc mActionSpaceDesc;
    std::shared_ptr<nrl::RLBase> mAgent;
};

PYBIND11_MODULE(nativerl, m) {
    py::class_<RLWrapper>(m, "RLWrapper")
        .def(py::init<const py::dict &, const py::dict &>())
        .def("reset", &RLWrapper::reset)
        .def("episode_finish", &RLWrapper::episode_finish)
        .def("act", &RLWrapper::act)
        .def("update", &RLWrapper::update);
}

可以说这是python和C++的glue层。主要的工作我们放到RLBase类中。它是一个抽象类，定义了几个强化学习的基本接口。我们将REINFORCE算法实现在其继承类Reinforce中：

...
class Reinforce : public RLBase {
public:
    Reinforce(const SpaceDesc& ss, const SpaceDesc& as)
        : mPolicy(std::make_shared<Policy>(ss, as, mDevice)) {
        mPolicy->to(mDevice);

        mRewards = torch::zeros({mCapacity}, torch::TensorOptions(mDevice));
        mReturns = torch::zeros({mCapacity}, torch::TensorOptions(mDevice));

        mOptimizer = std::make_shared<torch::optim::Adam>(mPolicy->parameters(), 
                torch::optim::AdamOptions(mInitLR));
        }

    virtual torch::Tensor act(const Blob& s) override {
        auto state = torch::from_blob(s.pbuf, s.shape).unsqueeze(0).to(mDevice);
        torch::Tensor action;
        torch::Tensor logProb;
        std::tie(action, logProb) = mPolicy->act(state);
        mLogProbs.push_back(logProb);
        return action;
    }

    void update(float r, __attribute__((unused)) bool done) {
        mRewards[mSize++] = r;
        if (mSize >= mCapacity) {
            spdlog::info("buffer has been full, call train()");
            train();
        }
    }

    virtual void onEpisodeFinished() override {
        train();
    }

private:
    void train() {
        spdlog::trace("{}: buffer size = {}", __func__, mSize);

        for (auto i = mSize - 1; i >= 0; --i) {
            if (i == (mSize - 1)) {
                mReturns[i] = mRewards[i];
            } else {
                mReturns[i] = mReturns[i + 1] * mGamma + mRewards[i];
            }
        } 
        auto returns = mReturns.slice(0, 0, mSize);
        returns = (returns - returns.mean()) / (returns.std() + kEps);

        auto logprobs = torch::cat(mLogProbs);

        mOptimizer->zero_grad();
        auto policy_loss = -(logprobs * returns).sum();
        policy_loss.backward();
        mOptimizer->step();

        mLogProbs.clear();
        mSize = 0;
        ++mCount;
        spdlog::debug("{} : episode {}: loss = {}, accumulated reward = {}",
                __func__, mCount, policy_loss.item<float>(), mRewards.sum().item<float>());
    }

    std::shared_ptr<Policy> mPolicy;

    torch::Tensor mRewards;
    std::vector<torch::Tensor> mLogProbs;
    torch::Tensor mReturns;
    int32_t mSize{0};
    int32_t mCapacity{kExpBufferCap};

    std::shared_ptr<torch::optim::Adam> mOptimizer;
    uint32_t mCount{0};

    float mGamma{0.99};
    float mInitLR{1e-2};
};

Sample中的场景为CartPole，场景比较简单，因此其中的策略函数实现为简单的MLP。更为复杂的场景可以替换为复杂的网络结构。

...
class Net : public nn::Module {
public:
    virtual std::tuple<Tensor, Tensor> forward(Tensor x) = 0;

    virtual ~Net() = default;
};

class MLP : public Net {
public:
    MLP(int64_t inputSize, int64_t actionNum) {
        mFC1 = register_module("fc1", nn::Linear(inputSize, mHiddenSize));
        mAction = register_module("action", nn::Linear(mHiddenSize, actionNum));
        mValue = register_module("value", nn::Linear(mHiddenSize, actionNum));
    }

    virtual std::tuple<Tensor, Tensor> forward(Tensor x) override {
        x = mFC1->forward(x);
        x = dropout(x, 0.6, is_training());
        x = relu(x);
        return std::make_tuple(mAction->forward(x), mValue->forward(x));
    }

private:
    nn::Linear mFC1{nullptr};
    nn::Linear mAction{nullptr};
    nn::Linear mValue{nullptr};
    int64_t mHiddenSize{128};
};

class Policy : public torch::nn::Module {
public:
    Policy(const SpaceDesc& ss, const SpaceDesc& as, torch::Device mDevice) 
        : mActionSpaceType(as.stype),
        mActionNum(as.shape[0]),
        mGen(kSeed),
        mUniformDist(0, 1.0) {

        if (ss.shape.size() == 1) {
            mNet = std::make_shared<MLP>(ss.shape[0], as.shape[0]);
        } else {
            mNet = std::make_shared<CNN>(ss.shape, as.shape[0]);
        }
        mNet->to(mDevice);
        register_module("base", mNet);

        torch::Tensor logits = torch::ones({1, as.shape[0]}, torch::TensorOptions(mDevice));
        mUniformCategorical = std::make_shared<Categorical>(nullptr, &logits);

    }

    torch::Tensor forward(torch::Tensor x) {
        x = std::get<0>(mNet->forward(x));
        return torch::softmax(x, 1);
    }

    std::tuple<torch::Tensor, torch::Tensor> act(torch::Tensor state) {
        auto output = forward(state);
        std::shared_ptr<Distribution> dist;
        if (!mActionSpaceType.compare("Discrete")) {
            dist = std::make_shared<Categorical>(&output);
        } else {
            throw std::logic_error("Not implemented : action space");
        }

        float rnd = mUniformDist(mGen);
        float threshold = kEpsEnd + (kEpsStart - kEpsEnd) * exp(-1. * mStep / kEpsDecay);
        ++mStep;
        torch::Tensor action;
        if (rnd > threshold) {
            torch::NoGradGuard no_grad;
            action = dist->sample();
        } else {
            torch::NoGradGuard no_grad;
            action = mUniformCategorical->sample({1}).squeeze(-1);
        }

        auto log_probs = dist->log_prob(action);
        return std::make_tuple(action, log_probs);
    }

private:
    std::string mActionSpaceType;
    int32_t mActionNum;
    int64_t mHiddenSize{128};
    std::shared_ptr<Net> mNet;
    uint64_t mStep{0};

    std::mt19937 mGen;
    std::uniform_real_distribution<float> mUniformDist;
    std::shared_ptr<Categorical> mUniformCategorical;
};

其中的Categorical类为Categorical distribution相关计算，可以根据PyTorch中的python版本重写成C++。

最后，将上面的C++实现编译成so。根据实际情况在CMakeLists.txt中加入：

...
set(CMAKE_CXX_STANDARD 11)

find_package(Torch REQUIRED)

set(NRL_INCLUDE_DIRS
    src
    ${TORCH_INCLUDE_DIRS})

file(GLOB NRL_SOURCES1 "src/*.cpp")
list(APPEND NRL_SOURCES ${NRL_SOURCES1})
message(STATUS "sources: ${NRL_SOURCES}")

add_subdirectory(third_party/pybind11)
add_subdirectory(third_party/spdlog)

pybind11_add_module(nativerl ${NRL_SOURCES})
target_include_directories(nativerl PRIVATE ${NRL_INCLUDE_DIRS})
target_link_libraries(nativerl PRIVATE spdlog::spdlog ${TORCH_LIBRARIES})
...

假设编译出的so位于build目录下，python脚本为example/simple.py。则可以通过命令开始训练：

PYTHONPATH=./build python -m example.simple

正常的话可以看到类似的训练过程log及结果，基本和python版本一致。

[2019-06-22 13:42:22.533] [info] state space type:Box shape size:1
[2019-06-22 13:42:22.534] [info] action space type:Discrete, shape size:1
[2019-06-22 13:42:22.534] [info] Training on GPU (CUDA)
Episode 0	 Last reward: 29.00	 step: 29	 Average reward: 10.95
Episode 10	 Last reward: 17.00	 step: 17	 Average reward: 14.73
Episode 20	 Last reward: 12.00	 step: 12	 Average reward: 17.40
Episode 30	 Last reward: 15.00	 step: 15	 Average reward: 24.47
Episode 40	 Last reward: 18.00	 step: 18	 Average reward: 26.22
Episode 50	 Last reward: 18.00	 step: 18	 Average reward: 23.69
Episode 60	 Last reward: 72.00	 step: 72	 Average reward: 30.21
Episode 70	 Last reward: 19.00	 step: 19	 Average reward: 28.83
Episode 80	 Last reward: 29.00	 step: 29	 Average reward: 32.13
Episode 90	 Last reward: 15.00	 step: 15	 Average reward: 29.64
Episode 100	 Last reward: 30.00	 step: 30	 Average reward: 27.88
Episode 110	 Last reward: 12.00	 step: 12	 Average reward: 26.14
Episode 120	 Last reward: 28.00	 step: 28	 Average reward: 26.32
Episode 130	 Last reward: 11.00	 step: 11	 Average reward: 31.20
Episode 140	 Last reward: 112.00	 step: 112	 Average reward: 35.26
Episode 150	 Last reward: 40.00	 step: 40	 Average reward: 37.14
Episode 160	 Last reward: 40.00	 step: 40	 Average reward: 36.84
Episode 170	 Last reward: 15.00	 step: 15	 Average reward: 41.91
Episode 180	 Last reward: 63.00	 step: 63	 Average reward: 49.78
Episode 190	 Last reward: 21.00	 step: 21	 Average reward: 44.70
Episode 200	 Last reward: 46.00	 step: 46	 Average reward: 41.83
Episode 210	 Last reward: 80.00	 step: 80	 Average reward: 51.55
Episode 220	 Last reward: 151.00	 step: 151	 Average reward: 57.82
Episode 230	 Last reward: 176.00	 step: 176	 Average reward: 62.80
Episode 240	 Last reward: 19.00	 step: 19	 Average reward: 63.17
Episode 250	 Last reward: 134.00	 step: 134	 Average reward: 74.02
Episode 260	 Last reward: 46.00	 step: 46	 Average reward: 71.35
Episode 270	 Last reward: 118.00	 step: 118	 Average reward: 85.88
Episode 280	 Last reward: 487.00	 step: 487	 Average reward: 112.74
Episode 290	 Last reward: 95.00	 step: 95	 Average reward: 139.41
Episode 300	 Last reward: 54.00	 step: 54	 Average reward: 149.20
Episode 310	 Last reward: 417.00	 step: 417	 Average reward: 138.42
Episode 320	 Last reward: 500.00	 step: 500	 Average reward: 179.29
Episode 330	 Last reward: 71.00	 step: 71	 Average reward: 195.88
Episode 340	 Last reward: 309.00	 step: 309	 Average reward: 216.82
Episode 350	 Last reward: 268.00	 step: 268	 Average reward: 214.21
Episode 360	 Last reward: 243.00	 step: 243	 Average reward: 210.89
Episode 370	 Last reward: 266.00	 step: 266	 Average reward: 200.03
Episode 380	 Last reward: 379.00	 step: 379	 Average reward: 220.06
Episode 390	 Last reward: 500.00	 step: 500	 Average reward: 316.20
Episode 400	 Last reward: 500.00	 step: 500	 Average reward: 369.46
Episode 410	 Last reward: 500.00	 step: 500	 Average reward: 421.84
Episode 420	 Last reward: 500.00	 step: 500	 Average reward: 453.20
Episode 430	 Last reward: 500.00	 step: 500	 Average reward: 471.98
Solved. Running reward: 475.9764491024681, Last reward: 500

L2-050懂蛇语c++（pta天梯赛。测试点1。） zzy678 c++
这个题目看上去还挺简单的，但是自己做的时候就超时了一开始只有19分。我自己stl学的不是很好，然后一开始自己用的pair和vector一起写的发现了一些小问题改了之后才得19。。。其中两个就是超时问题。可能查找太慢？之后又查看了一些别人写的，参考了使用map和vector混用的方法就很好过了，但是那个测试点1就是过不了。最后，我发现就是首字的处理方式应该优化。一个小小小坑。大家注意。#includ
嵌入式Linux驱动开发：从基础知识到实践精通坚持坚持那些年
本文还有配套的精品资源，点击获取简介：嵌入式Linux由于其稳定性、可定制性和丰富资源，在智能设备领域得到广泛应用。掌握嵌入式Linux驱动程序设计对于开发者至关重要。本课程从基础知识点出发，详细介绍了内核接口理解、设备树编程、I/O操作、字符与块设备驱动、网络驱动、电源管理、调试技巧、硬件抽象层、设备模型和模块化编程等关键技能，并通过实际操作实践来强化学习，帮助开发者成长为嵌入式Linux驱动开
机器学习：让计算机学会思考的艺术平凡而伟大. 机器学习机器学习人工智能
目录什么是机器学习？机器学习的基本步骤常见的机器学习算法机器学习的实际应用如何入门机器学习？结语在当今数字化时代，机器学习（MachineLearning,ML）已经成为一个炙手可热的话题。从推荐系统到自动驾驶汽车，再到语音助手，机器学习的应用无处不在。然而，对于许多人来说，机器学习仍然是一个神秘而复杂的领域。本文将用通俗易懂的语言，带你走进机器学习的世界，了解它的基本原理和应用。什么是机器学习？
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
C语言_数据结构总结8：链式队列 *.✧屠苏隐遥(ﾉ◕ヮ◕)ﾉ*.✧ C语言—数据结构数据结构 c语言开发语言 visualstudio visual studio 链表
纯C语言实现，不涉及C++链队列队列的链式表示称为链队列，它实际上是一个同时具有队头指针和队尾指针的单链表，头指针指向对头结点，尾指针指向队尾结点。头结点是链式队列中的特殊结点，通常不存储实际的队列元素数据，其主要作用是方便对队列的操作，例如在进行入队、出队操作时，可以统一操作逻辑，无需特殊处理队列为空的情况。它作为队列的头部标识，其next指针指向队列中的第一个真正存储数据的结点。尾结点（注意区
C语言_数据结构总结10：二叉树的递归/非递归遍历 *.✧屠苏隐遥(ﾉ◕ヮ◕)ﾉ*.✧ C语言—数据结构数据结构算法链表 visualstudio visual studio c语言 b树
纯C语言实现，不涉及C++遍历是二叉树各种操作的基础，例如对于一棵给定二叉树求结点的双亲/求结点的孩子/求二叉树的高度/求叶结点个数/判断两棵二叉树是否相等……所有这些操作都是在二叉树遍历的过程中进行的。因此必须掌握二叉树的各种遍历过程，并能灵活用以解决各种问题。常见的遍历次序有：先序，中序，后序->其中“序”是指根结点何时被访问。先序：根结点->左子树->右子树中序:左子树->根结点->右子树后
编译链接过程 YancyKahn 编译链接编译链接 GCC
编译链接过程C/C++程序从文本到可执行文件之间是一个复杂的过程.对于源代码(.c/.cpp)文件我们是不能直接运行的,必须经过一系列的处理才能转化为机器语言,再通过链接相应的文件转化为可执行程序.这个过程称为编译链接过程.本文篇幅较长,想直接看分析过程点击这里下面是从源代码到可执行文件的整个编译链接的过程:整个编译链接过程无非就分为编译过程和链接过程1.编译过程C文件编译过程又可分为:编译和汇编
第十八章：模板的多态力量_《C++ Templates》notes 郭涤生 c/c++c++开发语言笔记
模板的多态力量一、动态多态vs静态多态二、奇异递归模板模式（CRTP）三、策略模式（编译期策略选择）关键要点总结第一部分：多选题(10题)第二部分：设计题(5题)答案与详解多选题答案：设计题参考答案1.编译期策略选择器2.类型安全访问者模式3.概念约束数学库4.编译期工厂模式5.静态多态容器测试说明一、动态多态vs静态多态核心概念：动态多态：基于虚函数和继承体系，函数调用在运行时决定（通过虚函数表
CPP编译与链接过程阿斯顿的风格 c++开发语言 ubuntu linux bash 编译汇编
1.概述在C++中，从源代码（.cpp文件）到最终可执行程序，需要经历以下四个主要阶段：预处理（Preprocessing）编译（Compilation）汇编（Assembly）链接（Linking）2.预处理预处理阶段是编译流程的第一步，主要处理以#开头的指令，包括宏定义、文件包含以及条件编译等。2.1文件包含（#include）工作原理：当预处理器遇到#include指令时，会在文件系统中查找
第十七章:Future Directions_《C++ Templates》notes 郭涤生 c/c++c++开发语言笔记
FutureDirections核心重难点：示例代码：设计题多选题答案设计题详解核心重难点：泛型非类型模板参数允许任意类型作为非类型模板参数（如template）需解决类型推导和链接问题编译期控制流constexprif替代模板偏特化（减少代码膨胀）折叠表达式优化可变参数模板处理反射与元编程增强类型检查（is_convertible_v等）反射提案（如成员变量/函数查询）模块化支持解决传统头文件包
访问者模式【行为模式C++】 GoWjw 设计模式访问者模式
1.概述访问者模式是一种行为设计模式，它能将算法与其所作用的对象隔离开来。访问者模式主要解决的是数据与算法的耦合问题，尤其是在数据结构比较稳定，而算法多变的情况下。为了不污染数据本身，访问者会将多种算法独立归档，并在访问数据时根据数据类型自动切换到对应的算法，实现数据的自动响应机制，并确保算法的自由扩展。访问者模式在实际开发中使用的非常少，因为它比较难以实现并且应用该模式肯能会导致代码的可读性变差
【分治法】最接近点对问题 C++（附代码分析及实例） haaaaaaarry 算法设计与分析算法
问题描述给定平面上n个点，找其中的一对点，使得在n个点组成的所有点对中，该点对间的距离最小问题分析先考虑一下一维情况下，取中间某个点m，将所有点划分为两个集合，递归的找出左右集合的最接近点对，最后再和最靠近点m的左右两点间的距离作比较，最小的就是整个点对中最接近的现在将一维的情况扩展到二维，二维比一维复杂的地方在于每个点都有两个坐标，我们用一条直线l将平面上的所有点同样分成两个集合，再递归的去两个
TicTacToe Module W_X_99515681 python 开发语言
Homework2Releasev5.016/02/2025CONTENTS1TicTacToe12Contents32.1TicTacToeModule............................................32.2ReinforcementLearningPlayer.....................................62.3Require
46-886 Machine Learning Fundamentals W_X_99515681 机器学习人工智能
46-886MachineLearningFundamentalsHW1Homework1Due:Sunday,March23,11:59pm•UploadyourassignmenttoCanvas(onlyonepersonperteamneedstosubmit)•Includeawriteupcontainingyouranswerstothequestionsbelow(andyourt
浅谈VB.NET为何还没有被时代淘汰练习AI两年半 .net
最近在做一个旧项目的更新和维护，比较头疼的是这个项目是08年写的，当时编写编写语言为c++、环境为vc6.0+MFC(嘶~，这玩意儿年纪比我还大)，需要将环境改为VS2022、.NET框架，为配合项目组其他同事，新语言改用VB.NET。我之前一直在用C++和QT写项目，一时间让我换一种语言和框架，还要在c++和vb.net之间反复横跳确实让我很崩溃。但打工人再难的项目也要硬着头皮上呀，好在VB.N
conda install 和 pip install 的区别不知江月待何人.. 深度学习
condainstall和pipinstall是两个常用的包安装命令，但它们在很多方面存在差异。1.所属管理系统不同1.1condainstallcondainstall是Anaconda和Miniconda发行版自带的包管理工具conda的安装命令。conda是一个跨平台的开源包管理系统和环境管理系统，它不仅可以管理Python包，还能管理其他语言（如R、C++等）的包。conda更侧重于数据科
【机器学习】机器学习四大分类藓类少女机器学习机器学习分类人工智能
机器学习的方法主要可以分为四大类，根据学习方式和数据标注情况进行分类：1.监督学习（SupervisedLearning）特点：有标注数据（即训练数据有明确的输入(X)和输出(Y)）。学习目标是找到一个映射(f(X)\approxY)。适用于分类和回归问题。主要算法：分类（Classification）：逻辑回归（LogisticRegression）支持向量机（SVM）朴素贝叶斯（NaïveBa
在 C 和 C++ 编程里，要引用一个文件中的函数，包含头文件和使用extern，通常包含头文件是更好的做法 weixin_44799641 C/C++c语言 c++
在C和C++编程里，要引用一个文件中的函数，通常包含头文件是更好的做法，下面为你详细分析：包含头文件优点代码清晰规范：在源文件里包含函数声明所在的头文件，能让代码结构更清晰，其他人阅读代码时能很容易明白函数的来源和用途。比如，#include"can_port.h"这样的语句明确表示该源文件要使用can_port.h头文件里声明的函数。自动更新声明：要是函数的声明有变动，只需修改头文件，所有包含该
C++ 地图 + 配对组合！3 分钟吃透 map 和 pair 的黄金搭档 Reese_Cool STL 数据结构与算法 c++算法开发语言 stl
文章目录pair一、基本概念二、pair的声明与初始化三、成员访问与修改四、常用操作1.比较运算2.交换值3.tie函数（解包pair）五、pair的应用场景六、pair与结构体/类的对比七、pair与tuple的对比八、代码示例1.返回多个值2.存储键值对九、总结map一、基本概念二、map的声明与初始化三、常用操作四、map的应用场景五、注意事项在C++编程里，map和pair是标准库中十分实
第十六章:Specialization and Overloading_《C++ Templates》notes 郭涤生 c/c++c++开发语言笔记
SpecializationandOverloading一、模板特化与重载的核心概念二、代码实战与测试用例三、关键知识点总结四、进阶技巧五、实践建议多选题设计题代码测试说明一、模板特化与重载的核心概念函数模板重载(FunctionTemplateOverloading)//基础模板templateTmax(Ta,Tb){returna>b?a:b;}//显式特化(FullSpecializatio
AtCoder备赛冲刺必刷题（C++） | 洛谷 AT_abc396_a Triple Four 热爱编程的通信人 c++算法开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：AT_abc396_a[ABC396A]
C/C++数据类型--整型类型蓝心湄 C/C++数据类型 c语言
概念数据类型表示的是数据的身份决定它可以进行什么操作、占用多少空间与数据结构的区别数据类型更倾向于表示数据的身份数据结构表示的是怎么操作数据（是在类型的基础上进行对数据的操作的）C语言允许使用的类型类型的分类算术类型：基本类型和枚举类型纯量类型：算术类型和指针类型组合类型：数组类型和结构体类型整型数据基本整型（int）长度为2字节或4字节短整型（shortint）长度为2字节长整型（longint
Java：从入门到创新 java
Java：从入门到创新一、Java简介Java是一种广泛使用的高级编程语言，自1995年首次发布以来，一直深受开发者的喜爱。它由SunMicrosystems公司开发，后来被Oracle公司收购。Java的设计目标是简单、健壮、安全且跨平台，这些特性使其在企业级应用开发中占据重要地位。二、Java的主要特点（一）简单易学Java的语法与C语言和C++语言很接近，但丢弃了C++中一些复杂且容易出错的
C++数组 ws262 算法 c++数据结构
可以用来表达类型相同的元素的集合，集合的名字就叫数组名数组里的元素都是有编号的，元素的编号叫下标。通过数组名和下标，就能访问元素一维数组的定义如下：类型名数组名[元素个数];其中"元素个数“必须是常量或常量表达式，不能是变量，而且其值必须是正整数。元素个数称为”数组长度“Ta[N];//数组大小为N*sizeof（T）字节的存储空间表达式“sizeof（a）”的值就是整个数组的体积，即N*size
用c++语言编写的小程序,利用C++编写一些有趣的小程序瑞士鲁迅用c++语言编写的小程序
虽然说中学没有参加过信息学竞赛，但相对来说，我接触编程算是比较早的。和我同龄的人，若小学参加过计算机竞赛，大概还对PC-logo有点印象，这算是我对编程的最初体验，这里就不叙述。到了初中，便按着规定学习了一点Pascal，在家里也自己写过一点极其简单的程序。高中会考也需要学习VisualBasic，但学的十分浅显，并无什么收获。C语言是大学的必修课，于是在军训期间，我就买来《C++Primer》自
C++徒手造国密SM算法！码农の头发消失术实录 skyksksksksks C++个人杂记物联网国密算法国密算法密码学 c++开发语言
【开场暴击：程序员的修仙之路】各位在秃头边缘疯狂试探的代码战士！今天我们要挑战史诗级成就——用纯C++手搓国家密码管理局钦定的SM2/SM3/SM4算法！没有现成库！没有外挂！只有头铁和即将离你而去的头发！(ง•̀_•́)ง【SM2加密：和椭圆曲线谈恋爱の玄学】这玩意儿就像追女神——你永远猜不透她的心思！来看加密の奥义三连：SM2加密vs追妹子对比表行为SM2加密流程追妹子流程第一步生成随机数k制
C++ 用ECC算法 Curve为EC_NIST_FP_521写个示例签名和验签。PCI认证小黄人软件经验分享 ssl 学习
以下是一个使用OpenSSL实现ECC(椭圆曲线密码)签名和验签的C++示例，曲线使用secp521r1（即NISTP-521）。这个程序：生成NISTP-521曲线的EC密钥。使用SHA-512进行哈希并签名数据。验证签名的正确性。编译：g++-oecc_signecc_sign.cpp-lssl-lcrypto运行：./ecc_sign你可以试试看，看看签名和验签是否成功！
什么是C++对象之间的view proxies 东北豆子哥 C++c++
在C++中，viewproxies是一种轻量级的对象，用于提供对另一个对象的间接访问或视图，而不直接拥有或管理该对象的数据。它们通常用于简化对复杂数据结构的访问，或在不需要复制数据的情况下提供特定的视图。1.ViewProxies的核心概念轻量级：Viewproxies通常不拥有数据，而是引用或包装另一个对象的数据。间接访问：通过viewproxies，可以以特定的方式访问或操作底层数据，而不需要
【C++开源库】tinyxml2解析库使用介绍小庞在加油 C++知识 c++开源 tinyxml2解析库
TinyXML-2是一个在C++中使用的轻量级、简单且高效的XML解析库。它由LeeThomason开发，旨在提供快速解析和生成XML数据的功能，同时保持代码的简洁性和易于使用。TinyXML-2支持多种编译器和平台，包括Windows、Linux和macOS。特点与优势简单易用：TinyXML-2提供了直观的API，使得解析和生成XML文档变得简单。高性能：它经过优化，能够快速解析大型XML文件
深度学习 Deep Learning 第8章深度学习优化 odoo中国 AI编程人工智能深度学习人工智能优化
深度学习第8章深度学习的优化章节概述本章深入探讨了深度学习中的优化技术，旨在解决模型训练过程中面临的各种挑战。优化是深度学习的核心环节，直接关系到模型的训练效率和最终性能。本章首先介绍了优化在深度学习中的特殊性，然后详细讨论了多种优化算法，包括随机梯度下降（SGD）、动量法、Nesterov动量法、AdaGrad、RMSProp和Adam等。此外，还探讨了参数初始化策略、自适应学习率方法以及二阶优
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs

C++强化学习通过Python bindings接OpenAI Gym

你可能感兴趣的:(强化学习,Reinforcement,learning,pybind11,gym,C++)