Oxalate-c

CartPole 强化学习详解1 - DQN

工作中常会接触到强化学习的内容，自己以gym环境中的Cartpole为例动手实现一下，记录点实现细节。

1. gym-CartPole环境准备

环境是用的gym中的CartPole-v1，就是火柴棒倒立摆。gym是openai的开源资源，具体如何安装可参照：

强化学习一、基本原理与gym的使用_wshzd的博客-CSDN博客_gym 强化学习

这个环境的具体细节（参考gym源码cartpole.py）：

action只有向左向右两个选择，离散量

观测值有4个，x, x_dot, theta, theta_dot，源文件里也给了具体的值域范围，超过这个范围，会认为done。另外这个环境超过500步就会认为是done了。

| Num | Observation           | Min                  | Max                |
|-----|-----------------------|----------------------|--------------------|
| 0   | Cart Position         | -4.8                 | 4.8                |
| 1   | Cart Velocity         | -Inf                 | Inf                |
| 2   | Pole Angle            | ~ -0.418 rad (-24°)  | ~ 0.418 rad (24°)  |
| 3   | Pole Angular Velocity | -Inf                 | Inf                |

2. PID控制

这个问题其实是个很基本的控制问题，也不太涉及到要靠什么多步决策优化来搞，所以简单搞了个PID控一下，主要为了熟悉下这个环境，具体没啥好解释的，直接放一下代码，因为随便玩一下，参数没有细调，大概能用。

import gym
from matplotlib import animation
import matplotlib.pyplot as plt

env = gym.make('CartPole-v1')
obs = env.reset()

kp = 0.000
kv = -0.002
ka = -0.3
kav = -0.01
ks = -0.000
sum_angle = 0.000
frames = []

def save_gif(frames):
    patch = plt.imshow(frames[0])
    plt.axis('off')
    def animate(i):
        patch.set_data(frames[i])
    anim = animation.FuncAnimation(plt.gcf(), animate, frames=len(frames), interval=5)
    anim.save('./CartPortCtrl.gif', writer='imagemagick', fps=30)

def CalcAction(obs):
    action = 0 # 0 meanleft, 1 means right
    global sum_angle
    sum = kp * obs[0] + kv * obs[1] + ka * obs[2] + kav * obs[3] + ks * sum_angle
    sum_angle += obs[2]
    if (sum < 0.0):
        action = 1
    else:
        action = 0
    return action

for _ in range(200):
    frames.append(env.render(mode='rgb_array'))
    action = CalcAction(obs)
    print('action = %d' % action)
    obs, reward, done, info = env.step(action)
env.close()
save_gif(frames)

具体效果见上面，200步内还是比较稳的，但是到300-400步，会渐渐发散掉。

3. DQN控制

因为是离散型问题，选用了最简单的DQN实现，用Pytorch实现的，这里代码实现很多参考的是：

强化学习算法实例DQN代码PyTorch实现 - -Rocky- - 博客园

另外有些基本概念学习了下莫烦的视频：

强化学习 (Reinforcement Learning) | 莫烦Python

基本公式：

上述这两个资料只能教你最简单的实现，将程序搭到一个能跑通的状态，但如何得到一个好用的网络 & 调试中的trick没有仔细介绍，为此本文记录了一些细节。调试过程中困惑我比较久的一个问题：根据网上的方法训练的网络loss看上去收敛了，其实并不能很好地控制CartPole，所以这里尝试回答两个问题：

问题1：网络要训成什么样才算能用？

问题2：调整哪些细节可以提升网络表现？

先放代码再回答问题：

GitHub - BITcsy/gymTesthttps://github.com/BITcsy/gymTest本文涉及的两段代码都可以在上述地址找到。

import gym
from matplotlib import animation
import matplotlib.pyplot as plt

import torch.nn as nn
import torch.nn.functional as F
import torch
import numpy as np

class Net(nn.Module):
    def __init__(self, n_states, n_actions):
        super(Net, self).__init__()
        self.fc1 = nn.Linear(n_states, 10)
        self.fc2 = nn.Linear(10, n_actions)
        self.fc1.weight.data.normal_(0, 0.1)
        self.fc2.weight.data.normal_(0, 0.1)

    def forward(self, x):
        x = self.fc1(x)
        x = F.relu(x)
        out = self.fc2(x)
        return out

class DQN:
    def __init__(self, n_states, n_actions):
        print("")
        self.eval_net, self.target_net = Net(n_states, n_actions), Net(n_states, n_actions) # nit two nets
        self.loss = nn.MSELoss()
        self.optimizer = torch.optim.Adam(self.eval_net.parameters(), lr=0.01)
        self.n_actions = n_actions
        self.n_states = n_states
        # 使用变量
        self.learn_step_counter = 0  # target网络学习计数
        self.memory_counter = 0  # 记忆计数
        self.memory = np.zeros((2000, 2 * n_states + 1 + 1))  # s, s', a, r
        self.cost = []  # 记录损失值
        self.done_step_list = []

    def choose_action(self, state, epsilon):
        state = torch.unsqueeze(torch.FloatTensor(state), 0)  # (1,2)
        if np.random.uniform() < epsilon:
            action_value = self.eval_net.forward(state)
            action = torch.max(action_value, 1)[1].data.numpy()[0] # d the max value in softmax layer. before .data, it is a tensor
        else:
            action = np.random.randint(0, self.n_actions)
        # print("action=", action)
        return action

    def store_transition(self, state, action, reward, next_state):
        # print("")
        transition = np.hstack((state, [action, reward], next_state))
        index = self.memory_counter % 2000  # 满了就覆盖旧的
        self.memory[index, :] = transition
        self.memory_counter += 1

    def learn(self):
        # print("")
        # target net 更新频率,用于预测，不会及时更新参数
        if self.learn_step_counter % 100 == 0:
            self.target_net.load_state_dict((self.eval_net.state_dict()))
            # print("update eval to target")
        self.learn_step_counter += 1

        # 使用记忆库中批量数据
        sample_index = np.random.choice(2000, 16)  # 200个中随机抽取32个作为batch_size
        memory = self.memory[sample_index, :]  # 取的记忆单元，并逐个提取
        state = torch.FloatTensor(memory[:, :self.n_states])
        action = torch.LongTensor(memory[:, self.n_states:self.n_states + 1])
        reward = torch.LongTensor(memory[:, self.n_states + 1:self.n_states + 2])
        next_state = torch.FloatTensor(memory[:, self.n_states + 2:])

        # 计算loss,q_eval:所采取动作的预测value,q_target:所采取动作的实际value
        q_eval = self.eval_net(state).gather(1, action) # eval_net->(64,4)->按照action索引提取出q_value
        q_next = self.target_net(next_state).detach()
        # torch.max->[values=[],indices=[]] max(1)[0]->values=[]
        q_target = reward + 0.9 * q_next.max(1)[0].unsqueeze(1) # label
        loss = self.loss(q_eval, q_target)  # td error
        self.cost.append(loss)
        # 反向传播更新
        self.optimizer.zero_grad()  # 梯度重置
        loss.backward()  # 反向求导
        self.optimizer.step()  # 更新模型参数

    def plot_cost(self):
        plt.subplot(1,2,1)
        plt.plot(np.arange(len(self.cost)), self.cost)
        plt.xlabel("step")
        plt.ylabel("cost")

        plt.subplot(1,2,2)
        plt.plot(np.arange(len(self.done_step_list)), self.done_step_list)
        plt.xlabel("step")
        plt.ylabel("done step")
        plt.show()

def save_gif(frames):
    patch = plt.imshow(frames[0])
    plt.axis('off')

    def animate(i):
        patch.set_data(frames[i])

    anim = animation.FuncAnimation(plt.gcf(), animate, frames=len(frames), interval=5)
    anim.save('./CartPortRL.gif', writer='imagemagick', fps=30)

if __name__ == "__main__":
    env = gym.make('CartPole-v1')
    frames = []
    # train
    counter = 0
    done_step = 0
    max_done_step = 0
    num = 200000
    negative_reward = -10.0
    x_bound = 1.0
    state = env.reset()
    model = DQN(
        n_states=4,
        n_actions=2
    )  # 算法模型
    model.cost.clear()
    model.done_step_list.clear()
    for i in range(num):
        # env.render()
        # frames.append(env.render(mode='rgb_array'))
        epsilon = 0.9 + i / num * (0.95 - 0.9)
        # epsilon = 0.9
        action = model.choose_action(state, epsilon)
        # print('action = %d' % action)
        state_old = state
        state, reward, done, info = env.step(action)
        x, x_dot, theta, theta_dot = state
        # r1 = (env.x_threshold - abs(x)) / env.x_threshold - 0.8  # x_threshold 4.8
        # r2 = (env.theta_threshold_radians - abs(theta)) / env.theta_threshold_radians - 0.5
        if (abs(x) > x_bound):
            r1 = 0.5 * negative_reward
        else:
            r1 = negative_reward * abs(x) / x_bound + 0.5 * (-negative_reward)
        if (abs(theta) > env.theta_threshold_radians):
            r2 = 0.5 * negative_reward
        else:
            r2 = negative_reward * abs(theta) / env.theta_threshold_radians + 0.5 * (-negative_reward)
        reward = r1 + r2
        if done:
            reward += negative_reward
        # print("x = %lf, r1 = %lf, theta = %lf, r2 = %lf" % (x, r1, theta, r2))
        model.store_transition(state_old, action, reward, state)
        if (i > 2000 and counter % 10 == 0):
            model.learn()
            counter = 0
        counter += 1
        done_step += 1
        if (done):
            # print("reset env! done_step = %d, epsilon = %lf" % (done_step, epsilon))
            if (done_step > max_done_step):
                max_done_step = done_step
            state = env.reset()
            model.done_step_list.append(done_step)
            done_step = 0
    #model.plot_cost()  # 误差曲线
    #print("reccurent time = %d, max done step = %d, final done step = %d" % (retime, max_done_step, model.done_step_list[-1]))

    # test
    state = env.reset()
    for _ in range(400):
        frames.append(env.render(mode='rgb_array'))
        action = model.choose_action(state, 1.0)
        state, reward, done, info = env.step(action)
        if (done):
            state = env.reset()
            print("test try again")
            break
    env.close()
    save_gif(frames)

基本语法：（遗留）

3.1 问题1：网络要训成什么样才算能用？

这个算法里loss就是TD error，起初训练出来的网络在loss图上已经收敛了，如图：

但是用这个网络实际控制CartPole完全就是在乱动，一味地增大训练步数效果甚微。考虑到这个任务其实是希望将CartPole立住更长的时间，因此通过训练过程中训练能走到的最大步数作为判断网络质量的依据，这里提了两个指标：训练中达到的最大步数 & 训练截止前最后一次网络坚持到的步数（这么定不完全严谨，因为DQN在选动作的过程中是会有随机因素在，不过多次测试可以大致反应训练效果了。严谨的做法就是直接用这个网络去控制CartPole看效果。）

3.2 问题2：调整哪些细节可以提升网络表现？

直觉上猜测主要的影响因素：训练步长，epsilon，reward设计。其中reward设计是看了莫烦的视频得到的启发，因为CartPole环境里默认的reward实在太粗糙了，只有0，1，没法表征出比较连续的量。所以我尝试了一下下面这些因素，指标用的是3.1小节里提到的那两个步数，为了避免随机因素的影响，每组参数我做了10组实验，通过均值比对分析了下各个指标的影响：

因素1：训练步数，默认10万步
因素2：异常结束（没有到500步）失败reward惩罚
因素3：rewad = r1 + r2（同莫烦视频）
因素4：reward基准数值（莫烦视频里r1，r2分别有个-0.8和-0.5的偏移量，我个人存疑所以试了一下）
因素5：epsilon渐变（0.9->0.95渐变）
因素6：target网络同步频率，就是对应于DQN里的fix target策略，要多久一次更新一下target
因素7：batch size
因素8：Gamma折扣系数

直接看结果：

结论：

因素1：训练步数。表格中没给对比结果，我实验过程中有明显影响，得保证一定量才行，这个问题推荐20万步以上。
因素2：异常结束（没有到500步）失败reward惩罚。影响很大，如果没有网络基本不能用，这是该任务关键的稀疏奖励。
因素3：rewad = r1 + r2（同莫烦视频）。有负向影响，去掉反而更好了。
因素4：reward基准数值（同莫烦视频）。有负向影响，去掉反而更好了。
因素5：epsilon渐变（0.9->0.95渐变）。直接用0.9反而更好了，训练过程中发现使用可变epsilon的时候如果网络还没有收敛到比较好的解，epsilon就比较大了，网络可能就崩了，再也回不来了。如图：
因素6：target网络同步频率。影响很大，太小的话不利于收敛。侧面反应fix target的重要性，不能同步太快。
因素7：batch size。没太大影响。
因素8：Gamma折扣系数。影响很大，最开始没注意到这个数太小，调成0.9网络效果要好很多。

最后做了几个调整：

训练20万步
配合负向reward，做整个reward的渐变，防止reward跳变导致reward太稀疏
Gamma = 0.9
target同步频率：训练100次同步一次

最后效果：可以达到500步，不过网络训练有随机性，训练多版网络不能保证每个网络都很稳：

4. 遗留问题

在训练过程中思考了强化学习在实际工业场景中使用的几个问题，遗留在这里希望大佬指导：

gym环境是一个同步环境，是可以step运行的。但是常用的机器人/无人平台系统通常都是异步系统，是不太可能异步运行的，具体任务中如何解决异步系统和同步系统差异带来的问题？
如何确保模型能用？我在这里采用了和任务本身强相关的一种评价方式，那对于大多数任务是否必须通过另外的一套测评系统才能验证？训练过程中哪些信息可以作为辅助判断？
稀疏奖励是否有设置技巧？权重是否要明显大于密集型reward？不然是否会淹没在数据海中？
RL的泛化性存在很大的问题，如何知道网络有效边界，保证在边界中一定能用？以CartPole为例，离中心位置越远的地方被探索到的数据越少，实际运行过程中，很可能因为没有探索到导致网络结果崩了，如何有效提升其泛化性，或者如何知道其边界？

5. DQN改进

Double DQN（DDQN）：为解决DQN过估计的问题，修改了Q现实计算中直接取最大的方法，利用Q估计来确定a，再以该a来确定Q现实。
Prioritized Experience Replay：为了解决始终用无效数据训练的问题，优先计算td error较大的数据，算法实现用了SumTree的数据结构。
Dueling DQN：加速收敛。将Q拆分成了V(s) + Adv(a)这样的形式，一个和s有关，一个和a有关。训练过程中也加入了求均值等trick，方式训练退化成了直接学Q。
其他详见Rainbow的解析：Rainbow: 融合DQN六种改进的深度强化学习方法！ - 知乎

PyTorch 2.7深度技术解析：新一代深度学习框架的革命性演进智算菩萨深度学习 pytorch 人工智能
引言：站在AI基础设施变革的历史节点在2025年这个充满变革的年份，PyTorch团队于4月23日正式发布了2.7.0版本，随后在6月4日推出了2.7.1补丁版本，标志着这个深度学习领域最具影响力的框架再次迎来了重大突破。这不仅仅是一次常规的版本更新，而是一次面向未来计算架构和AI应用场景的全面重构。从底层硬件支持到上层API设计，从编译器优化到注意力机制革新，PyTorch2.7展现出了前所未有
Python实现MCP Server的完整Demo CATTLECODE python 开发语言
mcpserverfromfastmcpimportFastMCPimportlogging#配置日志记录logging.basicConfig(level=logging.INFO)logger=logging.getLogger(__name__)mcp=FastMCP("DemoServer")@mcp.tool()asyncdefcalculate(a:float,b:float,op:s
Boltz-2：革命性生物分子模型，加速药物发现的新引擎花生糖@ AIGC学习资料库 Boltz-2 生物模型 AI
在药物研发领域，预测蛋白质与其他分子间的结合强度（BindingAffinity）始终是核心挑战之一。传统方法如自由能微扰法（FEP）虽然精确，但计算成本极高，难以大规模应用。如今，Boltz-2的诞生打破了这一瓶颈——这是首个开源的深度学习模型，其结合强度预测准确度接近FEP方法，却将速度提升了1000倍，成为药物早期筛选的“加速器”。项目简介Boltz-2是由jwohlwend团队开发的生物分
Node.js 后台系统 - 基本增删改查实现
个人简介‍‍个人主页：魔术师学习方向：主攻前端方向，正逐渐往全栈发展个人状态：研发工程师，现效力于政务服务网事业人生格言：“心有多大，舞台就有多大。”推荐学习：Vue2Vue3Vue2/3项目实战Node.js实战Three.js鸿蒙开发小程序使用备注：仅供学习交流严禁用于商业用途，若发现侵权内容请及时联系作者更新进度：持续更新内容个人名片：每篇文章最下方都有加入方式，旨在交流学习&资源分享，快加
人工智能在医疗领域的应用：技术革新与未来展望
人工智能（AI）技术正在重塑医疗行业的面貌。从辅助诊断到药物研发，从健康管理到手术机器人，AI的广泛应用不仅提升了医疗效率，还为精准医疗和个性化治疗提供了新可能。根据2025年多份研究报告及政策文件，全球AI医疗市场正以39.4%的年复合增长率高速扩张，预计到2025年，中国市场规模将达349亿元，全球规模则可能突破千亿美元18。本文将从应用场景、技术驱动、挑战与政策支持等维度，探讨AI在医疗领域
华为OD机考2025B卷 - 最多几个直角三角形（Java & Python& JS & C++ & C ）算法大师最新华为OD机试真题华为OD机试真题 (Java/JS/Py/C)java python 华为OD机考2025B卷 javascript 华为od C++C语言
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述有N条线段，长度分别为a[1]-a[n]。现要求你计算这N条线段最多可以组合成几个直角三角形。每条线段只能使用一次，每个三角形包含三条线段。输入描述第一行输入一个正整数T（1#
10.5 实战ChatGLM3私有数据微调之提示工程：批量生成数据稳定性秘籍少林码僧掌握先机！从 0 起步实战 AI 大模型微调打造核心竞争力机器学习深度学习人工智能语言模型
实战ChatGLM3私有数据微调之提示工程：批量生成数据稳定性秘籍在当今人工智能蓬勃发展的时代，大语言模型（LLMs）如ChatGLM3的出现，为自然语言处理领域带来了革命性的变化。企业和开发者们纷纷寻求利用这些强大的模型来构建定制化的应用，以满足特定业务需求。其中，使用私有数据对ChatGLM3进行微调，成为了实现差异化竞争和提供个性化服务的关键途径。然而，在微调过程中，确保批量生成数据的稳定性
CSC研修计划的书写
博主最近在申请CSC，所以也会更新一下自己的学习笔记，有需要的可以关注我一下，同时有问题大家可以一起交流一下啊一要求（fromCSC官网）①拟留学专业(研究课题)在国内外研究情况及水平；②拟选择的留学国别、留学单位及选择原因(应简单评述对方国家及留学单位在申请人所从事学科、专业领域的水平、优势，申请人及所在单位与对方有无合作基础及业务联系);③达到本次出国学习预期目标的可行性,结合本人目前从事的工
【机器学习笔记 Ⅱ】9 模型评估巴伦是只猫机器学习机器学习笔记人工智能
评估机器学习模型是确保其在实际应用中有效性和可靠性的关键步骤。以下是系统化的评估方法，涵盖分类、回归、聚类等任务的评估指标和技术：一、分类模型评估1.基础指标2.高级指标ROC-AUC：通过绘制真正例率（TPR）vs假正例率（FPR）曲线下面积评估模型整体性能。AUC=1：完美分类；AUC=0.5：随机猜测。适用于二分类及多分类（OvR或OvO策略）。混淆矩阵：可视化模型在各类别上的具体错误（如将
【机器学习笔记 Ⅱ】7 多类分类巴伦是只猫机器学习机器学习笔记分类
1.多类分类（Multi-classClassification）定义多类分类是指目标变量（标签）有超过两个类别的分类任务。例如：手写数字识别：10个类别（0~9）。图像分类：区分猫、狗、鸟等。新闻主题分类：政治、经济、体育等。特点互斥性：每个样本仅属于一个类别（区别于多标签分类）。输出要求：模型需输出每个类别的概率分布，且概率之和为1。实现方式One-vs-Rest(OvR)：训练K个二分类器（
Day08-Flask 或 Django 简介：构建 Web 应用程序清幽竹客 Python flask django python
Flask或Django简介：构建Web应用程序网络开发领域提供了丰富的工具和框架，而Python作为一门多功能的语言，在构建健壮且可扩展的Web应用方面脱颖而出。本课程将作为你使用Python进行Web开发的入门指南，特别聚焦于两个流行的框架：Flask和Django。我们将探讨这些框架背后的基本概念，为你创建动态Web应用和RESTfulAPI奠定基础。理解这些框架对于将AI模型集成到Web应
【附源码】基于flask框架求职招聘网站 (python+mysql+论文)
本系统（程序+源码）带文档lw万字以上文末可获取本课题的源码和程序系统程序文件列表系统的选题背景和意义选题背景：随着互联网技术的飞速发展，网络求职招聘已经成为了现代人才市场的一大趋势。传统的求职招聘方式逐渐被线上平台所取代，这主要得益于网络平台的便捷性、实时性和广泛性。然而，现有的求职招聘网站虽然数量众多，但质量参差不齐，用户体验也各不相同。一些求职者和招聘者在面对海量信息时，往往会感到无所适从，
DRM 显示控制与硬件参数配置链路总结（以 i.MX8MP 为例）
DRM显示控制与硬件参数配置链路总结（以i.MX8MP为例）支持作者新书，深入学习嵌入式开发知识：京东购买链接一、核心理解显示参数（如分辨率、时序、色深）最终来源于用户空间，由DRM驱动完成传递与配置，并由LCD控制器驱动实际硬件输出。设备树中通常不写死这些参数。二、显示硬件参数：定义与归属参数项通常设置位置说明分辨率用户空间（如Weston）通过DRMAPI设置，例如1920x1080@60Hz
大语言模型（LLM）课程学习（Curriculum Learning）、数据课程（data curriculum）指南：从原理到实践
在人工智能的浪潮之巅，我们总会惊叹于GPT-4、Llama3.1、Qwen2.5这些顶尖大语言模型（LLM）所展现出的惊人能力。它们似乎无所不知，能写诗、能编程、能进行复杂的逻辑推理。一个自然而然的问题是：它们是如何“学”会这一切的？大多数人会回答：“用海量数据喂出来的。”这个答案只说对了一半。如果你认为只要把互联网上能找到的所有数据（比如15万亿个token）随机打乱，然后“一锅烩”地喂给模型，
Halcon学习之select_shape（）算子参数介绍
一、算子介绍select_shape()是HALCON中用于基于形状特征筛选区域的关键算子，广泛应用于图像分割、目标检测和工业质检等领域。它允许用户根据指定的几何特征从输入区域集合中选择符合条件的区域。至于为什么单独介绍这个算子呢，因为他筛选特征的方式有太多种了，如果可以熟练的掌握这些特征，那在后面的例程学习以及实际应用中，可谓是得心应手了。二、算子参数select_shape(Regions:S
Halcon例程学习四：pcb_inspection.hdev CVer_ Halcon例程学习学习
一、例程介绍这个例程主要是检测pcb电路板中的一些电路线缺陷二、例程相关算子gray_opening_shape()//特定形状结构元的灰度开运算gray_closing_shape(）//特定形状结构元的灰度闭运算dyn_threshold（）//动态二值化操作三、例程处理流程1.对原图像进行灰度开运算，图像先腐蚀再膨胀。经过灰度开运算后，图像整体会变暗一些，并且会将黑色区域中的白色缺陷进行填充
解决更新python版本后，虚拟环境不可用的问题 Superstarimage diffusers编程 python python 人工智能开发语言
因为安装xformers，需要额外加装triton，而triton需要的python版本（3.10）高于我当前虚拟环境的版本（3.8），因此博主手动提升了当前虚拟环境的版本：condainstallpython=3.10结果应用该虚拟环境时，始终报如下错误：(TrainControlNet)F:\XYX\Documents\SpongeCakeInverse\AITools\the3rdparty
Hadoop MapReduce入门且行且安~ 数据分析进阶之路 Linux命令 hadoop MapReduce入门
入门简介计算过程分为两个阶段Map和ReduceMap阶段并行处理输入数据Reduce阶段对Map结果进行汇总针对python语言来说：map函数或者reduce函数来说，输出的数据格式为元组tuple一个简单的MapReduce程序只需要指定map()reduce()input()output()剩下的由框架完成。Linux常见命令：-读取文件（文本文件，在Windows下使用记事本打开的文件）
PPT处理控件Aspose功能演示：使用C＃从PowerPoint文件中提取文本 Lee-Shyllen Aspose 文档开发文档管理 aspose PPT 文档开发文档处理
有时需要从PowerPoint幻灯片中提取文本以执行文本分析。另一方面，可能需要提取文本并将其保存在文件或数据库中以进行进一步处理。因此，本文介绍了如何使用C＃从PowerPoint演示文稿中提取文本。特别是，将学习如何从特定的幻灯片或整个演示文稿中提取文本。从PowerPoint幻灯片中提取文本从PowerPoint演示文稿中提取文本为了处理PowerPoint演示文稿，Aspose提供Aspo
人工智能学习资源 Hemy08 人工智能学习
无机器学习基础：https://www.coursera.org/learn/machine-learning有机器学习基础：MachineYearning深度学习入门：https://www.coursera.org/learn/neural-networks-deep-learning
opencv初步学习——图像处理2
这一部分主要讲解如何初步地创建一个图像，以及彩色图像我们的一些基本处理方法一、创建一个灰度图像1-1、zeros()函数[NumPy库]要用到这一个函数，首先我们需要调用我们的NumPy库，这一个函数的作用是可以帮助我们生成一个元素值都是0的二维数组，如果我们把这些数据放到一张图片里面去，那么就对应着我们的一个黑色图像。当然我们也可以通过修改数组中的数字大小来改变图像的颜色（但还是灰度图像）（1）
【DeepSeek开源周】Day 4：DualPipe & EPLB 学习笔记蓝海星梦 DeepSeek开源周探秘开源学习笔记人工智能云计算分布式
目录一、DualPipe&EPLB概述二、DualPipe详解1.流水线并行策略（1）F-then-B策略（2）1F1B策略2.朴素流水线并行3.GPipe微批次流水线并行4.PipeStream5.ZBPP6.DualPipe7.DualPipeV8.流水线并行方案对比三、EPLB详解1.专家并行（EP）2.EPLB冗余专家策略3.负载均衡策略（1）分层负载均衡（2）全局负载均衡（3）接口和示例
2025最新盘点：9款高效韦恩图工具推荐 Designseek满血版人工智能图论
在数据分析、逻辑推理以及众多学术研究领域，韦恩图都扮演着极为关键的角色。它以直观的圆形或椭圆形重叠区域，清晰地展现出不同集合之间的关系，无论是集合间的交集、并集还是补集，都能一目了然地呈现出来。无论是学生在学习数学、逻辑学课程时梳理知识点，还是专业人士在进行市场调研、项目规划时分析数据，亦或是科研人员在撰写论文、展示研究成果时阐述理论框架，一款好用的韦恩图绘制工具都显得至关重要。今天，就让我为大家
量子计算+AI芯片：光子计算如何重构神经网络硬件生态
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站量子计算+AI芯片：光子计算如何重构神经网络硬件生态——2025年超异构计算架构下的万亿参数模型训练革命产业拐点：英伟达BlackwellUltra发布光互连版GPU，IBM量子处理器突破512比特，光子计算商用成本降至$5/TOPS实测突破：Llama3-405B在光子-量子混合集群训练能耗下
【机器学习笔记 Ⅱ】4 神经网络中的推理
推理（Inference）是神经网络在训练完成后利用学到的参数对新数据进行预测的过程。与训练阶段不同，推理阶段不计算梯度也不更新权重，仅执行前向传播。以下是其实现原理和代码示例的完整解析：1.推理的核心步骤加载训练好的模型参数（权重和偏置）。前向传播：输入数据逐层计算，得到输出。后处理：根据任务类型解析输出（如分类取概率最大值，回归直接输出）。2.代码实现（Python+NumPy）(1)定义模型
The current PyTorch install supports CUDA capabilities sm_37 sm_50 sm_60 sm_70. weixin_66009678 pytorch 人工智能 python
出现如下报错：NVIDIAGeForceRTX3090withCUDAcapabilitysm_86isnotcompatiblewiththecurrentPyTorchinstallation.ThecurrentPyTorchinstallsupportsCUDAcapabilitiessm_37sm_50sm_60sm_70.IfyouwanttousetheNVIDIAGeForceRT
【大厂面试题】千万级大表如何快速删除大量数据 CBeann 【面试题】【架构&案例】【MySQL】java 开源 spring jvm mysql 大厂面试题
-作者简介：大厂高级Java开发工程师-称号：CSDN博客专家✨、阿里云博客专家-公众号：云服务小管家。免费的阿里云服务器☁和云环境直接使用-生活：专注于后端技术分享迷茫时可来瞅瞅码农轨迹‍♂️-服务：提供模拟面试和简历辅导，提供生产项目。内推可私信✉-卷卷群：可以和大家一起学习，一起进步-如果感觉博主的文章还不错的话，请三连支持一下博主哦背景最近在做一个项目，除了验证功能，还需要验证性能，所以前
开源语音分离工具大比拼：人声 VS 背景音乐 ⚔️ - 获取干净训练语音 (数据截至 2025年4月17日)！！！小丁学Java python 人工智能
开源语音分离工具大比拼：人声VS背景音乐⚔️-获取干净训练语音(数据截至2025年4月17日)在音频处理，特别是机器学习训练数据的准备中，获取纯净的人声（去除背景音乐或噪声）是一个常见的痛点。幸运的是，开源社区提供了许多强大的工具来帮助我们完成这项任务！本文将盘点一系列GitHub上的开源语音分离项目，重点关注那些能有效分离“人物语音”和“背景音乐”的工具，并根据GitHub星标⭐（反映社区关注度
为什么让AI洗碗比写诗难百倍？清华教授揭秘具身智能鸿沟 Loving_enjoy 计算机学科论文创新点机器学习人工智能 facebook 课程设计
>**人类小脑数亿年进化出的运动智慧，成了AI最难破解的密码**2025年3月，一位网友困惑地发问：“我想让人工智能替我洗碗做饭洗衣服，没想到现在的AI反而在画画、写歌、搞创作……”对此，全国政协委员、中国科学院自动化研究所研究员赵晓光一针见血地指出：**“大模型没有创新能力，想让AI干体力活还要靠具身智能的发展。”**这个看似矛盾的现象背后，隐藏着人工智能发展进程中一个惊人的认知盲区。清华大学心
【零基础学AI】第29讲：BERT模型实战 - 情感分析 1989 0基础学AI bert 人工智能深度学习神经网络 cnn python 自然语言处理
本节课你将学到BERT模型的核心原理与优势HuggingFaceTransformers库的BERT接口使用情感分析任务的完整实现流程模型微调(Fine-tuning)技巧开始之前环境要求Python3.8+需要安装的包：pipinstalltorchtransformersdatasetspandastqdmGPU推荐（可加速训练）前置知识第28讲Transformer基础基本PyTorch使用
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement