小羽网虫

强化学习：时间差分法代码（悬崖）

相关代码链接：https://pan.baidu.com/s/1otkNz0QeqzYbKD9ON2Xy5A

提取码：brus

第0部分：探索CliffWalkingEnv

请使用以下代码单元格创建 CliffWalking 环境的实例。

import gym
env = gym.make('CliffWalking-v0')

智能体会在 4×124×12 网格世界中移动，状态编号如下所示：

[[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11],
 [12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23],
 [24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35],
 [36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47]]

在任何阶段开始时，初始状态都是状态 36。状态 47是唯一的终止状态，悬崖对应的是状态 37 到 46。

智能体可以执行 4 个潜在动作：

UP = 0
RIGHT = 1
DOWN = 2
LEFT = 3

因此， $S^{+}$ ={0,1,…,47} 以及 A={0,1,2,3}。请通过运行以下代码单元格验证这一点。

print(env.action_space)
print(env.observation_space)

在此迷你项目中，将逐步发现 CliffWalking 环境的最优策略。最优状态值函数可视化结果如下。请立即花时间确保理解为何这是最优状态值函数。

import numpy as np
from plot_utils import plot_values

# define the optimal state-value function
V_opt = np.zeros((4,12))
V_opt[0:13][0] = -np.arange(3, 15)[::-1]
V_opt[0:13][1] = -np.arange(3, 15)[::-1] + 1
V_opt[0:13][2] = -np.arange(3, 15)[::-1] + 2
V_opt[3][0] = -13

plot_values(V_opt)

第1部分：TD预测-状态值

在此部分，将编写 TD 预测的实现（用于估算状态值函数）。

首先将研究智能体按以下方式移动的策略：

在状态 0 到 10（含）时向 RIGHT 移动，
在状态 11、23 和 35 时向 DOWN 移动，
在状态 12 到 22（含）、状态 24 到 34（含）和状态 36 时向 UP移动。

下面指定并输出了该策略。注意，智能体没有选择动作的状态被标记为 -1

policy = np.hstack([1*np.ones(11), 2, 0, np.zeros(10), 2, 0, np.zeros(10), 2, 0, -1*np.ones(11)])
print("\nPolicy (UP = 0, RIGHT = 1, DOWN = 2, LEFT = 3, N/A = -1):")
print(policy.reshape(4,12))

请运行下个单元格，可视化与此策略相对应的状态值函数。你需要确保花时间来理解为何这是对应的值函数！

V_true = np.zeros((4,12))
for i in range(3):
    V_true[0:12][i] = -np.arange(3, 15)[::-1] - i
V_true[1][11] = -2
V_true[2][11] = -1
V_true[3][0] = -17

plot_values(V_true)

将通过 TD 预测算法尝试逼近上图的结果。

TD 预测算法将包括 5 个参数：

env：这是 OpenAI Gym 环境的实例。
num_episodes：这是通过智能体-环境互动生成的阶段次数。
policy：这是一个一维 numpy 数组，其中 policy.shape 等于状态数量 (env.nS)。policy[s] 返回智能体在状态 s 时选择的动作。
alpha：这是更新步骤的步长参数。
gamma：这是折扣率。它必须是在 0 到 1（含）之间的值，默认值为：1。

该算法会返回以下输出结果：

V：这是一个字典，其中 V[s] 是状态 s 的估算值。

from collections import defaultdict, deque
import sys

def td_prediction(env, num_episodes, policy, alpha, gamma=1.0):
    # initialize empty dictionaries of floats
    V = defaultdict(float)
    # loop over episodes
    for i_episode in range(1, num_episodes+1):
        # monitor progress
        if i_episode % 100 == 0:
            print("\rEpisode {}/{}".format(i_episode, num_episodes), end="")
            sys.stdout.flush()
        
        ## TODO: complete the function
        
        # begin an episode, observe S
        state = env.reset()
        while True:
            # choose action A
            action = policy[state]
            # take action A, observe R, S'
            next_state,reward,done,info = env.step(action)
            # perform updates
            V[state] = V[state] + alpha*(reward + (gamma*V[next_state]) - V[state])
            # S <- S'
            state = next_state
            # end episode if reached terminal state
            if done:
                break

    return V

测试

import check_test

# evaluate the policy and reshape the state-value function
V_pred = td_prediction(env, 5000, policy, .01)

# please do not change the code below this line
V_pred_plot = np.reshape([V_pred[key] if key in V_pred else 0 for key in np.arange(48)], (4,12)) 
check_test.run_check('td_prediction_check', V_pred_plot)
plot_values(V_pred_plot)

第2部分：TD控制-Sarsa

在此部分，将编写 Sarsa 控制算法的实现。

算法将有四个参数：

env：这是 OpenAI Gym 环境的实例。
num_episodes：这是通过智能体-环境互动生成的阶段次数。
alpha：这是更新步骤的步长参数。
gamma：这是折扣率。它必须是在 0 到 1（含）之间的值，默认值为：1。

该算法会返回以下输出结果：

Q：这是一个字典（一维数组），其中 Q[s][a] 是状态 s 和动作 a 对应的估算动作值。

def update_Q(Qsa,Qsa_next,reward,alpha,gamma):
    """ updates the action-value function estimate using the most recent time step """
    return Qsa + alpha*(reward + (gamma * Qsa_next) - Qsa)

def epsilion_greedy_probs(env,Q_s,i_episode,eps=None):
    """ obtains the action probabilities corresponding to epsilon-greedy policy """
    epsilon = 1.0/i_episode
    if eps is not None:
        epsilon =eps
    policy_s = np.ones(env.nA) * epsilon/env.nA
    policy_s[np.argmax(Q_s)] = 1 - epsilon + (epsilon/env.nA)
    return policy_s

import matplotlib.pyplot as plt
%matplotlib inline

def sarsa(env, num_episodes, alpha, gamma=1.0):
    # initialize action-value function (empty dictionary of arrays)
    Q = defaultdict(lambda: np.zeros(env.nA))
    # initialize performance monitor
    plot_every = 100
    tmp_scores = deque(maxlen=plot_every)
    scores = deque(maxlen=num_episodes)
    
    # loop over episodes
    for i_episode in range(1, num_episodes+1):
        # monitor progress
        if i_episode % 100 == 0:
            print("\rEpisode {}/{}".format(i_episode, num_episodes), end="")
            sys.stdout.flush()   
        
        ## TODO: complete the function
        
        # initialize score
        score = 0
        # begin an episode, observe S
        state = env.reset()
        # get epsilon-greedy action probabilities
        policy_s = epsilion_greedy_probs(env,Q[state],i_episode)
        # pick action A
        action = np.random.choice(np.arange(env.nA),p=policy_s)
        # limit number of time steps per episode
        for t_step in np.arange(300):
            # take action A, observe R, S'
            next_state,reward,done,info = env.step(action)
            # add reward to score
            score += reward
            if not done:
                # get epsilon-greedy action probabilities
                policy_s = epsilion_greedy_probs(env,Q[next_state],i_episode)
                # pick next action A'
                next_action = np.random.choice(np.arange(env.nA),p=policy_s)
                # update TD estimate of Q
                Q[state][action] = update_Q(Q[state][action],Q[next_state][next_action],
                                         reward,alpha,gamma)
                
                # S <- S'
                state = next_state
                # A <- A'
                action = next_action
            if done:
                # update TD estimate of Q
                Q[state][action] = update_Q(Q[state][action],0,reward,alpha,gamma)
                # append score
                tmp_scores.append(score)
                break
        
        if(i_episode % plot_every == 0):
            scores.append(np.mean(tmp_scores))

    # plot performance
    plt.plot(np.linspace(0,num_episodes,len(scores),endpoint=False),np.asarray(scores))
    plt.xlabel('Episode Number')
    plt.ylabel('Average Reward (Over Next %d Episodes)' % plot_every)
    plt.show()
    
    # print best 100-episode performance
    print(('Best Average Reward over %d Episodes: ' % plot_every), np.max(scores))
    return Q

测试

# obtain the estimated optimal policy and corresponding action-value function
Q_sarsa = sarsa(env, 5000, .01)

# print the estimated optimal policy
policy_sarsa = np.array([np.argmax(Q_sarsa[key]) if key in Q_sarsa else -1 for key in np.arange(48)]).reshape(4,12)
check_test.run_check('td_control_check', policy_sarsa)
print("\nEstimated Optimal Policy (UP = 0, RIGHT = 1, DOWN = 2, LEFT = 3, N/A = -1):")
print(policy_sarsa)

# plot the estimated optimal state-value function
V_sarsa = ([np.max(Q_sarsa[key]) if key in Q_sarsa else 0 for key in np.arange(48)])
plot_values(V_sarsa)

第3部分：TD控制-Q学习

在此部分，将编写 Q 学习控制算法的实现。

算法将有四个参数：

env：这是 OpenAI Gym 环境的实例。
num_episodes：这是通过智能体-环境互动生成的阶段次数。
alpha：这是更新步骤的步长参数。
gamma：这是折扣率。它必须是在 0 到 1（含）之间的值，默认值为：1。

该算法会返回以下输出结果：

Q：这是一个字典（一维数组），其中 Q[s][a] 是状态 s 和动作 a 对应的估算动作值。

def q_learning(env, num_episodes, alpha, gamma=1.0):
    # initialize empty dictionary of arrays
    Q = defaultdict(lambda: np.zeros(env.nA))
    # initialize performance monitor
    plot_every = 100
    tmp_scores = deque(maxlen=plot_every)
    scores = deque(maxlen=num_episodes)
    
    # loop over episodes
    for i_episode in range(1, num_episodes+1):
        # monitor progress
        if i_episode % 100 == 0:
            print("\rEpisode {}/{}".format(i_episode, num_episodes), end="")
            sys.stdout.flush()
        
        ## TODO: complete the function
        
        # initialize score
        score = 0
        # begin an episode, observe S
        state = env.reset()
        while True:
            # get epsilon-greedy action probabilities
            policy_s = epsilion_greedy_probs(env,Q[state],i_episode)
            # pick next action A
            action = np.random.choice(np.arange(env.nA),p=policy_s)
            # take action A, observe R, S'
            next_state,reward,done,info = env.step(action)
            # add reward to score
            score += reward
            #update Q
            Q[state][action] = update_Q(Q[state][action],np.max(Q[next_state]),\
                                                               reward,alpha,gamma)
            # S <- S'
            state = next_state
            # until S is terminal
            if done:
                # append score
                tmp_scores.append(score)
                break
        if (i_episode % plot_every == 0):
            scores.append(np.mean(tmp_scores))
    
    # plot performance
    plt.plot(np.linspace(0,num_episodes,len(scores),endpoint=False),np.asarray(scores))
    plt.xlabel('Episode Number')
    plt.ylabel('Average Reward (Over Next %d Episodes)' % plot_every)
    plt.show()   
    # print best 100-episode performance
    print(('Best Average Reward over %d Episodes: ' % plot_every), np.max(scores))
    return Q

测试

# obtain the estimated optimal policy and corresponding action-value function
Q_sarsamax = q_learning(env, 5000, .01)

# print the estimated optimal policy
policy_sarsamax = np.array([np.argmax(Q_sarsamax[key]) if key in Q_sarsamax else -1 for key in np.arange(48)]).reshape((4,12))
check_test.run_check('td_control_check', policy_sarsamax)
print("\nEstimated Optimal Policy (UP = 0, RIGHT = 1, DOWN = 2, LEFT = 3, N/A = -1):")
print(policy_sarsamax)

# plot the estimated optimal state-value function
plot_values([np.max(Q_sarsamax[key]) if key in Q_sarsamax else 0 for key in np.arange(48)])

第4部分：TD控制-预期Sarsa

在此部分，将编写预期 Sarsa 控制算法的实现。

算法将有四个参数：

env：这是 OpenAI Gym 环境的实例。
num_episodes：这是通过智能体-环境互动生成的阶段次数。
alpha：这是更新步骤的步长参数。
gamma：这是折扣率。它必须是在 0 到 1（含）之间的值，默认值为：1。

该算法会返回以下输出结果：

Q：这是一个字典（一维数组），其中 Q[s][a] 是状态 s 和动作 a 对应的估算动作值。

def expected_sarsa(env, num_episodes, alpha, gamma=1.0):
    # initialize empty dictionary of arrays
    Q = defaultdict(lambda: np.zeros(env.nA))
    # loop over episodes
    plot_every = 100
    tmp_scores = deque(maxlen=plot_every)
    scores = deque(maxlen=num_episodes)
    
    for i_episode in range(1, num_episodes+1):
        # monitor progress
        if i_episode % 100 == 0:
            print("\rEpisode {}/{}".format(i_episode, num_episodes), end="")
            sys.stdout.flush()
        
        ## TODO: complete the function
        
        # initialize score
        score = 0
        # begin an episode
        state = env.reset()
        # get epsilon-greedy action probabilities
        policy_s = epsilion_greedy_probs(env,Q[state],i_episode,0.005)
        while True:
            # pick next action
            action = np.random.choice(np.arange(env.nA),p=policy_s)
            # take action A, observe R, S'
            next_state,reward,done,info = env.step(action)
            # add reward to score
            score += reward
            # get epsilon-greedy action probabilities (for S')
            policy_s = epsilion_greedy_probs(env,Q[next_state],i_episode,0.005)
            # update Q
            Q[state][action] = update_Q(Q[state][action],np.dot(Q[next_state],policy_s),
                                       reward,alpha,gamma)
            # S <- S'
            state = next_state
            # until S is terminal
            if done:
                # append score
                tmp_scores.append(score)
                break
        if (i_episode % plot_every == 0):
            scores.append(np.mean(tmp_scores))
    
    # plot performance
    plt.plot(np.linspace(0,num_episodes,len(scores),endpoint=False),np.asarray(scores))
    plt.xlabel('Episode Number')
    plt.ylabel('Average Reward (Over Next %d Episodes)' % plot_every)
    plt.show()
    # print best 100-episode performance
    print(('Best Average Reward over %d Episodes: ' % plot_every), np.max(scores))
        
    return Q

测试

# obtain the estimated optimal policy and corresponding action-value function
Q_expsarsa = expected_sarsa(env, 10000, 1)

# print the estimated optimal policy
policy_expsarsa = np.array([np.argmax(Q_expsarsa[key]) if key in Q_expsarsa else -1 for key in np.arange(48)]).reshape(4,12)
check_test.run_check('td_control_check', policy_expsarsa)
print("\nEstimated Optimal Policy (UP = 0, RIGHT = 1, DOWN = 2, LEFT = 3, N/A = -1):")
print(policy_expsarsa)

# plot the estimated optimal state-value function
plot_values([np.max(Q_expsarsa[key]) if key in Q_expsarsa else 0 for key in np.arange(48)])

基于Pytorch深度学习——Softmax回归 EchoToMe 深度学习 pytorch 回归 python
本文章来源于对李沐动手深度学习代码以及原理的理解，并且由于李沐老师的代码能力很强，以及视频中讲解代码的部分较少，所以这里将代码进行尽量逐行详细解释并且由于pytorch的语法有些小伙伴可能并不熟悉，所以我们会采用逐行解释+小实验的方式来给大家解释代码大家都知道二分类问题我们在机器学习里面使用到的是逻辑回归这个算法，但是针对于多分类问题，我们常用的是Softmax技术，大家不要被这个名字给迷惑了，s
[Pytorch报错问题解决]AttributeError: ‘nn.Sequential‘ object has no attribute ‘append‘ Bartender_Jill 编程报错解决 pytorch 人工智能 python
问题运行深度学习代码的时候遇到了以下报错问题：Traceback(mostrecentcalllast):File"/home/anaconda3/envs/Text2HOI/lib/python3.9/site-packages/torch/autograd/grad_mode.py",line28,indecorate_contextreturnfunc(*args,**kwargs)File
深度学习代码分析——自用肆—— 深度学习人工智能笔记
代码来自：https://github.com/ChuHan89/WSSS-Tissue?tab=readme-ov-file借助了一些人工智能1_train_stage1.py代码功能总览该代码是弱监督语义分割（WSSS）流程的Stage1训练与测试脚本，核心任务是通过多标签分类模型生成图像级标签，为后续生成伪掩码（Pseudo-Masks）提供基础。代码分为train_phase和test_p
AI自动采集教学行为——用AI来做机器学习部分和深度学习部分（含torch和cuda）包含机器学习模型和bert模型的使用东方-教育技术博主人工智能应用人工智能机器学习深度学习
文章目录数据清洗机器学习深度学习代码没问题之后的文件下载bert环境配置太麻烦，改用飞浆的bert飞浆失败-接着bert，用谷歌AIbert的使用数据清洗要遍历当前文件夹下从1.x1sx到8.x1sx的所有文件，提取“句子”列，‘标注’列和‘上下文情境’这三列按顺序把excel中的这三列拼接在一起。合并输出成一个xlsx文件。importosimportpandasaspd#获取当前脚本所在的目录
深度学习代码|Batch Normalization批归一化的代码实现丁希希哇深度学习代码手撕深度学习人工智能 pytorch 算法
文章目录一、导入相关库二、批量归一化层BatchNorm（一）理论基础（二）代码实现一、导入相关库importtorchfromtorchimportnnfromlabml_helpers.moduleimportModule二、批量归一化层BatchNorm（一）理论基础当输入X∈RB×C×H×WX\in\mathbb{R}^{B\timesC\timesH\timesW}X∈RB×C×H×W是
深度学习代码|Multi-Headed Attention (MHA)多头注意力机制的代码实现丁希希哇深度学习代码手撕深度学习人工智能 pytorch 算法
相关文章李沐《动手学深度学习》注意力机制文章目录相关文章一、导入相关库二、准备工作（一）理论基础（二）定义PrepareForMultiHeadAttention模块三、多头注意模块（一）理论基础（二）创建MultiHeadAttention模块一、导入相关库importmathfromtypingimportOptional,List#从typing模块中导入Optional和List类型，用于
深度学习——pycharm远程连接千禧皓月深度学习深度学习 pycharm 人工智能
目录远程环境配置本地环境配置（注意看假设！！!这是很多博客里没写的）步骤1步骤2步骤2.1配置Connection步骤2.2配置Mappings步骤3配置本地项目的远程解释器技巧1pycharm中远程终端连接技巧2远程目录技巧3上传代码文件技巧4数据集和模型权重相关技巧5运行代码1、仅以此篇记录整个pycharm远程连接服务器，跑通深度学习代码的过程2、整个过程花费了一天的时间，不过最终的结果可喜
深度学习代码学习朽月初二深度学习学习人工智能
神经网络基本搭建：torch.nn解惑（一）-----super(XXX,self).__init__()到底是代表什么含义_super(,self).__init__-CSDN博客神经网络的基本框架的搭建-nn.Module-CSDN博客
深度学习代码源码项目90个分享 z5645654 深度学习 python 深度学习人工智能机器学习 python
demo仓库和视频演示：银色子弹zg的个人空间-银色子弹zg个人主页-哔哩哔哩视频卷积网路CNN分类的模型一般使用包括alexnet、DenseNet、DLA、GoogleNet、Mobilenet、ResNet、ResNeXt、ShuffleNet、VGG、EfficientNet和Swintransformer等10多种模型目标检测一般是yolov3、yolov4、yolov5、yolox、P
深度学习手势识别学习 33的史努比 python学习深度学习 tensorflow 手势识别
深度学习代码学习os.environ[]使用os.environ["CUDA_VISIBLE_DEVICES"]="0"##设置当前使用的GPU设备仅为0号设备2.argparse.ArgumentParser()用法解析parse=argparse.ArgumentParser(description='Paramsfortraining.')#创建解析器parse.add_argument('
深度学习代码20240102 湘溶溶深度学习深度学习人工智能
importtorchfromtorchimportnn#搭建神经网络classTudui(nn.Module):def__init__(self):super(Tudui,self).__init__()#在Tudui类的构造函数中调用其父类的构造函数，以确保执行父类的初始化操作#通过super(Tudui,self).__init__()，我们获取了Tudui类的父类对象，#然后调用了该父类的
[源码和文档分享]深度学习算法实验平台网站的设计与实现 ggdd5151
本文课题构建一个深度学习算法实验平台，是为颈动脉医疗图像深度学习识别斑块提供服务的。制作一个集成的深度学习工具包，颈动脉医疗图像的深度学习代码都可以在本平台上运行，平台基于TensorFlow、Caffe、CNTK、Keras、Theano等多种深度学习框架并可以部署在同一硬件环境，因此可以测试颈动脉医疗图像深度学习在不同深度学习框架上的准确率和效率。深度学习在语音、图像识别，自然语言处理等多个领
【AutoDL】使用云服务器跑深度学习代码知道的都知道不知道的慢慢了解服务器深度学习运维
一、AutoDL租用服务器1.选用服务器1.算力市场租用服务器，选择自己心仪的服务器2.镜像可以选择一些基础的镜像，社区镜像里是git上有的环境。3.上传文件在文件存储中，选择上传的区，在右边点击上传，选择自己的文件上传到云服务器中。二、配置环境1.准备工作1.进入终端vim~/.bashrc2.按i键进入编辑模式，到最下面输入sourceroot/miniconda3/etc/profile.d
机器学习深度学习代码逐行解读网站 IT北辰机器学习机器学习深度学习人工智能
机器学习深度学习代码逐行解读网站github地址：https://github.com/labmlai/annotated_deep_learning_paper_implementations视化网站：https://nn.labml.ai/
深度学习代码优化（Config，Registry，Hook） Yuezero_ 深度学习人工智能
社区开放麦#9|OpenMMLab模块化设计背后的功臣1.配置文件管理Config1.1早期配置参数加载早期深度学习项目的代码大多使用parse_args，在代码启动入口加载大量参数，不利于维护。常见的配置文件有3中格式：python、json、yaml格式的配置文件，推荐使用Yaml文件来配置训练参数。基本所有能影响你模型的因素，都被涵括在了这个文件里，而在代码中，你只需要用一个简单的yaml.
RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cuda:0 追忆苔上雪深度学习报错处理深度学习 RuntimeError Pytorch bug Debug
报错写一个深度学习代码的时候，发现一个报错：RuntimeError:Expectedalltensorstobeonthesamedevice,butfoundatleasttwodevices,cuda:0andcpu!错误的意思就是说，有的变量在CPU上处理，有的变量在GPU上处理查找报错原因并解决定位到报错位置，发现是如下代码mae+=torch.abs(predict.sum()-gt)
#deep_learning_month4_week1_Convolution_model_Application PerfectDemoT
deep_learning_month4_week1_Convolution_model_Application标签：机器学习深度学习代码已上传github:https://github.com/PerfectDemoT/my_deeplearning_homework[TOC]说明：这是month4_week1的第一个作业，这里用tensorflow构建了一个拥有两个卷基层，两个池化层，一个全连
github上下载的深度学习代码，为快速在jupyter notebook运行替换ArgumentParser定义的参数繁华落尽，寻一世真情 github 深度学习 jupyter
github上的参数代码一般是如下格式：if__name__=='__main__':parser=ArgumentParser()parser.add_argument("--test_dir",type=str,default="test",help='Directorycontainingthetestdata(musthavesubdirectorynoisy/)')parser.add_
深度学习代码怎么读-小白阶段性思路（以手写数字识别应用为例）是Yu欸笔记深度学习人工智能 python 论文阅读笔记经验分享论文笔记
深度学习代码怎么读-小白阶段性思路写在最前面原文目前思路学习资料读代码工具-chatgpt完善更新深度学习代码初尝试：小白的学习之路第一步：学习编程语言第二步：学习基础知识第三步：学习深度学习框架第四步：阅读示例代码第五步：调试和实验第六步：查阅文档和资源第七步：参与社区和讨论一个简单的深度学习代码案例（手写数字识别）分析数据加载和预处理神经网络模型的定义和损失函数、优化器的设置训练和评估部分总结
取Dataset子集(pytorch) 喝过期的拉菲 Python 深度学习机器学习 pytorch 人工智能 python
取Dataset子集--pytorch1.why2.how3.example1.why我们在调试深度学习代码时，常常会遇到数据集太大，导致调试浪费时间的情况，这种情况下，将数据集中的一个子集拿出来用于调试代码，调试成功在用完整的数据集运行代码成为一个可行的方案。2.howpytorch中Torch.utils.data.Subset()函数提供了一个简便的方式，函数如下，indices表示取子集中
深度学习笔记（1）——虚拟环境操作江清月近人。深度学习深度学习 python 人工智能
深度学习笔记（1）——虚拟环境操作提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加文章目录深度学习笔记（1）——虚拟环境操作前言一、虚拟环境是什么？二、虚拟环境管理及查看方法1.使用conda管理2.用pycharm创建虚拟环境总结前言深度学习代码需要运行在一个独立的环境中，环境中包含了代码所依赖的库。而这些库若安装在base环境中则会不方便管理。所以不同的项目需要创建不同的虚拟环
C++11新特性 Answer-3 C++技术类
程序员的自我修养_Will.zhang关注多核计算&高性能计算目录视图摘要视图订阅深度学习代码专栏攒课--我的学习我做主【hot】直播技术精选C++112013-03-1110:1811849人阅读评论(0)收藏举报分类：C++/C（26）目录(?)[+]C++11，先前被称作C++0x，即ISO/IEC14882:2011，是目前的C++编程语言的正式标准。它取代第二版标准ISO/IEC1488
Halcon深度学习-企业项目实战（核酸管外观缺陷检测） deep-bool 深度学习人工智能
Halcon深度学习-企业项目实战（核酸管外观缺陷检测）1、项目需求缺陷1：缺陷2：缺陷3：缺陷4：缺陷5：缺陷6：2、收集相关的缺陷图片：OK图片地址：NG图片地址：3、缺陷图片分析、标注图像：标注过程视频地址：标注文件地址：4、Halcon深度学习代码：总体代码5、训练结果展示：已训练模型下载：演示效果：6、C#引
跑深度学习代码时遇到cudagetdevice() failed. status: initialization error的解决方法 Filliplululu 深度学习人工智能
这是我入门深度学习的第八天。昨日在跑深度学习的人体行人检测技术的开源代码时运行出现了这个问题cudagetdevice()failed.status:initializationerror，调试了一整天没找到问题，最后通过恩师的指导下解决了错误，这篇文章写给自己记录学习过程，也希望能为遇到同样问题的人提供可能的解决方法。在跑代码时遇到了这个报错按照以往的CV经验，此时应该上网找解决方案，然而网上的
通用验证码识别无限识别 Marvel__Dead
背景最近在研究验证码图片识别，主要是字母+数字类型的验证码图片，找到了很多方法，但是大多都需要自己去通过深度学习自己训练，而且深度学习代码又看不懂。运气好，找到一个完整的深度学习代码能够去自己训练验证码图片识别，不需要看懂代码，直接拿来用，但是当遇到要识别验证码时，又需要时间去训练，训练出来识别率又不高。机缘巧合下，google到了一个验证码识别神器，而且是无限次数识别的。网址是：www.51le
运行深度学习代码时报错RuntimeError: CUDA out of memory. Tried to allocate 482.00 MiB 果子火火 python 深度学习 pytorch
在自己的电脑上运行Pointnet++（pytorch版本）时，6g显卡，batchsize设置成8报错尝试了https://blog.csdn.net/weixin_32393347/article/details/104395179的方法，仍然不行。最后只能将batchsize改为4，得以运行成功。
深度学习怎么跑代码？程序媛珂珂深度学习DL 深度学习 python 人工智能
深度学习怎么跑代码？从事深度学习的研究者都知道，深度学习代码需要设计海量的数据，需要很大很大很大的计算量，以至于CPU算不过来，需要通过GPU帮忙，今天怎么教大家免费使用GPU跑深度学习代码。深度学习怎么跑代码？Colabortory是一个jupyternotebook环境，它支持python2和python3，还包括TPU和GPU加速，该软件与Google云盘硬盘集成，用户可以轻松共享项目或将其
服务器上运行跑深度学习代码（一）书生丶丶深度学习服务器 python
文章目录重现论文里的代码更新服务器python版本程序提示torch找不到CUDA!!!文件中路径的选择batchsize的设置与程序的运行有关系？重现论文里的代码我准备复现的是Point2roof的代码。这是第一次复现论文代码，所以记录一下^_^。从GitHub找到他的项目point2roof项目。先把工程down下来^_^。看他工程里面提供的README。这篇里面提到他的数据集，我也顺便下载下
安装wandb出现的错误 killerii python 深度学习
项目场景：安装wandb库时遇到的问题在测试深度学习代码的时候，常会用到wandb库来检测我们所训练的模型，因而我们会去安装这个库但是：好用的东西不一定好装，比如我，安装时就遇到了很多的问题，接下来我们一步步分析，当然由于个人水平的问题，如有不足，请各位佬们批评指正。条件：anaconda+pycharm+windows系统**问题一:**安装wandb成功，但是wandblogin提示无效命令步
深度学习代码入门（一） DC妙妙屋深度学习
深度学习代码入门（一）陆陆续续看了《深度学习入门》，也看了一些代码，又必要开始写blog记录比较重要的学习代码了。计划：tf下keras的网络容器使用，自定义的网络层使用，以及使用不同网络来做training。
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本

强化学习：时间差分法代码（悬崖）

第0部分：探索CliffWalkingEnv

第1部分：TD预测-状态值

第2部分：TD控制-Sarsa

第3部分：TD控制-Q学习

第4部分：TD控制-预期Sarsa

你可能感兴趣的:(深度学习代码)