zhugby

强化学习系列（二):Q learning算法简介及python实现Q learning求解TSP问题

一、什么是Q learning算法？

1.Q table

2.Q-learning算法伪代码

二、Q-Learning求解TSP的python实现

1）问题定义

2）创建TSP环境

3）定义 DeliveryQAgent类

4）定义每个episode下agent学习的过程

5) 定义训练的主函数

6）实验结果

1. 环境创建

2.实例化agent类

3.agent训练学习

一、什么是Q learning算法？

Q-learning算法非常适合新手入门理解强化学习，它是最容易编码和理解的。 Q-learning算法是一种model-free、off-policy/value_based的强化学习算法，即不考虑环境的特征，通过Q函数寻找最优的动作选择策略。Q值（action value function）计算的是当前状态下采取该动作的未来奖励期望，公式推导如下：

更多强化学习基本原理和概念见强化学习系列（一）：基本原理和概念

1.Q table

Q代表quality，即动作的质量。创建一个表格Q，将state-action-Q估计值存储进去，通过检索Q表，就能获取在当前state下选取各个action能够获得的未来奖励期望的估计值，Q-learning中最核心的就是不停更新Q表给出越来越好的近似。

2.Q-learning算法伪代码

步骤一：创建并初始化一个action-space*state space大小的Q表，一般初始化设置所有值为0；

步骤二：进入循环，直到达到迭代条件：

步骤三：检索Q表，在当前状态 s下根据Q的估计值和Policy选择一个action a；

步骤四：执行action a，检索Q表，转移到的状态对应的Q最大值加上该动作得到的实时奖励reward是状态 s价值的真实值；

步骤五：根据贝尔曼方程更新Q表。

那么，开始时Q值都为0，我们该怎么选择下一个动作呢？这个时候就体现Policy的重要性了，常见做法是引入一个参数 $\varepsilon$ ，取值在0-1之间， $\varepsilon$ 体现了探索/利用（exploration/exploitation）的权衡。 $\varepsilon$ 越大，随机性/探索性越强，通常初始情况下 $\varepsilon$ 接近或等于1随机选择下一个动作进行大量的探索；随着agent的不断学习，对Q的估计越来越准确，我们将逐渐减小 $\varepsilon$ 的值，更多依赖利用当前的Q值。

二、Q-Learning求解TSP的python实现

1）问题定义

旅行商问题（ TSP）是一个典型的优化问题，目的是找到访问各个城市的最短路线。要使用RL的方法解决TSP问题，就需要把TSP问题转化为RL问题，定义RL的各要素：

agent：送货人；

environment：要交付的商品和要访问的城市节点位置；

state：当前送货员所在的城市节点；

action：在每个节点要做出的决策，下一步去哪一个节点；

reward：实时的奖励，两个节点之间的距离多长。

RL的目标goal是使得reward的求和最大，即访问路线的距离最短。

2）创建TSP环境

在python中创建一个简单的TSP环境非常简单，指定城市节点数量，随机生成城市节点坐标；并计算不同城市间的距离作为reward值。python具体实现代码如下，创建了一个DeliveryEnvironment类，默认的城市节点数是10个，随机选择一个节点作为出发点，定义了一个画图的函数展示TSP的Environment。

#导入需要的包
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import os
import time
from tqdm import tqdm_notebook
from scipy.spatial.distance import cdist
import imageio
from matplotlib.patches import Rectangle
from matplotlib.collections import PatchCollection

plt.style.use("seaborn-dark")

import sys
sys.path.append("../")
from rl.agents.q_agent import QAgent 

class DeliveryEnvironment(object): #初始化环境
    def __init__(self,n_stops = 10,max_box = 10,method = "distance",**kwargs):

        print(f"Initialized Delivery Environment with {n_stops} random stops")
        print(f"Target metric for optimization is {method}")

        # 参数初始化
        self.n_stops = n_stops
        self.action_space = self.n_stops
        self.observation_space = self.n_stops
        self.max_box = max_box
        self.stops = []
        self.method = method

        # 产生城市节点
        self._generate_constraints(**kwargs)
        self._generate_stops()
        self._generate_q_values()
        self.render()

        # 初始化环境
        self.reset()
    

    def _generate_stops(self):  #产生城市节点
            # Generate geographical coordinates
            xy = np.random.rand(self.n_stops,2)*self.max_box  #产生客户点坐标
            self.x = xy[:,0]
            self.y = xy[:,1]

    def _generate_q_values(self,box_size = 0.2):  #计算不同节点之间的距离充当reward

        # Generate actual Q Values corresponding to time elapsed between two points
        if self.method in ["distance"]:
            xy = np.column_stack([self.x,self.y])
            self.q_stops = cdist(xy,xy) #计算距离矩阵充当reward
        else:
            raise Exception("Method not recognized")
        
    #画图的函数
    def render(self,return_img = False):
        
        fig = plt.figure(figsize=(7,7))
        ax = fig.add_subplot(111)
        ax.set_title("Delivery Stops")

        # Show stops
        ax.scatter(self.x,self.y,c = "red",s = 50)

        # Show START
        if len(self.stops)>0:
            xy = self._get_xy(initial = True)  #生成的第一个点作为start点，文本位置在xy[1]-0.05
            xytext = xy[0]+0.1,xy[1]-0.05
            ax.annotate("START",xy=xy,xytext=xytext,weight = "bold")

        # Show itinerary
        if len(self.stops) > 1:
            ax.plot(self.x[self.stops],self.y[self.stops],c = "blue",linewidth=1,linestyle="--")
            
            # 路径结尾要回到出发点
            xy = self._get_xy(initial = False)
            xytext = xy[0]+0.1,xy[1]-0.05
            ax.annotate("END",xy=xy,xytext=xytext,weight = "bold")


        if hasattr(self,"box"):
            left,bottom = self.box[0],self.box[2]
            width = self.box[1] - self.box[0]
            height = self.box[3] - self.box[2]
            rect = Rectangle((left,bottom), width, height)
            collection = PatchCollection([rect],facecolor = "red",alpha = 0.2)
            ax.add_collection(collection)


        plt.xticks([])
        plt.yticks([])
        
        if return_img:
            # From https://ndres.me/post/matplotlib-animated-gifs-easily/
            fig.canvas.draw_idle()
            image = np.frombuffer(fig.canvas.tostring_rgb(), dtype='uint8')
            image  = image.reshape(fig.canvas.get_width_height()[::-1] + (3,))
            plt.close()
            return image
        else:
            plt.show()
#重置进入下一轮迭代
    def reset(self):

        # Stops placeholder
        self.stops = []

        # Random first stop
        first_stop = np.random.randint(self.n_stops) #随机生成第一个初始节点
        self.stops.append(first_stop)

        return first_stop

#根据reward选择下一个动作
    def step(self,destination):

        # Get current state  得到当前的state
        state = self._get_state()
        new_state = destination

        # Get reward for such a move  每个action得到reward
        reward = self._get_reward(state,new_state)

        # Append new_state to stops  进入下一个state
        self.stops.append(destination)
        done = len(self.stops) == self.n_stops

        return new_state,reward,done
    
#得到当前状态 即当前到达的节点位置
    def _get_state(self):
        return self.stops[-1]

#得到每个坐标的X和Y值
    def _get_xy(self,initial = False):
        state = self.stops[0] if initial else self._get_state()
        x = self.x[state]
        y = self.y[state]
        return x,y

#定义reward函数
    def _get_reward(self,state,new_state):  #
        base_reward = self.q_stops[state,new_state] #base_reward是两个节点之间的距离

        if self.method == "distance":
            return base_reward

    @staticmethod
    def _calculate_point(x1,x2,y1,y2,x = None,y = None):

        if y1 == y2:
            return y1
        elif x1 == x2:
            return x1
        else:
            a = (y2-y1)/(x2-x1)
            b = y2 - a * x2

            if x is None:
                x = (y-b)/a
                return x
            elif y is None:
                y = a*x+b
                return y
            else:
                raise Exception("Provide x or y")

3）定义 DeliveryQAgent类

决定选择下一个节点的Policy，随机产生一个0-1之间的值，如果比 $\varepsilon$ 大，选择Q值最大的action，否则随机选择一个未访问过的节点去访问。

class DeliveryQAgent(QAgent):

    def __init__(self,*args,**kwargs):
        super().__init__(*args,**kwargs)
        self.reset_memory()

    def act(self,s):

        # Get Q Vector  copyq表
        q = np.copy(self.Q[s,:])

        # Avoid already visited states  屏蔽已经走过的节点 这个地方应该可以加约束条件起到mask一些节点的作用
        q[self.states_memory] = -np.inf

        if np.random.rand() > self.epsilon:
            a = np.argmax(q)
        else:
            a = np.random.choice([x for x in range(self.actions_size) if x not in self.states_memory])

        return a
    

    def remember_state(self,s):
        self.states_memory.append(s)

    def reset_memory(self):
        self.states_memory = []

4）定义每个episode下agent学习的过程

每一次迭代需要将环境reset到初始状态，随机选择一个节点作为初始节点，然后根据Policy不断去选择下一个节点并更新Q值。

#每一个episode学习的函数
def run_episode(env,agent,verbose = 1):

    s = env.reset()
    agent.reset_memory()

    max_step = env.n_stops
    
    episode_reward = 0
    
    i = 0
    while i < max_step:   #节点个数

        # Remember the states 存储已经走过的点
        agent.remember_state(s)

        # Choose an action 选择一个action
        a = agent.act(s)
        
        # Take the action, and get the reward from environment 得到一个reward
        s_next,r,done = env.step(a)

        # Tweak the reward  加负号最小化问题变成最大化问题
        r = -1 * r
        
        if verbose: print(s_next,r,done)
        
        # Update our knowledge in the Q-table  更新reward在Q表中
        agent.train(s,a,r,s_next)  
        
        # Update the caches  累加reward
        episode_reward += r  
        s = s_next
        
        # If the episode is terminated
        i += 1
        if done:
            break
            
    return env,agent,episode_reward

在导入的QAgent.py里定义了更新Q值的函数如下，也就是贝尔曼公式，通常epsilon_decay小于1，也就是随着学习的不断进行， $\varepsilon$ 的值在不断减小，探索性降低。

 
def train(self,s,a,r,s_next):
        self.Q[s,a] = self.Q[s,a] + self.lr * (r + self.gamma*np.max(self.Q[s_next,a]) - self.Q[s,a])

        if self.epsilon > self.epsilon_min:
            self.epsilon *= self.epsilon_decay

5)定义训练的主函数

并输出训练过程的动图及迭代训练过程中reward值得变化趋势。

#模型训练的函数
def run_n_episodes(env,agent,name="training.gif",n_episodes=1000,render_each=10,fps=10):  #训练1000次，10次画图一次

    # Store the rewards  存储下reward和图形
    rewards = []  
    imgs = []

    # Experience replay
    for i in tqdm_notebook(range(n_episodes)):

        # Run the episode 迭代学习
        env,agent,episode_reward = run_episode(env,agent,verbose = 0)
        rewards.append(episode_reward)
        
        if i % render_each == 0:
            img = env.render(return_img = True)
            imgs.append(img)

    # Show rewards  画出reward的变化趋势
    plt.figure(figsize = (15,3))
    plt.title("Rewards over training")
    plt.plot(rewards)
    plt.show()

    # Save imgs as gif
    imageio.mimsave(name,imgs,fps = fps)  #输出动图,fps是帧率（每秒播放的帧数）

    return env,agent

6）实验结果

调用以上定义的类和函数，现简单实现一个规模为500个旅行商的TSP问题。

1. 环境创建：

指定规模为500，选定衡量reward的方法是distance；

env = DeliveryEnvironment(n_stops = 500,method = "distance")  #随机生成500个节点

输出环境如下：

还可以通过在各个走过的节点之间画线可视化路径，距离画出路径的前几个点：

for i in [0,1,2,3]:  #画出接下来几步要走的路径
    env.step(i)
env.render()

2.实例化agent类

agent = DeliveryQAgent(env.observation_space,env.action_space)  #env.observation_space和action_space都是节点数

3.agent训练学习

默认迭代学习1000次，可以根据需求更改；记录训练的时间。

start=time.time()
run_n_episodes(env,agent,"training_500_stops.gif")   #训练1000次reward的变化趋势  前400次基本上是在随机选择一个节点行走，后面就用到了之前行走的经验，Q表中没有的就设置reward，有的就更新
end=time.time()
print('运行时间',end-start)

模型输出的reward变化趋势及运行时间如下:

前400次迭代，基本都在探索新的不同的路线，随机性很强；400次迭代往后，agent开始利用自己所学到的东西，越来越少的采取随机行动而是倾向于选择Q值最大的行动；800次左右开始基本收敛到一个可接受的路线。

迭代训练过程的动图也能反映出开始杂乱无章不断探索然后趋于收敛到一个可接受的路线。

Qt上位机编程命名规范-执行版有追求的菜鸟 qt 开发语言
主要规范原则参考Qt上位机编程命名规范。1.文件/文件夹大小写分析考虑跨平台性，全小写是一种约定俗成的风格，在许多大型开源项目中（如Linux内核、Python标准库）被广泛使用。1.1.配合文件扩展名通常文件名小写配合小写扩展名（如.h,.cpp,.json），使整体风格统一：main.cppconfig.jsonutils.h1.2.文件夹和pri文件命名通常小写、下划线分开：control_
通过Bokeh实现大规模数据可视化的最佳实践【从静态图表到实时更新】步入烟尘算法指南信息可视化 Bokeh python
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以
轻松帮你搞清楚Python爬虫数据可视化的流程 liuhaoran___ python
Python爬虫数据可视化的流程主要是通过网络爬取所需的数据，并利用相关的库将数据分析结果以图形化的方式展示出来，帮助用户更直观地理解数据背后的信息。Python爬虫+数据可视化步骤1.获取目标网站的数据使用`requests`或者`selenium`库从网页上抓取信息。对于动态加载内容的页面可以考虑结合JavaScript渲染引擎。2.解析HTML内容提取有用信息常见工具如BeautifulSo
python使用Bokeh库实现实时数据的可视化 Oona_01 python 信息可视化数据分析
Python语言以其丰富的数据科学生态系统而闻名,其中Bokeh库作为一种功能强大的可视化工具,为实时数据的可视化提供了优秀的支持,本文将介绍如何使用Bokeh库实现实时数据的可视化,并提供相关代码实例,需要的朋友可以参考下使用Python的Bokeh库进行实时数据可视化的实现Bokeh简介实时数据可视化的需求使用Bokeh实现实时数据可视化的步骤代码示例Bokeh的进阶应用总结使用Python的
Python解决“特定数组的逆序拼接”问题啥都鼓捣的小yao 经典算法练习 python 算法开发语言
Python解决“特定数组的逆序拼接”问题问题描述测试样例解决思路代码问题描述小U得到了一个数字n，他的任务是构造一个特定数组。这个数组的构造规则是：对于每个i从1到n，将数字n到i逆序拼接，直到i等于n为止。最终，输出这个拼接后的数组。例如，当n等于3时，拼接后的数组是[3,2,1,3,2,3]。测试样例样例1：输入：n=3输出：[3,2,1,3,2,3]样例2：输入：n=4输出：[4,3,2,
Python用Bokeh处理大规模数据可视化的最佳实践一键难忘 Bokeh python 开发语言
用Bokeh处理大规模数据可视化的最佳实践在大规模数据处理和分析中，数据可视化是一个至关重要的环节。Bokeh是一个在Python生态中广泛使用的交互式数据可视化库，它具有强大的可扩展性和灵活性。本文将介绍如何使用Bokeh处理大规模数据可视化，并提供一些最佳实践和代码实例，帮助你高效地展示大数据集中的重要信息。1.为什么选择Bokeh？Bokeh是一个专为浏览器呈现而设计的可视化库，它支持高效渲
Python 爬虫实战：社交媒体品牌反馈数据抓取与舆情分析西攻城狮北 python 爬虫媒体
一、引言在当今数字化时代，社交媒体已成为公众表达意见、分享信息的重要渠道。品牌的声誉和市场表现往往受到消费者在社交平台上的反馈和评价的影响，因此品牌舆情分析变得至关重要。本文将介绍如何使用爬虫技术爬取社交媒体上的品牌反馈数据，并通过数据分析技术，分析品牌的舆情动态。二、环境准备在开始之前，确保你的开发环境已经安装了以下必要的Python库：requests:用于发送HTTP请求。beautiful
Python预训练模型实现俄语音频转文字啥都鼓捣的小yao 人工智能 python 音视频人工智能
Python预训练模型实现俄语音频转文字使用CommonVoice8.0、Golos和MultilingualTEDx的训练和验证分割对俄语的facebook/wav2vec2-xls-r-1b进行了微调。使用此模型时，请确保您的语音输入以16kHz采样。我们只需要装好三个功能包，写好你的文件路径即可使用！importtorchimportlibrosafromtransformersimport
蓝桥杯——算法训练——粘木棍大柠丶蓝桥杯蓝桥杯算法职场和发展
问题描述有N根木棍，需要将其粘贴成M个长木棍，使得最长的和最短的的差距最小。输入格式第一行两个整数N,M。一行N个整数，表示木棍的长度。输出格式一行一个整数，表示最小的差距样例输入32102040样例输出10数据规模和约定N,M<=7packagecom.study.蓝桥杯.算法训练;importjava.util.Arrays;importjava.util.Scanner;/***@autho
蓝桥杯——算法训练——共线大柠丶蓝桥杯蓝桥杯算法职场和发展
问题描述给定2维平面上n个整点的坐标，一条直线最多能过几个点？输入格式第一行一个整数n表示点的个数以下n行，每行2个整数分别表示每个点的x,y坐标。输出格式输出一个整数表示答案。样例输入50011220323样例输出3数据规模和约定n<=1500，数据保证不会存在2个相同的点。点坐标在int范围内importjava.util.Scanner;/***@authorsjn*@date2022-2-
基于Python编程语言实现“机器学习”，用于车牌识别项目我的sun&shine Python python 机器学习计算机视觉
基于Python的验证码识别研究与实现1.摘要验证码的主要目的是区分人类和计算机，用来防止自动化脚本程序对网站的一些恶意行为，目前绝大部分网站都利用验证码来阻止恶意脚本程序的入侵。验证码的自动识别对于减少自动登录时长，识别难以识别的验证码图片有着重要的作用。对验证码图像进行灰度化、二值化、去离散噪声、字符分割、归一化、特征提取、训练和字符识别等过程可以实现验证码自动识别。首先将原图片进行灰度化处理
6.8:Python如何处理文件写入时出现的错误？小兔子平安 Python完整学习全解答 java windows html
Python是一种功能强大且易于学习的编程语言，已经成为了当今最流行的编程语言之一。随着Python应用领域的不断扩大，越来越多的人开始学习Python，希望能够掌握这个有用的工具，从而实现更多的创意和创新。而文件操作是Python编程中不可或缺的一部分，对于处理文件写入时的错误更是必须掌握的技能。本文主要介绍如何处理Python中文件写入时的错误。我们将详细讲解如何使用try-except语句、
Python3包开发的高效Cookiecutter模板：python-package-template 一只爪子
本文还有配套的精品资源，点击获取简介：本文介绍了一个名为python-package-template的Cookiecutter模板，用于简化Python包的开发过程。该模板遵循Python的最佳实践，并自动创建项目结构，包括setup.py、MANIFEST.in、LICENSE、README.md、.gitignore、requirements.txt、测试配置文件、CI配置文件、测试目录和文
python列表操作计算列表长度并输出,Python基础2：列表想吃草莓干
一、列表列表是按照特定顺序的排列组合，就像数学中的数列，列表中的元素具有⼀定的排列顺序。在Python中，列表用方括号[]来表示列表，比如：>>>a=['Python','C','Java']1、访问列表中的元素索引开始：0如果我们想要打印上述列表中Python，就需要我们访问列表中第一个元素，在Python中，列表的访问从0开始，索引数为元素的位置减去1，访问的元素位置放在方括号里面，如果我们想
Python项目自动化模板构建：深入理解Cookiecutter TEDDYYW
本文还有配套的精品资源，点击获取简介：Python项目的标准化构建过程对于代码的整洁和可维护性至关重要。本文将深入探讨如何利用"cookiecutter"这一Python命令行工具自动化项目的初始化过程。Cookiecutter通过读取预定义模板并根据用户输入自动生成项目结构，简化了项目设置。我们将详细了解"cookiecutter-python-master"模板的组成，包括标准项目结构、初始化
多阶段构建实现 Docker 加速与体积减小：含文件查看、上传及拷贝功能的 FastAPI 应用镜像构建九不多 Docker docker fastapi python YOLO
本文围绕使用Docker构建FastAPI应用镜像展开，着重介绍了多阶段构建的Dockerfile编写及相关操作。借助多阶段构建，不仅实现了Docker构建的加速，还有效减小了镜像体积。1.Dockerfile内容以下是我们要使用的Dockerfile内容：#第一个阶段-构建应用FROMdocker.1ms.run/python:3.9ASbuilder#设置工作目录WORKDIR/app#复制依
Python列表的创建只是没遇到 python
Python3列表序列是Python中最基本的数据结构。序列中的每个值都有对应的位置值，称之为索引，第一个索引是0，第二个索引是1，依此类推。Python有6个序列的内置类型，但最常见的是列表和元组。列表都可以进行的操作包括索引，切片，加，乘，检查成员。此外，Python已经内置确定序列的长度以及确定最大和最小的元素的方法。列表是最常用的Python数据类型，它可以作为一个方括号内的逗号分隔值出现
BM25S 项目安装和配置指南陆汝涓Marissa
BM25S项目安装和配置指南bm25sBM25Sisanultra-fastlexicalsearchlibrarythatimplementsBM25usingscipy项目地址:https://gitcode.com/gh_mirrors/bm/bm25s1.项目基础介绍和主要编程语言BM25S是一个快速实现BM25算法的开源项目，主要用于文本检索任务。BM25是一种广泛使用的排名函数，常用于
Python最佳实践项目Cookiecutter常见问题解决方案柯茵沙
Python最佳实践项目Cookiecutter常见问题解决方案python-best-practices-cookiecutterPythonbestpracticesprojectcookiecutter项目地址:https://gitcode.com/gh_mirrors/py/python-best-practices-cookiecutter项目基础介绍本项目是一个Python最佳实践的
Vision mamba(mamba_ssm)安装踩坑指南 ggitjcg 深度学习 python
在这篇博客中，我将分享我在linux环境安装和使用VisionMamba（mamba_ssm）过程中遇到的一些问题和解决方法。前置检查：PyTorch和Python版本在安装mamba_ssm前，请确保你的PyTorch和Python环境版本正确。以下代码可用来检查环境信息：importtorchprint("PyTorchVersion:{}".format(torch.__version__)
探秘 Cookiecutter：一个高效项目模板生成器尤琦珺Bess
探秘Cookiecutter：一个高效项目模板生成器cookiecutter项目地址:https://gitcode.com/gh_mirrors/coo/cookiecutter如果你是一位热衷于Python开发的程序员，或者你经常需要初始化新的项目，那么你可能会对感兴趣。这是一个强大的工具，它能够根据预定义的模板快速生成项目结构，极大地提高了开发效率。项目简介Cookiecutter是一个命令
Mac【卸载 Python】 - 3.12.2 Stongtang Python macos python
一、若使用官方安装包安装1.删除Python框架Python官方安装包会将Python安装到/Library/Frameworks/Python.framework/Versions/3.12目录下。你可以在终端中使用以下命令删除该目录：sudorm-rf/Library/Frameworks/Python.framework/Versions/3.12执行此命令时，系统会要求你输入管理员密码，输
Ubuntu和Windows系统之Mamba_ssm安装 Netceor Python ubuntu windows linux
Mamba的论文：https://arxiv.org/abs/2312.00752Mamba的github：https://github.com/state-spaces/mamba一、Ubuntu安装直接新建一个环境是最好的，不然很容易产生各种冲突#创建环境和相关包condacreate-nmambapython=3.10.13condaactivatemambacondainstallcuda
Python, C ++开发工厂管理APP Geeker-2025 python c++
开发一款通用的**工厂管理App**，结合Python和C++的优势，可以实现高效的后端数据处理、实时的生产监控以及用户友好的前端界面。以下是一个详细的开发方案，涵盖技术选型、功能模块、开发步骤等内容。##技术选型###后端（Python）-**编程语言**：Python-**Web框架**：Django或Flask-**数据库**：PostgreSQL或MySQL-**实时通信**：WebSoc
Python列表1 cfjybgkmf Python python 开发语言
#coding:utf-8print("————————————列表——————————————")'''列表是指一系列按照特定顺序排列的元素组成是Python中内置的可变序列使用[]定义列表，元素与元素之间使用英文的逗号分隔列表中的元素可以是任意的数据类型''''''列表的创建：（1）使用[]直接创建列表列表名=[element1,element2,...,elementN]（2）使用内置函数l
怎样才能把网页数据保存到网络上？ 2301_79698214 html javascript java 前端 html5
要将网页数据存放到网络中，一般可以通过以下几种常见的方式：1.使用后端服务器自建服务器：你可以搭建自己的服务器，例如使用Node.js的Express框架或者Python的Flask、Django框架。以下是一个使用Flask框架存储数据到服务器的简单示例：pythonApplyfromflaskimportFlask,requestapp=Flask(__name__)@app.route('/
Python列表2 cfjybgkmf Python python 开发语言
print("——————————列表的相关操作————————————")'''lst.append('x')在列表lst最后增加一个元素lst.insert(index,'x')在列表中第index位置增加一个元素lst.clear()清除列表lst中所有元素lst.pop(index)将列表lst中第index位置的元素取出，并从列表中将其删除lst.remove('x')将列表lst中出现
深入了解 Cookiecutter：Python 项目模板的强大工具 boringhex.top python 开源 python 开发语言
在软件开发过程中，创建新的项目往往需要重复执行一系列繁琐的步骤，尤其是在设置项目结构、配置文件和依赖方面。Cookiecutter是一个开源的命令行工具，旨在帮助开发者快速生成项目模板，从而提高开发效率。本文将深入探讨Cookiecutter的功能、工作原理、常见用法以及一些最佳实践。什么是Cookiecutter？Cookiecutter是一个用于创建项目模板的工具，支持多种语言和框架。它允许开
pyqt5报错：qt.qpa.plugin: Could not find the Qt platform plugin “xcb“（已解决）一问三不知_ 计算机知识 qt 开发语言 ubuntu bug conda python
我在使用pyqt库的时候报错：qt.qpa.plugin:CouldnotloadtheQtplatformplugin"xcb"in\"/mnt/private_disk/anaconda3/envs/aot-manip/lib/python3.8/site-packages/PyQt5/Qt5/plugins/platforms"eventhoughitwasfound.Thisapplica
Python程序设计（入门） xyyykx python 开发语言
目录一丶Python概述二丶Python数据类型三丶常用的进制四丶字符串型五丶程序控制结构六丶组合数据类型一丶Python概述Python是一种高级编程语言，由GuidovanRossum于1991年开发并发布。它具有简洁、易读、易学的语法特点，被广泛应用于多个领域，包括软件开发、数据科学、人工智能、网络编程等。以下是Python的一些主要特点和优势：简单易学：Python的语法简洁明了，易于理解
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt

强化学习系列（二):Q learning算法简介及python实现Q learning求解TSP问题

一、什么是Q learning算法？

1.Q table

2.Q-learning算法伪代码

二、Q-Learning求解TSP的python实现

1）问题定义

2）创建TSP环境

3）定义 DeliveryQAgent类

4）定义每个episode下agent学习的过程

5)定义训练的主函数

6）实验结果

1. 环境创建：

2.实例化agent类

3.agent训练学习

你可能感兴趣的:(强化学习,经验积累,python,python,经验分享,算法)