用Q-learning算法实现自动走迷宫机器人的方法示例

项目描述：

在该项目中，你将使用强化学习算法，实现一个自动走迷宫机器人。

如上图所示，智能机器人显示在右上角。在我们的迷宫中，有陷阱（红色×××）及终点（蓝色的目标点）两种情景。机器人要尽量避开陷阱、尽快到达目的地。

小车可执行的动作包括：向上走 u、向右走 r、向下走 d、向左走l。

执行不同的动作后，根据不同的情况会获得不同的奖励，具体而言，有以下几种情况。

撞到墙壁：-10
走到终点：50
走到陷阱：-30
其余情况：-0.1

我们需要通过修改 robot.py 中的代码，来实现一个 Q Learning 机器人，实现上述的目标。

Section 1 算法理解

1.1 强化学习总览

强化学习作为机器学习算法的一种，其模式也是让智能体在“训练”中学到“经验”，以实现给定的任务。但不同于监督学习与非监督学习，在强化学习的框架中，我们更侧重通过智能体与环境的交互来学习。通常在监督学习和非监督学习任务中，智能体往往需要通过给定的训练集，辅之以既定的训练目标（如最小化损失函数），通过给定的学习算法来实现这一目标。然而在强化学习中，智能体则是通过其与环境交互得到的奖励进行学习。这个环境可以是虚拟的（如虚拟的迷宫），也可以是真实的（自动驾驶汽车在真实道路上收集数据）。

在强化学习中有五个核心组成部分，它们分别是：环境（Environment）、智能体（Agent）、状态（State）、动作（Action）和奖励（Reward）。在某一时间节点t：

智能体在从环境中感知其所处的状态

智能体根据某些准则选择动作

环境根据智能体选择的动作，向智能体反馈奖励

通过合理的学习算法，智能体将在这样的问题设置下，成功学到一个在状态选择动作的策略。

1.2 计算Q值

在我们的项目中，我们要实现基于 Q-Learning 的强化学习算法。Q-Learning 是一个值迭代（Value Iteration）算法。与策略迭代（Policy Iteration）算法不同，值迭代算法会计算每个”状态“或是”状态-动作“的值（Value）或是效用（Utility），然后在执行动作的时候，会设法最大化这个值。因此，对每个状态值的准确估计，是我们值迭代算法的核心。通常我们会考虑最大化动作的长期奖励，即不仅考虑当前动作带来的奖励，还会考虑动作长远的奖励。

在 Q-Learning 算法中，我们把这个长期奖励记为 Q 值，我们会考虑每个 ”状态-动作“ 的 Q 值，具体而言，它的计算公式为：

也就是对于当前的“状态-动作” ，我们考虑执行动作后环境给我们的奖励，以及执行动作到达后，执行任意动作能够获得的最大的Q值，为折扣因子。

不过一般地，我们使用更为保守地更新 Q 表的方法，即引入松弛变量 alpha，按如下的公式进行更新，使得 Q 表的迭代变化更为平缓。

根据已知条件求。

已知：如上图，机器人位于 s1，行动为 u，行动获得的奖励与题目的默认设置相同。在 s2 中执行各动作的 Q 值为：u: -24，r: -13，d: -0.29、l: +40，γ取0.9。

1.3 如何选择动作

在强化学习中，「探索-利用」问题是非常重要的问题。具体来说，根据上面的定义，我们会尽可能地让机器人在每次选择最优的决策，来最大化长期奖励。但是这样做有如下的弊端：

在初步的学习中，我们的 Q 值会不准确，如果在这个时候都按照 Q 值来选择，那么会造成错误。
学习一段时间后，机器人的路线会相对固定，则机器人无法对环境进行有效的探索。

因此我们需要一种办法，来解决如上的问题，增加机器人的探索。由此我们考虑使用 epsilon-greedy 算法，即在小车选择动作的时候，以一部分的概率随机选择动作，以一部分的概率按照最优的 Q 值选择动作。同时，这个选择随机动作的概率应当随着训练的过程逐步减小。

在如下的代码块中，实现 epsilon-greedy 算法的逻辑，并运行测试代码。

import random 
import operator 

actions = ['u','r','d','l'] 
qline = {'u':1.2, 'r':-2.1, 'd':-24.5, 'l':27} 
epsilon = 0.3 # 以0.3的概率进行随机选择 

def choose_action(epsilon):     
  action = None 
   if random.uniform(0,1.0) <= epsilon: # 以某一概率 
    action = random.choice(actions)# 实现对动作的随机选择 
   else:  
     action = max(qline.items(), key=operator.itemgetter(1))[0] # 否则选择具有最大 Q 值的动作 
   return action

range(100): 

  res += choose_action(epsilon) 

print(res) 

res = '' 

for i in range(100): 

   res += choose_action(epsilon) 

print(res) 
 ldllrrllllrlldlldllllllllllddulldlllllldllllludlldllllluudllllllulllllllllllullullllllllldlulllllrlr

Section 2 代码实现

2.1 Maze 类理解

我们首先引入了迷宫类 Maze，这是一个非常强大的函数，它能够根据你的要求随机创建一个迷宫，或者根据指定的文件，读入一个迷宫地图信息。

使用 Maze("file_name") 根据指定文件创建迷宫，或者使用 Maze(maze_size=(height, width))来随机生成一个迷宫。
使用 trap number 参数，在创建迷宫的时候，设定迷宫中陷阱的数量。
直接键入迷宫变量的名字按回车，展示迷宫图像（如 g=Maze("xx.txt")，那么直接输入 g 即可。
建议生成的迷宫尺寸，长在 6~12 之间，宽在 10～12 之间。

在如下的代码块中，创建你的迷宫并展示。

from Maze import Maze 
%matplotlib inline 
%confer InlineBackend.figure_format = 'retina' 
  ## to-do: 创建迷宫并展示 
g=Maze(maze_size=(6,8), trap_number=1) 
g 
Maze of size (12, 12
)

你可能已经注意到，在迷宫中我们已经默认放置了一个机器人。实际上，我们为迷宫配置了相应的 API，来帮助机器人的移动与感知。其中你随后会使用的两个 API 为 maze.sense_robot() 及 maze.move_robot() 。

maze.sense_robot() 为一个无参数的函数，输出机器人在迷宫中目前的位置。
maze.move_robot(direction) 对输入的移动方向，移动机器人，并返回对应动作的奖励值。

随机移动机器人，并记录下获得的奖励，展示出机器人最后的位置。

rewards = []   
 ## 循环、随机移动机器人10次，记录下奖励 
for i in range(10): 
  res = g.move_robot(random. Choice(actions)) 
   rewards.append(res)   
 ## 输出机器人最后的位置 
print(g.sense_robot())   
## 打印迷宫，观察机器人位置 
g 

(0,9)

2.2 Robot 类实现

Robot 类是我们需要重点实现的部分。在这个类中，我们需要实现诸多功能，以使得我们成功实现一个强化学习智能体。总体来说，之前我们是人为地在环境中移动了机器人，但是现在通过实现 Robot 这个类，机器人将会自己移动。通过实现学习函数，Robot 类将会学习到如何选择最优的动作，并且更新强化学习中对应的参数。

首先 Robot 有多个输入，其中 alpha=0.5, gamma=0.9, epsilon0=0.5 表征强化学习相关的各个参数的默认值，这些在之前你已经了解到，Maze 应为机器人所在迷宫对象。

随后观察 Robot.update 函数，它指明了在每次执行动作时，Robot 需要执行的程序。按照这些程序，各个函数的功能也就明了了。

运行如下代码检查效果（记得将 maze 变量修改为你创建迷宫的变量名）。

import random 
import operator    

 class Robot(object):  

  def __init__(self, maze, alpha=0.5, gamma=0.9, epsilon0=0.5):  

     self. Maze = maze 
     self.valid_actions = self.maze.valid_actions 

     self.state = None 
     self.action = None   

     # Set Parameters of the Learning Robot 
     self.alpha = alpha 
     self.gamma = gamma  

     self.epsilon0 = epsilon0 
     self. Epsilon = epsilon0 
     self.t = 0  

     self.Qtable = {} 
     self. Reset()  

  def. reset(self): 
     """ 
         Reset the robot 
     """ 
     self.state = self.sense_state() 
     self.create_Qtable_line(self.state)  

  def. set status(self, learning=False, testing=False): 
     """ 
     Determine whether the robot is learning its q table, or 
     executing the testing procedure. 
     """ 
     self. Learning = learning 
     self.testing = testing   

   def. update_parameter(self): 
     """ 
     Some of the paramters of the q learning robot can be altered, 
     update these parameters when necessary. 
     """ 
     if self.testing: 
       # TODO 1. No random choice when testing 
      self. Epsilon = 0 
     else: 
       # TODO 2. Update parameters when learning 
       self. Epsilon *= 0.95   

    return self. Epsilon   

   def. sense_state(self): 
     """ 
     Get the current state of the robot. In this 
     """ 

      # TODO 3. Return robot's current state 
          return self.maze.sense_robot()  

   def. create_Qtable_line(self, state): 
    """ 
     Create the qtable with the current state 
    """ 
     # TODO 4. Create qtable with current state 
     # Our qtable should be a two level dict, 
     # Qtable[state] ={'u':xx, 'd':xx, ...} 
     # If Qtable[state] already exits, then do 
     # not change it. 
     self.Qtable.setdefault(state, {a: 0.0 for a in self.valid_actions})       
   def. choose_action(self): 
     """ 
    Return an action according to given rules 
     """   
     def. is_random_exploration():  

       # TODO 5. Return whether do random choice 
       # hint: generate a random number, and compare 
       # it with epsilon 
      return random.uniform(0, 1.0) <= self. Epsilon 

     if self. Learning: 
       if is_random_exploration(): 
        # TODO 6. Return random choose aciton 
         return random. Choice(self.valid_actions) 
       else: 
         # TODO 7. Return action with highest q value 
         return max(self.Qtable[self.state].items(), key=operator.itemgetter(1))[0] 
     elif self.testing: 
       # TODO 7. choose action with highest q value 
       return max(self.Qtable[self.state].items(), key=operator.itemgetter(1))[0] 
     else: 
       # TODO 6. Return random choose aciton 
      return random. Choice(self.valid_actions)   

  def. update_Qtable(self, r, action, next_state): 
     """ 
     Update the qtable according to the given rule. 
     """ 
     if self. Learning: 
       # TODO 8. When learning, update the q table according 
       # to the given rules 
      self.Qtable[self.state][action] = (1 - self.alpha) * self.Qtable[self.state][action] + self.alpha * ( 
             r + self.gamma * max(self.Qtable[next_state].values())) 

  def. update(self): 
       """ 
     Describle the procedure what to do when update the robot. 
    Called every time in every epoch in training or testing. 
     Return current action and reward. 
     """ 
     self.state = self.sense_state() # Get the current state 
     self.create_Qtable_line(self.state) # For the state, create q table line 

    action = self.choose_action() # choose action for this state 
     reward = self.maze.move_robot(action) # move robot for given action 

    next_state = self.sense_state() # get next state 
     self.create_Qtable_line(next_state) # create q table line for next state 

     if self. Learning and not self.testing: 
       self.update_Qtable(reward, action, next_state) # update q table 
      self.update_parameter() # update parameters   

    return action, reward 
 # from Robot import Robot 
 # g=Maze(maze_size=(6,12), trap_number=2) 
 g=Maze("test_world\maze_01.txt") 
 robot = Robot(g) # 记得将 maze 变量修改为你创建迷宫的变量名 
 robot.set_status(learning=True,testing=False) 
 print(robot.update())  

 g 
（'d', -0.1）
Maze of size (12, 12)

2.3 用 Runner 类训练 Robot

在完成了上述内容之后，我们就可以开始对我们 Robot 进行训练并调参了。我们准备了又一个非常棒的类 Runner ，来实现整个训练过程及可视化。使用如下的代码，你可以成功对机器人进行训练。并且你会在当前文件夹中生成一个名为 filename 的视频，记录了整个训练的过程。通过观察该视频，你能够发现训练过程中的问题，并且优化你的代码及参数。

尝试利用下列代码训练机器人，并进行调参。可选的参数包括：

训练参数
- 训练次数 epoch
机器人参数：
- epsilon0 (epsilon 初值)
- epsilon 衰减（可以是线性、指数衰减，可以调整衰减的速度），你需要在 Robot.py 中调整
- alpha
- gamma
迷宫参数:
- 迷宫大小
- 迷宫中陷阱的数量
可选的参数：
epoch = 20
epsilon0 = 0.5
alpha = 0.5
gamma = 0.9
maze_size = (6,8)
trap_number = 2

from Runner import Runner 

g = Maze(maze_size=maze_size,trap_number=trap_number) 
r = Robot(g,alpha=alpha, epsilon0=epsilon0, gamma=gamma) 
r.set_status(learning=True) 

 runner = Runner(r, g) 
runner.run_training(epoch, display_direction=True) 
 #runner.generate_movie(filename = "final1.mp4") # 你可以注释该行代码，加快运行速度，不过你就无法观察到视频了。 
 g

使用 runner.plot_results() 函数，能够打印机器人在训练过程中的一些参数信息。

Success Times 代表机器人在训练过程中成功的累计次数，这应当是一个累积递增的图像。
Accumulated Rewards 代表机器人在每次训练 epoch 中，获得的累积奖励的值，这应当是一个逐步递增的图像。
Running Times per Epoch 代表在每次训练 epoch 中，小车训练的次数（到达终点就会停止该 epoch 转入下次训练），这应当是一个逐步递减的图像。

使用 runner.plot_results() 输出训练结果

 runner.plot_results()

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持脚本之家。

基于kylin-v10安装docker 神奇侠2024 redis kylin 大数据 docker
1、下载地址Indexoflinux/static/stable/x86_64/2、下载docker-24.0.5.tgz.tar版本3、上传服务器解压tarxvfdocker-24.0.5.tgz.tar4、解压的docker拷贝或移动到/usr/bin/目录下cpdocker/*/usr/bin/5、编写docker.service文件加入Linux服务当中并开启守护进程vi/etc/syst
Android HAL服务注册与获取服务令狐掌门 Android开发笔记 android android aosp
HAL服务注册在AndroidHAL（硬件抽象层）开发中，当使用HIDL（硬件接口定义语言）定义接口时，生成的C++头文件会包含一个关键的registerAsService函数。该函数的作用是将HAL实现注册到系统服务管理器，使其他进程能够发现并调用该服务。以下是详细介绍：功能与作用服务注册：registerAsService用于将HAL接口的实现实例注册到Android的hwserviceman
fork客户端mac使用教程 xtyzmnchen fork
1:安装fork:https://git-fork.com/2:登录账户,gitlab或者github账户3:克隆:复制服务器地址clone到本地4:gitfetch：相当于是从远程获取最新版本到本地，不会自动mergegitfetchoriginmastergitlog-pmaster..origin/mastergitmergeorigin/master以上命令的含义：首先从远程的origin
python中strip的使用 ICER瞌睡虫
今天聊聊python去除字符串空格的函数：strip（）和replace（）1.strip():函数功能描述：Pythonstrip()方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。注意：该方法只能删除开头或是结尾的字符，不能删除中间部分的字符。格式：str.strip([char])。其中，str为待处理的字符，char指定去除的源字符串首尾的字符。返回结果：去除空格时候的新
基于python+django的家教预约网站-家教信息管理系统源码+运行步骤冷琴1996 Python系统设计 python django 开发语言
该系统是基于python+django开发的家教预约网站。是给师妹做的课程作业。大家在学习过程中，遇到问题可以在github给作者留言。共同学习进步哦效果演示前台地址：http://jiajiao.gitapp.cn后台地址：http://jiajiao.gitapp.cn/admin后台管理帐号：用户名：admin123密码：admin123源码地址https://github.com/geee
揭秘时空大数据：详细介绍、真实应用场景和数据示例解析陈书予 GIS开发（时空大数据）前端大数据 python 时序数据库
时空大数据(SpatialBigData)是指利用空间环境和时间环境信息，以及数字技术，从多种来源获取的海量、动态的、多维的数据，对空间环境和时间环境进行实时监测，并基于复杂的数据分析和挖掘，获取有价值的信息。时空大数据示例：1）社会网络数据：Twitter、Facebook、Instagram等社交媒体上的海量数据，可以通过时间、空间、主题等来提取有价值的信息。2）遥感图像数据：通过遥感技术从卫
(LeetCode 热题 100) 74. 搜索二维矩阵(二分查找) 岁忧 java版刷题 LeetCode 热题 100 LeetCode leetcode 矩阵算法 c++java
题目：74.搜索二维矩阵方法一：数组按行拼接为一个不下降的一维数组。采用二分查找，时间复杂度0(lognm)。C++版本：classSolution{public:boolsearchMatrix(vector>&matrix,inttarget){intn=matrix.size(),m=matrix[0].size();intl=0,r=n*m-1;while(ltarget){r=mid-1
剑指 Offer II 113. 课程顺序（中等图 bfs 拓扑排序数组哈希表）风雨中de宁静图搜索算法
剑指OfferII113.课程顺序现在总共有numCourses门课需要选，记为0到numCourses-1。给定一个数组prerequisites，它的每一个元素prerequisites[i]表示两门课程之间的先修顺序。例如prerequisites[i]=[ai,bi]表示想要学习课程ai，需要先完成课程bi。请根据给出的总课程数numCourses和表示先修顺序的prerequisites
一个完整的小项目案例，涉及到项目的规划，模块的设计功能的衔接等。 PyAIGCMaster 我的学习笔记学习
以下是一个基于分层架构和模块化设计的项目规划，使用Tkinter作为GUI框架，Playwright进行浏览器操作，SQLite作为数据库：项目结构```web_checker/├──__main__.py#程序入口├──config.py#配置管理├──gui/#图形界面模块│├──__init__.py│└──main_window.py├──services/#业务逻辑│├──__init_
1252. 奇数值单元格的数目 / 剑指 Offer II 113. 课程顺序彼淇梁力扣刷题记录算法 leetcode java 刷题记录
1252.奇数值单元格的数目【简单题】【每日一题】思路：【模拟】定义行数组rows和列数组cols，用来记录当前行的+1次数和当前列的+1次数，遍历indices数组用来给rows和cols赋值。定义奇数值单元格数目为ans，初值为0。那么遍历矩阵每个位置，如果当前行和当前列的+1次数和是奇数，则ans+1代码：classSolution{publicintoddCells(intm,intn,i
python strip函数用法_Python字符串函数strip()原理及用法详解 weixin_39944233 python strip函数用法
strip:用于移除字符串头尾指定的字符（默认为空格）或字符序列。注意：该方法只能删除开头或是结尾的字符，不能删除中间部分的字符。语法：str.strip([chars])str="*****thisis**string**example....wow!!!*****"print(str.strip('*'))#指定字符串*输出结果：thisis**string**example....wow!!
python中strip_python中的strip是什么意思 weixin_39613744 python中strip
Python中strip()方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。注意：该方法只能删除开头或是结尾的字符，不能删除中间部分的字符。它的函数原型：string.strip(s[,chars])，它返回的是字符串的副本，并删除前导和后缀字符。（意思就是你想去掉字符串里面的哪些字符，那么你就把这些字符当参数传入。此函数只会删除头和尾的字符，中间的不会删除。）如果strip()
LoadRunner 11 性能测试全面教程金融先生-Frank
本文还有配套的精品资源，点击获取简介：LoadRunner11（LR11）是HP开发的一款企业级性能测试工具，支持多应用程序类型的负载测试，用于性能评估、瓶颈识别和系统优化。教程详细介绍LR11的组件功能、脚本开发、场景设置、测试执行、结果分析、性能指标监测、故障诊断以及自动化测试等，提供从初级到高级的完整学习路径。1.LoadRunner11(LR11)功能概述LoadRunner11(LR11
mysql数据库应用与开发姜桂洪课后答案_清华大学出版社-图书详情-《MySQL数据库应用与开发》... 韦盛江课后答案
前言Oracle公司的MySQL是目前最流行的关系数据库管理系统之一。MySQL所使用的SQL语言是用于访问数据库的最常用标准化语言。MySQL数据库以其精巧灵活、运行速度快、经济适用性强、开放源码等优势，作为网站数据库获得许多中小型网站的开发公司的青睐。MySQL性能卓越，搭配PHP和Apache可组成良好的软件开发环境，并且已经大量部署到中小型企业和高校的教学平台。本书从教学实际需求出发，结合
python爬虫系列实例-python爬虫实例，一小时上手爬取淘宝评论(附代码) weixin_37988176
前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。1明确目的通过访问天猫的网站，先搜索对应的商品，然后爬取它的评论数据。可以作为设计前期的市场调研的数据，帮助很大。2爬取评论并储存（首先要进行登录，获取cookie）搜索你想收集的信息的评价，然后点开对应的产品图片。找到对应的评价的位置。找到对应的位置之后就可以进行数据的爬取了
Vue.js 中的 Memoization：提升性能的缓存技术 vvilkim vue vue.js 前端 javascript
在现代前端开发中，性能优化是一个永恒的话题。随着应用规模的增大，复杂的计算和频繁的函数调用可能会导致性能瓶颈。Vue.js作为一个流行的前端框架，提供了多种优化手段，其中memoization（记忆化）就是一种非常有效的技术。本文将详细介绍Vue.js中的memoization，以及如何利用它来提升应用性能。什么是Memoization？Memoization是一种优化技术，通过缓存函数的结果来避
Vue.js 性能优化：虚拟 DOM 与虚拟滚动 vvilkim vue vue.js 前端 javascript
在现代前端开发中，性能优化是一个永恒的话题。Vue.js作为一款流行的前端框架，提供了许多强大的工具和技术来提升应用的性能。其中，虚拟DOM和虚拟滚动是两个非常重要的概念。本文将深入探讨它们的原理、优势以及如何在Vue.js中使用它们来优化性能。什么是虚拟DOM？虚拟DOM（VirtualDOM）是Vue.js用于提升性能的核心技术之一。它是一个轻量级的JavaScript对象树，用于表示真实DO
CVPR2025 | 对抗样本&智能安全方向论文汇总 | 持续更新中~ 四口鲸鱼爱吃盐文献阅读安全 transformer 深度学习对抗样本神经网络视觉语言模型后门攻击
汇总结果来源：CVPR2025AcceptedPapers若文中出现的论文链接和GitHub链接点不开，则说明还未公布，在公布后笔者会及时添加.若笔者未及时添加，欢迎读者告知.文章根据题目关键词搜索，可能会有遗漏.若笔者出现遗漏，欢迎告知.部分文章还未公布正文，只有名称.MindtheGap：通过查询更新分析检测正在进行中的黑盒对抗攻击MindtheGap:DetectingBlack-boxAd
Leetcode 剑指 Offer II 032. 有效的变位词我不是程序员~~~~ C&C++leetcode 算法职场和发展
给定两个字符串s和t，编写一个函数来判断它们是不是一组变位词（字母异位词）。注意：若s和t中每个字符出现的次数都相同且字符顺序不完全相同，则称s和t互为变位词（字母异位词）。示例1:输入:s="anagram",t="nagaram"输出:true示例2:输入:
剑指 Offer II 061. 和最小的 k 个数对炫云云大数据算法和数据结构 leetcode 算法 python
剑指OfferII061.和最小的k个数对给定两个以升序排列的整数数组nums1和nums2,以及一个整数k。定义一对值(u,v)，其中第一个元素来自nums1，第二个元素来自nums2。请找到和最小的k个数对(u1,v1),(u2,v2)…(uk,vk)。示例1:输入:nums1=[1,7,11],nums2=[2,4,6],k=3输出:[1,2],[1,4],[1,6]解释:返回序列中的前3对
Java多线程与高并发专题——Callable 和 Runnable 的不同？黄雪超技术基础 java 开发语言并发编程
为什么需要Callable？Runnable的缺陷Runnable是JDK1.0就有的，而Callable是JDK1.5新增的，那我们为什么需要Callable？要想回答这个问题，我们先来看看先有的Runnable有哪些缺陷？不能返回一个返回值第一个缺陷，对于Runnable而言，它不能返回一个返回值，虽然可以利用其他的一些办法，比如在Runnable方法中写入日志文件或者修改某个共享的对象的办法
使用大语言模型API在AI应用中的实现 qq_37836323 人工智能语言模型自然语言处理 python
随着人工智能技术的迅速发展，大语言模型（LLM）在自然语言处理（NLP）领域的应用越来越广泛。本文将介绍如何使用大语言模型API来实现一些基础的AI应用，并提供一个简单的demo代码，帮助大家更好地理解和使用这些技术。大语言模型API简介大语言模型（如GPT-4）能够理解和生成类似人类的文本。这些模型可以应用于各种任务，包括文本生成、语言翻译、情感分析、对话系统等。为了方便国内用户访问这些强大的模
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
LeetCode146.LRU 缓存（哈希表+双向链表） techpupil 缓存散列表链表
请你设计并实现一个满足LRU(最近最少使用)缓存约束的数据结构。实现LRUCache类：LRUCache(intcapacity)以正整数作为容量capacity初始化LRU缓存intget(intkey)如果关键字key存在于缓存中，则返回关键字的值，否则返回-1。voidput(intkey,intvalue)如果关键字key已经存在，则变更其数据值value；如果不存在，则向缓存中插入该组k
python strip()函数牛也唱歌
strip函数原型声明：s为字符串，rm为要删除的字符序列.只能删除开头或是结尾的字符或是字符串。不能删除中间的字符或是字符串。s.strip(rm)删除s字符串中开头、结尾处，位于rm删除序列的字符s.lstrip(rm)删除s字符串中开头处，位于rm删除序列的字符s.rstrip(rm)删除s字符串中结尾处，位于rm删除序列的字符注意：1.当rm为空时，默认删除空白符（包括'\n','\r',
Vscode niuhe 插件使用教程 - xorm 代码生成诗意地回家 niuhe 插件 vscode ide 编辑器
官方教程已经上线,请访问:http://niuhe.zuxing.net本文相关项目:vue3-element-admin基于niuhe插件的管理后台模板niuhe-mdbookniuhe插件示例项目在日常开发中，新增数据库表时通常需要编写大量重复的增删改查代码。为提高开发效率，niuhe插件0.3.4版本新增Xorm基础代码生成功能，可自动生成：数据库表对应的Golang模型结构体基础CURD操
MySQL学习路线蜡笔小新星 MySQL 数据库 mysql 学习经验分享
本专栏纯干货订阅专栏不迷路以下是一个详细的MySQL学习路线，适合从初学者到中高级用户的逐步学习。整个路线分为几个阶段，每个阶段包含了必要的知识点和学习材料。第一阶段：基础知识（1-2周）目标：了解数据库的基本概念，熟悉MySQL的基本用法。学习内容：数据库基础什么是数据库、数据库管理系统（DBMS）数据库的类型（关系型数据库与非关系型数据库）SQL（结构化查询语言）概述MySQL入门MySQL的
用python执行js代码：PyExecJS库详解数据知道 2025年爬虫和逆向教程 python javascript 爬虫数据采集 nodejs
更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录1.介绍和安装1.1PyExecJS介绍1.2安装JavaScript运行时1.3安装PyExecJS2.PyExecJS的基本使用2.1执行简单的JavaScript代码2.2使用外部JavaScript文件2.3先编译、后调用2.4传递参数和获取返回值3.PyExecJS的高级功能3.1指定JavaScript运行时3.2处理异步JavaSc
响应式数据和 Pinia 状态肉肉不吃肉前端 vue.js pinia
响应式数据和Pinia状态是Vue.js应用中用于管理数据的两种重要机制，它们之间有密切的关系。以下是它们的定义、特点以及关系：1.响应式数据定义响应式数据是Vue.js的核心特性之一，指的是当数据发生变化时，视图会自动更新。Vue.js通过Proxy或Object.defineProperty实现数据的响应式。特点自动更新：当数据变化时，依赖该数据的视图会自动更新。声明式：开发者只需关注数据本身
Python中strip()函数详细讲解甯公子_ Python入门程序 python 开发语言算法
strip()是Python中字符串（str）对象的一个内置方法，用于去除字符串开头和结尾的空白字符（包括空格、换行符、制表符等）。它不会修改字符串中间的空白字符。语法str.strip([chars])str：需要处理的字符串。chars（可选）：指定要去除的字符集合。如果未指定，默认去除空白字符（包括空格、换行符\n、制表符\t等）。返回值返回一个新的字符串，去除了开头和结尾的指定字符。常见用
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他

用Q-learning算法实现自动走迷宫机器人的方法示例

你可能感兴趣的:(用Q-learning算法实现自动走迷宫机器人的方法示例)