百度大脑

Flappy Paddle现身江湖！使用强化学习DQN让你划船划到停不下来

【飞桨开发者说】韩磊，台湾清华大学资讯工程学系硕士，现创业公司算法工程师，百度强化学习7日营学员

强化学习7日打卡营AI Studio课程主页：

https://aistudio.baidu.com/aistudio/course/introduce/1335

B站课程链接：

https://www.bilibili.com/video/BV1yv411i7xd

《Flappy Bird》相信大家都玩过或者看过，这款游戏在2014年火遍全球。其操作非常简单，只需要点击屏幕，让主角小鸟顺利地穿过水管之间的缝隙而不碰触任何障碍物。小鸟穿过的水管越多，得到的分数也就越高。

今天我们也来玩一玩这个游戏，不过我们使用强化学习的算法来让主角小鸟自己学会穿过水管躲避障碍，进而魔改环境，制作特殊的三人环境，让游戏进阶为《Flappy Paddle》。别愣着，看下去，看完我们一起划船。

学习这篇文章，你可以做出下面视频中的效果。这里在红黑两支队伍被淘汰之后，结束了录制。因为蓝色的算法可以跑很久，这里只是作为展示，所以没有继续录下去。

飞桨有众多方便好用的开发工具套件，其中PARL就是在强化学习方向的一个高性能、灵活的框架，目前已经在Github上开源。PARL支持大规模并行计算，同样提供了算法的可复现性保证。PARL的框架逻辑清晰，容易上手，从Model到Algorithm再到Agent，逐步构建智能体。同时PARL也提供了一些经典的强化学习算法代码示例，如PG、DDPG、A2C等，方便开发者的调研和验证。不仅如此，PARL还提供了比较完善的算法基类，这使得PARL的扩展性也很好，开发更为轻松快捷。

在我们这个项目中，使用的就是PARL这个开发工具套件。PARL的仓库，针对很多经典的强化学习方法也提供了对应的例子。本项目使用的DQN方法，也是在PARL的实现上的变化。

环境解析

对于强化学习问题，一般是智能体(Agent)和环境(Environment)的一个交互问题。智能体需要对环境或部分环境做出观测(Observation)，并根据环境做出动作(Action)，而环境对这个动作做出奖惩(Reward)。

我们从《Flappy Bird》这个小游戏开始。我们使用PyGame-Learning-Environment这个环境，你可以在Github上轻松的找到这个仓库。下面来分析一下上述的几个元素。

对于观测值，我们可以通过getGameState函数得到一个观测字典，其中包含了8个字段，包括了玩家（游戏里是一个小鸟）的坐标信息、速度信息、玩家距离下一水管和再下一根水管的位置信息。当然你也可以直接使用getScreenRGB函数得到画面，并以它为观测值。这里为了简单操作，我们以观测字典为例。同时，我们也能发现这个观测值是连续的。
对于动作，我们可以通过getActionSet函数得到环境所支持的动作。在《Flappy Bird》这个游戏里，只有两个动作：1、点击屏幕让小鸟展翅高飞，2、什么都不做让小鸟自由滑翔。由此我们可以知道环境接受的动作是离散有限的。
在奖惩方面，环境是这样定义：reward = 当前帧的总分 - 前一帧的总分。总分的变化有两种情况：1、玩家通过管子，得一分。2、玩家撞天花板、地板，管子则游戏失败，扣五分。

算法选择

前一小节中，我们发现环境的观测是连续的，环境接受的动作是离散有限的。对于这种情况，可以选用Deep Q-Network（以下简称DQN）或是Policy Gradient（以下简称PG）。DQN作为查表法的扩展，把观测值从有限离散扩展到了连续空间，PG也有处理连续空间观测值的能力。两者的区别在于，DQN对观测值对应的每个动作计算Q值，并选择相应的动作；而PG则直接给出动作，省略了中间步骤。

那在这个任务中应该选择DQN还是PG呢？笔者两者都尝试了，而DQN可以轻松的训练出不错的效果，而PG却不能。我觉得可以从以下角度分析。DQN针对每一个观测的每一个动作做出评价，也就是说每一个动作都会有其价值。而在训练PG的时候，需要先跑完一个episode，然后将奖惩回传到这局游戏中的每一个动作上。

对于这个过程中的每一个动作，在这个任务中这种回传不是一个好的反馈方法。举一个例子：现在玩家在第五根管子前，真正影响面对第五根管子时动作的，是经过第四根管子之后的动作（以及第五根第六根的管子的位置，这属于观测值）。而更早之前的经过第一根、第二根、第三根管子的动作是不影响经过第五根管子的，那么这个奖惩回传的方法在这个任务中就很有问题。

搭建DQN及训练

这里再简单的介绍一下DQN。DQN作为Q-learning在连续观测值上的扩展，使用网络来代替传统的表格，增加了泛化的能力。DQN的训练和Q-learning一样，不断的让Q(s,a)逼近TargetQ=r+γmaxQ(s’,*)。这里利用的是神经网络的拟合能力。由于TargetQ在不断变化，DQN中使用了固定Q目标的方法，让算法更新更为平稳。除此之外，DQN中还使用了经验池的方法，提高了样本的利用率。同时这一机制也可以用来打散数据，消除样本之间的关联性。

鉴于PARL清晰的框架结构和完整的基类，我们构建Agent也更加容易。按照先model，再Algorithm，最后定义Agent的步骤来。这个项目的代码都是基于PARL中的DQN的例子的。

这里附上样例链接：

https://github.com/PaddlePaddle/PARL/tree/develop/examples/DQN

首先我们简单地设计一个包含三个隐层的网络，在PARL中的model需要继承parl.Model这样的基类。

class Model(parl.Model):
    def __init__(self, act_dim):
        hid0_size = 64
        hid1_size = 32
        hid2_size = 16
        self.fc0 = layers.fc(size=hid0_size, act='relu', name="fc0")
        self.fc1 = layers.fc(size=hid1_size, act='relu', name="fc1")
        self.fc2 = layers.fc(size=hid2_size, act='relu', name="fc2")
        self.fc3 = layers.fc(size=act_dim, act=None, name="fc3")

    def value(self, obs):
        h0 = self.fc0(obs)
        h1 = self.fc1(h0)
        h2 = self.fc2(h1)
        Q = self.fc3(h2)
        return Q

有一点动态图构建模型的感觉是不是？所以在模型方面你可以有更多的想法和设计，例如我还设计了以下这种模型：

class catModel(parl.Model):
    def __init__(self, act_dim):
        hid0_size = 64
        hid1_size = 32
        hid2_size = 16

        self.fc0 = layers.fc(size=hid0_size, act='relu', name="catfc0")
        self.fc1 = layers.fc(size=hid1_size, act='relu', name="catfc1")
        self.fc2 = layers.fc(size=hid2_size, act='relu', name="catfc2")
        self.fc3 = layers.fc(size=act_dim, act=None, name="catfc3")

    def value(self, last_obs, obs):
        oobs = fluid.layers.concat(input=[last_obs, obs], axis=-1, name='concat')
        h0 = self.fc0(oobs)
        h1 = self.fc1(h0)
        h2 = self.fc2(h1)
        Q = self.fc3(h2)
        return Q

可以看出来，这里是将last_obs和obs直接concat到一起作为全连接层的输入。这里的last_obs，是上一帧的观测值，obs是当前帧的观测值。也许这种模型的效果并不会更好，但仍是一个值得尝试的想法。

接下来是algorithm，PARL中已有DQN的实现，我们直接使用PARL中提供的DQN类。像样例中一样，我们直接import算法就可以。

from parl.algorithms import DQN

当然这种写法并不适合于我刚才的第二种做法，因为第二种方法的value函数，接受的是last_obs, obs两个参数。所以这里你可以继承基类DQN或是直接重构一个。放心，有了PARL提供的样例，这个过程会非常的简单。基本上重写predict和learn两个成员函数就好。这两个函数也是之后“暴露”给Agent使用的。

predict函数用来拿到模型的输出，也就是所谓的Q值。而learn函数则是根据模型的输出和Agent拿到的经验数据去构建模型的cost，并使用优化器来最小化它，从而达到训练模型的目的。

最后是Agent，如果你使用的是我刚才第一种model，那么你可以直接使用样例中Agent的定义，但如果你使用了第二种，那当然也要修改对应的build_program、sample、predict、learn几个成员函数以能够成功的构建模型并调用Algorithm定义的函数。

接下来就可以训练我们的模型了，大概几百个episode之后，我们的Agent就能够拿到正的分数（其实这个时候，分值已经超过5分了）

修改贴图资源，制作三人环境

现在让我们来划船吧，其实最简单的就是替换一下贴图资源，在PyGame-Learning-Environment

/ple/games/flappybird/assets文件夹中。把这个小bird换成我们的划船选手~

但是一个队伍划船总有一些孤单，能不能让多个Agent在同一环境下一起“比赛”呢？与其说把环境写“死”，每次读取来评判不同的Agent，不如就让他们在同一环境下一起出发，这种方式更加直观。

这个地方需要修改的是PyGame-Learning-Environment/ple/games/flappybird下的__init__.py文件，这个文件中定义了整个游戏的逻辑。

这里就不更具体的说了，因为涉及的更多的是pygame的知识。__init__.py中需要修改的地方大概有：

初始化定义三个player。
为每个player添加score和live属性及每个player对应的得分和死亡处理，以及游戏的score和结束条件。
设计新的actionset，以能接受三个输入（实际上是一个输入包含三个Agent的三个action）。
设计新的observation。在此之前只返回一个观测值，但现在要针对每个player返回其对应的观测值。
图像绘制。在原来的基础上多绘制两个player。

在仓库中提供了修改好了__init__.py以及图像资源，提供了一些设计环境的想法。

成果

结果已经展示在文章的开篇视频中。这里训练了三个模型，两个隐层的模型，拿到了均分147分；拼接的模型，拿到了157分，而三个隐层的模型，则拿到了2000分左右的平均成绩。当然，针对不同的参数量的模型应该有对应的学习率等超参数层面的调整，这里仅是为了展示，并没有在这方面做更多的探索和优化。

总结

那么在哪里能学到以上酷炫又有趣的知识呢？AI Studio上现有一门课程:《强化学习7日打卡营-世界冠军带你从零实践》，通过学习，你可以对强化学习有一个初步的了解，学到Q-learning、Sarsa、DQN、Policy Gradient等。几个清晰有趣的案例和作业，在充满趣味的同时，加强对算法和代码实现的理解。当然，也可以和我一样扩展思路，魔改环境，开发更多有趣又有技术的项目。

视频预览 :

https://www.bilibili.com/video/BV1KV411674k

AI Studio项目链接 :

https://aistudio.baidu.com/aistudio/projectdetail/609617

百度AI Studio课程平台

扫码加入课程，即可观看《世界冠军带你从零实践强化学习》的完整课节内容，动手实践案例和代码，遇到作业问题还可以到讨论区寻找答案。

最后，别忘了加入微信学习群，风里雨里我们在群里等你~

如在使用过程中有问题，可加入飞桨官方QQ群进行交流：1108045677。

如果您想详细了解更多飞桨的相关内容，请参阅以下文档。

官网地址：

https://www.paddlepaddle.org.cn

飞桨开源框架项目地址：

GitHub:

https://github.com/PaddlePaddle/Paddle

Gitee:

https://gitee.com/paddlepaddle/Paddle

飞桨生成对抗网络项目地址：

GitHub:

https://github.com/PaddlePaddle/PARL

Gitee:

https://gitee.com/paddlepaddle/PARL

END

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
从鸡肉高汤到记忆的魔法再到有效提示的艺术步子哥人工智能
还记得小时候那些天马行空的白日梦吗？也许只要按下键盘上的某个神奇组合，电脑就会发出滴滴的声响，一个隐藏的世界突然在你眼前展开，让你获得超凡的能力，摆脱平凡的生活。这听起来像是玩过太多电子游戏的幻想，但实际上，间隔重复系统给人的感觉惊人地相似。在最佳状态下，这些系统就像魔法一样神奇。本文将以一个看似平凡的鸡肉高汤食谱为例，深入浅出地探讨如何编写有效的间隔重复提示，让你像掌握烹饪技巧一样轻松地掌握记忆
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
2019-08-08 65454
东莞家庭聚会出行旅游去哪里玩住？想起来有很久没有和家里人聚会啦，这次组织家人来到威廉古堡别墅轰趴，一大家子27个人，在别墅订了一天办，玩的非常的开心，小孩子玩游戏机，也很放心不会丢，我们就在唱歌、打麻将、打桌球一系列的活动，还准备小次等小孩生日在别墅举办，还可以给孩子做一个生日的策划
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
C语言判断回文数 Y雨何时停T c语言学习
一，回文数概念“回文”是指正读反读都能读通的句子，它是古今中外都有的一种修辞方式和文字游戏，如“我为人人，人人为我”等。在数学中也有这样一类数字有这样的特征，成为回文数。设n是一任意自然数。若将n的各位数字反向排列所得自然数n1与n相等，则称n为一回文数。例如，若n=1234321，则称n为一回文数；但若n=1234567，则n不是回文数。二，判断回文数实现思路一：数组与字符串将数字每一位按顺序放
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
用Python实现简单的猜数字游戏程序媛了了 python 游戏 java
猜数字游戏代码：importrandomdefpythonit():a=random.randint(1,100)n=int(input("输入你猜想的数字："))whilen!=a:ifn>a:print("很遗憾，猜大了")n=int(input("请再次输入你猜想的数字："))elifna::如果玩家猜的数字n大于随机数字a，则输出"很遗憾，猜大了"，并提示玩家再次输入。elifn
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
2024.9.14 Python，差分法解决区间加法，消除游戏，压缩字符串 RaidenQ python 游戏开发语言算法力扣
1.区间加法假设你有一个长度为n的数组，初始情况下所有的数字均为0，你将会被给出k个更新的操作。其中，每个操作会被表示为一个三元组：[startIndex,endIndex,inc]，你需要将子数组A[startIndex…endIndex]（包括startIndex和endIndex）增加inc。请你返回k次操作后的数组。示例:输入:length=5,updates=[[1,3,2],[2,4,
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
快点三国哪个平台有返利？快点三国哪个平台充值折扣最高？诸葛村夫123
标题：快点三国哪个平台有返利？快点三国哪个平台充值折扣最高？今天我告诉大家一个可以申请内部号的平台，直接比返利号牛逼10倍不止，最近几年出现了特别多的手游平台。每个平台的福利的各不相同，但是本质是一样的，就给点礼包，首充什么的。感觉毫无卵用。就在上个月，经一个做游戏行业的朋友介绍，了解到了一个平台“游人特权站”，特别NB。这个平台给的是内部号，什么是内部号？说白了就是托号。进服就会给300-500
java观察者模式 3213213333332132 java 设计模式游戏观察者模式
观察者模式——顾名思义，就是一个对象观察另一个对象，当被观察的对象发生变化时，观察者也会跟着变化。在日常中，我们配java环境变量时，设置一个JAVAHOME变量,这就是被观察者，使用了JAVAHOME变量的对象都是观察者，一旦JAVAHOME的路径改动，其他的也会跟着改动。这样的例子很多，我想用小时候玩的老鹰捉小鸡游戏来简单的描绘观察者模式。老鹰会变成观察者，母鸡和小鸡是
TFS RESTful API 模拟上传测试 ronin47
TFS RESTful API 模拟上传测试。　　细节参看这里：https://github.com/alibaba/nginx-tfs/blob/master/TFS_RESTful_API.markdown 模拟POST上传一个图片： curl --data-binary @/opt/tfs.png http
PHP常用设计模式单例, 工厂, 观察者, 责任链, 装饰, 策略,适配,桥接模式 dcj3sjt126com 设计模式 PHP
// 多态, 在JAVA中是这样用的, 其实在PHP当中可以自然消除, 因为参数是动态的, 你传什么过来都可以, 不限制类型, 直接调用类的方法 abstract class Tiger { public abstract function climb(); } class XTiger extends Tiger { public function climb()
hibernate 171815164 Hibernate
main,save Configuration conf =new Configuration().configure(); SessionFactory sf=conf.buildSessionFactory(); Session sess=sf.openSession(); Transaction tx=sess.beginTransaction(); News a=new
Ant实例分析 g21121 ant
下面是一个Ant构建文件的实例，通过这个实例我们可以很清楚的理顺构建一个项目的顺序及依赖关系，从而编写出更加合理的构建文件。下面是build.xml的代码： <?xml version="1
[简单]工作记录_接口返回405原因 53873039oycg 工作
最近调接口时候一直报错，错误信息是: responseCode:405 responseMsg:Method Not Allowed 接口请求方式Post.
关于java.lang.ClassNotFoundException 和 java.lang.NoClassDefFoundError 的区别程序员是怎么炼成的
真正完成类的加载工作是通过调用 defineClass来实现的；而启动类的加载过程是通过调用 loadClass来实现的；就是类加载器分为加载和定义 protected Class<?> findClass(String name) throws ClassNotFoundExcept
JDBC学习笔记-JDBC详细的操作流程 aijuans jdbc
所有的JDBC应用程序都具有下面的基本流程：　　1、加载数据库驱动并建立到数据库的连接。　　2、执行SQL语句。　　3、处理结果。　　4、从数据库断开连接释放资源。下面我们就来仔细看一看每一个步骤：其实按照上面所说每个阶段都可得单独拿出来写成一个独立的类方法文件。共别的应用来调用。 1、加载数据库驱动并建立到数据库的连接： Html代码 St
rome创建rss antonyup_2006 tomcat cms xml struts Opera
引用 1.RSS标准 RSS标准比较混乱，主要有以下3个系列 RSS 0.9x / 2.0 : RSS技术诞生于1999年的网景公司(Netscape)，其发布了一个0.9版本的规范。2001年，RSS技术标准的发展工作被Userland Software公司的戴夫温那(Dave Winer)所接手。陆续发布了0.9x的系列版本。当W3C小组发布RSS 1.0后，Dave W
html表格和表单基础百合不是茶 html 表格表单 meta 锚点
第一次用html来写东西,感觉压力山大,每次看见别人发的都是比较牛逼的再看看自己什么都还不会, html是一种标记语言,其实很简单都是固定的格式 _----------------------------------------表格和表单表格是html的重要组成部分,表格用在body里面的主要用法如下; <table> &
ibatis如何传入完整的sql语句 bijian1013 java sql ibatis
ibatis如何传入完整的sql语句？进一步说，String str ="select * from test_table"，我想把str传入ibatis中执行，是传递整条sql语句。解决办法： <
精通Oracle10编程SQL(14)开发动态SQL bijian1013 oracle 数据库 plsql
/* *开发动态SQL */ --使用EXECUTE IMMEDIATE处理DDL操作 CREATE OR REPLACE PROCEDURE drop_table(table_name varchar2) is sql_statement varchar2(100); begin sql_statement:='DROP TABLE '||table_name;
【Linux命令】Linux工作中常用命令 bit1129 linux命令
不断的总结工作中常用的Linux命令 1.查看端口被哪个进程占用通过这个命令可以得到占用8085端口的进程号，然后通过ps -ef|grep 进程号得到进程的详细信息 netstat -anp | grep 8085 察看进程ID对应的进程占用的端口号 netstat -anp | grep 进程ID &
优秀网站和文档收集白糖_ 网站
集成 Flex, Spring, Hibernate 构建应用程序性能测试工具-JMeter Hmtl5-IOCN网站 Oracle精简版教程网站鸟哥的linux私房菜 Jetty中文文档 50个jquery必备代码片段 swfobject.js检测flash版本号工具
angular.extend boyitech AngularJS angular.extend AngularJS API
angular.extend 复制src对象中的属性去dst对象中. 支持多个src对象. 如果你不想改变一个对象，你可以把dst设为空对象{}: var object = angular.extend({}, object1, object2). 注意: angular.extend不支持递归复制. 使用方法: angular.extend(dst, src); 参数:
java-谷歌面试题-设计方便提取中数的数据结构 bylijinnan java
网上找了一下这道题的解答，但都是提供思路，没有提供具体实现。其中使用大小堆这个思路看似简单，但实现起来要考虑很多。以下分别用排序数组和大小堆来实现。使用大小堆： import java.util.Arrays; public class MedianInHeap { /** * 题目：设计方便提取中数的数据结构 * 设计一个数据结构，其中包含两个函数，1.插
ajaxFileUpload 针对 ie jquery 1.7+不能使用问题修复版本 Chen.H ajaxFileUpload ie6 ie7 ie8 ie9
jQuery.extend({ handleError: function( s, xhr, status, e ) { // If a local callback was specified, fire it if ( s.error ) { s.error.call( s.context || s, xhr, status, e ); }
[机器人制造原则]机器人的电池和存储器必须可以替换 comsci 制造
机器人的身体随时随地可能被外来力量所破坏,但是如果机器人的存储器和电池可以更换,那么这个机器人的思维和记忆力就可以保存下来,即使身体受到伤害,在把存储器取下来安装到一个新的身体上之后,原有的性格和能力都可以继续维持..... 另外,如果一
Oracle Multitable INSERT 的用法 daizj oracle
转载Oracle笔记-Multitable INSERT 的用法 http://blog.chinaunix.net/uid-8504518-id-3310531.html 一、Insert基础用法语法： Insert Into 表名 (字段1,字段2,字段3...） Values (值1,
专访黑客历史学家George Dyson datamachine on
20世纪最具威力的两项发明——核弹和计算机出自同一时代、同一群年青人。可是，与大名鼎鼎的曼哈顿计划（第二次世界大战中美国原子弹研究计划）相比，计算机的起源显得默默无闻。出身计算机世家的历史学家George Dyson在其新书《图灵大教堂》（Turing’s Cathedral）中讲述了阿兰·图灵、约翰·冯·诺依曼等一帮子天才小子创造计算机及预见计算机未来
小学6年级英语单词背诵第一课 dcj3sjt126com english word
always 总是 rice 水稻，米饭 before 在...之前 live 生活，居住 usual 通常的 early 早的 begin 开始 month 月份 year 年 last 最后的 east 东方的 high 高的 far 远的 window 窗户 world 世界 than 比...更
在线IT教育和在线IT高端教育 dcj3sjt126com 教育
codecademy http://www.codecademy.com codeschool https://www.codeschool.com teamtreehouse http://teamtreehouse.com lynda http://www.lynda.com/ Coursera https://www.coursera.
Struts2 xml校验框架所定义的校验文件蕃薯耀 Struts2 xml校验 Struts2 xml校验框架 Struts2校验
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 15:54:59 星期六 http://fa
mac下安装rar和unrar命令 hanqunfeng mac
1.下载：http://www.rarlab.com/download.htm 选择 RAR 5.21 for Mac OS X 2.解压下载后的文件 tar -zxvf rarosx-5.2.1.tar 3.cd rar sudo install -c -o $USER unrar /bin #输入当前用户登录密码 sudo install -c -o $USER rar
三种将list转换为map的方法 jackyrong list
在本文中，介绍三种将list转换为map的方法： 1）传统方法假设有某个类如下 class Movie { private Integer rank; private String description; public Movie(Integer rank, String des
年轻程序员需要学习的5大经验 lampcy 工作 PHP 程序员
在过去的7年半时间里，我带过的软件实习生超过一打，也看到过数以百计的学生和毕业生的档案。我发现很多事情他们都需要学习。或许你会说，我说的不就是某种特定的技术、算法、数学，或者其他特定形式的知识吗？没错，这的确是需要学习的，但却并不是最重要的事情。他们需要学习的最重要的东西是“自我规范”。这些规范就是：尽可能地写出最简洁的代码；如果代码后期会因为改动而变得凌乱不堪就得重构；尽量删除没用的代码，并添加
评“女孩遭野蛮引产致终身不育 60万赔偿款1分未得”医腐深入骨髓 nannan408
先来看南方网的一则报道：再正常不过的结婚、生子，对于29岁的郑畅来说，却是一个永远也无法实现的梦想。从2010年到2015年，从24岁到29岁，一张张新旧不一的诊断书记录了她病情的同时，也清晰地记下了她人生的悲哀。　　粗暴手术让人发寒　　2010年7月，在酒店做服务员的郑畅发现自己怀孕了，可男朋友却联系不上。在没有和家人商量的情况下，她决定堕胎。　　12月5日，
使用jQuery为input输入框绑定回车键事件 VS 为a标签绑定click事件 Everyday都不同 jsp input 回车键绑定 click enter
假设如题所示的事件为同一个，必须先把该js函数抽离出来，该函数定义了监听的处理： function search() { //监听函数略...... } 为input框绑定回车事件，当用户在文本框中输入搜索关键字时，按回车键，即可触发search(): //回车绑定 $(".search").keydown(fun
EXT学习记录 tntxia ext
1. 准备（1）官网：http://www.sencha.com/ 里面有源代码和API文档下载。 EXT的域名已经从www.extjs.com改成了www.sencha.com ，但extjs这个域名会自动转到sencha上。（2）帮助文档：想要查看EXT的官方文档的话，可以去这里h
mybatis3的mapper文件报Referenced file contains errors xingguangsixian mybatis
最近使用mybatis.3.1.0时无意中碰到一个问题： The errors below were detected when validating the file "mybatis-3-mapper.dtd" via the file "account-mapper.xml". In most cases these errors can be d

Flappy Paddle现身江湖！使用强化学习DQN让你划船划到停不下来

对于强化学习问题，一般是智能体(Agent)和环境(Environment)的一个交互问题。智能体需要对环境或部分环境做出观测(Observation)，并根据环境做出动作(Action)，而环境对这个动作做出奖惩(Reward)。

现在让我们来划船吧，其实最简单的就是替换一下贴图资源，在PyGame-Learning-Environment

/ple/games/flappybird/assets文件夹中。把这个小bird换成我们的划船选手~

你可能感兴趣的:(算法,游戏,编程语言,机器学习,人工智能)