Water-drop-conquer

【5】强化学习之时序差分方法（Sarsa和Q-learning）

1、时序差分预测
- 1）与动态规划方法的比较
- 2）与蒙特卡罗方法的比较
- 3）时序差分预测伪代码
2、Sarsa算法：在线策略的时序差分方法
3、Q-learning算法：离线策略的时序差分方法
4、Q-learning解决寻宝问题
- 1）环境编写
- 2）算法实施

蒙特卡罗方法可以在不知道环境特性的时候，通过与环境互动来估计状态（或状态-动作）的价值函数，但该方法也有一定的缺陷。首先，由于环境的动态特性，蒙特卡罗每次寻找的路径都可能不一样。其次，当状态空间比较大时，蒙特卡罗方法非常耗时，效率低，比如要走很多步才能到达终止状态。
在所有的强化学习思想中，时序差分（Temporal Difference, TD）学习是最核心、最新颖的方法，它结合了动态规划和蒙特卡罗方法的思想。类似于动态规划（自举思想），时序差分方法无需等待一轮回合的结束就能后继状态的估计值来更新当前状态的价值函数。而与蒙特卡罗保持一致的是时序差分也是直接与环境的互动来学习策略。
$\\[20pt]$

1、时序差分预测

本节依次比较时序差分方法和动态规划、蒙特卡罗方法，最后给出时序差分预测的伪代码。

1）与动态规划方法的比较

我们知道动态规划采用 $v_\pi$ 的贝尔曼方程来迭代更新状态的价值函数，即：
$v_\pi(s)=\sum_{a}\pi(a|s) \left (\sum_{s^\prime,r} p(s^\prime,r|s,a)[r+\gamma v_\pi(s^\prime)] \right) \tag{1}$
其中 $\pi(a|s)$ 表示在状态s处选择动作a的概率。
公式(1)表明，更新状态s的价值函数 $v_\pi(s)$ 需要知道s处执行动作a的后继状态的价值函数 $v_\pi(s^\prime)$ ，当然后继状态有可能包含状态s本身，因此这种方法也称为自举法。TD也用到了这种自举的思想，其更新公式为：
$V(S_t)\leftarrow V(S_t)+\alpha[R_{t+1}+\gamma V(S_{t+1})-V(S_t)] \tag{2}$
从公式(2)看出， $S_t$ 的价值函数更新用到了它的后继状态 $S_{t+1}$ 的价值函数。

2）与蒙特卡罗方法的比较

TD和蒙特卡罗方法都利用经验来解决价值函数的评估问题，给定策略 $\pi$ 的一些经验，以及这些经验中的非终止状态 $S_t$ ，该两种方法都会更新它们对 $v_\pi$ 的估计V。蒙特卡罗方法的更新公式可表示为：
$V(S_t)\leftarrow V(S_t)+\alpha[G_{t}-V(S_t)] \tag{3}$
其中 $G_t$ 是时刻 $t$ 的真实回报， $\alpha$ 为更新步长参数。蒙特卡罗方法需要一直等到一次回合的结束后通过回溯计算出回报 $G_t$ ，再使用 $G_t$ 作为 $V(S_t)$ 的更新目标进行估计。
蒙特卡罗方法必须等到一次回合的结束才能确定 $V(S_t)$ 的增量，因为这时候 $G_t$ 才已知，而TD方法只需等到下一时刻即可。在t+1时刻，TD方法立刻就能构造出更新目标，并使用观察到的收益 $R(S_{t+1})$ 和估计值 $V(S_{t+1})$ 来进行一次更新。实际上蒙特卡罗的更新目录是 $G_t$ ，而TD的更新目标是 $R_{t+1}+\gamma V(S_{t+1})$ 。

3）时序差分预测伪代码

给定一个待评估的策略 $\pi$ ，状态价值函数的评估伪代码如下：

$\\[20pt]$

2、Sarsa算法：在线策略的时序差分方法

Sarsa算法的“状态-动作”二元组的价值函数更新为：
$Q(S_t,A_t)\leftarrow Q(S_t,A_t)+\alpha[R_{t+1}+\gamma Q(S_{t+1},A_{t+1})-Q(S_t,A_t)] \tag{4}$
Sarsa算法为什么称为在线的呢，是因为行为策略和目标策略是同一个策略，即生成数据的策略和构造学习目标的策略是同一个策略。假定我们使用 $\varepsilon$ -贪心策略（行为策略），在状态 $S_t$ 处使用该策略选择动作 $A_t$ ，观察到收益 $R_{t+1}$ 和后继状态 $S_{t+1}$ （即生成数据）。然后使用同样的 $\varepsilon$ -贪心策略（目标策略）在 $S_{t+1}$ 选择动作 $A_{t+1}$ ，获得 $S_{t+1},A_{t+1})$ 二元组的"状态-动作"二元组的价值函数 $Q(S_{t+1},A_{t+1})$ ，构造学习目标 $R_{t+1}+\gamma Q(S_{t+1},A_{t+1})$ 。因此这里的行为策略和目标策略是同一个策略，下图进一步展示了这种关系。

Sarsa算法的伪代码如下所示：

$\\[20pt]$

3、Q-learning算法：离线策略的时序差分方法

Q-learning算法的“状态-动作”二元组的价值函数更新为：
$Q(S_t,A_t)\leftarrow Q(S_t,A_t)+\alpha[R_{t+1}+\gamma \max_a Q(S_{t+1},a)-Q(S_t,A_t)] \tag{5}$

Q-learning算法之所以是离线的是因为生成数据的策略（一般是 $\varepsilon$ -贪心策略）和构造学习目标的策略（如贪婪策略）不是同一个策略，下图也给出了这种更新思想：

Q-learning算法的伪代码如下所示：

$\\[30pt]$

4、Q-learning解决寻宝问题

还是以寻宝问题作为例子来详细描述Q-learning的具体实施过程。以下为寻宝问题的网格展示，其中红色圆圈代表智能体，黑色方框代表陷阱，箱子为要寻找的宝藏，可以看出该环境有15个状态，其中有17个非终止状态和8个终止状态（包括7个陷阱和一个宝藏）。智能体在非终止状态能向左，向上，向右，向下移动，每个动作都能导致智能体移动一个网格，当智能体移除网格边缘时，保持原状态不变。我们将状态从左到右从上到下依次编号，如图中智能体的状态为0，宝藏的状态为14。
因此，状态空间 $\mathcal S=\{0,1,2,...,14\}$ ，对于任意的状态 $s\in \mathcal S$ ，有 $\mathcal A(s)=\{0,1,2,3\}$ ，其中0,1,2,3分别表示向左，向上，向右，向下移动。智能体坠入陷阱时收益为-1，找到宝藏时收益为1，其他的状态转移收益为0，折扣率 $\gamma = 1$ 。

1）环境编写

这里只呈现环境的重置函数reset()和状态转移函数step()。【完整代码请单击此处】

reset()函数的作用是重置环境为初始状态，注意我们在环境的实现中使用网格坐标来表示状态，在算法中状态0表示网格中的[0,0], 状态2表示[0,1]，一直到状态14表示[4,4]。reset()函数将每个回合的初始状态重置为[0,0]，即上图中红色圆圈的位置。

    def reset(self):
        self.current_state = [0, 0]
        return self.current_state

step()函数定义了状态的转移，智能体转移到宝藏状态时收益为1，此回合终止。智能体转移到陷阱时收益为-1，此回合终止。智能体转移到非终止状态时收益为0，此回合不终止。

    def step(self, state, action):
        next_state = (np.array(state) + self.ACTIONS[action]).tolist()
        x, y = next_state

        if next_state in self.treasure_space:
            return next_state, 1, True
        elif next_state in self.trap_space:
            return next_state, -1, True
        else:
            if x < 0 or x >= self.GRID_SIZE or y < 0 or y >= self.GRID_SIZE:
                next_state = state
            return next_state, 0, False

2）算法实施

初始化“状态-动作”对的价值函数（Q表）
设置每个状态下的4个动作的价值为0。

    def initialization(self):
        self.Q_table= [[0.] * self.env.nA for _ in range(self.env.nS)]

选择动作
该函数采用 $\varepsilon$ -贪婪策略（ $\varepsilon=0.1$ ）来选择动作。第1行表示，随机数大于 $\varepsilon$ 我们选择具有最大Q值的动作，注意当存在多个最大的Q值时，则随机选择一个即可。若随机数小于等于 $\varepsilon$ ，则我们随机选择一个动作。 $\varepsilon$ -贪婪策略可以这样理解，我们绝大多数的时候选择最优动作，但保持一个小概率来随机去探索未知的状态空间。

        def choose_action_e_greedy(self, state):
            if np.random.random() > self.epsilon:  # 选择最大Q值的动作
                # 若有多个相同的最大Q值，则随机选择
                action = np.random.choice(
                    [action_ for action_, value_ in enumerate(self.Q_table[state]) if value_ == np.max(self.Q_table[state])])
            else:  # 随机选择动作
                action = np.random.randint(0, self.env.nA)
            return action

Q-learning学习
在learning函数中实现算法的具体学习过程，参数method用来表示当前是哪个算法，current_state表示当前状态，action为当前状态采取的动作，reward在当前状态执行动作后环境反馈的收益，next_state表示转移的下一个状态。我们关注Q-learing的学习，在第8行中根据公式 $R_{t+1}+\gamma \max_a Q(S_{t+1},a)$ 来计算出学习目标q_target，若下一个状态为终止状态，则学习目标q_target=reward。第11行更新Q表。

    def learn(self, method, current_state, action, reward, next_state):
        q_predict = self.Q_table[current_state][action]
        if next_state not in self.env.terminate_space:
            if method == 'sarsa':
                next_action = self.choose_action_e_greedy(next_state)   # 目标策略也用ε-贪婪策略
                q_target = reward + self.discount * self.Q_table[next_state][next_action]
            else: # 'Q-learning'
                q_target = reward + self.discount * np.max(self.Q_table[next_state])
        else:
            q_target = reward
        self.Q_table[current_state][action] += self.learning_rate * (q_target - q_predict)

Q-learning算法主体
第6行：回合开始。
第9行：将智能体寻宝宝藏的过程渲染出来。
第11行：将网格坐标转换成状态编号。
第12行：采用 $\varepsilon$ -贪婪策略（ $\varepsilon=0.1$ ）来选择动作。
第13行：在当前状态state_grid采取动作action后会返回，下一个状态next_state，环境反馈的收益reward，是否到达终止状态done。
第17行：算法学习。

    def Q_learning_run(self):
        print('----------- Q-learning -----------')
        running_reward = None
        running_reward_list = []
        self.initialization()
        for episode in range(self.episode_number):
            total_reward = 0
            state_grid = self.env.reset()
            self.env.render()
            while True:
                state_index = self.state_to_gridState.index(state_grid)
                action = self.choose_action_e_greedy(state_index)
                next_state, reward, done = self.env.step(state_grid, action)
                total_reward += reward

                next_state_index = self.state_to_gridState.index(next_state)
                self.learn('Q-learning', state_index, action, reward, next_state_index)

                state_grid = next_state
                self.env.current_state = state_grid
                self.env.render()
                if done:
                    time.sleep(0.5)
                    break
            # 每一次迭代获得的总收益total_reward,会以0.01的份额加入到running_reward。(原代码这里total_reward用了r，个人认为是total_reward更合适)
            running_reward = total_reward if running_reward is None else running_reward * 0.99 + total_reward * 0.01
            running_reward_list.append(running_reward)
            print('Episode [{}/{}] | Total reward: {} | Running reward: {:5f}'.
                  format(episode, self.episode_number, total_reward, running_reward))
        return running_reward_list

算法执行
我们再main中执行Q-learning算法：

if __name__ == '__main__':
    env = Maze_Env.MazeEnv()

    fl = MazeGame(env)
    # sarsa = fl.sarsa_run()
    Qlearning = fl.Q_learning_run()

    # plt.plot(sarsa, label='Sarsa')
    plt.plot(Qlearning, label='Q-learning')
    plt.xlabel('Episodes')
    plt.ylabel('Running reward')
    plt.legend()
    plt.savefig('Sarsa_Qlearning_maze_game.png')
    plt.close()

实验结果
下面为输出的实验结果，可看出在17回合后，智能体已经找到了宝藏的位置，因为17回合后的total reward总是为1。但在第21回合的时候，突然变成了-1，这是因为我们采取了 $\varepsilon$ -贪婪策略（ $\varepsilon=0.1$ ）来选择动作，智能体还是有一定的概率随机选择动作。另外，从画出的Running reward也可看出，算法的这种收敛趋势。

----------- Q-learning -----------
Episode [0/100] | Total reward: -1 | Running reward: -1.000000
Episode [1/100] | Total reward: -1 | Running reward: -1.000000
Episode [2/100] | Total reward: -1 | Running reward: -1.000000
Episode [3/100] | Total reward: -1 | Running reward: -1.000000
Episode [4/100] | Total reward: -1 | Running reward: -1.000000
Episode [5/100] | Total reward: -1 | Running reward: -1.000000
Episode [6/100] | Total reward: -1 | Running reward: -1.000000
Episode [7/100] | Total reward: -1 | Running reward: -1.000000
Episode [8/100] | Total reward: -1 | Running reward: -1.000000
Episode [9/100] | Total reward: -1 | Running reward: -1.000000
Episode [10/100] | Total reward: -1 | Running reward: -1.000000
Episode [11/100] | Total reward: 1 | Running reward: -0.980000
Episode [12/100] | Total reward: -1 | Running reward: -0.980200
Episode [13/100] | Total reward: -1 | Running reward: -0.980398
Episode [14/100] | Total reward: -1 | Running reward: -0.980594
Episode [15/100] | Total reward: -1 | Running reward: -0.980788
Episode [16/100] | Total reward: -1 | Running reward: -0.980980
Episode [17/100] | Total reward: 1 | Running reward: -0.961170
Episode [18/100] | Total reward: 1 | Running reward: -0.941559
Episode [19/100] | Total reward: 1 | Running reward: -0.922143
Episode [20/100] | Total reward: 1 | Running reward: -0.902922
Episode [21/100] | Total reward: -1 | Running reward: -0.903892
Episode [22/100] | Total reward: 1 | Running reward: -0.884854
Episode [23/100] | Total reward: 1 | Running reward: -0.866005
Episode [24/100] | Total reward: 1 | Running reward: -0.847345
Episode [25/100] | Total reward: 1 | Running reward: -0.828871
Episode [26/100] | Total reward: 1 | Running reward: -0.810583
Episode [27/100] | Total reward: 1 | Running reward: -0.792477
Episode [28/100] | Total reward: 1 | Running reward: -0.774552
Episode [29/100] | Total reward: 1 | Running reward: -0.756807
Episode [30/100] | Total reward: 1 | Running reward: -0.739239
Episode [31/100] | Total reward: 1 | Running reward: -0.721846

Process finished with exit code -1

下面是渲染出智能体的寻找过程：

$\\[30pt]$
参考资料：
（1）Richard S. Sutton and Andrew G. Barto著, 俞凯译《强化学习》第二版
（2）张斯俊. 欢迎大家入坑Reinforcment Learning【知乎】
（3）郭宪, 方勇纯. 《深入浅出强化学习：原理入门》

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
OpenAI o1 的价值意义及“强化学习的Scaling Law” & Kimi创始人杨植麟最新分享：关于OpenAI o1新范式的深度思考光剑书架上的书 ChatGPT 大数据AI人工智能计算人工智能算法机器学习
OpenAIo1的价值意义及“强化学习的ScalingLaw”蹭下热度谈谈OpenAIo1的价值意义及RL的Scalinglaw。一、OpenAIo1是大模型的巨大进步我觉得OpenAIo1是自GPT4发布以来，基座大模型最大的进展，逻辑推理能力提升的效果和方法比预想的要好，GPT4o和o1是发展大模型不同的方向，但是o1这个方向更根本，重要性也比GPT4o这种方向要重要得多，原因下面会分析。为什
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
Python前沿技术：机器学习与人工智能 4.0啊 Python 人工智能 python 机器学习
Python前沿技术：机器学习与人工智能一、引言随着科技的飞速发展，机器学习和人工智能（AI）已经成为了计算机科学领域的热门话题。Python作为一门易学易用且功能强大的编程语言，已经成为了这两个领域的首选语言之一。本文将深入探讨Python在机器学习和人工智能领域的应用，以及一些前沿技术和工具。二、Python机器学习基础2.1机器学习概述机器学习是人工智能（AI）的一个关键子集，它的核心在于让
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
Python 初学者入门必知： Anaconda是什么？有什么作用？怎么使用？懒大王爱吃狼 Python基础 python 开发语言 python基础 python学习 anaconda anaconda安装 python教程
初学者在学习Python时，经常看到的一个名字是Anaconda。究竟什么是Anaconda，为什么它如此受欢迎？在这篇文章中，我们将探讨Anaconda，了解Anaconda的从安装到使用的。Anaconda是一个免费开源的Python和R编程发行版，包含上千个适用于数据科学和机器学习的包。同时，配备了Spyder和Jupyternotebook等工具，初学者可以使用它们来学习Python，使用
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio