Rnan-prince

强化学习-理解及应用:解决迷宫问题

什么是强化学习？

强化学习（Reinforcement Learning, RL）是一种机器学习方法，旨在让智能体（agent）通过与环境的交互学习如何做出最优的行动选择以获得最大的累积奖励。

7个基本概念

强化学习主要由智能体（Agent）、环境（Environment）、状态（State）、动作（Action）、奖励（Reward）、策略（policy）、价值函数（Value）组成。

在强化学习中，智能体需要在不断尝试和错误的过程中学习，通过观察环境的反馈（奖励或惩罚）来调整自己的行为，从而逐步改进策略。

如何理解呢？看那么多概念，一般不好理解，咱们举例说明：迷宫游戏。

迷宫与图中类似，黑色格子为墙，不能走，老鼠试图走向墙时，会停在原地。白色格子为空地，可以走。蓝点表示走过的宫格。起始位置为左上角，结束位置为右下角。

1、智能体

红start表示智能体，它在迷宫这个环境中玩耍：

强化学习的目标就是让红点变得足够智能，智能到什么程度呢？让它能够顺利的找到从start（起始点）到exit（出口）的路径，并且学习到最后：让它能够从任意一个起始点找到一条合适的路径从出口出去。

2、环境

在这里就是迷宫，迷宫环境里有：初始出发点，白色方块表示可以通行的格子，黑色格子表示障碍物，绿点表示迷宫出口，迷宫的长为8个格子，宽为8个格子，这些元素组成了强化学习的环境。

3、状态

这个对于初学者觉得会比较抽象，在迷宫游戏里，状态可以理解为红点所在的一个格子里

8×8的宫格，左上角为起始点，行标号为0-7，列标号为0-7，假定智能体走到了箭头所指的红点，那么此时智能体的状态可以抽象为 (7,4)

4、动作

动作是智能体在特定状态下可以执行的操作。它可以是离散的（例如，向左/向右）或连续的（例如，控制机器臂的力或位置）。

在迷宫游戏里，智能体状态为 (7,4) 时，它可能的动作只有两个：向上和向右，如图2个红色箭头所示，动作取值是离散的。

5、奖励

奖励是环境针对智能体的行为给出的反馈信号。它用来评估智能体的行为好坏，并作为学习信号指导智能体的决策。

在迷宫游戏中，如果智能体已经当前状态为 (7,4) ，并且它的上一个状态为 (6,4) ，因为此时它有两个动作选择，向上或向右。

如果它动作向上，表明重复原来路径，我们要给它一个惩罚奖励，尽量让它不要重复走路；相反，如果向右走，我们给它一个相对于向上来说更好的奖励，因此，这就让智能体更倾向选择向右走了。

6、策略

策略定义了智能体在给定状态下选择动作的方式。这个概念也是比较抽象的，策略到底是什么意思？

举一个常用到的策略：ε-贪婪策略（ε-greedy）。

该策略在选择动作时，以1-ε的概率选择当前最优的动作，以ε的概率选择随机动作。也就是说，在智能体当前状态为 (7,4) 时，下一状态它有可能再向上移动，尽管在当前这个环境下，向上移动我们直接观察出并不明智。但是，对于其他情况，随机选择动作会有可能得到意想不到的好结果。

详细算法将在下一节中（xxx）讲到.。

7、值函数

值函数用来评估状态或状态-动作对的价值，表示从该状态或状态-动作对开始，智能体能够获得的长期累积奖励的期望值。

更加通俗来说，值函数就是给你智能体的一个状态，返回它的累计奖励值。可以使用深度学习网络模型来逼近值函数，比如：让神经网络输入状态，输出各个动作下的奖励值。

详细算法将在下一节中（xxx）讲到。

马尔科夫决策过程

马尔科夫决策过程（Markov Decision Process,MDP），MDP提供了描述序贯决策问题的数学框架，是强化学习的基础之一。

它将决策问题建模为：状态、动作、转移概率和奖励的组合，并通过优化累积奖励的目标来找到最优的决策策略。

MDP包含以下要素：

状态（State）：系统或环境可能处于的不同状态。
动作（Action）：在每个状态下可选的决策或行动。
转移概率（Transition Probability）：在执行某个动作后，系统从一个状态转移到另一个状态的概率分布。
奖励（Reward）：在每个状态执行某个动作后获得的即时奖励。
策略（Policy）：根据当前状态选择动作的策略。

我们依然通过迷宫问题来理解。

1、状态（State）

在这个例子中，状态是智能体所处的位置坐标，即迷宫中的某个格子。例如，可以使用(x, y)坐标来表示状态，其中x和y是迷宫中某个格子的行和列索引。

状态可以表示为一个二维坐标 (x, y)，其中 x 表示迷宫的行索引，y 表示迷宫的列索引。假设迷宫的大小为 N × M，则状态集合为:

$S=\{(x,y), x\in [0,N),y\in [0,M)\}$

2、动作（Action）

动作是智能体在某个状态下可以采取的行动，即向上、向下、向左或向右移动。可以使用符号（u,d,l,r）来表示相应的动作。

3、转移概率（Transition Probability）

转移概率描述在某个状态下执行某个动作后，智能体转移到下一个状态的概率分布。

在迷宫游戏中，转移概率是确定性的，因为智能体在执行一个动作后会准确地移动到下一个状态。例如，如果智能体在状态(x, y)执行向上的动作，那么下一个状态将是(x, y-1)，转移概率为1。

由于在迷宫中移动是确定性的，转移概率可以表示为函数

$T_{sas^{'}}=P(S_{t+1}=s^{'}|S_{t}=s,A=a)\rightarrow [0,1]$

其中 $T_{sas^{'}}$ 表示在状态 s 下执行动作 a 后转移到状态 s' 的概率。

根据迷宫规则，如果智能体在状态执行动作 a，那么下一个状态 s' 可以根据动作 a 来计算，例如：

如果，则 $s^{'}=(x-1,y)$
如果，则 $s^{'}=(x+1,y)$
如果，则 $s^{'}=(x,y-1)$
如果，则 $s^{'}=(x-1,y+1)$

其中，在边界情况下，如果智能体试图移动到迷宫之外的位置或者移动到墙壁位置，转移概率为0。

4、奖励（Reward）

奖励是智能体在执行某个动作后所获得的即时反馈。

在迷宫游戏中，可以设置以下奖励机制：

当智能体移动到宝藏位置时，获得正奖励（例如+10）。
当智能体移动到墙壁位置时，获得负奖励（例如-20）。
在其他情况下，获得较小的负值奖励（例如-0.01），以鼓励尽快找到宝藏。

奖励函数可以表示为函数 :

$R_{sas^{'}}=C(S_{t+1}=s^{'}|S_{t}=s,A=a)$

其中 $R_{sas^{'}}$ 表示在状态 s 下执行动作 a 后转移到状态 s' 的即时奖励。

根据迷宫的设定，定义如下奖励：

如果s'是宝藏位置，则 $R_{sas^{'}}=10$
如果s'是墙壁位置，则 $R_{sas^{'}}=-20$
否则， $R_{sas^{'}}=-0.01$

策略迭代

策略迭代是马尔可夫决策过程（MDP）中的一种求解方法，也是强化学习常用求解方法。

依然以迷宫游戏为例，目标是找到迷宫的出口。你每到达一个迷宫的某个位置，都需要根据当前的状态（位置）来选择一个行动（向上、向下、向左、向右）来移动。

你希望找到一种“最优的策略”，即在每个位置都选择最好的行动，从而尽快找到迷宫的出口。策略迭代的思想也非常直接，就是通过不断“改进策略”来寻找最优策略。所以策略迭代主要分为两个步骤：策略评估和策略改进。

策略评估

对当前的策略进行评估，计算每个状态的值函数（表示在该状态下能够获得的预期累积奖励）。通过迭代计算每个状态的值函数，直到值函数收敛。

可能不好理解，我们以宫格游戏为例理解：

定义迷宫状态空间大小和动作空间大小分别为64和4，即在8*8的网格中，动作有4种，上下左右。

num_states = 64
num_actions = 4

于是就有了策略，一个二维数组，即每一个状态下对应的4种动作的取值概率。

policy = np.ones((num_states, num_actions)) / num_actions

策略迭代方法还有一个值函数，值函数的入参是状态，返回价值大小，初始状态的值大小为0。

values = np.zeros(num_states)

定义迷宫的奖励矩阵：

rewards = np.zeros((8, 8)) - 0.01
rewards[0, 2] = -20
rewards[0, 6] = -20
rewards[1, 1] = -20
rewards[1, 7] = -20
rewards[2, 5] = -20
rewards[3, 1] = -20
rewards[3, 4] = -20
rewards[3, 5] = -20
rewards[3, 7] = -20
rewards[4, 1] = -20
rewards[4, 4] = -20
rewards[5, 0] = -20
rewards[5, 2] = -20
rewards[5, 4] = -20
rewards[5, 6] = -20
rewards[5, 7] = -20
rewards[6, 4] = -20
rewards[7, 2] = -20
rewards[7, 7] = 10

所以策略评估的代码为：

def policy_evaluation():
    delta = 1e-6  # 停止迭代的阈值
    max_iterations = 1000  # 最大迭代次数
    for _ in range(max_iterations):
        new_values = np.zeros(num_states)
        for s in range(num_states):
            value = 0
            for a in range(num_actions):
                next_state = get_next_state(s, a)  # 获取下一个状态
                value += policy[s][a] * (rewards[s][a] + values[next_state])  # 贝尔曼方程：四种动作的概率值和
            new_values[s] = value
        if np.max(np.abs(new_values - values)) < delta:
            break
        values = new_values

价值函数计算是贝尔曼方程，贝尔曼方程是动态规划和强化学习中的基本方程，由Richard Bellman提出。

贝尔曼方程表达了状态或状态-动作对的值与按照特定策略获得的预期回报之间的关系。

贝尔曼方程的一般形式如下：

$V(s)=max_{a}\left \{ \sum_{s^{'}r}^{} p(s^{'},r|s,a)\left [ r+\gamma V(s^{'}) \right ]\right \}$

其中，表示状态的值函数，即按照某个策略获得的预期回报。 $max_{a}$ 表示选择能够使得值最大化的动作。 $\sum_{s^{'}r}^{}$ 表示对所有可能的下一个状态 s' 和奖励 r 进行求和。 $p(s^{'},r|s,a)$ 表示在状态 s 下执行动作 a 后转移到状态 s' 且获得奖励 r 的概率。 $\gamma$ 是折扣因子，用于平衡当前和未来的奖励。

策略改进

policy是一个[num_states, num_actions]二维数组，在策略改进这一步实际上就是不断更新每个state下的最优action，就是更新policy二维数组的第二个维度num_actions取值。

伪代码：更新策略 policy 数组

def policy_improvement():
    for s in range(num_states):
        q_values = np.zeros(num_actions)
        for a in range(num_actions):
            next_state = get_next_state(s, a)  # 获取下一个状态
            q_values[a] = rewards[s][a] + values[next_state]
        best_action = np.argmax(q_values)
        new_policy = np.zeros(num_actions)
        new_policy[best_action] = 1
        policy[s] = new_policy

联合以上两步就得到策略迭代算法。

def policy_iteration():
    max_iterations = 1000  # 最大迭代次数
    for _ in range(max_iterations):
        policy_evaluation()  # 策略评估
        policy_improvement()  # 策略改进

综上，策略迭代是一种通过反复评估和改进策略的方法来求解马尔可夫决策过程的算法。它通过不断优化策略和值函数来找到最优策略，并帮助我们在迷宫游戏等问题中做出最佳的决策。

值迭代

值迭代是强化学习另一种求解方法，用于找到马尔可夫决策过程（MDP）中的最优值函数。

值迭代可以总结为如下几点：

值迭代通过不断迭代更新值函数来逼近最优值函数，从而确定最优策略。
值迭代的关键是在每次迭代中更新值函数。
对于每个状态，通过考虑所有可能的动作和下一个状态，选择能够使值最大化的动作，并计算更新后的值函数。
迭代更新值函数，更新公式也是贝尔曼方程，和策略迭代值函数更新公式一样。
值迭代需要进行多次迭代，直到值函数收敛为止。收敛时，值函数不再发生显著变化。

因此：值迭代是比策略迭代更为简单的一种迭代方法。

def policy_evaluation():
    # 定义参数
    gamma = 0.9  # 折扣因子
    epsilon = 1e-6  # 收敛阈值
    # 初始化价值函数
    f_values = np.zeros(grid.shape)
    # 动作集合
    actions = [(0, 1), (0, -1), (1, 0), (-1, 0)]

    # 进行值迭代
    while True:
        delta = 0
        n, m = grid.shape
        for i in range(n):
            for j in range(m):
                if grid[i, j] == -5 or grid[i, j] == 10:
                    continue
                # 计算当前状态的最大价值
                max_value = -np.Inf
                for x, y in actions:
                    ni, nj = i + x, j + y
                    # 边界校验 + 是否是墙校验
                    if 0 <= ni < grid.shape[0] and 0 <= nj < grid.shape[1] and grid[ni, nj] != -5:
                        max_value = max(max_value, gamma * f_values[ni, nj])
                # 更新价值函数
                new_value = grid[i, j] + max_value
                delta = max(delta, abs(new_value - f_values[i, j]))
                f_values[i, j] = new_value
        if delta < epsilon:
            break
    print(f"最优价值函数：{f_values}")

迷宫游戏应用

策略值定义：

策略值是一个表格，用于存储每个状态动作对的估计价值。对于给定的状态s和动作a，P值表示在状态s执行动作a所获得的长期回报估计。

使用迭代的方式更新P值，通过不断更新policy值来逐步逼近最优策略。更新规则如下：

$P(s,a)=(1-\alpha )*P(s,a)+\alpha *(r+\gamma *max_{a}^{'}P(s^{'},a^{'}))$

其中，表示在状态 s执行动作 a的值， $\alpha$ 是学习率（0 < α <= 1），r 是执行动作a后获得的即时奖励， $\gamma$ 是折扣因子（0 <= $\gamma$ <= 1）， $s^{'}$ 是执行动作a后转移到的下一个状态， $a^{'}$ 是在下一个状态下选择的动作， $max_{a}^{'}P(s^{'},a^{'})$ 表示在下一个状态 $s^{'}$ 下所有可能动作中选择值最大的动作。

更新规则的含义是，通过将当前P值与新估计的P值加权平均，使P值逐步收敛到最优值。其中， $\alpha$ 控制了新估计值的权重，控制了对未来回报的重视程度。

通过不断地执行更新规则，强化学习算法能够逐步学习到最优的P值，并根据P值选择最佳的动作来达到最优策略。

import numpy as np


def get_possible_actions(row_num, clo_num, row_n, col_n):
    target_actions = [0, 1, 2, 3]  # 上、下、左、右
    if row_num == 0:  # 不能向上
        target_actions.remove(0)
    if clo_num == 0:  # 不能向左
        target_actions.remove(2)
    if row_num == row_n - 1:  # 不能向下
        target_actions.remove(1)
    if clo_num == col_n - 1:  # 不能向右
        target_actions.remove(3)

    return target_actions


def get_next_state(state, action):
    row_num, clo_num = state
    next_state = state
    if action == 0:  # 上
        next_state = (row_num - 1, clo_num)
    elif action == 1:  # 下
        next_state = (row_num + 1, clo_num)
    elif action == 2:  # 左
        next_state = (row_num, clo_num - 1)
    elif action == 3:  # 右
        next_state = (row_num, clo_num + 1)
    return next_state


def get_best_reward_route(grid, begin_cord, exit_coord, max_iterations):
    """
    获取最优奖励路径
    :param grid: 网格奖励
    :param begin_cord: 开始位置
    :param exit_coord: 结束位置
    :param max_iterations: 最大迭代次数
    :return: 最有路径及最大奖励
    """
    action_n = 4
    row_n, col_n = grid.shape

    alpha = 0.1  # 学习率
    gamma = 0.9  # 折扣因子
    epsilon = 0.3  # ε-greedy策略的ε值

    # 初始化策略P表
    policy = np.zeros((row_n, col_n, action_n))

    best_route = []
    max_route_reward = -np.Inf
    for n_iter in range(max_iterations):
        # 初始化起始位置
        state = begin_cord
        route = [state]
        while state != exit_coord:  # 终止条件：到达终点位置
            row_num, clo_num = state
            # 获取动作集合
            possible_actions = get_possible_actions(row_num, clo_num, row_n, col_n)
            # 选择动作
            if np.random.uniform() < epsilon:

                action = np.random.choice(possible_actions)  # ε-greedy策略，以一定概率随机选择动作
            else:
                action = possible_actions[np.argmax(policy[row_num, clo_num, possible_actions])]  # 选择Q值最大的动作
            # 执行动作，更新状态
            next_state = get_next_state(state, action)

            # 获取即时奖励
            reward = grid[next_state]

            # 更新策略P值
            policy[state][action] = (1 - alpha) * policy[state][action] + alpha * (reward + gamma * np.max(policy[next_state]))

            # 更新状态
            state = next_state
            route.append(state)

        route_reward = sum(grid[state] for state in route)
        if max_route_reward < route_reward:
            max_route_reward = route_reward
            best_route = route.copy()
            print(f"iteration: {n_iter}, max_reward_route:{max_route_reward}, best_route：{best_route}")

        route.clear()

    print('-' * 100)
    return best_route, max_route_reward


if __name__ == '__main__':
    # 创建迷宫地图
    grid = np.zeros((8, 8)) - 0.001
    # 起始位置
    begin_cord = (0, 0)
    # 结束位置
    exit_coord = (7, 7)

    # 走出迷宫奖励10个积分
    grid[exit_coord] = 10
    # 走到墙网格，扣除20个积分
    grid[0, 2] = -20
    grid[0, 6] = -20
    grid[1, 1] = -20
    grid[1, 7] = -20
    grid[2, 5] = -20
    grid[3, 1] = -20
    grid[3, 4] = -20
    grid[3, 5] = -20
    grid[3, 7] = -20
    grid[4, 1] = -20
    grid[4, 4] = -20
    grid[5, 0] = -20
    grid[5, 2] = -20
    grid[5, 4] = -20
    grid[5, 6] = -20
    grid[5, 7] = -20
    grid[6, 4] = -20
    grid[7, 2] = -20
    print(grid)
    print('-' * 100)
    max_reward_route, best_route = get_best_reward_route(grid, begin_cord, exit_coord, max_iterations=200)
    print(f"max_reward_route:{max_reward_route}\nbest_route：{best_route}\n")

结果：

max_reward_route:[(0, 0), (1, 0), (2, 0), (2, 1), (2, 2), (2, 3), (3, 3), (4, 3), (5, 3), (6, 3), (7, 3), (7, 4), (7, 5), (7, 6), (7, 7)]
best_route：9.986

当然结果不是唯一的，有多种路径，一样的奖励。

调试技巧：

有的时候，陷入局部最优，可增大ε-greedy策略的ε值，本文0.1->0.3

有的时候，收敛较慢，可适当调整增大墙的惩罚分数，降低空白格的奖励分数，不过一定要小于0

参考：

人工智能基础大作业-强化学习求解迷宫问题 - 知乎

第二讲马尔可夫决策过程 - 知乎

程序员郭震：https://mp.weixin.qq.com/mp/appmsgalbum?action=getalbum&__biz=MzI3NTkyMjA4NA==&scene=24&album_id=2931825580365643777&count=3#wechat_redirect

MDPs（马尔可夫决策过程） - 简书

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
非对称加密算法原理与应用2——RSA私钥加密文件私语茶馆云部署与开发架构及产品灵感记录 RSA2048 私钥加密
作者：私语茶馆1.相关章节（1）非对称加密算法原理与应用1——秘钥的生成-CSDN博客第一章节讲述的是创建秘钥对，并将公钥和私钥导出为文件格式存储。本章节继续讲如何利用私钥加密内容，包括从密钥库或文件中读取私钥，并用RSA算法加密文件和String。2.私钥加密的概述本文主要基于第一章节的RSA2048bit的非对称加密算法讲述如何利用私钥加密文件。这种加密后的文件，只能由该私钥对应的公钥来解密。
粒子群优化 (PSO) 在三维正弦波函数中的应用 subject625Ruben 机器学习人工智能 matlab 算法
在这篇博客中，我们将展示如何使用粒子群优化（PSO）算法求解三维正弦波函数，并通过增加正弦波扰动，使优化过程更加复杂和有趣。本文将介绍目标函数的定义、PSO参数设置以及算法执行的详细过程，并展示搜索空间中的动态过程和收敛曲线。1.目标函数定义我们使用的目标函数是一个三维正弦波函数，定义如下：objectiveFunc=@(x)sin(sqrt(x(1).^2+x(2).^2))+0.5*sin(5
非对称加密算法————RSA理论及详情 hu19930613
转自：https://www.kancloud.cn/kancloud/rsa_algorithm/48484一、一点历史1976年以前，所有的加密方法都是同一种模式：（1）甲方选择某一种加密规则，对信息进行加密；（2）乙方使用同一种规则，对信息进行解密。由于加密和解密使用同样规则（简称"密钥"），这被称为"对称加密算法"（Symmetric-keyalgorithm）。这种加密模式有一个最大弱点
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
【加密算法基础——对称加密和非对称加密】 XWWW668899 网络安全服务器笔记
对称加密与非对称加密对称加密和非对称加密是两种基本的加密方法，各自有不同的特点和用途。以下是详细比较：1.对称加密特点密钥:使用相同的密钥进行加密和解密。发送方和接收方必须共享这个密钥。速度:通常速度较快，适合处理大量数据。实现:算法相对简单，计算效率高。常见算法AES(高级加密标准)DES(数据加密标准)3DES(三重数据加密标准)RC4(流密码)应用场景文件加密磁盘加密传输大量数据时的加密2.
【算法练习】IDEA集成leetcode插件实现快速刷 2401_84102892 2024年程序员学习算法 intellij-idea leetcode
============点击右侧边leetcode->设置->配置地址、用户名、密码、存放目录、文件模板用户名要登录后在账号信息里看模板代码1.codefilename!velocityTool.camelC
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
【加密算法基础——RSA 加密】 XWWW668899 网络服务器笔记 python
RSA加密RSA（Rivest-Shamir-Adleman）加密是非对称加密，一种广泛使用的公钥加密算法，主要用于安全数据传输。公钥用于加密，私钥用于解密。RSA加密算法的名称来源于其三位发明者的姓氏：R:RonRivestS:AdiShamirA:LeonardAdleman这三位计算机科学家在1977年共同提出了这一算法，并发表了相关论文。他们的工作为公钥加密的基础奠定了重要基础，使得安全通
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，