羽星_s

强化学习多臂赌博机

强化学习与其他机器学习方法最大的不同，就在于前者的训练信号是用来评估给定动作的好坏的，而不是通过给出正确动作范例来进行直接的指导。

一个 $k$ 臂赌博机问题

$k$ 个动作中的每一个在被选择时都有一个期望或者平均收益，称为这个动作的价值。将在时刻 $t$ 时选择的动作记作 $A_t$ ，并将对应收益记作 $R_t$ 。任一动作 $a$ 对应的价值，记作 $q_*(a)$ ，是给定动作 $a$ 时收益期望：
$q_*(a) = E[R_t|A_t=a]$
我们将对动作 $a$ 在时刻t时的价值的估计记作 $Q_t(a)$ ，我们希望它接近 $q_*(a)$ 。
当你从这些动作中选择时，我们称为开发当前你所知道的关于动作的价值的知识。选择非贪心的动作，称为试探，因为这可以让你改善对非贪心动作的价值的估计
到底选择“试探”还是“开发”一种复杂的方式依赖与我们得到的函数估计、不确定性和剩余时刻的精确数值。
开发和试探的平衡是强化学习中的一个问题。

动作-价值方法

使用价值的估计来进行动作选择，这一类方法被统称为“动作-价值方法”。
一种自然的方式就是通过计算实际收益的平均值来估计动作的价值：
$Q_t(a) = \frac{t时刻前通过执行动作a得到的收益总和}{t时刻前执行动作a的次数} = \frac{\sum_{i = 1}^{t-1}R_i \cdot I_{A_i = a}}{\sum_{i = 1}^{t-1}I_{A_i = a}}$
其中， $I_{predicate}$ 表示随机变量，当 $p re d i c a t e$ 为真时其值为1，反之为0。当分母为0时，我们将 $Q_t(a)$ 定义为某个默认值，比如 $Q_t(a) = 0$ 。当分母趋向于无穷大时，根据大数定律， $Q_t(a)$ 会收敛到 $q_{*}(a)$
我们将这种估计动作价值的方法称为采样平均方法，因为每一次估计都是相关收益样本的平均。
最简单的动作选择规则是选择具有最高估计值的动作，如果有多个贪心动作，那就任意选择一个，比如随机挑选，我们将这种贪心动作的选择方法记作：
$A_t = \mathop{\arg\min}\limits_{a}Q_t(a)$
其中， $\mathop{\arg\min}\limits_{a}$ 是使得 $Q_t(a)$ 值最大的动作 $a$
贪心策略的一个简单代替策略是大部分时间都表现得很贪心，但偶尔（比如以一个很小的概率 $\epsilon$ ）以独立于动作-价值的估计方式从所有动作中等概率随机地做出选择。我们将使用这种近乎贪心的选择规则方法称为 $\epsilon$ -贪心方法。
$\epsilon$ -贪心方法的优点是，如果时刻可以无限长，则每一个动作都会被无限次采样，从而确保所有的 $Q_t(a)$ 收敛到 $q_{*}a$ 。这意味着选择最优动作的概率会收敛到大于 $1-\epsilon$ 。

10臂测试平台

从长远来看，贪心方法表现明显很糟糕，因为它经常陷入执行次优动作的怪圈。 $\epsilon$ -贪心方法最终表现更好，因为他们持续地试探并且提升找到最优动作的机会。
$\epsilon = 0.1$ 相较于 $\epsilon = 0.01$ 方法试探得更多，通常更早发现最优的动作，但是在每时刻选择这个最优动作的概率却永远不会超过91%。
$\epsilon$ -贪心方法相对于贪心方法的优点依赖于任务。比如，假设收益的方差更大，不是1而是10，由于收益的噪声更多，所以为了找到最优的动作需要更多次的试探， $\epsilon$ -贪心方法会更有优势。
如果收益方差为0，那么贪心方法会在尝试一次之后就知道每一个动作的真实价值。在这种情况下，贪心方法实际上可能表现最好。因为它很开就会找到最佳的动作，然后再也不会进行试探。

增量式实现

至今我们讨论的动作-价值方法都把动作价值作为观测到的收益的样本均值来估计。
令 $R_i$ 表示这一动作被选择 $i$ 次后获得的收益， $Q_{n}$ 表示被选择 $n - 1$ 次后它的估计的动作价值，可以简写为：
$Q_n = \frac{R_1 + R_2 + \cdots + R_{n-1}}{n-1}$
为了计算每个新的收益，很容易设计增量式公式以小而恒定的计算来更新平均值。给定 $Q_n$ 和第 $n$ 次的收益 $R_{n}$ ，所有 $n$ 个收益的新均值：
$\begin{align} Q_{n+1} &= \frac{1}{n}\sum^{n}_{i = 1}R_i\\ &=\frac{1}{n}(R_n+\sum_{i=1}^{n-1}R_i)\\ &=\frac{1}{n}(R_n+(n-1)\frac{1}{n-1}\sum_{i=1}^{n-1}R_i)\\ &=\frac{1}{n}(R_n+(n-1)Q_n)\\ &=\frac{1}{n}(R_n+nQ_n-Q_n)\\ &=Q_n+\frac{1}{n}[R_{n}-Q_{n}]\\ \end{align}$
更新公式的一般形式为：
$\leftarrow 旧估计值 + 步长 \times [目标-旧估计值]$
表达式 $[目标 - 旧估计值]$ 是估计值的误差。误差会随着向“目标”靠近的每一步而减小。虽然“目标中可能充满噪声”，但我们还是假定“目标”会告诉我们可行的前进方向。
增量式方法中的“步长”会随着时间而变化。处理动作 $a$ 对应的第 $n$ 个收益的方法用的步长是 $\frac{1}{n}$ 。

跟踪一个非平稳问题

取平均方法对平稳的赌博机问题是合适的，即收益的概率分布不随着时间变化。但如果赌博机的收益概率是随着时间变化的该方法就不合适。
给近期的收益赋予比过去很久的收益更高的权值就是一种合理的处理方式，最流行的方法之一是使用固定步长。比如，用于更新 $n - 1$ 个过去的收益均值Q_{n}的增量更新规则可以改为：
$Q_{n+1} = Q_{n} + \alpha[R_n - Q_n]$
随机逼近理论中的一个著名结果给出了保证收敛概率为1所需的条件：
$\sum_{n = 1}^{\infty}\alpha_n(a) = \infty 且 \sum_{n=1}^{\infty}a_n^{2}(a)<\infty$
第一个条件是要求保证有足够大的步长，最终客服任何初始条件或随机波动。第二个条件保证最终步长变小，以保证收敛。

练习2.5

参考代码地址，对代码中各函数做了详细注解

testbed.py

import numpy as np
from numpy.random import normal as GaussianDistribution


class K_armed_testbed():
    # k个可能动作中每一个的值开始相等
    # 然后进行独立的随机行走

    def __init__(self, k_actions):
        self.k = k_actions
        # np.full返回指定形状、类型和数值的数组
        self.action_values = np.full(self.k, fill_value=0.0)

    def random_walk_action_values(self):
        # 返回均值为0标准差为0.01的正态分布，形状为k的数组
        increment = GaussianDistribution(loc=0, scale=0.01, size=self.k)
        # 将每一步动作收益加上正态分布增量
        self.action_values += increment

    def sample_action(self, action_i):
        # 生成符合正态分布的随机数
        return GaussianDistribution(loc=self.action_values[action_i], scale=1, size=1)[0]

    def get_optimal_action(self):
        # 返回数组中最大值索引
        return np.argmax(self.action_values)

    def get_optimal_action_value(self):
        # 返回动作的最大收益
        return self.action_values[self.get_optimal_action()]

    def is_optimal_action(self, action_i):
        # 是否为最优动作
        return float(self.get_optimal_action_value() == self.action_values[action_i])

    def __str__(self):
        return "\t".join(["A%d: %.2f" % (action_i, self.action_values[action_i]) for action_i in range(self.k)])

estimators.py

import numpy as np

class Estimator(object):
    def __init__(self, action_value_initial_estimates):
        self.action_value_estimates = action_value_initial_estimates
        # 确定动作种类
        self.k_actions = len(action_value_initial_estimates)
        # 动作选择表，初始化为0，类型为整型
        self.action_selected_count = np.full(self.k_actions, fill_value=0, dtype="int64")

    def select_action(self):
        # 引发异常提示语
        raise NotImplementedError("Need to implement a method to select actions")

    def update_estimates(self):
        # 引发异常提示语
        raise NotImplementedError("Need to implement a method to update action value estimates")

    def select_greedy_action(self):
        # 返回动作收益最大数组索引
        return np.argmax(self.action_value_estimates)

    def select_action_randomly(self):
        # 随机选择动作
        return np.random.choice(self.k_actions)


# 平均采样方法类
class SampleAverageEstimator(Estimator):
    def __init__(self, action_value_initial_estimates, epsilon):
        # 继承父类
        super(SampleAverageEstimator, self).__init__(action_value_initial_estimates)
        self.epsilon = epsilon

    def update_estimates(self, action_selected, r):
        # 选择次数+1
        self.action_selected_count[action_selected] += 1
        # 动作收益
        qn = self.action_value_estimates[action_selected]
        # 选择次数
        n = self.action_selected_count[action_selected]
        # 更新Q值，学习率为变化步长1/n
        self.action_value_estimates[action_selected] = qn + (1.0 / n) * (r - qn)

    def select_action(self):
        # 取随机数
        probability = np.random.rand()
        # 是否采用贪心算法
        if probability >= self.epsilon:
            # 采用贪心算法
            return self.select_greedy_action()
        # 随机选择动作
        return self.select_action_randomly()


# 增量计算方法类
class WeightedEstimator(SampleAverageEstimator):
    def __init__(self, action_value_initial_estimates, epsilon=0, alpha=0.5):
        # 继承父类
        super(WeightedEstimator, self).__init__(action_value_initial_estimates, epsilon)
        # 学习率
        self.alpha = alpha

    def update_estimates(self, action_selected, r):
        # 动作收益
        qn = self.action_value_estimates[action_selected]
        # 更新Q值，学习率为固定步长alpha
        self.action_value_estimates[action_selected] = qn + self.alpha * (r - qn)

Exercise 2.5.py

import numpy as np
import matplotlib.pyplot as plt
from tqdm import tqdm
from estimators import SampleAverageEstimator, WeightedEstimator
from testbed import K_armed_testbed

# 固定随机数种子
np.random.seed(250)


# 绘图函数
def plot_performance(estimator_names, rewards, action_optimality):
    for i, estimator_name in enumerate(estimator_names):
        average_run_rewards = np.average(rewards[i], axis=0)
        plt.plot(average_run_rewards, label=estimator_name)

    plt.legend()
    plt.xlabel("Steps")
    plt.ylabel("Average reward")
    plt.show()

    for i, estimator_name in enumerate(estimator_names):
        average_run_optimality = np.average(action_optimality[i], axis=0)
        plt.plot(average_run_optimality, label=estimator_name)
    plt.legend()
    plt.xlabel("Steps")
    plt.ylabel("% Optimal action")
    plt.show()


if __name__ == "__main__":
    # 10臂老虎机
    K = 10
    # 10000个时刻
    N_STEPS = 10000
    # 2000个不同赌博机问题
    N_RUNS = 2000
    N_ESTIMATORS = 2

    # 收益矩阵，形状为2 * 2000 * 10000，元素置0
    rewards = np.full((N_ESTIMATORS, N_RUNS, N_STEPS), fill_value=0.)
    # 最优选择矩阵，形状为2 * 2000 * 10000，元素置0
    optimal_selections = np.full((N_ESTIMATORS, N_RUNS, N_STEPS), fill_value=0.)

    # 2000个赌博机
    for run_i in tqdm(range(N_RUNS)):
        # 实例化类
        testbed = K_armed_testbed(k_actions=K)
        # 动作价值估计表，形状1*10
        action_value_estimates = np.full(K, fill_value=0.0)
        # 实例化采样平均方法类
        sample_average_estimator = SampleAverageEstimator(action_value_estimates.copy(), epsilon=0.1)
        # 实例化增量式方法类，学习率为0.1
        weighted_estimator = WeightedEstimator(action_value_estimates.copy(), epsilon=0.1, alpha=0.1)

        estimators = [sample_average_estimator, weighted_estimator]

        # 10000个时刻
        for step_i in range(N_STEPS):
            # 两种方法
            for estimator_i, estimator in enumerate(estimators):
                # 根据贪心算法选择动作
                action_selected = estimator.select_action()
                # 是否为最优收益
                is_optimal = testbed.is_optimal_action(action_selected)
                # 收益为正态分布随机数
                reward = testbed.sample_action(action_selected)
                # 更新Q值
                estimator.update_estimates(action_selected, reward)
                # 记录收益
                rewards[estimator_i][run_i][step_i] = reward
                # 记录是否选择最大收益
                optimal_selections[estimator_i][run_i][step_i] = is_optimal
            # 将每一步动作收益加上正态分布增量
            testbed.random_walk_action_values()

    plot_performance(["Ɛ=0.1", "Ɛ=0.1 α=0.1"], np.array(rewards), np.array(optimal_selections))

乐观初始值

目前为止我们讨论的所有方法都在一定程度上依赖于初始动作值 $Q_1(a)$ 的选择。
初始动作的价值提供了一种简单的试探方式。比如一个10臂测试平台，我们将初始值全部设为+5，因为 $q_{*}(a)$ 是按照均值为0方差为1的正态分布选择的。因此无论哪一种动作被选择，收益都比最开始的估计值要小；因此学习器会对得到的收益感到“失望”，从而转向另一个动作。
我们把这种鼓励试探的技术叫作乐观初始价值，在平稳问题中非常有效，但它远非鼓励试探的普遍有用方法。例如它不太适合非平稳问题，因为它试探的驱动力天生是暂时的。

基于置信度上界的动作选择

$\epsilon$ -贪心方法会尝试选择非贪心的动作，但是这是一种盲目的选择，因为它不大会去选择接近贪心或者不确定性特别大的动作。
在非贪心动作中，最好是根据它们的潜力来选择可能事实上是最优的动作，在就要考虑到它们的估计有多接近最大值，以及这些估计的不确定性。
一个有效的方法是按照以下公式选择动作：
$A_t \doteq \mathop{\arg\min}\limits_{a}\left[Q_t(a) + c\sqrt{\frac{ln\ t}{N_t(a)}}\right]$
其中 $ln\ t$ 表示 $t$ 的自然对数， $N_t(a)$ 表示在时刻 $t$ 之前动作 $a$ 被选择的次数。 $c$ 是一个大于0的数，它控制试探的程度。如果 $N_t(a) = 0$ ，则 $a$ 就被任务是满足最大化条件的动作。
这种基于置信度上界的动作选择的思想是，平方根项是对 $a$ 动作值估计的不确定性或方差的度量。
UCB（置信度上界）算法比较难处理非平稳问题，另一方面难处理打的状态空间。

梯度赌博机算法

在本节中，我们针对每个动作 $a$ 考虑学习一个数值化的偏好函数 $H_t(a)$ 。
偏好函数越大，动作就越频繁地被选择，但偏好函数的概率并不是从“收益”的意义上提出的。只有一个动作对另一个动作的相对偏好才是重要的。
如果我们给每一个动作的偏好函数都加上1000，那么对于按照softmax分布确定的动作概率没有任何影响：
$Pr\{A_t = a\}\doteq\frac{e^{H_t(a)}}{\sum_{b=1}^{k}e^{H_t(a)}}\doteq\pi_t(a)$
其中， $\pi_t(a)$ 是一个新的且重要的定义，用来表示动作 $a$ 在时刻 $t$ 时被选择的概率。所有偏好函数的初始值都是一样的，所以每个动作被选择的概率是相同的。
基于梯度上升思想，提出一种自然学习算法。在每个步骤中，在选择动作 $A_t$ 并获得 $R_t$ 之后，偏好函数将会按如下方式更新：
$H_{t+1}(A_t) \doteq H_t(A_t)+\alpha(R_t-\overline{R}_{t})(1-\pi_t(A_t)),\ \ 以及\\ H_{t+1}(a) \doteq H_t(a) - \alpha(R_t - \overline{R}_t)\pi_t(a) ,\ \ 对所有a\neq A_t$
其中， $\alpha$ 是一个大于0的数，表示步长。 $\overline{R}_t$ 项作为比较收益的一个基准项。如果收益高于它，那么在未来选择动作 $A_t$ 的概率就会增加，反之概率就会降低。未选择的动作被选择的概率上升。
对非关联任务，当任务是平稳的时候，学习器会试图寻找一个最佳的动作；当任务是非平稳的时候，最佳动作会随着时间的变化而改变，此时它会试着去追踪最佳动作。
在一般的强化学习任务中，往往有不止一种情境，它们的目标是学习一种策略：一个从特定情境到最优动作的映射。

本章小节

$\epsilon$ -贪心方法在一小段时间内进行随机的动作选择。
而UCB方法虽然采用确定的动作选择，却可以通过在每个时刻对那些具有较少样本的动作进行优先选择来实现试探。
梯度赌博机算法则不估计动作价值，而上利用偏好函数，使用softmax分布来以一种分级的、概率式的方式选择更优的动作。
贝叶斯方法假定已知动作价值的初始分布，然后在每步之后更新分布（假定真实的动作价值是平稳的）

【PaddleOCR】快速集成 PP-OCRv5 的 Python 实战秘籍--- PaddleOCR实例化 OCR 对象的参数介绍云天徽上 PaddleOCR python ocr 开发语言人工智能文字识别
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
机器学习，支持向量机svm和决策树xgboost介绍 suixinm 支持向量机机器学习决策树
支持向量机(SVM)和XGBoost都是非常强大且应用广泛的机器学习算法，但它们基于不同的原理，各有其优势和劣势，适用于不同的场景。以下是两者的主要区别和优劣势对比：1.核心思想与模型类型:SVM:核心思想:找到一个最优的超平面（在特征空间中），将不同类别的样本分隔开，并且使得该超平面到两类样本中最近的样本点（支持向量）的距离（间隔）最大化。核心是几何间隔最大化。模型类型:单个模型（虽然是核方法，
Google 相机增强（GCam）框架原理初探：图像质量与计算摄影的系统性突破观熵影像技术全景图谱：架构调优与实战数码相机影像 Camera
Google相机增强（GCam）框架原理初探：图像质量与计算摄影的系统性突破关键词：GCam、GoogleCamera、HDR+、SuperResZoom、Camera2API、多帧合成、算法流程、图像增强、夜视模式、Pixel相机移植摘要：GCam（GoogleCamera）作为Pixel系列设备图像质量表现的核心支撑，其背后的增强框架融合了Google长期积累的计算摄影技术，从HDR+到Sup
【学习】《算法图解》第十章学习笔记：贪婪算法程序员
一、贪婪算法概述贪婪算法（GreedyAlgorithm）是一种在每一步选择中都采取当前状态下最好或最优的选择，从而希望导致结果是最好或最优的算法。贪婪算法不从整体最优上加以考虑，它所做出的选择只是在某种意义上的局部最优选择。（一）算法适用场景贪婪算法适用于具有"贪心选择性质"的问题，即局部最优选择能导致全局最优解的问题。主要应用于：需要求解最优化问题问题具有贪心选择性质问题具有最优子结构性质（二
算法: 冒泡排序 Code溪算法 java 算法数据结构
冒泡排序是一种简单的排序算法，通过相邻元素的比较和交换，使较大的元素逐渐"浮"到数组末尾。时间复杂度:最佳O(n)|平均O(n²)|最差O(n²)空间复杂度:O(1)稳定性:稳定应用场景/前提条件适用于小规模数据对几乎已排序的数据效率较高算法步骤比较相邻的元素。如果第一个比第二个大，就交换它们对每一对相邻元素做同样的工作，从开始第一对到结尾的最后一对这步做完后，最后的元素会是最大的数针对所有的元素
剑指offer第二版学习笔记（一）前言虚空来袭剑指offer第二版剑指Offer 第2版
久闻剑指offer大名，如今我也到了要找工作的时候了，趁现在还有时间，多学一点是一点，在此开一个分集记录一下在学习剑指offer过程中的一些经验和想法。注：使用的书籍是剑指offer第二版。本期内容书籍内容书籍内容简介结语本期仅写了书籍内容介绍，作者还总结了书籍特色、对创作过程中家人、朋友等进行了感谢，我略去了这些部分。下期应该是接着看第一部分。
剑指offer 第二版（1——20）学心理学的猫剑指向offer 算法数据结构 c++
剑指OfferII001.整数除法intdivide(inta,intb){boolflag=false;if(b==INT_MAX){if(a==INT_MIN||a==-INT_MAX)return-1;if(a==INT_MAX)return1;elsereturn0;}if(b==INT_MIN){if(a==INT_MIN)return1;elsereturn0;}if(a==INT_M
【力扣—剑指 Offer（第 2 版）简单题目解析汇总】 Wupke 剑指offer 数据结构与算法学习 LeetCode leetcode 剑指offer 数据结构与算法
【力扣—剑指Offer（第2版）简单题目解析汇总】说明1、基本字符串数组数组-排序矩阵/模拟枚举2、算法动态规划深度优先搜索广度优先搜索递归分治记忆化搜索快速选择二分查找3、基础数据结构树（二叉树）二叉搜索树栈队列堆（优先队列）哈希表链表4、技巧性题目双指针位运算计数设计说明简单题目共计38道，按照标签分类为：基本、算法、基础数据结构、技巧等，具体如下。1、基本字符串剑指Offer05.替换空格.
【GitHub开源项目实战】高频交易系统实战解析：基于 Nautilus Trader 的策略回测与事件驱动架构优化观熵 GitHub开源项目实战 github 开源架构
高频交易系统实战解析：基于NautilusTrader的策略回测与事件驱动架构优化关键词：高频交易、事件驱动架构、NautilusTrader、量化回测、算法交易、PythonCython、交易引擎、回测系统、交易策略框架、实战优化摘要：本篇博客围绕GitHub上高质量的开源项目nautechsystems/nautilus_trader展开系统性实战解析。NautilusTrader是一套为专业
【点云压缩】Haar小波变换与RAHT自适应区域层级变换丶契阔算法
Haar小波小波变换由一堆小波基和其系数组成，小波基又分为母小波（低频的）和父小波（高频的）。常用于二维图形处理的小波变换是Haar小波变换，Haar小波变换具有压缩比、抗干扰、速度快的特点，经过小波变换后的系数数据会变得具有规律性，方便后续处理算法进行压缩，同时一些值较小的分量置0不影响图片整体观感。截取了PCL-AVS-PCC一段小波变换点云压缩的代码voidWaveletCoreTransf
从零开始大模型开发与微调：PyTorch中的卷积函数实现详解 AI天才研究院 AI人工智能与大数据 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
从零开始大模型开发与微调：PyTorch中的卷积函数实现详解1.背景介绍1.1大模型开发的意义1.2卷积神经网络在大模型中的应用1.3PyTorch框架简介2.核心概念与联系2.1卷积的数学定义2.2卷积神经网络的组成2.2.1卷积层2.2.2池化层2.2.3全连接层2.3卷积与大模型的关系3.核心算法原理具体操作步骤3.1卷积的前向传播3.2卷积的反向传播3.3卷积的优化策略3.3.1卷积核大小
C++(20/23)标准模板库编程 - 1 C++ 回顾 akluse C++c++开发语言
引言现代C++编程最引人注目的特点或许并非其语言本身的表达性语法与语义，而是标准模板库(STL)。STL是一个包含多功能模板类与算法的庞大集合。若运用得当，STL能显著简化和提升高性能优质软件的开发流程。然而对于许多C++程序员——无论是初学者还是资深开发者——要掌握如何有效运用STL的编程结构往往令人望而生畏。《实用C++STL编程》作为指导性教材，将教会您如何成功应用STL的类、算法及其他编程
插入排序解析老一岁算法数据结构排序算法
可以将插入排序类比为整理扑克牌的过程：左手持已排序的牌（初始为空）右手从桌上未排序的牌堆中逐张取牌将取到的牌插入左手正确位置最终左手持完全有序的牌前言一、算法工作原理插入排序是一种基于比较的简单排序算法，其核心思想是逐步构建有序序列。算法将待排序数组视为两个部分：已排序部分（初始时仅包含第一个元素）和未排序部分。通过不断从未排序部分取出元素，在已排序部分中找到适当位置插入，最终完成整个数组的排序。
深度剖析数据中台：大数据领域的核心技术架构大数据洞察大数据架构 java ai
深度剖析数据中台：大数据领域的核心技术架构关键词：数据中台、大数据、核心技术架构、数据治理、数据服务摘要：本文旨在对数据中台这一大数据领域的核心技术架构进行深度剖析。首先介绍了数据中台的背景，包括其目的、适用读者、文档结构和相关术语。接着阐述了数据中台的核心概念、原理和架构，通过文本示意图和Mermaid流程图进行直观展示。详细讲解了核心算法原理及具体操作步骤，并结合Python源代码进行说明。引
运筹系列91：vrp算法包PyVRP IE06 运筹学人工智能
1.介绍PyVRP使用HGS（hybridgeneticsearch）算法求解VRP类问题。在benchmark上的评测结果如下，看起来还不错：2.使用例子2.1CVRPCOORDS=[(456,320),#location0-thedepot(228,0),#location1(912,0),#location2(0,80),#location3(114,80),#location4(570,1
设计哈希集合【set】【拉链法】【位运算法】【定长拉链法】 - 哈希表本质深度解析 weixin_47868976 哈希算法散列表算法
LeetCode705设计哈希集合-哈希表本质深度解析题目描述设计一个哈希集合（HashSet），不使用任何内建的哈希表库，实现以下操作：add(key):向哈希集合中插入值keyremove(key):将给定值key从哈希集合中删除contains(key):返回哈希集合中是否存在这个值key数据范围:0data;public:MyHashSet(){//10^6+1大小的数组，key直接作为索
堆排序实现及复杂度分析 hixiaoyang 算法排序算法数据结构
一、算法概述堆排序(HeapSort)是一种基于二叉堆数据结构的比较排序算法。它利用了堆这种数据结构的特性：最大堆：每个节点的值都大于或等于其子节点的值最小堆：每个节点的值都小于或等于其子节点的值堆排序是不稳定排序算法，时间复杂度为O(nlogn)，空间复杂度为O(1)二、算法步骤1.构建初始堆将无序数组构建成一个最大堆（升序排序时）2.交换与调整将堆顶元素（最大值）与末尾元素交换缩小堆的范围，重
Web3.0 技术应用溯源系统建设天机️灵韵区块链区块链 web3.0
Web3.0技术与溯源（TrackandTrace）的结合，是区块链等去中心化技术在实际应用中的典型场景之一。通过Web3.0的底层技术，可以构建透明、不可篡改且可验证的溯源系统，解决传统供应链、商品流通等领域的数据信任问题。以下是两者的深度关联与具体应用：一、Web3.0如何赋能溯源？区块链的不可篡改性核心机制：区块链通过哈希链、共识算法（如PoW/PoS）确保数据一旦上链，无法被单一方修改或删
AI原生应用监控：实时领域偏见预警系统设计原理 Agentic AI人工智能与大数据 CSDN AI-native 人工智能 ai
AI原生应用监控：实时领域偏见预警系统设计原理关键词AI监控、算法偏见、实时预警、公平性AI、模型监控、偏见检测、AI治理摘要在人工智能驱动决策日益普及的今天，AI系统中的隐性偏见已成为影响公平性、可信度和业务连续性的关键风险。本文深入探讨了AI原生应用监控的核心挑战，重点剖析了实时领域偏见预警系统的设计原理与实现方法。通过将复杂的算法偏见比作"数字世界的隐形滤镜"，我们揭示了偏见如何在AI系统中
【加密】对称加密DES和非对称加密AES、数字签名 bdview 算法区块链密码学 openssl java
目录对称加密1.1定义1.2优缺点1.3常用对称加密算法非对称加密(AsymmetricCryptography)非对称加密(现代加密算法)2.1定义数字签名非常好的文章：《三分钟了解对称加密和非对称加密是如何工作的》https://zhuanlan.zhihu.com/p/108627377主要加密算法有哪些：https://blog.csdn.net/baidu_22254181/articl
【数据结构与算法】单向链表(添加节点、顺序添加节点、更新节点、删除节点、反转链表、获取链表长度、获取倒数第几个节点、打印链表、反转打印链表)
目录1.单向链表的介绍2.带head头的单向链表实现1.单向链表的介绍单向链表是有序的列表。以节点的方式来存储，是链式存储，每个节点包含data域和next域(指向下一个节点)，所以单向链表在内存中的储存是无序的单向链表分带头节点的单向链表，和没有头节点的单向链表2.带head头的单向链表实现实现对单向链表的增、删、改、查等操作单向链表各节点说明：head节点：不储存数据，next指向下一个节点最
招聘 | 美团 AI 搜索：致力用 AI 技术创造极致的搜索和交互体验美团技术团队人工智能大数据
敢用算法定义下一代搜索体验吗？我们正在寻找「AI狂热分子」——能让搜索结果秒懂用户灵魂需求的算法魔法师、精准雕琢搜索体验的算法工程技术革新者敢用大模型重构搜索逻辑的技术造浪者、深耕算法工程实践的大模型架构驾驭者愿用数据和代码解锁智能边界的未来架构师、用工程代码与数据打破技术边界的技术领航人和我们一起，可以做些什么？AI搜索团队致力于打造以智能搜索为核心的新型产品，以满足用户需求为目标，专注于为用户
行为正则化与顺序策略优化结合的离线多智能体学习算法
离线多智能体强化学习（MARL）是一个新兴领域，目标是在从预先收集的数据集中学习最佳的多智能体策略。随着人工智能技术的发展，多智能体系统在诸如自动驾驶、智能家居、机器人协作以及智能调度决策等方面展现了巨大的应用潜力。但现有的离线MARL方法也面临很多挑战，仍存在不协调行为和分布外联合动作的问题。为了应对这些挑战，中山大学计算机学院、美团履约平台技术部开展了学术合作项目，并取得了一些的成果，希望分享
在单向链表中插入节点——C语言基础 FifthDesign 链表单链表数据结构算法 C语言
向单向链表插入节点前言：链表的插入过程就是把新建的节点插入到已有的链表中，鉴于此种理解，也可以把链表的创建看做是一种特殊的插入节点过程，但是具体来说，链表的插入较于链表的创建来说稍复杂一些。文章目录向单向链表插入节点一、问题描述二、算法描述三、代码部分1.structure.h2.insert.h四、代码解析1.对于单向链表来说，插入为什么需要引入两个工具指针？2.指针变量的初始化![在这里插入图
利用视觉-语言模型搭建机器人灵巧操作的支架三谷秋水智能体大模型计算机视觉语言模型机器人人工智能计算机视觉机器学习
25年6月来自斯坦福和德国卡尔斯鲁厄理工的论文“ScaffoldingDexterousManipulationwithVision-LanguageModels”。灵巧机械手对于执行复杂的操作任务至关重要，但由于演示收集和高维控制的挑战，其训练仍然困难重重。虽然强化学习(RL)可以通过在模拟中积累经验来缓解数据瓶颈，但它通常依赖于精心设计的、针对特定任务的奖励函数，这阻碍了其可扩展性和泛化能力。
【机器学习第四期（Python）】LightGBM 方法原理详解 WW、forever 机器学习原理及代码实现机器学习 python 人工智能
LightGBM概述一、LightGBM简介二、LightGBM原理详解⚙️核心原理LightGBM的主要特点三、LightGBM实现步骤（Python）可调参数推荐完整案例代码（回归任务+可视化）参考LightGBM是由微软开源的基于梯度提升框架（GBDT）的机器学习算法，专为高性能、高效率设计，适用于大规模数据处理任务。它在准确率、训练速度和资源使用上都优于传统GBDT实现（如XGBoost）
【机器学习】机器学习的基本分类-监督学习-线性回归（Linear Regression） IT古董人工智能机器学习机器学习分类学习人工智能线性回归
线性回归是监督学习中的一种基础算法，用于解决回归问题。它通过拟合一条直线（或平面、高维超平面），来预测输出与输入变量之间的关系。1.线性回归的基本概念目标给定输入和对应的输出y，找到一个线性函数：其中：是权重（回归系数）。b是偏置（截距）。y是预测值。损失函数为了找到最佳的w和b，需要最小化预测值和真实值
深入了解Stable Diffusion：解锁AI图像生成的神秘密码 ????? DTcode7 AI生产力 AI AIGC stable diffusion AI生产力前沿
深入了解StableDiffusion：解锁AI图像生成的神秘密码?????StableDiffusion：AI的像素炼金术士基础概念：从扩散到聚焦的魔法技术深潜：核心机制解析反向扩散算法代码实验室：动手实践StableDiffusion的魔法示例一：一句话，一个世界示例二：风格迁移的艺术实战技巧与最佳实践实际挑战与解决方案结语：艺术与科技的无限对话在这个数字洪流涌动的时代，AI图像生成技术正以前
g711a音频编码记录
写了个安卓wavpcmhttp直播流的程序。客户端采用sdl2直接播放pcm.工作的很好，但是，非常耗费带宽差不多100kb/s的网速。非常不利于外网的音频传输。尝试用zlib压缩，效果不尽理想。只压缩成90%。节约了1/10带宽遂放弃。尝试了安卓端mp3直播，效果不错，差不多带宽30kb/s。但是mp3有个很大的问题，就是延迟增大了几秒。研究了下wav压缩音频格式，发觉还有g711a，这个算法比
MCP模型上下文协议：AI人工智能模型训练的自动化调参 AI天才研究院 AI人工智能与大数据人工智能自动化运维 ai
MCP模型上下文协议：AI人工智能模型训练的自动化调参关键词：MCP模型、自动化调参、AI训练、超参数优化、上下文协议、机器学习、深度学习摘要：本文深入探讨MCP模型上下文协议在AI模型训练自动化调参中的应用。MCP(ModelContextProtocol)是一种创新的自动化调参框架，通过上下文感知和动态参数调整机制，显著提升模型训练效率和性能。文章将从理论基础、算法实现、数学原理到实际应用进行
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs

强化学习 多臂赌博机

一个 k k k臂赌博机问题

动作-价值方法

10臂测试平台

增量式实现

跟踪一个非平稳问题

练习2.5

testbed.py

estimators.py

Exercise 2.5.py

乐观初始值

基于置信度上界的动作选择

梯度赌博机算法

本章小节

你可能感兴趣的:(强化学习（第二版）知识点整理,算法,贪心算法,强化学习)

强化学习多臂赌博机

一个 $k$ 臂赌博机问题