Mr_哲

强化学习基础——bandit

为选择而生

为错误买单代价

经典方法

朴素Bandit算法

ε-Greedy算法

Thompson sampling算法

Thompson sampling算法流程

UCB

UCB算法流程

LinUCB

Context Bandit-附加信息刻画决策过程

Context Bandit如何学习

LinUCB算法流程

LinUCB代码

LinUCB with Hybrid Linear Models

Hybrid LinUCB算法流程

Hybrid LinUCB代码

曾经有一份真挚的感情摆在我的面前我没有珍惜，等我失去的时候才追悔莫及，人间最痛苦的事莫过于此。人生面临很多抉择，虽不如大话西游生死离别，却也让人头疼。如何寻找一条快捷通往华山之路呢？

为选择而生

一个赌徒，要去摇老虎机，走进赌场一看，一排老虎机，外表一模一样，但是每个老虎机吐钱的概率可不一样，他不知道每个老虎机吐钱的概率分布是什么，那么每次该选择哪个老虎机可以做到最大化收益呢？这就是多臂赌博机问题 ( Multi-armed bandit problem, K-armed bandit problem, MAB )。

解决这个问题最好的办法是去试（探索阶段），但不是盲目地试，而是有策略（利用阶段）地快速试一试，这些策略就是Bandit算法。

探索阶段 (Exploration)：通过多次试错推断出选择是否正确的概率。
利用阶段 (Exploitation)：已知所有的选择正确的概率，该如何决策？

核心问题：什么时候探索(Exploration)，什么时候利用 (Exploitation)?

Exploration的代价是要不停的试错，试错成本高，但有助于更加准确的估计选择的概率；
Exploitation会基于目前的估计拿出“最好的”选择，但目前的估计可能是不准的（因为试错依然不够多）。

为错误买单代价

Bandit算法需要量化一个核心问题：探索成本有多大？能不能少为错误买单？

通常使用累积遗憾(regret) 来衡量不同 Bandit 算法在解决多臂问题上的效果。

$R_{T}=\sum_{i=1}^{T}\left ( w_{opt} - W_{B(i)} \right )=Tw^{*}-\sum_{i=1}^{T}w_{B(i)}$

$w_{B(i)$ 是第i次试验时被选中臂的期望收益， $w^{*}$ 是所有臂中最优的那个，如果上帝提前告诉我们，我们当然每次试验都选它，问题是上帝不告诉我们。这个公式可以用来对比不同 Bandit 算法的效果：对同样的多臂问题，用不同的 Bandit 算法试验相同次数，看看谁的regret增长得慢。

经典方法

朴素Bandit算法

先随机试若干次，计算每个臂的平均收益，一直选均值最大那个臂。这个算法是人类在实际中最常采用的，不可否认，它还是比随机乱猜要好。

ε-Greedy算法

贪婪策略：

以 $\small \epsilon \in(0,1)$ 概率选择探索，并根据反馈更新概率 $\left \{ \tilde{p}_{1},\tilde{p}_{2},..\tilde{p}_{N} \right \}$ ；
以 $1- \epsilon$ 概率选择利用，从 $\left \{ \tilde{p}_{1},\tilde{p}_{2},..\tilde{p}_{N} \right \}$ 中选择概率最高的做决策；

$\epsilon$ 的值可以控制对Exploit和Explore的偏好程度。越接近0，越保守，只想固守而不想选择探索。

同样其缺点也是明显的：

在试错次数相同的情况下，good和bad的概率是一样的；
在估计的成功概率相同的情况下，good和bad得到再试吃的概率是一样的；

Thompson sampling算法

good choice概率 $\theta$ 是一个客观存在的、固定的值，可以用一个概率分布来描述 $\theta$ 的不确定性。随着样本的增加，这个概率分布在真实 $\theta$ 附近的概率密度会越来越大。

再来看，以概率p = $\theta$ 描述good(reward=1)，以概率p = $\theta$ 描述bad(reward=0)，这是一个典型的Bernoulli (伯努利)分布。

$p(reward|\theta )=Bernoulli\left ( \theta \right )$

Bayesian学派会用概率分布来描述 $\theta$ 不确定性：

$p(\theta|reward )=\frac{p(reward|\theta)p(\theta )}{p(reward)}\propto p(reward|\theta)p(\theta )=Bernoulli\left ( \theta \right )$

$p(\theta )$ 的选取直接决定了 $Bernoulli\left ( \theta \right )p(\theta )$ 的函数形式，在贝叶斯统计中，

$Bernoulli\left ( \theta \right )$ 经常和 $Beta\left ( \alpha ,\beta \right )$ 分布一起使用（称为共轭分布），：

$Bernoulli\left ( \theta \right )Beta\left ( \alpha ,\beta \right )$ 会得到一个新的 $Beta\left ( \alpha ,\beta \right )$ 分布：

如果 $\small Bernoulli\left ( \theta \right )$ 的结果为1，则会得到 $\small Beta\left ( \alpha+1 ,\beta \right )$
如果 $\small Bernoulli\left ( \theta \right )$ 的结果为0，则会得到 $\small Beta\left ( \alpha ,\beta+1 \right )$

beta分布可以看作一个概率的概率分布，对二项分布中成功概率p的概率分布的描述。

Thompson sampling算法流程

用 $\small p(\theta|reward )$ 刻画good choice的概率，得到 $\small \left \{ p(\theta_{1}|reward_{1} ),...p(\theta_{N}|reward_{N} ) \right \}$ ；
对每个choice $\small p(\theta_{i}|reward_{i} )$ 随机抽取一个样本，得到 $\small \left \{ \theta_{1},...\theta_{N} \right \}$ ；
推荐 $\small \theta_{i}$ 最大的choice，得到 $\small reward_{i}$ ；
更新 $\theta_{i}$ 的分布： $\small p(\theta|reward )=Beta(\alpha^{'} ,\beta^{'} )\propto Bernoulli\left ( \theta \right )Beta(\alpha,\beta )$ ；

UCB

item被试错k次，计算item选择概率：
$\small \tilde{p}=\frac{\sum reward_{i}}{k}$
当k趋于正无穷时， $\small \tilde{p}$ 会趋近于item选择真实概率p；
现实中item被试错概率不可能趋于无穷大，因此估计出item收益概率和真实收益概率总会存在一个差值 $\small \Delta$ ，即 $\small \tilde{p}-\Delta <p<\tilde{p}+\Delta$
对某个item尝试的次数越多，对该item回报估计的置信区间越窄、估计的不确定性降低，那些均值更大的item倾向于被多次选择，这是算法保守的部分（exploitation）；对某个item的尝试次数越少，置信区间越宽，不确定性较高，置信区间较宽的item倾向于被多次选择，这是算法激进的部分（exploration）。

总是乐观地认为每道菜能够获得的回报是 $\small \tilde{p}+\Delta$ ，这便是著名的Upper Confidence Bound (UCB) 算法。

假设 $reward_{1},reward{2},...reward_{N}$ 是在[0,1]之间独立随机变量，则

$P\left \{ \left | \tilde{p}-p \right |\leq \delta \right \}\geqslant 1-2e^{-2n\delta ^2}$

其中， $\small \tilde{p}=\frac{\sum reward_{i}}{k}$ 表示样本均值， $\small p$ 表示分布均值。

当 $\delta=\sqrt{\frac{2InT}{n}}$ 时，其中T表示由T个user，n表示choice次数。可以得到：

$P\left \{ \left | \tilde{p}-p \right |\leq \sqrt{\frac{2InT}{n}} \right \}\geqslant 1-\frac{2}{T^{4}}$

也就是说：

$\tilde{p}-\sqrt{\frac{2InT}{n}} \leqslant p \leq \tilde{p} + \sqrt{\frac{2InT}{n}}$ 是以 $1-\frac{2}{T^{4}}$ 概率成立的。

UCB算法流程

初始化：先对每个item都试一遍；
按照如下公式计算每个item的概率，然后选择概率最大的item作为选择：

$\tilde{p} + \sqrt{\frac{2InT}{n}}$
公式反映均值越大，标准差越小，被选中的概率会越来越大，同时哪些被选次数较少的臂也会得到试验机会。

与ε-Greedy算法相比，这种策略的好处在于：

考虑了回报均值的不确定性，让新的item更快得到尝试机会，将探索+开发融为一体；
基础的UCB算法不需要任何参数，因此不需要考虑如何验证参数（ε如何确定）的问题；

UCB算法的缺点：

UCB算法需要首先尝试一遍所有item，因此当item数量很多时是一个问题；
一开始各item选择次数都比较少，导致得到的回报波动较大（经常选中实际比较差的item）；

LinUCB

将item看成是独立的个体，缺乏用附加信息刻画决策过程的机制（item的属性、用户画像、交互上下文）：
忽略了item的属性，item类型、标签等；
忽略了用户之间的偏好差别用户可以用年龄、性别来刻画，不同的用户的偏好是不一样的；
忽略了用户选择item的偏好上下文、时间常常是不同的；

Yahoo!的科学家们在2010年发表了A Contextual-Bandit Approach to Personalized News Article Recommendation，利用context信息刻画决策过程，称之为LinUCB。

Context Bandit-附加信息刻画决策过程

在Context bandit中，每次决策由item属性、用户画像、时间、地点上下文决定：

观测到特征向量x=(item类型，item标签，男，女，年龄，时间，地域)；
预测用户是否选择： $\tilde{p}=x^{T}\theta$ ，其中 $\theta$ 是要学习系数；
对所有item进行预测得到 $\left ( \tilde{p}_{1},\tilde{p}_{2},...\tilde{p}_{N} \right )$ 选择；

Context Bandit如何学习

在context bandit中，使用的线性回归－Ridge Regression来求解 $\theta$ 。

输入：多次实验结果 $\left \{ \left ( x_{1},reward_{1} \right ),\left ( x_{2},reward_{2} \right ),...,\left ( x_{N},reward_{N} \right ) \right \}$

优化目标如下： $Loss\left ( \theta \right )=\left \| X\theta -rewards \right \|^2+\left \| I\theta \right \|^2$

其中， $X=[x_{1},x_{2},...x_{N}]$ 是N次观测组成特征矩阵， $rewards=[reward_{1},reward_{2},...reward_{N}]$ 是N次实验结果， $\left \| I\theta \right \|^2$ 也就是常用的L2 normalization，防止过拟合。

为了求解 $\theta$ ，对 $Loss\left ( \theta \right )$ 求导：

$\frac{\partial Loss\left ( \theta \right )}{\partial x}=2X^{T}\left ( X\theta -reward \right )+2I^{T}I\theta =0$

得到 $\theta=\left ( X^{T}X+I^{T}I \right )^{-1}X^{T}Reward$

估计出item概率 $\tilde{p}$ 和真实概率总会存在一个差值 $\small \Delta$ ，即 $\small \tilde{p}-\Delta <p<\tilde{p}+\Delta$ 。总是乐观地认为每道菜能够获得的回报是 $\small \tilde{p}+\Delta$ 。在MAB中， $\small \Delta$ 是通过Chernoff-Hoeffding Bound得到的，reward是在[0, 1]之间独立同分布的。在Context Bandit中，类似Chernoff-Hoeffding Bound的定理来量化 $\small \Delta$ ，如下：

$\small \Delta=\left ( 1+\sqrt{In\left ( 2/\delta \right )/2} \right )\sqrt{x^{T}\left ( X^{T}X+I^{T}I \right )^{-1}x}$ 。

LinUCB算法流程

LinUCB代码

def update(reward):
    if reward == -1:
        return
    elif reward == 1:
        r = r1
    elif reward == 0:
        r = r2

    Aa[max_a] += np.outer(x, x)
    Aa_inv[max_a] = np.linalg.inv(Aa[max_a])
    ba[max_a] += r * x
    theta[max_a] = Aa_inv[max_a].dot(ba[max_a])


def recommend(time, user_features, choices):
    global max_a
    global x

    article_len = len(choices)

    x = np.array(user_features).reshape((d, 1))
    x_t = np.transpose(x)
    index = [index_all[article] for article in choices]
    UCB = np.matmul(np.transpose(theta[index], (0, 2, 1)), x) + alpha * np.sqrt(np.matmul(x_t, Aa_inv[index].dot(x)))

    max_index = np.argmax(UCB)
    max_a = index[max_index]
    return choices[max_index]

LinUCB with Hybrid Linear Models

在很多系统中，各个arm之间会有一部分共享参数，每个arm有独立参数。比如在推荐系统问题中，关于用户和当前时间的feature可以共享参数，每个ar的参数则互相独立。在这个定义下，我们仍然把独立部分的参数定义为 $\theta _{a}^{*}$ ，并定义共享部分参数为 $\beta ^{*}$ ，则：

$\small E\left ( r_{t,a}|x_{t,a} \right )=x_{t,a}^{T}\theta _{a}^{*}+z_{t,a}^{T}\beta ^{*}$

其中， $\small z_{t,a}^{T} \in R^{k}$ 是user和item交叉特征， $\small \beta ^{*}$ 是所有arm系数矩阵。

Hybrid LinUCB算法流程

Hybrid LinUCB代码

    def update(self, reward):
        if reward == -1:
            pass
        elif reward == 1 or reward == 0:
            if reward == 1:
                r = self.r1
            else:
                r = self.r0

            self.A0 += self.BaT[self.a_max].dot(self.AaIBa[self.a_max])
            self.b0 += self.BaT[self.a_max].dot(self.AaIba[self.a_max])
            self.Aa[self.a_max] += np.dot(self.xa, self.xaT)
            self.AaI[self.a_max] = np.linalg.inv(self.Aa[self.a_max])
            self.Ba[self.a_max] += np.dot(self.xa, self.zT)
            self.BaT[self.a_max] = np.transpose(self.Ba[self.a_max])
            self.ba[self.a_max] += r * self.xa
            self.AaIba[self.a_max] = np.dot(self.AaI[self.a_max], self.ba[self.a_max])
            self.AaIBa[self.a_max] = np.dot(self.AaI[self.a_max], self.Ba[self.a_max])

            self.A0 += np.dot(self.z, self.zT) - np.dot(self.BaT[self.a_max], self.AaIBa[self.a_max])
            self.b0 += r * self.z - np.dot(self.BaT[self.a_max], self.AaIba[self.a_max])
            self.A0I = np.linalg.inv(self.A0)
            self.A0IBaTAaI[self.a_max] = self.A0I.dot(self.BaT[self.a_max]).dot(self.AaI[self.a_max])
            # self.AaIBaA0IBaTAaI[self.a_max] = np.matmul(self.AaIBa[self.a_max], self.A0IBaTAaI[self.a_max])
            self.beta = np.dot(self.A0I, self.b0)
            self.theta = self.AaIba - np.dot(self.AaIBa, self.beta)

        else:
            pass

    def recommend(self, timestamp, user_features, articles):
        article_len = len(articles)  # 20

        self.xa = np.array(user_features).reshape((self.d, 1))  # (6,1)
        self.xaT = np.transpose(self.xa)  # (1,6)

        index = [self.index_all[article] for article in articles]
        article_features_tmp = self.article_features[index]

        # za : feature of current user/article combination, k*1
        za = np.outer(article_features_tmp.reshape(-1), self.xa).reshape((article_len, self.k, 1))  # (20,36,1)
        zaT = np.transpose(za, (0, 2, 1))  # (20,1,36)

        A0Iza = np.matmul(self.A0I, za)  # (20,36,1)
        A0IBaTAaIxa = np.matmul(self.A0IBaTAaI[index], self.xa)  # (20,36,1)
        AaIxa = self.AaI[index].dot(self.xa)  # (20,6,1)
        AaIBaA0IBaTAaIxa = np.matmul(self.AaIBa[index], A0IBaTAaIxa)  # (20,6,1)
        # AaIBaA0IBaTAaIxa = np.matmul(self.AaIBaA0IBaTAaI[index], self.xa) # (20,6,1)

        s = np.matmul(zaT, A0Iza - 2 * A0IBaTAaIxa) + np.matmul(self.xaT, AaIxa + AaIBaA0IBaTAaIxa)  # (20,1,1)
        p = zaT.dot(self.beta) + np.matmul(self.xaT, self.theta[index]) + self.alpha * np.sqrt(s)  # (20,1,1)
        # assert (s < 0).any() == False
        # assert np.isnan(np.sqrt(s)).any() == False

        # print A0Iza.shape, A0IBaTAaIxa.shape, AaIxa.shape, AaIBaA0IBaTAaIxa.shape, s.shape, p.shape (for debugging)
        max_index = np.argmax(p)
        self.z = za[max_index]
        self.zT = zaT[max_index]
        art_max = index[max_index]
        self.a_max = art_max  # article index with largest UCB

        return articles[max_index]

Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
非对称加密算法————RSA理论及详情 hu19930613
转自：https://www.kancloud.cn/kancloud/rsa_algorithm/48484一、一点历史1976年以前，所有的加密方法都是同一种模式：（1）甲方选择某一种加密规则，对信息进行加密；（2）乙方使用同一种规则，对信息进行解密。由于加密和解密使用同样规则（简称"密钥"），这被称为"对称加密算法"（Symmetric-keyalgorithm）。这种加密模式有一个最大弱点
数据结构 1 五花肉村长数据结构算法开发语言 c语言 visualstudio
1.什么是数据结构数据结构（DataStructure）是计算机存储和组织数据的方式，是指相互之间存在的一种或多种特定关系的数据元的集合。2.什么是算法算法（Algorithm）就是定义良好的计算过程，他取一个或一组的值为输入，并产生出一个或一组值作为输出。简单来说算法就是一系列的计算步骤，用来将输入数据转化成输出结果。3.数据结构和算法的书籍资料学习完数据结构知识，可以去看《剑指offer》和《
三点or多点的变换矩阵求解opencv & eigen 合工大机器人实验室 C++矩阵 opencv 线性代数
《Estimating3-DRigidBodyTransformations:AComparisonofFourMajorAlgorithms》，它使用SVD方法计算T和t。只要算出变换矩阵，就可以算出A坐标系的一个点P在坐标系B里的对应点坐标，即R为3x3的转换矩阵，t为3x1的位移变换向量，这里点坐标均为3x1的列向量（非齐次形式，齐次形式下为4x1列向量，多出的一个元素值补1而已）。理论上只
详解贪心算法凭君语未可算法软考算法贪心算法
贪心算法什么是贪心算法？贪心算法的特点贪心算法的应用场景贪心算法的基本思路贪心算法的经典应用1.活动选择问题2.最小硬币找零问题3.霍夫曼编码问题贪心算法的正确性贪心算法的优缺点总结什么是贪心算法？贪心算法（GreedyAlgorithm）是一种基于每一步都选择当前最优解的算法设计思想。它在每个阶段总是做出在当前看来最优的选择（局部最优解），而不回溯或考虑整个问题的全局最优性。它期望通过这样逐步构
算法设计与分析合并排序的递归实现算法 Jxcupupup 算法算法算法设计与分析
合并排序的递归实现算法。输入：先输入进行合并排序元素的个数，然后依次随机输入（或随机生成）每个数字。输出：元素排序后的结果，数字之间不加任何标识符。示//完整代码在GitHub上//https://github.com/Jxcup/Course_Algorithm_Analysis-Design/blob/main/MergeSort_iteration.cpp//合并排序递归#includeus
c语言输入两个字符串按字典数序比较大小,算法学习笔记（一）C++排序函数、映射技巧与字典树... Nature自然科研 c语言输入两个字符串按字典数序比较大小
1.头文件algorithm中有函数sort()用于排序，参数为：排序起始地址，排序结束地址，排序规则(返回bool型)例如，要将array[]={5,7,1,2,9}升序排列，则使用：boolcmp(inta,intb);intmain(){intarray[]={5,7,1,2,9};sort(array,array+5,cmp);for(inti=0;icoutb)returnfalse;e
遗传算法（Genetic Algorithm,GA）-基于MATLAB环境实现朱佩棋（代码版）启发式算法启发式算法算法 matlab
1.GA简介geneticalgorithm，美国Holland教授创立，基于达尔文进化论和孟德尔的遗传学说。遗传算法类比了生物界中自然选择、交叉、变异等自然进化方式，利用数码串类比染色体，通过选择、交叉、变异等遗传算子模拟生物的进化过程。1.1遗传算法的流程1.编码伪代码：2.产生初始群体Chooseinitialpopulation3.计算适应度Evaluatethefitnessofeach
【译】Swift算法俱乐部-布隆过滤器 Andy_Ron
Swift算法俱乐部本文是对SwiftAlgorithmClub翻译的一篇文章。SwiftAlgorithmClub是raywenderlich.com网站出品的用Swift实现算法和数据结构的开源项目，目前在GitHub上有18000+⭐️，我初略统计了一下，大概有一百左右个的算法和数据结构，基本上常见的都包含了，是iOSer学习算法和数据结构不错的资源。andyRon/swift-algori
AdaBoost算法（AdbBoost Algorithm）—有监督学习方法、非概率模型、判别模型、非线性模型、非参数化模型、批量学习剑海风云 Artificial Intelligence 人工智能机器学习提升方法 AdaBoost
定义输入:训练数据集T={(x1,y1),(x2,y2),⋯ ,(xN,yN)}T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}T={(x1,y1),(x2,y2),⋯,(xN,yN)},其中，xi∈χ⊆Rn,yi∈y={−1,+1}x_i\in\chi\subseteqR^n,y_i\in{\tty}=\{-1,+1\}xi∈χ⊆Rn,yi∈y={−1,+1}
Study Plan For Algorithms - Part29 五月的风与火 Study Plan For Algorithms python 算法数据结构
1.在排序数组中查找数字统计一个数字在排序数组中出现的次数。方法一：defsearch(nums,target):returnhelper(nums,target)-helper(nums,target-1)defhelper(nums,target):i=0j=len(nums)-1whileitargetor(lowerandnums[mid]>=target):right=mid-1else
斐波纳契数列(f(n)=f(n-1)+f(n-2))问题剑海风云 Algorithm 算法数列
packageorg.nxt.algorithm.series;importjava.math.BigInteger;/***fibonacciseries*@authornanxiaotao**/publicclassFibonacciSeries{privatestaticBigInteger[][]matrix(BigInteger[][]arrLeft,BigInteger[][]arrR
Kamada-Kawai 布局算法简介，nx.kamada_kawai_layout(G) 小桥流水---人工智能人工智能深度学习机器学习算法算法 python 人工智能
nx.kamada_kawai_layout(G)是NetworkX中用于图布局的一个函数，它基于Kamada-Kawai弹簧嵌入算法（Kamada-KawaiSpringLayoutAlgorithm）。这是一个经典的力导向布局算法，它特别适用于中小型图的可视化，能够让节点的位置更直观地反映它们之间的关系。Kamada-Kawai布局算法简介Kamada-Kawai算法是一种用于图的二维或三维可
翻译 Compaction wiki i_need_job
网址：https://github.com/facebook/rocksdb/wiki/Compaction有道CompactionCompactionalgorithmsconstraintheLSMtreeshape.Theydeterminewhichsortedrunscanbemergedbyitandwhichsortedrunsneedtobeaccessedforareadoper
Go-Snowflake 项目教程喻季福
Go-Snowflake项目教程go-snowflake❄AnLockFreeIDGeneratorforGolangbasedonSnowflakeAlgorithm(Twitterannounced).项目地址:https://gitcode.com/gh_mirrors/go/go-snowflake项目介绍Go-Snowflake是一个基于Go语言实现的分布式唯一ID生成器，灵感来源于Tw
2023ICPC济南站训练补题 farawaytravelerchy ACM-ICPC训练补题算法 python
title:2023ICPC济南站VP补题记录(第48届)date:2024-01-1812:16:23mathjax:truetags:XCPCcategories:Algorithm文章目录2023ICPC济南站训练补题注:暂时更新vp时ac的4道题，其余题目之后持续更新[Problem-D-LargestDigit](https://codeforces.com/gym/104901/pro
【算法】浅析贪心算法 Ustinian_310 算法贪心算法 python
贪心算法：高效解决问题的策略1.引言在计算机科学和优化领域，贪心算法是一种常用的解决问题的策略。它以当前情况为基础，做出最优选择，从而希望最终结果也是最优的。本文将带你了解贪心算法的原理、使用方法及其在实际应用中的意义，并通过代码示例和图示帮助大家更好地理解。2.贪心算法简介2.1定义贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前状态下最优（即最有利）的选择，从而希望导致
OpenCV结构分析与形状描述符（8）点集凸包计算函数convexHull()的使用 jndingxin OpenCV opencv 人工智能计算机视觉
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述查找一个点集的凸包。函数cv::convexHull使用斯克拉斯基算法（Sklansky’salgorithm）来查找一个二维点集的凸包，在当前实现中该算法的时间复杂度为O(NlogN)。函数cv::convexHull是OpenCV库中的一个功能，用于计算一组二
Java算法之判断平衡二叉树持续输出... #Java 算法算法
判断一棵二叉树是否是平衡二叉树（即AVL树）是一个常见的问题。平衡二叉树的定义是：对于树中的每个节点，其左右子树的高度差不超过1。我们可以通过递归的方法来判断一棵二叉树是否是平衡的packagecom.huawei.od.huawei.algorithm;/***@ClassName:IsBalancedBinaryTree是否是平衡二叉树*@Desc:判断一棵二叉树是否是平衡二叉树（即AVL树）
Python深度学习-环境 cunzai1985 tensorflow python 深度学习人工智能 anaconda
Python深度学习-环境(PythonDeepLearning-Environment)Inthischapter,wewilllearnabouttheenvironmentsetupforPythonDeepLearning.Wehavetoinstallthefollowingsoftwareformakingdeeplearningalgorithms.在本章中，我们将学习为Python
探索图形算法的奇妙世界：goraph 孔岱怀
探索图形算法的奇妙世界：goraphgoraphPackagegoraphimplementsgraphdatastructureandalgorithms.项目地址:https://gitcode.com/gh_mirrors/go/goraph在编程领域，数据结构和算法是构建高效应用的基础。今天，我们要向您推荐一款名为【goraph】的开源项目，它是一个用Go语言实现的图形数据结构及其算法库。
【小白深度教程 1.5】手把手教你用立体匹配进行双目深度估计，以及 3D 点云生成（含 Python 代码解读）小寒学姐学AI 从零开始的深度补全和深度估计 3d python 人工智能计算机视觉自动驾驶深度学习笔记
【小白深度教程1.5】手把手教你用立体匹配进行双目深度估计，以及3D点云生成（含Python代码解读）1.立体匹配的原理2.块匹配算法（BlockMatchingAlgorithm）2.1代码中的立体匹配过程概述2.2代码原理及公式2.2.1.窗口匹配和代价函数（SAD）2.2.2.匹配过程2.2.3.视差图生成2.3代码的整体算法流程2.4性能与优化3.加载双目图像计算视差4.读取相机参数并计算
关于多变量超扭曲算法的到达时间评估 beegreen 控制与信号处理算法动态规划数学建模
关于多变量超扭曲算法的到达时间评估I.引言II.问题陈述III.李雅普诺夫函数的性质IV.到达时间估计V.原始系统的到达时间估计VI.最差干扰VII.数值问题和示例A.示例VIII.结论致谢参考文献REFERENCESOnMultivariableSuper-TwistingAlgorithmReachingTimeAssessment摘要——本文提供了一种基于线性矩阵不等式（LMI）的程序，用于
SSH Secure File Transfer Client连接远程设备报“algorithm negotiation failed”错的解决方法成长Bar uinx/linux negotiation failed algorithm negotiatio
SSHSecureFileTransferClient连接远程设备报“algorithmnegotiationfailed”错的解决方法sshclient报algorithmnegotiationfailed的解决方法之一是修改sshd的配置文件，请参考以下三个步骤进行解决该问题。第一步：进入配置文件/etc/ssh/sshd_config第二步：在配置文件中添加Ciphersaes128-cbc
机器学习系列12：反向传播算法 SuperFengCode 机器学习系列机器学习神经网络反向传播算法梯度检验机器学习笔记
当我们要运用高级算法进行梯度下降时，需要计算两个值，代价函数和代价函数的偏导数：代价函数我们之前已经知道怎么求了，现在只需要求代价函数的偏导数即可。采用如下方法，先进行前向传播算法，然后再进行反向传播算法（BackpropagationAlgorithm），反向传播算法与前向传播算法方向相反，它用来求代价函数的偏导数。具体过程看下图：用δ作为误差，计算方法为：有时我们在运用反向传播算法时会遇到bu
[Algorithm][综合训练][栈和排序][加减]详细讲解 DieSnowK [OJ]#[综合训练]Algorithm 算法综合训练栈和排序加减 C++详细讲解
目录1.栈和排序1.题目链接2.算法原理详解&&代码实现2.加减1.题目链接2.算法原理详解&&代码实现1.栈和排序1.题目链接栈和排序2.算法原理详解&&代码实现解法：栈+贪心->每次尽可能先让当前需要的最大值弹出去vectorsolve(vector&a){intn=a.size();vectorhash(n+1,false);vectorret;intaim=n;stackst;for(au
What are some of halcon‘s best algorithms that opencv doesn‘t implement 0010000100 OpenCV opencv 人工智能
HALCON,ahighlyoptimizedmachinevisionlibrary,offersarangeofadvancedalgorithmsthatOpenCVeitherdoesn’timplementorhandlesdifferently.SomeofthekeystrengthsofHALCONcomparedtoOpenCVinclude:Shape-BasedMatchin
[ A*实现 ] C++，矩阵地图 Arik (IoT) 移动机器人路径规划路径规划
参考文献：A*寻路算法C++简单实现（csdn.net）ROSpackageofAstaralgorithm(github.com)实现代码：https://gitee.com/upcgyl/astar.git存在问题：地图目前必须是可搜索到路径周围点寻找太过复杂OpenList和CloseList结构不统一导致查找函数需要写两个后续优化：思考二叉堆的实现方式优化地图输入区分linux端：增加Op
[C++] C++11详解（四）lambda表达式水墨不写bug Cpp c++开发语言
标题：[C++]C++11详解（四）lambda表达式@水墨不写bug目录一、lambda表达式lambda表达式语法lambda表达式与仿函数关系正文开始：一、lambda表达式作为C++学习者，你一定对algorithm中的sort函数十分熟悉，sort函数默认可以对自定义类型的数据按照升序排序。在实际生活中，我们常常遇到的场景是需要对自定义类型对象排序。如何对自定义类型排序？其实就是按照某一
令牌桶算法：原理与代码实现 Lill_bin 杂谈网络服务器运维大数据 java 开发语言后端
引言令牌桶算法（TokenBucketAlgorithm）是一种网络流量整形（TrafficShaping）和速率限制（RateLimiting）的算法。它能够限制数据传输的平均速率，同时允许某种程度的突发传输。在许多场景中，如网络带宽管理、API速率限制等，令牌桶算法都得到了广泛的应用。原理令牌桶算法的核心思想是使用一个虚拟的“桶”来存储令牌，每个令牌代表一个数据包的传输权限。系统按照固定的速率
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息

强化学习基础——bandit

为选择而生

为错误买单代价

经典方法

朴素Bandit算法

ε-Greedy算法

Thompson sampling算法

Thompson sampling算法流程

UCB

UCB算法流程

LinUCB

Context Bandit-附加信息刻画决策过程

Context Bandit如何学习

LinUCB算法流程

LinUCB代码

LinUCB with Hybrid Linear Models

Hybrid LinUCB算法流程

Hybrid LinUCB代码

你可能感兴趣的:(algorithm)