weixin_30416871

强化学习之三：双臂赌博机（Two-armed Bandit）

本文是对Arthur Juliani在Medium平台发布的强化学习系列教程的个人中文翻译，该翻译是基于个人分享知识的目的进行的，欢迎交流！（This article is my personal translation for the tutorial written and posted by Arthur Juliani on Medium.com. And my work is completely based on aim of sharing knowledges and welcome communicating!）

原文地址（URL for original article）

引入Introduction
双臂赌博机Two-Armed Bandit
策略梯度Policy Gradient

引入（Introduction）

强化学习不只给我们提供了去教会一个智能agent如何行动的能力，也使得agent可以通过自己与环境的交互去进行学习。通过结合深度神经网络针对一个基于目标驱动的agent学习可以获得的复杂表征（representations），计算机已经实现了一些非常惊人的成果，比如在一系列atari游戏中击败人类玩家，并且在围棋上打败世界冠军。

然而要学会如何建立这么强大的agent需要已经习惯于有监督学习（Supervised Learning）的人们转变一下思想，我们现在的做法再也不是简单地让算法去学会对某种刺激和某种响应进行一一匹配了。相反地，强化学习算法必须让agent自己通过使用观察、回报和行动的方式来学会匹配。因为对于agent来说，再也不会有某种给定状态下应该采取的绝对“正确”的行动，所以这就使得这件事情看起来有点困难了。在本博客中，我将带你完整地走一遍强化学习agents的创造和训练过程。最开始的agent和任务（task）的示例都将比较简单，所以相关的概念也都会比较明晰，之后我们再尝试理解更复杂的任务和环境。

双臂赌博机（Two-Armed Bandit）

最简单的强化学习问题就是N臂赌博机。本质上来说，N臂赌博机就是由n个槽机器（n-many slot machine），每个槽对应了一个不同的固定回报概率。我们的目标是去发现有最优回报的机器，并且通过一直选取这个机器以获得最大化回报。我们先简化一下这个问题，即只有两个槽机器供我们选择。实际上，这个问题如此简单，它更像是一个强化学习的引导例子而不能称作一个强化学习问题本身。因为一个典型的强化学习任务包含以下方面：

不同的行动产生不同的回报。举例来说，当在迷宫中找宝藏时，往左走可能找到宝藏，而往右走可能遇到一群蛇。
回报总是在时间上延迟的。这就意味着即使在上面的迷宫例子里，往左走是正确的选择，但是我们不会知道这一点直到我们做出选择并到达新的状态之后。
一个行动的回报是基于环境的状态的。仍然是迷宫的例子，在某个分叉往左走可能是理想的，但其他的分叉可能不是这样。

n臂赌博机是一个非常好的入门问题，因为我们不用考虑上述的第二、三方面。我们只需要集中精力去学习对应的每种行动对应的回报，并保证我们总是选择最优的那些行动。在强化学习术语中，这叫做学习一个策略（Learn a policy）。我们将使用一种称为策略梯度（policy gradient）的方法，即我们将用一个简单的神经网络来学习如何选择行动，它将基于环境的反馈通过梯度下降来调整它的参数。还有另一种解决强化学习问题的方法，这些方法里，agent会学习价值函数（value function）。在这种方法里，相比于学习给定状态下的最优行动，agent会学习预测一个agent将处于的给定状态或者采取的行动多么好。而这两种方法都可以让agent表现优异，不过策略梯度方法显得更加直接一点。

策略梯度（Policy Gradient）

最简单的理解策略梯度网络的方法就是：它其实就是一个会生成明确输出的神经网络。在赌博机的例子里，我们不需要基于任何状态来说明这些输出。因此，我们的网络将由一系列的权重构成，每个权重都和每一个可以拉动的赌博机臂相关，并且会展现出我们的agent认为拉动每个臂分别会对应多么好的结果。如果我们初始化权重为1，那么我们的agent将会对每个臂的潜在回报都非常乐观。

为了更新我们的网络，我们将简单地基于e-贪婪策略（e-greedy policy）尝试每个臂（在Part 7可以看到更多关于行动选择策略的内容）。这意味着大多数时间里，我们的agent将会选择有着预期最大回报值的行动，但偶尔，它也会随机行动。通过这种方式，agent可能尝试到每一个不同的臂并持续地学习到更多知识。一旦我们的agent采取一个行动，它将会收获到一个值为1或-1的回报。基于这个回报，我们就可以使用策略损失函数来对我们的网络进行更新：

L o s s = - l o g (π) * A

A是优越度，也是所有强化学习算法的一个重要部分。直觉上，它描述了一个行动比某个基准线好多少。在未来的算法中，我们将遇到更复杂的用于比较回报的基准线，而现在我们就假设基准线为0，我们也可以简单地把它想成我们采取每个行动对应的回报。

π是策略。在这个例子中，它和所选行动的权重相关。

直觉上，这个损失函数使我们可以增加那些有望产出正回报行动的权重，而降低那些可能产生负回报的行动的权重。通过这种方式，agent将更有可能或更不可能在未来采取某个行动。通过采取行动，获得回报并更新网络这个过程的循环，我们将很快得到一个收敛的agent，它将可以解决赌博机问题。不要只是听我讲，你应该自己试一试。

# Simple Reinforcement Learning in Tensorflow Part 1:
# The Multi-armed bandit
# This tutorial contains a simple example of how to build a policy-gradient based agent that can solve the multi-armed bandit problem. For more information, see this Medium post.
# 简单强化学习的Tensorflow实现 Part 1：
# 多臂赌博机
# 这个教程包含一个简单的，能够解决多臂赌博机问题的建立基于策略梯度的agent的实例

# For more Reinforcement Learning algorithms, including DQN and Model-based learning in Tensorflow, see my Github repo, DeepRL-Agents.
# 对于更多强化学习算法，包括用Tensorflow实现的DQN和基于模型的学习，都可以看我的Github库，DeepRL-Agents。



import tensorflow as tf
import numpy as np

# The Bandits
# Here we define our bandits. For this example we are using a four-armed bandit. The pullBandit function generates a random number from a normal distribution with a mean of 0. The lower the bandit number, the more likely a positive reward will be returned. We want our agent to learn to always choose the bandit that will give that positive reward.
# 赌博机
# 这里我们定义了赌博机。这个例子里我们使用了一个四臂赌博机。pullBandit函数产生了一个服从0均值正态分布的随机数。这个赌博机数值越小，获得一个正回报的可能性越大。我们想让我们的agent学会总是选择正回报的行动。


# List out our bandits. Currently bandit 4 (index#3) is set to most often provide a positive reward.
# 赌博机的列表。当前赌博机4（标号#3）被设置为最常给出正回报的机器。
bandits = [0.2,0,-0.2,-5]
num_bandits = len(bandits)
def pullBandit(bandit):
    # Get a random number.
    # 获得一个随机数
    result = np.random.randn(1)
    if result > bandit:
        # return a positive reward.
        # 返回一个正回报
        return 1
    else:
        # return a negative reward.
        # 返回一个负回报
        return -1

# The Agent
# The code below established our simple neural agent. It consists of a set of values for each of the bandits. Each value is an estimate of the value of the return from choosing the bandit. We use a policy gradient method to update the agent by moving the value for the selected action toward the recieved reward.
# 下面的代码建立了我们的样例神经网络版本的agent，它由一套针对每个赌博机的数值构成。每个数值都是对于选择相应赌博机的回报的估计值。我们使用策略梯度方法来更新我们的agent，即将选择的行动的数值赋给收到的汇报。

tf.reset_default_graph()

# These two lines established the feed-forward part of the network. This does the actual choosing.
# 下面两行简历了网络的前馈部分。这个部分用来做行动决策。
weights = tf.Variable(tf.ones([num_bandits]))
chosen_action = tf.argmax(weights,0)

# The next six lines establish the training proceedure. We feed the reward and chosen action into the network
# to compute the loss, and use it to update the network.
# 下面六行代码建立了训练过程。我们喂给网络回报以及所选行动。
# 计算损失，并用其更新网络。
reward_holder = tf.placeholder(shape=[1],dtype=tf.float32)
action_holder = tf.placeholder(shape=[1],dtype=tf.int32)
responsible_weight = tf.slice(weights,action_holder,[1])
loss = -(tf.log(responsible_weight)*reward_holder)
optimizer = tf.train.GradientDescentOptimizer(learning_rate=0.001)
update = optimizer.minimize(loss)


# Training the Agent
# We will train our agent by taking actions in our environment, and recieving rewards. Using the rewards and actions, we can know how to properly update our network in order to more often choose actions that will yield the highest rewards over time.
# 训练Agent
# 我们将通过在环境中采取行动并接收回报来训练agent。通过回报和行动，我们可以知道如何合适地更新网络，以使得它将随着训练的进行，越来越经常的选择有更高回报的行动。


total_episodes = 1000 #Set total number of episodes to train agent on.  agent将要训练的episodes轮数
total_reward = np.zeros(num_bandits) #Set scoreboard for bandits to 0. 将赌博机的得分全部设为0
e = 0.1 #Set the chance of taking a random action. 设置采取一个随机行动的概率

init = tf.initialize_all_variables()

# Launch the tensorflow graph 
# 启动tensorflow计算图
with tf.Session() as sess:
    sess.run(init)
    i = 0
    while i < total_episodes:

        # Choose either a random action or one from our network.
        # 选择一个随机行动，或者让网络来决策
        if np.random.rand(1) < e:
            action = np.random.randint(num_bandits)
        else:
            action = sess.run(chosen_action)

        reward = pullBandit(bandits[action]) #Get our reward from picking one of the bandits. 从选择的赌博机上获得回报

        # Update the network.
        # 更新网络
        _,resp,ww = sess.run([update,responsible_weight,weights], feed_dict={reward_holder:[reward],action_holder:[action]})

        # Update our running tally of scores.
        # 更新运行记分器
        total_reward[action] += reward
        if i % 50 == 0:
            print "Running reward for the " + str(num_bandits) + " bandits: " + str(total_reward)
        i+=1
print "The agent thinks bandit " + str(np.argmax(ww)+1) + " is the most promising...."
if np.argmax(ww) == np.argmax(-np.array(bandits)):
    print "...and it was right!"
else:
    print "...and it was wrong!"

Running reward for the 4 bandits: [ 1.  0.  0.  0.]
Running reward for the 4 bandits: [  0.  -2.  -1.  38.]
Running reward for the 4 bandits: [  0.  -4.  -2.  83.]
Running reward for the 4 bandits: [   0.   -6.   -1.  128.]
Running reward for the 4 bandits: [   0.   -8.    1.  172.]
Running reward for the 4 bandits: [  -1.   -9.    2.  219.]
Running reward for the 4 bandits: [  -1.  -10.    4.  264.]
Running reward for the 4 bandits: [   0.  -11.    4.  312.]
Running reward for the 4 bandits: [   2.  -10.    4.  357.]
Running reward for the 4 bandits: [   2.   -9.    4.  406.]
Running reward for the 4 bandits: [   0.  -11.    4.  448.]
Running reward for the 4 bandits: [  -1.  -10.    3.  495.]
Running reward for the 4 bandits: [  -3.  -10.    2.  540.]
Running reward for the 4 bandits: [  -3.  -10.    3.  585.]
Running reward for the 4 bandits: [  -3.   -8.    3.  629.]
Running reward for the 4 bandits: [  -2.   -7.    1.  673.]
Running reward for the 4 bandits: [  -4.   -7.    2.  720.]
Running reward for the 4 bandits: [  -4.   -7.    3.  769.]
Running reward for the 4 bandits: [  -6.   -8.    3.  814.]
Running reward for the 4 bandits: [  -7.   -7.    3.  858.]
The agent thinks bandit 4 is the most promising....
...and it was right!

Github完整代码

（09/10/2016更新）：我重新为这个教程写了iPython代码。之前的损失函数不太直观，我已经用一个更标准和具备解释性的版本来替代了，而且对于那些非常有兴趣应用策略梯度方法到更复杂的问题上的人也更有参考价值。）

如果这篇博文对你有帮助，你可以考虑捐赠以支持未来更多的相关的教程、文章和实现。对任意的帮助与贡献都表示非常感激！

如果你想跟进我在深度学习、人工智能、感知科学方面的工作，可以在Medium上follow我 @Arthur Juliani，或者推特@awjliani。

用Tensorflow实现简单强化学习的系列教程：

Part 0 — Q-Learning Agents
Part 1 — Two-Armed Bandit
Part 1.5 — Contextual Bandits
Part 2 — Policy-Based Agents
Part 3 — Model-Based RL
Part 4 — Deep Q-Networks and Beyond
Part 5 — Visualizing an Agent’s Thoughts and Actions
Part 6 — Partial Observability and Deep Recurrent Q-Networks
Part 7 — Action-Selection Strategies for Exploration
Part 8 — Asynchronous Actor-Critic Agents (A3C)

转载于:https://www.cnblogs.com/bluemapleman/p/9276663.html

深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
2003-7-13-先胜“李一季”-（让左车马-黑列手炮）夏目青樱
2003-7-13-【虎滩四战之三】先胜“李一季”-（让左车马-黑列手炮）1.炮二平五炮２平５2.马二进三马８进７3.兵三进一炮８进４4.车一进一炮８平７5.相三进一马２进３6.兵七进一车１平２7.炮八平七卒５进１8.车一平四马３进５？9.车四进二炮７平５10.车四平五车２进７？！11.炮五平八卒５进１？12.车五平八马５进４13.炮七平五炮５进５14.相七进五马４进５15.车八平六车９平８16.
柯建希老师直播4 梦想写作者
1.不要我大，不要狂妄，人家没让人帮忙还去帮忙。我大，我乱，我站错了位置，我只能做我自己，我代替不了任何人生活，我感受不了别人的感受。2.我不是你的妈妈，我是你的妻子，我还有两个孩子。我只能帮忙百分之三十最多百分之五十。3.自以为是的人从来不去问的，自我为中心。不会谦卑。越强势狂妄自大的人越容易上当受骗。4.老公站在老公的位置，妻子站在妻子的位置，老公弱，妻子学会更弱。5.给男人尊严，如果女人强势
感觉幸福爱笑的琳宝
感恩我在觉知中，让我感觉到忧伤也是一种幸福，这个时候我可以安静的在床前独处，听着有点淡淡忧伤的钢琴曲，原来我可以与我之前所抵触的情绪和平共处。焦虑也是一种感觉，今天让我清晰的感知到你了，当我闭上眼睛默默的感受你，是的，有一点烦躁的情绪，我看见你了，我在这里，hello。图片发自App人生这样多姿多彩，你想体验的都已存在，是的，我看见了你的勇气，我无条件的爱着你，陪伴你亲爱滴。当我伸出双臂去触碰去拥
OpenAI o1 的价值意义及“强化学习的Scaling Law” & Kimi创始人杨植麟最新分享：关于OpenAI o1新范式的深度思考光剑书架上的书 ChatGPT 大数据AI人工智能计算人工智能算法机器学习
OpenAIo1的价值意义及“强化学习的ScalingLaw”蹭下热度谈谈OpenAIo1的价值意义及RL的Scalinglaw。一、OpenAIo1是大模型的巨大进步我觉得OpenAIo1是自GPT4发布以来，基座大模型最大的进展，逻辑推理能力提升的效果和方法比预想的要好，GPT4o和o1是发展大模型不同的方向，但是o1这个方向更根本，重要性也比GPT4o这种方向要重要得多，原因下面会分析。为什
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
记录每天发生的小确幸晓_35f4
[玫瑰]感恩早晨抬头看见天边有一只小小的灯笼，鸟儿鸣唱，叶儿自由的吞吐芬芳，动静之间各自绽放。一篇祈祷文读完，感觉有点不一样，灯笼升高了一点，自身也变得透亮，万物复苏有了新的期望。燃烧自己，把别人也照亮，默默中一路向阳。[玫瑰]感恩启航来教室接妹妹，给我们的课余生活增添了很多回味。张开双臂去和他拥抱，却有种被帅哥纳入怀中的感慨。时光不老，我们不散，那个曾经瘦小的跟屁虫已不见，一米七八的大小伙儿怎能
【每日精进】务必开始第三战役金台望道
9月3日星期六天气：晴早晨：6点才起，完成早起事务；考虑本月计划。2022年还剩下4个月，务必完成我的三大战役之三《网络空间社会思潮批判》；今年的小说务必要安排时间修改完。——这是业余主要做的事。另外，近期《讲话与丁玲的创作》、瑞金会议的征文，也还要做的。此后与主要事务无关的论文就不再写了。——这四个月，要注意修改好已有的论文并投稿发表。以后这件事要提到议事日程上来。这都是在教学事务之外的工作。幸
复盘下《大师课》的推广元元爱团团
大师课项目从立项截止到今天，就推广工作简单做个复盘。省代这边四分之三的客户还是有积极性做推广的，但机构反馈一般，基本50%机构不愿意推，30%机构犹豫，20%机构比较积极的推。但报名情况不理想。晚上我们小团队做了简单复盘。课程内容方面：通过和省代、机构校长的沟通，总体判断大师课立项不错，没有任何问题。大家担心的主要如下几点：第一，课程内容深，学生可能听不懂；第二，大师课的名号一出，会给家长一些过高
SIPp常用脚本之三：UAC weixin_34075551 网络
UAC是作为SIP消息的发起端，可以控制消息速率什么的，方便极了。一、uac.xml;tag=[call_number]To:Call-ID:[call_id]CSeq:1INVITEContact:sip:[field0]@[local_ip]:[local_port]Max-Forwards:70Subject:PerformanceTestContent-Type:application/s
跟我一起写 SIPp XML scenario file 之三无名387 os 通讯
要求如下：uas->INVITE200200过几天公布答案当然，其他地方可能也有，但我想给出自己的答案
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
反思的魔力：用语言的力量强化AI智能体步子哥人工智能机器学习
在浩瀚的代码海洋中，AI智能体就像初出茅庐的航海家，渴望探索未知的宝藏。然而，面对复杂的编程任务，他们常常迷失方向。今天，就让我们跟随“反思”的灯塔，见证AI智能体如何通过语言的力量，点亮智慧的明灯，成为代码世界的征服者！智能体的困境近年来，大型语言模型（LLM）在与外部环境（如游戏、编译器、API）交互的领域中大放异彩，化身为目标驱动的智能体。然而，传统的强化学习方法如同一位严苛的训练师，需要大
寡妇江淑依（五）海思沧海
特别说明：此文为专版作品，如果其他媒体有此文或类似此文均为抄袭。原创作品，抄袭必究寡妇江淑依刚刚回来的时候，小外甥张开双臂，就要江淑依抱抱：“阿姨！阿姨！你长得真好看！”江淑依只好把他抱起来，看着他笑着说：“你这个小嘴真会说话，你长得也好看啊！”“小伟伟！这不是阿姨，这个要叫小舅妈，叫小舅妈知道吗？”林建梅和他的儿子说道。“小舅妈！小舅妈！我以后就叫你小舅妈好吗？”“当然可以了！我本来就是你的小舅
前端学习之三种css样式写法 MissPSTime
选择器/*内嵌式样式书写*/-->，不使用-->后代选择器标签选择器标签选择器标签选择器
中年危机+经济危机=？丨『盘它系列』之三革誉安
文丨誉安Day23@365日更营今天被人安利了一篇文章《38岁，负债200万，被滴滴裁员…》。刚一看到这个标题，按照原来的状态，绝对妥妥的一身冷汗。现在再看，先会自问一下为什么。“为什么这个标题会这么起？”“一种可能，标题引起焦虑。”“引起哪类人的焦虑？”“中年人的呗。”自己跟标题还差着那么几岁，可是，这丝毫不会减弱标题所带给我的共鸣感。具体的文章内容见仁见智，况且我也认为有待商榷的地方确实不少，
77% 的受访员工表示AI工具让他们的生产力下降 AI真好玩人工智能
效率高的机器人和烦闷沮丧的职场人士：AI在工作场所的影响尽管企业界看起来都在急于搭上AI的快车，但Upwork研究所的一项最新研究表明，超过四分之三的员工并没有加入这场AI旅程。该研究在7月份发布，共有2,500名来自美国、加拿大、英国和澳大利亚的高管、全职员工和合同员工参与。研究中最令人惊讶的发现是，高管们对预期生产力提升和大多数基层员工所分享的乏善可陈的结果之间存在巨大鸿沟。关于AI生产力提升
机器学习实战笔记5——线性判别分析绍少阿机器学习笔记可视化机器学习 python 人工智能
任务安排1、机器学习导论8、核方法2、KNN及其实现9、稀疏表示3、K-means聚类10、高斯混合模型4、主成分分析11、嵌入学习5、线性判别分析12、强化学习6、贝叶斯方法13、PageRank7、逻辑回归14、深度学习线性判别分析（LDA）Ⅰ核心思想对于同样一件事，站在不同的角度，我们往往会有不同的看法，而降维思想，亦是如此。同上节课一样，我们还是学习降维的算法，只是提供了一种新的角度，由上
教师如何做研究（之三）丽卿_8a07
故事：一天，董事长问，谁能说说公司存在的问题。100多人抢话筒，又问，谁能说说背后的原因，一半的人消失，再问，谁能解决问题，不到20人举手，谁能动手？陈大伟老师：自己研究，不要靠着其他人。行动研究的最重要的研究，观看自己的教学录像。如果看过，描述自己的感觉，我的解读，天底下自己的课堂录像。光看录像不够，还要整理课堂教学实录。记录实录——审视和批评——重新备详案研究的课，去观察研究自己的课，为什么不
剧本杀谁是凶手《全息之三槐街》凶手是谁剧透+真相答案复盘解析攻略 VX搜_奶茶剧本杀
本文为谁是凶手《全息之三槐街》剧本杀测评+部分真相复盘，获取完整真相复盘只需两步：①、关注微信公众号【奶茶剧本杀】→②、回复谁是凶手《全息之三槐街》即可获取查看谁是凶手《全息之三槐街》剧本杀真相答案复盘+凶手剧透：以下是玩家评测+部分关键证据，凶手，时间线，复盘解析，推理逻辑--------------------------------------------------------------
C标准库之三：errno.h linux小牛 c语言 errno 错误代码标准库
一：概述errno.h是C标准库中的一个检查错误的头文件，以我个人的理解，它的内部一共定义了3个宏，分别是EDOM,ERANGE,errno.其中errno相当于一个全局变量，它可以被赋值，而C库中的每个模块都会包含这个errno.h头文件，那么errno这个可以被赋值的宏（不知道这样理解对不对，看了C标准库才做的理解），就相当于整个C标准库的全局变量，如果在使用某个模块的函数过程中发生了错误，这
一个小动作，即可安眠与补肾。精力充沛了、白头发也少了。按摩小指作用大 b641a35df3bd
1.强心防癌2.补肾缓解、前列腺炎症3.预防老花眼、白内障手指按摩操动动小拇指，养心又安神1.躺在床上，双臂与肩齐平伸直呈180°，双手握拳，然后伸出小指，做一收一放的动作，其余手指保持紧握状态。每一次收放动作做到位，做到一百下，要坚持做完。2.手指提水强肾乌发日常生活中，咱们可以有意识地用小拇指提重物。比如外出买东西，就可以用小拇指提，并作一松一提动作，借以锻炼，当然肯定不能太重。有话说：经常刺
大模型的实践应用29-大语言模型的RLHF(人类反馈强化学习)的具体应用与原理介绍微学AI 大模型的实践应用语言模型人工智能自然语言处理 RLHF
大家好，我是微学AI，今天给大家介绍一下大模型的实践应用29-大语言模型的RLHF(人类反馈强化学习)的具体应用与原理介绍。在当今人工智能发展的浪潮中，大语言模型（LargeLanguageModels,LLMs）凭借其强大的语言理解和生成能力，成为了研究与应用的热点。而在这股浪潮中，一种名为“基于人类反馈的强化学习”的方法脱颖而出，为大语言模型的优化和应用开辟了新的路径。本文首部分将深入浅出地介
《晨旭，亦婷婷》蓝心诚
图片发自App《晨旭，亦婷婷》出门时，阳光早早等在路上，没等我张开双臂，就已扑我入怀。然后用暖暖的小手，蒙住我的眼睛，顽皮的，吻上我的脸。如果余下的生命里，有你相携成伴，我还有什么理由，不珍惜幸福的每一天。2018.11.12.丽达广场途中图片发自App
2018-07-31 泰娥
图片发自App下面介绍一种合于道的运化能量的坐禅方法，总共分两个阶段修习：第一阶段第一步：选一静室，盘膝而坐，单盘、双盘、散盘皆可，如果不能盘坐，即可坐在椅子上。全身放松，头正、脊柱要直，双臂自然下垂，双手放在大腿部位，掌心向上。第二步：深呼吸两分钟以上，所谓吐故纳新。第三步：轻轻的想象全身与大自然融为一体，冥想五分钟以上。
《水知道答案》：每一滴水都有生命慢慢学说话
水是一种我们太习以为常、司空见惯的物质。地球上约有四分之三的面积覆盖着水，人体70%是由水构成的，我们每天喝的，用的都离不开水。但这种熟悉却让我们忽略了他。你会对说话么？你近距离观察过水么？你感受到了水的情绪么？这听起来也许会很荒诞。《水知道答案》这本书却告诉我们水是有生命有记忆的，他知道很多我们不知道的答案。作者江本胜是日本著名的作家、医学博士。自1994年起，他开始做了一件非常有趣的观察实验，
坚定理想信念，锤炼党性修养知涵知
理想信念是中国共产党人的政治灵魂，是共产党人精神上的“钙”，没有理想信念，理想信念不坚定，精神上就会“缺钙”，就会得“软骨病”。党员干部只有坚定理想信念，强化责任担当，锤炼道德操守，提升党性修养，才能切实做到为党分忧、为国尽责、为民奉献。坚定理想信念，就要强化学习精神、自律精神、担当精神。思想理论上的坚定清醒是政治上坚定的前提，党员干部要始终把理论学习作为政治责任、事业需要和精神追求，积极参加组织
淘宝海量数据库OceanBase:系统架构详解 weixin_34356555 数据库系统架构大数据
无论从数据量还是访问量，OceanBase不再能够是一个单机系统，即使一台单机能服务高达几个TB的数据、提供几万QPS的服务能力，因此，分布式系统不可避免，然而，内部如何实现拆表(拆库)以及如何实现数据库的事务，成为了一个很大的挑战和十分艰难的抉择：相关文章：淘宝海量数据库之一：来自业务的挑战淘宝海量数据库之二：一致性选择淘宝海量数据库之三：事务的ACID一种选择是当前数据库的常用的水平拆库，淘宝
2019-08-08 随遇而安_c6cc
卡顿诺币(KTOcoin)将于2019年08月03日正式启动！KTO平台8月3日至8月12日为推广期，推广期间所有矿工千分之三释放；8月13日平台正式开放交易后恢复正常释放。图片发自App问：这个平台有什么吸引人的地方？有什么优势？有什么牛逼的地方？答：①回购机制：卡顿诺（KTOcoin)开盘即开放回购功能，永久回购价格0.1美金。②分红机制：通过推广即享受平台交易手续费分红奖励。③持币生息：持币
漫悟人生(之一百零三) 武商路漫漫
文/王漫生容易，活容易，生活不容易!人生是一本书，等你来解读。生活不光是柴米油盐酱醋茶，更应拥有琴棋书画诗酒花。嘤其鸣矣，求其友聲!1.仰不愧於天，俯不怍於地。乐天而知命，素位而行之。2.人生之四然:得之淡然，失之坦然，艰苦曲折必然，历尽沧桑悟然。3.人生之三得:抬得起头，弯得下腰，沉得住气。4.人生之四不尽:福不可享尽，便宜不可占尽，势不可使尽，聪明不可耍尽。5.人生三大悲:早年丧父，中年丧妻，
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多

强化学习之三：双臂赌博机（Two-armed Bandit）

引入（Introduction）

双臂赌博机（Two-Armed Bandit）

策略梯度（Policy Gradient）

你可能感兴趣的:(强化学习之三：双臂赌博机（Two-armed Bandit）)