困比比

Mastering the game of Go without human knowledge (AlphaGo Zero)

AlphaGo的树搜索结合了深度神经网络，这些网络是由专家知识进行监督式学习以及从selfplay中进行强化学习。AlphaGo Zero仅基于强化学习，一个神经网络被训练来预测行为的选择和价值。该神经网络提高了树搜索的性能，从而在下一次迭代中提供了更高质量的移动选择和更强的自我玩法，同时更精确的树搜索又能改善网络性能。

文章目录

Introduction
Reinforcement learning in AlphaGo Zero
Empirical analysis of AlphaGo Zero training
METHODS
- Reinforcement learning.
- Self-play reinforcement learning in games.
- Domain knowledge.
- Self-play training pipeline.
- Optimization.
- Evaluator.
- Self-play.
- Search algorithm.
- - Select (Fig. 2a).
  - Expand and evaluate (Fig. 2b).
  - Backup (Fig. 2c).
  - Play (Fig. 2d).
- Neural network architecture.

Introduction

AlphaGo训练了两个神经网络——策略网络和值网络。策略网络通过监督学习进行初始化训练，以准确预测人类专家的行动，随后通过策略梯度强化学习对其进行完善。价值网络以预测策略网络自我博弈的赢家来进行训练。一旦经过训练，这些网络将与蒙特卡洛树搜索（MCTS）组合在一起以提供前瞻性搜索。使用策略网络将搜索范围缩小到高概率移动，并使用价值网络（与蒙特卡罗rollouts结合使用快速rollouts策略）以评估树中的位置。

AlphaGo Zero与AlphaGo不同之处在于：

它仅通过selfplay强化学习来训练，从随机游戏开始，无需任何监督或使用人类数据；
它仅使用棋盘上的黑白子作为输入特征；
它使用单个神经网络，而不是单独的策略和价值网络；
它使用了一个更简单的树搜索，该树搜索依靠此单个神经网络来评估位置和样本行为，而无需执行任何Monte Carlo rollouts操作。

为此，作者在训练循环内结合了lookahead search。

Reinforcement learning in AlphaGo Zero

AlphaGo Zero使用参数为θ的深度神经网络 $f_θ$ 。该神经网络将位置及其历史的原始棋盘表示 $s$ 作为输入，并输出移动概率和价值， $(\bold{p},v)=f_\theta(s)$ 。移动概率向量 $\bold{p}$ 表示选择每个移动a（包括pass）的概率， $p_a=Pr(a|s)$ 。值 $v$ 是一个标量评估，它估计当前玩家从位置 $s$ 获胜的概率。该神经网络将策略网络和价值网络的角色组合到一个架构中。神经网络替换成了ResNet的结构。

在每一个位置 $s$ ，在神经网络 $f_\theta$ 的引导下执行MCTS搜索。MCTS搜索输出每一步的概率 $π$ 。这些搜索概率通常会选择比神经网络 $f_θ(s)$ 的原始行为概率 $\bold{p}$ 更优的行为；因此，MCTS可以被视为强大的策略改进方法。在self-play过程中使用搜索，使用improved MCTS-based policy来选择每一步动作，使用游戏赢家 $z$ 更新value，这同时也可以被视为强大的策略评估改进方法。

在策略迭代过程中重复使用这些搜索方法：神经网络的参数被更新，以使移动概率和值 $(\bold{p},v)=f_\theta(s)$ 与改进的搜索概率和selfplay游戏赢家 $(π, z)$ 更加匹配；这些新参数将在下一次selfplay的迭代中使用，以使搜索更加强大。图1展示了自学训练pipline。

如图2所示，MCTS使用神经网络 $f_\theta$ 引导搜索，反过来搜索结果用于更新网络。每一个边 $(s, a)$ 包含先验概率 $P (s, a)$ ，访问次数 $N (s, a)$ ，行为价值 $Q (s, a)$ 。每次模拟都是从根节点开始，迭代地选择动作以最大化下式：

直到叶子节点 $s^{'}$ 不包含在树内。此叶子节点仅展开与评估一次，使用网络预测其先验概率与评估值， $(P(s',\cdot),V(s'))=f_\theta(s')$ 。然后所有遍历到的边 $(s, a)$ 都需要增量更新访问次数和行为价值。

这一基于MCTS的强化学习算法可以看做以网络参数 $\theta$ 和根位置 $s$ 为输入，计算输出行为概率， $\bold{\pi}=\alpha_\theta(s)$ 。与每一步访问次数的指数成正比， $\pi_a\propto N(s,a)^{1/\tau}$ ， $\tau$ 为温度系数。

神经网络具体训练步骤如下：

初始化神经网络权重为 $\theta_0$ ；
在每个后续迭代 $i \geq 1$ 时，都会产生self-play的游戏（图1a）；
在每一时间步 $t$ ，使用神经网络的先前迭代版本 $f_{θ_{i-1}}$ 执行MCTS搜索 $\pi_t=\alpha_{i-1}(s_t)$ ，并通过对搜索概率 $π_t$ 进行采样来选择动作；
游戏在步骤 $T$ 终止，其终止条件为：①两个玩家都放弃落子；②搜索值下降到辞阈值以下；③游戏超过最大长度；
对游戏进行计分，以得到 $r_T∈\{− 1，+ 1\}$ 的最终奖励；
每个时间步 $t$ 的数据都存储为 $s_t,π_t,z_t)$ ，其中 $z_t =±r_T$ 是从当前玩家的角度来看在步骤 $t$ 的游戏获胜者。并行地（图1b），新网络参数 $θ_i$ 是根据selfplay的最后一次迭代的所有时间步中均匀采样的数据 $(s, π, z)$ 训练的；
更新网络 $(\bold{p},v)=f_\theta(s)$ ，网络损失由MSE、交叉熵损失和正则化构成：

Empirical analysis of AlphaGo Zero training

从完全随机行为开始训练，结果如图3所示。在整个训练过程中，学习进展顺利，并且没有遭受先前文献中提到的振荡或灾难性遗忘。AlphaGo Zero训练36小时后就超越了AlphaGo Lee，72小时后超越了最新版本的AlphaGo Lee（打败李世石的版本），而AlphaGo Lee训练了几个月。此外，AlphaGo Zero仅使用a single machine with 4 tensor processing units (TPUs)，而AlphaGo Lee使用了many machines and used 48 TPUs。

图4验证了AlphaGo Zero中网络结构和算法（单一网络）的贡献。使用AlphaGo Lee中独立的策略和价值网络，或AlphaGo Zero中的组合策略和价值网络，创建了四个神经网络；并使用AlphaGo Lee的卷积网络架构或AlphaGo Zero的残差网络架构。在72小时的self-play训练后，使用由AlphaGo Zero生成的固定的自玩游戏数据集，对每个网络进行了训练，以最大程度地减少相同的损失函数（等式（1））。实验表明使用残差网络更加准确，在AlphaGo中实现了600 Elo的降低，误差更低，并且性能得到了改善。将策略和价值组合到一个网络中会稍微降低移动预测的准确性，但会减少价值错误，并使AlphaGo的游戏性能再提高600 Elo。这部分是由于提高了计算效率，但更重要的是，双重目标将网络调整为支持多个用例的通用表示形式。

METHODS

Reinforcement learning.

主要包括策略迭代过程（即策略评估与策略改进）。AlphaGo Zero selfplay算法可以理解为一种近似的策略迭代方案，其中MCTS用于策略改进和策略评估。策略改进始于神经网络策略，根据该策略的建议执行MCTS，然后将（更强大的）搜索策略投影回神经网络的功能空间。策略评估应用于（更强大的）搜索策略：selfplay的结果也被投射回神经网络的功能空间。这些投影步骤是通过训练神经网络参数以分别匹配搜索概率和selfplay结果来实现的。

Self-play reinforcement learning in games.

zero-sum，perfect information。

MCTS可以被视为selfplay强化学习的一种形式。搜索树的节点包含搜索过程中遇到位置的值函数，这些值被更新以预测自玩模拟游戏的获胜者。

Domain knowledge.

完美的围棋规则知识。用于在MCTS中得到执行某一动作后的下一状态，以及判断终止状态；
在MCTS模拟和自我训练中使用Tromp–Taylor评分。这是因为如果游戏在解决边界之前终止，则人类分数（中文，日文或韩文规则）的定义不明确；
将描述位置的输入特征构造为19×19的图像，即神经网络结构与棋盘的网格结构相匹配；
Go的规则在旋转和反射下是不变的，对于颜色转置也是不变的。

AlphaGo Zero从神经网络的随机初始参数开始。神经网络架构基于图像识别的最新技术，并相应地选择了用于训练的超参数。 MCTS搜索参数是通过高斯过程优化选择的，以便使用在初步运行中训练的神经网络来优化AlphaGo Zero的selfplay性能。对于较大的运行（40个块，40天），使用在较小的运行（20个块，3天）中训练的神经网络对MCTS搜索参数进行了重新优化。

Self-play training pipeline.

AlphaGo Zero的self-play training pipeline由三个主要组件组成，所有这些组件都是并行异步执行的。

神经网络参数 $θ_i$ 从最近的selfplay数据不断优化；
持续评估AlphaGo Zero玩家 $α_{θ_i}$ ；
到目前为止，表现最佳的播放器 $α_{θ_∗}$ 用于生成新的selfplay数据。

Optimization.

每个神经网络 $f_{θ_i}$ 批量大小是每个woker32个，最小批量大小为2,048。从最近的500,000场selfplay的所有位置中随机地对每个mini-batch数据进行统一采样。使用等式（1）中的损失，通过具有动量和学习速率退火的随机梯度下降来优化神经网络参数。根据扩展数据表3中的标准时间表对学习率进行退火。动量参数设置为0.9。交叉熵和MSE损失的权重相等（这是合理的，因为奖励是按比例缩放的， $r∈\{-1，+ 1\}$ ），L2正则化参数设置为c = 10-4。优化过程每1,000个训练步骤产生一个新的检查点。这个检查点由评估者评估，并且可以用于生成下一批selfplay。

Evaluator.

为确保始终生成最佳质量的数据，我们在将其用于数据生成之前，针对当前最佳网络 $f_{\theta_*}$ 评估每个新的神经网络检查点。通过MCTS搜索 $α_{θ_i}$ 的性能来评估神经网络 $f_{θ_i}$ ，MCTS搜索 $α_{θ_i}$ 使用 $f_{θ_i}$ 来评估叶子位置和先验概率（请参阅搜索算法）。每次评估包括400场比赛，使用具有1600次模拟的MCTS通过无限的温度 $τ \to 0$ （即，我们确定地选择访问次数最多的棋局，以尽可能发挥最大的优势）来选择棋局。如果新玩家以大于55％的赢率获胜（避免单独选择噪音），则它将成为最佳玩家 $α_{θ_∗}$ ，并随后用于selfplay的产生，并成为后续比较的基准。

Self-play.

由evaluator选择的最佳当前player $α_{θ_∗}$ 用于生成数据。在每次迭代中， $α_{θ_∗}$ 进行25,000场selfplay，使用1,600个MCTS模拟选择每个动作（每次搜索大约需要0.4 s）。对于每个游戏的前30个动作，温度设置为 $τ = 1$ ；这样可以根据他们在MCTS中的访问次数按比例选择动作，并确保遇到各种各样的位置。在游戏的其余部分，将使用无穷小的温度， $τ = 0$ 。通过在根节点 $s_0$ 中的先验概率上加上Dirichlet噪声， $P(s,a)=(1-ε)p_a +εη_a$ ，其中 $η 〜 D i r (0.03)$ ， $ε = 0.25$ ，可以进行进一步的探索。这种噪音确保可以尝试所有动作，但是搜索仍可能否决不良动作。为了节省计算量，显然输了的游戏都被放弃了。放弃阈值 $v_{resign}$ 被自动选择，以将误报率（如果AlphaGo没有放弃，本可以获胜的游戏）保持在5%以下。为了衡量误报，我们在10%的self-play游戏中禁用放弃，并一直玩到终止。

Search algorithm.

搜索树中的每个节点 $s$ 都包含所有合法动作 $a \in A (s)$ 的边 $(s, a)$ 。每个边存储一组统计信息：

其中 $N (s, a)$ 是访问次数， $W (s, a)$ 是总动作值， $Q (s, a)$ 是平均动作值， $P (s ， a)$ 是选择该边的先验概率。在单独的搜索线程上并行执行多个模拟。该算法通过在三个阶段上迭代进行（图2a–c），然后选择要进行的移动（图2d）。

Select (Fig. 2a).

选择阶段几乎与AlphaGo相同。这里简要介绍一下完整性。每个模拟的第一个树内阶段从搜索树的根节点 $s_0$ 开始，当模拟到达在时间步长 $L$ 的叶节点 $s_L$ 时结束。在每个时间步长 $t < L t ，使用PUCT算法的一种变体，根据搜索树中的统计信息， a t = arg max ⁡ a ( Q ( s t , a ) + U ( s t , a ) ) a_t= \argmax_a(Q(s_t,a)+ U(s_t,a)) 处选择动作： c p u c t c_{puct} 是确定勘探水平的常数；此搜索控制策略最初会选择具有较高先验概率和较低访问量的动作，但渐近地会选择具有较高动作价值的动作。$

Expand and evaluate (Fig. 2b).

将叶子节点 $s_L$ 添加到队列中以进行神经网络评估， $d_i(p),v）=f_θ(d_i(s_L))$ ，其中 $d_i$ 是从 $[1 . . 8]$ 中的 $i$ 随机选择的二面镜像或旋转。 8]。队列中的位置由神经网络使用最小批处理大小8来评估；搜索线程将被锁定，直到评估完成。叶节点被展开，每个边 $s_L,a)$ 初始化为 ${N(s_L,a)= 0,W(s_L,a)= 0,Q(s_L,a)= 0,P(s_L,a) = p_a\}$ ; 然后backup值 $v$ 。

Backup (Fig. 2c).

在每个步骤 $t \leq L$ 的反向传递中更新边的统计信息。访问计数递增 $N(s_t,a_t)= N(s_t,a_t)+ 1$ ，并且将动作值更新为平均值， $W(s_t,a_t)=W(s_t,a_t)+v, Q(s_t,a_t)=\frac{W(s_t,a_t)}{N(s_t,a_t)}$ 。我们使用virtual loss确保每个线程计算不同的节点。

Play (Fig. 2d).

搜索结束时，AlphaGo Zero选择一个根位置 $s_0$ 的移动 $a$ ，该移动 $a$ 与它的访问计数的指数成正比， $π(a|s_0)= N(s_0,a)^{1/τ}/Σ_bN(s_0,b)^{1/ τ}$ ，其中 $τ$ 是控制勘探水平的温度参数。搜索树将在随后的时间步中重用：所选动作对应的子节点成为新的根节点；该子树下的子树及其所有统计信息都将保留，而树的其余部分将被丢弃。如果其根价值和最佳子价值低于阈值 $v_{resign}$ ，则AlphaGo Zero将退出。

与AlphaGo Fan和AlphaGo Lee中的MCTS相比，主要区别在于AlphaGo Zero不使用任何rollouts。它使用单个神经网络而不是单独的策略和价值网络；叶节点始终被扩展，而不是使用动态扩展；每个搜索线程仅等待神经网络评估，而不是异步执行评估和备份。而且没有树政策。在大型（40个blocks，40天）的AlphaGo Zero实例中也使用了transposition table。

Neural network architecture.

神经网络的输入是一个19×19×17图像堆栈，其中包含17个二进制特征平面。八个特征平面 $X_t$ 由指示当前玩家的棋子是否存在的二进制值组成（如果交叉点 $i$ 在时间步长 $t$ 时包含玩家颜色的石头，则 $X_i^t= 1$ ；如果交叉点为空，包含对手棋子，或者 $t < 0$ ，则为0）。另外8个特征平面 $Y_t$ 代表对手棋子的相应特征。最后一个特征平面C代表所play的颜色，并且如果执黑子则常量值为1，如果执白子，则常量值为0。这些平面串联在一起以提供输入特征 $s_t = [X_t，Y_t，X_{t-1}，Y_{t-1}，...，X_{t-7}，Y_{t-7}，C]$ 。历史特征 $X_t$ ， $Y_t$ 是必需的，因为Go不能完全从当前的棋子上观察到，因为禁止重复。类似地，颜色特征C是必需的，因为无法观察到komi。

输入特征 $s_t$ 由residual tower处理，residual tower由单个卷积块和19个或39个残差块组成。卷积block应用了以下模块：

residual tower的输出传递到两个单独的“头”中，以计算策略和价值。策略head应用以下模块：

对应于所有交叉点和pass的logit概率。

价值head应用以下模块：

在20或40块网络中，残差塔的总网络深度分别为39或79个参数化层，加上策略头的额外2层和价值头的3层。

python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
自动写论文的网站推荐这5款实用类工具小猪包333 写论文人工智能深度学习计算机视觉 AI写作
在当今学术研究和写作领域，AI论文写作工具的出现极大地提高了写作效率和质量。这些工具不仅能够帮助研究人员快速生成论文草稿，还能进行内容优化、查重和排版等操作。以下是五款实用类工具推荐，特别是千笔-AIPassPaper。1.千笔-AIPassPaper千笔-AIPassPaper是一款功能强大且全面的AI论文写作助手，用户只需输入基本的研究需求和关键词，便能迅速生成一篇完整的论文。该工具利用先进的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
4款毕业论文参考文献格式生成器（附加详细步骤）小猪包333 写论文人工智能深度学习计算机视觉 AI写作
在撰写毕业论文时，参考文献的格式规范是至关重要的。为了帮助学生和学者们更高效地生成符合要求的参考文献格式，本文将详细介绍四款推荐的参考文献格式生成器，并提供详细的使用步骤。1.千笔-AIPassPaper千笔-AIPassPaper是一款先进的AI辅助论文写作工具，不仅能够自动生成大纲、开题报告，还能一键生成参考文献。AI论文，免费大纲，10分钟3万字https://www.aipaperpass
AI论文写作推荐哪个好？分享5款AI论文写作带数据图表网站小猪包333 写论文人工智能深度学习计算机视觉
在当今学术研究和写作领域，AI论文写作工具的出现极大地提高了写作效率和质量。这些工具不仅能够帮助研究人员快速生成论文草稿，还能进行内容优化、查重和排版等操作。以下是五款推荐的AI论文写作工具，包括千笔-AIPassPaper。千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文写作助手，旨在帮助用户快速生成高质量的论文内容。AI论文，免费大纲，10分钟3万字https:
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
毕业论文附录一般都写什么?大学生写论文是干嘛用的写个原创论文人工智能深度学习 AI写作 chatgpt 论文阅读
毕业论文的附录通常包含一些在正文中不便于展示或详细阐述的内容，但对理解论文整体又具有重要意义的资料。具体来说，附录可能包含以下内容：AI论文，免费大纲，10分钟3万字，查重高于15%退费，支持数据图表！！AIPaperPass-AI论文写作指导平台AIPaperPass是AI原创论文写作平台，免费千字大纲，5分钟生成3万字初稿，提供答辩汇报ppt、开题报告、任务书等，40篇真实中英文知网参考文献，
端到端的自动驾驶论文与代码整理大别山伧父自动驾驶
LearningbyCheatinggithubcodearxivpaperconferenceonrobotlearning最新进展(May2021)Checkoutourlatestfollow-upwork:WorldonRails(2020)Checkoutoursubmissiontothe2020CARLAChallenge!pass
EP6 同一组件通过传递不同属性展示不同效果京城五 uniapp壁纸小程序项目实践前端学习脚步 css 前端 html
文件路径：E:/homework/uniappv3tswallpaper/pages/index/index.vue公告文字内容文字内容文字内容文字内容文字内容文字内容文字内容文字内容文字内容文字内容文字内容文字内容文字内容文字内容文字内容文字内容每日推荐专题精选More+.homeLayout{.banner{width:750rpx;padding:30rpx0;swiper{width:10
EP7 底部tab切换页面标签京城五 uniapp壁纸小程序项目实践前端知识杂合前端 uniapp 小程序
文件路径：E:/homework/uniappv3tswallpaper/pages/classify/classify.vue.classify{padding:30rpx;display:grid;grid-template-columns:repeat(3,1fr);gap:15rpx;}文件路径：E:/homework/uniappv3tswallpaper/pages/user/user
探索任务的隐秘世界：推荐Task2Vec 邓越浪Henry
探索任务的隐秘世界：推荐Task2Vecaws-cv-task2vecOfficialcodeforthepaper"Task2Vec:TaskEmbeddingforMeta-Learning"(https://arxiv.org/abs/1902.03545,ICCV2019)项目地址:https://gitcode.com/gh_mirrors/aw/aws-cv-task2vec在机器学习
Coding and Paper Letter（十四） G小调的Qing歌
资源整理。1Coding:1.R语言包ungeviz，ggplot2的拓展包，专门用来作不确定性的可视化。ungeviz2.计算机图形学相关开源项目。计算机图形学光线追踪开源项目C++源码。computergraphicsraytracing计算机图形学格网开源项目C++源码。computergraphicsmeshes计算机图形学介绍开源项目。computergraphics3.R语言包GLMM
05-树9 Huffman Codes（C） L_glonar c语言数据结构
日常，这一次，耗费我三天，其实第二天时便已经将对整个框架有清晰的了解了，（看了解析了），但是一步步排除，确实让我学到了很多。In1953,DavidA.Huffmanpublishedhispaper"AMethodfortheConstructionofMinimum-RedundancyCodes",andhenceprintedhisnameinthehistoryofcomputersci
线性代数|机器学习-P33卷积神经网络ImageNet和卷积规则取个名字真难呐算法机器学习矩阵人工智能线性代数
文章目录1.ImageNet2.卷积计算2.1两个多项式卷积2.2函数卷积2.3循环卷积3.周期循环矩阵和非周期循环矩阵4.循环卷积特征值4.1卷积计算的分解4.2运算量4.3二维卷积公式5.KroneckerProduct1.ImageNetImageNet的论文paper链接如下：详细请直接阅读相关论文即可通过网盘分享的文件：imagenet_cvpr09.pdf链接:https://pan.
IJCAI2024 无脑敲代码，bug漫天飞会议
CallforPapers–IJCAI2024重要日期(所有时间都是地球上的任何地方，UTC-12)摘要提交截止日期:2024年1月10日作者信息截止日期:2024年1月16日论文全文截止日期:2024年1月17日附录和重新提交信息截止日期:2024年1月24日简易拒绝通知:2024年2月22日作者回复时间:2024年3月18日至21日书面通知:2024年4月16日会议:2024年8月3日星期六至
2019-01-12 q若水
Youcan'trewriteyourpast,butyoucangrabacleansheetofpaperandwriteyourfuture.你不能重写过去，但是你可以用一张干净的纸去书写你的未来。
第66期 | GPTSecurity周报云起无垠 GPTSecurity AIGC gpt
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.利用高级大语言模型
Bilingual engineering 201707 No.360 Alyee AlyeeBonnie
GamesandDailylife:Makealittlemousewithher.Steps1.Useorangepapertomakeacone2.Maketworoundearsandalongtailwiththeorangepaper3.Cutasmallpieceofblackpapertomakethemouseswhiskers4.Pasteallthepartstogether5
IROS2023 马少爷学术人工智能自然语言处理
1、论文要求论文征集提交给IROS会议文件审查委员会作为同行评审的档案出版物，所有被接受的论文都将在IEEEXplore上托管。邀请潜在作者提交代表原创作品的高质量论文。欢迎就主题以及智能机器人和应用的所有领域提交意见。请通过传统的PaperPlaza流程提交论文。格式指南LaTex模板MSWord模板论文长度应为六页（美国字母大小），最多可多出两页（每多出一页收费205美元，应在验收后付款）。页
探索智能边缘计算：Game-Theoretic-Deep-Reinforcement-Learning 瞿旺晟
探索智能边缘计算：Game-Theoretic-Deep-Reinforcement-LearningGame-Theoretic-Deep-Reinforcement-LearningCodeofPaper"JointTaskOffloadingandResourceOptimizationinNOMA-basedVehicularEdgeComputing:AGame-TheoreticDRL
乡村振兴战略下传统村落文化旅游设计 Paperback – Aug. 1 2022 Chinese edition by XU SHAO HUI (Author) 光明理论旅游人工智能媒体生活科技产品运营内容运营
乡村振兴战略下传统村落文化旅游设计Paperback–Aug.12022ChineseeditionbyXUSHAOHUI(Author)Language:Chinese.paperback.PubDate:2022-08-01.publisher:ChinaBuildingIndustryPress.description:Paperback.PubDate:2022-08-01Pages:20
第65期 | GPTSecurity周报云起无垠 GPTSecurity 人工智能网络安全语言模型
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.基于第一性原理的大
特征点提取与匹配原文论文下载长沙有肥鱼视觉SLAM十四讲计算机视觉
ORB原文下载链接：(PDF)ORB:anefficientalternativetoSIFTorSURFSIFT原文下载链接：https://www.cs.ubc.ca/~lowe/papers/ijcv04.pdfSURF原文下载链接:https://www.cs.jhu.edu/~misha/ReadingSeminar/Papers/Bay08.pdfORB和AKAZE对比论文下载链接：h
后端JOIN、LEFT JOIN、RIGHT JOIN的理解 I like Code? java 后端
SELECTf_exam_record.*,f_exam_paper.PaperName,f_exam_paper.PaperTime,exam_class.classnameFROMf_exam_recordJOINf_exam_paperONf_exam_record.PaperId=f_exam_paper.PaperIdLEFTJOINexam_classonf_exam_record.c
仿华为车机功能之--修改Launcher3,增加横向滑动桌面空白处切换壁纸的功能 Kwanvin Android Launcher3深度定制开发华为 java android
本功能基于Android13Launcher3需求：模仿华为问界车机，实现横向滑动桌面空白处，切换壁纸功能（本质只是切换背景，没有切换壁纸）。实现效果：实现思路：第一步首先得增加手势识别第二步切换底图，不切换壁纸是因为切换壁纸动作太大，需要调用到WallpaperManager,耗时且会触发应用activity重启原生系统有识别上滑与下滑的动作，那我们应该增加一个左滑和右滑的动作识别禁止上滑出所有
开源的即时聊天解决方案Papercups 辣码甄源精品开源应用分享开源 github 信息与通信
Papercups：让聊天支持变得简单、私密、实时。-精选真开源，释放新价值。概览Papercups是一款开源的实时客户支持工具，它使用Elixir语言构建，为注重客户数据隐私和安全性的公司提供了一个自托管的解决方案。这款工具的设计理念是简化客户与企业之间的沟通流程，通过一个直观的聊天小部件嵌入到企业的网站中，实现无缝的实时交流。Papercups的聊天小部件不仅易于集成，还提供了丰富的自定义选项
今日欧美圈：Sam Smith专辑改期，The Box狂揽B榜十周冠胡萝卜音乐
新一期Billboard单曲榜上，《TheBox》狂揽十周冠，DuaLipa热单《Don'tStartNow》升至亚军，LilUziVert有三首歌曲进入前十。SamSmith新专辑《ToDieFor》发行日期推迟到6月5日。新单要来啦！LaurenJauregui宣布新单《Lento》将在3月20日发行。HarryStyles登上BeautyPapers写真释出！在《冰雪奇缘2》中为Honeym
Vblog#1 English learning for science research 一粒咖啡
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档Englishlearningforscienceresearchintroduction一、GOALsin1month二、PlanseverydaySummeryintroductionIstartedtowritepaperinEnglishinordertoimproveabilityofEnglishandunderstand
AIGC：Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis 微风❤水墨 AIGC
代码：GitHub-Kwai-Kolors/Kolors:KolorsTeam论文：Kolors/imgs/Kolors_paper.pdfatmaster·Kwai-Kolors/Kolors·GitHub模型：huaggingface:https://huggingface.co/Kwai-Kolors/Kolors-diffusersmodelscope:https://modelscope
PaperWeekly sapienst Papers PaperwithCode General ML
1.Python软件包解决DL在未见过的数据分布下性能差的问题：（1）神经网络和损失分离的模块化设计（2）强大便捷的基准测试能力（3）易于使用但难以修改（4）github:https://github.com/marrlab/domainlabTrainer和Models之间是什么关系Trainer和Models是DomainLab中的两个核心概念。Trainer是一个用于指导数据流向模型并计算S
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分