喜欢打酱油的老鸟

ICML 2018 | 从强化学习到生成模型：40篇值得一读的论文

https://blog.csdn.net/y80gDg1/article/details/81463731

感谢阅读腾讯AI Lab微信号第34篇文章。当地时间 7 月 10-15 日，第 35 届国际机器学习会议（ICML 2018）在瑞典斯德哥尔摩成功举办。ICML 2018 所接收的论文的研究主题非常多样，涵盖深度学习模型/架构/理论、强化学习、优化方法、在线学习、生成模型、迁移学习与多任务学习、隐私与安全等，在本文中，腾讯 AI Lab 的研究者结合自身的研究重心和研究兴趣对部分 ICML 2018 论文进行了简要介绍和解读。

当地时间7月10-15日，第 35 届国际机器学习会议（ICML 2018）在瑞典斯德哥尔摩成功举办。和计算机科学领域内的很多其它顶级会议一样，今年 ICML 会议的投稿量和接受量都出现了大幅增长。如下图所示，ICML 2018 共有 2473 篇有效投稿，较上年增长 45%，其中 618 篇被接收，接收率为 25.1%。

大会主席 Francis Bach 介绍 ICML 2018 论文接收情况

腾讯 AI Lab 今年共有 16 篇论文入选，远远超出上一年的 4 篇，详情请参阅腾讯 AI Lab 微信公众号之前发布的文章《ICML 2018 | 腾讯AI Lab详解16篇入选论文》。

ICML 2018 所接收的论文的研究主题非常多样，涵盖深度学习模型/架构/理论、强化学习、优化方法、在线学习、生成模型、迁移学习与多任务学习、隐私与安全等，具体统计情况见下图：

ICML 2018 论文的研究主题分布情况

在本文中，腾讯 AI Lab 的研究者结合自身的研究重心和研究兴趣对部分 ICML 2018 论文进行了简要介绍和解读，其中涉及的主题包括强化学习、元学习/迁移学习、自动超参数调节/架构搜索。当然，文中提到的论文一般都涉及多个主题，所提供的划分方式仅作参考。

强化学习

自从 AlphaGo 横空出世，击败世界顶级棋手李世石以来，机器学习领域对强化学习的研究热情一直有增无减。今年的 ICML 同样接收了大量强化学习方面的研究成果，这些研究可概括为以下类别：理论、网络、算法、优化方法、探索、奖励、基于模型的方法、分布式、分层式、元学习、迁移学习、应用。下面列出了部分值得关注的论文：

强化学习理论

The Uncertainty Bellman Equation and Exploration

不确定性贝尔曼方程及探索

链接：https://arxiv.org/abs/1709.05380：

这项研究由 DeepMind 完成，研究了强化学习中的探索与利用（exploration/exploitation）问题。对于利用，贝尔曼方程能将任意时间步骤的值连接到后续时间步骤的预期值。研究者在这篇论文中提出了一种类似的不确定贝尔曼方程（UBE），可将任意时间步骤的不确定性连接到后续时间步骤的预期不确定性，由此能将策略的潜在探索效益扩展到多个时间步骤。这种方法能自然地扩展用于具有复杂的泛化问题的大型系统并且能在一些强化学习问题上更好地替代 ε-greedy 策略。

使用线性不确定性估计的一步式 UBE 探索

搜索与规划

Efficient Gradient-Free Variational Inference using Policy Search

使用策略搜索的高效无梯度变分推理

链接：http://proceedings.mlr.press/v80/arenz18a/arenz18a.pdf

代码：https://github.com/OlegArenz/VIPS

这项研究由德国达姆施塔特工业大学和英国林肯大学合作完成。文中提出了一种高效的无梯度方法，可基于来自随机搜索方法的近期见解学习多模态分布的广义 GMM 近似。该方法会建立一个信息几何信任区域，以确保有效探索采样空间和 GMM 更新的稳定性，从而实现对多变量高斯变分分布的有效估计。相关实现的代码已公布。

元学习

Been There, Done That: Meta-Learning with Episodic Recall

去过那里，做过那事：使用情景回调的元学习

链接：https://arxiv.org/abs/1805.09692

这项研究由 DeepMind、普林斯顿神经科学研究所、MPS-UCL 计算精神病学中心、伦敦大学学院 Gatsby 计算神经科学部合作完成。元学习智能体很擅长根据开放式的任务分布快速学习新任务，但它们在学习下一个任务时就会忘记已经学过的任务。针对这一问题，研究者提出了一个可以生成一系列开放式并且可重复的任务环境，从而使得元学习只能可以不断温故而知新。不过这种方法在元学习的算法端没有太大的创新，采用了“短时 LSTM 记忆+外部可微分记忆”的方法。

模型架构和环境结构

分布式学习

Implicit Quantile Networks for Distributional Reinforcement Learning

用于分布式强化学习的隐式分位数网络

链接：https://arxiv.org/abs/1806.06923

这项研究由 DeepMind 完成，文中构建了一种可广泛应用的、灵活的、当前最佳的 DQN 分布式变体——隐式分位数网络（IQN）。研究者使用了分位数回归（quantile regression）来近似状态-动作回报分布的全分位数函数。通过在样本空间上重新参数化一个分布，这能得到一个隐式地定义的回报分布并带来一大类对风险敏感的策略。这种 IQN 相比 QR-DQN 更有优势。

DQN 和近期几种分布式强化学习算法的网络架构

分层式强化学习

Self-Consistent Trajectory Autoencoder: Hierarchical Reinforcement Learning with Trajectory Embeddings

自洽的轨迹自编码器：使用轨迹嵌入的分层式强化学习

链接：https://arxiv.org/abs/1806.02813

实验：https://sites.google.com/view/sectar

这项研究由加利福尼亚大学伯克利分校和谷歌大脑合作完成，其中提出了一种全新的分层式强化学习算法 SeCTAR。该算法的灵感来自变分自动编码器，使用了一种自下而上的方式来学习轨迹的连续表征，而没有对人工设定的指标或子目标信息的明确需求。该研究基于两个主要思想：第一，研究者提出构建一个 skill 的连续潜在空间；第二，研究者提出使用一个能够同时学习产生 skill 和预测它们的结果的概率隐含变量模型。

SeCTAR 模型计算图

Hierarchical Imitation Learning and Reinforcement Learning

分层式模拟学习与强化学习

链接：https://arxiv.org/abs/1803.00590

实验：https://sites.google.com/view/hierarchical-il-rl

这项研究由加州理工学院、微软研究院和马里兰大学帕克分校合作完成，研究了有效利用专家反馈来学习序列决策策略的方法。研究者提出了一种分层式引导（hierarchical guidance）算法框架，能利用问题的层次结构来集成不同模式的专家交互。该框架可以在不同层面整合模拟学习（IL）与强化学习（RL）的不同组合，从而显著降低专家工作量和探索成本。

奖励设计

Using Reward Machines for High-Level Task Specification and Decomposition in Reinforcement Learning

在强化学习中使用奖励机进行高级任务规范和分解

链接：http://proceedings.mlr.press/v80/icarte18a/icarte18a.pdf

这项研究由多伦多大学计算机科学系、Vector Institute 和 Element AI 完成。该论文有两大贡献。第一，研究者引入了一种用于定义奖励的有限状态机——奖励机（Reward Machine）。奖励机能以灵活的方式（包括连接、循环和条件规则）分解不同的奖励函数。当智能体在环境中的状态之间变化时，它也会在奖励机中发生状态变化。在每次变化后，奖励机都会输出该智能体此时应该使用的奖励函数。第二，研究者引入了一种“用于奖励机的 Q 学习（QRM）”算法，可利用奖励机的内在结构来分解问题，从而提升样本效率。

算法

Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor

Soft Actor-Critic：使用随机 actor 的离策略最大熵深度强化学习

链接：https://arxiv.org/abs/1801.01290

这项研究由加州大学伯克利分校电气工程与计算机科学系完成。无模型深度强化学习算法往往有两大主要难题：非常高的样本复杂度和脆弱的收敛性质；需要很细致的超参数调节才能解决。针对这一问题，研究者提出了一种基于最大熵强化学习框架的离策略 actor-critic 深度强化学习算法 soft actor-critic。在这个框架中，actor 的目标是在最大化熵的同时最大化预期的回报——即在成功完成任务的同时尽可能随机地行动。之前基于这一框架的深度强化学习方法已被形式化为 Q 学习方法。通过将离策略更新与稳定的随机 actor-critic 形式相结合，新方法在一系列连续控制的基准任务上都取得了当前最佳表现。

An Efficient, Generalized Bellman Update for Cooperative Inverse Reinforcement Learning

一种用于协作式逆向强化学习的高效广义 Bellman 更新

链接：https://arxiv.org/abs/1806.03820

这项研究由加州大学伯克利分校电气工程与计算机科学系完成。为了让 AI 系统能正确识别人类用户的目标并据此采取适当行动，协作式逆向强化学习（CIRL）将这个价值对齐（value alignment）问题当作是人类和机器人之间的双玩家博弈问题，其中仅有人类知道奖励函数的参数，而机器人需要通过交互学习它们。研究者在这篇论文中利用了 CIRL 的一个特定性质——人类是具有完全信息的智能体，来推导对标准 Bellman 更新的一种修改方式，使其能保留其中的最优性质；这能大幅降低问题的复杂性并能放宽 CIRL 对人类理性的假设。

探索

Learning to Explore via Meta-Policy Gradient

使用元策略梯度学习探索

链接：https://arxiv.org/abs/1803.05044

这项研究由百度研究院、德克萨斯大学奥斯汀分校和伊利诺伊大学香槟分校完成。离策略学习方法很依赖对探索策略的选择，而现有的探索方法基本都基于为正在进行的 actor 策略添加噪声，而且只能探索 actor 策略规定的附近局部区域。研究者在这篇论文中开发了一种简单的元策略梯度算法，能够自适应地学习 DDPG（深度确定性策略梯度）中的探索策略。这种算法可以训练独立于 actor 策略的灵活的探索行为，实现全局探索，从而显著加速学习过程。

优化

Stochastic Variance-Reduced Policy Gradient

随机的方差降低的策略梯度

链接：https://arxiv.org/abs/1806.05618

这项研究由意大利米兰理工大学和法国国家信息与自动化研究所（INRIA）完成。论文中提出了一种全新的强化学习算法，其中包含一个用于求解马尔可夫决策过程（MDP）的策略梯度的随机式方差降低的版本。尽管 SVRG 方法在监督学习领域很成功，但却难以应用到策略梯度方面。针对其中的难题，研究者提出了 SVRPG，能够利用重要度权重来保留梯度估计的无偏差性。在 MDP 的标准假设下，SVRPG 能保证收敛。

Global Convergence of Policy Gradient Methods for the Linear Quadratic Regulator

线性二次调节器的策略梯度方法的全局收敛性

链接：https://arxiv.org/abs/1801.05039

这项研究由华盛顿大学和杜克大学合作完成。直接策略梯度方法是一种常用于强化学习和连续控制问题的方法，但也有一个显著的缺点：即使是在最基本的连续控制问题（线性二次调节器）中，这些方法都必须求解一个非凸优化问题，而人们在计算方面和统计方面对它们的效果的理解都知之甚少。相对而言，最优控制理论中的系统辨识和基于模型的规划具有更加坚实的理论基础。这篇论文填补了这一空白，研究表明（无模型的）策略梯度方法能全局收敛到最优解，并且在采样和计算复杂度方面是有效的。

多智能体强化学习

Competitive Multi-Agent Inverse Reinforcement Learning with Sub-optimal Demonstrations

具有次优演示的竞争性多智能体逆向强化学习

链接：https://arxiv.org/abs/1801.02124

这项研究由美国西北大学完成，研究了零和随机博弈中当专家演示已知不是最优时的逆向强化学习问题。相比于之前通过假设专家策略中的最优性来解耦博弈中的智能体的工作，该论文引入了一个新的目标函数，可直接让专家与纳什均衡策略斗争。研究者设计了一个算法，可以在以深度神经网络作为模型近似的逆向强化学习背景中求解其奖励函数。在这样的设置中，模型和算法不会被解耦。研究者还提出了一种用于零和随机博弈的对抗训练算法，可用于寻找大规模博弈中的纳什均衡。

Modeling Others Using Oneself in Multi-Agent Reinforcement Learning

在多智能体强化学习中使用自身建模其它智能体

链接：https://arxiv.org/abs/1802.09640

这项研究由纽约大学计算机科学系和 Facebook 人工智能研究中心完成。论文中提出了一种名为 Self Other-Modeling（SOM）的新方法，其中智能体可使用自己的策略以在线的形式来预测其它智能体的动作并更新自己对它们的隐藏状态的信念。这样，不管是以协作方式还是以对抗方式，多个智能体都能基于对其它智能体的估计来学习更好的策略。

一个给定智能体的 SOM 架构

QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning

QMIX：用于深度多智能体强化学习的单调价值函数因子分解

链接：https://arxiv.org/abs/1803.11485

这项研究由牛津大学和 Russian-Armenian 大学完成。论文中提出了一种能以中心化的端到端的方式训练去中心化策略的基于价值的全新方法 QMIX。QMIX 能够将仅基于局部观察的每个智能体的价值以复杂的非线性方式组合起来，估计联合的动作-价值。研究者在一组高难度《星际争霸2》微操作任务上评估了 QMIX，得到了很好的结果。

（a）混合网络结构。蓝色是混合网络的层，红色是为混合网络产生权重和偏置的超网络；（b）整体 QMIX 架构；（c）智能体的网络结构

Mean Field Multi-Agent Reinforcement Learning

平均场多智能体强化学习

链接：https://arxiv.org/abs/1802.05438

这项研究由完成。现有的多智能体强化学习方法的智能体数量通常很小，因为维度灾难和巨量智能体交互让更多智能体的强化学习难以真正实现。针对这一难题，研究者提出了平均场强化学习，其中多智能体之间的交互是由一个单个智能体与群体智能体或邻近智能体的平均效应之间的交互近似得到的；这两个实体之间的相互作用能互相强化：单个智能体的最优策略的学习取决于群体的动态，而群体的动态会根据单个策略的集体模式而变化。

强化学习中的元学习/迁移学习

Transfer in Deep Reinforcement Learning Using Successor Features and Generalised Policy Improvement

使用后继特征和广义策略提升的深度强化学习迁移

链接：http://proceedings.mlr.press/v80/barreto18a/barreto18a.pdf

这项研究由 DeepMind 完成，其研究基础是可通过迁移之前任务的知识/技巧到新的任务来实现强化学习加速。这项工作基于 SF&GPI 框架，其中 SF 是指后继特征，GPI 是指广义策略提升，并做了以下两点改进：1）放松了后继特征必须为一个固定特征集的线性组合这个假设；2）可以把前序任务的奖励函数作为特征迁移到后序任务并改善该任务。研究者在一个复杂的 3D 环境上进行了实验验证，结果表明 SF&GPI 推动实现的迁移几乎立刻就能在未曾见过的任务上得到非常优良的策略。

Policy and Value Transfer in Lifelong Reinforcement Learning

终身强化学习中的策略和价值迁移

链接：http://proceedings.mlr.press/v80/abel18b/abel18b.pdf

代码：https://github.com/david-abel/transfer_rl_icml_2018

这项研究由布朗大学计算机科学系完成，研究了如何最好地使用之前的经验来提升终身学习效果的问题。首先，针对终身学习的越来越复杂类别的策略和任务分布，研究者先确定能优化在这些任务分布上的预期表现的初始策略。考虑到策略初始化这种简单的迁移策略的效果不是很理想，因此研究者提出使用价值函数来初始化迁移策略。研究者证明后者不但可以提升迁移表现，而且可以保证 PAC 理论的完备性。相关实验的代码已经开放。

State Abstractions for Lifelong Reinforcement Learning

用于终身强化学习的状态抽象

链接：https://david-abel.github.io/papers/lifelong_sa_icml_18.pdf

代码：https://github.com/david-abel/rl_abstraction

这项研究同样由布朗大学计算机科学系完成，试图从表征压缩（即状态抽象）的角度来解决终身强化学习问题。研究者指出，由于在终身强化学习中需要同时完成知识迁移、探索、信度分配等问题，因此对通用表征进行压缩可以提高计算效率。文中提出了两种状态抽象方法：1）过渡式状态抽象，其最优形式可有效地计算得到；2）PAC 状态抽象，其能保证与任务分布一致。研究者表明过渡式 PAC 抽象的联合方法能够有效得到、能保留接近最优的行为、还能降低简单域中的样本复杂性，从而得到一系列可用于终身强化学习的所需抽象。相关实验的代码已经开放。

Continual Reinforcement Learning with Complex Synapses

使用复杂突触的持续强化学习

链接：https://arxiv.org/abs/1802.07239

这项研究由伦敦帝国理工学院计算系和生物工程系与 DeepMind 合作完成。为了解决灾难性遗忘（catastrophic forgetting）问题，研究者提出在表格式的深度强化学习算法中加入一个具备生物复杂性的突触模型，并且证实该改进确实可以在不同时间尺度上减轻灾难性遗忘问题。值得一提的是，研究者还发现这种方法除了能在两个简单任务的序列训练上实现持续学习之外，还能通过降低对经历重放数据库的需求而克服任务内的遗忘问题。

元学习/迁移学习

从以上的统计信息中可以看出来，迁移学习和多任务学习这个主题虽不如强化学习这么火爆，也占据了很大一席位置。迁移学习这个方向的发展已从过去一两年的基于深度学习的一系列无监督域适应方法跳了出来，往更有意义且更具挑战性的迁移学习本身的理论以及优化方法发展，这也是一个趋势。重点论文总结如下：

CyCADA: Cycle-Consistent Adversarial Domain Adaptation

CyCADA：循环一致的对抗域适应

链接：https://arxiv.org/abs/1711.03213

这项研究由伯克利人工智能研究实验室（BAIR）、OpenAI 和波士顿大学合作完成。该论文和下一篇论文是仅有的两篇基于深度学习和对抗损失的无监督域适应研究。这篇论文的核心思想是把 CycleGAN 里的核心思想引入到无监督域适应，以在从源域生成目标域后再从目标域生成源域，能使得生成的源域和原来的源域保持足够接近。研究者提出的 CyCADA 模型在像素层面和特征层面上都能进行适应，在利用任务损失的同时能保持循环一致性，而且无需对齐的配对。研究者在数字分类和道路场景形义分割等多个适应任务上进行了实验，取得了新的当前最佳结果。

使用像素空间输入的循环一致性对抗适应。通过直接将源训练数据再次映射到目标域，能够移除这些域之间的低层面差异，确保任务模型能很好地立足于目标数据

Learning Semantic Representations for Unsupervised Domain Adaptation

学习用于无监督域适应的语义表征

链接：http://proceedings.mlr.press/v80/xie18c/xie18c.pdf

代码：https://github.com/Mid-Push/Moving-Semantic-Transfer-Network

这项研究由中山大学完成。这篇论文的贡献在于通过伪标签（pseudo label），用一种有监督的类别判别式方法对齐两个领域之间的距离。预计在同一类别但不同域中的特征会被映射在临近的位置，从而导致目标分类准确度提升。相关实验的代码已经开放。

除了标准的源分类损失，其中也使用了域对抗损失来对齐两个域的分布

GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks

GradNorm：用于深度多任务网络中自适应损失平衡的梯度归一化

链接：https://arxiv.org/abs/1711.02257

这项研究由 Magic Leap 完成。这篇论文解决了一个非常有意思并且非常实用的问题，即多任务学习中多个任务难易程度不同所导致的优化不同步问题。作者提出了一种梯度传播机制，其核心思想是动态调整多个任务的权重，这些权重通过各个任务的实时梯度再进行反向传播和更新。研究表明，GradNorm 算法对多种不同的网络架构都有效，而且无论是回归任务还是分类任务，无论是合成数据集还是真实数据集，GradNorm 在多个任务上都能实现优于单任务网络的准确度并降低过拟合。GradNorm 也能得到比肩或超过穷举网格搜索方法的表现，尽管其仅涉及到单个不对称超参数 α。因此，曾经每增加一个任务都会导致计算需求指数增长的繁琐的搜索过程现在只需几次训练就能完成了，而且无论任务有多少都一样。研究者还表明梯度操作能实现对多任务网络的训练动态的更好控制。

梯度归一化。不同任务上不平衡的梯度范数（左图）会导致多任务网络训练效果次优。GradNorm 通过计算一个全新的梯度损失 Lgrad（右图）来调节损失权重，从而解决梯度范数中的不平衡。

Detecting and Correcting for Label Shift with Black Box Predictors

使用黑箱预测器检测和校正标签偏移

链接：https://arxiv.org/abs/1802.03916

这项研究由卡内基·梅隆大学和 Amazon AI联合完成。克服并减小域偏移（domain shift）是迁移学习中非常重要的问题。这篇工作首次提出了黑箱偏移估计（BBSE）方法——其在标签偏移的情形下可以量化和纠正标签偏移。虽然更好的预测因子能带来更严格的估计，但即使预测因子有偏差、不准确或未校准，只要它们的混淆矩阵是可逆的，BBSE 就有效。

Meta-Learning by Adjusting Priors Based on Extended PAC-Bayes Theory

通过调整基于扩增 PAC-贝叶斯理论的先验的元学习

链接：https://arxiv.org/abs/1711.01244

代码：https://github.com/ron-amit/meta-learning-adjusting-priors

这项研究由以色列理工学院Viterbi 电气工程学院的 Ron Amit 和 Ron Meir 完成。ICML 2018 上单纯研究元学习的工作不多，大多数是元学习与强化学习等结合的工作，所以这算其中之一。这篇论文本质上是扩展了经典的元学习方法 MAML——鼓励初始值是之前任务的参数的一个由先验函数（prior function）所决定的概率分布。同时， MAML 的作者 Chelsea Finn 也在今年 NIPS 提交了一篇概率 MAML（probabilistic MAML）。两者基本思路类似。相关实验的代码已经开放。

元学习器使用被观察任务的数据集来推理“先验知识”，这反过来又能促进该任务环境中未来任务中的学习

Gradient-Based Meta-Learning with Learned Layerwise Metric and Subspace

使用所学习到的逐层式度量和子空间的基于梯度的元学习

链接：https://arxiv.org/abs/1801.05558

这项研究由韩国浦项科技大学计算机科学与工程系完成。这篇元学习的工作相对较有意思。首先，它不但迁移了参数作为初始值，同时迁移了每层的激活。这个思路应该是借鉴了知识蒸馏（knowledge distillation）的相关工作。更重要的是其中关于相似度度量的定义，该方法是直接学习一个新的适合各个任务进行比较的度量空间。

（a）一个变换网络（T-net）的适应过程图示，（b）一个掩模变换网络（MT-net）的适应过程图示

自动超参数调节/架构搜索

现代深度学习方法往往具有大量超参数，而且这些超参数对模型的性能和表现有很大的影响，因此高效实用的调节方法具有很重要的价值。因此，自动超参数调节可以说是机器学习领域的核心研究方向之一，所以这方面的研究非常多，下面列出了 2 篇这个方向的论文，另外还有 2 篇研究架构搜索的论文。

BOHB: Robust and Efficient Hyperparameter Optimization at Scale

BOHB：规模化的稳健且高效型超参数优化

链接：https://arxiv.org/abs/1807.01774

这项研究由德国弗莱堡大学计算机科学系完成。这篇文章的出发点是结合 TPE 的探索（exploration）过程和 GP 的利用（exploitation）工作，用以解决当前长时间序列下现在 GP 优化时间长开销大以及 TPE 效能不足的问题。研究者提出了一种新的超参数优化方法，能在多种不同问题类型上都得到优于贝叶斯优化和 Hyperband 的表现，其中包括支持向量机、贝叶斯神经网络和卷积神经网络等。

BOHB 中采样过程的伪代码

Fast Information-theoretic Bayesian Optimisation

快速信息论贝叶斯优化

链接： https://arxiv.org/abs/1711.00673

代码：https://github.com/rubinxin/FITBO

这项研究主要由牛津大学工程科学系完成。这篇工作基于信息论提出了一个新的算法 FITBO。该算法可以直接量化两个域之间的距离大小。其基本逻辑是，FITBO 可以避免重复采样全局极小化量（global minimizer）。并且，该算法中核（kernel）的选择相对较多，因此性能上可能会更优。研究者已公开 FITBO 的 Matlab 代码。

FITBO 采集函数

Efficient Neural Architecture Search via Parameter Sharing

通过参数共享实现高效神经架构搜索

链接：https://arxiv.org/abs/1802.03268

这项研究由 Google Brain、卡内基梅隆大学语言技术研究所和斯坦福大学计算机科学系合作完成。这篇工作很有名，即自动学习神经网络的结构。研究者提出了高效神经架构搜索（ENAS），这是一种快速且低成本的自动模型设计方法。相比于在前 N 个数据上得到结果，ENAS 通过参数共享有效地迁移了一部分知识进来；相比于 NAS 等其它基准，效果提高了将近 1000 倍。

在有 4 个计算节点（表明卷积网络有 4 层）的搜索空间中一个卷积单元的运行示例。上图：控制器 RNN 的输出。左下图：对应于该网络架构的计算 DAG，红色箭头表示活动的计算路径。右下图：完整网络，虚线箭头表示 skip 连接。

Learning to search with MCTSnets

使用 MCTSnets 学习搜索

链接：https://arxiv.org/abs/1802.04697

这项研究由 DeepMind 完成。通常人工智能规划用树搜索来实现。这篇文章中就提出了一个基于蒙特卡洛树搜索（MCTS）进行自动结构搜索的方法 MCTSnet，该方法可以自动学习搜索的位置/内容/方法（where/what/how）。该方法的大致思路即是在神经网络内部建立一种类似于 MCTS 的模拟机制，从而进行扩展/评估/存储向量嵌入等操作。

MCTSnet 算法

深度学习架构

深度网络架构的设计一直以来都是深度学习的关键问题，针对不同目的（例如提高模型分类能力、提高多任务场景能力、复用已有模型知识），在结构设计上也有不同的考虑，下面将介绍几篇有代表性的网络结构设计论文。

Beyond Finite Layer Neural Networks: Bridging Deep Architectures and Numerical Differential Equations

超越有限层数的神经网络：搭建深度架构和数值微分方程之间的桥梁

链接：https://arxiv.org/abs/1710.10121

这项研究的作者所属机构非常多，包括北京大学多个机构、哈佛医学院、北京大数据研究院等。这篇论文讨论了深度神经网络的设计与微分方程（ODE 和 PDE）之间的关系，认为神经网络结构设计很多其实与微分方程原理不谋而合，举例说了 ResNet、PolyNet、RevNet 等经典网络可如何表达成微分方程的形式。并且依据 ODE 原理设计了一种新型结构 LM-ResNet，该结构在 ImageNet、CIFAR 等数据集上超过了 ResNet 的效果。

Deep Asymmetric Multi-task Feature Learning

深度非对称多任务特征学习

链接：https://arxiv.org/abs/1708.00260

这项研究由韩国蔚山科技大学、AItrics 和韩国科学技术院合作完成。这篇论文提出了一种新的多任务学习模型，该模型是 ICML 16 工作 AMTL 的扩展，AMTL提出了一种非对称的多任务学习框架，认为容易的任务学习到的信息需要更多传递给难任务以帮助难任务的学习，而难任务学习到的信息传递给容易任务的必要性低，因而提出一种参数重建（weight reconstruction）的方法，实现了不同任务参数的不对称重建，但该框架对多类别的可扩展性差，也不易于与深度网络结合，本文提出一种基于自动编码器的方法，让不同任务学习到的信息能不对称地传递到共有特征层，效果优于 ATML。

Born-Again Neural Networks

再生神经网络

链接：https://arxiv.org/abs/1805.04770

这项研究由南加州大学、卡内基梅隆大学、Amazon AI、苏黎世联邦理工工学院和加州理工学院合作完成。这篇论文用已有网络学到的知识重新训练一个相同结构的网络模型，如此递进式地训练，最终将中间得到的多个模型融合，能取得最佳的效果，该训练方式对现有 ResNet、DenseNet 等经典结构都适用。

再生网络训练流程图示。第 1 步，根据标签 Y 训练教师模型 T；然后在后续每一步，根据不同的随机种子初始化并根据前一代的监督训练一个相同的新模型。在这个流程最后，可以使用多代学生模型的集合来实现额外的增益。

Disentangled Sequential Autoencoder

解开的序列自动编码器

链接：https://arxiv.org/abs/1803.02991

这项研究由剑桥大学和迪斯尼研究院合作完成。研究者提出了一种用于编码和生成视频或音频等高维序列数据的 VAE 架构。相比于之前的方法，研究者通过精心设计概率图模型实现了解开的表征。这种架构使用了隐含变量来表征内容（即在序列中不变的信息），并使用了与每一帧相关的一组隐含变量来表征动态信息（比如姿态和位置）。这种方法重在通过学习视频/音频内容和动态的分布来实现序列生成，而不是基于被观察到的序列来预测未来帧。因此，这种模型还能用于未曾见过的序列。

Attention-based Deep Multiple Instance Learning

基于注意的深度多实例学习

链接：https://arxiv.org/abs/1802.04712

这项研究由阿姆斯特丹大学完成。多实例学习（MIL）是一种将单个类别标签分配给一袋（bag）实例的监督学习。研究者在这篇论文中将 MIL 问题描述成了学习袋标签（bag label）的伯努利分布的问题，其中袋标签的概率可通过神经网络完全参数化。此外，研究者还提出了一种基于神经网络的排列不变聚合算子，可对应于注意机制。这种基于注意的算子能帮助了解每个实例对袋标签的贡献。

生成模型

自生成对抗网络（GAN）被提出以来，生成模型近几年来一直是机器学习各大会议的研究热点。在这次 ICML 中一共有 20 余篇关于生成模型的论文，每天都至少有一个独立的生成模型的议程。我们主要关注以下几篇论文：

Chi-square Generative Adversarial Network

卡方生成对抗网络

链接：http://proceedings.mlr.press/v80/tao18b/tao18b.pdf

这项研究由杜克大学与复旦大学完成。为了评估真实数据和合成数据之间的差异，可使用分布差异度量来训练生成对抗网络（GAN）。信息论散度、积分概率度量和 Hilbert 空间差异度量是三种应用比较广泛的度量。在这篇论文中，研究者阐述了这三种流行的 GAN 训练标准之间的理论联系，并提出了一种全新的流程——（χ²）卡方GAN，其概念简单、训练稳定且能够耐受模式崩溃。这个流程可用于解决多个分布的同时匹配问题。此外，研究者还提出了一种重采样策略，可通过一种重要度加权机制为训练后的 critic 函数重新设定目标，从而显著提升样本质量。

RadialGAN: Leveraging multiple datasets to improve target-specific predictive models using Generative Adversarial Networks

RadialGAN：使用生成对抗网络利用多个数据集来改进特定目标的预测模型

链接：https://arxiv.org/abs/1802.06403

这项研究由加州大学、牛津大学和阿兰·图灵研究所完成。训练机器学习预测模型的数据并不总是足够的，研究者在这篇论文中提出了一种可以利用来自相关但不同的来源的数据的新方法，即使用多个 GAN 架构来学习将一个数据集“翻译”成另一个数据集，由此有效地扩增目标数据集。

First Order Generative Adversarial Networks

一阶生成对抗网络

链接：https://arxiv.org/abs/1802.04591

代码：https://github.com/zalandoresearch/first_order_gan

这项研究由 Zalando Research 和奥地利林茨约翰·开普勒大学完成。在最早的 GAN 和 WGAN-GP 等变体中，在更新生成器参数的方向上都存在问题——不对应于目标的最陡的下降方向。研究者在这篇论文中引入了一个描述最优更新方向的理论框架，该框架可推导散度和用于确定更新方向的对应方法的条件要求，这些条件要求能够确保在最陡的下降方向上完成无偏差的 mini-batch 更新。研究者还提出了一种能在近似 Wasserstein 距离的同时正则化 critic 的一阶信息的新散度。配合相应的更新方向，这种散度能够满足无偏差最陡下降更新的要求。

GAIN: Missing Data Imputation using Generative Adversarial Nets

GAIN：使用生成对抗网络的缺失数据插补

链接：https://arxiv.org/abs/1806.02920

这项研究由加州大学、牛津大学和阿兰·图灵研究所完成。研究者提出了一种通过调整生成对抗网络（GAN）框架插补缺失数据的新方法——生成对抗插补网络（GAIN）。其中，生成器（G）观察一个真实数据向量的某些分量，然后基于所观察的内容插补缺失的分量，输出完整向量。而鉴别器（D）则以完整向量为输入，然后判定其中哪些分量是真实的，哪些是插补的。为了确保 D 能让 G 学习到所需分布，研究者以“暗示”向量的形式向 D 提供了一些额外信息。这些暗示会让 D 获得有关原始样本的缺失情况的部分信息，这可被 D 用于将注意重点放在特定分量的插补质量上。从而确保 G 确实能学习根据真实数据分布生成结果。

GAIN 架构和伪代码

PixelSNAIL: An Improved Autoregressive Generative Model

PixelSNAIL：一种改进型自回归生成模型

链接：https://arxiv.org/abs/1712.09763

代码：https://github.com/neocxi/pixelsnail-public

这项研究由 Embodied Intelligence 和加利福尼亚大学伯克利分校完成。受元强化学习的近期研究的启发，研究者提出了一种新的生成模型架构，将因果卷积（causal convolutions）和自注意（self attention）结合到了一起。其中因果卷积能够更好地访问序列的更早部分，从而帮助 RNN 更好地建模长程依赖；而自注意可将序列转换为无序的键值存储并能根据内容查询，它们具有无限的感受野，能实现对序列中相距较远的信息的无损访问。两者具有互补性，前者能实现在有限上下文规模上的高带宽访问，而后者能实现在无限大上下文上的访问。两者结合，可让模型实现信息量无限制的高带宽访问。

PixelSNAIL 模型架构

你可能感兴趣的:(人工智能,强化学习,模型)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
Xinference如何注册自定义模型玩人工智能的辣条哥人工智能 AI 大模型 Xinference
环境：Xinference问题描述：Xinference如何注册自定义模型解决方案：1.写个model_config.json，内容如下{"version":1,"context_length":2048,"model_name":"custom-llama-3","model_lang":["en","ch"],"model_ability":["generate","chat"],"model
网络编程基础记得开心一点啊网络
目录♫什么是网络编程♫Socket套接字♪什么是Socket套接字♪数据报套接字♪流套接字♫数据报套接字通信模型♪数据报套接字通讯模型♪DatagramSocket♪DatagramPacket♪实现UDP的服务端代码♪实现UDP的客户端代码♫流套接字通信模型♪流套接字通讯模型♪ServerSocket♪Socket♪实现TCP的服务端代码♪实现TCP的客户端代码♫什么是网络编程网络编程，指网络上
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
系统架构设计师需求分析篇二 AmHardy 软件架构设计师系统架构需求分析面向对象分析分析模型 UML和SysML
面向对象分析方法1.用例模型构建用例模型一般需要经历4个阶段：识别参与者：识别与系统交互的所有事物。合并需求获得用例：将需求分配给予其相关的参与者。细化用例描述：详细描述每个用例的功能。调整用例模型：优化用例之间的关系和结构，前三个阶段是必需的。2.用例图的三元素参与者：使用系统的用户或其他外部系统和设备。用例：系统所提供的服务。通信关联：参与者和用例之间的关系，或用例与用例之间的关系。3.识别参
如何用matlab灵活控制feko的求解 NingrLi matlab 开发语言
https://bbs.rfeda.cn/read.php?tid=3778Feko中的模型和求解设置等都可以通过editfeko进行设置，其文件存储为.pre文件，该文件可以用文本打开，因此，我们可以通过VB、VC、matlab等工具对.pre文件进行读写操作，以达到更灵活的使用feko。同样，对于.out文件，我们也可以进行读操作。熟练使用对.pre文件和.out文件的操作后，我们可以方便的计
计算机网络八股总结 Petrichorzncu 八股总结计算机网络笔记
这里写目录标题网络模型划分（五层和七层）及每一层的功能五层网络模型七层网络模型（OSI模型）==三次握手和四次挥手具体过程及原因==三次握手四次挥手TCP/IP协议组成==UDP协议与TCP/IP协议的区别==Http协议相关知识网络地址，子网掩码等相关计算网络模型划分（五层和七层）及每一层的功能五层网络模型应用层：负责处理网络应用程序，如电子邮件、文件传输和网页浏览。主要协议包括HTTP、FTP
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
yolov5＞onnx＞ncnn＞apk 图像处理大大大大大牛啊 opencv实战代码讲解 yolo onnx ncnn 安卓
一.yolov5pt模型转onnx条件：colabnotebookyolov51.安装环境!pipinstallonnx>=1.7.0#forONNXexport!pipinstallcoremltools==4.0#forCoreMLexport!pipinstallonnx-simplifier2.修改common.py在classFocus下面
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
程序员如何在AI时代保持核心竞争力 nfgo chatgpt 人工智能
程序员如何在AI时代保持核心竞争力随着AIGC（如ChatGPT、MidJourney、Claude等）大语言模型的相继涌现，AI辅助编程工具逐渐普及，程序员的工作方式正在发生深刻的变革。AI不仅能够自动生成代码，还能优化、调试、甚至提出解决方案。这一趋势让许多人担心：AI会不会最终取代部分编程工作？然而，也有人认为AI是提升效率的得力助手。那么，程序员在这个AI崛起的时代该如何应对？是专注某个领
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方