喜欢打酱油的老鸟

【ICML2018】63篇强化学习论文全解读

https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/81230588

由全球最大中文IT社区CSDN与全球AI技术社区AICamp共同打造的千人技术盛会——2018 AI开发者大会将于10月25日-26日在北京举办。本次大会汇聚海内外顶尖AI专家，面向全球AI开发者和科技企业，旨在搭建国际间的AI技术交流与学习平台，探索AI技术的应用实践与发展方向。

作者 | Jian Zhang

编译 | Sanglei, Shengsheng

来源 | 专知（公众号ID：Quan_Zhuanzhi）

【导读】一年一度的国际机器学习会议( ICML )，于7月15日在瑞典斯德哥尔摩闭幕，ICML 的会议日程之紧凑，会议内容之丰富，令人目不暇接。今年从2,473份提交论文中接收了621篇，其中有63余篇强化学习相关论文，作者将这些论文分成了多个类别，并对每篇文章的核心贡献做了精炼的总结，这些文章也是追踪强化学习最前沿技术的绝佳材料，精炼的总结也也便于我们快速查找与自己研究相关的文章。

会议概述

从2,473份提交论文中接收了621份，论文接受率为25.1%。

有关增强学习的会议占据了最大的会议室，而且论文数量也是最多的，这篇综述将主要总结增强学习的录用论文。

强化学习分类

我将接受的所有RL论文分类为以下主题：

强化学习理论（Theory）--- 8篇
强化学习网络（Network）---3篇
强化学习算法（Algorithms）6篇
强化学习优化（Optimization）8篇
强化学习探索（Exploration）4篇
强化学习激励（Reward） 4篇
基于模型的强化学习（Model-based）5篇
分布式强化学习（Distributed）3篇
层次强化学习（Hierarchical）5篇
多智能体（Multi-agent）6篇
元学习（Meta-learning）迁移（Transfer）终身学习(Lifelong Learning) 5篇
应用及其它（Applications）6篇

▌1. RL Theory

Problem DependentReinforcement Learning Bounds Which Can Identify Bandit Structure in MDPs -> 非标准转换模型，学习将MPDs转换为MACs。

Learning with Abandonment-> 非标准转换模型，一个想要为每个用户学习个性化策略的平台，但该平台面临用户在不满意平台操作时放弃平台的风险。

Global Convergence ofPolicy Gradient Methods for the Linear Quadratic Regulator -> LQR证明

More Robust Doubly RobustOff-policy Evaluation -> 通过另一个策略生成的数据来估计策略的性能。

Best Arm Identification inLinear Bandits with Linear Dimension Dependency->利用全局线性结构来提高对接近最优臂的奖励估计。

Convergent Tree Backup andRetrace with Function Approximation->稳定高效的基于梯度的算法，使用二次凸凹鞍点公式

Time Limits inReinforcement Learning -> 正式解释了在案例中如何有效地处理时间限制，并解释了为什么不这样做会引起经验重复的状态混淆和失效，导致次优策略和训练不稳定。对于固定期限，由于时间限制的终止实际上是环境的一部分，因此剩余时间的概念应该作为代理输入的一部分，以避免违反Markov属性。

Configurable MarkovDecision Processes-> 在许多现实问题中，有可能在一定程度上配置一些环境参数，以提高学习代理的性能。一种新的学习算法—安全策略模型迭代(SPMI)，联合自适应地优化策略和环境配置。

▌2. RL Network

Structured Control Netsfor Deep Reinforcement Learning ->提出的结构化控制网将通用MLP分成两个独立的子模块：非线性控制模块和线性控制模块。非线性控制用于前视和全局控制，而线性控制稳定围绕全局控制残差的局部动态

Gated Path PlanningNetworks ->将VINs重构为递归卷积网络，这表明VINs将周期性卷积与非传统的最大池化激活相结合。门控循环更新方程可以缓解困扰VIN的优化问题。

Universal Planning Networks:Learning GeneralizableRepresentations for Visuomotor Control ->这个规划计算在一个潜在的空间中展开一个正向模型，通过梯度下降轨迹优化来推断一个最优的行动计划，优化一个监督模拟学习目标。在解决基于图像的目标描述的新任务时，学习到的表示还提供了使用图像指定目标的度量。

▌3. RL Algorithms

SBEED: ConvergentReinforcement Learning with Nonlinear Function Approximation->使用Nesterov的平滑技术和Legendre-Fenchel 变换将Bellman方程重构为一个新的原始对偶优化问题，开发一种新的算法，称为平滑Bellman误差嵌入，以解决这个优化问题可以使用任何可微函数类。

Scalable Bilinear PiLearning Using State and Action Features->对于大规模马尔可夫决策过程（MDP），我们研究近似线性规划的原始对偶公式，并开发一种可扩展的，无模型的算法，称为双线性pi学习，用于在提供采样oracle时的强化学习。

Beyond the One-Step GreedyApproach in Reinforcement Learning->分析了多步超前策略改进的情况;制定多步策略改进的变体，使用这些定义推导出新的算法并证明它们的收敛性。

Importance WeightedTransfer of Samples in Reinforcement Learning->从一组源任务中收集的经验样本的转移，以改进给定目标任务中的学习过程。提出了一种基于模型的技术，该技术可以自动评估每个源样本的相关性(重要性权重)来解决目标任务。

Addressing Function ApproximationError in Actor- Critic Methods->算法建立在双Q学习的基础上，通过取一对批评者之间的最小值来限制过高估计;延迟策略更新以减少每次更新错误。

Policy Optimization withDemonstrations->利用可用的演示，通过在已学习的策略和当前演示之间实施占用度量匹配来指导探索，以实现隐式动态奖励形成。

▌4. RL Optimization

Policy Optimization asWasserstein Gradient Flows->在概率度量空间上，策略优化在分布优化方面变为凸，解释为Wasserstein梯度流。

Clipped Action PolicyGradient ->利用被剪裁的动作的知识来减少估计的方差。

Fourier Policy Gradients ->将期望策略梯度产生的积分重新整合为卷积并将其转换为乘法。

Structured Evolution withCompact Architectures for Scalable Policy Optimization ->通过使用结构化随机正交矩阵的梯度近似进行黑盒优化，提供比基线更准确的估计，并具有可证明的理论保证。

StochasticVariance-Reduced Policy Gradient->利用重要性权重来保持梯度估计的无偏差。

The Mirage ofAction-Dependent Baselines in Reinforcement Learning ->分解了策略梯度估计量的方差，数值模拟表明，在通常测试的基准域中，学习的依赖状态动作的基线实际上并没有减少与状态相关的基线的方差。

Smoothed Action ValueFunctions for Learning Gaussian Policies->一个由高斯平滑的期望Q值定义的行为值的新概念。由平滑Q值函数的梯度和Hessian可以恢复参数化高斯策略的预期奖励的梯度和协方差。在训练过程中学习均值和协方差的能力可以显著提高标准连续控制基准的结果。

Soft Actor-Critic:Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor->提出了soft actor-critic，基于最大熵强化学习框架的非策略行动者-评论者（actor-critic）深度RL算法。行动者的目标是最大化预期的回报，同时也最大化熵——在任务中尽可能随机地成功。

▌5. RL Exploration

Self-Imitation Learning ->利用过去的良好经验可以间接地推动深度探索。

Coordinated Exploration inConcurrent Reinforcement Learning ->强化学习代理团队，该团队通过种子取样，同时学习如何在一个共同的环境中操作。具有三个属性- 适应性，承诺和多样性 – 是有效协调探索所必需的。

GEP-PG: DecouplingExploration and Exploitation in Deep Reinforcement Learning Algorithms ->依次结合目标探索过程和DDPG。两阶段方法：第一个探索阶段发现一系列简单的策略，最大化行为多样性，忽略奖励功能;然后是更标准的深度RL阶段进行微调，其中DDPG使用重播缓冲区，其中填充了GEP生成的示例。

Learning to Explore viaMeta-Policy Gradient ->元策略梯度算法学习探索，使我们能够自适应地学习DDPG中的探索策略。训练不依赖于参与者策略的灵活的探索行为，从而产生一种全局性的探索，极大地加快了学习过程。

▌6. RL Reward

Learning byPlaying — Solving Sparse Reward Tasks from Scratch->计划辅助控制(SAC-X)，代理配备了一组通用辅助任务，它试图通过非策略RL同时学习。主动（学习）调度和辅助策略的执行允许代理有效地探索其环境 -使其在稀疏奖励RL方面表现优异。

Automatic Goal Generationfor Reinforcement Learning Agents ->使用生成模型(在本例中为GANs)来学习生成理想的“目标”(状态空间的子集)，并使用生成模型而不是目标的统一抽样。使用基于生成模型的自动课程生成算法来解决多任务问题，该生成模型跟踪学习代理的性能。

Learning the RewardFunction for a Misspecified Model ->本文提出了一个新的误差界限，用来解释从模型中采样的状态下奖励模型的行为。该界限用于扩展现有的幻觉DAgger-MC算法，该算法在确定性的MDPs中提供了理论性能保证，而不是假设一个完美的模型可以被学习。

Mix & Match — AgentCurricula for Reinforcement Learning ->一个自动形成代理课程的程序;通过有效地从简单的代理中找到解决方案开始，逐步训练更复杂的代理;

▌7. Model-based RL

Lipschitz Continuity inModel-based Reinforcement Learning ->提供了一个新的边界，在这个边界上，我们用Wasserstein度量来量化Lipschitz模型的多步预测误差。

ProgrammaticallyInterpretable Reinforcement Learning ->生成可解释和可验证的代理策略，可编程的解释性强化学习使用一种高级的、特定于域的编程语言来表示策略。神经导向的程序搜索通过首先学习使用DRL的神经策略网络，然后对程序策略执行局部搜索，以尽量减少与神经“oracle”之间的距离。

Feedback-Based Tree Searchfor Reinforcement Learning -> 提出了一种基于模型的强化学习技术，该技术迭代地将MCTS应用于原始的无限大范围的马尔可夫决策过程中。MCTS过程生成的建议随后作为反馈提供，以便通过分类和回归改进下一个迭代的叶子节点评估程序。多玩家在线战斗竞技场(MOBA)游戏之王的竞争代理。

Machine Theory of Mind->Theory of Mind（ToM）广泛地指人类表达他人心理状态的能力，包括他们的欲望，信仰和意图。ToMnet使用元学习来学习代理人未来行为的强大先验模型，并且仅使用少量的行为观察，可以引导到更丰富的关于代理特征和心理状态的预测。

Measuring abstractreasoning in neural networks ->提出一个数据集和挑战，旨在探索抽象推理，灵感来自一个著名的人类智商测试。为了在这一挑战中取得成功，模型必须应对训练和测试数据以明确定义的方式存在差异的各种归纳“机制”。提出WildRelation Network（WReN），多次应用关系网络模块(Santoro et al.， 2017)来推断小组间关系。

▌8. Distributed RL

Implicit Quantile Networksfor Distributional Reinforcement Learning ->使用分位数回归来近似风险敏感策略的状态-行为回报分布的完全分位数函数;展示了57款Atari2600游戏的改进性能。

RLlib: Abstractions forDistributed Reinforcement Learning->开源Ray项目中的一个库，为RL提供可扩展的软件基元，该库主张通过自顶向下的层次控制调整算法，以组合的方式分布RL组件，从而在短期运行的计算任务中封装并行性和资源需求。

IMPALA: ScalableDistributed Deep-RL with Importance Weighted Actor-Learner Architectures->IMPALA（重要性加权行动者学习者架构）可扩展到数千台机器而不会牺牲数据效率或资源利用率; 通过将解耦作用和学习与一种新的非策略修正方法V-trace相结合，实现高吞吐量下的稳定学习。在DMLab-30(DeepMind Lab环境中的30个任务集(Beattie et al.， 2016))和Atari-57 (Arcade Learningenvironment中所有可用的Atari游戏(Bellemare et al.， 2013a)上进行测试)。

▌9. Hierarchical RL

Latent Space Policies forHierarchical Reinforcement Learning ->以自下而上的分层方式构建层次表示;每一层都经过训练，通过最大熵目标来完成任务。每一层都增加了潜在随机变量，这些变量是从该层训练期间的先验分布中抽取的。最大熵目标使这些潜在变量被纳入到层的策略中，高层可以通过这个潜在空间直接控制下层的行为。

Self-Consistent TrajectoryAutoencoder: Hierarchical Reinforcement Learning with Trajectory Embeddings ->层次结构中学习较低层的问题转化为学习轨迹级生成模型的问题。学习轨迹的连续潜在表示，这有效地解决了时间扩展和多阶段的问题。他的模型通过预测闭环策略行为的结果，提供了一个内置的预测机制。

An Inference-Based PolicyGradient Method for Learning Options->为了使用选项自动学习策略，所提出的算法使用推理方法来同时改进代理可用的所有选项，因此可以以非策略方式使用，而无需观察选项标签。所采用的可微差别推理过程产生了易于解释的选项。

Hierarchical Imitation andReinforcement Learning ->分层指导利用底层问题的层次结构来整合不同的专家交互模式。在Montezuma’sRevenge上测试过。

Using Reward Machines forHigh-Level Task Specification and Decomposition in Reinforcement Learning ->奖励机器是一种有限状态机，支持奖励函数的规范，同时将奖励函数结构暴露给学习者并支持分解。提出了奖励机器的Q-Learning(QRM)，一种适当分解奖励机制的算法，并利用off-policy Q-Learning同时学习不同组件的子策略。

▌10. Multi-Agent

Learning to Coordinatewith Coordination Graphs in Repeated Single-Stage Multi-Agent Decision Problems ->利用松散耦合，即代理之间的条件独立性。预期奖励可以表示为协调图。

Learning to Act inDecentralized Partially Observable MDPs->首先接近最优的协作多智能体，通过混合整数线性规划替换贪婪最大化。来自文献的许多有限域的实验。

Learning PolicyRepresentations in Multiagent Systems->将代理建模作为表示学习的问题;构建模仿学习和代理识别启发的新目标，设计一种代理策略表示的无监督学习算法。

Competitive Multi-agentInverse Reinforcement Learning with Sub-optimal Demonstrations ->当已知专家证明不是最优的时候，在零和随机博弈中进行逆强化学习; 引入了一种新的目标函数，直接将专家与纳什均衡策略对立起来，以深度神经网络作为模型逼近，在逆强化学习的背景下求解奖励函数。

▌11. RL Meta-learning, Transfer, Continuing and Lifelong Learning

Been There, Done That:Meta-Learning with Episodic Recall ->提出了一种生成开放但重复的环境的形式主义，然后开发一个元学习体系结构来解决这些环境。该架构将标准的LSTM工作记忆与可微的神经情景记忆融合在一起。

Transfer in Deep RL usingSuccessor Features in GPI->使用通用的策略改进和继承特性来进行传输技能。以两种方式扩展SF和GPI框架。使用奖励函数本身作为未来任务的特性，没有任何表达性的损失，因此无需预先指定一组特性。

Policy and Value Transferin Lifelong Reinforcement Learning ->使用先前的经验，在一系列从任务分配中抽取的任务实例中引导终身学习。对于基于值函数的传输，保留PAC的值函数初始化方法，同时最小化两种学习算法所需的学习，从而产生MaxQInit。

State Abstractions forLifelong Reinforcement Learning ->在终身强化学习中，代理必须有效地跨任务传递知识，同时解决探索，信用分配和一般问题。状态抽象压缩代理使用的表示，从而减少了学习的计算和统计负担。提出新的抽象类：（1）传递状态抽象，其最优形式可以被有效地计算，以及（2）PAC状态抽象，保证相对于任务的分布。

Continual ReinforcementLearning with Complex Synapses->通过为表格和深层强化学习代理配备合并了一种生物复杂性的突触模型(Benna & Fusi,2016)，灾难性遗忘可以在多个时间尺度上得到缓解。整合过程与数据分布变化的时间尺度无关。

▌12. RL Applications and others

Spotlight: OptimizingDevice Placement for Training Deep Neural Networks->使用多阶段马尔可夫决策过程来模拟设备布局问题。

End-to-end Active ObjectTracking via Reinforcement Learning ->ConvNet-LSTM函数逼近器用于直接帧到动作的预测。需要用奖励函数来增强环境。

Deep ReinforcementLearning in Continuous Action Spaces: a Case Study in the Game of SimulatedCurling ->基于内核的MonteCarlo树搜索学习游戏策略，该搜索在连续空间内查找动作。为了避免手工特征，我们使用监督学习来训练我们的网络，然后使用高保真的冰壶奥林匹克运动模拟器进行强化学习;赢得了国际数字冰壶比赛。

Can Deep ReinforcementLearning Solve Erdos- Selfridge-Spencer Games?->介绍了一个有趣的双人零和游戏系列，具有可调的复杂性，称为Erdos-Selfridge-Spencer游戏，作为RL的一个新域。作者报告了大量的实证结果，使用了各种各样的训练方法，包括监督学习和多种RL (PPO, A2C,DQN)以及单代理与多代理训练。

Investigating Human Priorsfor Playing Video Games ->调查各种有助于人类学习的先验知识，并发现对象的一般先验在指导人类游戏玩法中起着最关键的作用。

Visualizing andUnderstanding Atari Agents->介绍一种生成有用的显著性地图的方法，并使用它来显示1)强代理关注什么，2)代理是否出于正确或错误的原因做出决策，3)代理如何在学习过程中进化。

总结

深度强化学习是最大和最热门的话题之一，有着最多的论文数量和最大的会议场地。

除了训练算法，学习模型，信用分配，分层次，元学习和网络架构是RL流行的子方向。

考虑到网络架构上关于视觉问题的论文数量，对于RL在网络架构上的探索还有很大的空间，在已被接受的论文中只有少数是这一方面的。例如，StructuredControl Nets for Deep Reinforcement Learning and Gated Path Planning Networks。

ML的公平性和可解释性是一个大主题。对于RL也应该有更多的解释和分析工作。一个好的方向是运用控制理论。与此相关的是，BenRecth的《控制优化教程》非常棒。主要思想是RL与控制理论之间应该有更多的交叉。在已被接受的论文中，一个很好的例子是Structured ControlNets for Deep Reinforcement Learning。

附最佳论文总结

▌两篇最佳论文（best papers）

1.“Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples”

[注]:也就是这篇在年初曾引起轩然大波，一作Anish Athalye质疑ICLR2018中的7/8篇对抗防御的论文太渣，并引起Goodfellow围追堵截要说法。Anish Athalye这篇打脸ICLR的文章在ICML上证明了自己的实力。

你可能感兴趣的:(人工智能,强化学习)

探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
Reflection 70B——HyperWrite推出的大型语言模型新加坡内哥谈技术语言模型人工智能自然语言处理
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/在AI技术飞速发展的过程中，我们已经见证了可以写作、编程，甚至创造艺术的模型问世。但有一
OpenAI o1 的价值意义及“强化学习的Scaling Law” & Kimi创始人杨植麟最新分享：关于OpenAI o1新范式的深度思考光剑书架上的书 ChatGPT 大数据AI人工智能计算人工智能算法机器学习
OpenAIo1的价值意义及“强化学习的ScalingLaw”蹭下热度谈谈OpenAIo1的价值意义及RL的Scalinglaw。一、OpenAIo1是大模型的巨大进步我觉得OpenAIo1是自GPT4发布以来，基座大模型最大的进展，逻辑推理能力提升的效果和方法比预想的要好，GPT4o和o1是发展大模型不同的方向，但是o1这个方向更根本，重要性也比GPT4o这种方向要重要得多，原因下面会分析。为什
5条实操干货有效打造你的个人品牌长安行动派
这是ZerK的第46篇原创相信大家对个人品牌这个词已经不在陌生。尤其是在知识付费的年代，你的个人品牌，就是你的标签！在《深度工作》中说到，在未来有三种人会越来越贵第一种人:能与机器对话，操纵机器的人。人工智能时代的到来，机器毕竟部分取代人类。第二种人:IP，知识产权或者文学潜在财产就像有些网上课程一周卖出的钱和一个机构卖一年一样多。价值99元的课程，10万人购买，是很常见的。爱产出大概就是10万✖
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况 m0_57781768 python langchain 语言模型
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况在现代的人工智能开发中，大型语言模型（LLM）已经成为了不可或缺的工具，无论是用于自然语言处理、对话生成，还是其他复杂的文本生成任务。然而，随着这些模型的广泛应用，开发者面临的一个重要挑战是如何有效地追踪和管理Token的使用情况，特别是在生产环境中，Token的使用直接影响着API调用的成本
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
ztree设置禁用节点 3213213333332132 JavaScript ztree json setDisabledNode Ajax
ztree设置禁用节点的时候注意，当使用ajax后台请求数据,必须要设置为同步获取数据，否者会获取不到节点对象，导致设置禁用没有效果。 $(function(){ showTree(); setDisabledNode(); });
JVM patch by Taobao bookjovi java HotSpot
在网上无意中看到淘宝提交的hotspot patch，共四个，有意思，记录一下。 7050685：jsdbproc64.sh has a typo in the package name 7058036：FieldsAllocationStyle=2 does not work in 32-bit VM 7060619：C1 should respect inline and
将session存储到数据库中 dcj3sjt126com sql PHP session
CREATE TABLE sessions ( id CHAR(32) NOT NULL, data TEXT, last_accessed TIMESTAMP NOT NULL, PRIMARY KEY (id) ); <?php /** * Created by PhpStorm. * User: michaeldu * Date
Vector 171815164 vector
public Vector<CartProduct> delCart(Vector<CartProduct> cart, String id) { for (int i = 0; i < cart.size(); i++) { if (cart.get(i).getId().equals(id)) { cart.remove(i);
各连接池配置参数比较 g21121 连接池
排版真心费劲，大家凑合看下吧，见谅~ Druid DBCP C3P0 Proxool 数据库用户名称 Username Username User 数据库密码 Password Password Password 驱动名
[简单]mybatis insert语句添加动态字段 53873039oycg mybatis
mysql数据库,id自增,配置如下： <insert id="saveTestTb" useGeneratedKeys="true" keyProperty="id" parameterType=&
struts2拦截器配置云端月影 struts2拦截器
struts2拦截器interceptor的三种配置方法方法1. 普通配置法 <struts> <package name="struts2" extends="struts-default"> &
IE中页面不居中，火狐谷歌等正常 aijuans IE中页面不居中
问题是首页在火狐、谷歌、所有IE中正常显示，列表页的页面在火狐谷歌中正常，在IE6、7、8中都不中，觉得可能那个地方设置的让IE系列都不认识，仔细查看后发现，列表页中没写HTML模板部分没有添加DTD定义，就是<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3
String,int,Integer,char 几个类型常见转换 antonyup_2006 html sql .net
如何将字串 String 转换成整数 int? int i = Integer.valueOf(my_str).intValue(); int i=Integer.parseInt(str); 如何将字串 String 转换成Integer ? Integer integer=Integer.valueOf(str); 如何将整数 int 转换成字串 String ? 1.
PL/SQL的游标类型百合不是茶显示游标(静态游标)隐式游标游标的更新和删除 %rowtype ref游标(动态游标)
游标是oracle中的一个结果集,用于存放查询的结果; PL/SQL中游标的声明; 1,声明游标 2,打开游标(默认是关闭的); 3,提取数据 4,关闭游标注意的要点:游标必须声明在declare中,使用open打开游标,fetch取游标中的数据,close关闭游标隐式游标:主要是对DML数据的操作隐
JUnit4中@AfterClass @BeforeClass @after @before的区别对比 bijian1013 JUnit4 单元测试
一.基础知识 JUnit4使用Java5中的注解（annotation），以下是JUnit4常用的几个annotation： @Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次
精通Oracle10编程SQL(12)开发包 bijian1013 oracle 数据库 plsql
/* *开发包 *包用于逻辑组合相关的PL/SQL类型（例如TABLE类型和RECORD类型）、PL/SQL项（例如游标和游标变量）和PL/SQL子程序（例如过程和函数） */ --包用于逻辑组合相关的PL/SQL类型、项和子程序，它由包规范和包体两部分组成 --建立包规范：包规范实际是包与应用程序之间的接口，它用于定义包的公用组件，包括常量、变量、游标、过程和函数等 --在包规
【EhCache二】ehcache.xml配置详解 bit1129 ehcache.xml
在ehcache官网上找了多次，终于找到ehcache.xml配置元素和属性的含义说明文档了，这个文档包含在ehcache.xml的注释中！ ehcache.xml ： http://ehcache.org/ehcache.xml ehcache.xsd ： http://ehcache.org/ehcache.xsd ehcache配置文件的根元素是ehcahe ehcac
java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderL 白糖_ java eclipse spring tomcat Web
今天学习spring+cxf的时候遇到一个问题：在web.xml中配置了spring的上下文监听器： <listener> <listener-class>org.springframework.web.context.ContextLoaderListener</listener-class> </listener> 随后启动
angular.element boyitech AngularJS AngularJS API angular.element
angular.element 描述: 包裹着一部分DOM element或者是HTML字符串，把它作为一个jQuery元素来处理。（类似于jQuery的选择器啦）如果jQuery被引入了，则angular.element就可以看作是jQuery选择器，选择的对象可以使用jQuery的函数；如果jQuery不可用，angular.e
java-给定两个已排序序列，找出共同的元素。 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class CommonItemInTwoSortedArray { /** * 题目：给定两个已排序序列，找出共同的元素。 * 1.定义两个指针分别指向序列的开始。 * 如果指向的两个元素
sftp 异常，有遇到的吗？求解 Chen.H java jcraft auth jsch jschexception
com.jcraft.jsch.JSchException: Auth cancel at com.jcraft.jsch.Session.connect(Session.java:460) at com.jcraft.jsch.Session.connect(Session.java:154) at cn.vivame.util.ftp.SftpServerAccess.connec
[生物智能与人工智能]神经元中的电化学结构代表什么? comsci 人工智能
我这里做一个大胆的猜想,生物神经网络中的神经元中包含着一些化学和类似电路的结构,这些结构通常用来扮演类似我们在拓扑分析系统中的节点嵌入方程一样,使得我们的神经网络产生智能判断的能力,而这些嵌入到节点中的方程同时也扮演着"经验"的角色.... 我们可以尝试一下...在某些神经
通过LAC和CID获取经纬度信息 dai_lm lac cid
方法1：用浏览器打开http://www.minigps.net/cellsearch.html，然后输入lac和cid信息(mcc和mnc可以填0)，如果数据正确就可以获得相应的经纬度方法2：发送HTTP请求到http://www.open-electronics.org/celltrack/cell.php?hex=0&lac=<lac>&cid=&
JAVA的困难分析 datamachine java
前段时间转了一篇SQL的文章（http://datamachine.iteye.com/blog/1971896），文章不复杂，但思想深刻，就顺便思考了一下java的不足，当砖头丢出来，希望引点和田玉。 -----------------------------------------------------------------------------------------
小学5年级英语单词背诵第二课 dcj3sjt126com english word
money 钱 paper 纸 speak 讲，说 tell 告诉 remember 记得，想起 knock 敲，击，打 question 问题 number 数字，号码 learn 学会，学习 street 街道 carry 搬运，携带 send 发送，邮寄，发射 must 必须 light 灯，光线，轻的 front
linux下面没有tree命令 dcj3sjt126com linux
centos p安装 yum -y install tree mac os安装 brew install tree 首先来看tree的用法 tree 中文解释：tree 功能说明：以树状图列出目录的内容。语　　法：tree [-aACdDfFgilnNpqstux][-I <范本样式>][-P <范本样式
Map迭代方式，Map迭代，Map循环蕃薯耀 Map循环 Map迭代 Map迭代方式
Map迭代方式，Map迭代，Map循环 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年
Spring Cache注解+Redis hanqunfeng spring
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redis</artifactId>
Guava中针对集合的 filter和过滤功能 jackyrong filter
在guava库中，自带了过滤器(filter)的功能，可以用来对collection 进行过滤，先看例子： @Test public void whenFilterWithIterables_thenFiltered() { List<String> names = Lists.newArrayList("John"
学习编程那点事 lampcy 编程 android PHP html5
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
架构师之流处理---------bytebuffer的mark,limit和flip nannan408 ByteBuffer
1.前言。如题，limit其实就是可以读取的字节长度的意思，flip是清空的意思，mark是标记的意思。 2.例子. 例子代码: String str = "helloWorld"; ByteBuffer buff = ByteBuffer.wrap(str.getBytes()); Sy
org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1, column 1 Everyday都不同 $转义 el表达式
最近在做Highcharts的过程中，在写js时，出现了以下异常：严重: Servlet.service() for servlet jsp threw exception org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1,
用Java实现发送邮件到163 tntxia java实现
/* 在java版经常看到有人问如何用javamail发送邮件？如何接收邮件？如何访问多个文件夹等。问题零散，而历史的回复早已经淹没在问题的海洋之中。本人之前所做过一个java项目，其中包含有WebMail功能，当初为用java实现而对javamail摸索了一段时间，总算有点收获。看到论坛中的经常有此方面的问题，因此把我的一些经验帖出来，希望对大家有些帮助。此篇仅介绍用
探索实体类存在的真正意义 java小叶檀 POJO
一. 实体类简述实体类其实就是俗称的POJO,这种类一般不实现特殊框架下的接口，在程序中仅作为数据容器用来持久化存储数据用的 POJO（Plain Old Java Objects）简单的Java对象它的一般格式就是 public class A{ private String id; public Str