AMiner科技

【重磅整理】180篇NeurIPS2020顶会《强化学习领域》Accept论文大全

NeurIPS终于放榜，提交数再次创新高，与去年相比增加了38%，共计达到9454篇，总接收1900篇，其中谷歌以169篇傲视群雄，清华大学63篇，南京大学周志华教授团队3篇。论文接收率20.09%较去年有所下降，其中论文主题占比和结构图如下：
算法（29%）
深度学习（19%）
强化学习（9%）

作者：《DeepRL-Lab》 & 《AMiner.cn》联合发布
来源：https://neurips.cc/Conferences/2020/
https://www.aminer.cn/conf/neurips2020

强化学习完整列表

[1]. Relabeling Experience with Inverse RL: Hindsight Inference for Policy Improvement
作者: Ben Eysenbach (Carnegie Mellon University) · XINYANG GENG (UC Berkeley) · Sergey Levine (UC Berkeley) · Russ Salakhutdinov (Carnegie Mellon University)
链接：https://www.aminer.cn/pub/5f7fdd328de39f08283979af?conf=neurips2020

[2]. Generalised Bayesian Filtering via Sequential Monte Carlo
作者: Ayman Boustati (University of Warwick) · Omer Deniz Akyildiz (University of Warwick) · Theodoros Damoulas (University of Warwick & The Alan Turing Institute) · Adam Johansen (University of Warwick)
链接：https://www.aminer.cn/pub/5e54f1813a55acae32a25e68?conf=neurips2020

[3]. Softmax Deep Double Deterministic Policy Gradients
作者: Ling Pan (Tsinghua University) · Qingpeng Cai (Alibaba Group) · Longbo Huang (IIIS, Tsinghua Univeristy)
链接：https://www.aminer.cn/pub/5f7fdd328de39f08283979eb?conf=neurips2020

[4]. Breaking the Sample Size Barrier in Model-Based Reinforcement Learning with a Generative Model
作者: Gen Li (Tsinghua University) · Yuting Wei (Carnegie Mellon University) · Yuejie Chi (CMU) · Yuantao Gu (Tsinghua University) · Yuxin Chen (Princeton University)
链接：https://www.aminer.cn/pub/5ece3bcb91e011dc23c2259d?conf=neurips2020

[5]. Learning Multi-Agent Coordination for Enhancing Target Coverage in Directional Sensor Networks
作者: Jing Xu (Peking University) · Fangwei Zhong (Peking University) · Yizhou Wang (Peking University)
链接：https://www.aminer.cn/pub/5f7fdd328de39f08283979fd?conf=neurips2020

[6]. Off-Policy Imitation Learning from Observations
作者: Zhuangdi Zhu (Michigan State University) · Kaixiang Lin (Michigan State University) · Bo Dai (Google Brain) · Jiayu Zhou (Michigan State University)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397a0d?conf=neurips2020

[7]. Can Q-Learning with Graph Networks Learn a Generalizable Branching Heuristic for a SAT Solver?
作者: Vitaly Kurin (University of Oxford) · Saad Godil (NVIDIA) · Shimon Whiteson (University of Oxford) · Bryan Catanzaro (NVIDIA)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397a17?conf=neurips2020

[8]. DISK: Learning local features with policy gradient
作者: MichaÅ‚ Tyszkiewicz (EPFL) · Pascal Fua (EPFL, Switzerland) · Eduard Trulls (Google)
链接：https://www.aminer.cn/pub/5ef476b691e01165a63bbbaf?conf=neurips2020

[9]. Learning Individually Inferred Communication for Multi-Agent Cooperation
作者: Ziluo Ding (Peking University) · Tiejun Huang (Peking University) · Zongqing Lu (Peking University)
链接：https://www.aminer.cn/pub/5ee3527191e011cb3bff763f?conf=neurips2020

[10]. Lifelong Policy Gradient Learning of Factored Policies for Faster Training Without Forgetting
作者: Jorge Mendez (University of Pennsylvania) · Boyu Wang (University of Western Ontario) · Eric Eaton (University of Pennsylvania)
链接：https://www.aminer.cn/pub/5f0ed98d91e011ead96653c3?conf=neurips2020

[11]. Fixed-Support Wasserstein Barycenters: Computational Hardness and Fast Algorithm
作者: Tianyi Lin (UC Berkeley) · Nhat Ho (University of Texas at Austin) · Xi Chen (New York University) · Marco Cuturi (Google Brain & CREST - ENSAE) · Michael Jordan (UC Berkeley)
链接：https://www.aminer.cn/pub/5eff04999e795e640cf9f57a?conf=neurips2020

[12]. Memory Based Trajectory-conditioned Policies for Learning from Sparse Rewards
作者: Yijie Guo (University of Michigan) · Jongwook Choi (University of Michigan) · Marcin Moczulski (Google Brain) · Shengyu Feng (University of Illinois Urbana Champaign) · Samy Bengio (Google Research, Brain Team) · Mohammad Norouzi (Google Brain) · Honglak Lee (Google / U. Michigan)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397a3c?conf=neurips2020

[13]. Almost Optimal Model-Free Reinforcement Learningvia Reference-Advantage Decomposition
作者: Zihan Zhang (Tsinghua University) · Yuan Zhou (UIUC) · Xiangyang Ji (Tsinghua University)
链接：https://www.aminer.cn/pub/5ea16b3491e011fa08b8f946?conf=neurips2020

[14]. Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping
作者: Yujing Hu (NetEase Fuxi AI Lab) · Weixun Wang (Tianjin University) · Hangtian Jia (Netease Fuxi AI Lab) · Yixiang Wang (University of Science and Technology of China) · Yingfeng Chen (NetEase Fuxi AI Lab) · Jianye Hao (Tianjin University) · Feng Wu (University of Science and Technology of China) · Changjie Fan (NetEase Fuxi AI Lab)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397a60?conf=neurips2020

[15]. Effective Diversity in Population Based Reinforcement Learning
作者: Jack Parker-Holder (University of Oxford) · Aldo Pacchiano (UC Berkeley) · Krzysztof M Choromanski (Google Brain Robotics) · Stephen J Roberts (University of Oxford)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397a66?conf=neurips2020

[16]. A Boolean Task Algebra for Reinforcement Learning
作者: Geraud Nangue Tasse (University of the Witwatersrand) · Steven James (University of the Witwatersrand) · Benjamin Rosman (University of the Witwatersrand / CSIR)
链接：https://www.aminer.cn/pub/5e1456e93a55acd652ef329a?conf=neurips2020

[17]. A new convergent variant of Q-learning with linear function approximation
作者: Diogo Carvalho (GAIPS, INESC-ID) · Francisco S. Melo (IST/INESC-ID) · Pedro A. Santos (Instituto Superior TÃ©cnico)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397a6d?conf=neurips2020

[18]. Knowledge Transfer in Multi-Task Deep Reinforcement Learning for Continuous Control
作者: Zhiyuan Xu (Syracuse University) · Kun Wu (Syracuse University) · Zhengping Che (DiDi AI Labs, Didi Chuxing) · Jian Tang (DiDi AI Labs, DiDi Chuxing) · Jieping Ye (Didi Chuxing)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397a78?conf=neurips2020

[19]. Multi-task Batch Reinforcement Learning with Metric Learning
作者: Jiachen Li (University of California, San Diego) · Quan Vuong (University of California San Diego) · Shuang Liu (University of California, San Diego) · Minghua Liu (UCSD) · Kamil Ciosek (Microsoft) · Henrik Christensen (UC San Diego) · Hao Su (UCSD)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397a82?conf=neurips2020

[20]. Demystifying Orthogonal Monte Carlo and Beyond
作者: Han Lin (Columbia University) · Haoxian Chen (Columbia University) · Krzysztof M Choromanski (Google Brain Robotics) · Tianyi Zhang (Columbia University) · Clement Laroche (Columbia University)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397a95?conf=neurips2020

[21]. On the Stability and Convergence of Robust Adversarial Reinforcement Learning: A Case Study on Linear Quadratic Systems
作者: Kaiqing Zhang (University of Illinois at Urbana-Champaign (UIUC)) · Bin Hu (University of Illinois at Urbana-Champaign) · Tamer Basar (University of Illinois at Urbana-Champaign)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397aa6?conf=neurips2020

[22]. Towards Playing Full MOBA Games with Deep Reinforcement Learning
作者: Deheng Ye (Tencent) · Guibin Chen (Tencent) · Wen Zhang (Tencent) · chen sheng (qq) · Bo Yuan (Tencent) · Bo Liu (Tencent) · Jia Chen (Tencent) · Hongsheng Yu (Tencent) · Zhao Liu (Tencent) · Fuhao Qiu (Tencent AI Lab) · Liang Wang (Tencent) · Tengfei Shi (Tencent) · Yinyuting Yin (Tencent) · Bei Shi (Tencent AI Lab) · Lanxiao Huang (Tencent) · qiang fu (Tencent AI Lab) · Wei Yang (Tencent AI Lab) · Wei Liu (Tencent AI Lab)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397ab4?conf=neurips2020

[23]. How to Learn a Useful Critic? Model-based Action-Gradient-Estimator Policy Optimization
作者: Pierluca D’Oro (MILA) · Wojciech JaÅ›kowski (NNAISENSE SA)
链接：https://www.aminer.cn/pub/5eaaa1d691e011fa9e15eae3?conf=neurips2020

[24]. Reinforcement Learning in Factored MDPs: Oracle-Efficient Algorithms and Tighter Regret Bounds for the Non-Episodic Setting
作者: Ziping Xu (University of Michigan) · Ambuj Tewari (University of Michigan)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397ace?conf=neurips2020

[25]. HiPPO: Recurrent Memory with Optimal Polynomial Projections
作者: Albert Gu (Stanford) · Tri Dao (Stanford University) · Stefano Ermon (Stanford) · Atri Rudra (University at Buffalo, SUNY) · Christopher RÃ© (Stanford)
链接：https://www.aminer.cn/pub/5f3cf16291e011c89f2f16c0?conf=neurips2020

[26]. Promoting Coordination through Policy Regularization in Multi-Agent Deep Reinforcement Learning
作者: Julien Roy (Mila) · Paul Barde (Quebec AI institute - Ubisoft La Forge) · FÃ©lix G Harvey (Polytechnique MontrÃ©al) · Derek Nowrouzezahrai (McGill University) · Chris Pal (MILA, Polytechnique MontrÃ©al, Element AI)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397b0d?conf=neurips2020

[27]. Bias no more: high-probability data-dependent regret bounds for adversarial bandits and MDPs
作者: Chung-Wei Lee (University of Southern California) · Haipeng Luo (University of Southern California) · Chen-Yu Wei (University of Southern California) · Mengxiao Zhang (University of Southern California)
链接：https://www.aminer.cn/pub/5ee8986891e011e66831c4e9?conf=neurips2020

[28]. Minimax Confidence Interval for Off-Policy Evaluation and Policy Optimization
作者: Nan Jiang (University of Illinois at Urbana-Champaign) · Jiawei Huang (University of Illinois at Urbana-Champaign)
链接：https://www.aminer.cn/pub/5e3d353b3a55ac4de4104f13?conf=neurips2020

[29]. Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement Learning
作者: Nathan Kallus (Cornell University) · Angela Zhou (Cornell University)
链接：https://www.aminer.cn/pub/5e43ccc23a55acdc32c3115d?conf=neurips2020

[30]. Simultaneously Learning Stochastic and Adversarial Episodic MDPs with Known Transition
作者: Tiancheng Jin (University of Southern California) · Haipeng Luo (University of Southern California)
链接：https://www.aminer.cn/pub/5ee3526a91e011cb3bff72ee?conf=neurips2020

[31]. Learning Retrospective Knowledge with Reverse Reinforcement Learning
作者: Shangtong Zhang (University of Oxford) · Vivek Veeriah (University of Michigan) · Shimon Whiteson (University of Oxford)
链接：https://www.aminer.cn/pub/5f0eccf691e011ead966528f?conf=neurips2020

[32]. Combining Deep Reinforcement Learning and Search for Imperfect-Information Games
作者: Noam Brown (Facebook AI Research) · Anton Bakhtin (Facebook AI Research) · Adam Lerer (Facebook AI Research) · Qucheng Gong (Facebook AI Research)
链接：https://www.aminer.cn/pub/5f20077791e011d50a621c80?conf=neurips2020

[33]. Variance reduction for Langevin Monte Carlo in high dimensional sampling problems
作者: ZHIYAN DING (University of Wisconsin-Madison) · Qin Li (University of Wisconsin-Madison)
链接：https://www.aminer.cn/pub/5ee3526a91e011cb3bff74bc?conf=neurips2020

[34]. POMO: Policy Optimization with Multiple Optima for Reinforcement Learning
作者: Yeong-Dae Kwon (Samsung SDS) · Jinho Choo (Samsung SDS) · Byoungjip Kim (Samsung SDS) · Iljoo Yoon (Samsung SDS) · Youngjune Gwon (Samsung SDS) · Seungjai Min (Samsung SDS)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397b52?conf=neurips2020

[35]. Mixed Hamiltonian Monte Carlo for Mixed Discrete and Continuous Variables
作者: Guangyao Zhou (Vicarious AI)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397b53?conf=neurips2020

[36]. Self-Paced Deep Reinforcement Learning
作者: Pascal Klink (TU Darmstadt) · Carlo D’Eramo (TU Darmstadt) · Jan Peters (TU Darmstadt & MPI Intelligent Systems) · Joni Pajarinen (TU Darmstadt)
链接：https://www.aminer.cn/pub/5ea6adfa91e011a546871d63?conf=neurips2020

[37]. Efficient Model-Based Reinforcement Learning through Optimistic Policy Search and Planning
作者: Sebastian Curi (ETH ZÃ¼rich) · Felix Berkenkamp (Bosch Center for Artificial Intelligence) · Andreas Krause (ETH Zurich)
链接：https://www.aminer.cn/pub/5ee9f15b91e01152af022c81?conf=neurips2020

[38]. Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic Policies
作者: Nathan Kallus (Cornell University) · Masatoshi Uehara (Cornell University)
链接：https://www.aminer.cn/pub/5edf5dd891e011bc656dec73?conf=neurips2020

[39]. Off-Policy Evaluation and Learning for External Validity under a Covariate Shift
作者: Masatoshi Uehara (Cornell University) · Masahiro Kato (The University of Tokyo) · Shota Yasui (Cyberagent)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397b7b?conf=neurips2020

[40]. Improving Sample Complexity Bounds for (Natural) Actor-Critic Algorithms
作者: Tengyu Xu (The Ohio State University) · Zhe Wang (Ohio State University) · Yingbin Liang (The Ohio State University)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397b83?conf=neurips2020

[41]. Fast Epigraphical Projection-based Incremental Algorithms for Wasserstein Distributionally Robust Support Vector Machine
作者: Jiajin Li (The Chinese University of Hong Kong) · Caihua Chen (Nanjing University) · Anthony Man-Cho So (CUHK)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397b88?conf=neurips2020

[42]. A maximum-entropy approach to off-policy evaluation in average-reward MDPs
作者: Nevena Lazic (DeepMind) · Dong Yin (DeepMind) · Mehrdad Farajtabar (DeepMind) · Nir Levine (DeepMind) · Dilan Gorur () · Chris Harris (Google) · Dale Schuurmans (Google Brain & University of Alberta)
链接：https://www.aminer.cn/pub/5ef3247a91e0110c353da9db?conf=neurips2020

[43]. Off-policy Policy Evaluation For Sequential Decisions Under Unobserved Confounding
作者: Hongseok Namkoong (Stanford University) · Ramtin Keramati (Stanford University) · Steve Yadlowsky (Stanford University) · Emma Brunskill (Stanford University)
链接：https://www.aminer.cn/pub/5e6cacc991e01145573c7685?conf=neurips2020

[44]. Self-Imitation Learning via Generalized Lower Bound Q-learning
作者: Yunhao Tang (Columbia University)
链接：https://www.aminer.cn/pub/5ee8986891e011e66831c293?conf=neurips2020

[45]. Weakly-Supervised Reinforcement Learning for Controllable Behavior
作者: Lisa Lee (CMU / Google Brain / Stanford) · Ben Eysenbach (Carnegie Mellon University) · Russ Salakhutdinov (Carnegie Mellon University) · Shixiang (Shane) Gu (Google Brain) · Chelsea Finn (Stanford)
链接：https://www.aminer.cn/pub/5e8da0c991e011f2de58392b?conf=neurips2020

[46]. An Improved Analysis of (Variance-Reduced) Policy Gradient and Natural Policy Gradient Methods
作者: Yanli Liu (UCLA) · Kaiqing Zhang (University of Illinois at Urbana-Champaign (UIUC)) · Tamer Basar (University of Illinois at Urbana-Champaign) · Wotao Yin (Alibaba US, DAMO Academy)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397bdd?conf=neurips2020

[47]. MOReL: Model-Based Offline Reinforcement Learning
作者: Rahul Kidambi (Cornell University) · Aravind Rajeswaran (University of Washington) · Praneeth Netrapalli (Microsoft Research) · Thorsten Joachims (Cornell)
链接：https://www.aminer.cn/pub/5ebbc76191e0119bc4e43750?conf=neurips2020

[48]. Zap Q-Learning With Nonlinear Function Approximation
作者: Shuhang Chen (University of Florida) · Adithya M Devraj (University of Florida) · Fan Lu (University of Florida) · Ana Busic (INRIA) · Sean Meyn (University of Florida)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397be9?conf=neurips2020

[49]. Reinforcement Learning with General Value Function Approximation: Provably Efficient Approach via Bounded Eluder Dimension
作者: Ruosong Wang (Carnegie Mellon University) · Russ Salakhutdinov (Carnegie Mellon University) · Lin Yang (UCLA)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397bef?conf=neurips2020

[50]. Security Analysis of Safe and Seldonian Reinforcement Learning Algorithms
作者: Pinar Ozisik (UMass Amherst) · Philip Thomas (University of Massachusetts Amherst)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397bf7?conf=neurips2020

[51]. RepPoints v2: Verification Meets Regression for Object Detection
作者: Yihong Chen (Peking University) · Zheng Zhang (MSRA) · Yue Cao (Microsoft Research) · Liwei Wang (Peking University) · Stephen Lin (Microsoft Research) · Han Hu (Microsoft Research Asia)
链接：https://www.aminer.cn/pub/5f117e0f91e011264d4477b0?conf=neurips2020

[52]. Learning to Communicate in Multi-Agent Systems via Transformer-Guided Program Synthesis
作者: Jeevana Priya Inala (MIT) · Yichen Yang (MIT) · James Paulos (University of Pennsylvania) · Yewen Pu (MIT) · Osbert Bastani (University of Pennysylvania) · Vijay Kumar (University of Pennsylvania) · Martin Rinard (MIT) · Armando Solar-Lezama (MIT)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397c1a?conf=neurips2020

[53]. Belief-Dependent Macro-Action Discovery in POMDPs using the Value of Information
作者: Genevieve E Flaspohler (Massachusetts Institute of Technology) · Nicholas Roy (MIT) · John W Fisher III (MIT)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397c1f?conf=neurips2020

[54]. Bayesian Multi-type Mean Field Multi-agent Imitation Learning
作者: Fan Yang (University at Buffalo) · Alina Vereshchaka (University at Buffalo) · Changyou Chen (University at Buffalo) · Wen Dong (University at Buffalo)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397c2e?conf=neurips2020

[55]. Model-based Adversarial Meta-Reinforcement Learning
作者: Zichuan Lin (Tsinghua University) · Garrett W. Thomas (Stanford University) · Guangwen Yang (Tsinghua University) · Tengyu Ma (Stanford University)
链接：https://www.aminer.cn/pub/5ee9f15b91e01152af022d40?conf=neurips2020

[56]. Provably Efficient Neural GTD for Off-Policy Learning
作者: Hoi-To Wai (The Chinese University of Hong Kong) · Zhuoran Yang (Princeton) · Zhaoran Wang (Northwestern University) · Mingyi Hong (University of Minnesota)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397c3e?conf=neurips2020

[57]. A Randomized Algorithm to Reduce the Support of Discrete Measures
作者: Francesco Cosentino (University of Oxford) · Harald Oberhauser (University of Oxford) · Alessandro Abate (University of Oxford)
链接：https://www.aminer.cn/pub/5eda19c991e01187f5d6d7a5?conf=neurips2020

[58]. Model Inversion Networks for Model-Based Optimization
作者: Aviral Kumar (UC Berkeley) · Sergey Levine (UC Berkeley)
链接：https://www.aminer.cn/pub/5e0c6dcc3a55acc9707f3a8e?conf=neurips2020

[59]. Safe Reinforcement Learning via Curriculum Induction
作者: Matteo Turchetta (ETH Zurich) · Andrey Kolobov (Microsoft Research) · Shital Shah (Microsoft) · Andreas Krause (ETH Zurich) · Alekh Agarwal (Microsoft Research)
链接：https://www.aminer.cn/pub/5ef3247a91e0110c353da7f7?conf=neurips2020

[60]. Conservative Q-Learning for Offline Reinforcement Learning
作者: Aviral Kumar (UC Berkeley) · Aurick Zhou (University of California, Berkeley) · George Tucker (Google Brain) · Sergey Levine (UC Berkeley)
链接：https://www.aminer.cn/pub/5edf5ddc91e011bc656defe2?conf=neurips2020

[61]. SAC: Accelerating and Structuring Self-Attention via Sparse Adaptive Connection
作者: Xiaoya Li (Shannon.AI) · Yuxian Meng (Shannon.AI) · Mingxin Zhou (Shannon.AI) · Qinghong Han (Shannon.AI) · Fei Wu (Zhejiang University) · Jiwei Li (Shannon.AI)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397c54?conf=neurips2020

[62]. Variational Bayesian Monte Carlo with Noisy Likelihoods
作者: Luigi Acerbi (University of Helsinki)
链接：https://www.aminer.cn/pub/5ee9f15291e01152af022c64?conf=neurips2020

[63]. Munchausen Reinforcement Learning
作者: Nino Vieillard (Google Brain) · Olivier Pietquin (Google Research Brain Team) · Matthieu Geist (Google Brain)
链接：https://www.aminer.cn/pub/5f228e7491e01136299609ac?conf=neurips2020

[64]. A Self-Tuning Actor-Critic Algorithm
作者: Tom Zahavy (Technion) · Zhongwen Xu (DeepMind) · Vivek Veeriah (University of Michigan) · Matteo Hessel (Google DeepMind) · Junhyuk Oh (DeepMind) · Hado van Hasselt (DeepMind) · David Silver (DeepMind) · Satinder Singh (DeepMind)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397c81?conf=neurips2020

[65]. Non-Crossing Quantile Regression for Distributional Reinforcement Learning
作者: Fan Zhou (Shanghai University of Finance and Economics) · Jianing Wang (Shanghai University of Finance and Economics) · Xingdong Feng (Shanghai University of Finance and Economics)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397c85?conf=neurips2020

[66]. Learning Implicit Credit Assignment for Multi-Agent Actor-Critic
作者: Meng Zhou (University of Sydney) · Ziyu Liu (University of Sydney) · Pengwei Sui (University of Sydney) · Yixuan Li (The University of Sydney) · Yuk Ying Chung (The University of Sydney)
链接：https://www.aminer.cn/pub/5f04539691e0114d4aaa4a8a?conf=neurips2020

[67]. Online Meta-Critic Learning for Off-Policy Actor-Critic Methods
作者: Wei Zhou (National University of Defense Technology) · Yiying Li (National University of Defense Technology) · Yongxin Yang (University of Edinburgh ) · Huaimin Wang (National University of Defense Technology) · Timothy Hospedales (University of Edinburgh)
链接：https://www.aminer.cn/pub/5e6a084591e011c28fff700d?conf=neurips2020

[68]. Online Decision Based Visual Tracking via Reinforcement Learning
作者: ke Song (Shandong university) · Wei Zhang (Shandong University) · Ran Song (School of Control Science and Engineering, Shandong University) · Yibin Li (Shandong University)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397c94?conf=neurips2020

[69]. Adversarial Soft Advantage Fitting: Imitation Learning without Policy Optimization
作者: Paul Barde (Quebec AI institute - Ubisoft La Forge) · Julien Roy (Mila) · Wonseok Jeon (MILA, McGill University) · Joelle Pineau (McGill University) · Chris Pal (MILA, Polytechnique MontrÃ©al, Element AI) · Derek Nowrouzezahrai (McGill University)
链接：https://www.aminer.cn/pub/5ef476b691e01165a63bba7b?conf=neurips2020

[70]. Discovering Reinforcement Learning Algorithms
作者: Junhyuk Oh (DeepMind) · Matteo Hessel (Google DeepMind) · Wojciech Czarnecki (DeepMind) · Zhongwen Xu (DeepMind) · Hado van Hasselt (DeepMind) · Satinder Singh (DeepMind) · David Silver (DeepMind)
链接：https://www.aminer.cn/pub/5f15691191e011d7db223a84?conf=neurips2020

[71]. Model-based Policy Optimization with Unsupervised Model Adaptation
作者: Jian Shen (Shanghai Jiao Tong University) · Han Zhao (Carnegie Mellon University) · Weinan Zhang (Shanghai Jiao Tong University) · Yong Yu (Shanghai Jiao Tong Unviersity)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397ca3?conf=neurips2020

[72]. Shared Experience Actor-Critic for Multi-Agent Reinforcement Learning
作者: Filippos Christianos (University of Edinburgh) · Lukas SchÃ¤fer (University of Edinburgh) · Stefano Albrecht (University of Edinburgh)
链接：https://www.aminer.cn/pub/5ee7495b91e01198a507f945?conf=neurips2020

[73]. The LoCA Regret: A Consistent Metric to Evaluate Model-Based Behavior in Reinforcement Learning
作者: Harm Van Seijen (Microsoft Research) · Hadi Nekoei (MILA) · Evan Racah (Mila, UniversitÃ© de MontrÃ©al) · Sarath Chandar (Mila / Ã‰cole Polytechnique de MontrÃ©al)
链接：https://www.aminer.cn/pub/5f0594d791e011c57e3e8ca2?conf=neurips2020

[74]. Deep Inverse Q-learning with Constraints
作者: Gabriel Kalweit (University of Freiburg) · Maria Huegle (University of Freiburg) · Moritz Werling (BMWGroup, Unterschleissheim) · Joschka Boedecker (University of Freiburg)
链接：https://www.aminer.cn/pub/5f2bde0c91e011b36ba9cf3e?conf=neurips2020

[75]. Leverage the Average: an Analysis of KL Regularization in Reinforcement Learning
作者: Nino Vieillard (Google Brain) · Tadashi Kozuno (Okinawa Institute of Science and Technology) · Bruno Scherrer (INRIA) · Olivier Pietquin (Google Research Brain Team) · Remi Munos (DeepMind) · Matthieu Geist (Google Brain)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397cfa?conf=neurips2020

[76]. Task-agnostic Exploration in Reinforcement Learning
作者: Xuezhou Zhang (UW-Madison) · Yuzhe Ma (University of Wisconsin-Madison) · Adish Singla (MPI-SWS)
链接：https://www.aminer.cn/pub/5eede0b091e0116a23aafa01?conf=neurips2020

[77]. Generating Adjacency-Constrained Subgoals in Hierarchical Reinforcement Learning
作者: Tianren Zhang (Tsinghua University) · Shangqi Guo (Tsinghua University) · Tian Tan (Stanford University) · Xiaolin Hu (Tsinghua University) · Feng Chen (Tsinghua University)
链接：https://www.aminer.cn/pub/5ef3247091e0110c353da56c?conf=neurips2020

[78]. Reinforcement Learning with Feedback Graphs
作者: Christoph Dann (Carnegie Mellon University) · Yishay Mansour (Google) · Mehryar Mohri (Courant Inst. of Math. Sciences & Google Research) · Ayush Sekhari (Cornell University) · Karthik Sridharan (Cornell University)
链接：https://www.aminer.cn/pub/5eb9222f91e0118cfef9813e?conf=neurips2020

[79]. Storage Efficient and Dynamic Flexible Runtime Channel Pruning via Deep Reinforcement Learning
作者: Jianda Chen (Nanyang Technological University) · Shangyu Chen (Nanyang Technological University, Singapore) · Sinno Jialin Pan (Nanyang Technological University, Singapore)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397d12?conf=neurips2020

[80]. Towards Safe Policy Improvement for Non-Stationary MDPs
作者: Yash Chandak (University of Massachusetts Amherst) · Scott Jordan (University of Massachusetts Amherst) · Georgios Theocharous (Adobe Research) · Martha White (University of Alberta) · Philip Thomas (University of Massachusetts Amherst)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397d1b?conf=neurips2020

[81]. Multi-Task Reinforcement Learning with Soft Modularization
作者: Ruihan Yang (UC San Diego) · Huazhe Xu (UC Berkeley) · YI WU (UC Berkeley) · Xiaolong Wang (UCSD/UC Berkeley)
链接：https://www.aminer.cn/pub/5efe617adfae548d33e5d7f1?conf=neurips2020

[82]. Weighted QMIX: Improving Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning
作者: Tabish Rashid (University of Oxford) · Gregory Farquhar (University of Oxford) · Bei Peng (University of Oxford) · Shimon Whiteson (University of Oxford)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397d31?conf=neurips2020

[83]. MDP Homomorphic Networks: Group Symmetries in Reinforcement Learning
作者: Elise van der Pol (University of Amsterdam) · Daniel Worrall (University of Amsterdam) · Herke van Hoof (University of Amsterdam) · Frans Oliehoek (TU Delft) · Max Welling (University of Amsterdam / Qualcomm AI Research)
链接：https://www.aminer.cn/pub/5efcb91091e011520324588b?conf=neurips2020

[84]. CoinDICE: Off-Policy Confidence Interval Estimation
作者: Bo Dai (Google Brain) · Ofir Nachum (Google Brain) · Yinlam Chow (Google Research) · Lihong Li (Google Research) · Csaba Szepesvari (DeepMind / University of Alberta) · Dale Schuurmans (Google Brain & University of Alberta)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397d44?conf=neurips2020

[85]. An Operator View of Policy Gradient Methods
作者: Dibya Ghosh (Google) · Marlos C. Machado (Google Brain) · Nicolas Le Roux (Google Brain）
链接：https://www.aminer.cn/pub/5ef1d38d91e011aaa05ad3eb?conf=neurips2020

[86]. On Efficiency in Hierarchical Reinforcement Learning
作者: Zheng Wen (DeepMind) · Doina Precup (DeepMind) · Morteza Ibrahimi (DeepMind) · Andre Barreto (DeepMind) · Benjamin Van Roy (Stanford University) · Satinder Singh (DeepMind)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397d57?conf=neurips2020

[87]. Variational Policy Gradient Method for Reinforcement Learning with General Utilities
作者: Junyu Zhang (Princeton University) · Alec Koppel (U.S. Army Research Laboratory) · Amrit Singh Bedi (US Army Research Laboratory) · Csaba Szepesvari (DeepMind / University of Alberta) · Mengdi Wang (Princeton University)
链接：https://www.aminer.cn/pub/5f04450191e0114d4aaa4910?conf=neurips2020

[88]. A Finite-Time Analysis of Two Time-Scale Actor-Critic Methods
作者: Yue Wu (University of California, Los Angeles) · Weitong ZHANG (University of California, Los Angeles) · Pan Xu (University of California, Los Angeles) · Quanquan Gu (UCLA)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397d60?conf=neurips2020

[89]. POLY-HOOT: Monte-Carlo Planning in Continuous Space MDPs with Non-Asymptotic Analysis
作者: Weichao Mao (University of Illinois Urbana-Champaign) · Kaiqing Zhang (University of Illinois at Urbana-Champaign (UIUC)) · Qiaomin Xie (Cornell University) · Tamer Basar (University of Illinois at Urbana-Champaign)
链接：https://www.aminer.cn/pub/5edf5ddc91e011bc656def77?conf=neurips2020

[90]. Can Temporal-Diï¬€erence and Q-Learning Learn Representation? A Mean-Field Theory
作者: Yufeng Zhang (Northwestern University) · Qi Cai (Northwestern University) · Zhuoran Yang (Princeton) · Yongxin Chen (Georgia Institute of Technology) · Zhaoran Wang (Northwestern University)
链接：https://www.aminer.cn/pub/5edf5ddc91e011bc656defd0?conf=neurips2020

[91]. Model-based Reinforcement Learning for Semi-Markov Decision Processes with Neural ODEs
作者: Jianzhun Du (Harvard University) · Joseph Futoma (Harvard University) · Finale Doshi-Velez (Harvard)
链接：https://www.aminer.cn/pub/5efb0d5991e011063336d659?conf=neurips2020

[92]. Sample Complexity of Asynchronous Q-Learning: Sharper Analysis and Variance Reduction
作者: Gen Li (Tsinghua University) · Yuting Wei (Carnegie Mellon University) · Yuejie Chi (CMU) · Yuantao Gu (Tsinghua University) · Yuxin Chen (Princeton University)
链接：https://www.aminer.cn/pub/5eda19d991e01187f5d6dca9?conf=neurips2020

[93]. Reinforcement Learning with Augmented Data
作者: Misha Laskin (UC Berkeley) · Kimin Lee (UC Berkeley) · Adam Stooke (UC Berkeley) · Lerrel Pinto (New York University) · Pieter Abbeel (UC Berkeley & covariant.ai) · Aravind Srinivas (UC Berkeley)
链接：https://www.aminer.cn/pub/5eabf34c91e011664ffd2a20?conf=neurips2020

[94]. Improved Sample Complexity for Incremental Autonomous Exploration in MDPs
作者: Jean Tarbouriech (Facebook AI Research Paris & Inria Lille) · Matteo Pirotta (Facebook AI Research) · Michal Valko (DeepMind Paris and Inria Lille - Nord Europe) · Alessandro Lazaric (Facebook Artificial Intelligence Research)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397d9b?conf=neurips2020

[95]. EvolveGraph: Multi-Agent Trajectory Prediction with Dynamic Relational Reasoning
作者: Jiachen Li (University of California, Berkeley) · Fan Yang (University of California, Berkeley) · Masayoshi Tomizuka (University of California, Berkeley) · Chiho Choi (Honda Research Institute US)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397d9f?conf=neurips2020

[96]. Autofocused oracles for model-based design
作者: Clara Fannjiang (UC Berkeley) · Jennifer Listgarten (UC Berkeley)
链接：https://www.aminer.cn/pub/5ee8986891e011e66831c4f5?conf=neurips2020

[97]. Off-Policy Evaluation via the Regularized Lagrangian
作者: Mengjiao Yang (Google) · Ofir Nachum (Google Brain) · Bo Dai (Google Brain) · Lihong Li (Google Research) · Dale Schuurmans (Google Brain & University of Alberta)
链接：https://www.aminer.cn/pub/5f05a271dfae5450341f5563?conf=neurips2020

[98]. Reinforcement Learning with Combinatorial Actions: An Application to Vehicle Routing
作者: Arthur Delarue (MIT) · Ross Anderson (Google Research) · Christian Tjandraatmadja (Google)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397dc9?conf=neurips2020

[99]. MOPO: Model-based Offline Policy Optimization
作者: Tianhe Yu (Stanford University) · Garrett W. Thomas (Stanford University) · Lantao Yu (Stanford University) · Stefano Ermon (Stanford) · James Zou (Stanford University) · Sergey Levine (UC Berkeley) · Chelsea Finn (Stanford) · Tengyu Ma (Stanford University)
链接：https://www.aminer.cn/pub/5ecf8d2391e01149f850f4dd?conf=neurips2020

[100]. Variance-Reduced Off-Policy TDC Learning: Non-Asymptotic Convergence Analysis
作者: Shaocong Ma (University of Utah) · Yi Zhou (University of Utah) · Shaofeng Zou (University at Buffalo, the State University of New York)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397dd0?conf=neurips2020

[101]. Dynamic Regret of Policy Optimization in Non-stationary Environments
作者: Yingjie Fei (Cornell University) · Zhuoran Yang (Princeton) · Zhaoran Wang (Northwestern University) · Qiaomin Xie (Cornell University)
链接：https://www.aminer.cn/pub/5efdacc491e01191d3d281f6?conf=neurips2020

[102]. DisCor: Corrective Feedback in Reinforcement Learning via Distribution Correction
作者: Aviral Kumar (UC Berkeley) · Abhishek Gupta (University of California, Berkeley) · Sergey Levine (UC Berkeley)
链接：https://www.aminer.cn/pub/5e71f4b391e0115656f5d1c4?conf=neurips2020

[103]. FLAMBE: Structural Complexity and Representation Learning of Low Rank MDPs
作者: Alekh Agarwal (Microsoft Research) · Sham Kakade (University of Washington) · Akshay Krishnamurthy (Microsoft) · Wen Sun (Microsoft Research NYC)
链接：https://www.aminer.cn/pub/5ef0816891e0112aee0429df?conf=neurips2020

[104]. Neurosymbolic Reinforcement Learning with Formally Verified Exploration
作者: Greg Anderson (University of Texas at Austin) · Abhinav Verma (Rice University) · Isil Dillig (UT Austin) · Swarat Chaudhuri (The University of Texas at Austin)
链接：https://www.aminer.cn/pub/5f75a66491e0111c1eb4d32c?conf=neurips2020

[105]. Generalized Hindsight for Reinforcement Learning
作者: Alexander Li (UC Berkeley) · Lerrel Pinto (New York University) · Pieter Abbeel (UC Berkeley & covariant.ai)
链接：https://www.aminer.cn/pub/5e5794b791e01154537511e1?conf=neurips2020

[106]. Finite-Time Analysis for Double Q-learning
作者: Huaqing Xiong (Ohio State University) · Lin Zhao (National University of Singapore) · Yingbin Liang (The Ohio State University) · Wei Zhang (Southern University of Science and Technology)
链接：https://www.aminer.cn/pub/5f75e75291e0111c1eb4d999?conf=neurips2020

[107]. Subgroup-based Rank-1 Lattice Quasi-Monte Carlo
作者: Yueming LYU (University of Technology Sydney) · Yuan Yuan (MIT) · Ivor Tsang (University of Technology, Sydney)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397e13?conf=neurips2020

[108]. Meta-Gradient Reinforcement Learning with an Objective Discovered Online
作者: Zhongwen Xu (DeepMind) · Hado van Hasselt (DeepMind) · Matteo Hessel (Google DeepMind) · Junhyuk Oh (DeepMind) · Satinder Singh (DeepMind) · David Silver (DeepMind)
链接：https://www.aminer.cn/pub/5f117b6c91e011264d447765?conf=neurips2020

[109]. TorsionNet: A Reinforcement Learning Approach to Sequential Conformer Search
作者: Tarun Gogineni (University of Michigan) · Ziping Xu (University of Michigan) · Exequiel Punzalan (University of Michigan) · Runxuan Jiang (University of Michigan) · Joshua Kammeraad (University of Michigan) · Ambuj Tewari (University of Michigan) · Paul Zimmerman (University of Michigan)
链接：https://www.aminer.cn/pub/5ee7495191e01198a507f8ea?conf=neurips2020

[110]. Succinct and Robust Multi-Agent Communication With Temporal Message Control
作者: Sai Qian Zhang (Harvard University) · Qi Zhang (Amazon) · Jieyu Lin (University of Toronto)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397e42?conf=neurips2020

[111]. Learning to Dispatch for Job Shop Scheduling via Deep Reinforcement Learning
作者: Cong Zhang (Nanyang Technological University) · Wen Song (Institute of Marine Scinece and Technology, Shandong University) · Zhiguang Cao (National University of Singapore) · Jie Zhang (Nanyang Technological University) · Puay Siew Tan (SIMTECH) · Xu Chi (Singapore Institute of Manufacturing Technology, A-Star)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397e47?conf=neurips2020

[112]. Is Plug-in Solver Sample-Efficient for Feature-based Reinforcement Learning?
作者: Qiwen Cui (Peking University) · Lin Yang (UCLA)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397e54?conf=neurips2020

[113]. Instance-based Generalization in Reinforcement Learning
作者: Martin Bertran (Duke University) · Natalia L Martinez (Duke University) · Mariano Phielipp (Intel AI Labs) · Guillermo Sapiro (Duke University)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397e5c?conf=neurips2020

[114]. Preference-based Reinforcement Learning with Finite-Time Guarantees
作者: Yichong Xu (Carnegie Mellon University) · Ruosong Wang (Carnegie Mellon University) · Lin Yang (UCLA) · Aarti Singh (CMU) · Artur Dubrawski (Carnegie Mellon University)
链接：https://www.aminer.cn/pub/5ee9f15b91e01152af022d63?conf=neurips2020

[115]. Learning to Decode: Reinforcement Learning for Decoding of Sparse Graph-Based Channel Codes
作者: Salman Habib (New Jersey Institute of Tech) · Allison Beemer (New Jersey Institute of Technology) · Joerg Kliewer (New Jersey Institute of Technology)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397e6e?conf=neurips2020

[116]. BAIL: Best-Action Imitation Learning for Batch Deep Reinforcement Learning
作者: Xinyue Chen (NYU Shanghai) · Zijian Zhou (NYU Shanghai) · Zheng Wang (NYU Shanghai) · Che Wang (New York University) · Yanqiu Wu (New York University) · Keith Ross (NYU Shanghai)
链接：https://www.aminer.cn/pub/5db80dc83a55acd5c14a24a2?conf=neurips2020

[117]. Task-Agnostic Online Reinforcement Learning with an Infinite Mixture of Gaussian Processes
作者: Mengdi Xu (Carnegie Mellon University) · Wenhao Ding (Carnegie Mellon University) · Jiacheng Zhu (Carnegie Mellon University) · ZUXIN LIU (Carnegie Mellon University) · Baiming Chen (Tsinghua University) · Ding Zhao (Carnegie Mellon University)
链接：https://www.aminer.cn/pub/5ef3247091e0110c353da540?conf=neurips2020

[118]. On Reward-Free Reinforcement Learning with Linear Function Approximation
作者: Ruosong Wang (Carnegie Mellon University) · Simon Du (Institute for Advanced Study) · Lin Yang (UCLA) · Russ Salakhutdinov (Carnegie Mellon University)
链接：https://www.aminer.cn/pub/5ef1d38d91e011aaa05ad3f3?conf=neurips2020

[119]. Near-Optimal Reinforcement Learning with Self-Play
作者: Yu Bai (Salesforce Research) · Chi Jin (Princeton University) · Tiancheng Yu (MIT )
链接：https://www.aminer.cn/pub/5ef3247a91e0110c353da776?conf=neurips2020

[120]. Robust Multi-Agent Reinforcement Learning with Model Uncertainty
作者: Kaiqing Zhang (University of Illinois at Urbana-Champaign (UIUC)) · TAO SUN (Amazon.com) · Yunzhe Tao (Amazon Artificial Intelligence) · Sahika Genc (Amazon Artificial Intelligence) · Sunil Mallya (Amazon AWS) · Tamer Basar (University of Illinois at Urbana-Champaign)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397ea9?conf=neurips2020

[121]. Towards Minimax Optimal Reinforcement Learning in Factored Markov Decision Processes
作者: Yi Tian (MIT) · Jian Qian (MIT) · Suvrit Sra (MIT)
链接：https://www.aminer.cn/pub/5ef476b691e01165a63bbb0e?conf=neurips2020

[122]. Scalable Multi-Agent Reinforcement Learning for Networked Systems with Average Reward
作者: Guannan Qu (California Institute of Technology) · Yiheng Lin (California Institute of Technology) · Adam Wierman (California Institute of Technology) · Na Li (Harvard University)
链接：https://www.aminer.cn/pub/5ee3527191e011cb3bff76ea?conf=neurips2020

[123]. Constrained episodic reinforcement learning in concave-convex and knapsack settings
作者: KiantÃ© Brantley (The University of Maryland College Park) · Miro Dudik (Microsoft Research) · Thodoris Lykouris (Microsoft Research NYC) · Sobhan Miryoosefi (Princeton University) · Max Simchowitz (Berkeley) · Aleksandrs Slivkins (Microsoft Research) · Wen Sun (Microsoft Research NYC)
链接：https://www.aminer.cn/pub/5ee3525f91e011cb3bff70c3?conf=neurips2020

[124]. Sample Efficient Reinforcement Learning via Low-Rank Matrix Estimation
作者: Devavrat Shah (Massachusetts Institute of Technology) · Dogyoon Song (Massachusetts Institute of Technology) · Zhi Xu (MIT) · Yuzhe Yang (MIT)
链接：https://www.aminer.cn/pub/5ee3527191e011cb3bff74ff?conf=neurips2020

[125]. Trajectory-wise Multiple Choice Learning for Dynamics Generalization in Reinforcement Learning
作者: Younggyo Seo (KAIST) · Kimin Lee (UC Berkeley) · Ignasi Clavera Gilaberte (UC Berkeley) · Thanard Kurutach (University of California Berkeley) · Jinwoo Shin (KAIST) · Pieter Abbeel (UC Berkeley & covariant.ai)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397ed8?conf=neurips2020

[126]. Cooperative Heterogeneous Deep Reinforcement Learning
作者: Han Zheng (UTS) · Pengfei Wei (National University of Singapore) · Jing Jiang (University of Technology Sydney) · Guodong Long (University of Technology Sydney (UTS)) · Qinghua Lu (Data61, CSIRO) · Chengqi Zhang (University of Technology Sydney)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397edb?conf=neurips2020

[127]. Global Convergence of Natural Primal-Dual Method for Constrained Markov Decision Processes
作者: Dongsheng Ding (University of Southern California) · Kaiqing Zhang (University of Illinois at Urbana-Champaign (UIUC)) · Mihailo Jovanovic (University of Southern California) · Tamer Basar (University of Illinois at Urbana-Champaign)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397ee3?conf=neurips2020

[128]. Implicit Distributional Reinforcement Learning
作者: Yuguang Yue (University of Texas at Austin) · Zhendong Wang (University of Texas, Austin) · Mingyuan Zhou (University of Texas at Austin)
链接：https://www.aminer.cn/pub/5f0d899e91e011047aff98f9?conf=neurips2020

[129]. Efficient Exploration of Reward Functions in Inverse Reinforcement Learning via Bayesian Optimization
作者: Sreejith Balakrishnan (National University of Singapore) · Quoc Phong Nguyen (National University of Singapore) · Bryan Kian Hsiang Low (National University of Singapore) · Harold Soh (National University Singapore)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397ef4?conf=neurips2020

[130]. EPOC: A Provably Correct Policy Gradient Approach to Reinforcement Learning
作者: Alekh Agarwal (Microsoft Research) · Mikael Henaff (Microsoft) · Sham Kakade (University of Washington) · Wen Sun (Microsoft Research NYC)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397efc?conf=neurips2020

[131]. Provably Efficient Reinforcement Learning with Kernel and Neural Function Approximations
作者: Zhuoran Yang (Princeton) · Chi Jin (Princeton University) · Zhaoran Wang (Northwestern University) · Mengdi Wang (Princeton University) · Michael Jordan (UC Berkeley)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397f04?conf=neurips2020

[132]. Decoupled Policy Gradient Methods for Competitive Reinforcement Learning
作者: Constantinos Daskalakis (MIT) · Dylan Foster (MIT) · Noah Golowich (Massachusetts Institute of Technology)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397f06?conf=neurips2020

[133]. Upper Confidence Primal-Dual Reinforcement Learning for CMDP with Adversarial Loss
作者: Shuang Qiu (University of Michigan) · Xiaohan Wei (University of Southern California) · Zhuoran Yang (Princeton) · Jieping Ye (University of Michigan) · Zhaoran Wang (Northwestern University)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397f0a?conf=neurips2020

[134]. Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal Sample Complexity
作者: Kaiqing Zhang (University of Illinois at Urbana-Champaign (UIUC)) · Sham Kakade (University of Washington) · Tamer Basar (University of Illinois at Urbana-Champaign) · Lin Yang (UCLA)
链接：https://www.aminer.cn/pub/5f10211d91e01168a7d6fc22?conf=neurips2020

[135]. PlanGAN: Model-based Planning With Sparse Rewards and Multiple Goals
作者: Henry Charlesworth (University of Warwick) · Giovanni Montana (University of Warwick)
链接：https://www.aminer.cn/pub/5ed623da91e01198019afc95?conf=neurips2020

[136]. Improving Generalization in Reinforcement Learning with Mixture Regularization
作者: KAIXIN WANG (National University of Singapore) · Bingyi Kang (National University of Singapore) · Jie Shao (Fudan University) · Jiashi Feng (National University of Singapore)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397f27?conf=neurips2020

[137]. A game-theoretic analysis of networked system control for common-pool resource management using multi-agent reinforcement learning
作者: Arnu Pretorius (InstaDeep) · Scott Cameron (Instadeep) · Elan van Biljon (Stellenbosch University) · Thomas Makkink (InstaDeep) · Shahil Mawjee (InstaDeep) · Jeremy du Plessis (University of Cape Town) · Jonathan Shock (University of Cape Town) · Alexandre Laterre (InstaDeep) · Karim Beguir (InstaDeep)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397f3c?conf=neurips2020

[138]. Fast Adaptive Non-Monotone Submodular Maximization Subject to a Knapsack Constraint
作者: Georgios Amanatidis (University of Essex) · Federico Fusco (Sapienza University of Rome) · Philip Lazos (Sapienza University of Rome) · Stefano Leonardi (Sapienza University of Rome) · Rebecca ReiffenhÃ¤user (Sapienza University of Rome)
链接：https://www.aminer.cn/pub/5f0c246491e0115455a34a95?conf=neurips2020

[139]. Planning in Markov Decision Processes with Gap-Dependent Sample Complexity
作者: Anders Jonsson (Universitat Pompeu Fabra) · Emilie Kaufmann (CNRS) · Pierre Menard (Inria) · Omar Darwiche Domingues (Inria) · Edouard Leurent (INRIA) · Michal Valko (DeepMind)
链接：https://www.aminer.cn/pub/5ee3526a91e011cb3bff73ff?conf=neurips2020

[140]. Deep Reinforcement Learning with Stacked Hierarchical Attention for Text-based Games
作者: Yunqiu Xu (University of Technology Sydney) · Meng Fang (Tencent) · Ling Chen (" University of Technology, Sydney, Australia") · Yali Du (University College London) · Joey Tianyi Zhou (IHPC, A*STAR) · Chengqi Zhang (University of Technology Sydney)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397f46?conf=neurips2020

[141]. Robust Reinforcement Learning via Adversarial training with Langevin Dynamics
作者: Parameswaran Kamalaruban (EPFL) · Yu-Ting Huang (EPFL) · Ya-Ping Hsieh (EPFL) · Paul Rolland (EPFL) · Cheng Shi (Unversity of Basel) · Volkan Cevher (EPFL)
链接：https://www.aminer.cn/pub/5e4a64313a55acda1392dd45?conf=neurips2020

[142]. Interferobot: aligning an optical interferometer by a reinforcement learning agent
作者: Dmitry Sorokin (Russian Quantum Center) · Alexander Ulanov (Russian Quantum Center) · Ekaterina Sazhina (Russian Quantum Center) · Alexander Lvovsky (Oxford University)
链接：https://www.aminer.cn/pub/5eda19c991e01187f5d6d994?conf=neurips2020

[143]. Reinforcement Learning for Control with Multiple Frequencies
作者: Jongmin Lee (KAIST) · ByungJun Lee (KAIST) · Kee-Eung Kim (KAIST)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397f5a?conf=neurips2020

[144]. Learning to Play Sequential Games versus Unknown Opponents
作者: Pier Giuseppe Sessa (ETH ZÃ¼rich) · Ilija Bogunovic (ETH Zurich) · Maryam Kamgarpour (ETH ZÃ¼rich) · Andreas Krause (ETH Zurich)
链接：https://www.aminer.cn/pub/5f0c2d0b91e0115455a34b96?conf=neurips2020

[145]. Contextual Games: Multi-Agent Learning with Side Information
作者: Pier Giuseppe Sessa (ETH ZÃ¼rich) · Ilija Bogunovic (ETH Zurich) · Andreas Krause (ETH Zurich) · Maryam Kamgarpour (ETH ZÃ¼rich)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397f70?conf=neurips2020

[146]. Risk-Sensitive Reinforcement Learning: Near-Optimal Risk-Sample Tradeoff in Regret
作者: Yingjie Fei (Cornell University) · Zhuoran Yang (Princeton) · Yudong Chen (Cornell University) · Zhaoran Wang (Northwestern University) · Qiaomin Xie (Cornell University)
链接：https://www.aminer.cn/pub/5ef476b691e01165a63bbcb4?conf=neurips2020

[147]. Expert-Supervised Reinforcement Learning for Offline Policy Learning and Evaluation
作者: Aaron Sonabend (Harvard University) · Junwei Lu () · Leo Anthony Celi (Massachusetts Institute of Technology) · Tianxi Cai (Harvard School of Public Health) · Peter Szolovits (MIT)
链接：https://www.aminer.cn/pub/5ef3247f91e0110c353dac14?conf=neurips2020

[148]. Dynamic allocation of limited memory resources in reinforcement learning
作者: Nisheet Patel (University of Geneva) · Luigi Acerbi (University of Helsinki) · Alexandre Pouget (University of Geneva)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397f97?conf=neurips2020

[149]. AttendLight: Universal Attention-Based Reinforcement Learning Model for Traffic Signal Control
作者: Afshin Oroojlooy (SAS Institute, Inc) · Mohammadreza Nazari (SAS Institute Inc.) · Davood Hajinezhad (SAS Institute Inc.) · Jorge Silva (SAS)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397f98?conf=neurips2020

[150]. Sample-Efficient Reinforcement Learning of Undercomplete POMDPs
作者: Chi Jin (Princeton University) · Sham Kakade (University of Washington) · Akshay Krishnamurthy (Microsoft) · Qinghua Liu (Princeton University)
链接：https://www.aminer.cn/pub/5ef3247a91e0110c353da953?conf=neurips2020

[151]. Learning discrete distributions with infinite support
作者: Doron Cohen (Ben-Gurion University of the Negev) · Aryeh Kontorovich (Ben Gurion University) · Geoï¬€rey Wolfer (Ben-Gurion University of the Negev)
链接：https://www.aminer.cn/pub/5ea8009091e0111d387ee879?conf=neurips2020

[152]. Joint Policy Search for Multi-agent Collaboration with Incomplete Information
作者: Yuandong Tian (Facebook AI Research) · Qucheng Gong (Facebook AI Research) · Yu Jiang (Facebook AI Research)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397fdc?conf=neurips2020

[153]. R-learning in actor-critic model offers a biologically relevant mechanism for sequential decision-making
作者: Sergey Shuvaev (Cold Spring Harbor Laboratory) · Sarah Starosta (Washington University in St. Louis) · Duda Kvitsiani (Aarhus University) · Adam Kepecs (Washington University in St. Louis) · Alexei Koulakov (Cold Spring Harbor Laboratory)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397fe8?conf=neurips2020

[154]. Multi-agent active perception with prediction rewards
作者: Mikko Lauri (University of Hamburg) · Frans Oliehoek (TU Delft)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828397ffe?conf=neurips2020

[155]. RL Unplugged: A Collection of Benchmarks for Offline Reinforcement Learning
作者: Ziyu Wang (Deepmind) · Caglar Gulcehre (Deepmind) · Alexander Novikov (DeepMind) · Thomas Paine (DeepMind) · Sergio GÃ³mez (DeepMind) · Konrad Zolna (DeepMind) · Rishabh Agarwal (Google Research, Brain Team) · Josh Merel (DeepMind) · Daniel Mankowitz (DeepMind) · Cosmin Paduraru (DeepMind) · Gabriel Dulac-Arnold (Google Research) · Jerry Li (Google) · Mohammad Norouzi (Google Brain) · Matthew Hoffman (DeepMind) · Nicolas Heess (Google DeepMind) · Nando de Freitas (DeepMind)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828398000?conf=neurips2020

[156]. A local temporal difference code for distributional reinforcement learning
作者: Pablo Tano (University of Geneva) · Peter Dayan (Max Planck Institute for Biological Cybernetics) · Alexandre Pouget (University of Geneva)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828398002?conf=neurips2020

[157]. Learning to Play No-Press Diplomacy with Best Response Policy Iteration
作者: Thomas Anthony (DeepMind) · Tom Eccles (DeepMind) · Andrea Tacchetti (DeepMind) · JÃ¡nos KramÃ¡r (DeepMind) · Ian Gemp (DeepMind) · Thomas Hudson (DeepMind) · Nicolas Porcel (DeepMind) · Marc Lanctot (DeepMind) · Julien Perolat (DeepMind) · Richard Everett (DeepMind) · Satinder Singh (DeepMind) · Thore Graepel (DeepMind) · Yoram Bachrach ()
链接：https://www.aminer.cn/pub/5edf5ddc91e011bc656def52?conf=neurips2020

[158]. The Value Equivalence Principle for Model-Based Reinforcement Learning
作者: Christopher Grimm (University of Michigan) · Andre Barreto (DeepMind) · Satinder Singh (DeepMind) · David Silver (DeepMind)
链接：https://www.aminer.cn/pub/5f7fdd328de39f082839800d?conf=neurips2020

[159]. Multi-agent Trajectory Prediction with Fuzzy Query Attention
作者: Nitin Kamra (University of Southern California) · Hao Zhu (Peking University) · Dweep Kumarbhai Trivedi (University of Southern California) · Ming Zhang (Peking University) · Yan Liu (University of Southern California)
链接：https://www.aminer.cn/pub/5f7fdd328de39f082839801c?conf=neurips2020

[160]. Trust the Model When It Is Confident: Masked Model-based Actor-Critic
作者: Feiyang Pan (Institute of Computing Technology, Chinese Academy of Sciences) · Jia He (Huawei) · Dandan Tu (Huawei) · Qing He (Institute of Computing Technology, Chinese Academy of Sciences)
链接：https://www.aminer.cn/pub/5f7fdd328de39f082839801e?conf=neurips2020

[161]. POMDPs in Continuous Time and Discrete Spaces
作者: Bastian Alt (Technische UniversitÃ¤t Darmstadt) · Matthias Schultheis (Technische UniversitÃ¤t Darmstadt) · Heinz Koeppl (Technische UniversitÃ¤t Darmstadt)
链接：https://www.aminer.cn/pub/5f7af03891e011983cc81eee?conf=neurips2020

[162]. Steady State Analysis of Episodic Reinforcement Learning
作者: Huang Bojun (Rakuten Institute of Technology)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828398022?conf=neurips2020

[163]. Learning Multi-Agent Communication through Structured Attentive Reasoning
作者: Murtaza Rangwala (Virginia Tech) · Ryan K Williams (Virginia Tech)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828398024?conf=neurips2020

[164]. Information-theoretic Task Selection for Meta-Reinforcement Learning
作者: Ricardo Luna Gutierrez (University of Leeds) · Matteo Leonetti (University of Leeds)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828398027?conf=neurips2020

[165]. The Mean-Squared Error of Double Q-Learning
作者: Wentao Weng (Tsinghua University) · Harsh Gupta (University of Illinois at Urbana-Champaign) · Niao He (UIUC) · Lei Ying (University of Michigan) · R. Srikant (University of Illinois at Urbana-Champaign)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828398041?conf=neurips2020

[166]. A Unifying View of Optimism in Episodic Reinforcement Learning
作者: Gergely Neu (Universitat Pompeu Fabra) · Ciara Pike-Burke (Imperial College London)
链接：https://www.aminer.cn/pub/5f043bdc91e0114d4aaa480c?conf=neurips2020

[167]. Accelerating Reinforcement Learning through GPU Atari Emulation
作者: Steven Dalton (Nvidia) · iuri frosio (nvidia)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828398062?conf=neurips2020

[168]. Robust Deep Reinforcement Learning against Adversarial Perturbations on State Observations
作者: Huan Zhang (UCLA) · Hongge Chen (MIT) · Chaowei Xiao (University of Michigan, Ann Arbor) · Bo Li (UIUC) · mingyan liu (university of Michigan, Ann Arbor) · Duane Boning (Massachusetts Institute of Technology) · Cho-Jui Hsieh (UCLA)
链接：https://www.aminer.cn/pub/5f7fdd328de39f082839807f?conf=neurips2020

[169]. Bridging Imagination and Reality for Model-Based Deep Reinforcement Learning
作者: Guangxiang Zhu (Tsinghua university) · Minghao Zhang (Tsinghua University) · Honglak Lee (Google / U. Michigan) · Chongjie Zhang (Tsinghua University)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828398084?conf=neurips2020

[170]. Direct Policy Gradients: Direct Optimization of Policies in Discrete Action Spaces
作者: Guy Lorberbom (Technion) · Chris J. Maddison (University of Toronto) · Nicolas Heess (Google DeepMind) · Tamir Hazan (Technion) · Daniel Tarlow (Google Brain)
链接：https://www.aminer.cn/pub/5d1eb9e0da562961f0b1aad7?conf=neurips2020

[171]. Hamiltonian Monte Carlo using an adjoint-differentiated Laplace approximation
作者: Charles Margossian (Columbia) · Aki Vehtari (Aalto University) · Daniel Simpson (University of Toronto) · Raj Agrawal (MIT)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828398092?conf=neurips2020

[172]. A Unified Switching System Perspective and Convergence Analysis of Q-Learning Algorithms
作者: Niao He (UIUC) · Donghwan Lee (KAIST)
链接：https://www.aminer.cn/pub/5f7fdd328de39f0828398098?conf=neurips2020

[173]. Adaptive Discretization for Model-Based Reinforcement Learning
作者: Sean Sinclair (Cornell University) · Tianyu Wang (Duke University) · Gauri Jain (Cornell University) · Siddhartha Banerjee (Cornell University) · Christina Yu (Cornell University)
链接：https://www.aminer.cn/pub/5efef90a91e011ea6db8dcc9?conf=neurips2020

[174]. Stateful Posted Pricing with Vanishing Regret via Dynamic Deterministic Markov Decision Processes
作者: Yuval Emek (Technion - Israel Institute of Technology) · Ron Lavi (Technion) · Rad Niazadeh (Chicago Booth School of Business) · Yangguang Shi (Technion - Israel Institute of Technology)
链接：https://www.aminer.cn/pub/5f7fdd328de39f082839809c?conf=neurips2020

[175]. Provably Good Batch Off-Policy Reinforcement Learning Without Great Exploration
作者: Yao Liu (Stanford University) · Adith Swaminathan (Microsoft Research) · Alekh Agarwal (Microsoft Research) · Emma Brunskill (Stanford University)
链接：https://www.aminer.cn/pub/5f7fdd328de39f082839809f?conf=neurips2020

[176]. Off-Policy Interval Estimation with Lipschitz Value Iteration
作者: Ziyang Tang (UT Austin) · Yihao Feng (UT Austin) · Na Zhang (Tsinghua University) · Jian Peng (University of Illinois at Urbana-Champaign) · Qiang Liu (UT Austin)
链接：https://www.aminer.cn/pub/5f7fdd328de39f08283980bf?conf=neurips2020

[177]. Provably adaptive reinforcement learning in metric spaces
作者: Tongyi Cao (University of Massachusetts Amherst) · Akshay Krishnamurthy (Microsoft)
链接：https://www.aminer.cn/pub/5ef0816891e0112aee042a1c?conf=neurips2020

[178]. Stochastic Latent Actor-Critic: Deep Reinforcement Learning with a Latent Variable Model
作者: Alex Lee (UC Berkeley) · Anusha Nagabandi (UC Berkeley) · Pieter Abbeel (UC Berkeley & covariant.ai) · Sergey Levine (UC Berkeley)
链接：https://www.aminer.cn/pub/5d1b2f673a55ac071793c87e?conf=neurips2020

[179]. Inverse Reinforcement Learning from a Gradient-based Learner
作者: Giorgia Ramponi (Politecnico di Milano) · Gianluca Drappo (Politecnico di Milano) · Marcello Restelli (Politecnico di Milano)
链接：https://www.aminer.cn/pub/5f102be091e01168a7d6fd81?conf=neurips2020

[180]. Efficient Planning in Large MDPs with Weak Linear Function Approximation
作者: Roshan Shariff (University of Alberta) · Csaba Szepesvari (DeepMind / University of Alberta)
链接：https://www.aminer.cn/pub/5f0d8a4891e011047aff9912?conf=neurips2020

参考文献：
https://neurips.cc/Conferences/2020/
https://www.aminer.cn/conf/neurips2020

你可能感兴趣的:(AMiner会议论文推荐,自然语言处理,神经网络,机器学习,深度学习,数据挖掘)

今日头条极速版邀请码填多少-2024今日头条极速版好友邀请码填写步骤解析（大全）桃朵十三
嘿，小伙伴们，你们还在为找不到好的新闻阅读软件而烦恼吗？2024推荐填今日头条极速版邀请码：【1712201738】或【1599762938】或【1451455648】今天我要给你们推荐一款超级棒的软件——今日头条极速版免费版！这款软件每天都会更新超赞的文章内容，让你大饱眼福。不仅如此，它还提供了各大模块内容的榜单，让你第一时间掌握热点资讯。最厉害的是，今日头条极速版好友邀请码有155204293
Unet源码实现（pytorch） wyn20001128 pytorch 人工智能 python
U-Net是一种用于生物医学图像分割的卷积神经网络架构。它通过引入一种新颖的网络结构和训练策略解决了传统方法在数据量不足时面临的挑战。U-Net的主要思想是利用数据增强技术来高效利用有限的标注样本，并通过独特的网络设计来提高分割精度。主要贡献U-Net的主要贡献包括：1、数据增强策略：使用随机弹性变形和其他形式的数据增强来增加训练数据的多样性，从而在有限的数据集上训练出更强大的模型。2、U形网络结
深度学习模块实践手册（第十二期）加油吧zkf 目标检测目标检测模块解析与实践深度学习人工智能计算机视觉目标检测 python
56、Ghost模块论文《GhostNet:MoreFeaturesfromCheapOperations》1、作用：Ghost模块是一种轻量级的特征提取模块，旨在通过廉价操作生成更多特征图，减少计算量的同时保持模型性能。传统卷积神经网络在生成特征图时存在大量冗余计算，Ghost模块通过将特征图生成过程分解为两个步骤，有效减少了计算复杂度，特别适合移动端和嵌入式设备部署。2、机制Ghost模块的机
2021-03-03 宇娟_ab03
2021.3.3日今天的推荐人培训，很有收获啊！说实话在共好这么长时间，一直没有说刻意的培训过，都是家长们口碑相传。我们几位老师也没有接受过营销相关的培训，所以今天闺蜜分享的陌生人沟通成交和师妹的总结以及现场打电话实操，看似很简单，但其实很有挑战，如果换做是我，我会怎么说呢？要好好总结，向她们学习。今天下午在陌生地方和陌生人话多了，心为物役了，以后多注意。
算法工程师必看！个性化信息流推荐算法系统的架构设计与优化实战指南
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】推荐算法系统实战全系列精品课【陈敬雷】文章目录推荐算法系统系列二算法工程师必看！个性化信息流推荐算法系统的架构设计与优化实战指南更多技术内容总结推荐算法系统系列二算
DETR革命：目标检测的Transformer时代加油吧zkf 目标检测 YOLO python 开发语言人工智能图像处理
《DETR从0到1：目标检测Transformer的崛起》为什么会有DETR？在深度学习目标检测发展史上，2014~2019年几乎被基于卷积神经网络（CNN）的检测器统治：两阶段：FasterR-CNN、MaskR-CNN单阶段：YOLO、SSD、RetinaNet这些检测器虽然效果强大，但背后依赖：✅Anchor（先验框）✅NMS（非极大值抑制）✅特征金字塔、手工设计问题：结构复杂、调参困难、不
明天就是38女王节，你准备好“剁手”了吗？简笙
图片发自App不得不说，现在网店的营销水平比实体店的强太多了。无人不知无人不晓的“双十一”，已经成为了大部分人囤货和大抢购的重要日子。据传，去年双十一当日，阿里巴巴的成交额达到了2135亿元。就一个手机大小的屏幕里，可以轻松堆放下不同行业不同产品的广告，各种优惠券，各种明星的代言与推荐，能轻松地搜到自己想要的东西，还不用担心取货地点方不方便......正是因为有这么多的优势加在一起，才使得网上购物
中国历史上最有气魄的四首词（三）亦姝儿
忆秦娥娄山关毛泽东西风烈，长空雁叫霜晨月。霜晨月，马蹄声碎，喇叭声咽。雄关漫道真如铁，而今迈步从头越。从头越，苍山如海，残阳如血。【赏析】一九三五年一月十六日至十八日，遵义会议开了三天，随后红军就经娄山关北上四川，想和张国焘的红四方面军会合。二月五日，毛泽东当机力断，决定放弃和张国焘会合的这一长征初始目标，回贵州攻打战斗力薄弱的黔军。这是长征途中的最重大的战略转折。彭德怀亲自带兵以急行军在二月二十
【教育随笔】新课改下的一点尝试 40dcae6a8986
伊川县直中学周粉霞推荐新教材的全新理念是:“在生活中体验，在体验中感悟，在感悟中成长”。这就要求教师在思想品德课教学中，注意观察生活，积累经验，从日常生活的事例入手，把课堂教学与生活实践结合起来，构建学生感兴趣的生活课堂。把生活世界提供给学生去体验，让学生在体验生活的过程中掌握知识，发展能力，培养情感。为此，我做了以下小小的尝试：一、从生活小节入手，引入课堂教学“好的开头是成功的一半”。要把学生引
2018-08-06 敖成红生活记录
【0806能量按钮】7425-溪山推荐人：二连老铁2192-鹏娟其实对于没有太多钱的年轻人而言，真正有复利效应的不是年化10%的收益，因为在起步期，你的投资利率其实可以非常高。你把1万元钱投入个人的学习、自我成长、能力提升等方面，带来的年化收益可能是5000%；而买年化10%的理财产品，一年也不过1000元。这个帐不好算吗？什么时候你才应该把钱投资到理财产品上呢？当你的收入扣除生活成本和自我成长之
基于探路者算法优化的正则化极限学习机(RELM)的分类问题求解
基于探路者算法优化的正则化极限学习机(RELM)的分类问题求解文章目录基于探路者算法优化的正则化极限学习机(RELM)的分类问题求解1.RELM原理2.分类问题求解3.基于探路者算法优化的RELM4.实验结果5.Matlab代码1.RELM原理极限学习机(ELM)具有训练速度快、泛化性能好的优点。极限学习机的结构是一种典型的单隐层前馈神经网络(SLFN)。极限学习机的结构见图RELM算法：若NNN
新闻资讯|基于springboot的新闻资讯系统设计与实现(附项目源码+论文+数据库） code.song spring boot 数据库后端
私信或留言即免费送开题报告和任务书（可指定任意题目）目录一、摘要二、相关技术三、系统设计四、数据库设计五、核心代码六、论文参考七、源码获取一、摘要传统信息的管理大部分依赖于管理人员的手工登记与管理，然而，随着近些年信息技术的迅猛发展，让许多比较老套的信息管理模式进行了更新迭代，文章信息因为其管理内容繁杂，管理数量繁多导致手工进行处理不能满足广大用户的需求，因此就应运而生出相应的新闻资讯系统。本新闻
LeetCode第337题_打家劫舍III @蓝莓果粒茶算法 leetcode 算法职场和发展 c#学习
LeetCode第337题：打家劫舍III文章摘要本文详细解析LeetCode第337题"打家劫舍III"，这是一道中等难度的二叉树动态规划问题。文章提供了基于深度优先搜索和动态规划的解法，包含C#、Python、C++三种语言实现，配有详细的算法分析和性能对比。适合想要提升二叉树和动态规划能力的程序员。核心知识点：二叉树、动态规划、深度优先搜索难度等级：中等推荐人群：具有基础数据结构知识，想要提
不用交钱的手机兼职一单一结(直接用手机赚零花方法有这些) 氧惠评测
正规不用交钱的手机挣钱app(直接用手机赚零花方法有这些)。现在能够操作的手机挣钱项目非常多，有大量正规免费项目可做，小编建议大家操作那些正规不用交钱的手机挣钱项目，其实正规靠谱的手机赚钱项目都是不用交钱的。赚钱可以让人快乐翻倍！推荐无门槛零投资一个人创业项目！氧惠（全网优惠上氧惠）——是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面，送1:1超级补贴(邀请好友自购多少
科普高仿lv邮差包在哪里买,推荐最好的4个渠道潮奢之家
全网最低，质量最好，一手货源的原版，广州奢包汇是你的的选择。团队直接和工厂对接，原厂正品定制板开通，支持图纸咨询！主营各种原单:鞋、包、衣服、手表、首饰、皮带等类型的复制品拒绝看一眼，只做顶级品质的复制品！团队整合资源，对接大工厂原版定制开模未达95%不出货，可以任意对比，支持7天包退。经营承诺:同款同版，市面同版，品质同品。更多详情加薇信了解：88195525高仿lv邮差包在哪里买,推荐最好的4
深度学习模块实践手册（第十一期）加油吧zkf 目标检测目标检测模块解析与实践深度学习人工智能计算机视觉目标检测 python
46、缩放点积注意力模块论文《AttentionIsAllYouNeed》1、作用：缩放点积注意力（ScaledDot-ProductAttention）是Transformer模型的核心组件，旨在解决序列建模中长距离依赖关系捕捉的问题。传统的循环神经网络（RNN）在处理长序列时存在梯度消失或爆炸的问题，且并行性较差。该模块通过计算查询（Query）、键（Key）和值（Value）之间的相似度，实
【实用工具】OBS Studio（用于视频录制、直播推流、虚拟摄像头）晴雨日记安装日记音视频实时音视频
OBSStudio是一款非常强大且免费开源的软件，主要用于视频录制、直播推流、虚拟摄像头。它在游戏直播、教学录制、视频会议、演示制作等领域非常流行。一、OBSStudio介绍核心功能：直播推流：将你的电脑屏幕、摄像头画面、游戏画面、音频等内容实时推送到Twitch,YouTube,Bilibili,斗鱼,虎牙,抖音直播伴侣(需配合虚拟摄像头)等主流直播平台。视频录制：高质量录制你的屏幕、特定窗口、
宋秋玲爱自己第209天（3月12日）分享：心理学宋秋玲
1、约练：上午跟三位老师一起捉对练习，我是观察员。辅导老师徐徐引导，一步步进行引导和探索，感觉她内心很稳很笃定，最后案主的困惑得以减缓，效果很好。2、会议：练习结束后紧接着就是小组会议，组长说明了推广段老师直播课程的具体计划和方法，动员大家积极传播。这确实是个超级实惠又有效的课程，大家都马上行动，转发朋友圈并推荐给好友，我也参与其中，推荐给了十几个朋友。3、开营：中午一点举行了网上开课前的说明仪式
没有一技之长可以做什么副业赚钱？以下6个副业值得推荐！高省APP
这是我第n篇关于副业的推荐文章。以前大家总说分享的内容很难，没有一技之长的人很难做。今天，小编将分享小白可以轻松完成的五项兼职。大家可以试试。1、社交导购电商社导购电商高省APP是当下最值得年轻人去尝试创业的一种零成本创业模式，无货源无售后操作模式，很多小伙伴不知道怎么做，可以用来抖音快速短视频直播带货，可以地摊进货赚佣金，也可以做微信羊毛群，捡漏群，社群团购等多种赚钱方法就算你不用这个平台赚佣金
大模型或多模态在能源系统优化调度中的应用 u013250861 LLM 能源人工智能
1.大模型在电力调度中的应用GAIA-电力调度大语言模型项目描述:专为电力调度设计的大语言模型，能够处理运行调整、运行监控和黑启动等任务技术特点:基于LLaMA2微调，专门针对电力系统领域优化论文:“Alargelanguagemodelforadvancedpowerdispatch”(NatureScientificReports,2025)GitHub:暂未公开源代码，但论文中提到了完整的技
适合宝妈做的副业有哪些？配音新手圈
选择成为一位全职妈妈，需要巨大的勇气和决心，一方面是带宝宝非常的辛苦，还要操持家务，另一方面是放弃赖以生存的工作，兼职副业推荐公众号，配音新手圈，声优配音圈，新配音兼职圈，配音就业圈，鼎音副业，有声新手圈，每天更新各种远程工作与在线兼职，职位包括：写手、程序开发、剪辑、设计、翻译、配音、无门槛、插画、翻译、等等。。。每日更新兼职。把自身的抗风险能力降到很低的水平线，我个人的观点是作为一个全职妈妈是
邀请开通苏宁会员的返利？苏宁返利app哪个好日常购物小技巧
大家好，我是花桃APP商品推荐官：美美，今天给各位说说邀请开通苏宁会员的返利？苏宁返利app哪个好说【苏宁易购返利】之前给大家推荐一款返利APP，【全网返利最高哦!可以对比一下自己在用的返利软件】都是有内部返利和优惠券的，应用商店搜索下载花桃APP即可查询返利佣金。【官方邀请码：111111】目前的话苏宁易购返利平台最高的就是【花桃APP】，花桃APP属于温州花桃网络科技有限公司旗下，是国内首家和
莆田鞋在哪里买，推荐八个渠道美表之家
莆田鞋在哪里买，推荐八个渠道莆田鞋品质一马当先，价格高低有致，口碑傲视群芳，真的是一枝独秀显风采，一骑绝尘独精神。对于这样的莆田鞋又有谁不深怜多爱呢？自然买鞋就是水到渠成的事，那么莆田鞋在哪个平台买比较好？美鞋之家横眉冷对千夫指，俯首甘为孺子牛，尽心竭力地给你科普。详细咨询VX→a43974买莆田鞋在哪买比较好1、微商上购买，做莆田鞋微商代理的人群非常多，价格也比较实惠，但是也难免遇见高价卖的微商
2023-02-06 谦谦有益
刘明颜Clare和彭智在微信上的聊天记录如下，请查收。—————2021-10-01—————名言姐-训练营2期-北京三不沾18:07没事，我推荐的都是付费的[呲牙]上了价值传递训练营的，名言姐-训练营2期-北京三不沾18:07你找一下付费同读一本书的。彭智18:16我今天在博物馆看到导游跟领导一起坐电梯。当电梯门开了时，导游一直扶（挡着）着电梯口。通过这个细节，让我学了细心[呲牙]，下次我要用。
【深度强化学习】MIP-DQN 实现案例（完整Python代码）
目录MIP-DQN算法概述建模基础训练阶段（Training）部署阶段（OnlineExecution）DNN网络转化为MIP表达式性能指标完整Python代码实现主函数：random_generator_battery模型函数：MIP_DQN基础/专用库包安装模型运行（完整Python代码）参数设置函数：Parameters参考本博客根据论文《Optimalenergysystemschedul
【DL经典回顾】激活函数大汇总（四）（Softmax & Softplus附代码和详细公式）夺命猪头 python 机器学习人工智能神经网络 numpy
激活函数大汇总（四）（Softmax&Softplus附代码和详细公式）更多激活函数见激活函数大汇总列表一、引言欢迎来到我们深入探索神经网络核心组成部分——激活函数的系列博客。在人工智能的世界里，激活函数扮演着不可或缺的角色，它们决定着神经元的输出，并且影响着网络的学习能力与表现力。鉴于激活函数的重要性和多样性，我们将通过几篇文章的形式，本篇详细介绍两种激活函数，旨在帮助读者深入了解各种激活函数的
下班后做手机兼职刚刚好,天冷的时候可以在家兼职手机聊天员赚钱平台
我之前也提到过，很多晚班的兼职工作并不太划算，小时工资也不超过30元。仅仅努力工作是不够的。选择正确的方向也是非常重要的。因此，我推荐租车和跑快车的做法。当然，也有一定的局限性。一些网民不会开车，也不愿意放弃1W的押金。给大家推荐一个陪聊赚米项目叭，正规陪聊项目，网易云旗下大平台，无任何费用，下方有微信二维码，可扫码了解，也可点击链接，联系我们了解：https://www.jianshu.com/
神经网络项目--基于FPGA的AI简易项目（1-9图片数字识别）霖12 深度学习 pytorch 神经网络 fpga开发人工智能机器学习
1.训练MNIST模型importtorch#导入pytorch核心库importtorch.nnasnn#神经网络模块，如卷积层importtorch.optimasoptim#优化器fromtorchvisionimportdatasets,transforms#数据集与图像预处理工具#定义CNN模型classSimpleCNN(nn.Module):#PyTorch库中所有神经网络的“基础模
基于NanoDet的健身姿势纠正系统开发 YOLO实战营人工智能 NanoDet 深度学习计算机视觉 ui
1.引言在现代健身行业中，正确的运动姿势至关重要，不仅能提升训练效果，还能预防运动损伤。尤其是在进行一些高强度的力量训练时，如深蹲、俯卧撑等，错误的姿势可能导致肌肉不平衡或关节损伤。传统的健身姿势纠正方式依赖教练的人工指导，但随着人工智能技术的发展，使用计算机视觉和深度学习技术来进行姿势纠正，逐渐成为一种高效且可扩展的解决方案。本文将详细介绍如何基于NanoDet（一个轻量化目标检测模型）开发一个
大模型算法工程师技术路线全解析：从基础到资深的能力跃迁 Mr.小海大模型算法数据挖掘人工智能机器学习深度学习机器翻译 web3
文章目录大模型算法工程师技术路线全解析：从基础到资深的能力跃迁一、基础阶段（0-2年经验）：构建核心知识体系与工程入门数学与机器学习基础编程与深度学习框架NLP与Transformer入门二、进阶阶段（2-4年经验）：深化模型技术与工程落地能力大模型预训练与微调技术预训练原理：数据与任务的协同设计微调工具：参数高效适配与工程优化对齐实践：价值观优化与实证效果分布式训练与框架工具并行策略：多维度协同
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri