智源社区

《强化学习周刊》第65期：Neurips2022强化学习论文推荐（5）、MIT：机器狗当守门员、具身智能与机器人研讨会...

No.65

智源社区

强化学习组

强

化

学

习

研究

观点

资源

活动

周刊订阅

告诉大家一个好消息，《强化学习周刊》已经开启“订阅功能”，以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法：

方式1：扫描下面二维码，进入《强化学习周刊》主页，选择“关注TA”。

方式2：点击本文下方的“阅读原文”，进入《强化学习周刊》Hub社区版，根据内附的详细订阅步骤，完成订阅。

关于周刊

强化学习作为人工智能领域研究热点之一，其在人工智能领域以及学科交叉研究中的突出表现，引起越来越多的研究人员对该领域的关注。为更好地服务相关研究人员及时了解强化学习领域的研究进展以及科研资讯，智源社区结合以前工作基础及读者反馈，在论文推荐基础之上新增科研资讯、学术讲座、强化学习教程、相关招聘等板块，撰写为第65期《强化学习周刊》以飨诸位。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。社区将定期为推动强化学习社群建设表现优异的同学提供精美的奖品。可以扫描文末的二维码加入强化学习社区群。

本期贡献者：李明、刘青、小胖

论文推荐

强化学习已经成为人工智能研究领域的热点，其在各个应用领域中取得了瞩目的成就。《强化学习周刊》共分四个板块，论文推荐板块继续为读者梳理了NeurIPS2022的另外12篇强化学习相关研究论文，其中涉及到鲁棒离线强化学习、分层强化学习、自主强华学习、价值函数学习在强化学习中的泛化、基于约束的强化学习方向等；科研资讯为大家分享来自MIT强势推出的机器狗当守门员研究论文，使用此框架的机器狗能够实现对快速移动的球进行各种敏捷拦截；本次招聘模块为大家推荐伊利诺伊大学香槟分校(UIUC)机器人学习实验室招收博士研究生(人工智能)，有感兴趣的同学看下面详细介绍。本次教程推荐板块为大家分享于2022年6月8日至11日在美国布朗大学召开的第五届强化学习与决策多学科会议(RLDM 2022)。会议的特点是演讲者和与会者的多学科性，跨学科对话和教学是中心目标，同时传播新颖的理论和实验结果。

NeurIPS2022(Thirty-sixth Conference on Neural Information Processing Systems,第三十六届神经信息处理系统会议)是一年一度的国际人工智能顶会，今年将在11月28日至12月9日举办，第一周在新奥尔良会议中心举行线下会议，第二周举行虚拟会议。本次周刊继续为各位读者分享12篇强化学习研究论文。

标题：You Only Live Once: Single-Life Reinforcement Learning（Stanford University : Annie S | 只此一次：单生命强化学习）了解详情

简介：强化学习算法通常设计用于学习一种性能策略，该策略可以重复、自主地完成任务，通常从零开始。然而，在许多实际情况中，目标可能不是学习可以重复执行任务的策略，而是简单地在一次试验中成功执行一项新任务。例如，想象一个救灾机器人的任务是从倒塌的建筑物中取回物品，在那里它无法得到人类的直接监督。它必须在一次测试时间内取回这个物体，并且必须在处理未知障碍物时取回，尽管它可能会利用灾难前对建筑物的了解。本文将这种问题设置形式化，并称之为单生命强化学习（SLRL。SLRL提供了一个自然的环境来研究自主适应陌生情况的挑战，研究发现，为标准情景强化学习设计的算法通常很难从这种环境下的分布外状态中恢复。基于这一观察结果，进一步提出了Q加权对抗学习（QWALE）算法，它采用了一种分布匹配策略，在新情况下利用代理的先前经验作为指导。通过对几个单寿命连续控制问题的实验表明，基于本研究的分布匹配公式的方法的成功率提高了20-60%，因为它们可以更快地从新状态中恢复。

论文链接：https://arxiv.org/pdf/2210.08863.pdf

标题：Teacher Forcing Recovers Reward Functions for Text Generation（阿尔伯塔大学:Yongchang Hao | 教师强制恢复奖励功能以生成文本）了解详情

简介：强化学习（RL）已广泛用于文本生成，以缓解暴露偏差问题或利用非并行数据集。奖励功能对RL培训的成功起着重要作用。然而，先前的奖励功能通常是特定于任务且稀疏的，限制了RL的使用。本研究提出了一种任务无关的方法，该方法直接从一个经过教师强制训练的模型中推导出一个逐步的奖励函数。此外，还提出了一个简单的修改，通过诱导奖赏函数来稳定非平行数据集上的RL训练。实验结果表明，在多个文本生成任务中，该研究方法优于自我训练和奖赏回归方法，验证了奖赏函数的有效性。

论文链接：https://arxiv.org/pdf/2210.08708.pdf

标题：First Contact: Unsupervised Human-Machine Co-Adaptation via Mutual Information Maximization（加州大学伯克利分校：Siddharth Reddy | 第一次接触：通过相互信息最大化实现无监督的人机协同适应）了解详情

简介：如何训练辅助人机界面（例如，基于肌电图的假肢），将用户的原始命令信号转换为机器人或计算机的动作？本文的关键思想是，无论任务是什么，当界面更直观时，用户的命令噪音更小。并将该想法形式化为完全无监督的优化接口目标：用户命令信号和环境中诱导的状态转换之间的相互信息。为了评估这种互信息评分是否能够区分有效和无效界面，本文对540K个用户操作各种键盘和眼睛注视界面进行了观察研究，用户用于打字、控制模拟机器人和玩视频游戏。结果表明，互信息得分可以预测各种领域的基本真相任务完成指标，平均Spearman秩相关为0.43。并通过随机初始化接口，让用户尝试使用界面执行他们想要的任务，测量相互信息得分，通过强化学习更新界面以最大限度地提高相互信息。对12名参与者的用户研究来评估该方法，使用扰动的鼠标执行2D光标控制任务，以及一名用户使用手势玩Lunar Lander游戏的实验。结果表明，可以在30分钟内从零开始学习界面，无需任何用户监督或事先了解任务。

论文链接：https://arxiv.org/pdf/2205.12381v2.pdf

标题：RORL: Robust Offline Reinforcement Learning via Conservative Smoothing（港科大:Rui Yang | RORL：通过保守平滑实现鲁棒离线强化学习）了解详情

简介：离线强化学习（RL）为利用大量离线数据进行复杂决策任务提供了一个很有前景的方向。由于分布移位问题，当前的离线RL算法在值估计和动作选择方面通常被设计为保守的。然而，在现实条件下，如传感器错误和对抗性攻击，当遇到观测偏差时，这种保守主义会削弱所学策略的鲁棒性。为了权衡稳健性和保守性，本文提出了鲁棒离线强化学习（RORL）和新的保守性平滑技术。在RORL中，引入了对数据集附近状态的策略和值函数的正则化，以及对这些OOD状态的额外保守值估计。理论上，研究表明RORL比线性MDP中最近的理论结果具有更紧的次优界。并证明RORL可以在一般离线RL基准上实现最先进的性能，并且对对抗性观测扰动具有相当大的鲁棒性。

论文链接：https://arxiv.org/pdf/2206.02829v2.pdf

标题：When to Ask for Help: Proactive Interventions in Autonomous Reinforcement Learning（斯坦福大学: Annie Xie|何时寻求帮助：自主强化学习中的主动干预）了解详情

简介：强化学习的一个长期目标是设计可以在世界上自主交互和学习的智能体。这种自主性的一个关键挑战是存在需要外部帮助才能恢复的不可逆状态，例如当机器人手臂将物体从桌子上推下时。虽然标准智能体需要持续监控来决定何时进行干预，但本文的目标是设计能够仅在需要时请求人工干预的主动智能体。为此，本文研究者提出了一种算法，该算法可以有效地学习检测和避免不可逆状态，并在智能体进入这些状态时主动寻求帮助。在一组具有未知不可逆状态的连续控制环境中，实验发现与现有方法相比，文中提出的算法表现出更好的样本和干预效率。

论文链接：https://arxiv.org/pdf/2210.10765.pdf

标题：Hierarchical Reinforcement Learning for Furniture Layout in Virtual Indoor Scenes（Bloo & Sea Lab: Xinhan Di, Pengqian Yu|虚拟室内场景中家具布局的分层强化学习）了解详情

简介：在现实生活中，通过设计家具布局对三维室内场景进行装饰，为人们提供了丰富的体验。在本文中，研究人员将家具布局任务作为虚拟现实中的马尔科夫决策过程（MDP）进行探讨，并通过分层强化学习（HRL）进行解决。研究者的目标是在虚拟现实的室内场景中产生一个合适的双家具布局。特别是，文中首先设计了一个模拟环境，并介绍了双家具布局的HRL公式。然后，应用一个带有课程学习的分层行为者批评算法来解决MDP。相关研究人员在一个大规模的真实世界室内布局数据集上进行了实验，该数据集包含专业设计师的工业设计。数字结果表明，此文所提出的模型与最先进的模型相比，产生了更高质量的布局。

论文链接：https://arxiv.org/pdf/2210.10431.pdf

标题：Curriculum Reinforcement Learning using Optimal Transport via Gradual Domain Adaptation（卡内基梅隆大学: Peide Huang|通过渐进域适应使用最优传输的课程强化学习）了解详情

简介：课程强化学习（CRL）的目的是创建一个任务序列，从简单的任务开始，逐渐向困难的任务学习。本文专注于将CRL构建为源（辅助）和目标任务分布之间的插值的想法。尽管现有的研究显示了这一想法的巨大潜力，但如何正式量化和生成任务分布之间的移动仍然不清楚。受半监督学习中渐进式领域适应的启发，研究者通过将CRL中潜在的大型任务分布转变分解为较小的转变来创建一个自然课程。本文提出GRADIENT，它将CRL表述为一个最优传输问题，在任务之间有一个定制的距离指标。与许多现有的方法不同，此文的算法考虑了一个与任务相关的上下文距离度量，并且能够处理连续和离散上下文环境中的非参数分布。此外，本文在理论上表明，GRADIENT在某些条件下能够在课程的后续阶段之间顺利转移。

论文链接：https://arxiv.org/pdf/2210.10195.pdf

标题：Rethinking Value Function Learning for Generalization in Reinforcement Learning（首尔大学: Seungyong Moon | 重新思考价值函数学习在强化学习中的泛化）了解详情

简介：研究人员专注于在多个训练环境中训练 RL智能体以提高观察泛化性能的问题。在现有方法中，策略网络和价值网络分别使用不相交的网络架构进行优化，以避免干扰并获得更准确的价值函数。本文研究者发现，与传统的单环境设置相比，多环境设置中的价值网络更难优化，并且更容易过度拟合训练数据。此外，研究人员发现需要对价值网络进行适当的正则化才能获得更好的训练和测试性能。为此，本文提出了延迟批评策略梯度（DCPG），它通过使用比策略网络更多的训练数据更频繁地优化价值网络来隐式惩罚价值估计，这可以使用共享网络架构来实现。此外，本文研究者引入了一个简单的自我监督任务，该任务使用单个鉴别器学习环境的正向和反向动态，可以与价值网络联合优化。实验表明本文提出的算法显著提高了 Procgen基准测试中的观察泛化性能和样本效率。

论文链接：https://arxiv.org/pdf/2210.09960.pdf

标题：CEIP: Combining Explicit and Implicit Priors for Reinforcement Learning with Demonstrations（伊利诺伊大学厄巴纳-香槟分校: Kai Yan|CEIP：结合显式和隐式先验与演示进行强化学习）了解详情

简介：尽管强化学习在密集奖励环境中得到了广泛应用，但训练具有稀疏奖励的自主智能体仍然具有挑战性。为了解决这一困难，以前的研究表明，当不仅使用特定任务的演示，而且使用与任务无关的演示（尽管有点相关）时，结果是有希望的。在大多数情况下，可用的演示被提炼为隐式先验，通常通过单个深层网络表示。可以查询的数据库形式的显式先验也已被证明能带来令人鼓舞的结果。为了更好地利用现有的演示，本文提出了一种结合显式和隐式先验（CEIP）的方法。CEIP以并行规范化流的形式利用多个隐式先验来形成单个复杂先验。此外，CEIP使用有效的显式检索和前推机制来调节隐式先验。在三个具有挑战性的环境中，本文提出的CEIP方法可以改进复杂的最先进方法。

论文链接：https://arxiv.org/pdf/2210.09496.pdf

标题：Data-Efficient Pipeline for Offline Reinforcement Learning with Limited Data（斯坦福大学: Allen Nie|有限数据离线强化学习的数据高效管道）了解详情

简介：离线强化学习 (RL) 可用于通过利用历史数据来提高未来的性能。离线 RL 存在许多不同的算法，这些算法及其超参数设置可以导致具有显着不同性能的决策策略。这提示需要管道，允许研究人员系统地为其设置超参数。在大多数现实世界的环境中，这个管道必须只涉及历史数据的使用。受监督学习的统计模型选择方法的启发，本文引入了与任务和方法无关的管道，用于在提供的数据集大小有限时自动训练、比较、选择和部署最佳策略。特别是，本文的方法强调了执行多个数据拆分以产生更可靠的算法超参数选择的重要性。实验表明，当数据集较小时，它会产生重大影响。与替代方法相比，本文提出的管道从广泛的离线策略学习算法以及医疗保健、教育和机器人技术的各种模拟领域输出性能更高的部署策略。这项工作有助于开发用于离线 RL 的自动算法超参数选择的通用元算法。

论文链接：https://arxiv.org/pdf/2210.08642.pdf

标题：The Impact of Task Underspecification in Evaluating Deep Reinforcement Learning（麻省理工学院: Vindula Jayawardana|任务不规范对评估深度强化学习的影响）了解详情

简介：深度强化学习 (DRL) 方法的评估是该领域科学进步的一个组成部分。除了为通用智能设计 DRL 方法之外，设计特定于任务的方法在现实世界的应用中变得越来越重要。在这些设置中，标准评估实践涉及使用马尔可夫决策过程 (MDP) 的一些实例来表示任务。然而，由于底层环境的变化，许多任务会引发大量的 MDP，尤其是在现实世界中。例如，在交通信号控制中，变化可能源于交叉口的几何形状和交通流量水平。因此，选择的 MDP 实例可能会无意中导致过度拟合，缺乏统计能力来得出关于该方法在整个家族中的真实性能的结论。本文中增加了 DRL 评估以考虑 MDP 的参数化家族。与在选定的 MDP 实例上评估 DRL 方法相比，评估 MDP 系列通常会产生截然不同的方法相对排名，从而怀疑哪些方法应该被视为最先进的方法。作者在标准控制基准和交通信号控制的实际应用中验证了这一现象。

论文链接：https://arxiv.org/pdf/2210.08607.pdf

标题：When to Update Your Model: Constrained Model-based Reinforcement Learning（清华大学: Tianying Ji|何时更新模型：基于约束的强化学习）了解详情

简介：设计和分析具有保证单调改进的基于模型的 RL (MBRL) 算法一直具有挑战性，这主要是由于策略优化和模型学习之间的相互依赖关系。现有的差异界限通常忽略模型变化的影响，并且其相应的算法容易因模型的剧烈更新而降低性能。本文首先提出了一种新颖且通用的理论方案，用于保证 MBRL 的非递减性能。后续派生的界限揭示了模型转变和性能改进之间的关系。作者制定一个受约束的下界优化问题，以允许 MBRL 的单调性。另一个例子表明，从动态变化的探索次数中学习模型有利于最终的回报。受这些分析的启发，本文设计了一个简单但有效的算法 CMLO（约束模型转移下界优化），通过引入一个事件触发机制来灵活地确定何时更新模型。实验表明，CMLO 超越了其他最先进的方法，并在采用各种策略优化方法时产生了提升。

论文链接：https://arxiv.org/pdf/2210.08349.pdf

科研资讯

标题：机器狗当守门员，成功拦截多种快球了解详情

简介：Mini Cheetah 是 MIT 在 2019 年研发的四足机器人（机器狗），来自加州大学伯克利分校等机构的研究者为 Mini Cheetah 部署了一个新的强化学习框架，让它完成足球守门任务，守门成功率高达 87.5%。使用机器狗当足球守门员是一个具有挑战性的问题，它将高度动态的运动与精确和快速的非抓握物体（球）操纵相结合。机器狗需要在很短的时间内（通常不到一秒）使用动态运动机动对潜在的飞行球做出反应并拦截。本文研究者使用分层无模型 RL 框架来解决这个问题。该框架的第一个组件包含针对不同运动技能的多个控制策略，可用于覆盖目标的不同区域。然后，这些技能被框架的第二部分使用，以确定所需的技能和末端执行器轨迹，来拦截飞向目标不同区域的球。使用此框架的机器狗能够实现对快速移动的球进行各种敏捷拦截。

资讯链接：https://arxiv.org/pdf/2210.04435.pdf

招聘信息

标题：伊利诺伊大学香槟分校(UIUC)机器人学习实验室招收博士研究生(人工智能)了解详情

简介：伊利诺伊大学香槟分校(UIUC)机器人学习(Robot Learning)实验室将于2023年秋季成立。实验室会主要关注机器人学习这个大方向，希望能帮助机器人更好的感知周围的环境以及和物理世界进行交互，涉及到机器人学(Robotics)、计算机视觉(Computer Vision)、机器学习(Machine Learning)等领域的交叉。

具体方向：1. 具身人工智能(Embodied Intelligence)，主要探讨机器人在复杂的多任务场景中的泛化能力，以及从模拟器到真实世界的转化；2.多模态感知(Multi-Modal Perception)，主要关注视觉、触觉、听觉、甚至语言如何帮助机器人提升和实现更加精细和多样的操作任务；3.基于学习的动力系统建模(Intuitive Physics, or Learning-Based Dynamics Modeling)，具体会关注具有复杂物理特性的物品的动力学建模、工具使用(Tool-Using)以及更宏观的多步操作任务。

招聘链接：https://grad.illinois.edu/admissions/apply

教程推荐

标题：第五届强化学习与决策多学科会议了解详情

简介：第五届强化学习与决策多学科会议(RLDM 2022)于2022年6月8日至11日在美国布朗大学召开。强化学习和决策一直是大量研究的焦点，这些研究跨越了广泛的领域，包括心理学、人工智能、机器学习、运筹学、控制理论、动物和人类神经科学、经济学和行为学。该领域许多发展的关键是跨学科分享想法和发现。RLDM 的目标是为所有对“为实现目标而不断学习和决策”感兴趣的研究人员提供一个交流平台。会议的特点是演讲者和与会者的多学科性，跨学科对话和教学是中心目标，同时传播新颖的理论和实验结果。

教程链接：https://rldm.org/

观点分享

标题：打造有身体的 AI丨记青源Workshop具身智能与机器人研讨会

了解详情

简介：「青源Workshop」是智源研究院发起的青源会系列闭门研讨，鼓励参会者“合作 · 探索 · 实践”——探讨关于未来研究、系统、创业话题的合作设想、工作规划、协作倡议。

2022年10月9日，本年度第8期「具身智能与机器人」主题活动召开，北京大学王鹤、清华大学眭亚楠、谷歌大脑团队夏斐在会上作了关于 Sim2Real、具身智能在人体运动恢复、基于语言视觉模型规划的具身推理等话题的引导报告。30余位学者参与了本次讨论，智源社区将本次活动报告与讨论公开部分的主要内容进行了整理。

如果你正在从事或关注强化学习研究、实现与应用，欢迎加入“智源社区-强化学习-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴

扫描下方二维码，加入强化学习兴趣群。

心理健康语音分析AI模型：开启心理评估新时代 AI大模型应用实战人工智能语音识别 ai
心理健康语音分析AI模型：开启心理评估新时代关键词：心理健康评估、语音信号处理、情感计算、AI模型、多模态融合摘要：传统心理评估依赖量表问卷和人工观察，存在主观性强、效率低、难以实时监测等局限。本文将带您走进“心理健康语音分析AI模型”的世界，从基础概念到核心技术，从算法原理到实战案例，揭秘AI如何通过“听声音”读懂心理状态，开启心理评估的智能化新时代。背景介绍目的和范围心理健康问题已成为全球公共
Python 领域 pytest 的测试用例的可维护性设计
Python领域pytest的测试用例的可维护性设计关键词：pytest、测试用例、可维护性、测试框架、自动化测试、测试设计模式、重构摘要：本文深入探讨了如何在Python测试框架pytest中设计可维护的测试用例。我们将从测试用例可维护性的核心原则出发，分析pytest的特性和最佳实践，介绍多种提高测试代码可维护性的设计模式和技巧。文章包含实际代码示例、项目实战案例以及可维护性评估指标，帮助开发
【AI大模型】深入解析预训练：大模型时代的核心引擎我爱一条柴ya 学习AI记录深度学习人工智能 ai python AI编程算法
预训练已成为现代人工智能，尤其是自然语言处理和计算机视觉领域的基石技术。它彻底改变了模型开发范式，催生了BERT、GPT等革命性模型。本文将系统阐述预训练的核心概念、原理、方法、应用及挑战。一、预训练的本质：为何需要它？核心问题：数据标注的瓶颈监督学习依赖海量高质量标注数据，获取成本极高（时间、金钱、专业知识）。对于复杂任务（如理解语义、生成文本），标注难度呈指数级上升。标注数据稀缺导致模型泛化能
MySQL存储结构深度解析：Buffer Pool与Page管理 hdzw20 mysql复习 mysql 数据库
MySQL存储结构解析：BufferPool与Page管理在MySQL的InnoDB存储引擎中，BufferPool是其核心组件之一，它极大地提升了数据库的性能。理解BufferPool的内部结构和工作机制，对于优化MySQL数据库至关重要。本文将讨论BufferPool的结构、三大链表、改进型LRU算法以及ChangeBuffer机制。1.BufferPool结构：控制块与缓存页BufferPo
广州曼顿2P数字微断：保护电力设备的安全守护者 mdkk678 安全
在现代社会，电力设备的安全运行对各行各业至关重要。然而，电力系统中存在各种电压波动、过载和短路等问题，可能对设备造成损害。为了保护电力设备免受这些问题的影响，广州曼顿推出了2P数字微断器。本文将介绍这一创新产品的特点和优势，以及它对电力设备的保护作用。广州曼顿科技有限公司专注用户侧智慧数字电气产品研制，以及智慧电能服务大数据云平台建设。基于人工智能技术，大幅提升人触电时的生命安全保障，以及电气火灾
Python爬虫小白入门指南，成为大牛必须经历的三个阶段
学习任何一门技术，都应该带着目标去学习，目标就像一座灯塔，指引你前进，很多人学着学着就学放弃了，很大部分原因是没有明确目标，所以，一定要明确学习目的，在你准备学爬虫前，先问问自己为什么要学习爬虫。有些人是为了一份工作，有些人是为了好玩，也有些人是为了实现某个黑科技功能。不过可以肯定的是，学会了爬虫能给你的工作提供很多便利。小白入门必读作为零基础小白，大体上可分为三个阶段去实现。第一阶段是入门，掌握
python 包管理工具uv
uv--versionuvpythonfinduvpythonlistexportUV_DEFAULT_INDEX="https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple"#换成私有的repoexportUV_HTTP_TIMEOUT=120uvpythoninstall3.12uvvenvmyenv--python3.12--seeduvhtt
Python通关秘籍之基础教程(一） Smile丶Life丶 Python 通关指南：从零基础到高手之路 python 开发语言后端
引言在编程的世界里，Python就像一位温和而强大的导师，它以简洁优雅的语法和强大的功能吸引着无数初学者和专业人士。无论你是想开发网站、分析数据、构建人工智能，还是仅仅想学习编程思维，Python都是你的理想选择。Python的魅力在于它的易读性和广泛的应用场景。它的代码就像英语句子一样自然，即使是完全没有编程经验的人也能快速上手。同时，Python拥有庞大的生态系统，从Web开发（Django、
Python 包管理工具（uv） cliffordl python python uv 开发语言
Python虚拟环境（conda）Python虚拟环境（venv）Python包管理工具（uv）文章目录1.uv的特点2.安装uv2.1.使用官方推荐方式2.2.使用pip安装（Python>=3.8）2.3.使用conda/mamba安装3.基本使用方法3.1.初始化项目并创建虚拟环境3.1.1.CMD运行结果3.1.2.VScode运行结果3.2.安装依赖3.3.生成依赖文件3.4.使用pyp
Python协程从入门到精通：9个案例解析yield、gevent与asyncio实战 python_chai Python python 开发语言协程并发 yield生成器 gerrnlet gevent
引言痛点分析：传统多线程在高并发场景下的性能瓶颈。协程优势：轻量级、高并发、低资源消耗。本文目标：通过9个代码案例，系统讲解协程的核心技术和应用场景。目录引言1.协程基础：理解yield生成器1.1yield的暂停与恢复机制1.2生产者-消费者模型实战1.3双向通信：send()方法详解2.手动协程控制：greenlet进阶2.1greenlet的显式切换原理2.2多任务协作案例3.自动化协程：g
多模态大模型发展全景：从架构创新到应用突破陈敬雷-充电了么-CEO兼CTO python 大模型多模态大模型 AIGC 机器学习深度学习 DeepSeek
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】《GPT多模态大模型与AIAgent智能体》新出书籍配套视频【陈敬雷】推荐算法系统实战全系列精品课【陈敬雷】文章目录GPT多模态大模型系列四多模态大模型发展全景：从架构创新到应用突破更多技术内容总结GPT多模态大模型系列四多模态大模型
Python爬虫在社交平台数据挖掘中的应用：深入探索用户互动程序员威哥 python 爬虫数据挖掘
引言社交媒体已经成为全球用户互动的主要平台，每天都有大量的信息生成，用户之间的互动行为如点赞、评论、分享、转发等构成了宝贵的数据资源。如何利用这些互动数据为商业决策、用户行为分析以及产品优化提供支持，已经成为数据科学与大数据分析领域的一个重要课题。Python作为一款强大的编程语言，凭借其丰富的爬虫库和数据分析工具，已经成为挖掘社交平台数据的重要工具。在本文中，我们将通过Python爬虫技术，深入
Python 爬虫实战：精准抓取母婴电商平台数据，深入分析用户评价洞察市场趋势程序员威哥最新爬虫实战项目 python 爬虫开发语言
前言随着生活水平的提高，越来越多的年轻父母开始关注母婴产品的质量和品牌。而母婴电商平台成为了他们选择和购买产品的主要渠道之一。母婴产品市场也因此变得异常活跃且充满竞争。在这样的市场环境下，用户评价不仅反映了产品的实际质量，也揭示了消费者的需求和偏好，成为品牌决策的核心依据之一。Python爬虫是获取电商平台用户评价数据、产品详情、价格等关键信息的强大工具。通过抓取和分析这些数据，品牌商可以实时了解
*Python爬虫应用：从社交媒体数据中提取有价值的用户行为洞察程序员威哥 python 爬虫媒体
引言在现代数字化时代，社交媒体已成为获取用户行为数据的重要来源。每秒钟，数百万条信息在平台上传播，用户的互动行为——点赞、评论、分享、关注等，构成了大量宝贵的行为数据。企业和个人通过分析这些数据，不仅可以理解用户需求、改进产品，还能精准制定营销策略。然而，如何高效地抓取、分析并从中提取有价值的用户行为洞察？这正是Python爬虫和数据分析技术的优势所在。本文将介绍如何利用Python爬虫从社交媒体
Python异步编程终极指南：用协程与事件循环重构你的高并发系统
title:Python异步编程终极指南：用协程与事件循环重构你的高并发系统date:2025/2/24updated:2025/2/24author:cmdragonexcerpt:深入剖析Python异步编程的核心机制。你将掌握：\n事件循环的底层实现原理与调度算法\nasync/await协程的6种高级用法模式\n异步HTTP请求的性能优化技巧（速度提升15倍+）\n常见异步陷阱的26种解决
python 异步编程：协程与 asyncio 花_城 Python 开发语言后端异步协程
文章目录一、协程（coroutine）1.1协程的概念1.2实现协程的方式二、asyncio异步编程2.1事件循环2.2快速上手2.3运行协程2.4await关键字2.5可等待对象2.5.1协程2.5.2任务（Task）2.5.3asyncio.Future三、concurrent.futures.Future（补充）3.1爬虫案例（asyncio+不支持异步的模块）四、asyncio异步迭代器五
突破性能瓶颈，几个高性能Python网络框架，高效实现网络应用
引言随着互联网和大数据时代的到来，高性能网络应用的需求日益增加。Python作为一种流行的编程语言，在高性能网络编程领域也具有广泛的应用。本文将深入探讨基于Python的几种高性能网络框架，分析它们各自的优势和适用场景，帮助开发者选择最适合自己需求的网络框架这里插播一条粉丝福利，如果你正在学习Python或者有计划学习Python，想要突破自我，对未来十分迷茫的，可以点击这里获取最新的Python
Python面试题：Python中的异步编程：详细讲解asyncio库的使用超哥同学 Python系列 python 开发语言面试编程
Python的异步编程是实现高效并发处理的一种方法，它使得程序能够在等待I/O操作时继续执行其他任务。在Python中，asyncio库是实现异步编程的主要工具。asyncio提供了一种机制来编写可以在单线程内并发执行的代码，适用于I/O密集型任务。以下是对asyncio库的详细讲解，包括基本概念、用法、示例以及注意事项。1.基本概念1.1协程（Coroutines）协程是一个特殊的函数，它可以被
Python 爬虫实战：如何搭建高效的分布式爬虫架构，突破数据抓取极限程序员威哥 python 爬虫分布式
随着互联网数据量的飞速增长，单一爬虫在抓取大量数据时的效率和稳定性往往无法满足需求。在这种情况下，分布式爬虫架构应运而生。分布式爬虫通过多节点并行工作，可以大大提高数据抓取的速度，同时减少单点故障的风险。本文将深入探讨如何使用Python构建一个高效的分布式爬虫架构，从架构设计到技术实现，帮助你突破数据抓取的极限。一、什么是分布式爬虫？分布式爬虫系统将爬虫任务拆分为多个子任务，分布到不同的服务器或
python程序基本架构_Python 程序基本架构尤尔小喵喵 python程序基本架构
Python的一般程序基本架构为：输入，处理，输出，这三块。输入：包括两个内容，变量赋值与输入语句处理：包括算术运算，逻辑运算，算法处理这三方面输出：包括打印输出，写入文件，写入数据库这三块下面举两个例子具体了解一下Python的程序基本架构1输入：变量赋值处理：算术运算输出：打印输出x=12#变量赋值x=12y=13#变量赋值y=13z=x+y#算术运算print(z)#打印输出252输入：输入
Hanbit便携式GIS局部放电检测仪中PRPD图的绘制方法研究
Hanbit便携式GIS局部放电检测仪中PRPD图的绘制方法研究摘要本报告详细阐述了韩国HanbitPoDAS便携式GIS局部放电检测仪软件中相分辨局部放电（PRPD）图的生成方法。报告旨在阐明其技术原理、数据采集、信号处理以及分析功能，这些功能共同实现了对气体绝缘开关设备（GIS）绝缘状态的精确评估。HanbitPoDAS系统利用超高频（UHF）传感器和智能软件算法来捕获、处理并显示PRPD模式
如何让AI真正理解你的意图（自适应Prompt实战指南） nine是个工程师大语言模型人工智能 prompt
目前的LLM模型，在理解用户意图方面，正在使用自适应Prompt技术，来提升模型的理解能力。目前使用deepseek推理模型能明显看到自适应的一个过程。前言：为什么你的AI总是"答非所问"？相信很多人都遇到过这样的情况：你问：“帮我写一个Python爬虫”AI答：给你一堆理论知识和完整教程（你只想要简单代码）你问：“推荐一部电影”AI答：推荐了《教父》（你想看轻松喜剧）你问：“解释一下机器学习”A
如何创建Python工程目录九月恒心 Python python 自动测试
如何创建一个简单但是比较规范的python工程目录，本文是学习了LearnPythontheHardWay相关内容后做的一些笔记。安装python第三方包1.pipfromhttp://pypi.python.org/pypi/pip用于安装python第三方包的工具2.distributefromhttp://pypi.python.org/pypi/distribute已被弃用，是SetupT
从单体脚本到模块化设计：Python工程师的架构思维跃迁
引言：从“一团乱麻”到“乐高积木”你是否曾经打开一个Python脚本，里面密密麻麻挤着上千行代码？函数相互缠绕，全局变量随处可见，想改一个小功能却心惊胆战，生怕牵一发而动全身？这就是典型的“单体脚本”(MonolithicScript)困境。作为过来人，我深知这种痛苦。本文将手把手带你跳出这个泥潭，掌握模块化设计的核心思想，并初步建立宝贵的架构设计思维，让你的代码从“勉强运行”跃迁到“优雅可维护”
python json 反序列化-V1 CATTLECODE python json 开发语言
在编程中，‌反序列化函数‌用于将序列化后的数据（如JSON、XML等格式）重新转换为程序可操作的对象或数据结构。以下是不同语言和场景下的实现方式及特点：‌1.Python中的反序列化‌‌(1)标准库json模块‌‌json.loads()‌：将JSON字符串反序列化为Python对象（如字典、列表）。importjsonjson_str='{"name":"Alice","age":25}'dat
ollama v0.9.6版本发布详解：修复启动屏幕样式及新增工具名称参数支持福大大架构师每日一题文心一言vschatgpt ollama
作为近年来备受瞩目的开源对话式人工智能框架之一，ollama持续更新优化其产品，致力于为开发者带来更稳定、高效的使用体验。2025年7月8日，ollama发布了v0.9.6版本，这一版本在用户界面和API的可用性方面做出了重要改进，进一步增强了开发和集成的便捷性。本文将对ollamav0.9.6版本的更新内容进行全面解析，详细介绍新特性、修复的具体问题、应用示例及最佳实践，帮助开发者快速掌握和应用
AI人工智能与机器学习的大数据融合应用 AI智能探索者人工智能机器学习大数据 ai
AI人工智能与机器学习的大数据融合应用关键词：AI人工智能、机器学习、大数据、融合应用、数据挖掘摘要：本文深入探讨了AI人工智能与机器学习在大数据融合应用方面的相关内容。首先介绍了研究的背景、目的、预期读者和文档结构，对核心术语进行了清晰定义。接着阐述了AI、机器学习和大数据的核心概念及相互联系，给出了形象的文本示意图和Mermaid流程图。详细讲解了核心算法原理，并通过Python源代码进行说明
day49-ansible初体验朱包林 linux python 运维服务器云计算
1.选型工具说明缺点xshell不适应机器过多场景，需要连接后才能用for+ssh/scp+密钥认证密钥认证，免密码登录scp传输文本/脚本ssh远程执行命令或脚本串行saltstack需要安装客户端ansible无客户端（密钥认证）批量部署环境需要新python版本，被红帽收购了Terraform关注基础设施（云环境），一键创建100台云服务器，一键创建负载均衡，数据库产品2.ansible架构
深入解读 Qwen3 技术报告（一）：引言小爷毛毛（卓寿杰）大模型AIGC 深度学习基础/原理人工智能自然语言处理 python 语言模型深度学习
重磅推荐专栏：《大模型AIGC》《课程大纲》《知识星球》本专栏致力于探索和讨论当今最前沿的技术趋势和应用领域，包括但不限于ChatGPT和StableDiffusion等。我们将深入研究大型模型的开发和应用，以及与之相关的人工智能生成内容（AIGC）技术。通过深入的技术解析和实践经验分享，旨在帮助读者更好地理解和应用这些领域的最新进展1.引言：迎接大型语言模型的新纪元我们正处在一个由人工智能（AI
目标检测YOLO实战应用案例100讲-基于深度学习的自动驾驶目标检测算法研究（续）林聪木目标检测 YOLO 深度学习
目录基于双蓝图卷积的轻量化自动驾驶目标检测算法5.1引言5.2DarkNet53网络冗余性分析5.3双蓝图卷积网络5.4实验结果及分析基于深度学习的自动驾驶目标检测算法研究与应用传统的目标检测算法目标检测基线算法性能对比与选择相关理论和算法基础2.1引言2.2人工神经网络2.3FCOS目标检测算法2.4复杂交通场景下的目标检测难点与FCOS改进方案基于FCOS的目标检测算法改进3.1引言3.2Re
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方

《强化学习周刊》第65期：Neurips2022强化学习论文推荐（5）、MIT：机器狗当守门员、具身智能与机器人研讨会...

你可能感兴趣的:(算法,人工智能,大数据,编程语言,python)