人工智能学家

多模态认知计算

来源：图灵人工智能

日常生活中, 人类至少利用视觉, 听觉等多种感官理解周围环境, 通过整合多种感知模态, 形成对事件的整体认识. 为使机器更好地模仿人类的认知能力, 多模态认知计算模拟人类的“联觉”(Synaesthesia), 探索图像, 视频, 文本, 语音等多模态输入的高效感知与综合理解手段, 是人工智能领域的重要研究内容, 也是实现“通用人工智能”的关键之一. 近年来, 随着多模态时空数据的海量爆发和计算能力的快速提升, 国内外学者提出了大量方法, 以应对日益增长的多样化需求.然而, 当前的多模态认知计算仍局限于人类表观能力的模仿, 缺乏认知层面的理论依据. 本文从信息论角度出发, 建立了认知过程的信息传递模型, 结合信容 (Information Capacity) 概念, 提出了多模态认知计算能够提高机器的信息提取能力这一观点, 从理论上对多模态认知计算各项任务进行了统一. 进而, 根据机器对多模态信息的认知模式, 从多模态关联, 跨模态生成和多模态协同这三个方面对现有方法进行了梳理与总结, 系统地分析了其中的关键问题与解决方案. 最后, 结合当前阶段人工智能的发展特点, 重点思考多模态认知计算领域面临的难点与挑战, 并对未来发展趋势进行了深入分析与展望。

https://www.sciengine.com/SSI/doi/10.1360/SSI-2022-0226

1. 引言

让机器像人类一样智能地感知周围环境并做出决策, 是人工智能的目标之一. 在对信息的处理模式上, 人类与机器存在巨大差异. 为构建模拟人类认知模式的智能系统, 英国 Ulster 大学的研究者在 2003 年将“认知计算”(Cognitive Computing) 的概念引入信息领域, 重点关注认知科学与传统的视音频, 图像, 文本等处理之间互相联系的机理和机制, 并且开设了相应的教学课程. 在本世纪初, X. Li 创立了 IEEE-SMC 认知计算技术委员会, 当时为认知计算给出的目标是: “Cognitive Computing breaks the traditional boundary between neuroscience and computer science, and paves the way for machines that will have reasoning abilities analogous to a human brain. It’s an interdisciplinary research and application field, and uses methods from psychology, biology, signal processing, physics, information theory, mathematics, and statistics. The development of Cognitive Computing will cross-fertilize these other research areas with which it interacts. There are many open problems to be addressed and to be defined. This technical committee tackles these problems in both academia and industry, and focuses on new foundations/technologies that are intrinsic to Cognitive Computing1) .”十几年来, 认知计算逐渐受到各领域学者的关注。

在现实生活中, 人类利用视觉, 听觉, 触觉等多种感官认识世界, 不同感官刺激交融形成统一的多感觉体验. 这种多感官协作对于机器而言即为“多模态”. 认知神经学研究[1] 表明, 一类感官刺激可能会作用于其他感官通道, 这种现象被称为“联觉”(Synaesthesia). 2008 年, Li 等人在“Visual Music and Musical Vision[2]”一文中首次将联觉引入信息领域, 并从信息度量角度计算多模态数据的关联, 尝试性地探讨了“多模态认知计算”的理论及应用. 随着人工智能第三次发展高潮的影响逐渐深化, 多模态认知计算迎来了新的发展机遇, 成为航空航天, 智能制造, 医疗健康等重大领域共同关注的研究课题, 对推动我国人工智能战略发展具有重要意义. 在国内, 相应的研究和探索也有较长的历史和积累, 有很多顶尖的研究团队. 2008 年, 国家自然科学基金委员会设立的重大研究计划 “视听觉信息的认知计算”, 实施以来取得了丰硕成果. 2017 年, 国务院印发了《新一代人工智能发展规划》, 明确提出“建立大规模类脑智能计算的新模型和脑启发的认知计算模型”, 研究“以自然语言理解和图像图形为核心的认知计算理论和方法”. 当前, 多模态认知计算研究已从学术牵引转化为需求牵引, 在图像, 视频, 文本, 语音等海量多模态数据和强大算力的支撑下, 国内外各大知名企业与研究机构纷纷加入此项研究中. 然而, 在蓬勃发展的背后, 多模态认知计算的理论机理仍不明确. 认知神经学家提出了大量理论与假设来刻画人类对多感知模态的认知过程. 而在信息领域, 多模态认知计算仍停留在人类认知的观察和模仿阶段, 缺乏机理性解释与统一的学习理论框架.

本文尝试以认知为切入点, 阐释多模态认知计算的理论意义. 认知是人类从现实世界中提取并加工信息的过程, 外界信息通过视, 听, 嗅, 味, 触等多种感知通道传送到大脑, 对大脑皮层产生刺激. 神经科学相关研究[3] 表明, 多种感官刺激的联合作用会产生“整体大于局部之和”的效果. 例如, 在观看影视剧时, 画面和声音的同时刺激会给人类带来深刻, 全面的感受, 也帮助人类更准确地理解影视内容. 这种现象是如何产生的? 认知科学研究[4] 指出, 人类在接收外界刺激时会选择性地关注其中的一部分. 这种“注意力机制”作为人类认知能力的重要组成部分, 有效提高了信息加工的效率. 当影视画面与声音同步时, 人类的注意力并不会被分散, 而会集中在影视剧中发生的事件上, 视觉与听觉感官同时得到了关注. 基于上述观察, 本文提出以下假设：当同一事件引起多种感官的同步刺激时, 不同感官通道共享注意力, 人类可以感知更多信息. 从认知计算角度出发, 本文利用信息论的理论对上述假设进行建模. 信息论奠基人 C. Shannon 在 1948 年的文章“A Mathematical Theory of Communication”中提出了信息熵的概念, 用其表示随机变量的不确定程度, 为信息量的度量提供了解决方案. 根据信息熵定义, 假设事件空间 X 的概率分布已知, 事件 x 的概率为 p(x), 其所带来的信息量为

事件的概率越小, 其发生所提供的信息量越大. 例如, 红色天空比蓝色天空出现的概率小, 一般来说其信息量也就相对更大. 同时, 在不同认知任务中, 事件的发生概率存在差异, 提供的信息量也有所区别. 例如, 红色天空为气象学研究带来的信息量要高于其对心理学研究提供的信息量. 对于给定认知任务 T, 事件 x 提供的信息量为

从公式 (4) 中可看出, 当注意力集中在模态密集的时空事件时, 获取的信息量达到最大值. 因此, 个体可以利用多模态时空数据获取更多信息

近年来, 注意力机制在计算机视觉, 自然语言处理等领域的广泛应用, 证明了对特定事件的关注有助于提高机器的学习能力, 而多模态学习的成功也印证了多模态时空数据联合方面的优势. 因此, 公式 (4) 中的模型可以尝试解释多模态认知计算的内在机理, 刻画机器从数据中提取信息的过程. 然而, 是否获取到的信息量越大, 机器就越接近人类的认知水平? 当前, M6[11] , CLIP[12] 等通用多模态学习模型已经在特定任务上取得了接近于人类的效果. 如表1所示, 这些模型往往需要千万级的训练数据, 与人类认知能力还存在很大差距. 将单位数据的信息提供能力定义为“信容”(Information Capacity)[13] , 与此对应, 机器的认知能力即为从单位数据获取最大信息量的能力:

其中 D 为事件空间 X 的数据量. 因此, 可以从三方面提升机器的认知能力：(1) 优化 A, 即使机器获得更大信息量; (2) 增大 I, 即利用对于给定任务信息量更大的数据; (3) 减小 D, 即减小数据量. 利用尽可能少的数据实现信息量的最大化, 即代表了更强的认知能力. 因此, 本文围绕以上三个共性关键问题, 以提升机器认知能力为核心, 对多模态关联, 跨模态生成和多模态协同三个基本任务进行了梳理, 如图1所示. 具体如下：(1) 多模态关联是提高 ρ 的基础. 它通过挖掘不同子模态事件在空间, 事件, 语义层面的内在一致性, 将子模态事件映射到统一的信息空间, 实现多模态的对齐, 感知与检索识别. 通过多模态关联, 可以挖掘不同模态间的对应关系, 以进一步提升认知能力. (2) 跨模态生成通过增大 I, 减小 D 来提升 ρ. 它将信息以模态为载体进行传输, 利用不同模态的差异性, 对已知信息进行跨模态的合成与转换. 在跨模态合成中, 利用更加直观, 易于理解的模态对信息进行丰富和补充, 增大 I. 在跨模态转换中, 寻找更加简洁的表达形式, 在保留信息的同时, 减小 D, 以此提升信息获取能力. (3) 多模态协同通过优化 A 以实现信息量 K 最大化. 它利用不同模态间的关联与互补, 探究高效, 合理的模态间联合机制, 优化 A. 通过学习以图像, 视频, 文本, 语音为代表的多模态数据的一致性表达, 实现信息的融合与增强以提升在任务 T 上的性能.

反观人类认知, 认知的提升离不开对现实世界的联想, 推理, 归纳与演绎, 与多模态认知计算中的关联, 生成, 协同对应. 本文将人类与机器的认知学习统一为提高信息利用率的过程. 随着人工智能的影响逐渐深化, 多模态认知计算的研究向深度和广度飞速拓展. 作为多模态认知计算的三条主线, 多模态关联, 跨模态生成和多模态协同是提升机器认知能力的有效途径, 已成为国内外科研人员密切关注的研究热点. 本文对相关工作展开详尽的调研和介绍, 系统性地梳理了多模态关联, 跨模态生成和多模态协同的历史沿革和发展现状, 深入地讨论了多模态认知计算领域面临的机遇和挑战, 并对其未来的发展方向和路径进行了思考与展望.

本文的组织框架如下：第二节, 介绍了多模态关联任务的发展现状, 分为多模态对齐, 多模态感知和多模态检索三个部分, 并进行分析与讨论; 第三节, 介绍了跨模态生成任务中的跨模态合成和跨模态转换方法, 并进行分析与讨论; 第四节, 从模态融合和联合学习两个方面介绍多模态协同任务, 并进行分析与讨论; 第五节, 对多模态学习面临的挑战和未来发展趋势进行探讨与展望; 第六节, 围绕多模态认知计算中的开放问题展开设想; 第七节, 对全文进行总结。

2 多模态关联

多模态感知与学习, 通常是通过对同一个实体或时空事件在不同模态空间内予以阐述或描述, 从而得到不同模态的数据. 例如, 采用 RGB-D 相机对同一场景进行拍摄而得到 RGB 彩色图像描述和 Depth 深度距离描述; 采用摄像机对说话人进行语音采集得到其说话内容的语音信息和相对应的唇部运动信息, 这些多模态描述能够更全面的刻画同一客观实体的多维度信息, 从而提升模型的理解与认知能力. 由于不同模态在表征同一客观实体时所能获得的信息量是不同的, 例如, 在上述对说话信息表征时, 语音获取的说话内容信息量一般要高于从视觉唇部获取的信息量. 虽然不同模态所获得的信息量是不同, 但是因为它们表述的是同一客观实体, 因此其所获得的信息是存在较强关联关系的, 如发出不同的音素时, 其唇部的视觉运动表现是不同的. 因此, 为了有效刻画多种模态信息间的关联, 需要对不同模态所获得的信息量进行有效分析与对齐, 进而实现高质量的多模态感知与学习. 即在对不同模态所获取的信息量进行联合感知求和基础上, 需进行高质量的信息关联与对齐, 从而为后续的多模态感知与检索奠定基础. 例如, 对于模态 i 和 ˜i, 基于不同模态所获得的信息量, 通过特定函数 f(·), 实现不同模态信息量的关联对应, 即

通过优化不同模态所获取信息间的关联目标 f(·), 实现不同模态间关联关系的获取. 本节从多模态对齐, 多模态关联和多模态检索三方面阐述多模态关联相关工作. 其中, 多模态对齐是一类基础性需求, 如图像区域内容和文字词汇的语义对齐, 视觉唇部运动与语音声素之间的时间对齐等. 在对齐的基础上, 通过最大化模态间关联满足多模态感知, 检索等实际任务需求.

3. 跨模态生成

正常状态下, 人类的多通道感知和中枢思维系统使其具有天然的跨通道推理和生成能力. 例如, 阅读一段小说情节时脑海中会自然浮现相应的画面. 参考这一现象, 本文将多模态认知计算中跨模态生成任务的目标定义为赋予机器生成未知模态实体的能力. 传统的机器生成任务通常在单一且固定的模态上进行, 例如利用已知的一段对话生成后续情节[68] , 或利用已有图像合成一张新的图像[69] . 类比于此, 跨模态生成是涉及多种不同模态信息的实体生成过程, 利用多模态信息之间的一致性和补充性来生成新模态下的事物. 从信息论的角度看, 跨模态生成任务促使不同模态之间通过信息流动, 提升个体在既定时空内可感知的信息量. 假设已知某实体已知 m 个模态信息 {X1, X2, · · · , Xm}, 跨模态生成任务可以概括为

其中 Xp 是缺失待恢复的模态实体. 随着自然语言处理, 智能语音, 计算机视觉等技术的快速发展, 建立在文本, 语音, 图像, 视频上的跨模态生成任务层出不穷, 例如一句话生成图像[70] , 一段场景产生音频[71] 等. 这些不同模态对信息表达方式的不同, 对信息的传达能力有很大差异. 在绝大多数人的认知世界中, 一定时空和目标条件下文本, 音频, 图像, 视频这些模态信号能传递的信息量是逐渐上升的. 简单来说, 同一事物的声音比文字能直观传达的信息要更加丰富, 而图像相比声音更加直观一些. 大多数情况下, 日常生活中广播比文字要更容易被多数人接纳; 当看到一张狗的照片时就比听到这只狗的声音了解的更多; 而动态的视频带给人类的感受要更加深刻. 但同时, 同一事物用信息量丰富的模态来描述时也占据更大的存储空间, 带来信息处理效率上的负担. 综合两方面因素, 本文从认知计算的角度将跨模态生成任务的本质归纳为在多模态信息通道内提高机器认知能力的问题. 进一步地, 可以将该任务划分为提高信息量 I 和减小数据量 D 两种方式, 即跨模态合成和跨模态转换两大类. 下面详细介绍这两类跨模态生成技术.

4 多模态协同

归纳和演绎是人类认知的重要功能. 人类可以轻松自如地对视, 听, 嗅, 味, 触等多模态感知进行归纳融合, 并进行联合演绎, 以做不同的决策和动作. 在多模态认知计算中, 多模态协同是指协调两个或者两个以上的模态数据, 互相配合完成多模态任务. 为了实现更加复杂的任务并提升精度和泛化能力, 多模态信息之间要相互融合, 达到信息互补的目的. 呼应前文, 这本质上是对注意力 A 的优化：

进一步地, 融合后的多模态信息要进行联合学习, 以实现多模态信息对单一模态的超越, 即

信息量的增加可以提高单模态任务的性能, 也为开发创新性多模态任务提供了可能. 从生物学角度来看, 多模态协同和人类综合多种知觉作出反应是相似的. 近年来, 随着传感器技术, 计算机硬件设备和深度学习技术的更新换代, 多模态数据的获取, 计算和应用也变得日新月异. 同时, 建立在视觉, 声音和文本等模态上的多模态协同研也究取得长足发展. 本章节重点总结了多模态协同中的模态融合与联合学习方法. 其中, 模态融合分为前期, 后期和混合融合策略, 如图6所示. 联合学习根据其目的不同分为提升单模态任务性能和解决新的挑战性问题. 接下来, 本章节将分别进行介绍。

5 多模态认知计算的难点和未来发展趋势

近年来, 深度学习技术在图像处理, 自然语言处理等领域取得了长足的发展, 推动着多模态认知计算向理论研究和工程任务的纵深发展. 在数据形式快速迭代和应用需求多元化发展的背景下, 多模态认知计算也面临新的问题和挑战. 从宏观角度来看, 前述所有任务都是围绕公式 (5) 中的数据 (D), 信息量 (I) , 融合机制 (A) , 和任务 (T) 来提升机器认知能力 (ρ). 本章节将从以上四个方面对多模态认知计算当前的难点进行剖析, 并对未来的发展趋势进行展望和思考.

6 开放性问题讨论

6.1 人类认知与人工智能如何结合？

目前, 多模态认知计算的发展如火如荼. 大多数研究工作聚焦在人工智能领域, 致力于对视听嗅味触等多模态数据的分析, 以完成各种复杂任务. 在过去的几十年来, 人类的“联觉”, “知觉重塑” 和“多通道知觉”为多模态数据的关联、生成与融合提供了指导依据, 开启了多模态认知计算研究的序章. 但是, 人类认知存在太多未知和不确定. 人类认知是如何形成的? 其背后的机理是什么? 目前并不完全清楚. 缺乏认知进一步指导的多模态认知计算, 很容易陷入数据拟合的陷阱. 本文作者曾在视觉与学习青年学者研讨会 (VALSE) 上作为联合组织者发起过相关的线上 (2020) 和线下研讨会 (2022) , 聚焦上述问题, 侧重从人类的多感官认知入手, 探究当前多模态相关研究与其的区别与联系. 未来, 多模态认知计算将如何迈向认知? 人类具有高可靠及较强泛化性能的多模态感知能力, 尤其是当部分感官能力缺失的情形下, 能够通过其他感官对缺失的能力进行一定能出补充. 认知神经科学家认为, 这种现象的潜在生理学基础可能是不同感官在信息编码中存在一个高级别语义的自组织关联网络, 该网络与特定模态类型无关, 但是可以直接关联到不同模态中, 从而实现高效的多模态感知. 对于多模态认知计算而言, 构建有效架构是提高多模态感知能力的关键一环. 本文认为, 可构建以“元模态”为核心的模态交互网络, 学习与特定模态类型无关的内在属性, 从而最大化关联与对齐不同的模态语义内容. 元模态指向一个紧致的低维空间, 可以实现到不同模态空间的投影, 从而具备更加泛化的表征能力.

6.2 多模态数据带来了什么？

近年来, 结合多模态数据的人工智能确实取得了更好的性能表现. 这显而易见, 在合理的模型优化方式下, 输入信息的增加往往会得到更好的结果. 但是, 再深入思考一下, 多模态数据到底带来了什么额外的信息, 又是如何提升性能的呢? 实际上, 多模态数据带来信息的同时, 也带来了大量噪声和冗余, 会出现信容降低的问题, 增加模型学习压力. 这会导致某些情况下, 多模态数据的性能不如单一模态. 本文尝试从信息的角度给出如上问题的解释. 多模态信息之间具有相似性与互补性. 其中, 相似性部分是各个模态信息的交集, 即互信息, 代表了从不同模态描述同一场景的不同方面. 相似性部分对场景进行了更加综合地描述, 可以达到“兼听则明”的效果, 提升模型场景理解的鲁棒性. 互补性部分是各个模态信息的并集, 信息论里称为“联合熵”, 代表了不同模态之间的差异性, 也包含噪声部分. 互补性部分是任一模态都不具备的, 它对单一模态的感知能力进行了拓展, 以获得更好的场景理解性能, 达到模拟人类联觉的能力。

6.3 多模态认知计算面临哪些真实场景?

现有多模态认知计算研究大都集中在图像视频数据中, 聚焦视听模态的分析. 这主要得益于近年来智能手机的普及和社交网络的快速发展, 使得图像视频数据爆炸式增长, 传播方式也日趋便利. 但是, 真实世界的多模态感知面临更加复杂的情况, 这里以机器人和临地安防为例. 机器人将是多模态认知计算的一个典型应用. 机器人的目的是像人类一样去感知去思考. 假设一个机器人要在真实环境中进行多模态感知, 首先, 要对视听嗅味触传感器进行集成, 目前针对前端传感器的研究明显不足. 然后, 感知要在三维空间中进行, 而不再是视频画面中进行, 这就要求具有三维感知能力. 最后, 感知是在动态环境中进行, 会存在机器与环境, 各个模态与环境, 以及各个模态之间的交互, 这也是以后研究中需要重点考虑的. 临地安防 (Vicinagearth Security) 也为多模态认知计算提供了广阔的应用前景. 随着低空空域资源的逐渐释放和海洋开发能力的全面提升, 人工智能开始在涵盖低空, 地上, 水下的临地空间发挥作用, 涉及搜救, 巡检等诸多安防问题. 以智能搜救为例, 无人机与地面无人设备的协同交互需要处理不同传感器产生的大量数据, 多模态认知计算也成为解决此类任务的关键核心技术之一, 需要与跨域智能交互, 涉水光学等研究课题紧密结合. 同时, 临地安防对实时性和高效性的要求也对多模态认知计算提出了新的挑战. 在未来, 临地安防将成为多模态认知计算从理论走向应用的重要落地场景.

7 总结

信息领域的研究热点常常在获取—处理—反馈中迭代, 尤其前两者. 目前, 深度学习等处理方法的发展如火如荼, 下一个热点很可能是数据获取, 那么多模态将会迈入新的发展阶段. 本文抛砖引玉, 挂一漏万, 回顾了多模态认知计算的发展历程, 从理论, 方法和趋势三个方面展开分析与思考. 首先, 构建信息传递模型刻画了机器从事件空间中提取信息的过程, 探讨了多模态认知计算的理论意义. 然后, 阐述了多模态关联, 跨模态生成, 多模态协同三个主线任务的理论联系, 对各项任务进行了统一. 通过对现有方法的分析与对比, 较为全面地展示了多模态认知计算的发展现状和关键技术. 进而, 结合当前人工智能的发展背景, 从信息度量, 融合机制, 学习任务和数据获取等方面探讨了多模态认知计算面临的挑战, 并讨论了未来值得探索的研究方向. 最后, 对多模态认知计算的开放性问题进行了一些设想. 实际上, 人类能感知到的模态信息是有限的. 人类仅可以看到 400-700nm 的可见光, 这是光谱中这很小的一部分; 只可以听到 20-20000Hz 的可闻声波, 这也是声波很小的一部分. 庆幸的是, 借助各种先进的光电设备, 我们感知到了可见光和可闻声波之外的更多信息. 未来, 随着感知能力的进一步提升, 依托人类认知拓展物理感知边界, 实现信息域和认知域的统一, 是大势所趋. 希望本文能够为提升智能光电设备的感知能力和推动多模态认知计算的理论研究提供参考和启发。

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）大脑研究计划，构建互联网（城市）大脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

如果您对实验室的研究感兴趣，欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st

多模态认知计算

你可能感兴趣的:(人工智能,大数据,编程语言,python,计算机视觉)