谷歌大神Jeff Dean领衔，万字展望5大AI趋势

对于关心人工智能技术进展的读者来说，每年年底来自整个谷歌 research 团队撰写的年终总结，可谓是必读读物。

　　今天，由谷歌大神 Jeff Dean 领衔，这份总结虽迟但到。出于知识传播目的，“学术头条”现将全文翻译如下，以飨读者：

　　在过去的几十年里，我见证了机器学习(ML, Machine Learning)和计算机科学(CS, Computer Science)领域的变化和发展。

　　早期的方法往往存在某些缺陷导致了失败，然而，通过在这些方法上的不断研究和改进，最终产生了一系列的现代方法，目前这些方法已经非常成功。按照这种长期的发展模式，在未来几年内，我认为我们将会看到一些令人欣喜的进展，这些进展最终将造福数十亿人的生活，产生比以往任何时候都更大的影响。

　　这篇文章中，我将重点介绍 ML 中可能产生重大影响的五个领域。对于其中的每一项，我都会讨论相关的研究(主要是从 2021 年开始)，以及我们在未来几年可能会看到的方向和进展。

　　趋势1：更强大的通用 ML 模型

　　趋势2：ML 的持续效率提高

　　趋势3：ML 对个人和社会都越来越有益

　　趋势4：ML 在科学、健康和可持续发展方面日益增长的效益

　　趋势5：更深入和广泛地理解 ML

趋势1：更强大的通用 ML 模型

　　研究人员正在训练比以往更大、更有能力的ML模型。

　　例如，仅在过去的几年中，模型已经在语言领域取得突破性进展，从数百亿的数据 tokens 中训练数十亿个参数(如，11B 参数 T5 模型)，发展到数千亿或上万亿的数据 tokens 中训练高达数千亿或上万亿的参数(如，密集模型，像 OpenAI 的 175 B 参数 GPT3 模型、DeepMind 的 280B 参数 Gopher 模型；稀疏模型，如谷歌的 600 B 参数 GShard 模型、1.2T 参数 GLaM 模型)。数据集和模型大小的增加导致了各种语言任务的准确性的显著提高，这可以从标准自然语言处理(NLP, Natural Language Processing)基准测试任务的全面改进中观察到，正如对语言模型和机器翻译模型的神经网络缩放法则(neural scaling laws)的研究预测的那样。

　　这些先进的模型中，有许多专注于单一但重要的书面语言模式上，并且在语言理解基准和开放式会话能力方面显示出了最先进的成果，即是跨越一个领域的多个任务也是如此。除此之外，他们还表现出了令人兴奋的能力，即仅用相对较少的训练数据便可以泛化新的语言任务。因为在某些情况下，对于一个新的任务，几乎不存在训练示例。简单举例，如改进的长式问答(long-form question answering)，NLP 中的零标签学习，以及我们的 LaMDA 模型，该模型展示出了一种复杂的能力，可以进行开放式对话，并在多个对话回合中保持重要的上下文。

图丨与 LaMDA 的对话模仿了威德尔海豹(Weddell sea)预设提示，“嗨，我是 Weddell sea。你有什么问题要问吗？”该模型在很大程度上控制了角色中的对话。

　　Transformer 模型也对图像、视频和语音模型产生了重大影响，所有这些模型也都从缩放中受益，正如研究可视 Transformer 模型的缩放法则工作中预测的那样。用于图像识别和视频分类的 Transformers 在许多基准上都取得了最先进的结果，我们还证明，与单独使用视频数据的模型相比，在图像数据和视频数据上的联合训练模型可以提高视频任务的性能。我们已经为图像和视频 Transformers 开发了稀疏的轴向注意机制(axial attention mechanisms)，从而更有效地使用计算，为视觉 Transformers 模型找到了更好的图像标记方法，并通过与卷积神经网络相比，研究了视觉 Transformers 的操作方式，加深了我们对视觉 Transformers 方法的理解。将 Transformers 模型与卷积操作相结合，已在视觉和语音识别任务中展示出显著的优势。

　　生成模型的输出也在大幅提高。在过去几年里取得了显著的进步，尤其在图像的生成模型中最为明显。例如，最近的模型已经证明了仅给定一个类别(如“irish setter”或“steetcar”)便可以创建逼真的图像，可以“填充”一个低分辨率的图像，以创建一个看起来十分自然的高分辨率匹配图像，甚至可以构建任意长度的自然场景。另一个例子是，可以将图像转换成一系列离散 tokens，然后使用自回归生成模型以高保真度进行合成。

图丨级联扩散模型(cascade diffusion models)的例子，从一个给定的类别生成新的图像，然后使用这些图像作为种子来创建高分辨率的示例：第一个模型生成低分辨率图像，其余的执行向上采样(upsampling)到最终的高分辨率图像。

图丨SR3 超分辨率扩散模型是以低分辨率图像作为输入，并从纯噪声中构建相应的高分辨率图像。

　　鉴于这些强大的功能背后，潜藏着的是巨大的责任，所以我们不得不仔细审查，这类模型的潜在应用是否违背我们的人工智能原则。

　　除了先进的单模态模型(single-modality models)外，大规模的多模态模型(multimodal models)也在陆续进入人们的视野。这些模型是迄今为止最前沿的模型，因为它们可以接受多种不同的输入模式(例如，语言、图像、语音、视频)，而且在某些情况下，还可以产生不同的输出模式，例如，从描述性的句子或段落生成图像，或用人类语言简要描述图像的视觉内容。这是一个令人惊喜的研究方向，因为类似于现实世界，在多模态数据中更容易学习(例如，阅读一些文章并看时辅以演示比仅仅阅读有用得多)。因此，将图像和文本配对可以帮助完成多种语言的检索任务，并且更好地理解如何对文本和图像输入进行配对，可以对图像字幕任务(image captioning tasks)带来更好的改进效果。同样，在视觉和文本数据上的联合训练，也有助于提高视觉分类任务的准确性和鲁棒性，而在图像、视频和音频任务上的联合训练则可以提高所有模式的泛化性能。还有一些诱人的迹象表明，自然语言可以作为图像处理的输入，告诉机器人如何与这个世界互动，以及控制其他软件系统，这预示着用户界面的开发方式可能会发生变化。这些模型处理的模式将包括语音、声音、图像、视频和语言，甚至可能扩展到结构化数据、知识图和时间序列数据等等。

图丨基于视觉的机器人操作系统的例子，能够泛化到新的任务。左图：机器人正在执行一项用自然语言描述为“将葡萄放入陶瓷碗中”的任务，而不需要对模型进行特定的训练。右图：和左图一样，但是有“把瓶子放在托盘里”的新的任务描述。

　　这些模型通常使用自监督学习(Self-supervised learning)的训练，在这种方法中，模型从观察到的“原始”数据中学习，而这些数据没有被整理或标注。例如，GPT-3 和 GLaM 使用的语言模型，自监督的语音模型 BigSSL，视觉对比学习模型 SimCLR，以及多模态对比模型 VATT。自监督学习允许大型语音识别模型匹配之前的语音搜索中的自动语音识别技术(Automatic Speech Recognition)的基准精度，同时仅使用 3% 的标注训练数据。这些趋势是令人兴奋的，因为它们可以大大减少为特定任务启用 ML 所需的努力。而且，它们使得在更有代表性的数据上训练模型变得更容易，这些数据可以更好地反映不同的亚种群、地区、语言或其他重要的表示维度。

　　所有这些趋势都指向训练能够处理多种数据模式并解决数千或数百万任务的高能力通用模型的方向。通过构建稀疏性模型，使得模型中唯一被给定任务激活的部分是那些针对其优化过的部分，由此一来，这些多模态模型可以变得更加高效。在未来的几年里，我们将在名为“Pathways”的下一代架构和综合努力中追求这一愿景。随着我们把迄今为止的许多想法结合在一起，我们期望在这一领域看到实质性的进展。

图丨Parthway：我们正在朝着单一模型的描述而努力，它可以在数百万个任务中进行泛化。

趋势2：ML 的持续效率提高

　　由于计算机硬件设计、ML 算法和元学习(meta-learning)研究的进步，效率的提高正在推动 ML 模型向更强的能力发展。ML 管道的许多方面，从训练和执行模型的硬件到 ML 体系结构的各个组件，都可以在保持或提高整体性能的同时进行效率优化。这些不同的线程中的每一个都可以通过显着的乘法因子来提高效率，并且与几年前相比，可以将计算成本降低几个数量级。这种更高的效率使许多关键的进展得以实现，这些进展将继续显著地提高 ML 的效率，使更大、更高质量的 ML 模型能够以更有效的成本开发，并进一步普及访问。我对这些研究方向感到非常兴奋！

　　ML加速器性能的持续改进：

　　每一代ML加速器都在前几代的基础上进行了改进，使每个芯片的性能更快，并且通常会增加整个系统的规模。其中，拥有大量芯片的 pods，这些芯片通过高速网络连接在一起，可以提高大型模型的效率。

　　当然，移动设备上的 ML 能力也在显著增加。Pixel 6 手机配备了全新的谷歌张量处理器(Google Tensor processor)，集成了强大的ML加速器，以更好地支持重要的设备上功能。

　　我们使用 ML 来加速各种计算机芯片的设计(下面将详细介绍)，这也带来了好处，特别是在生产更好的 ML 加速器方面。

　　持续改进的 ML 编译和 ML 工作负载的优化：

　　即使在硬件没有变化的情况下，对于 ML 加速器的编译器和系统软件的其他优化也可以显著提高效率。例如，“自动调优多通道机器学习编译器的灵活方法”展示了如何使用 ML 来执行编译设置的自动调优，从而在相同的底层硬件上为一套 ML 程序实现 5-15%(有时高达 2.4 倍的改进)的全面性能改进。GSPMD 描述了一个基于 XLA 编译器的自动并行化系统，该系统能够扩展大多数深度学习网络架构，超出加速器的内存容量，并已应用于许多大型模型，如 GShard-M4、LaMDA、BigSSL、ViT、MetNet-2 和 GLaM 等等，在多个领域上带来了最先进的结果。

图丨在 150 ML 模型上使用基于 ML 的编译器自动调优，可以加快端到端模型的速度。包括实现 5% 或更多改进比例的模型。条形颜色代表了优化不同模型组件的相对改进程度。

　　人类创造力驱动的更高效模型架构的发现：

　　模型体系结构的不断改进，大大减少了许多问题达到给定精度水平所需的计算量。例如，我们在 2017 年开发的 Transformer 结构，能够在几个 NLP 任务和翻译基准上提高技术水平。与此同时，可以使用比各种其他流行方法少 10 倍甚至百倍的计算来实现这些结果，例如作为 LSTMs 和其他循环架构。类似地，视觉 Transformer 能够在许多不同的图像分类任务中显示出改进的最新结果，尽管使用的计算量比卷积神经网络少 4 到 10 倍。

　　更高效模型架构的机器驱动发现：

　　神经体系结构搜索(NAS, Neural Architecture Search)可以自动发现对于给定的问题域更有效、新颖的 ML 体系结构。NAS 的主要优势是，它可以大大减少算法开发所需的工作量，因为 NAS 在每个搜索空间和问题域组合中只需要一次性的工作。此外，虽然最初执行 NAS 的工作可能在计算上很昂贵，但由此产生的模型可以大大减少下游研究和生产环境中的计算，从而大大减少整体资源需求。例如，为了发现演化 Transformer(Evolved Transformer)而进行的一次性搜索只产生了 3.2 吨的 CO2e，但是生成了一个供 NLP 社区中的任何人使用的模型，该模型比普通的 Transformer 模型的效率高 15-20%。最近对 NAS 的使用发现了一种更高效的体系结构 Primer(开源)，与普通的 Transformer 模型相比，它降低了4倍的训练成本。通过这种方式，NAS 搜索的发现成本通常可以通过使用发现的更高效的模型体系结构得到补偿，即使它们只应用于少数下游任务。

图丨与普通的 Transformer 模型相比，NAS 发现的 Primer 架构的效率是前者的4倍。这幅图(红色部分)显示了 Primer 的两个主要改进：深度卷积增加了注意力的多头投影和 squared ReLU 的激活(蓝色部分表示原始 Transformer)。

　　NAS 还被用于发现视觉领域中更有效的模型。EfficientNetV2 模型体系结构是神经体系结构搜索的结果，该搜索联合优化了模型精度、模型大小和训练速度。在 ImageNet 基准测试中，EfficientNetV2 提高了 5 到 11 倍的训练速度，同时大大减少了先前最先进模型的尺寸。CoAtNet 模型架构是通过一个架构搜索创建的，该架构搜索采用了视觉 Transformer 和卷积网络的想法，以创建一个混合模型架构，其训练速度比视觉 Transformer 快 4 倍，并取得了新的 ImageNet 技术水平。

图丨与之前的 ImageNet 分类模型相比，EfficientNetV2 获得了更好的训练效率。

　　搜索的广泛应用有助于改进 ML 模型体系结构和算法，包括强化学习(RL，Reinforcement Learning)和进化技术(evolutionary techniques)的使用，激励了其他研究人员将这种方法应用到不同的领域。为了帮助其他人创建他们自己的模型搜索，我们有一个开源的模型搜索平台，可以帮助他们探索发现其感兴趣的领域的模型搜索。除了模型架构之外，自动搜索还可以用于发现新的、更有效的强化学习算法，这是在早期 AutoML-Zero 工作的基础上进行的，该工作演示了自动化监督学习算法发现的方法。

　　稀疏的使用：

　　稀疏性是算法的另一个重要的进步，它可以极大地提高效率。稀疏性是指模型具有非常大的容量，但对于给定的任务、示例或 token，仅激活模型的某些部分。2017 年，我们推出了稀疏门控专家混合层(Sparsely-Gated Mixture-of-Experts Layer)，在各种翻译基准上展示了更好的性能，同时在计算量上也保持着一定的优势，比先前最先进的密集 LSTM 模型少 10 倍。最近，Switch Transformer 将专家混合风格的架构与 Transformer 模型架构结合在一起，在训练时间和效率方面比密集的 T5-Base Transformer 模型提高了 7 倍。GLaM 模型表明，Transformer 和混合专家风格的层可以组合在一起，可以产生一个新的模型。该模型在 29 个基准线上平均超过 GPT-3 模型的精度，使用的训练能量减少 3 倍，推理计算减少 2 倍。稀疏性的概念也可以用于降低核心 Transformer 架构中注意力机制的成本。

图丨BigBird 稀疏注意模型由全局 tokens(用于处理输入序列的所有部分)、局部 tokens(用于处理输入序列的所有部分)和一组随机 tokens 组成。从理论上看，这可以解释为在 Watts-Strogatz 图上添加了一些全局 tokens。

　　就计算效率而言，在模型中使用稀疏性显然是一种具有很高潜在收益的方法，而就在这个方向上进行尝试的研究想法而言，我们只是触及了表面。

　　这些提高效率的方法中的每一种都可以结合在一起，这样，与美国平均使用 P100 GPUs 训练的基线 Transformer 模型相比，目前在高效数据中心训练的等效精度语言模型的能源效率提高了 100 倍，产生的 CO2e 排放量减少了 650 倍。这甚至还没有考虑到谷歌的碳中和(carbon neutral)，100% 的可再生能源抵消。

趋势3：机器学习正变得对个人和社区更加有益

　　随着 ML 和硅硬件(如 Pixel 6 上的 Google Tensor 处理器)的创新，许多新体验成为可能，移动设备能够更持续有效地感知上下文和环境。这些进步提高了设备的可访问性和易用性，同时计算能力也有提升，这对于移动摄影、实时翻译等流行功能至关重要。值得注意的是，最近的技术进步还为用户提供了更加个性化的体验，同时加强了隐私保护。

　　人们比以往任何时候都依赖他们的手机摄像头来记录日常生活和创作灵感。机器学习在计算摄影中的巧妙应用提升了手机相机的功能，使它们更易于使用，产生了更高质量的图像。一些先进的技术，如改进的 HDR+，在弱光下的拍摄能力，更好的人像处理功能，及更大的包容性使得手机摄像可以更真实地反映拍摄对象。Google Photos 中基于机器学习的强大工具如 Magic Eraser 等还能进一步优化照片。

　　除了用手机进行创造外，许多人还依赖手机与他人实时跨语言沟通，例如在打电话时使用 Live Translate 和 Live Caption。由于自我监督学习(self-supervised learning)和有噪音的学生训练(noisy student training)等技术，语音识别准确率持续改善。对有口音的语音、嘈杂的语音或重叠语音等有明显的改善。在文本到语音合成的进步基础上，人们可以使用谷歌朗读技术 Read Aloud 在越来越多的平台上收听网页和文章，使获取信息更加便宜，跨越了模态和语言的障碍。通过稳定生成的即时翻译，谷歌翻译(Google Translate)的实时语音翻译水平显著改善。高质量的语音翻译在多语言交流时提供了更好的用户体验。在 Lyra 语音编解码器和 Soundstream 音频编解码器中，机器学习与传统编解码方法相结合使语音、音乐和其他声音能够以低得多的比特率保真地传送。

　　智能文本选择(Smart Text Selection)等工具得到了改进，它可以自动选择电话号码或地址等信息，以便复制和粘贴。此外，Screen Attention 可以防止手机屏幕变暗，凝视识别技术有所的改进。机器学习还让人们的生活更加安全。例如， Suspicious Message Alerts 对可能的网络钓鱼提出预警，Safer Routing 提出更加安全的替代路线。

　　考虑到这些功能使用数据的敏感性，把它们默认设置为不共享是很重要的。以上提到的许多功能都在 Android的Private Compute Core 中运行。这是一个开源的、安全的环境，与操作系统的其余部分隔离开。Android 确保未经用户同意，不会将在 Private Compute Core 中的数据共享给任何应用程序。Android 还阻止 Private Compute Core 的任何功能直接访问网络。功能通过一小部分开源 API 与 Private Compute Services 进行通信，这样就能剔除身份敏感信息并使用联邦学习、联邦分析和私人信息检索等功能保护隐私。

　　这些技术对于发展下一代计算和交互范例至关重要，个人或公共设备需要在不损害隐私的情况下学习并帮助训练(算法)模型。联邦的无人监督学习方法，可以创造出越来越智能的系统。这些系统的交互更加直观，更像是一个社交实体，而不是一台机器。只有对我们的技术进行深刻变革，才有可能广泛而公平地拥有这些智能系统，让它们支持神经计算。

趋势4：机器学习在科学、健康和可持续发展方面的影响越来越大

　　近年来，我们看到机器学习在物理、生物等基础科学科的影响越来越大，在可再生能源和医学等领域也有许多令人兴奋的应用。计算机视觉模型对个人和全球问题都有所功效。它们可以帮助医生进行工作，扩大我们对神经生理学的理解，还可以提供更好的天气预报，加快救灾工作。其他类型的机器学习模型能发现减少碳排放和提高替代能源产量的方法，在应对气候变化方面至关重要。这样的模型甚至可以作为艺术家的创作工具！随着机器学习变得更加强健(鲁棒)和完善，它在的应用潜力继续扩大，有助于解决我们面临的一些最具挑战性的问题。

　　计算机视觉提供新的洞察力：

　　在过去的十年里，计算机视觉的进步使计算机能够完成不同科学领域的各种任务。在神经科学中，自动重建技术可以从脑组织薄片的高分辨率电子显微镜图像中重现脑组织的神经连接结构。前些年，谷歌为研究果蝇、老鼠的大脑创造了这样的资源，去年，我们与哈佛大学的利希特曼实验室(Lichtman Lab)合作，进行了第一次大规模的人类皮质突触连接研究。该研究跨越了所有皮层的多个细胞类型。这项工作的目标是帮助神经科学家研究令人惊叹的人类大脑。例如，下图显示了成人大脑中约 860 亿个神经元中的 6 个。

　　计算机视觉技术还提供了强大的工具来应对全球挑战。基于深度学习的天气预报方法用卫星和雷达图像作为输入，结合其他大气数据，产生比传统的基于物理的模型更准确的天气和降水预报，预报时间长达 12 小时。它们还可以比传统方法更快地产生更新的预报，这在极端天气时期可能是至关重要的。

　　拥有准确的建筑足迹记录对于从人口估计和城市规划到人道主义响应和环境科学的一系列应用都是至关重要的。在世界上的许多地方，包括非洲的大部分地区，这一信息以前是无法获得的，但新的研究表明，将计算机视觉技术应用于卫星图像可以帮助识别大陆范围内的建筑边界。这一方法的结果已在开放建筑数据集中发布，这是一种新的开放获取的数据资源，其中包含 5.16 亿座覆盖非洲大陆大部分地区的建筑的位置和占地面积。我们还能够在与世界粮食计划署的合作中使用这一独特的数据集，通过 ML 的应用提供自然灾害后的快速损失评估。

　　在健康领域的应用：

　　除了推进基础科学，人工智能还可以在更广泛的范围内为医学和人类健康做出贡献。在健康领域利用计算机科学并不是什么新鲜事。但机器学习打开了新的大门，带来了新的机遇和挑战。

　　以基因组学领域为例。计算机从一开始就对基因组学很重要，但是机器学习增加了新的功能并颠覆了旧的模式。当谷歌的研究人员探索这一领域的工作时，许多专家认为利用深度学习来推断基因变异的想法是牵强的。如今，这种机器方法被认为是最先进的。谷歌发布的开源软件 DeepConsensus 以及与加州大学洛杉矶分校(UCSC)合作的 Pepper-DeepVariant 提供了尖端的信息学支持。我们希望更多的快速测序可以在近期进入实际应用领域，并对患者产生实际影响。

　　以基因组学领域为例。计算技术一直对基因组学非常重要，但机器学习方法改变了之前的旧模式，并增添了新的功能。最初，谷歌的研究人员使用机器学习在该领域展开研究时，许多专家认为使用深度学习技术从测序仪中推断是否存在基因变异的想法是不可行的。但如今，机器学习是最先进的研究方法。并且未来机器学习将扮演更重要的角色，比如基因组学公司正在开发更精确、更快的新测序仪，它需要匹配更好的推理能力。我们也发布了 DeepConsensus 开源软件，以及与 UCSC 合作的 PEPPER-DeepVariant，为这些新仪器提供最前沿的信息学支持。我们希望这些性能更强的测序仪可以尽快应用在实际患者中并产生有益影响。

图丨DeepConsensus 中的 Transformer 结构示意图，它可以纠正测序错误，提高准确率。

　　机器学习也可以在处理测序数据之外起作用，比如使用机器学习加速个性化健康的基因组信息建设。广泛表型和测序个体的大型生物样本库的建立，可以彻底改变我们理解和管理疾病遗传易感性的方式。基于机器学习的表型方法可以提高将大型图像和文本数据集转换为可用于遗传相关研究表型的可扩展性，并且 DeepNull 也可以利用大型表型数据进行遗传研究。我们也很高兴将这两种开源方法公布给科学界。

图丨根据生物样本库中的基因组数据，生成的解剖学和疾病性状的大规模量化过程

　　正如机器学习可以帮助我们看到基因组数据中的隐藏特征一样，它也可以帮助我们从其他健康数据类型中发现并收集新信息。疾病的诊断通常包括模式识别、关系量化和在大量类别中识别出新实例等任务，而这些都是机器学习擅长的。谷歌的研究人员已经使用机器学习来解决各种各样的问题，但也许没有一个问题比它在医学成像中的应用有更大进展。

　　谷歌在 2016 年发表了一篇关于深度学习在糖尿病视网膜病变筛查中应用的论文，被《美国医学会杂志》(JAMA)的编辑选为十年来最具影响力的十大论文之一。这意味着它不仅在机器学习和健康方面具有广泛影响力，并且也是十年来最具影响的 JAMA 论文之一。而且我们的研究影响并不仅限于对论文，而是扩展到现实世界中建立系统的能力。通过我们的全球合作伙伴网络，该项目已经帮助印度、泰国、德国和法国的数万名患者进行疾病筛查，否则他们自己可能没有能力接受这种威胁视力疾病的检测。

　　我们希望看到更多机器学习辅助系统的部署，以应用到改善乳腺癌筛查、检测肺癌、加速癌症放射治疗、标记异常x光和对前列腺癌活检分级上。机器学习为每个领域都提供了新的帮助。比如机器学习辅助的结肠镜检查，就是一个超越了原有基础的例子。结肠镜检查不仅仅只是诊断结肠癌，还可以在手术过程中切除息肉，是阻止疾病发展和预防严重疾病的前沿阵地。在该领域中，我们已经证明机器学习可以帮助确保医生不遗漏息肉，帮助检测难以发现的息肉，还可以增加维度来提高准确度，例如应用同步定位和绘图技术。在与耶路撒冷 Shaare Zedek Medical Center 医疗中心的合作中，实验证明这些系统可以实时工作，平均每次手术可以检测到一个可能会漏检的息肉，而且每次手术的错误警报少于 4 次。

图丨对(A)一般异常、(B)结核病和(C)COVID-19 的真阳性、假阳性以及真阴性、假阴性的胸部 X 光片(CXR)进行采样。在每张 CXR 中，红色的轮廓表示模型识别时关注的区域(即类激活图)，黄色的轮廓表示由放射科医生认定的感兴趣区域。

　　Care Studio 是另一个有潜力的医疗保健计划，它使用最先进的机器学习和 NLP 技术来分析结构化数据和医疗记录，并在正确的时间为临床医生提供相关信息，帮助他们提供更积极和准确的治疗。

　　尽管机器学习可能对扩大访问量和提高临床准确性很重要，但我们发现有新的趋势正在出现：使用机器学习帮助人们的日常健康和幸福。我们日常使用的设备都部署有强大的传感器，可以帮助人们普及健康指标和信息，使人们可以对自己的健康做出更明智的决定。目前已经有了可以评估心率和呼吸频率的智能手机摄像头，并且无需额外的硬件设备。Nest Hub 设备可以支持非接触式睡眠感知，让用户更好地了解自己的夜间健康状况。我们可以在自己的 ASR 系统中显著提高无序语音识别的质量，也可以使用机器学习帮助有语音障碍的人重塑声音，使他们能够用自己的声音交流。也许，使用机器学习让智能手机帮助人们更好地研究皮肤病状况，或者帮助视力有限的人慢跑，并不是遥不可及的：这些机遇证明未来是光明的。

　　用于非接触式睡眠感知的自定义机器学习模型可以有效地处理连续的3维雷达张量(汇总了一定距离、频率和时间范围内的活动)，从而自动计算出用户清醒或睡着的可能性。

　　机器学习在气候危机中的应用：

　　气候变化也是一个至关重要的领域，对人类来说具有非常紧迫的威胁。我们需要共同努力来扭转有害排放的趋势，以确保未来的安全和繁荣。而更好地了解不同选择对气候的影响，可以帮助我们用多种方式应对这一挑战。

　　为此，我们在谷歌地图中推出了环保路线，预计该方法可以每年节省约 100 万吨二氧化碳排放(相当于在道路上减少 20 多万辆汽车)。最近的实验研究表明，在美国盐湖城使用谷歌地图导航可以实现更快、更环保的路线，节省了 1.7% 的二氧化碳排放量和 6.5% 的旅行时间。此外，还可以让地图软件更好地适应电动汽车，帮助缓解里程焦虑，鼓励人们使用无排放的交通工具。我们还与世界各地的城市进行合作，利用汇总的历史交通数据，帮助改善交通灯计时设置。在以色列和巴西进行的一项早期试点研究显示，有检查十字路口的燃油消耗和延误时间减少了 10-20%。

图丨采用谷歌地图的环保路线，将会展示最快和最省油的路线，所以你可以选择任意一条适合你的路线。

　　从长远来看，核聚变有望成为一种改变世界方式的可再生能源。在与 TAE Technologies 的长期合作中，我们通过设置 1000 多个相关控制参数，使用机器学习来帮助聚变反应堆保持稳定的等离子体。通过我们的合作，TAE 实现了 Norman 反应堆的主要目标，这离我们实现平衡的核聚变又近了一步。这台机器能在 3000 万开尔文的温度下保持稳定的等离子体 30 毫秒，这是系统可用功率范围的极限。目前他们已经设计完成了一个更强大的核聚变机器，并希望该机器能在十年内展示出实现核聚变平衡的必要条件。

　　并且，我们还得努力应对越来越常见的火灾和洪水(像数百万加州人一样不得不适应定期的“火灾季节”)。去年，我们发布了一份由卫星数据支持的火灾边界地图，帮助美国人轻松地在自己设备上了解火灾的大致规模和位置。我们还将谷歌上所有的火灾信息进行整合，并在全球范围内进行推出。我们也一直在应用图形优化算法来帮助优化火灾疏散路线，以帮助人们安全逃离快速推进的火灾。2021 年，我们的洪水预报计划的预警系统覆盖范围扩大到 3.6 亿人，是前一年的三倍以上，并向面临洪灾风险人群的移动设备直接发送了 1.15 亿多条通知。我们还首次在现实世界系统中部署了基于 LSTM(长短时记忆网络)的预测模型和 Manifold 模型，并分享了系统中所有组件的详细信息。

图丨谷歌地图中的火灾图在紧急情况下为人们提供关键信息。

　　我们也在努力完善可持续发展计划。谷歌在 2007 年成为第一家实现碳中和的大型公司，也在 2017 年成为第一家使用 100% 可再生能源的公司。我们运营着行业中最清洁的全球云，也是世界上最大的可再生能源企业采购商。在 2020 年，我们成为第一家承诺在全球所有数据中心和校园中全天候运行无碳能源的大型公司。这比将能源使用与可再生能源相匹配的传统方法更具挑战性，但我们希望能在 2030 年前完成这一目标。目前，机器学习模型训练的碳排放是该领域关注的主要问题，而在模型架构、数据中心和机器学习加速器方面做出正确的选择，可以减少约 100-1000 倍的碳足迹训练量。

趋势5：对机器学习有更深入和更广泛的理解

　　随着机器学习在技术产品和社会中的应用越来越广泛，为了确保它被公平和公正地应用，我们必须继续开发新技术，以确保它惠及更多人。这是我们“负责任人工智能和以人为本技术”(Responsible AI and Human-Centered Technology)研究小组的主要研究重点，也是我们对各种责任相关主题进行研究的领域。

　　基于用户在线产品活动的推荐系统是研究的重点领域。由于这些推荐系统通常由多个不同部分组成，理解它们的公平性往往需要深入了解单个部分以及各个部分组合在一起时的行为。最近的研究工作揭示了提高单个部分和整个推荐系统的公平性的方法，有助于更好地理解这些关系。此外，当从用户的隐藏活动中学习时，推荐系统以一种无偏差的方式进行学习。因为从以前用户所展示的项目中直接学习的方法中会表现出很明显的偏差。并且如果不对这种偏差进行纠正，推荐产品被展示的位置越显眼，它们就越容易被频繁推荐给未来的用户。

　　与推荐系统一样，上下文环境在机器翻译中也很重要。因为大多数机器翻译系统都是独立地翻译单个句子，并没有额外的上下文环境。在这种情况下，它们往往会加强与性别、年龄或其他领域有关的偏见。为此，我们长期以来一直在研究如何减少翻译系统中的性别偏见。为了帮助翻译界研究，去年我们基于维基百科传记的翻译来研究翻译中的性别偏见，并发布了一个数据集。

　　部署机器学习模型的另一个常见问题是分布转移：如果训练模型的数据统计分布与输入模型的数据统计分布不一致，那么有时模型的行为是不可预测的。最近的研究中，我们使用 Deep Bootstrap 框架来比较现实世界和“理想世界”(ideal world)的区别，前者的训练数据是有限的，而后者拥有无限的数据。更好地理解模型在这两种情况下(真实与理想)的行为，可以帮助我们开发出更适用于新环境的模型，并减少在固定训练数据集上的偏差。

　　尽管人们对机器学习算法和模型开发的工作有极大的关注，但研究者们对于数据收集和数据集的管理往往关注较少，但这些研究也非常重要，因为机器学习模型所训练的数据可能是下游应用中出现偏见和公平性问题的潜在原因。分析机器学习中的数据级联可以帮助我们识别机器学习项目生命周期中，可能对结果产生重大影响的环节。这项关于数据级联的研究已经在修订后的 PAIR 指南中为数据收集和评估提供了证据支持，该指南主要面向的是机器学习的开发人员和设计人员。

图丨不同颜色的箭头表示各种类型的数据级联，每个级联通常起源于上游部分，在机器学习开发过程中复合，并体现在下游部分。

　　更好地理解数据是机器学习研究的一个重要部分。我们对一些方法进行研究，来更好地理解特定的训练实例对机器学习模型的影响，这可以帮助我们发现和调查异常数据，因为错误标记的数据或其他类似的问题可能会对整个模型行为产生巨大的影响。同时，我们还建立了“了解你的数据”(Know Your Data)工具，以帮助机器学习研究人员和从业人员更好地了解数据集的属性。去年，我们还进行了案例研究，教你如何使用“了解你的数据”工具来探索数据集中的性别偏见和年龄偏见等问题。

图丨“了解你的数据”截图显示了描述吸引力和性别词汇之间的关系。例如，“有吸引力的”和“男性/男人/男孩”同时出现 12 次，但我们预计偶然出现的次数约为 60 次(比例为 0.2 倍)。另一方面，“有吸引力的”和“女性/女人/女孩”同时出现的概率是 2.62 倍，超过预计偶然出现的情况。

　　因为动态使用基准测试数据集在机器学习作领域中扮演着核心角色，了解它也很重要。尽管对单个数据集的研究已经变得越来越普遍，但对整个领域的动态使用数据集的研究仍然没有得到充分探索。在最近的研究工作中，我们第一个发表了关于动态的数据集创建、采用和重用的大规模经验性分析。这项研究工作为实现更严格的评估，以及更公平和社会化的研究提供了见解。

　　对每个人来说，创建更具包容性和更少偏见的公共数据集是帮助改善机器学习领域的一个重要方法。2016 年，我们发布了开放图像(Open Images)数据集，它包含了约 900 万张图片，这些图片用图像标签标注，涵盖了数千个对象类别和 600 类的边界框标注。

　　去年，我们在开放图像扩展(Open Images Extended)集合中引入了包容性人物标注(MIAP)数据集。该集合包含更完整人类层次结构的边界框标注，每个标注都带有与公平性相关的属性，包括感知的性别和年龄范围。随着人们越来越致力于减少不公平的偏见，作为负责任的人工智能(Responsible AI)研究的一部分，我们希望这些标注能够鼓励已经使用开放图像数据集的研究人员在他们的研究中纳入公平性分析。

　　我们的团队并不是唯一一个创建数据集来改善机器学习效果的团队，我们还创建了“数据集搜索”(Dataset Search)方法，使得无论来自哪里的用户都可以在我们的帮助下发现新的和有用的数据集。

　　社区互动：

　　谷歌非常重视应对网络暴力问题，包括使用极端语言，发表仇恨言论和散播虚假信息等。能够可靠、高效和大规模地检测到这些行为，对于确保平台安全至关重要，同时也能避免机器学习通过无监督学习的方式从网络上大量复制这些负面信息。在这方面，谷歌开创了领先的 Perspective API 工具。但是如何在大规模场景中精准地检测出有害信息仍然是一个复杂的问题。在最近，我们与不同的学术伙伴合作，引入了一个全面的分类法来应对不断变化的网络仇恨和网络骚扰情况。谷歌还对如何发现隐蔽性网络暴力，如微歧视进行了研究。通常，微歧视在网络暴力的问题中容易被忽视。我们发现，对微歧视这种主观概念进行数据注释的传统方法很可能将少数族裔边缘化。因此谷歌提出用多任务框架来解决问题的新的分类建模方法。此外，谷歌的 Jigsaw 团队与乔治华盛顿大学(George Washington University)的研究人员合作，通过定性研究和网络层面的内容分析，研究了极端的仇恨群体如何在社交媒体平台上散播虚假信息。

　　另一个潜在的问题是，机器学习算法生成的模型有时会产生缺乏证据支持的结果。为了在问题回答、总结和对话中解决这一问题，谷歌开发了一个新的框架来衡量算法结果是否可以归因于特定的来源。我们发布了注释指南，并证明可以使用这项可靠的技术来对候选模型进行评估。

　　模型的交互式分析和调试仍然是负责任地使用机器学习语言的关键。谷歌对 Language Interpretability Tool 的技术和功能进行了更新。更新包括对图像和表格数据的支持，从 What-If Tool 中继承下来的各种功能，以及 Testing with Concept Activation Vectors 技术对公平性分析的内置支持。机器学习系统的可解释性也是谷歌提出的“负责任的 AI 愿景”(Responsible AI vision)的关键部分。在与 DeepMind 的合作下，谷歌开始了解自我训练的AlphaZero国际象棋系统是如何获取人类的象棋概念的。

　　谷歌还在努力拓宽“负责任的人工智能”的视角和格局，使其超越西方的局限。一项最近的研究提出在非西方背景下，基于西方机构和基建的算法公平概念并不适用。研究为印度的算法公平研究提供了新方向和新途径。谷歌正在几大洲积极开展调查，以更好地了解人们对人工智能的看法和偏好。西方视角下的算法公平研究倾向于只关注少数几个问题，因此导致很多非西方背景下的算法偏见问题被忽略。为了解决这一差距，我们与密歇根大学(University Of Michigan)合作，开发了一种弱监督薄的自然语言处理(NLP)模型，以便在更广泛的地理文化语境中检测出语言偏见，反映人类在不同的地理环境中对攻击性和非攻击性语言的判断。

　　此外，谷歌还探索了机器学习在发展中国家的应用，包括开发一个以农民为中心的机器学习研究方案。通过这项工作，我们希望鼓励人工智能领域更多思考如何将机器学习支持的解决方案带给千万小农户，以改善他们的生活和社区。

　　让整个社会的利益相关方参与到机器学习研发部署的各阶段是谷歌正在努力的方向，这让谷歌牢记什么才是最需要解决的问题。本着这一原则，我们和非营利组织负责人、政府和非政府组织代表以及其他专家之间举行了健康公平研究峰会(Health Equity Research Summit)，讨论如何将更多的公平带入整个机器学习的生态系统，使公平原则从最初的解决问题贯穿到结果评估的最后一步。

　　从社会出发的研究方法让谷歌在机器学习的系统中就思考数字福利和种族平等问题。谷歌希望更多了解非洲裔美国人对 ASR 系统的体验。谷歌也在更广泛地听取公众的意见，以了解机器学习如何在重大生活事件中提供帮助，例如提供家庭照顾。

　　随着机器学习能力的提高和在许多领域的影响，机器学习中的隐私保护是一个研究重点。沿着这个思路，我们力求解决大型模型中的隐私问题。谷歌既强调训练数据可以从大型模型中提取，也指出了如何在大型模型(例如 BERT)中实现隐私保护。除了上面提到的联邦学习和分析技术，我们还一直在使用其他原则性和实用性的机器学习技术来保护隐私。例如私有聚类、私有个性化、私有矩阵补全、私有加权采样、私有分位数、半空间的私有稳健学习，以及私有 PAC 学习。此外，我们一直在扩展可针对不同应用和威胁模型定制的隐私概念，包括标签隐私和用户与项目级别隐私。

　　数据集：

　　谷歌认识到开放数据集对机器学习和相关研究领域的普遍价值，我们继续扩大我们的开源数据集和资源，并在 Google DataSet Search 中增加了开放数据集的全球索引。今年，我们发布了一系列各个研究领域的数据集和工具：

总结

　　学术研究往往要经历多年才能在现实世界产生影响。人工智能领域先驱的工作现在对现在的谷歌产品和全世界都产生了戏剧性的影响。对 TPU 等机器学习加速器和 TensorFlow、JAX 等软件的开发经取得了丰硕成果。谷歌在自己的产品中正越来越多地使用机器学习模型，因为它功能强大，在性能关键型的实验和生产中表现优异。在创建 Seq2Seq、Inception、EfficientNet 和 Transformer 等模型的过程中对模型结构的研究正在推动语言理解、视觉、语音识别等领域的进步。语言、视觉和语音识别等领域对解决问题具有变革性，因此，这类型的机器学习模型被广泛部署用于许多产品中，包括 Search, Assistant, Ads, Cloud, Gmail, Maps, YouTube, Workspace, Android, Pixel, Nest 和 Translate。

　　对机器学习和计算机科学来说，这是一个激动人心的时代。通过处理语言、视觉和声音，计算机理解周围的世界并与之互动的能力在不断提高。同时计算机也在不断为人类开拓新疆界贡献力量。前文所述的五个方面正是这漫长旅程中的许多进步的节点！

霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
Tomcat：Java Web应用的幕后英雄互联网动态分析 tomcat
在当今数字化浪潮中，Java作为一门成熟且广泛应用的编程语言，支撑着无数企业级应用和互联网服务的稳定运行。而在JavaWeb开发领域，Tomcat无疑是一个举足轻重的存在，它宛如一位默默耕耘的幕后英雄，为众多Web应用提供了可靠的运行环境。Tomcat的起源与发展Tomcat的故事始于1999年，当时SunMicrosystems（后被Oracle收购）与Apache软件基金会合作，旨在为Java
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
使用NVIDIA NeRF将2D图像转换为逼真的3D模型（Python） ByteWhiz 3d python 计算机视觉 Python
使用NVIDIANeRF将2D图像转换为逼真的3D模型（Python）NeuralRadianceFields（NeRF）是一种强大的方法，可以将2D图像转换为逼真的3D模型。它使用神经网络来建模场景的辐射场，并通过渲染多个视角的图像来重建3D模型。在本文中，我们将使用Python和NVIDIANeRF库来实现这一过程。首先，我们需要安装所需的库。我们可以通过以下命令使用pip安装NVIDIANe
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
【亲测免费】 Mamba：快速跨平台的包管理器林梦雅
Mamba：快速跨平台的包管理器项目基础介绍和主要编程语言Mamba是一个用C++重新实现的Conda包管理器。它旨在提供比传统Conda更快的包管理和依赖解析速度。Mamba的核心部分使用C++编写，以确保高效性和性能。同时，Mamba也使用了Python和其他一些辅助语言来实现其功能。项目核心功能Mamba的核心功能包括：快速依赖解析：利用libsolv库进行高效的依赖解析，这是RedHat、
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
什么是ORM？它如何简化后端开发？破碎的天堂鸟学习教程数据库
什么是ORM？ORM（对象关系映射，Object-RelationalMapping）是一种编程技术，用于解决面向对象编程语言与关系型数据库之间的数据转换问题。其核心是将数据库中的表结构映射为程序中的类和对象，使开发者能够以操作对象的方式操作数据库，而非直接编写SQL语句。具体而言：映射机制：数据库表→编程语言中的类（如User类对应users表）表字段→类的属性（如username字段对应Use
2023高薪前端面试题（二、前端核心——Ajax）
原生AjaxAjax简介Ajax全程为AsynchronousJavaScript+XML，就是异步的JS和XML通过AJAX可以在浏览器中向服务器发送异步请求，最大的优势是：无刷新获取数据，实现局部刷新Ajax是一种用于创建快速动态网页的技术AJAX不是新的编程语言，而是一种将现有的标准组合在一起使用的新方式Ajax的应用场景页面上拉加载更多数据列表数据无刷新分页表单项离开焦点数据验证搜索框提示
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
图神经网络：挖掘关系数据中的宝藏
图神经网络：挖掘关系数据中的宝藏在浩瀚的数据海洋中，蕴藏着一类特殊而强大的资源——关系数据。它们不是孤立的点，而是相互连接、彼此影响的复杂网络：社交平台上朋友的朋友、电商系统中商品与用户的互动、蛋白质分子内原子的结合、城市交通网中的道路连接……这些数据天然以图的形式存在，节点代表实体，边则承载着实体间千丝万缕的关系。传统的数据挖掘工具面对这些盘根错节的结构往往力不从心，而图神经网络（GNN）的崛起
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
Dart 语言知识点总结小李飞飞砖 javascript 开发语言 ecmascript
Dart语言知识点总结Dart是Flutter框架的编程语言，是一种面向对象的、强类型的、支持垃圾回收的语言。以下是Dart语言的核心知识点：一、基础语法1.变量与常量//变量声明varname='Alice';//类型推断Stringname='Alice';//显式类型dynamicdynamicVar='String';//动态类型//常量finalfinalVar='不可修改';//运行时
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？架构师李肯嵌入式物联网开发进阶 c语言面试性能优化
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？我相信大部分初中级C程序员在面试的过程中，可能都被问过关于memcpy函数的问题，甚至需要手撕memcpy。本文从另一个角度带你领悟一下memcpy的面试题，你可以看看是否能接得住？文章目录1写在前面2源码实现2.1函数申明2.2简单的功能实现2.3满足大数据量拷贝的功能实现3源码测试4小小总结5更多分享1写在前面假如你遇到下面的面试
Python数据分析：从入门到精通
引言在当今数据驱动的时代，数据分析已成为企业和组织做出明智决策的关键。Python作为一种强大的编程语言，因其简洁性和丰富的数据分析库而成为数据科学领域的首选工具。无论你是初学者还是有一定经验的数据分析师，本指南都将带你从入门到精通Python数据分析，掌握必备技能和最佳实践。数据分析的重要性与Python的角色数据分析涉及收集、处理和解释数据，以揭示模式、趋势和见解。它有助于解决复杂问题，优化业
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache