数据派THU

图模型数据处理的综述

本文约4700字，建议阅读9分钟
本文从以数据为中心的角度对现有的图学习方法进行了系统的回顾和分类。

前言

近期，非欧几里得领域的进步引发了人工智能界的关注，图数据在许多领域都有广泛应用。在过去的十年中，图模型的创新推动了相关研究的发展，但很少有研究关注图数据的内在方面。

以数据为中心的新兴人工智能强调利用好合适的数据以提高模型性能，而图的不规则性给图学习带来了问题，因此，我们需要了解如何修改图数据以充分发挥图模型的潜力，以及如何防止图模型受到有问题的图数据的影响。

本文从以数据为中心的角度对现有的图学习方法进行了系统的回顾和分类，旨在回答两个关键问题：（1）何时修改图数据（2）如何修改图数据以发掘各种图模型的潜力。

特别是，为了回答第一个问题，我们将图学习过程分为四个阶段：准备、预处理、训练和推理，如图1所示。我们讨论每个阶段对于图数据的重要性。

接下来，我们从结构角度进一步对现有方法进行分类，以解决第二个问题。具体来说，我们分别考虑如何处理图数据的拓扑、特征和标签。

最后，我们分析了现有图数据中的潜在问题，包括脆弱性、不公平性、选择偏差和异质性。我们进一步讨论如何以数据为中心的方式解决这些问题。

图1 以数据为中心的图学习流程

本文贡献如下：

新型分类法。我们通过图学习管道的各个阶段（包括预处理、训练和推理）对现有的以数据为中心的图学习方法进行分类。对于每个阶段，我们介绍了其目标和对数据为中心的图学习的重视程度。
多元视角。我们强调如何处理图数据中的不同数据结构，包括拓扑、特征和标签，以发掘给定图模型的潜力。
全面讨论。我们分析了有问题的图数据对图模型的潜在影响，并讨论了如何以数据为中心缓解这些问题。此外，我们提出了四个以数据为中心的图学习的未来可能方向，这可能有助于该领域的发展。

1、预处理阶段

在本节中，我们将讨论图数据预处理阶段以数据为中心的方法。具体来说，我们将现有方法分为两类：基于修改和基于分布的方法。第一类旨在通过修改图数据实例来提高图模型的性能。第二类侧重于帮助图模型捕获数据集的分布，同时保持图实例不变。此外，我们还考虑不同的数据结构，包括拓扑、特征和标签。相关方法如表1所示。

表1 以数据为中心的图学习的分类和代表作

1.1 图形简化 (Graph Reduction)

随着图规模的增加，时间和空间的计算消耗也会增加。因此，在不丢失太多有用信息的情况下，减少图的节点或边是一个很有价值的问题。图形简化可以加速模型训练并减少过拟合，并允许模型在更简单的硬件条件下进行训练。图形简化可以分为两类：边简化（Edge reduction）和节点简化（Node reduction）。边简化指的是图稀疏化，而节点简化包括图简化（Graph coarsening）和图凝结（Graph condensation）。

1.2 图形增强 (Graph Augmentation)

数据增强在深度学习中被认为是非常重要的。由于图数据的稀缺性和稀疏性相当严重，因此好的增强方法的重要性更加明显。与其他数据形式相比，图形增强直接操作图结构，是图数据增强中最具特色的类型。

1.3 特征增强 (Feature Augmentation)

特征增强通过修改或创建节点特征来提高模型性能，防止过拟合。对于已有特征的图，可进行特征损坏、洗牌、遮蔽、添加、重写、传播、混合等操作。对于无特征的节点，可通过deepwalk、node2vec、SDNE等方法生成特征。非标记图中，可通过GREET等方法进行无监督学习实现特征增强。特征增强方法多样，可针对具体问题进行定制。

1.4 位置编码 (Position Encoding)

消息传递神经网络（MPNN）受限于1-Weisfeiler-Lehman（WL）测试，无法区分同构图。为解决此问题，通过添加位置信息增强节点特征，称为位置编码，包括绝对位置编码（APE）和相对位置编码（RPE）。APE为每个节点分配一个位置表示，广泛使用的方法是图形拉普拉斯的固有向量。RPE编码两个节点之间的相对信息，分为一维相对位置编码（1D-RPE）和二维相对位置编码（2D-RPE）。1D-RPE将锚点与目标节点之间的距离作为位置表示，2D-RPE通常用作图结构的归纳偏差，广泛应用于图Transformer架构中。

1.5 标签混合 (Label Mixing)

标签混合的目标是创建泛化性更强的模型，防止过拟合。混合方法在图分类和节点分类任务中很重要。通过混合图嵌入或随机替换子图，可以增强模型面对图分类任务的能力。在节点分类任务中，混合邻居节点的标签或嵌入可以提高性能。知识蒸馏可以帮助修改标签，为未标记的节点生成伪标签。图2展示了三种理解图数据分布的方法：图课程学习、图采样和图生成。

图2 图形数据分布及相关方法，其中红色圆圈表示数据样本

1.5.1 图的课程学习 (Graph Curriculum Learning)

课程学习（CL）是一种模仿人类学习过程的训练策略，通过从简单到复杂的样本进行学习，帮助模型更快收敛并提高泛化能力。图课程学习（Graph CL）是一种基于图的课程学习方法，主要用于图形神经网络的训练和优化。Graph CL方法可分为预定义的和自动的，预定义的Graph CL通过设计难度测量器和训练调度器来实现。设计难度测量器可以从数据或样本属性、数据关系等多个角度进行。训练调度程序可分为连续调度程序和离散调度程序。

1.5.2 图采样 (Graph Sampling)

图采样方法通过不同的策略对节点进行采样，只聚合部分节点的信息，从而加快模型收敛速度并减少内存开销。启发式采样方法可以划分为两个类别：随机采样和重要性采样。随机采样方法根据特定策略随机抽样要采样的子集的节点，如GraphSAGE、Cluster-GCN和Parallelize Graph Sampling。重要性抽样根据抽样策略对节点执行不同的抽样概率，如FastGCN、LADIES、GraphSAINT和PinSage。这些方法有助于克服邻域爆炸和内存溢出问题，提高模型性能。

1.5.3 图生成 (Graph Generation)

图生成器可以帮助解决图数据集太小的问题，通过生成额外的图数据。图生成方法分为自回归 (autoregressive) 和一步法 (one-shot)。自回归方法通过已生成的子图来创建新的节点和边，而一步法通过一次步骤生成整个邻接矩阵。One-shot方法比自回归方法更有效，但如何表示图形数据以更有效地建模仍然是一个挑战。从谱视角出发的方法可以更有效地捕获图的全局信息，而特定图的生成方法可以满足特定的应用场景。

2、训练阶段

这一部分介绍训练阶段中通过数据修改模块和消息传递模块相互协作来提高性能的图数据修改方法。具体介绍了三种模型与数据协作的训练模式，包括联合训练、自训练和双层训练。相关的方法如表1所示。

2.1 图自适应增强

传统的基于规则的增强方法可能不足以在下游任务中实现更强的鲁棒性和性能。相反，图自适应增强方法在训练阶段结合了增强程序。可分为三类：基于边、基于子图、自动增强。基于边的方法在某些损失函数的监督下操作邻接矩阵，基于子图的方法侧重于提取信息丰富的子图，而自动增强框架通过强化学习增强普通方法。

2.2 图自适应采样

自适应和可学习的采样算法，通过模型训练更新采样策略，实现最佳性能。这些算法通常对采样策略施加可学习的权重或概率，以自适应地调整采样。可学习的参数在正向传播中计算，并在反向传播中更新。这些方法分为两类：最小方差采样和最大性能采样。最小方差采样旨在分析或减少采样方差，以近似原始的全邻域聚合。最大性能采样直接优化模型性能，例如PASS使用梯度信息和任务性能损失来训练采样策略。

2.3 特征选择

“维数灾难”是指高维数据导致模型训练成本增加的问题。特征选择（FS）是一种解决“维数灾难”的方法，通过识别与标签高度相关的特征并优先考虑它们，降低计算成本并提高模型性能。在图学习中，通常采用嵌入式和包装器FS方法。嵌入式FS与模型的训练过程集成在一起，而包装器FS利用机器学习算法评估特征的重要性。基于Lasso的正则化方法和修改网络结构的方法都是嵌入式FS的常见策略。包装器FS方法不同于排名方法，引入了自适应邻居结构和更新的特征指示器，以强调自适应邻居结构，然后使用特征指示器对特征进行排序。

2.4 特征补全

数据质量在以数据为中心的学习任务中至关重要，但在训练场景中，数据往往不完整。图学习通过特征补全解决此问题，提取相邻节点属性以获得缺失节点属性的表示。传统方法用其他属性向量的总和或平均值替换缺失属性向量，忽略数据基本图结构。注意力算法、消息传递神经网络和集成方法等新方法被提出，以提高特征补全的准确性和多模态属性完成的能力。

2.5 图结构学习

图结构学习（GSL）是一种优化拓扑结构的方法，有助于缓解图模型鲁棒性受噪音影响的问题。联合训练和双层优化通过优化图结构和神经网络参数，提高模型在稀疏图上的去噪能力和对特征和语义之间复杂异构交互的理解。自我训练方法通过训练循环网络产生高质量的网络嵌入，进而训练图卷积网络以获取更好的网络嵌入。

2.6 图的自适应学习

自适应学习是一种半监督学习方法，用于图机器学习，通过调整实例难度和训练进度来更有效地利用图结构信息。具体方法包括DSP-GCN、CGCT和SPCGNN，它们通过调整标签增强策略来控制伪标签质量，减轻伪标签对训练数据增强的负面影响。自适应学习也可被视为一种自动课程学习方法，与其他类型的自动图课程学习方法类似。

2.7 主动学习

在图学习数据集中，存在大量未标记数据，主动学习选择最有价值的样本进行标记，以提高标签率和GNN模型性能。主动学习分为三类：成员查询合成、流式和基于池的。基于池的主动学习经常与GNN结合使用，可按查询方法分为基于不确定性的采样、基于多样性的采样和混合模型。

2.8 伪标签

伪标签是一种解决图神经网络中未标记数据和难以标记问题的方法。与主动学习不同，伪标签使用训练好的模型预测未标记数据，并参考相应指标进行标注。这些指标通常是预测样本标签的置信度。伪标签分为自训练模型和联合训练模型，它们主要在闭环迭代过程中是否依赖自身模型的估计和伪标签的预测。

3、推理阶段

推断阶段是将预训练图模型应用于下游任务的阶段，通过将下游任务重新定义为统一模板，实现高质量的知识转移和多任务适应。推理数据是在预训练模型推理阶段使用的图数据，调整推理数据作为提示有助于获得所需目标而不改变模型参数。提示学习方法在图的上下文中逐渐流行，分为两类：预提示和后提示，取决于任务特定提示是在消息传递模块之前或之后运行，如图1所示。

3.1 预提示

预提示方法通过修改输入图形数据以促进下游任务的适应。AAGOD利用提示学习在不改变GNN主干网络参数的情况下实现适应，通过将可学习的实例特定提示作为参数矩阵叠加在原始输入图的邻接矩阵上来修改拓扑结构。多任务提示方法通过构建诱导图并将节点级和边级任务重新定义为图级别任务，为输入图设计提示令牌并在消息传递之前通过加权所有提示令牌来修改每个节点的特征。

3.2 后提示

后提示方法通过在已传递消息的表示上运行任务特定的提示，以实现下游任务的适应。GraphPrompt和GPPT是图领域中提示学习的早期尝试，它们通过链接预测任务进行预训练，并利用可学习的提示来指导每个下游任务。GraphPrompt采用自监督链接预测任务，通过添加虚拟节点将节点分类任务和图分类任务统一为链接预测形式，消除了预训练任务与下游任务之间的差距。GPPT则主要关注节点分类任务，将特定任务的提示与节点表示拼接起来以指导适应。

4、图数据常见问题

本文讨论了在以数据为中心的方法中处理图数据问题的常见方法。首先，图数据中的脆弱性问题可以通过证书方法提高数据对扰动的鲁棒性。其次，不公平性问题可以通过公平性感知图增强和基于插值和纯化的图增强来解决。再次，选择性偏差可以通过稳定学习来缓解。最后，异构性问题可以通过图结构学习来减轻。

5、未来方向

标准化图形数据处理。现有图结构构建和数据处理方法受限于专家先验知识，导致图数据在不同领域间的可迁移性差。使用大型语言模型(LLMs)处理图数据，将节点特征统一在语言空间中，有助于在不同领域间转移知识。

提高通用图形数据质量。防止图模型受有问题的图数据影响至关重要。一种通用的方法是检测图数据缺陷并提高其质量。AAGOD通过自适应调整分布外图的边权值，将其变换成训练分布，以提高图模型性能。

图数据的持续学习。持续学习使深度学习模型能不断从数据流中学习新知识。图数据也可从图模型的预测中学习知识，优化自身。例如，图压缩方法利用图模型的梯度生成新图数据，可视为数据持续学习的特例。

少样本学习和上下文学习。“图基础模型”有望对图数据挖掘产生重大影响，关键在于赋予图模型在少样本和上下文上的学习能力。GraphPrompt首次尝试将图相关任务统一到链接预测框架中，并设计出任务相关的图提示。

参考资料：《 Data-centric Graph Learning: A Survey》

编辑：于腾凯
校对：林亦霖

算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python 实战人工智能数学基础：推荐系统应用 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.背景介绍2.核心概念与联系2.1用户画像2.2相似性计算2.2.1基于物品的相似度2.2.2基于用户的相似度2.3协同过滤算法2.3.1基于用户的协同过滤算法2.3.2基于物品的协同过滤算法2.3.3基于上下文的协同过滤算法3.核心算法原理和具体操作步骤以及数学模型公式详细讲解3.1基于用户的协同过滤算法3.2基于物品的协同过滤算法3.3混合协同过滤算法3.
Python桌面应用开发的未来——智能化工具与大模型赋能 IronwoodStag78
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！标题：Python桌面应用开发的未来——智能化工具与大模型赋能随着人工智能技术的飞速发展，传统软件开发模式正在被重新定义。Python作为一门功能强大且灵活的语言，在桌面应用开发领域一直占据重要地位。然而，面对日益复杂的用户需求和快速变化的技术环境，如何提升开发效率、降低开发门槛，成为开发者亟需解决的问题
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI产品经理需要了解的算法知识 AI劳模人工智能产品经理 AI产品经理 AI产品经理入门零基础入门产品经理算法语言模型
1、自然语言生成（NLG）自然语言生成（NaturalLanguageGeneration，简称NLG）是一种人工智能技术，它的目标是将计算机的数据、逻辑或算法产生的信息转换成人类可读的自然语言文本。换句话说，NLG能让机器“学会”写文章、报告、故事或者其他任何形式的文字，就像人类作家那样。这项技术使得机器能够理解复杂的数据并将其转化为易于理解的语言，以适应不同的受众和情境。应用实例：金融报告自动
【Python】OpenAI API 宅男很神经 python 开发语言
【Python与OpenAIAPI深度探索：从基础到未来】第一章：OpenAIAPI概览与核心概念1.1OpenAIAPI是什么？能做什么？OpenAIAPI(ApplicationProgrammingInterface，应用程序编程接口)是一套允许开发者通过编程方式访问和使用OpenAI开发的各种先进人工智能模型的服务。这些模型经过海量数据的训练，能够在多种任务上达到甚至超越人类水平。通过AP
Python：操作 Word 对齐方式 Thomas Kant Python python word c#
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】Python：操作Word对齐方式详解（左对齐/右对齐/居中/两端对齐）在日常办公自动化中，我们经常需要对Word文档中的段落设置对齐方式，如左对齐、右对齐、居中、两端对齐等。本文将带你使用python-docx库
TestCafe ➜ Playwright fixture 架构迁移指南 Thomas Kant 自动化测试 playwright testcafe typescript 测试架构
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】
医疗金融预测与语音识别中的模型优化及可解释性技术突破智能计算研究中心其他
内容概要随着人工智能技术的纵深发展，模型优化与可解释性技术正在重塑医疗诊断、金融预测及语音识别领域的应用范式。在医疗领域，基于自适应学习的动态参数调整机制，结合迁移学习的跨场景知识复用，显著提升了疾病筛查模型的泛化能力；而金融预测场景中，联邦学习框架通过分布式数据协作，在保障隐私安全的前提下，实现了风险预测模型的多维度优化。语音识别领域则依托边缘计算架构，将模型压缩技术与实时推理引擎结合，有效解决
【kafka】在Linux系统中部署配置Kafka的详细用法教程分享景天科技苑 linux基础与进阶 shell脚本编写实战 kafka linux 分布式 kafka安装配置 kafka优化
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，PyQt5和Tkinter桌面应用开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，云原生K8S，Prometheus监控，数据分析，Django
AI技术全景图鉴：从模型开发到落地部署的全链路拆解大模型玩家人工智能 langchain 大模型产品经理学习 ai 程序员
人工智能（AI）技术的快速发展，使得企业在AI模型的开发、训练、部署和运维过程中面临前所未有的复杂性。从数据管理、模型训练到应用落地，再到算力调度和智能运维，一个完整的AI架构需要涵盖多个层面，确保AI技术能够高效、稳定地运行。本文将基于AI技术架构全景图，深入剖析AI的开发工具、AI平台、算力与框架、智能运维四大核心部分，帮助大家系统性地理解AI全生命周期管理。一、AI开发工具：赋能高效开发，提
铸造软件交付的“自动驾驶”系统——AI大模型如何引爆DevOps革命 LucianaiB 评测人工智能自动驾驶 devops
铸造软件交付的“自动驾驶”系统——AI大模型如何引爆DevOps革命嗨，我是LucianaiB！总有人间一两风，填我十万八千梦。路漫漫其修远兮，吾将上下而求索。摘要(Abstract)本文深入探讨了人工智能大模型（AILargeModels）如何驱动DevOps从“自动化”（Automation）向“自主化”（Autonomous）的革命性跃迁。文章指出，AI大模型正成为现代软件工厂的“中枢神经系
解读《生成式人工智能服务管理暂行办法》我的大模型服务需要备案还是登记？纵深企服人工智能 AIGC 安全
一、大模型备案和登记是什么？根据《暂行办法》及相关指引文件，大模型相关的合规路径主要分为“备案”和“登记”两种。准确理解二者的定义、适用情形及区别，是企业合规的第一步。1、大模型备案（生成式人工智能服务上线备案）定义：大模型备案，通常指的是生成式人工智能服务上线备案。根据《暂行办法》，“提供具有舆论属性或者社会动员能力的生成式人工智能服务的，应当按照国家有关规定开展安全评估，并按照《互联网信息服务
显卡GPU的架构和工作原理 InnoLink_1024 芯片人工智能 AGI 架构硬件架构人工智能
显卡GPU（图形处理单元）是专为并行计算和图形处理设计的芯片，广泛应用于游戏、科学计算、人工智能和数据中心等领域。以下详细介绍GPU的架构和工作原理，涵盖核心组件、计算流程和关键技术，尽量简洁清晰。一、GPU架构概述GPU架构与CPU不同，专注于高并行计算，适合处理大量简单、重复的任务。其核心设计目标是最大化吞吐量，而非单任务的低延迟。主流GPU厂商（如NVIDIA、AMD、Intel）架构虽有差
Github 2025-01-07Python开源项目日报 Top10 老孙正经胡说 github 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2025-01-07统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Python项目10TypeScript项目1C++项目1OpenHands:人工智能驱动的软件开发代理平台创建周期：195天开发语言：Python协议类型：MITLicenseStar数量：31753个Fork数量：3660次关注人数：31753人
Python 生态发展之路仓颉编程语言技术文章 python
目录#Python是如何炼成的##生态系统持续扩张##Python开发的开源社区运作#更加广义的Python社区#广泛应用##Web开发、数据科学##不得不提的人工智能#支持Python成长的商业公司#Python成功之路小结##附：Python生态发展大事记#参考Python是现今最受欢迎的编程语言之一，2021年8月的TIOBE编程语言排行榜中，Python排名第二，仅次于C[1]。2017年
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs

图模型数据处理的综述

你可能感兴趣的:(人工智能)