随着人工智能(AI)模型在各个领域的广泛应用,模型文档化的重要性日益凸显。文档化不仅帮助用户理解、信任并有效地使用这些模型,还揭示了模型潜在的偏见、错误和局限性,这对于那些模型输出具有深远影响的领域尤为关键,如医疗保健、金融和执法等。然而,尽管模型卡片已成为记录AI模型的标准方法,但目前对于模型卡片的质量和信息量尚未进行系统分析。这一空白可能导致文档化实践的不足,从而妨碍了确保AI技术的公平性、问责性和公正使用的努力。
本研究对Hugging Face平台上的32,111份AI模型文档进行了全面的大规模分析,以了解AI社区如何采纳和适应模型卡片,以及当前文档化工作的优势和不足。研究发现,尽管模型卡片的采用在AI社区中已经相当普遍,但在不同部分的文档化工作中存在显著差异。例如,训练部分的填写率最高,而环境影响、局限性和评估部分的填写率最低,这表明需要更加重视这些方面的模型文档化。
此外,研究还通过对模型卡片的四个关键部分——局限性、用途、评估和训练——进行内容分析,发现数据的讨论在模型文档中占据了重要位置,有时甚至比模型本身更受关注。我们还进行了一项干预研究,通过为之前没有或仅有简单模型卡片的42个流行模型添加详细的模型卡片,评估模型卡片对模型使用的影响。研究结果表明,添加模型卡片与模型每周下载率的中等程度增加相关。
论文标题:What’s documented in AI? Systematic Analysis of 32K AI Model Cards
公众号「夕小瑶科技说」后台回复“32K”获取论文PDF。
Hugging Face作为一个领先的AI模型分发和部署平台,承载了大量的AI模型。截至2022年10月1日,Hugging Face上共有74,970个AI模型库,由20,455个不同的用户账户上传。这些模型库的数量呈现出指数级增长,每周增长率为3.16%,翻倍时间为22周。
尽管只有44.2%的模型库(32,111个)包含模型卡片,但这些模型占了总下载流量的90.5%,这突显了模型卡片在促进模型采用和使用方面的重要性。然而,这些模型卡片在不同部分的完整性上存在显著差异,例如环境影响、局限性和评估部分的填写率最低,而训练部分的填写率最高。
1. 模型卡片的定义与目的
模型卡片是一种标准化的文档形式,旨在提供关于AI模型的基本信息,其灵感来源于食品营养标签和电子行业的数据表。模型卡片的核心部分包括详细描述模型训练和验证程序、预期用途、潜在局限性(如偏差和公平性分析)以及使用指南。与学术论文或技术报告等其他文档格式相比,模型卡片因其简洁、相关性强且易于理解的特点,越来越受到AI社区实践者的青睐。
2. 模型卡片与其他文档形式的比较
模型卡片相较于学术论文或技术报告,提供了更为简洁、相关且易于理解的关于AI模型的信息,使其更易于被接受。模型卡片的更新性也是其一个重要方面,因为它们可以频繁更新以反映AI模型的任何变化、改进或新发现。相比之下,一旦发表的学术论文可能不会定期更新,可能导致信息过时。此外,许多流行的模型库,特别是那些来自工业界或开源爱好者的,可能没有伴随的学术论文或技术报告,这进一步凸显了模型卡片作为不可或缺的角色。
1. 模型卡片普及程度的统计分析
模型卡片作为AI模型的标准化文档形式,其普及程度在Hugging Face平台上的统计分析显示,截至2022年10月1日,共有74,970个AI模型库,其中32,111个(占比44.2%)包含模型卡片。这些带有模型卡片的模型占总下载流量的90.5%,表明模型卡片在促进模型采用和使用方面的重要性。
然而,尽管模型卡片的采用在AI社区中相当普及,但在文档的完整性和质量方面仍存在显著差距,超过一半的模型缺乏模型卡片。而且在模型卡片的不同部分之间,社区的关注度也存在不平衡,这表明需要在模型文档化的这些方面上加大重视。
2. 模型卡片各部分填写率的差异
模型卡片的不同部分填写率存在显著差异。环境影响(2.0%)、限制(17.4%)和评估(15.4%)部分的填写率最低,而训练部分(74.3%)的填写率最高。这种差异表明AI社区对模型卡片不同部分的关注程度不一,尤其是在环境影响和模型限制方面的关注不足,可能会阻碍用户做出明智的模型选择和使用决策,同时也削弱了对这些AI模型的信任。
1. 关键部分内容分析:限制、用途、评估和训练
模型卡片的限制部分揭示了AI模型面临的多种挑战和限制,包括免责声明、数据限制和模型限制。
用途部分则明确了模型的特定功能、操作指南和不当使用的警告。
评估部分强调了评估数据和评估结果,但往往忽略了特定子群体中的系统性错误。
训练部分则涵盖了超参数配置、训练数据和训练协议,这些信息对于透明度和可重现性至关重要。
(图为模型卡中章节字数的深入分析。a图指以字数计算的平均部分长度;b-c图指不同模型卡的不同社区关注模式)
2. 数据在模型卡片中的重要性
模型卡片内容分析揭示了数据在AI模型文档中的重要性。
在限制部分,数据限制和模型限制几乎同样受到关注。
在训练和评估部分,数据成为核心主题。
这种对数据的强调反映了现有文献中对数据在AI模型开发中重要性的认识。实践中,机器学习开发人员在数据上花费的时间是在模型上的两倍。数据的质量直接影响AI系统的性能、公平性、鲁棒性、安全性和可扩展性。因此,模型卡片中对数据的详细描述和讨论对于提高模型的质量和可靠性,以及促进负责任的AI研究具有重要意义。
(a图为模型卡部分的低填写率)
(b图为下载量高的型号和型号卡的正比关系;c图为模型卡部分的不同社区关注模式)
1. 研究设计与实施
为了评估模型卡片对AI模型使用的影响,研究者们设计并实施了一项干预研究。在这项研究中,选取了42个在Hugging Face平台上下载量较高但没有或仅有简略模型卡片的模型。这些模型卡片由具有AI研究背景的Hugging Face员工编写,平均每张模型卡片包含596.5个单词,平均编写时间为40分钟。将这些模型分为两批进行干预,第一批26个模型卡片在2022年11月7日的一周内上传,第二批16个模型卡片在2022年11月14日的一周内上传。
为了控制下载量在模型间的共同时间变化,研究者为每批实验组模型随机选取了92个控制组模型,这些控制组模型同样没有或只有简略的模型卡片,并且在创建时间和下载量上与实验组模型相似。通过计算干预前后三周的平均每周下载量的变化来比较实验组和控制组的下载量变化。
(图为模型卡干预研究。a图为实验设计,b图为实验输出)
2. 干预结果与分析
干预研究的结果显示,详细的模型卡片对模型的周下载量有中等程度的正相关影响。
特别是在第二批实验中,与控制组相比,实验组模型的平均每周下载量显著增加了29.0%(95% CI [10.6%, 47.5%]),而控制组的下载量变化不显著(p值:0.30)。
第一批实验的结果不太明确,实验组和控制组的平均下载量变化分别为2.4%(95% CI [0.5%, 4.4%])和2.2%(95% CI [-1.5%, 5.9%])。
这些结果可能受到外部因素的限制,例如第一批实验的干预后期与2022年感恩节假期重合,可能导致估计的效果大小偏向于空值。此外,研究中使用的样本量相对较小,可能导致两批实验结果之间的差异。未来的研究可以通过更大的样本量和控制外部因素来提供更明确的见解。
1. 模型卡片对模型使用的影响
模型卡片作为AI模型的标准化文档,对于模型的理解、信任和有效利用至关重要。研究表明,详细的模型卡片可以适度提高模型的下载率,这暗示了模型卡片在促进模型透明度、可用性和负责任的AI实践方面的潜在价值。然而,尽管模型卡片的采用在AI社区中已经相当普遍,但在不同部分的关注度上存在显著差异。例如,训练部分的填写率最高,而环境影响、局限性和评估部分的填写率最低,这表明社区在这些方面的关注不足。
2. 模型卡片的改进与标准化
研究者的主题建模分析揭示了数据在模型卡片中的重要性,这与AI模型开发中数据的重要性相呼应。未来的工作应该集中在制定策略和标准,以促进模型卡片文档的透明度和完整性。这对于建立信任、推动负责任的AI使用以及为用户提供选择和应用模型所需的关键信息至关重要。
此外,研究表明模型卡片的质量对模型的实际使用有影响,这为未来更广泛、更大规模的随机模型卡片研究提供了基础,这些研究不仅可以揭示模型卡片如何影响模型下载,还可以揭示模型使用的更广泛方面及其下游影响。
1. 模型卡片的重要性与普及情况
模型卡片作为AI模型的标准化文档形式,已在AI社区中得到广泛采用。在Hugging Face平台上,有44.2%的模型附带模型卡片,而这些模型占总下载流量的90.5%,凸显了模型卡片在促进模型理解和应用中的重要性。模型卡片的核心部分包括模型训练和验证过程、预期用途、潜在限制(如偏见和公平性分析)以及使用指南,它们提供了关于AI模型的简洁、相关且易于理解的信息。
2. 文档化实践中的差异与挑战
尽管模型卡片被广泛采用,但社区在不同模型卡片部分的关注度上存在显著差异。正如上文所述,关注度的不平衡,以及对模型限制的讨论的逐渐减少,不仅阻碍了用户做出明智的模型选择和使用决策,也削弱了对AI模型的信任。
3. 数据在模型卡片中的中心地位
研究者的主题建模分析揭示了数据在AI管道中的核心作用。在限制部分,数据限制和模型限制几乎同样受到关注。在训练和评估部分,数据同样是一个核心主题。这强调了数据在AI模型开发中的重要性,以及在当前AI研究中对数据工作的低估。
4. 模型卡片对模型使用的影响
通过对42个流行模型进行的模型卡片干预研究,我们发现详细的模型卡片与模型下载量的适度增加有关。这表明模型卡片的完善对模型使用有积极影响,但也需要考虑到实验设计的时间因素和样本大小的限制。
公众号「夕小瑶科技说」后台回复“32K”获取论文PDF。