大模型理论基础初步学习笔记——第五章 大模型的数据

大模型理论基础初步学习笔记——第五章 大模型的数据

      • 5.1 大语言模型背后的数据
        • 5.1.1 WebText和OpenWebText数据集
        • 5.1.2 Colossal Clean Crawled Corpus(C4)
        • 5.1.3 Benchmark的数据污染问题
        • 5.1.4 GPT-3的数据集
        • 5.1.5 The Pile数据集
      • 5.2 数据集文档
      • 5.3 数据生态
        • 5.3.1数据联盟(来自The Data Freedom Act)
        • 5.3.1.1简单总结
        • 5.3.1.2具体:
            • 1.数据应该属于群体而非个人。
            • 2.数据具有经济价值。
            • 3.数据应该属于群体而非个人。
            • 4.数据联盟
            • 5.数据联盟的争议与作用
        • 5.3.1.3总结
    • 参考:

本文GitHub地址https://github.com/panda-like-bamboo/Study-CS324

5.1 大语言模型背后的数据

5.1.1 WebText和OpenWebText数据集

大型语言模型,如GPT-2,使用WebText数据集进行训练。WebText的构建目标是获取多样化且高质量的数据。研究者通过抓取至少获得3个赞的所有外链,过滤维基百科,最终得到了40GB的文本。类似地,OpenWebText采用了相似的构建方法,模拟和复制WebText的数据特性和结构。在毒性分析方面,OpenWebText和WebText都显示了一定比例的内容毒性。

5.1.2 Colossal Clean Crawled Corpus(C4)

用于训练T5模型的C4语料库从2019年4月的Common Crawl快照开始,经过处理得到了806GB的文本。Dodge等人的深入分析揭示了C4数据集的元数据、包含的数据、排除的数据等方面的细节。其中,部分数据来自patents.google.com,呈现了一定的代表性不均衡。

5.1.3 Benchmark的数据污染问题

基准数据的使用可能导致训练数据和测试数据的不分离,即数据污染问题。以XSum摘要数据集为例,存在输入和输出污染,这会影响基准性能的偏差。数据污染在大型语言模型领域是难以避免的,但需要注意其潜在影响。

5.1.4 GPT-3的数据集

GPT-3的数据集主要来源于Common Crawl,与WebText相似。通过使用二元分类器和模糊去重方法,GPT-3对数据进行处理,同时也扩大了数据来源的多样性。此外,提出了寻找更高质量数据来源的思路,如The Pile数据集。

5.1.5 The Pile数据集

The Pile数据集包含825GB的英文文本,由22个高质量数据集组成。与GPT-3相比,The Pile包含更多未涵盖的信息。研究者对其进行了分析,包括毒性内容、性别/宗教偏见等问题,结果与之前的研究相符。

总体而言,对网络和私有数据的过滤和规划是必要的,但可能会引发偏见。同时,寻找非网络的高质量数据集是有前途的,但需要仔细记录和审查。

5.2 数据集文档

在大型语言模型领域,数据集文档的重要性被强调。文档记录不仅让数据集创建者反思决策,还使使用者了解何时可以使用数据集。文档涵盖了数据集的整个生命周期,包括创建动机、数据来源、收集过程、预处理和清理、使用方面、分发方式和维护。

专注于NLP数据集的工作,如数据声明,进一步强调了语言多样性、说话人和注释者的人口统计信息等方面的问题。

5.3 数据生态

在数据管理方面,传统机器学习领域将数据集视为固定对象,但数据库领域则思考数据的产生和使用生态系统。BigScience项目和数据尊严概念提供了对数据生态的不同角度的思考。数据尊严强调数据作为群体财产,提出了数据联盟的概念,为数据生产者和购买者之间的谈判提供了一种中间组织。

最后,强调了数据的透明度和文档记录对于构建负责任的大型语言模型是至关重要的。

5.3.1数据联盟(来自The Data Freedom Act)
5.3.1.1简单总结

一个平台,可以进行数据交易,能一定程度上保证数据隐私与数据贩卖的利益,可以让资本不再为所欲为的买卖使用数据;另外可以方便管理,方便数据立法等。比如中国大模型语料数据联盟等。

5.3.1.2具体:
1.数据应该属于群体而非个人。

每个人的数据都可能损害他或她所在网络中其他人的利益。数据不仅仅是个人的,要聚集为集体的才有价值;而通过个人信息可以判断他人信息,所以单纯的将一个信息看作一个人的有可能损害他人利益。比如在网上上传了购物账单,可能就能从中判断出和你一起购物的家人的饮食喜好,无形中也损害了他们的数据信息隐私。

2.数据具有经济价值。

每个人都会产生数据,有些人靠着生产数据而生活。这些数据都有可能被少数人利用,产生相应的经济价值,从而产生剥削,而单纯的隐私立法是不足够的。即使在没有侵犯隐私的情况下,“财务”利益和“控制”利益也可能受到侵犯。
财务利益 指的是个人和社区对与他们有关的数据的经济价值的利益。
数据控制 利益指的是个人和社区决定有关他们的信息用途的利益。
“数据即劳动”,尽管仍然不完美,却有重要的优势。

3.数据应该属于群体而非个人。

实际上,人们没有独特、密封的数据集,而是像这样有重叠的数据。事实上,人们在社交网络中彼此靠近,它们的数据集就越重叠。它们包含许多数据点,这些数据点在本质上相同,例如多方邮件交流的记录或群体的共同照片。这种共同性在社交网络中靠近的人之间更为明显。因此,人们在社交上彼此越靠近,它们的数据集就越重叠,就像这样:重叠数据集的现象意味着个体的协商能力远远低于预期。如果一个人决定不喜欢他们为数据交换而得到的东西,他们不能阻止自己泄露大部分数据,因为他们无法阻止其他人泄露大片数据。相反,一个人可以撤回的数据–因此他们的实际协商杠杆的程度是有限的–限于他们独特的数据。

4.数据联盟

这个是这个文档的重点内容,就是说现在数据由上面这些问题,我们要进行解决。怎么解决?成立数据联盟。

数据联盟定义:提出了一种新型业务实体,称为数据联盟,作为数据生产者与数据使用企业之间的集体谈判实体。数据生产者将排他性数据使用权分配给数据联盟,由其代表协商隐私政策和数据合同。

数据联盟规则:数据联盟将受到一套严格规则和受托责任的约束,包括提交决策给成员投票、在某些情况下与其他数据联盟分享收益和控制权等。

联盟民主治理:规定数据联盟需提供成员投票的方便途径,委员会董事会至少三分之一的席位应由成员代表占据,且须定期重新选举。

联盟之间的控制和利润共享:对于数据存在重叠的情况,规定了数据联盟之间权利的行使方式,确保成员权益得到保护,防止“恶性竞争”。

永久数据产权和持续权益要求:禁止数据联盟永久出售任何数据,规定所有数据销售协议需为时限性,且要求对数据的持续权益进行谈判,确保成员权益在数据被利用后仍得到保护。

5.数据联盟的争议与作用

数据价值争议: 为什么人们应该为日常生活中产生的数据获得补偿?并非所有数据都是“废气”,一些数据具有创造性或生产性价值,但目前大公司主要垄断了这些数据。

代理人问题: 数据生产者与数据联盟之间是否存在代理人问题?法案通过强调会员投票、严格的合同时限和激励联盟增加会员数量等方式,努力缓解潜在的代理人问题。

私人监视问题: 是否鼓励人们接受更多私人监视?法案主张增加数据生产者的议价能力,使其能够更好地选择数据联盟,从而保护他们的数据。

数据商品化问题: 是否加剧了数据的商品化?法案试图在数据商品化和其他价值之间取得平衡,通过禁止永久数据销售来减少数据被视为纯粹商品的程度。

征税与数据联盟: 是否简单通过对数据购买方征税就足够了?作者认为数据联盟系统能够解决数字经济中的市场失灵问题,通过集体谈判和专业倡导者推动有效的利益协调。

数据价值分配问题: 法案是否会增加更有价值数据与较少有价值数据之间的不平等?作者认为法案主要将资本收入转变为劳动收入,从而限制富裕少数捕获数据经济价值的能力。

5.3.1.3总结

该提案旨在解决数据共享利益管理的问题。通过建立严格监管的数据联盟,它试图为参与数字经济的个体提供更有力的议价地位,以保护隐私、控制信息使用和分享利润。通过引入民主成员控制、相互间的索赔机制以及数据关系委员会的裁决,该框架旨在确保适应不断变化的技术环境。希望这一步骤有助于推动朝着更公平的数字经济方向迈进。

参考:

[1]datawhale讲义: https://github.com/datawhalechina/so-large-lm
[2]CS324: https://stanford-cs324.github.io/winter2022/lectures/

你可能感兴趣的:(学习,笔记,语言模型,人工智能)