生成型人工智能工具建立在各种大型、复杂的机器学习模型之上,这些模型需要大量的训练数据才能发挥作用。对于像ChatGPT这样的工具,数据包括从互联网上抓取的文本。对于像Lensa或Stable Diffusion这样的产品,数据包括照片和艺术。由于生成型人工智能对数据的巨大需求,许多人工智能开发人员可能会不分青红皂白地在网上搜寻数据。虽然在某些情况下,这些开发人员试图通过过滤掉受保护的作品、露骨的内容、仇恨言论或有偏见的输入来净化他们的培训数据,但清理数据的做法远未达到行业标准。如果没有有意义的数据最小化或披露规则,公司就有动机收集和使用越来越多(更敏感)的数据来训练人工智能模型。不分青红皂白地收集这些数据的借口增加了人工智能领域的竞争和创新,这对数据隐私状况有害。这种军备竞赛的说法为最大限度地收集数据创造了理由,以防以后提供一些模糊的优势。事实上,这些工具可以用更少的数据构建,而无需强制性和秘密的数据收集过程。
许多生成性人工智能工具使用基于从公开网站上收集的数据构建的模型。这些信息通常包括发布在社交媒体和其他网站上的个人信息。人们在社交媒体和其他地方发布信息的原因多种多样:让潜在雇主在LinkedIn上找到他们;以便朋友和熟人可以在Facebook、Twitter和Venmo上找到他们;这些原因有一个重要的共同特征:人们在网站上发布信息的目的是让信息在该网站上可见。但有时,一个人的个人信息在未经其同意的情况下被公开。第三方可能会公布他们的照片或其他关于他们的信息。一个平台令人困惑的隐私设置可能会导致一个人意外地提供他们的信息。软件错误或设计更改也可能暴露出一个人设置为仅对少数人可见的信息。
当公司收集个人信息并将其用于创建生成人工智能工具时,他们会将信息用于消费者不同意的目的,从而破坏消费者对其个人信息的控制。当个人将自己的数据发布到网上时,他甚至可能没有想到自己的数据会被公司使用。个人存储或托管被窃取的个人数据在初始状态中可能并不总是有害的,但也存在许多风险。多个数据集可以以造成伤害的方式组合在一起:当在不同数据库中传播时不敏感的信息在一个地方收集时可能会非常具有启发性,并且可以用来对一个人或人群进行推断。由于抓取会复制某人在特定时间存在的数据,该公司也会剥夺个人更改或从公共领域删除信息的能力。
不分青红皂白地为人工智能训练数据抓取个人信息所带来的隐私危害也给在线言论和互联网的开放带来了风险。随着人工智能工具将人们的个人信息用于越来越有害的目的,人们可能会更加犹豫是否在社交媒体或网站上分享任何未来可能被窃取的信息,即使这些网站承诺保护他们的数据。他们可能不太可能发布自己的照片,不太可能参加“互联网的巨大公共论坛”上的公开辩论,尤其是社交媒体,也不太可能拥有与他们相关的社交媒体档案或个人网站。剥夺人们参与公共话语和在线互动的权利将限制整个互联网的实用性,尤其是网络工具。
基本数据最小化原则规定,人们的个人信息只能用于每个人提供信息的特定目的。但目前没有法规禁止公司窃取人们的个人信息并将其用于培训生成性人工智能工具。美国的隐私法免除了大多数公开信息的监管,因为担心这些信息的收集和使用受到第一修正案的保护。但立法者低估了允许公司不分青红皂白地获取个人信息的重大反垄断隐私利益。
人们应该能够发布公开的个人资料照片,而不用担心这些照片会被用来制作深度伪造的照片或提供其他滥用人工智能的应用程序。限制公开个人信息收集和/或随后使用的法律既保护了人们控制信息的利益,也鼓励人们继续在互联网上公开信息。
许多生成型人工智能工具需要用户登录才能访问,许多工具保留用户信息,包括联系信息、IP地址以及用户在应用程序中的所有输入和输出或“对话”。这些做法涉及同意问题,因为生成人工智能工具使用这些数据来进一步训练模型,使他们的“免费”产品以训练工具的用户数据为代价。如下一节所述,这与安全性相吻合,但最佳做法包括不要求用户登录才能使用该工具,以及在用户主动使用后的任何时间内不保留或使用用户生成的内容。
生成型人工智能工具可能会无意中共享有关某人或某人业务的个人信息,或者可能包括照片中的个人元素。特别是,担心自己的商业秘密被员工整合到模型中的公司已经明确禁止员工使用该模型。
身份盗窃资源中心估计,2021年发生了破纪录的1862起数据泄露事件;;2022年又有1802起。除了侵犯隐私的固有危害外,还可能产生严重的下游影响。政府问责局的一份报告指出,受害者“由于身份盗窃而失去了工作机会,被拒绝贷款,甚至因未犯下的罪行而被捕。”然而,这些伤害并没有出现在受害者的银行对账单或信用报告上,而且几乎不可能控制社会安全号码的使用地点;由于其独特和不可更改的性质,SSN是政府和私营部门实体的强大标识符。更糟糕的是,与被盗的信用卡不同,被盗的SSN无法有效地取消或替换。拥有SSN的罪犯可以开立新的金融账户并实施身份盗窃,因为许多金融机构依赖SSN来验证交易。不出所料,司法统计局的研究表明,身份盗窃会导致严重的灾难。
近年来,随着勒索软件即服务、恶意软件即服务和其他代理服务的引入,威胁形势也变得更糟,雇佣的黑客通过这些服务生产了未经授权访问数据的方法。我们应该期待看到更多可购买工具的例子,通过这些工具可以在未经授权的情况下访问、加密和/或操纵数据。
正如所有其他类型的个人和组织都在探索生成人工智能产品的可能用例一样,恶意行为者也在探索。这可以采取促进或扩大现有威胁方法的形式,例如起草实际的恶意软件代码、商业电子邮件泄露尝试、网络钓鱼尝试。这也可以采取新型威胁方法的方式,例如,挖掘输入人工智能学习模型数据集的信息,或用战略上糟糕的数据毒害学习模型数据集中。我们还应该预料到,会有一些新的攻击向量,我们甚至还没有想到,这些向量还没有成为可能,也没有被生成人工智能更广泛地访问。
如果公司投资于员工培训和修补已知漏洞,他们可以减轻生成人工智能超级充电现有威胁方法的一些风险。然而,与人工智能模型本身的使用相关的风险将需要不同的解决方案,包括但不限于NIST人工智能风险管理框架中概述的解决方案和拟议的《美国数据隐私和保护法》(ADPPA)中要求的解决方案。
知识产权法包括版权、专利、商标和商业秘密。松散地说,版权保护任何表达媒介(比如书籍、音乐、戏剧和艺术品)的原创作品,专利保护发明,商标保护用于识别特定商品和服务来源的任何文字或符号,和商业秘密保护专有商业信息。知识产权法的每一个分支都包含作品创作者和所有者对该作品的特定权利,例如,控制该作品的使用方式或防止他人声称该作品是他们的。虽然知识产权法的所有领域都对生成人工智能的使用和作品的生成提出了挑战,但版权是迄今为止最常被援引的。
随着生成人工智能的兴起,知识产权法律保护的范围和有效性受到质疑。生成人工智能根据大量数据进行训练,这些数据通常包括受知识产权保护的作品。正如艺术调查与报道中心最近的一封公开信中所说,“人工智能艺术生成器是在巨大的数据集上训练的,其中包含数百万受版权保护的图像,这些图像是在创作者不知情的情况下采集的,更不用说补偿或同意了。这实际上是历史上最大的艺术抢劫案。”。“在这些作品上训练的系统可能会学习模仿特定的风格,就像在几个案例中已经发生的那样。几位风格被复制的艺术家对他们的作品被模仿表示了深深的沮丧、愤怒和沮丧,并指出人工智能正在从他们的作品中获利,以发展不同的风格,影响他们的生计,以及将深度个人工作简化为算法。用尼克·凯夫(Nick Cave)的话来说,一位艺术家面对一首以“Nick Cave”风格创作的歌曲,“这首歌是胡说八道,是对人类本质的怪诞嘲弄。”
关于知识产权保护在生成人工智能领域的延伸程度的问题可以分为这些系统的输入或输出周期。
案例研究-声音里有什么? 一首人工智能生成的歌曲,被称为德雷克和Weeknd之间的“合作”,出现在Spotify、Tidal、Apple Music和YouTube上,在周末迅速收集了足够的收听量和浏览量,并在周一之前出现在音乐排行榜上。这首歌是通过抓取艺术家声音和音乐的多个样本而创作的,创造了一首听起来逼真的新歌。在环球音乐集团多次提出版权要求后,这首歌被删除了,这引发了人们对原创歌曲是否可以获得版权的质疑,以及对声音和音乐风格被克隆的艺术家有什么保护措施。 |
生成型人工智能系统可以生成极其详细和适应性强的内容,因为它们是根据从互联网上收集的大量数据进行训练的。获取的数据类型会因系统类型而异。例如,人工智能艺术生成器将抓取艺术和图像,将有关其关键特征的信息翻译成代码,然后由这些系统审查模式、关系和规则,然后用于生成对用户提示的响应。由于这些系统的输出变得更加“准确”或对更多数据的响应,许多系统被编程为连续自动地抓取他们喜欢的内容类型。
这些庞大的数据集几乎总是包含受保护的作品。使用数据集创建生成人工智能系统的实体很少(如果有的话)获得艺术作品创作者和所有者的许可或执照来使用它们。事实上,许多艺术家公开表示,他们不希望自己的作品进入可能使他们过时的系统。
关于是否应该允许生成人工智能工具在没有许可证的情况下使用受保护的作品,目前存在着严重而持续的争论。一些人认为,这种使用构成了合理使用,这是一些适用范围非常有限的版权保护的例外。合理使用通常取决于使用受版权保护的材料。例如,使用该内容的研究或非营利组织可能比打算出售使用原创作品产生的作品的公司拥有更好的合理使用权。公平使用在多大程度上适用于生成人工智能仍然是一个悬而未决的法律问题。
生成人工智能的最终用户已经试图声称对生成人工智能工具的输出拥有所有权,其中包括一些试图向美国版权局申请版权的用户。越来越多的人使用生成人工智能来创作创意作品,以及随后的版权申请尝试,这足以促使版权局发起一项新的人工智能倡议。
到目前为止,美国版权局的声明规定,除非作品包含“人类行为者的创造性贡献”,否则作品不能获得版权保护,并指出版权只能保护“人类创造力的产物”。虽然有人认为提示构成了足够的“人类创造力”,可以为最终作品带来知识产权保护,但版权局不同意,将提示与“向受委托艺术家发出的指令进行比较,他们确定提示者希望描绘的内容,但机器决定这些指令在其输出中的执行方式。”
当工作的一部分是人工智能生成的,而一部分是人类生成的时,这种区别变得更加复杂。版权可能适用于包含或基于人工智能生成的作品的作品,但版权仅适用于人类创作的方面。
对作品创作者个人和艺术家群体的伤害是巨大的。
地球正朝着持续的气候灾难急速发展。气候变化已经造成数十万至数百万人死亡,数十亿美元的经济损失,以及物种的大规模灭绝。在未来,我们能够避免的每十分之一度的变暖都意味着数百万人的生命得到拯救,避免巨大的经济损失,以及一个宜居未来的机会。最终,出于选择或必要,我们的社会将根据资源和碳成本来评估每一个行业和活动。
在这种高风险的情况下,不断增长的生成人工智能领域崩溃了,这对我们的气候带来了直接而严重的影响:生成人工智能具有高碳足迹和类似的高资源价格标签,这在很大程度上是在公共人工智能话语的雷达下飞行的。
培训和运行生成性人工智能工具需要公司使用极端数量的能量和物理资源。用正常的调整和实验训练一个自然语言处理模型,平均排放的碳量与七个人全年排放的碳总量相同。
日常人/物体产生的二氧化碳磅数与生成人工智能相关任务的比较
人工智能模型需要大量的碳来生产,考虑到行业的激励措施,这一趋势不太可能有意义地改善。许多人工智能研究,尤其是在有效控制空间的大型科技公司,都以牺牲所有其他考虑为代价,关注准确性或相关措施。人工智能研究的很大一部分试图通过随着时间的推移投入指数级的更多资金来“购买”更好的结果,以线性提高准确性,而忽略资源成本等其他外部因素。这些成本是许多人工智能系统的物理要求:模型性能和模型复杂性之间的关系充其量是对数的,因此对于性能的线性增益,需要一个指数级更大、资源效率更低的模型。尽管一些人工智能研究人员已经开始关注效率,无论是出于成本削减还是环境原因,但没有理由认为大型科技公司会很快放弃对准确性的追求。
与此同时,人工智能开发人员用来训练和托管生成性人工智能模型的数据中心具有高昂的能源成本和巨大的碳足迹。尽管其中一些能源可能来自可再生资源,但由于几个原因,数据中心的能源消耗仍然令人担忧。首先,许多拥有数据中心的地区仍然使用碳密集型能源发电。其次,即使可再生能源可用,也可以更好地分配给家庭供暖、为温室供暖或进一步实现其他社会重要目标,而不是训练人工智能模型,但这种权衡通常不会被研究或讨论。
这些数据中心也以不可持续的方式占用资源。许多科技公司利用公共供水来冷却位于干旱地区中部的中心,这种做法引起了公众的强烈反对。“新的研究表明,仅GPT-3的训练就消耗了18.5万加仑(70万升)的水。根据一项新的研究,普通用户与ChatGPT的对话基本上相当于把一大瓶淡水倒在地上。”这些技术还严重依赖于在暴力和剥削条件下采购的矿物。
来源:Sasha Luccioni
最近的点击诱饵头条放大了人们的恐惧和炒作,宣扬生成性人工智能正在为人们的工作而来。虽然生成性人工人工智能将扰乱某些行业的工作方式,但现在要看这项技术将如何影响劳动力市场并融入现有工作还为时过早。
在劳动力和市场主导地位方面,苹果、Meta、亚马逊、谷歌和微软等大型科技公司雇佣了大部分人工智能研发行业。这些公司正在引导这些专业化的劳动力开发商业人工智能产品,这些产品可以用于私人利益,而不是公共利益。
大型科技公司也是开发新的生成人工智能系统的主导者,因为训练生成人工智能模型需要大量的数据、计算能力以及技术和财务资源。他们的市场主导地位对劳动力市场产生了连锁反应,既影响到这些公司内部的工人,也影响到那些在外部实施其生成人工智能产品的工人。凭借如此集中的市场力量、专业知识和投资资源,这几家大型科技公司在生成人工智能领域雇佣了大部分研发工作。创造就业机会的力量也意味着,面对经济的不确定性,这些科技公司可以削减就业岗位。从外部来看,这些公司开发的生成性人工智能工具有可能影响白领的办公室工作,以提高工人的生产力并自动化任务。
人工智能的整体发展正在改变公司设计工作场所和商业模式的方式。生成型人工智能也不例外。时间会告诉我们,雇主是否会在工作场所采用、实施和集成生成性人工智能,以及在多大程度上会对工人产生多大影响。
尽管如此,早期迹象表明,生成型人工智能将改变白领工作。许多白领已经开始接受生成人工智能来帮助完成日常任务,如起草演示文稿、营销材料、演讲、电子邮件、进行研究,甚至编码。Fishbowl的一项调查发现,43%的职场人士使用生成人工智能工具来完成工作任务,70%的受访者在老板不知情的情况下这样做。新闻媒体和网站使用ChatGPT来撰写全部或部分文章。招聘经理正转向生成人工智能来帮助撰写职位描述和起草面试问题,律师正在使用生成人工智能进行研究、行政任务,甚至起草合同。在医学领域,医生正在使用生成AI进行研究和总结患者就诊情况。
生成性人工智能的激增也产生了对有使用这些工具经验的工人的需求,以及围绕这些工具建立的全新工作岗位。根据ResumeBuilder.com的一项研究,十分之九的受访公司目前正在寻找具有ChatGPT经验的员工。生成型人工智能工具的兴起也产生了对“即时工程师”的日益增长的需求,即训练人工智能聊天机器人测试和改进答案,或以其他方式为ChatGPT等大型语言模型提供更好的即时输入的人。事实上,已经有了一个提示数据库,人们可以在其中销售自己的提示,以产生更好的结果。
并不是所有的雇主都加入了人工智能的浪潮。由于担心可靠性,一些工作场所对快速采用这项技术持谨慎态度,因为这项技术有时会对提示做出错误信息或错误答案的反应。其他雇主对安全风险和限制员工使用表示担忧。摩根大通、大通、美国银行、花旗集团和威瑞森等工作场所禁止员工使用ChatGPT。在员工将敏感数据上传到ChatGPT后,三星禁止了生成人工智能工具,并表示担心传输的数据存储在外部服务器上,难以检索或删除,可能会泄露给他人。
生成型人工智能对经济的总体影响还有待观察。一些专家表示,不受监管和自由部署的生成人工智能可能会损害竞争,压低工资,并导致过度自动化和不合格。但在讨论生成人工智能对劳动力的潜在风险时,需要区分生成人工智能工具是导致自动化还是增加工作角色。自20世纪80年代以来,收入不平等的很大一部分是由自动化驱动的。当生成人工智能用于自动化时,潜在的风险包括失业、劳动力贬值和经济不平等加剧。
人工智能对劳动的影响既有积极的一面,也有消极的一面。白宫的一份报告指出,人工智能“有可能提高生产力、创造新的就业机会和提高生活水平”,但它也可能扰乱某些行业,导致重大变化,包括失业。除了失业风险之外,工人可能会发现生成性人工智能工具使他们的部分工作自动化,或者发现他们的工作要求已经发生了根本性变化。
生成人工智能的影响将取决于该技术是用于自动化(自动化系统取代人类工作)还是增强(人工智能用于帮助人类工作者)。在过去的二十年里,自动化的快速发展导致了“劳动力份额的下降、工资的停滞以及许多发达经济体良好工作的消失。”专门用于自动化的人工智能可能会加剧这些负面趋势。
一些研究表明,如果人工智能取代了许多以前由工人完成的日常任务,人工智能可能会减少招聘。但其他研究表明,人工智能可以创造新的机会,特别是在高技能工作中,并提高工人的生产力专注于复杂或创造性的任务。然而,试图降低成本、实现利润最大化和增加股东价值的雇主更有可能优先考虑自动化而非增强工作的人工智能技术。
虽然现在确定人工智能是否会大幅贬值或完全取代工人还为时过早,但初步研究表明,生成型人工智能确实会影响与工作相关的任务。根据OpenAI的研究,“80%的美国劳动力可能会有至少10%的工作任务受到大型语言模型的影响”,这种影响预计将跨越各个行业的所有工资水平。 OpenAI的论文还发现,“大约19%的工人可能会有50%的任务受到影响。”
高盛的一份报告指出,生成型人工智能可能会影响多达3亿个工作岗位。生成型人工人工智能可能取代四分之一的现有工作,行政和法律部门的白领最有可能受到影响。高盛的报告还显示,人工智能将更普遍地影响劳动力市场,但该报告强调,这种影响在很大程度上取决于该技术的能力和采用方式。
通过降低成本来加速生产力、实现工作自动化和提高盈利能力的技术进步早在生成性人工智能繁荣之前就已经开始了。从历史上看,自动化是工资下降的最明显因素之一。根据白宫的一份报告,人工智能的大部分开发和采用都是为了自动化,而不是增加工作。该报告指出,对自动化的关注可能会导致劳动力市场不那么民主和公平。
考虑一下生成人工智能在软件工程行业对劳动力的潜在影响,许多初创企业正在使用GPT-4来减少在人类程序员上的支出。虽然生成人工智能不会很快取代所有软件工程师,但它将影响学习代码的可访问性、程序员的服务成本,以及人类程序员的需求。初级程序员可以从使用生成人工智能来帮助他们学习代码中受益,但更有经验的程序员可能会发现,随着竞争的加剧,他们的劳动价值会降低。
2021年,OpenAI首席执行官Sam Altman预测,将出现一场“势不可挡”的技术人工智能革命,一旦足够强大的人工智能‘加入劳动力’,许多类型的劳动力的价格将降至零。”Altman阐述道,由于劳动力是供应链的驱动成本,人工智能执行任务将降低商品和服务的成本。他承认,如果公共政策不适应这样一场预测中的革命,“大多数人的境况将比今天更糟。”这一预测表明,领先的生成型人工智能公司的首席执行官是如何看待未来的——人工智能加速了经济不平等。
此外,生成性人工智能加剧了人工智能技术研发中持续存在的全球劳动力差距。为了全球北方的利益,将劳动力外包给全球南方的分包商是科技行业和整个全球经济生态系统中更广泛的固有问题。被认为简单而常规的劳动力往往被外包到工人被迫以低工资进入恶劣工作条件的地方。人工智能供应链反映并再现了帝国殖民主义的不公平,在那里,拥有更大经济实力的全球北方从人工智能技术的扩散中获利,而将全球南方排除在外。
人工智能的发展一直显示出人工智能模型研究者和控制这些工具并从中获利的人之间的权力差距。培训人工智能聊天机器人的海外工作者或其在线内容被非自愿地输入培训模型的人并没有获得生成人工智能工具所产生的巨大利润。相反,那些剥削低工资和可替代工人的公司,或者艺术家和内容创作者的无薪劳动,都是首当其冲的。生成人工智能技术的发展只会加剧这种权力差距,大量投资于生成人工智能工具的科技公司以牺牲工人为代价从中受益。例如,OpenAI预计到2024年将实现10亿美元的收入。
但围绕人工智能的工人集体行动正在增长。例如,非洲150多名内容审核和数据标签员工最近投票支持成立工会。此外,美国作家协会举行罢工,部分原因是工作室拒绝就禁止使用人工智能生成剧本和使用作家的书面作品培训人工智能进行谈判。
人工智能和其他自动化决策系统长期以来一直以不透明和不负责任的方式部署,这会伤害个人并加剧现有的偏见。由于人工智能是根据历史数据进行训练的,并且经常被资源控制者(招聘公司、房东、政府福利机构)使用,黑人、妇女、残疾人和穷人受到的打击最为严重。伤害并不是微不足道的,算法系统让无辜的黑人男性入狱,因为女性的信贷限额较低,历史上黑人或拉丁裔大学的毕业生的利率较高,并阻止人们接受面试或工作邀请。
当你要求图像生成器生成清洁工的图像时,它更有可能显示女性,而当你要求它生成老板的图像时则更有可能显示白人男性。谷歌的巴德文本生成器复制了危险的阴谋论。它建议对同性恋者进行转化治疗,生成文本称跨性别者是“新郎”,并生成文本声称大屠杀的主要部分是捏造的。
生成型人工智能不适合用于确定重要的生活机会,但公众必须保持警惕,以确定人工智能在这些目的上的不当使用——例如在刑事司法或社会服务网站上为人们充当仲裁者的聊天机器人。
歧视是本文中概述的每一种风险的核心,边缘化社区将最密切地感受到安全漏洞、侵犯隐私和环境影响的负面影响。