全文共2734字,预计学习时长5分钟
图片来源:科学照片库/Getty Images
随着机器学习和其他数据密集型算法激增,更多公司正在收集大量数据,希望挖掘出其中的价值。从情报机构到网络基础设施提供商,一系列公司都在开展数据收集工作,这是数字经济的一部分。质量最好的数据可以和最灵巧的算法结合,从而完成一些惊人的事情,但是数据收集和计算密集型的工作也可能产生界外效应。
计算的发电成本和对环境的影响非同寻常,与日俱增。现代机器学习(ML)模型就是最好的例子。这些模型需要很多能源来处理大量数据。
开放人工智能(OpenAI)的研究显示,自2012年起,培养机器学习模型所需的计算成本呈指数增长,在18个月内就可翻倍。近几个月的类似研究表明,数字加密货币和视频流的用电成本同样不容小视,也正在攀升。
一般来说,为供应计算而发电会产生大量废气,只有很少的服务器机群完全依靠可回收能源运转。随着全球气候逐渐变暖,我们是时候意识到计算对环境造成的不良影响。正如使用塑料包装来包装所有小物件其实是种浪费,有些情况下使用计算机中央处理器(CPU)也是没有必要的。
多年来,计算机科学和工程专家一直在抱怨这一点。有人称人类只用4kb的内存就登上了月球。也有人详述了现代软件的缓慢和臃肿。 乔纳森·布洛(Jonathan Blow)甚至警告说,由于代际传递中知识的丢失,整个软件工程学科即将崩溃。
大多数时候,这个论点被当作工程精英主义的体现。它的支持者怀旧地回想起软件工程师这一称谓的确富有价值的时代。他们责备初学者不思进取,认为初学者热衷于炫耀外表,缺乏经验。尽管这一观点有些居高临下,但他们并非完全错误。
随着计算机的运行速度越来越快,计算机程序的发展实际上变慢了。终端用户没有注意到这一点,因为较慢的程序在较快的计算机上仍然运行得很快。于是,研究如何高效地使用内存或计算机中央处理器(CPU)周期对于许多开发者而言不再必要。
对于大多数用户来说,即使是相对低效的代码也能通过先进的计算机CPU快速运行。开发人员优先研发编程工具和编程语言,而不是研究提高CPU和内存效率,这已经成为常态。业务流程管理开发平台(AWS)和其他云服务也体现了这种权衡——当用户需要时,亚马孙将自动开启更多服务器,那么何必花费数周的开发时间来优化代码?
“效率越高越好”,这个口号并没有像“我们应该尽力省电,因为气候变化将威胁人类生存”一样激励我们。
图片来源:pexels.com/@skitterphoto
专业人士试图让行业达到高标准并没有错。但我确实希望支持“效率优先”的人使用更有说服力的策略而不是一味的责骂。尽管这可能只是我的个人感受,“效率越高越好”的口号,并没有像“我们应该尽力节约电力,因为气候变化将威胁人类生存”那样激励我。除了电力使用效率低下的问题之外,人类生成的数据本身就是一种数字污染物,它是信息时代的新型垃圾。
有些数据就像垃圾邮件一样是废品。有多少计算机资源专门用于每天发送数量庞大的垃圾邮件?侧边栏中不被点击的广告需要多少带宽?即使是微不足道的数字交易记录也被更多地传输到数据中心并存储。不停地絮叨几比特浪费的存储空间可能听起来很夸张,但存储空间浪费是一个严重的问题。
如图所示,加载推特(Twitter)需要6MB的数据容量:
2月份,Twitter声称他们拥有约1.26亿日均活跃用户。即使每个用户每天只加载一次主页,也意味着每天传输756TB的信息。这只是Twitter的数据。加上亚马逊、脸书、谷歌以及其他所有网站,大量数据占用线路,通过线上传输并占用CPU时间。这些数据中有多少真正为终端用户提供了实际价值?又有多少完全无关紧要的数据滑过屏幕?
所有数据传输都需要基础设施。我们需要更多更快的电缆,路由器,计算机和电话,需要从4G升级到5G,需要构建数据中心和服务器机群。这种数字浪费导致始终处于使用状态的物理基础设施不断增加,服务器机群使用的土地面积惊人。这些电子设备难以回收利用,而且在较高负载下会更快磨损。不断升级和更换这些电子设备的过程,特别是不断增加的废弃电子元件,造成了严重的环境和健康风险。如果更谨慎地使用这些基础设施,尽可能有效地传输和存储数据,我们就可以显著降低对基础设施和电力的需求。
有些数据本质上是寄生的,它们损人利己。浏览互联网时,广告商会追踪用户;浏览器加载项捕获用户的历史浏览记录;天气应用跟踪用户的位置,等等。用户个人历史的方方面面被出售给数据中间商,数据中间商将数据重新整合包装并转售给第三,第四和第五方。对大多数人来说,这些数据只是应该被丢弃的废品。大多数人永远不会彻底审查自己的互联网历史,但对于广告商和政治战略家来说,它可能是一个金矿。更糟糕的是,政府和公司将接连成为黑客的受害者。这些数据源将不可避免地落入不法之徒徒手中。
还有大量证据表明,尽管单独的数据都是无害的,但大型数据集可能导致更危险的后果。通过关联来自多个不同来源的信息,黑客可以拼凑出清晰的用户画像并使用该信息来获得更敏感的数据。许多“匿名”数据集受到这种手段的损害,以至于该领域有人宣称“匿名已经不再可能。”这些研究人员正在呼吁一种新的范式——优先考虑数据收集过程的透明化,而不是试图匿名化数据。
还有一些数据像放射性废物,用过的针头或带血的组织一样,它们的存在本身就十分危险。社会保障卡号码、信用卡号码、驾驶执照信息或其他高度敏感的信息只有在绝对必要的情况下才能存储。公司需要采取特殊预防措施,防止不怀好意者接触到它们。
图片来源:pexels.com/@vladvictoria
值得一提的是,有许多工程师专注于性能优化和隐私保护。但还有更多工作要做。在互联网时代,软件开发最美好的一面是,可以在世界各地立即部署改进方案。软件更新即时产生影响,并随着时间的推移降低处理和数据要求。
就像化石燃料行业一样,许多编程公司都在丰富自己的数据,忽略了产品的界外效应。
回到上面的粗略估计:仅仅Twitter一家公司将其页面内存减半,每天就可以节省378T的数据传输量。如果每家公司都尽量只存储绝对必要的数据,防止不法之徒盗取数据,那么用户的隐私会更加安全。就像化石燃料行业一样,许多编程公司都在丰富自己的数据,忽略了产品的界外效应。
留言 点赞 发个朋友圈
我们一起分享AI学习与发展的干货
编译组:顾家彤、张静影
相关链接:
https://onezero.medium.com/how-data-hoarding-is-the-new-threat-to-privacy-and-climate-change-1e5a21a49494
如需转载,请后台留言,遵守转载规范
推荐文章阅读
ACL2018论文集50篇解读
EMNLP2017论文集28篇论文解读
2018年AI三大顶会中国学术成果全链接
ACL2017 论文集:34篇解读干货全在这里
10篇AAAI2017经典论文回顾
长按识别二维码可添加关注
读芯君爱你