我们生活在一个信息爆炸的时代,据 IDC 预测 2020 年全球产生数据量将超过 40ZB,相当于地球上每个人每年将产生 5200GB 的数据。
数据科普:存储单位换算表1 B(Byte 字节)= 8 bit
1 KB = 1024 B
1 MB = 1024 KB
1 GB = 1024 MB
1 TB = 1024 GB
1 PB = 1024 TB
1 EB = 1024 PB
1 ZB = 1024 EB = 1.0 × 1021 B
如何稳定地存储这大量的数据,已经成为了一个难题。这个难题背后,存储行业一直默默的支撑科技网络的发展,与我们的生活息息相关。
从最早应用于存储纺织行业图案的打孔纸卡,到后来用于调查人口时的信息存储,存储介质在历史的长河中也是不断的更迭演变。
唱片、磁带、碟片的诞生,音乐和影视行业进入了大家的视野,风靡一时;半导体、硬盘、闪存等的出现,推进了信息时代的发展进步。
数据存储默默的支撑着我们人类社会的进步发展,今天,就让我们来了解一下数据存储的发展历史。
第 0 章 什么是存储器
存储器,是电子设备中用来保存信息的「记忆」设备。
它具备存储数据和信息的能力,并且可以连续执行程序,进行广泛的信息处理。
在数字系统中,只要可以保存二进制数据的都可以称为存储器;在集成电路中,具有存储功能的电子元器件也成为存储器(如RAM、FIFO);在系统中,具有实物形式的存储设备也叫存储器,如内存条、内存卡等。
在计算机中的存储器包含内部存储器(内存)和外部存储器。
其中,内存由二部分组成:
Random-access memory (RAM) :随机存取存储器
Read-Only Memory(ROM):只读存储器
对于 CPU 来说,RAM 是主要存放数据和程序的地方,所以也叫做「主存」,也就是我们平常说的「内存条」,一旦断电数据就丢失了。
ROM 对于用户来说,只能读取数据不能写入信息,断电也没有关系,放 ROM 的数据一辈子都不会变,但不能进行修改调整。
外部存储器和内存有点不同,我们可以对「存储器」中的数据进行读取和写入,外部存储器中的数据会一直存在,直到被覆盖或删除,断电也不会丢失。
比如 U 盘就是一种很常见的外部存储器,能低成本+可靠+长时间存储上 GB 的数据,但在使用这种存储介质前,这么点儿的体积存储这么多数据,想都不敢想啊。
第 1 章 最早的存储介质 - 打孔纸卡
名词解析:打孔纸卡打孔纸卡又称穿孔卡、霍尔瑞斯式卡或 IBM 卡,是一块纸板,在预先知道的位置利用打洞与不打洞来表示数字消息。早期的数字电脑运用打孔机已输入信息的打孔卡当做计算机程序和数据的主要输入介质。
1801 年,法国人约瑟夫·玛丽·雅卡尔发明了打孔卡,当时用在控制织布机织出的图案。
1880 年代,美国人口调查局职员赫尔曼·何乐礼发明了用于人口普查数据的穿孔卡片及打孔卡片制表机,并于 1888 年申请了第一个专利权。
在 1890 年美国人口普查中,通过打孔制片和打孔机,仅 6 周就完成了统计。而此前 1880 年美国人口普查的数据全靠手工处理,历时 7 年才得出最终结果。
据说使用打孔卡纸打指令时,需要用一个特制的钢夹子把纸带夹住,夹子上有八个孔。根据预先约定的位置,用一个钢顶针在给定的孔位把计算机一条指令在纸带上钻成几个孔,有点像修鞋师傅给皮带打孔。
一个程序少说也有几百上千条指令,穿在纸带上后纸带足有好几米长,没有个三五天是穿不完的。
顺便提一下,何乐礼发明的打孔卡片制表机,是电脑的前身;他当时创建的制表公司,是今天 IBM 的前身。
20 世纪期间,打孔卡应用在单位记录机作为输入端、处理和计算机程序。到1940年代,纸卡标准是 80列x12行,一张卡能存 960 位数据 (80x12=960)。
据我们所知的最大纸卡程序是美国军方的「半自动地面防空系统」 简称 SAGE,一个在 1958 年投入使用的防空系统,主程序存储在 62,500 个纸卡上,大小 5MB 左右。
但其实打孔纸卡我们每个人几乎都用过,只不过是革新之后的形式 —— 答题卡。
答题卡是威廉 · 桑德斯(William E. Sanders)发明的,目的是为了增加考试阅卷效率。
和打孔纸卡有些类似,当时的学生需要用打孔器在答题卡上戳洞。阅卷时,每一个答案的选项位置,都会有一个金属棒对应。如果答案是正确的,金属帮就会从答题纸的孔穿下去。如果答案错误,金属棒就穿不下去。最终根据答题纸的称量结果换算出得分。
后来,迈克尔 · 索科尔斯基(Michael Sokolski)利用石墨的不透明性对答题卡进行了革新,也就出现了我们沿用至今的石墨答题卡(又称信息卡)。
在答题卡上,使用石墨填涂对应位置,然后用一束光扫描答题卡,因为石墨的特性是只会吸收和反射光线,而不会让光线透过它,被涂写的部分就会向外反射出光线。在反射出的方向上有捕捉光线的传感器,答卷数据就会被系统获取并计算出得分。
除了作为答题卡很实用,打孔卡纸作为存储介质,因为不用电而且便宜耐用,被持续使用了十多年。但它的缺点也很明显,就是读取慢,并且只能写入一次,打的孔无法轻易补上,对于存临时值,纸卡不好用,所以大家开始寻找更快更大更灵活的存储方式。
第 2 章 存储介质的发展史
20 世纪的科技发展速度真的很快,就在 1944 年,J. Presper Eckert 就发明出了一种优化方案,叫「延迟线存储器」(Delay Line Memory)。
原理如下,拿一个管子装满液体,如水银,管子一端放扬声器,另一端放麦克风,扬声器发出脉冲时会产生压力波,压力波需要时间传播到另一端的麦克风,麦克风将压力波转换回电信号。
这个延迟线存储器的原理,就是通过用压力波的传播延迟来存储数据。
有压力波代表 1,没有代表 0。通过内部电路连接麦克风和扬声器,再通过放大器来弥补信号衰弱,从而实现一个存储数据的循环。
研究出这个技术之后,Eckert 和同事 John Mauchly 使用延迟线存储器做了一个更大更好的计算机叫 EDVAC,总共用了 128 条延迟线,每条能存 352 位(bits),总共能存 45,000 位,这也是最早的「存储程序计算机」之一。
但「延迟线存储器」也有一个很大的缺点:每一个时刻只能读一位 (bit) 数据,并且只能顺序读取。所以又叫「顺序存储器」或「循环存储器」。
因为这个原因,延迟线存储器在 1950 年代中期就基本过时了。出现了一项新的替代技术,性能、可靠性更高,而成本更低的存储技术 —— 「磁芯存储器」。
给磁芯绕上电线,并施加电流,可以将磁化在一个方向,如果关掉电流,磁芯保持磁化;如果沿相反方向施加电流,磁化的方向(极性)会翻转,这样就可以用来区别存储 1 和 0。
通过把磁芯排列成网格,由电线来负责遴选行和列,也由电线贯穿每个磁芯, 用于读写一位(bit)。
磁芯内存的第一次大规模运用是 1953 年麻省理工学院的 Whirlwind 1 计算机,磁芯排列是 32×32,用了 16 块板子,能存储大约 16000 位(bit)。更重要的是,不像「延迟线存储器」,磁芯存储器能随时访问任何一位(bit),这在当时非常了不起。
「磁芯存储器」从 1950 年代中期开始成为主流,流行了 20 多年。
但因为工艺问题,一般是用手工编织制作,所以成本较高,大约 1 美元 1 位(bit) 。到 1970 年代,通过技术革新才下降到 1 美分左右。
不过即使每位 1 美分也很贵,现在我们的手机随便拍张照片都有 10 多MB,10MB 约等于 8000 万 bit,你愿意花 80 万美元存一张照片吗?
愿意的话可以文末扫码联系我,我给你打 5 折...
同期, 1951 年 Eckert 和 Mauchly 创立了自己的公司,设计了一台叫 UNIVAC 的新电脑,最早进行商业销售的电脑之一,它推出了一种新存储:磁带。
磁带是纤薄柔软的一长条磁性带子卷在轴上,磁带可以在「磁带驱动器」内前后移动,里面有一个"写头"绕了电线,电流通过产生磁场,导致磁带的一小部分被磁化,电流方向决定了极性,代表 1 和 0。
还有一个「读头」,可以非破坏性地检测极性。UNIVAC 用了半英寸宽,8条并行的磁带,磁带每英寸可存 128 位数据,每卷有 1200 英尺长,意味着一共可以存 1500 万位左右,接近 2 兆字节。
用于计算机的磁带直到 1980 年代才被广泛应用,由于磁带是循序存取的装置,尤为适合传统的存储和备份以及顺序读写大量资料的使用场景。但因为速度较慢,且体积较大等缺点,现在主要仅用作商业备份等用途。
1950、60年代,有个类似「磁带」的技术是「磁鼓存储器」,有金属圆筒,盖满了磁性材料以记录数据,滚筒会持续旋转,周围有数十个读写头,等滚筒转到正确的位置读写头会读或写 1 位(bit) 数据,为了尽可能缩短延迟, 鼓轮每分钟可以达到上千转。
到 1953 年,磁鼓技术飞速发展,已经可以买到存 80,000 位的「磁鼓存储器」,也就是 10 KB。
但到 1970 年代「磁鼓存储器」不再生产,然而,磁鼓技术也直接导致了硬盘的出现。
硬盘和磁鼓很相似,不过硬盘用的是盘,不像磁鼓用圆柱体,因此得名。原理是一样的,磁盘表面有磁性,写入头和读取头可以处理上面的 1 和 0。
硬盘的好处是薄,可以叠在一起,提供更多表面积来存数据。硬盘由 IBM 在1956 年开始使用,在 1960 年代初成为通用式电脑中主要的辅助存放设备,随着技术的进步,硬盘也成为服务器及个人电脑的主要组件。
世上第一台磁盘计算机是 IBM 的 RAMAC 305,1956 年诞生,它有 50 张 24 英寸直径的磁盘,总共能存 5 MB 左右,但却相当于两个冰箱的体积。
1970 年代,硬盘大幅度改进并变得普遍,这一年 IBM 3340 问世,它拥有「温彻斯特」这个绰号,来源于它的两个 30MB 存储单元,恰好是当时出名的「温彻斯特来福枪」的口径和填弹量。至此,硬盘的基本架构被确立。
1980 年,两位前 IBM 员工创立的公司开发出 5.25 英寸规格的 5MB 硬盘 ST506,这是首款面向台式机的产品,而该公司正是希捷科技公司。
但直到 1990 年代,一些硬盘若是受到了较大幅度的震动或磕碰,都很有可能损坏,许多人也在当时养成了在关闭硬盘后 30 秒至一分钟内、不会移动硬盘(及笔记本电脑)的习惯。
2010 年,氦气封装技术量产,除了让硬盘的容量变大外,温度和耗电能够再降低,耐用度和稳定性获得了大幅提升,电源关闭及遇到较大震动时磁头会立刻移到安全区,这让防摔能力也有了大幅进步。2011年,希捷宣布与三星强化策略伙伴关系,传统的硬盘也正逐渐地被固态硬盘所取代。
最后就到了我们相对比较熟悉的「软盘」和「光盘」。
软盘除了磁盘是软的,别的和硬盘基本一样。第一个软盘同样是由 IBM 于1971年开发出的,直径 8 寸。随着硬件技术的发展与使用的需要,又派生出 5.25 寸的软盘,并广泛使用在 Apple II、IBM PC 及其他兼容电脑上。
苹果 1984 年在 Mac 机开始采用 3.5 寸软盘,此时容量还不到 1MB,后来,由日本索尼的 3.5 寸软盘片容量有 1.44MB 所取代,这种软盘片 80 至 90 年代盛行,直至 2000 年代以前,3.5 寸软盘驱动器仍是电脑普及设备之一,之后才渐渐被淘汰,现在的 00 后应该都没见过了。
随着光学存储器的出现,「激光盘」在 1972 年出现,也就是我们熟悉的光盘(简称 CD)以及 90 年代流行的 DVD,功能和硬盘软盘一样,都是存数据,但用的不是磁性,光盘表面有很多小坑,造成光的不同反射,光学传感器会捕获到,并解码为 1 和 0。
如今,存储技术在朝固态前进,不再使用传统的机械活动部件,比如固态硬盘和 U 盘,里面是集成电路,但由于价格及存储空间与机械硬盘暂时还有不小的差距,固态硬盘暂时恐怕也还无法取代机械式硬盘。
第 3 章 新世代的存储介质
1. 世界最小存储介质
自从硬盘被发明以来,科学家一直努力试图开发新型制造工艺,让磁存储介质尺寸更小,同时排列更密集,从而可以存储更多的信息。
在 IBM 圣何塞研究院工作的一个国际研究团队近日宣布,他们成功地创造了目前世界上尺寸最小的磁体 —— 这个磁体仅由单个原子组成。同时,他们还成功地实现了利用这一微小的磁体来存储一个比特的数据。
这次的突破依靠的是 IBM 长达 35 年的纳米技术研究,包括荣获诺贝尔奖的扫描隧道显微镜。本周早些时候,IBM 宣布它将为商业和科学用途打造全世界首个商用量子计算机。在未来的扫描隧道显微镜研究中,将调查使用单个磁体原子执行量子信息处理的潜力。
2. 用玻璃作为存储介质
早在 2012 年,日立公司就发布了一项新技术用石英玻璃作为存储介质。这项存储技术的存储单元由边长 2 厘米,厚度 2 毫米的正方石英玻璃组成,每平方英寸可存储 40MB 数据,数据是通过石英玻璃上的激光作用点按照四层结构以二进制的格式进行刻录的,可使用普通的光学显微镜读取。
这种技术是以二进制方式存储数据的,通过在石英玻璃薄片上制造点阵将数据记录下来,而且只需通过普通的光学显微镜就能读取。
而想要读取这些数据,只需要对电脑进行简单的编程就可以了。所以不管以后的电脑有多先进,这些数据将永远可读。这块石英存储介质原型大小约为2平方厘米,厚度仅为2毫米,由石英玻璃制成,这是一种高稳定性的有弹力的材料,一般用于制作烧杯等实验室器具。
日立称,石英玻璃即使是在 1000 摄氏度的环境下两个小时,上面存储的数据也不会被破坏,此外,石英玻璃存储还可防辐射、防水和防各种化学物。
这种薄片能抵抗很多化学物品侵蚀,不受无线电波干扰,而且可以直接暴露在高温的火焰里。而且它还防水,这意味着它可以安然度过火灾或海啸等自然灾害。也就是说,除非你把它扔进太阳里,或者弄成碎片,否则这些数据基本上是可以永久保存的。
石英玻璃存储介质沉寂一段时间之后,微软公司给我们带来了新消息。11 月 4 日,在微软 Ignite 2019 大会上,首席执行官萨蒂亚•纳德拉展示了该公司 Project silicon 项目长期数据存储解决方案。
Project silicon 项目使用超快激光光学和人工智能将数据存储石英玻璃上。该玻璃存储设别尺寸为 75752(mm),最多可以容纳 75.6GB 的数据。微软官方表示该技术尚处于开发阶段,随着技术的迭代,未来这款玻璃硬盘将会有更大的容量。
在与华纳兄弟娱乐公司的合作下,这个团队将 1978 年的《超人》电影存储在一块玻璃上,大小和一个饮料杯垫差不多。
3. GitHub 的南极存储计划
上周 GitHub 宣布,为了把开源软件留给子孙后代,将在 2020 年 2 月 2 日为所有公共存储库生成快照,保存在北极一个地下 250 米的废弃煤矿,快照储存在胶片上,寿命高达 1000 年。
AWA 是挪威国有采矿公司 Store Norske Spitsbergen Kulkompani(SNSK)与长期数字存储提供商 Piql AS 的一项联合计划,AWA致力于永久保存档案。胶片卷轴将被存储在位于斯瓦尔巴群岛偏远群岛的一座退役煤矿内的密封室内的钢壁容器中。
至今为止,AWA 已经保存了来自意大利,巴西,挪威,梵蒂冈和许多其他国家的历史和文化数据。
更多相关信息,可以点击链接查看相关文章:《GitHub 启动代码永久保存计划,为人类文明留“火种”?》
第 4 章 研究存储介质的意义
对于我们大多数人来说,数据存储变得越来越容易。但是,人类一直在探究着如何稳定、大量地将数据保存起来。
2001 年乔布斯发布 iPod 时,炫耀的说:“1美元硬币大小的硬盘,足足可以存放1000首歌曲!”而现在,一张银行卡大小的原子硬盘却能存放整个 iTunes 音乐库,这已经不仅仅是数量上的变化了。
但这还远远不够,就像开头我们说的, 2020 年全球产生数据量将超过 40ZB,到 2025 年,估计每年将会产生 160ZB 的数据,这比可观测的宇宙中的星星还要多。
另一方面,随着社会的文明程度越高,我们对于文化的传承与保存就越加迫切,对于数据的安全和保存也有着更高的期待。前不久奇葩说中的那道辩题 —— “图书馆着大火,救猫还是救名画?”如果我们能有一种存储介质,可以永久、安全、稳定的保存我们的文化遗产,这样的问题也就不会发生。
还是那句话,就像 GitHub 的代码永久保存计划一样,希望我们的历史和文化,在千万年之后能被下一代「地球接班人」发现,估计挺有意思的~
欢迎大家在文末留言,我们会在留言中挑选一位幸运的朋友随机赠送一份小礼物哦( :技术图书、谷歌周边、GitHub 公仔、思否官方周边等等等等等等等)。
-END-
扫码加好友,一起变博学