七夕缘起-第4.2章-人为篡改的觉察

自从添加了‘循环冗余校验’后，牛郎织女信件内容的准确度极大提高。
但是最近，牛郎突然发现，信件中部分句子，还是有不少7次都没有正确传输的。
“难道是我对传输稳定性的预估有误？”牛郎暗自想，“但是这不可能啊。”
忽然，牛郎灵机一动：“不会是有人像篡改内容，但是尚不知校验规则，正在探索尝试吧？”
“这就危险了，‘循环冗余校验’难度不大，破解只是时间问题。”
“既然如此，还需要一种识别数据篡改的方式。”

接下来的几天，牛郎没有与织女联系。
牛郎心里清楚，每次联系都是给对方试探的机会，自己没有想好新的校验规则之前，需要尽量减少与织女的沟通。
“其实，也不是很难，只要找到一种方式，让全文所有内容参与计算，得出一个校验值就好了。”牛郎自言自语。
“但是，全文内容太多了，如果还是之前的笔画方式的话，恐怕误差会比较大。”
“同时，还要考虑安全性，算法总是会暴露的，如何在王母知道了算法的情况下，也尽量保证数据安全。”

看来，需要考虑的事情不少，牛郎想各个击破。
“首先，是算法上的问题。本质上还是笔画，只是按原来‘循环冗余校验’的方式，王母想要伪造太简单。”
“只要替换一句笔画相同的句子，就可以绕过校验了。这很危险，必须让每个字的笔画都参与运算，都会影响结果。”

“如果两句话字数、每个字的笔画数都一样，但是却要表达不同的意思，这很难。这就是新的校验法的核心思想。”

那么问题来了，具体应该怎么办呢？
牛郎想，不如先从简单地方式来思考，先把每个字的笔画，都写出来。
原本是一封全是文字的信件，每个文字对应的位置替换为笔画数，瞬间变成了一张数字表。
“这个数字表看起来很条理，不如把每一列都加起来试试。只是每一句话有长有短，最后的结果取决于最长的一句，这样不太好。”

牛郎重新思考了一下，信件中，最长的句子是80字，以后可能会有更长的句子，这样会失控的。
牛郎拿起一张新的纸，按照每行32个字的规则，将整篇信件抄写了一遍。
“现在好了，句子再长，由于32个字就会换行，再也不会出现校验值过长的问题了。”

牛郎重新在每个字的位置标好笔画数目，标点符号作为一个字，但笔画记为0画。
如此按照列加起来，牛郎得到了32个非常大的数字。
“从一定程度上讲，这32个数字，确实可以校验一篇内容的完整性。但这样，还是有点冗长了。”
这时候，牛郎又想起了那个魔数7，“不如把每个数字再除以7，取余数，这样就是32个一位数了，应该就方便多了。”

牛郎写下来这32个数字，还是感觉缺少了点什么。总感觉，好像是过于死板了，缺少一种灵动感。
突然，牛郎一拍脑门，“明白了！数字还是看起来太乱了，32位数字更是让人一眼就看晕了。”
“这样的话，我用12的余数，用12地支表示结果，每8个一组，应该会好很多了。”
于是，牛郎重新计算校验值，然后在下方写下了：
“子丑寅卯……”

牛郎看着一列一列计算出来的校验值，如此大量的文字，竟然最后的结果只有这么一串文字。
取个什么名字好呢？将信件分散为笔画，然后按列来计算，不如就叫做“散列算法”吧。
防止篡改的方法确定了，那么，如何避免计算出来的校验值被修改呢？
牛郎想了想，既然如此，就把这个校验值放在信件的第一行吧。
先发出去校验值，即使被拦截，由于对方不知道信件的整体内容，也是无法进行修改的。

牛郎赶紧给织女写了一封信，描述了这个方法，并约定以后的通信，都用这种方式进行校验。
牛郎很开心，自己终于解决了一个大问题。
第二天，牛郎收到了织女的回信，内容很简单：“通篇伪造怎么办？”

牛郎一时语塞，想想也是，自己解决了局部篡改问题，只修改部分内容可以被快速发现。
但是，王母知道了该机制后，确实无法改一部分，但他们直接把一整篇全伪造，我这还真没办法。
甚至，说的极端一点，现在我看到这封信，还真不能肯定，到底是织女写的还是王母写的。
这个问题，确实是有点尴尬的。

“看来，需要混入一些只有我和织女才知道的东西，才能保证对方身份的安全性。”牛郎想。
“比如，将我和织女初次见面的时间算进去？”
接着，牛郎又否定了自己的想法：“现在仅仅基于笔画，方法过于简单，多次通信后，王母可能反推出这个时间。”
“看来，要想办法强化这个算法的不可逆性质了。”

牛郎来到桌前，在纸上写出32位的校验值，然后又按照“年月日”的格式，写出了8位时间。
也就是说，牛郎需要将原始校验值与见面日期结合，生成一个安全的校验值，同时还要保证，见面日期不可被反推出来。
“要保证见面日期的安全性，这还真是有点难度的。”牛郎自言自语道，“因为安全校验值是明文传输的，而原始校验值则可以通过内容计算出来。”

牛郎想着想着，突然手中的笔不小心掉了下来，刚好涂掉了原始校验值的最后两位。
牛郎捡起笔，放到桌上，看着纸上留下的痕迹，灵机一动：
“对了，只要减少见面日期影响的位数，就很难反推了。如果见面日志只影响这最后两位，神仙也不能能基于它推出原来8位的日期。”

牛郎再次拿起笔，在纸上记下了处理思路：“取原始校验值的最后两位，与见面日期拼成10位，与剩余的30位原始校验值计算出2位尾数，拼回去作为安全校验值。”
那么问题来了，具体要怎么算呢？这没什么难点，在没有前人铺垫的情况下，我说啥不就是啥么？
牛郎重新看了一眼信件，将被涂掉的最后两位重新写到纸上。
“午戌。午是第7位，戌是第11位。那第二行，从第5位开始写这10位，第三行，从第11位开始写这10位内容。”
牛郎写好后，将这三列再次按列加起来，得到30位内容。

现在，要想办法将这30位变成2位数，并且要尽量有选择地丢弃一些信息，避免数据被反推。
牛郎很随性地想了一个办法：“第一位，将3的倍数位的内容加起来，取除以7的余数。”
“第二位，将4的倍数位的内容，加起来，也取7的余数。这样，由于筛选，见面日期总是部分参与运算，从而保证安全性。”
牛郎算出了结果，第一位是2，第二位是4，牛郎就在原始校验值的30位后面，补充上了这两位：“2对应‘乙’，4对应‘丁’，这就完整了。”

牛郎再次修书一封，告知织女。
虽然整个算法在书信中是明文，王母也可能看到，但是，王母不知道他们的初次见面日期，只能看，干着急。
不久，牛郎收到了织女的回信，信中高度评价牛郎的算法，同时也提出来一个新的问题：
“目前已知的仙术中，并没有‘统计文字笔画数’这样鸡肋的仙术……每次都手动数，太麻烦了……”
牛郎感叹，“也是，这种毫无攻击力、基本没有利用价值的仙术，谁会去创造呢？看来，是我展现实力的时候了……”
转念一想，“不对呀，我这神仙就学了一个‘HelloWorld’，然后就妄想创造仙术了，也太狂妄了吧……”

牛郎将自己的想法告诉织女，织女安慰了一番，然后在信中补充说道：
“仔细去体会HelloWorld，其实，仙术的本质，是能量的有无变换。”
“说简单点，有能量可以记作1，没有能量可以记作0，如此按一定规律交替，就是仙术。”
“当然，为了便于记忆，描述仙术时，一般8个一组。”
“虽然没有字数仙术，但我之前学过一个翻页法术，或许有参考价值，口诀是：00101100……”

牛郎此时对仙术还是一知半解，既然织女又教了一个，那就想办法用这个仙术解决问题吧。
牛郎翻出一本记录了已知所有文字的手册，就叫它字典吧。
“就到100页吧！”牛郎将100作为参数，代入到口诀中默念起来，手中控制着能量，按口诀中的0和1，规律地波动着。
当最后一位能量归位后，牛郎看到手中的字典亮了起来……

牛郎很高兴，然而，这字典亮了一下，接着有熄灭了。
“字典并没翻开呀，难道是能量不够？”牛郎再次执行口诀，这次控制1的能量比之前大了一倍。
这时，字典再次亮起来，仔细看这亮光之中，竟然显示出了字典的内容。
牛郎赶紧翻开字典，果然与第100页完全一致。
牛郎窃喜：“这比翻页高级多了呀，这是内容提取的仙术！不愧是织女传授的仙术，之后看书方便了，再也不用翻开了，哈哈。”
“但问题也来了，我怎么知道，一个字在哪一页上？要是按拼音来查的话，也就只省去了翻页的功夫，找到一个字还是太慢了。”

“看来，要考虑专门设计一个便于检索的‘笔画字典’了。”
牛郎赶紧来到桌子前，进行设计。
其实思路很简单，看到一个字，只要知道它的页码，就可以用仙术将这一页的内容提取出来了。
但是每页一个字和它的笔画，想法很好，问题出在页码上：如何看到一个字就知道它的页码？

这难不倒牛郎的，瞬间牛郎就想到了“拼音页码映射”思路。
一个字至少有一个读音，而读音除去声调外，最长是6位，每一位只能是单个的声母或韵母，共26种可能。
没有0，按声母bpmf从1开始排序，20个单声母刚好排到20，六个韵母从21开始排序。
如此，可以确定一个字的绝对页码数：比如，“牛”字，二声，niu，即对应页码 n i u 2。
转换为对应的数字，即 7 24 25 2 。
只是，这个四位数，每一位都超过10了呀？牛郎给出了解释：“满26进1而已。”

就这样，牛郎确定了笔画字典的模式：字典页码采用26进制，每个字根据声母、韵母、声调确定唯一页码。
当然，一页上同音字可能有好几个，这个暂时没法用仙术了，人工看下应该也很快了。
确定了字典的理论后，字典的编撰工作又成了难题：总不能一个一个手动抄吧？

无奈之下，牛郎只得继续求助织女。
织女很快给出了回复：“沙玉戒指还有印象吧？戒指内部是个空间，可以储存物品。”
“这世界上还有另一种储物戒，可以储存仙术，称为‘桃源仙戒’。你已经知道了，仙术的本质是0和1，一般可以写在纸上存储。”
“但是每次读取很不方便，所以，桃源仙戒可以绕过纸张记录，直接存储整段的0和1，按段整体读取，速度非常快。”
“你应该已经想到沙玉戒指中的传送仙术了吧？这‘沙玉’戒指，其实也是一个‘桃源仙戒’，你可以用它存储仙术信息。”

“对了，这沙玉也不是很高级的存储器，它对仙术的存储是有限的，大约是1吨信息吧。”
“简单说，大概有1亿块分区，每块分区可以存储长度大约为八千的仙术信息。”
“接下来是书页抽象仙术，配合它，你可以在沙玉中存储世界上所有的书籍……”

废话好像有点多，但是牛郎也算是听明白了，可以直接用仙术生成字典页，然后存储在沙玉中。
接着配合页面提取仙术，就能实现笔画的瞬间查找了。
牛郎赶紧开工，将字典按自己之前的设计，重新提取内容，存入‘沙玉’戒指中……

牛郎将一块分区划分为5块，表示5种声调。这样，每个分区，可以存储一种读音的文字了。
由于最长的读音有6个拼音长度，为了便于寻找页面，一共有26的6次方种组合。
因此，牛郎存储完所有的信息，一共用了3亿多个分区。

看着这坚硬的、圆盘状的戒指，牛郎不禁心生感叹：
“这东西，不如给它起个别名，就叫做‘硬盘’吧。不过，这1吨(T)的硬盘，容量不大呀，还是要省着点用啊。”

不管怎么样，事情反正是办到了。牛郎施展页面提取仙术，果然可以瞬间找到任何一个字的笔画。
牛郎非常开心，赶紧把这个好消息告诉织女，并详细说明了策略，便于织女也如法炮制。
织女回信称赞了牛郎的聪慧，同时也指出了不足：“初学仙术，就有如此设计，极为不易。”
“但是，其实存储是非常宝贵的资源，你仔细想想，有没有办法用1万块分区解决问题呢？”
“仙术，也是需要不断优化的。一本字典用3亿分区，整个戒指也就存不到4本字典。但如果只用1万分区，就能存10万本字典了。”

牛郎一想，还真有道理，自己存储仙术的方式，其中有很多空着的页，白白占用资源。
一块分区只划分为5部分，每一部分也就几个字，空着的太多了。
如何在保证自己查找方便的情况下，压缩仙术的存储空间呢？
现在确实没什么好的思路，看来，以后，有必要找个时间，优化下了自己的字典存储策略了。

版权说明：
文章内容系作者原创，转载请注明出处。
封面图片：
VJSHI素材-发光书本
图片源自网络，如有侵权，可联系作者删除。
拓展资料：
百度百科-MD5
百度百科-十二地支
百度百科-硬盘

七夕缘起-第4.2章-人为篡改的觉察

你可能感兴趣的:(七夕缘起-第4.2章-人为篡改的觉察)