《大数据时代》摘抄,第一部分大数据时代的思维变革(2、不是精确性,而是混杂性)

执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱,剩下95%的非结构化数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。

允许不精确——数据量的大幅增加会造成结果的不准确,与此同时,一些错误的数据也会混进数据库。然而,重点是我们通过努力避免这些问题,学会接受它们。混杂性一方面来自错误的数据(测量的不准确),也来自格式的不一致(如不同的日期格式、同义词)。为了扩大规模,我们接受适量错误的存在,有时得到2加2约等于3.9的结果,也很不错。为了了解大致的发展趋势,我们愿意对精确性做出一些让步。

“大数据”通常用概率说话,而不是板着“确凿无疑”的面孔。当我们试着扩大数据规模的时候,要学会拥抱混乱。

大数据的简单算法比小数据的复杂算法更有效——简单算法+大数据

纷繁的数据越多越好,如今,我们已经生活在信息时代。我们掌握的数据库越来越全面,它不再只包括我们手头现象的一点点可怜的数据,而是包括了与这些现象相关的大量甚至全部数据。我们不再需要那么担心某个数据点对整套分析的不利影响。我们要做的就是要接受这些纷繁的数据并从中受益,而不是以高昂的代价消除所有的不确定性。

大数据不仅让我们不再期待精确性,也让我们无法实现精确性。错误并不是大数据固有的特性,而是一个亟需我们去处理的现实问题,并且有可能长期存在。

要想获得大规模数据带来的好处,混乱应该是标准途径,而不是竭力避免。

今年大转变是非关系数据库的出现,它不需要预先设定记录结构,允许处理超大量五花八门的数据。因为包容了结构多样性,这些数据库设计就要求更多的处理和存储资源。

据估计,只有5%的数字数据是结构化的且能适用于传统数据库。如果不接受混乱,剩下97%的非结构化数据都无法被利用,比如网页和视频资源。通过接受不精确性,我们打开了一个未涉足的世界的窗口。

社会将两个折中的想法不知不觉地渗入了我们的处事方法中,我们甚至不再把这当成一种折中,而是把它当成了事物的自然状态。第一个折中是,我们默认自己不能使用更多地数据,所以我们就不会去使用更多的数据。但是,数据量的限制正在逐渐消失,而且通过无限接近“样本=总体”的方式来处理数据,我们会获得极大的好处。第二个折中出现在数据的质量上。在校数据时代,追求精确度是合理的。因为当时我们收集的数据很少,所以需要越精确越好。如今这依然适用于一些事情。但是对于其他事情,快速获得一个大概的轮廓和发展脉络,就要比严格的精确性要重要得多。

大数据要求我们有所改变,我们必须能够接受混杂和不确定性。精确性似乎一直是我们生活的支撑,就像我们常说的“钉是钉,铆是铆”,但认为每个问题只有一个答案的想法是站不住脚的,不管我们承不承认。一旦我们承认了这个事实甚至拥护这个事实的话,我们离真相就又近了一步。

你可能感兴趣的:(大数据)