第四章 大数据与商业
大数据思维的三个亮点:第一是用统计规律和个案对比,做到精准定位。第二是社会其实已经默认了在取证是利用相关性代替直接证据,即我们在前面所说的强相关性代替因果关系。第三是执法成本,或者更广泛的讲,运营成本,在大数据时代会大幅下降。
对比亚马逊和沃尔玛,我们能够看到大数据时效性和个性化特征带来的好处。和亚马逊类似,Netflix的数据具有较强的时效性,它可以根据用户的反应很快调整他的市场策略。
先从大数据找到普遍规律,然后再应用于每一个具体的用户,并且影响到每一个具体操作。
针对终端用户大的商业,也就是ToC的生意很容易积累数据,同时能够利用大数据精细到每一笔交易的特点以提升商业水平。而针对企业级客户,所谓的ToB大数据也能提供全方位的帮助。企业级的设备采购常常是购买者的主动行为,也就是说购买者有了需求后,向销售者购买。在世界贸易中,销售者和制造者常常不是同一家公司。公司应该将“发动机的各种数据(地点、发电量、运行情况)全部收集到公司,进行大数据分析。一方面有助于针对性的进行市场推广,另一方面及时发现产品中的问题,从以来市场预测打价格战到提高产品质量扩大市场占比转变。
IT产业链的形成——安迪 比尔定律:在计算机领域,软件功能的增加和改进要不断地吃掉硬件性能的提升。
当那些厂商能够把控每一个用户、每一个产品和每一次交易细节,它们就能绕过很多经销的中间环节,直接和顾客做生意。厂商之间的核心竞争力不再是商品本身,而是更重要的服务。未来产品的服务水平不完全取决于厂商对它的重视程度(比如服务态度)和相关技术,而更多要依靠智能化。未来,商家将在数据层面和智能化方面展开竞争。
在未来,大数据和机器智能的工具就如同水和电这样的资源,由专门的公司提供给全社会使用。
第五章 大数据和智能革命的技术挑战
传统的数据方法常常是先有一个目的,然后开始收集数据。比如人们在发现海王星之后,发现它的运动轨迹和牛顿力学预测的不一样,于是预测在天王星之外应该有一个质量较大的行星干扰它的轨迹。根据这个设想,天文学家拍了很多星空的照片,想看看有没有一颗位置在移动、位置的星星,后来发现是海王星。在大数据时代,在收集数据时常常没有这样的预先设定的目标,而是先把所有能够收集到的数据收集起来,经过分析后,能够得到什么就论就是什么结论。正是因为在收集数据时没有前提和假设,大数据分析才能给我们带来很多预想不到的惊喜,也才使得大家觉得计算机变得聪明了。
事实上刻意收集来的数据意义不大,因为收集数据的过程会引起用户的警觉、恐慌和反感,一部分对信息安全敏感的人可能会关闭数据的传感设备,导致收集的数据不全面,而另一部分人的行为也会变得不自然。这样的数据没什么意义。
摩尔定律固然使得存储的成本大幅湘江,但是当大数据出现后,数据量增长的速度可能超过摩尔定律增长的速度。目前节约存储设备的技术体现在两个方面。第一是存储同样的信息占用的空间小。不单纯指压缩数据,例如去除冗余,图像的存储由点阵变成向量等方式。第二类技术涉及数据安全,数据不丢失、不损坏,而不是指防止数据被盗。
信息存储相关技术并不局限于研究如何让节省存储量上,还需要研究怎样存储信息才能便于使用。
如何标准化数据格式,以便共享——protocol buffer
并行计算和实时处理,并非增加机器那么简单。Google的mapreduce编程模型和雅虎的Hadoop等工具,能够把相当一部分大型计算任务拆成若干小任务在很多并行的服务器上运行。在一边人想象中,增加10倍的处理器并行计算,可以同样成倍的节约时间,但是工程上这是做不到的。因其中并行比例,用来度量在一个任务中有多少时可以并行计算的,有多少不能。另一个影响并行计算效率的因素在于无法保证每个小任务的计算是相同的。事实上使用的处理器越多,并行计算的效率越低。解决并行问题,需要从根本上改变系统设计和算法,而不是单纯的增加机器。——Google dremel,专门针对日志、数据库等大数据,解决实时访问和简单的数据处理问题。说明大数据的实时处理需要开发很多新的工具,而不是简单地把过去的工具并行化。
大数据能产生的效益很大程度上取决于使用(和挖掘)数据的水平。使用大数据的第一步是对数据的过滤和整理,去除与要解决的问题无关的维度,将与问题有关的数据内容进行格式化的整理,以便进一步使用。
使用信号与噪音之比(信噪比)的度量来描述信号的质量。
机器学习通常是以下两种情况:一数据量大,采用简单的模型,比较少的迭代次数,对大量数据做一个浅层的机器学习。
二数据量较小,采用复杂模型,经过多次迭代训练出准确的模型参数。
由大量数据、较少迭代训练出的较粗糙的模型要比使用少量数据、深度学习的模型效果好。
人们直觉上一般会认为不断改进的方法才是好的,应该采用的,但是工程上不然。大数据机器学习工具,实现起来工作量巨大,一旦实现,就希望能够使用很长时间,因此算法需要稳定。
有经验的IT系统主管和架构设计师都知道要尽管将敏感信息放到不同的地方。
计算机系统的设计和高楼设计很大的不同是,前者实现并不考虑安全的隐患,而后者在每一个环节都是考虑安全的问题,这就是我们面临的现实。
绝大车主并不知情,而且无法关闭这些监控的功能;nest这样的智能家具可以知道家里每个人的活动,甚至知道什么人来访;一款手电APP要求访问移动互联网的所有联系人的信息时,它要访问的信息和它提供的功能是完全无关的。
数据安全方法:预处理后的数据保留了原来的特性,使得数据科学家和数据工程是能够处理数据,却“读不懂”数据的内容,这样至少能防止个人窃取和泄露隐私;另一类保护隐私的技术是所谓的双向监视。