<<驾驭大数据>>阅读体会

 

  

<<驾驭大数据>>一书作者Bill Franks是Teradata公司全球合作伙伴计划的首席分析专家。基于Teradata公司的行业地位,以及对大数据分析的兴趣,我在京东商城购买了此书,并利用大约1周的空闲时间完成了阅读计划。

注意到这本书的序言之前还有一篇题为<<驾驭未来的价值发现之旅>>的短文,其作者辛儿伦先生是Teradata大中华区首席执行官。也注意到该书序言的作者则是本书作者供职的一家研究所的创始人。特别注意到该书封面尾页,中国电信业三大巨头(移动、联通、电信)的董事长每个人都写了一段话。这让我感到这本书不纯粹是为了讨论大数据分析,还可能是一种商业推广。因此我在阅读的过程中也在思考Teradata技术的要点。

该书对大数据采取的是一种动态的定义。大概的意思就是,既然10年前的大数据在今天看来什么都不是,那么今天的大数据在若干年后很可能也就什么都不是了。引用文中的一句话就是“今天的大数据将不再是明天的大数据”。文中讨论了今天我们面临的一些个大数据源及其价值:车载信息、文本数据、时间位置、RFID、智能电网、筹码跟踪、传感器、遥测数据和社交网络数据。读到这些内容,我感到不必等到“明天的大数据”到来,今天的大数据已足够“恐怖”了,谁来保护人们的隐私呢?书中提到了“蒙面分析”的理念,例如,用无意义的数字代替有意义的身份标识。这多少能打消一些顾虑,但是隐私保护终究是大数据应用绕不过的话题呢!

书中专门辟一章讨论了处理今天的大数据的那些个技术,例如MPP和MapReduce。唉,这回总算是明白了二者的区别了:MPP指的是数据库技术,MapReduce指的是编程技术。但是,我没有想明白的事情是,难道数据库不是编程序编出来的么?把这两概念放一起说事的家伙真是害人不浅啊!作为弥补,或者安抚,书中有两个观点很是值得一提,一个观点是“很多大数据其实并不重要”,重要的是将大数据中有用的信息提取出来,提取出来的“信息”自然是结构化的了,然后呢?绝大多数情况下,除了关系型数据库(RDBMS)还能有谁更适合担此重任呢?这就引出了第二个观点:不要低估SQL!

这本书的亮点是关于数据分析的内容,包括:分析工具、分析方法、如何成为优秀的分析专家、打造优秀的分析团队和营造创新文化等内容。其中提到了优秀分析专家身上经常被低估的特质:承诺、创造力、商业头脑、演讲能力与沟通技巧和直觉。其中还提到了统计、数据和编程技能是“绝对必要”的。这为组建分析团队提供了参考,也回答了分析师究竟要不要编程的问题。值得注意的是,书中也谈到了“报表”和“分析”的区别。许多企业陷入了“报表=分析”的误区,其结果可能就是IT人员苦于维护500个报表(这些报表一般就是分析过程中产生的了),却不知这500个报表已经没什么用处了。还有一个值得一提的是“分析沙箱”的理念,平衡了分析和运维。

以上主要是阐述了阅读过程中看到好的方面,最后也要谈一谈也许是不好的方面。在书中有两个重要的思想:一是库内分析,二是以分析师为中心。库内分析倡导利用系统架构的可扩展性,直接在数据仓库内进行分析工作,一开始这样做会取得更好的生产力,但是如果管理的不善的话(大概是很难管理有善了),会形成计算节点加速扩张的局面,当节点个数扩充到1000台以上时(也许到不了1000),要面临混乱和失控。节点扩张失控局面受益者会是谁呢?显然是厂商啊。库内分析另外一个问题是安全,当数百个分析师工作在数千台节点上时,如何保障数据安全(例如:隐私)?以分析师为中心的理念是好的,问题是优秀的分析师很难找,再有就是分析师终究是“人”,人的响应速度有限。整个数据体系围绕分析师构建必然要面临响应速度慢的难题。书中提到了一个很好的例子就是哥白尼发现太阳是中心,但不意味着地球不重要。我想分析师做地球会合适一些吧,太阳是什么还要再想一想啊!

你可能感兴趣的:(大数据,驾驭大数据)