大数据之路之为什么要用大数据

数据自古就存在

古代从结绳记事到仓颉造字到甲骨八卦再到蔡伦制纸

近代从1800年第一块伏特电池到1946年人类发明第一台电脑

现代从世纪初开发出Hadoop生态到十三五计划把大数据上升到国家级战略

数据作为一种资源自古就存在着,尤其到了近现代,数据通过电子化,数字化无线增值,人类存储的数据量以指数级在增长,数据传输速度也从天级到秒级甚至毫秒级

4G让短视频,直播走上风口浪尖,而5G元年的到来,数据应该直接是爆炸,可能一个普通APP的日志都能达到一个MySql的存储极限(1亿行 or 1TB)

现在的背景就是我们正式进入了大数据时代

讲为什么要用大数据必须要理清当前业务的痛点,抓住痛点,才能开发解决达到爽点 

通俗一点的说,大数据当前痛点有三个:

装不下,存不了,算不动

装不下:前面介绍背景时已经说过,数据爆炸带来的数据极大增长已经不是扩建机房,扩建服务器所能解决的,即使能解决也入不敷出,代价极大

存不了:数据除了过大无法装下之外,还有一个痛点就是存不了,比如信息孤岛,各地业务差异造成的数据库不一致或者网络无法共通,同一家公司,有的分店用sqlserver,有的用oracle,甚至有的在国内,有的在国外,数据无法统一汇总查看

算不动:这个比较好理解,拿MySql数据库来说,数据量达到百万级别的可能就需要分钟来实现回馈,这对于需要实时业务分析的是个很大的痛点,此外几个TB的数据在各个数据库里即使能存得下,也难以算得动,跑得动,曾经实习那会,在oracle里跑个sql,跑了周末两天都没有出来。

所以综上所述,如果数据量巨大无法存储,信息孤岛无法解决或者解决代价过大,还有在完全优化查询的情况下还无法快速得到,那么就需要考虑大数据了

大数据有5V特性

Volume(大量)

Velocity(高速)

Variety(多样)

Value(价值)

Veracity(真实性)

即大数据技术对企业而言,它的战略意义不仅在于掌握庞大的数据量,更在于对数据的加工能力,对数据有专业处理专业加工的能力,使其能快速有效的转化为有用有价值的信息

大数据的模式目前分为三种

公有云:即数据放在公有云网络上,各个地方都可以通过外网来访问,也不用另外搭建服务器平台,部署代价,机房代价很少,对于一些公开数据很适合,但是公有云由于其防火墙本身的特性不适合保密性要求很大的数据,如税务,交通等涉嫌公众隐私数据

私有云:需要自行部署搭建服务器平台,无法连接外网,很多软件和服务需要离线安装,部署安装代价大,但适合保密性数据,一些政府企业大多采用此模式

混合云:即公有云+私有云,结合两者的特点,因为即使是保密业务,也存在部分可公开数据,这样一来减少了私有云部署成本,也能更方便的与大众交互,目前很多厂商都处于研发测试阶段

市面上的云服务厂商有开源的Hadoop,还有一些企业云如阿里云,腾讯云,华为云,同盾云等,各个企业可根据自身业务选择,当然也可以自己搭建云服务,比如网易的网易云

你可能感兴趣的:(大数据弄潮儿)