1.什么是大数据
大数据 :指数据集的大小超过了现有典型的数据库软件和工具的处理能力
的数据。
2.大数据的特点
主要特点
海量化(Volume)
数据量从TB到PB级别
多样化(Variety)
数据类型复杂,超过80%的数据是非结构化的
快速化(Velocity)
数据量在持续增加(两位数的年增长率)
数据的处理速度要求高
高价值(Value)
在海量多样数据的快速分析下能够发挥出更高的数据价值
3.大数据能做什么
海量数据背景下
快速查询 - 全量查询
数据存储 - 量大、文件大 快速计算 - 对比传统方案
实时计算 - 最新数据
数据挖掘 - 新价值
海量数据快速查询
在海量数据的背景下,进行数据的快速查找、快速提取。(快速指
查找或提取效率3秒内)
例如:每个用户查询上月手机流量记录或上月通话明细。都是在海量用户
中查询某一个人的记录,三秒内出结果。
海量数据存储
A:大数据能够存储海量数据
大数据时代数据量巨大,
1TB=10241G 约26万首歌(一首歌4M)
1PB=10241024*1G 约2.68亿首歌 (一首歌4M)
B:大数据能够存储单个大文件。
目前市面上最大的单个硬盘大小约为10T左右。若有一个文件20T,将 无法存储。大数据可以存储单个20T文件,甚至更大。
海量数据快速计算(离线)
能够在海量数据的基础上进行快速计算,这里的“快速”是与传统计算 方案对比。
海量数据背景下,使用传统方案计算可能需要一星期时间。使用大数据 技术计算只需要30分钟。
例如:计算全国移动用户(全国数据量大),全年内通话总时间(每个人 一年通话总和)大于1万分钟的人,按照从多到少顺序。
海量数据实时计算(实时)
在海量数据的背景下,对于实时生成的最新数据,需要立刻、马上传递
到大数据环境,并立刻、马上进行相关业务指标的分析,并把分析完的
结果立刻、马上展示给用户或者领导。
例如:欠费的手机充话费,充值完成后,手机几秒钟后就能使用。
例如:双十一实时交易大屏
挖掘前所未有的新的价值点
原始企业内数据无法计算出的结果,使用大数据能够计算出。
例如:啤酒和尿不湿。超市原始数据没有计算出两者之间的关系,使用大数
据计算后,发现将两者放的很近后,两者的销量都会有有大幅提升。
原因在于,国外大部分买尿不湿的都是男性,男性喜好和啤酒,买尿
不湿时顺便那些啤酒很惬意。
挖掘(算法)有价值的数据
在海量数据背景下,使用数据挖掘算法,挖掘有价值的指标(不使用这
些算法无法算出)
例如:通过数据挖掘算法计算花的种类。
通过算法识别出这些花是玫瑰花?百合?茉莉花?菊花?桂花?
4.大数据行业应用
智慧城市
5.大数据行业前景(国家政策)
2014年7月23日,国务院常务会议审议通过《企业信息公示暂行条例(草案)》
2015年6月19日,国家主席、总理同时就“大数据”发表意见:《国务院办公厅关于运用大数据加强对市场主体服务和监管的若干意见》
2015年8月31日,国务院印发《促进大数据发展行动纲要》。国发〔2015〕50 号
2016年12月18日,工业和信息化部关于印发《大数据产业发展规划》
2018年1月23日。中央全面深化改革领导小组会议审议通过了《科学数据管理办法》
2018年7月1日,国务院办公厅印发《关于运用大数据加强对市场主体服务和监管的若干意见》
2019年政府工作报告中总理指出“深化大数据、人工智能等研发应用,培育新一代信息技术、高端装备、生物医药、新能源汽车、新材料等新兴产业集群,壮大数字经济。”
6.大数据行业前景(行业发展)
趋势之一:
5G就是一场革命,它以技术为驱动,从人与人的连接延伸到万物互联,从个人和家庭延伸到社会各个领域,进而为社会经济、生活带来革命性的影响。
5G时代 数据传输速度更快,延时更低,数据量也将N个数量级增长,数据量将更大。
趋势之二:
与云计算、人工智能等前沿创新技术深度融合。
趋势之三:
针对制造业的大数据解决方案不断升级,助力智能制造。
7.大数据就业岗位
1、ETL工程师
2、数据仓库工程师
3、大数据开发工程师
4、Hadoop工程师
5、Spark/Flink工程师
6、大数据分析师
7、大数据算法工程师
8、大数据运维工程师
9、大数据解决方案
8.大数据技术相关软件