橙子01-大数据基础入门简介

橙子01-大数据基础入门简介

  • 大数据的概念
    • volume
    • variety
    • velocity
    • value
  • 大数据技术
    • 大数据处理的基本流程
    • 云计算的三个关键技术
  • 大数据的应用

相关视频内容可在b站观看大数据基础入门介绍 https://www.bilibili.com/video/BV1q64y1m7Y9
也可在知乎观看大数据基础入门介绍 https://www.zhihu.com/zvideo/1368923954531516418?utm_source=wechat_session&utm_medium=social&utm_oi=625985352138100736
欢迎大家关注数据与智能~

大数据的概念

什么是大数据?关于这个问题,现在普遍认可的是“4v”说法;
那么4v是什么呢,4v就是volume数据量大,variety数据类型多,velocity数据处理迅速和value数据价值密度低。

volume

①volume:从20世纪90年代到21世纪初的20年时间里,全球数据量增长了100倍。而随着移动互联网的发展,人们可以随时随地的在微博、微信、知乎、博客等等社交平台上发表各种信息。与此同时,物联网的快速发展使得各种传感器也能产生巨大的数据量,如打开手机GPS会产生定位数据,随处可见的摄像头会产生庞大的视频数据等等。数据量已经从TB级别上升到PB、EB甚至ZB级别。有学者预测,到2020年全球将总共拥有35ZB的数量。

1MB=1024KB
1GB=1024MB
1TB=1024GB
1PB=1024TB
1EB=1024PB
1ZB=1024EB

variety

②variety:数据类型包括结构化数据和非结构化数据。结构化数据一般是指存在关系数据库中的数据;非结构化数据种类就很多了,包括图片数据、音频数据、视频数据、定位数据、日志数据等等。如今,结构化数据仅仅占10%左右,剩下的约90%都是非结构化数据。

velocity

③velocity:数据量庞大并且增长迅速,举例来说,推特每分钟可以产生至少十万条推文,微博每分钟能产生的信息量是2万+。因此数据的处理速度也必须非常迅速。

value

④value:数据具有价值但是数据的价值密度的高低与数据总量是成反比的。也就是说在海量的数据中有价值的信息都是分散的,很难找到有价值的信息。

大数据技术

大数据处理的基本流程

谈论大数据技术的时候,我们首先要了解大数据处理的基本流程。
大数据处理的基本流程包括五个阶段:从数据采集→数据预处理→数据存储→数据分析→数据可视化。这其中的每个阶段都涉及很多相关技术,因此我们认为大数据技术是多种技术的集合。

橙子01-大数据基础入门简介_第1张图片
①数据采集:如爬虫工具、日志采集工具等等
②数据预处理:采集到的数据一般不会直接拿来使用,可能会存在数据值得缺失、丢失或者语义不清晰等等情况,因此要进行数据预处理。包括数据清洗、转换、整合等等。
③数据存储:分布式文件系统、关系数据库、NoSQL数据库等等
④数据分析:分布式并行编程模型、机器学习等等
⑤数据可视化:Excel、Echarts、Gephi等等

云计算的三个关键技术

橙子01-大数据基础入门简介_第2张图片

大数据分析技术很多源于云计算技术。这里主要介绍云计算的三个关键技术:
①虚拟化技术:是指在一台计算机上可以同时运行多个虚拟计算机,每个虚拟计算机上可以安装不同的操作系统。常见的虚拟化技术如VMWare、virtualbox等等。
②分布式存储技术:是指将一个很大的文件分成很多文件块,然后分散存储在不同的机器组成的集群中。如GFS,谷歌的分布式文件系统,以及后面会介绍的HDFS(Hadoop Distributed File System),它是GFS的开源实现。
③分布式计算技术:谷歌公司提出的并行编程模型MapReduce,可以把一个大的数据集切分成很多小的数据集,然后分散到不同的机器上同时处理,极大地提高了处理数据的效率。

大数据的应用

大数据已经渗透到社会生活的方方面面,如政府部门、金融行业、互联网行业、电信行业、医疗行业、物流行业、餐饮行业等等。

举例说明:
①政府部门可以利用大数据技术做“舆情分析”,帮助政府部门监测网络舆论,预测话题发展趋势,从而协助政府做决策。
②金融行业中,企业可以利用大数据分析市场行情,判断价格走势和交易点等等。
③互联网、电信等行业,可以利用大数据技术分析用户行为,构建用户画像,基于此做出更满足用户喜好和需求推送和服务。

你可能感兴趣的:(大数据)