Python大数据分析(一):认识大数据

文章目录

  • (一)大数据的定义
  • (二)大数据的4V特征
    • (1)大量(Volume)
    • (2)多样(Variety)
    • (3)快速(Velocity)
    • (4)价值(Value)
  • (三)大数据思维变革
    • (1)随机数据与全体数据
    • (2)精确度与混乱度
    • (3)因果关系与相关关系
  • (四)大数据处理过程
    • (1)采集
    • (2)导入/预处理
    • (3)统计/分析
    • (4)挖掘
  • (五)大数据的应用
  • 附:参考资料

(一)大数据的定义

大数据(Big data),又称为巨量资料,指的是在传统数据处理应用软件不足以处理的大或复杂的数据集的术语


数据的单位: 最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
它们按照进率1024(2的十次方)来计算:
1 Byte =8 bit
1 KB = 1,024 Bytes = 8192 bit
1 MB = 1,024 KB = 1,048,576 Bytes
1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576 MB
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB
1 YB = 1,024 ZB = 1,048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB

全称:

1 Bit(比特) =Binary Digit
8 Bits = 1 Byte(字节)
1,000 Bytes = 1 Kilobyte
1,000 Kilobytes = 1 Megabyte
1,000 Megabytes = 1 Gigabyte
1,000 Gigabytes = 1Terabyte
1,000 Terabytes = 1 Petabyte
1,000 Petabytes = 1 Exabyte
1,000Exabytes = 1 Zettabyte
1,000 Zettabytes = 1 Yottabyte
1,000 Yottabytes = 1Brontobyte
1,000 Brontobytes = 1 Geopbyte



(二)大数据的4V特征

Python大数据分析(一):认识大数据_第1张图片

(1)大量(Volume)

每天产生数据的规模之大

(2)多样(Variety)

来自各行各业不同类型的数据

(3)快速(Velocity)

数据流分析的速度,在庞大数据量中进行数据扫描识别

(4)价值(Value)

数据的不确定性,需要从海量数据中筛选出有价值的部分



(三)大数据思维变革

(1)随机数据与全体数据

从随机数据采样分析的精确度随数据的随机性增加而增加,但是随机数据是小样本,无法预见事先未考虑的情况;大数据样本具有更广,更多的数据样本,样本等于总体,能够发现更多的问题,分析大数据能从多维度对问题进行解析

(2)精确度与混乱度

混乱是大数据规模扩大后必然会产生的,收集大量数据后,在不断混乱的逻辑中产生的误差之间追求精确度,在衡量理想值和误差之间不断挖掘出数据背后的价值,具有更大的意义

(3)因果关系与相关关系

知道“是什么”就够了,没必要知道“为什么”    ——《大数据时代》
相关关系可以在实践中引导我们“怎么做”,而因果关系可以回答我们“为什么”这样做。
因果关系往往来自经验,来自于经验中的直觉、信念,经不起实证的检验。大数据的因果更适用于统计决定论,从大量混乱多样的数据中寻找到一定的关系。



(四)大数据处理过程

大数据处理过程(Big Data processing)是一个处理大量信息的过程

Python大数据分析(一):认识大数据_第2张图片

(1)采集

大数据的采集指利用多个数据库接受来自客户端的数据,比如:MySQL,Redis , MongoDB 等数据库包含了来自各行各业成千上万的数据,我们常常从里面进行数据的采集

(2)导入/预处理

为了更好地对海量数据进行有效分析,应该将海量数据导入到一个集中的大型分布式数据库,或者分布式存储集群,在导入的基础上做一些清洗和预处理工作(每秒钟导入量经常会达到百兆,甚至千兆级别)

(3)统计/分析

统计分析主要利用存储于分布式数据库,或者分布式计算集群的海量数据进行普通的分析和分类汇总,在这个过程中,Hadoop可以使用在一些批处理或基于半结构化数据的需求(注: Hadoop,是一个由Apache基金会所开发的分布式系统基础架构。 用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。)

(4)挖掘

数据挖掘一般没有预先设定好的方案,大多是在现有数据基础上,使用各种数据算法对数据进行计算,从而起到通过分析数据得到预测数据的效果,常用数据挖掘算法都以单线程为主
主要使用的工具有Hadoop的Mahout等,典型的算法有这些:
1,用于聚类的Kmeans
2,用于统计学习的SVM
3,用于分类的NaiveBayes



(五)大数据的应用

(1)犯罪预测
下图是应用于美国某城市的犯罪数据集
Python大数据分析(一):认识大数据_第3张图片
(2)城市规划
Python大数据分析(一):认识大数据_第4张图片
(3)房价预测
(4)股市预测
Python大数据分析(一):认识大数据_第5张图片
(5)人类情感预测
(6)心理学统计
… …
还有很多很多的应用方向,利于人工智能的机器学习,深度学习等

下图是应用于谷歌趋势的全球数据收集统计的数据显示
Python大数据分析(一):认识大数据_第6张图片
点击下载可下载到csv文件
Python大数据分析(一):认识大数据_第7张图片


附:参考资料

  • 《大数据时代》| 【作者】:维克托.迈尔-舍恩伯格(Viktor Mayer-Sch·nberger),数据科学家

  • 《 Big Data What it is and why it matters》

  • 地址:https://www.sas.com/en_us/insights/big-data/what-is-big-data.html

  • 《大数据时代思维方式变革的哲学意蕴》| 【作者】:宋海龙,解放军信息工程大学理学院教授,博士,研究方向:科学史、科学技术哲学

  • 智库百科·大数据

  • 地址:https://wiki.mbalib.com/wiki/%E5%A4%A7%E6%95%B0%E6%8D%AE

  • 百度百科·大数据

  • 地址: https://baike.baidu.com/item/%E5%A4%A7%E6%95%B0%E6%8D%AE/1356941


你可能感兴趣的:(后端_Python,后端,大数据)