一、大数据是什么?

  大数据的诞生和发展:

  2005,google,GFS(google file system),后来成为了HDFS的前身。

  2006,google,MapReduce。

  2007,google,Apache基金会用于创建Hadoop的开源社区。

  2007,google,BigTable,HBase分布式数据库。

  2009,Spark。

  大数据的工作:

  1.数据获取:爬虫,数据接口获取,传感,开源数据(UCI)

  2.数据存储:HDFS、Hbase、HIVE

  3.数据分析:MapReduce离线计算引擎,Spark内存计算引擎……

  4.数据挖掘:机器学习算法

  大数据的工作内容:

  1.大数据是一个综合概念,其中涉及到的第一步就是数据的获取。

  2.数据获取之后,下一步就是需要进行数据的处理和存储。将各种各样的数据进行格式化操作,并且最终存储到本地,进行分析和留存。

  3.在有了大量可靠的数据源之后,下一步需求针对数据进行分析操作,通过分析可以获知所需要的各种信息。

  4.如果需要做到机器学习或者进一步获取数据信息,就需要做数据挖掘的工作。

  

什么是大数据,什么是数据分析,数据挖掘?_第1张图片


  二, 数据分析是什么?数据挖掘是什么?

  数据分析和数据挖掘都是从数据库中发现知识、所以我们称数据分析和数据挖掘叫做数据库中的知识发现,严格意义上来讲,数据挖掘才是真正意义上的数据库中的知识发现。其简称为KDD。

  数据分析是从数据库中通过统计、计算、抽样等相关的方法,获取基于数据库的数据表象的知识,也就是指数据分析是从数据库里面得到一些表象性的信息。

  数据挖掘是从数据库中,通过机器学习或者是通过数学算法等相关的方法获取深层次的知识(比如属性之间的规律性,或者是预测)的技术。

  所以,仅仅只依靠于数据分析,我们只能获取到一些表象性的信息,但是通过数据挖掘我们可以获取到很多相关的深层次的规律或者是一些预测性的信息。

  数据挖掘的特点:

  1.数据集大:只有数据集越大,得到的规律才能越贴近于正确的实际的规律,结果也才越准确。

  2.不完整性:数据挖掘使用的数据,往往都是不完整的。

  3.不准确性:又叫做噪声数据,在商业中用户可能会提供假数据,那么在工厂环境中或者是其他条件比较艰苦的环境里,那么正常的数据往往会收到电磁或者是辐射干扰,那么这个时候,数据就会出现超出正常值的情况。那么这些不正常的绝对不可能出现的数据,就叫做噪声,但是噪声需要和离群点分辨开。离群点指的是偏离了普遍规律的数据样本,它可能和基础规律相差很大,但是我们并不能说这个样本是一个噪声数据。比如,100岁的老人,买电脑,虽然这个情况基本不可能看的到,但是这个情况仍然是可能出现的。所以我们无法认为其是一个噪声假数据。所以我们称之为这个100岁老人的样本是一个离群点。

  4.模糊的:模糊的可以和不准确性相关联。由于数据不准确,所以我们只能在大体上对数据进行一个整体的观察。或者我们可以解释为由于涉及到隐私信息,无法获知到具体的一些用户的内容,那么这个时候,我们如果想要做相关的分析操作,就只能在大体上做一些分析。无法精确进行判断。

  5.随机性:随机性有两个解释,一个是获取的数据随机,我们无法得知用户填写的到底是什么内容。第二个是分析结果随机。数据交给机器进行判断和学习,那么一切的操作都属于是灰箱操作。

  数据挖掘的基本步骤:

  数据输入:输入要挖掘的数据

  数据转换:做数据预处理的步骤,通过了数据转换之后,数据就是一个可用的,无冗余的、完整的、统一的、精确的数据集。

  (1)数据清理:对噪声数据和不一致的数据做清除操作。或者是对重复数据做删除,或者是对缺失数据做填充(众数、中位数、自己判断)。

  (2)数据集成:将多个数据源的数据做整合。

  (3)数据选择:选择需要的数据做挖掘。比如一个人买不买电脑和他叫什么没什么关系,所以就不需要输入到机器中进行分析。

  (4)数据变换:不同的数据被通过数据集成集成到一起的时候,就会出现一个问题,叫做实体识别问题。那么数据变换除了解决实体识别问题以外,还需要统一不同的数据库的数据的格式。

  数据挖掘:通过数学算法对数据进行分析,得到数据之间的规律,或者是我们所需要的知识。

  模型评估:判断机器得到的模型是否是可用的,比如一个机器学习之后得到一个模型,该模型预测的准确率为10%,那么就不可用。所以模型评估很大一部分是在判断机器学习得到的知识是否是准确的,可用的。

  数据输出:将结果数据输出,并且将得到的知识表示出来,对应了知识表示。

  数据在进行挖掘时,我们往往都是通过某些属性得以判断某个结果,比如一个患者得了感冒、发烧、咳嗽、那么我们可以判断其得了肺炎,这个时候,我们是通过感冒、发烧、咳嗽三个属性分析得出是否得肺炎,那么前三个属性就是我们分析所需要的属性。通过对某些属性的分析我们就可以得到某一些结果。这就是数据挖掘的基本规律。