DS学习笔记(一):关于大数据的灾难和浪漫

数据科学和统计学的区别

有人说,数据科学家就是住在湾区的统计学家。这当然是笑话,但表面上看起来两者都是从数据分析中得出结论的学科,好像确实大同小异。数据科学到底是不是统计学为了蹭热度而把自己重新包装了一下啊?

首先,两者的应用不太一样。传统统计学是从样本观察中得出能够应用到目标整体的结论,而数据科学主要关注怎么应用过去获得数据来预测未来。一个是“一叶知秋”,一个是“鉴古通今”。其次,统计学侧重于量化样本和整体的差异性或不确定性,而数据科学更注重预测的准确性,对不确定性不是很在意。另外从数据量来看,传统统计学的样本数量一般较低,而数据科学借助近年来计算技术的飞跃,有能力处理大量的数据 ,并且数据的形式也更为“原生态”,没有经过精细的处理。

大数据与维数灾难

We are drowning in information and starving for knowledge. -- John Naisbitt.

通常我们谈到“大数据”,一般认为是数据量的“大”,即样本数多;但实际上大数据也可以指数据的维度(特征数)很高,维数甚至可能远大于样本数。例如在医学应用中,一些罕见病的病人数量可能全世界只有几千个,但每个病人都有大量的测量数值、诊断报告、医学影像……这种大数据反而让人头疼,因为这就涉及到“维数灾难(curse of dimensionality)”的概念。

维数灾难是如何产生的呢?简单来说,随着数据维数的增高,数据点之间距离也越来越远。例如二维平面上的两个点,如果投影到一维上,这个投影的距离必定是小于或等于它们本来在二维上的距离。从二维到三维也是如此。数据点间的距离扩大直接导致整个样本空间越来越稀疏,也就是说,样本和样本的差异性越来越大。这就带来很多统计上的困扰,因为统计理论的基础就是用样本来估计整体;如果样本之间相差都很大,就很难选出有代表性的样本。或者说,要维持同样的采样距离,需要的样本数就要呈指数增长。网友名言“人和人的差距,有时候比人和狗的差距还大”,其实是有道理的呀!因为人身上能用来分类的标签实在太多了,每个人深究起来都非常不同,谁又能代表谁呢。

幸运的是,现实世界中的很多数据虽然是高维的,但不是所有维度都和我们所要解决的问题相关。例如在人脸识别中,照片的光线、人的表情、拍照角度,跟辨认出照片里到底是谁没有什么关系。通过降维的手段弱化可以将这些特征弱化,从而提高预测的准确性。在动画电影和游戏的制作中,经常用感应器追踪真人演员的动作,再投影到二维平面上来辅助动画人物的合成,这也是降维的例子。

机器星探

无监督机器学习的一个重要类别是聚簇(clustering),即在没有外界辅助的情况下将样本根据特征自动分类。记得那个脑筋急转弯吗?小明往锅里倒了红豆和绿豆,但豆子在锅里神奇地分成了两类——一边是红豆,一边是绿豆!聚簇就是在锅里多于两个豆的情况下也能把它们正确地分开的方法。

NASA的Autoclass系统曾在红外天文卫星(IRAS)目录的大量数据中发现,某种恒星似乎存在两种不同的红外线谱。经确认,这两种谱来自于该星系中不同位置的红外线源(下图黄蓝两色),应该被归为两类。给星星分类,好像要比给红豆绿豆分类高大上一些吧!这就是机器学习的浪漫。

NASA的聚簇系统被用来给星星分类

你可能感兴趣的:(DS学习笔记(一):关于大数据的灾难和浪漫)