极简数据科学(上)

前一段时间,和一个同学交流的时候,他提及有些公司有数据分析师,有些公司很少见到数据分析师。于是便有了《极简数据科学》,笔者认为这是一个开放性问题,所以文中并不是直接给出结论,而是引导读者自己得出结论。

随着世界进入大数据时代,对大数据存储的存储也水涨船高。直到 2010 年,这一直都是企业面临的主要挑战和担忧。其中主要的焦点是构建框架和存储数据的解决方案。现在 Hadoop 和其它框架成功地解决了存储的问题,焦点又转移到了数据处理上了。数据科学就是秘密武器,数据科学是人工智能的未来,理解数据科学是什么以及它如何为业务增加价值是非常重要的。

1. 数据科学是什么?

数据科学(Data Science),是通过使用各种科学方法、算法和流程从大量数据中提取具有洞察力信息的研究领域。它帮助你从原始数据(Raw Data)中发现隐藏的模式。随着数理统计、数据分析和大数据的发展,数据科学一词应运而生。

数据科学是一个跨学科领域,可以让你从结构化或非结构化数据中提取知识。数据科学使你能够将业务问题转换为研究项目,然后再将其转换为实际的解决方案。
极简数据科学(上)_第1张图片
今天,成功的数据专业人士已经意识到他们必须超越分析大量数据、数据挖掘和编程技能的传统能力。为了发现对他们的组织有用的信息,他们必须掌握数据科学生命周期的全部范围,并且具有一定程度的灵活性和理解力,以便在流程的每个阶段最大化回报。

2. 为什么是数据科学?

传统上,我们拥有的数据大多是结构化的且规模也小,使用简单的 BI 工具即可分析。与传统系统中主要是结构化数据不同,今天大多数数据是非结构化或半结构化的。现在让我们看看下图(图由 Edurake 提供)中的数据趋势,该趋势表明截止到 2020 年,80 % 的数据是非结构化的。
极简数据科学(上)_第2张图片
这些数据有不同的数据源生成,例如日志、文本文件、多媒体表单、传感器和仪器等。简单的 BI 工具是无法处理如此庞大、多样的数据。这就是为什么我们需要更复杂和先进的分析工具以及算法来处理,以此分析和从中汲取有意义的信息。图 3 展示了数据科学的发展。
极简数据科学(上)_第3张图片
这不是数据科学流行的唯一原因。现在我们深入了解下数据科学是如何在各个领域中使用的。

  • 如果你能够通过已有的数据,像客户浏览历史、购买历史、年龄和收入,来了解客户的精确需求,会发生什么呢?毋庸置疑,这些数据你都有,但现在你可以用这些海量且多样的数据更有效地训练模型,并且向你的客户更精准地推荐产品,从而带来更多的业务。比如,啤酒与尿布的故事。
  • 数据科学还可以用于决策。如果你的车拥有智能,从而可以载你回家会怎样呢?自动驾驶汽车可以通过传感器收集数据,包括雷达、相机、激光,以创建周围环境的地图。基于这些数据,制定加减速、变道、转弯的策略。当然自动驾驶还处于研发阶段,另一个影响更大的例子当属 Alpha Go。
  • 我们再来看看数据科学是如何用于预测分析的。以天气预测为例,通过收集船只、飞机、雷达、卫星数据来建立模型。这些模型不仅能预测天气,还能帮助预测任何自然灾害的发生。

通过下图的信息(图由 Edurake 提供),我们看下数据科学对哪些领域产生了影响。
极简数据科学(上)_第4张图片

3. 数据科学的生命周期

“数据科学”这一术语大概在 2008 年被重视,当时很多公司意识到需要有组织和分析海量数据的专业数据人士。在 2009 年麦肯锡公司的一篇文章中,谷歌的首席经济学家、加州大学伯克利分校信息科学、商业和经济学教授 Hal Varian 预测适应技术的影响和不同行业的重新配置的重要性。

获取数据的能力——理解数据,处理数据,从数据中提取价值,可视化数据并进行交流——在接下来的几十年,这将是一项极为重要的技术。
The ability to take data — to be able to understand it, to process it, to extract value from it, to visualize it, to communicate it — that’s going to be a hugely important skill in the next decades.
——Hal Varian

从 Hal Varian 的描述中,大概可以得出数据科学的生命周期包括图 5(图由 Berkeley 提供)中的 5 个阶段:
极简数据科学(上)_第5张图片
数据科学能够识别相关问题,从众多不同数据源中收集数据,组织信息,将结果转换为解决方案,并且以对商业决策产生积极影响的方式传达。几乎所有的行业都需要这些技能,这使得数据科学对公司越来越重要。

4. 数据科学的组件

数据科学主要包括 5 个部分:

  1. Statistics(统计学): 统计学是数据科学中最重要的一环。它是收集和分析数值数据以获取有价值信息的方法或科学。
  2. Domain Expertise(领域知识):用于数据分析和业务决策的领域知识。
  3. Data Engineering(数据工程):数据工程是指管理快速变化的指数级数据。
  4. Advanced Computing(高级计算):使用高级的工具以及算法来处理数据,以此分析和从中汲取有意义的信息。
  5. Visualization(可视化):可视化技术帮助你以易于理解和可视化的方式访问大量数据。
    极简数据科学(上)_第6张图片

5. 数据科学的流程

我们先总览一下数据科学的流程概览图有个大体的认识,后文再针对每个阶段进行详细的阐述。
极简数据科学(上)_第7张图片
数据科学的流程大体分为 6 个阶段:

  1. Discovery:在开始项目之前,重要的是要了解各种规格,要求,优先级和所需的预算。 并且你需要评估是否在人力,技术,时间和数据方面拥有支持项目所需的资源。 同时,这一阶段包括从确定的内部或外部数据源获取数据,例如网页浏览日志、文本文件等。
  2. Data Preparation:数据可能有很多不一致的地方,比如缺失值、测试数据、待清理的错误的数据格式。在建模之前,你需要进行数据清洗、数据集成、数据转换、数据归约以及数据采样等处理。常见的组件包括标准化、正则化、归一化、类型转换、随机采样、加权采样、分层采样、缺失值填充等。一旦你准备好了清理之后的树,就可以对数据进行探索性分析了。
  3. Model Planning:在这一阶段,你将利用特征工程的技术手段确定变量之间关系,构建特征体系。常见的组件有主成成分分析、特征尺度变换、特征离散、奇异值分析、One-Hot 编码等。 这些关系将为你将在下一阶段实现的算法奠定基础。
  4. Model Building:在此阶段,你将开发用于训练和测试目的的数据集。 同时需要考虑现有的工具是否足以运行模型,或者是否需要更强大的环境(例如快速和并行处理)。诸如 Association、Classification 和 Clustering 之类的技术将应用于训练数据集。一旦准备好模型,就针对测试数据集进行测试。
  5. Operationalize:在此阶段,你将提供带有报告、简介、代码和技术文档的最终基准模型。 此外,有时可能还会在实时生产环境中实施试点项目。经过全面测试,模型已部署到实时生产环境中。
  6. Communicate results:现在,重要的是评估你是否能够实现第一阶段中计划的目标。 因此,在最后一个阶段中,你将所有关键发现与利益相关者进行交流,并根据第一阶段中开发的标准确定项目的结果是成功还是失败。

6. 总结

数据科学使你能够将业务问题转换为研究项目,然后再将其转换为实际的解决方案。本文回答了数据科学是什么,数据科学为什么这么重要,数据科学具有的 5 个阶段的生命周期,数据科学包含的 5 个组成部分,以及数据科学具有 6 个环节的流程。

扫码关注公众号:冰山烈焰的黑板报
极简数据科学(上)_第8张图片

你可能感兴趣的:(BigData)