很多人用不同的定义解释“数据科学”,貌似都很合理,对数据科学这个问题的思考可以联想到与之相关的其他领域,例如业务分析、数据分析、商业智能、高级分析、机器学习,还有人工智能。
数据科学的“绝对定义”需要大量的“数据科学”背景才能被理解,这是一个递归的问题……可以说,统计学家或程序员理解什么是数据科学要容易得多,就像历史学家或语言学家所说的那样,前者已经以一种或另一种形式暴露于数据科学之中。这使我们想到,数据科学的相对定义可能更有用,以下是相关看法。
这是一个描绘所有上述领域的欧拉图。每个颜色代表一个不同的字段(混合的颜色表示交集),图上还有一个时间轴和使用案例。
(矩形的位置、大小和颜色表现出概念上的相似性和差异,而不是复杂性)
下面就来分析具体的概念。
为了避免过度简化这个问题,这里认为“商业”这个词没有任何定义,而融合商业的一些应用案例则更有意思,例如商业案例研究、定性分析、初步数据报告、视觉报告、创建仪表板、销售预测。
考虑到最初的选择,我们可以在业务和数据的交叉点中移动最近的四个术语,目前在图片中表示为紫色区域。这是因为“初步数据报告”,“视觉报告”,“创建仪表板”和“销售预测”属于数据驱动的商业活动。外部可以基于过去的知识、经验和行为反对存在商业活动范围内的“商业案例研究’和‘定性分析’,但你很快就会看到——这不是真正的数据科学。
分析(Analysis)是指将你的问题分割成容易消化的区块的过程,你可以单独研究它们之间是如何相互关联的。另一方面,分析(Analytics)是将逻辑和计算推理应用于分析中获得的组件部分。在这样做的过程中,人们在寻找模式,并经常探索人与分析能力的结合。因此,与业务,数据相反的是,我们应该要更好地使用Business Analytics和Data Analytics。
在进一步讨论之前,让我们先介绍一个时间轴,因为这对于后续的分割是至关重要的。我们将分析三个时态——过去、现在和未来。会有一条线分割图表,指出任何分析问题的当前时刻。左边的分析指数代表过去,右边的所有这些都可以进行预测分析。
“销售预测”移到了右边,因为它的名字暗示着一个前瞻性的分析过程。广义的“定性分析”就是利用你的直觉和经验来规划你的下一步——从而寓意着未来。
数据科学是一个不能没有数据的领域。因此,它完全属于Data Analytics(数据分析)的范畴。它与Business Analytics(业务分析)的关系如何?嗯,事实证明,如果属于Data Analytics和Business Analytics范畴内的,同时也的确属于Data Science范畴。
不过,需要说明的是,存在不直接和即时业务分析但属于数据分析的数据科学流程。例如,“优化钻井业务”需要数据科学工具和技术。数据科学家很可能每天都这样做。但是,虽然在“石油业务”领域,我们不能真正说它与Business Analytics直接相关。
在“相对定义”的概念上,要更好地说明这些点,“数字信号处理”就是数据分析的一部分,但不是Data Science,也不是Business Analytics。数据、编程和数学开始发挥作用,但并不像我们在Data Science中使用它们一样。为了一致性,让我们用时间轴来完成这件事——数据科学既是左边的,也是右边的线(如同其他的)。这就给我们带来了一个问题:是不是所有的领域都具有“过去属性”?
商业智能(BI)是分析和总结历史数据的过程。
商业智能(BI)是否就一定意味着过去?不一定,但它没有涉及到预测分析。如图所示,回归、分类以及其他所有典型的预测方法都属于Data Science的一部分,但不是BI。而且,商业智能完全是数据科学的分支,因此,当一个人在处理过去事件时,用到描述性统计、报告或可视化时,这说明是在做BI和数据科学。
人工智能(AI)是由机器展示的任何形式的智能,它类似自然(人类)智能,例如规划、自适应学习、解决问题等。
机器学习(ML)是不被编程的情况下,机器预测结果的能力。
当然,机器学习是人工智能的一种方法,但这两种方法常常被混淆,不可否认地是,人类目前探索的阶段处于深度学习阶段,这实际上也是抵达人工智能唯一可行的路径,因此,当我们在谈论AI所使用的人工智能的真实应用时,我们实际上是指的是深度学习。
在我们的图表中,两个术语符合以下方式。
可以看出,机器学习完全包含在Data Analytics(数据分析)内,如果没有数据,它将不能执行,此外,它还与Data Science重叠,因为它是数据科学家兵库里最好的工具之一。此外,它还是BI的一部分,只是不涉及预测分析。
“数据科学”中的机器学习实例是“客户端保留”、“欺诈预防”和“创建实时仪表板”(也是BI的一部分),其中突出的应用包括“语音识别”和“图像识别”。这两者也被认为属于数据科学范畴,这就是为什么我们把它们放在边界上。
为了阐述其中的关系,总体来说,机器学习完全属于AI的一部分,但AI本身也存在一些与业务和数据分析无关的子领域,例如“符号推理”。
我们分析的最后一个领域是Advanced Analytics,它不是一个数据科学名词,而是一个营销的名词。它用于描述“不那么容易处理的”分析。从本质上来说,对于一个初学者来说,这个图表中的所有内容都是先进的。虽然不是最好的术语,但肯定我们在整个条款中使用的所有“适当”术语都是有用的。
排除AI并加入Advanced Analytics(高级分析),相信这将是极富价值的收获。
本文翻译自www.kdnuggets.com.
转发此文到朋友圈并截图到后台,
获得20G
python入门视频课
往期实战及福利
关注本公众号,牧原小主 送您
2.7G 380份最新数据分析报告
40G 人工智能算法课
已关注的小伙伴,直接回复数据分析报告、人工智能算法
关注后,回复 PM2.5 获得 Python分析北京PM2.5,原来每年的值都在变少...所有源代码
关注后,回复“python3.7”,获得python 3.7官方最新pdf 文档
关注后,回复 世界杯, 获得 2018世界杯来了,利用Python预测冠军(附全部代码和数据集)所有源代码
关注后,回复“豆瓣电影“,获得 Python实战 | 手把手教你爬取豆瓣电影 Top 250(附全部代码及福利哦)所有源代码
关注后,回复“python可视化”,获得 利用python“三步”实现数据可视化,炫的不要不要的!所有源代码
长按二维码,关注我们