面向初学者的数据科学|要学习的内容概述
数据科学家是21世纪最性感的工作。每个人都想变得性感。该领域开始变得竞争激烈,提高了就业标准。
因此,仅仅知道如何使用不同的工具是不够的,求职者需要能够抓住基本的概念和技术,然后应用它来创造价值,即使它的影响不大。
讨论如何从数据科学开始,并重点介绍我认为最有效的学习技巧。
数据科学概念概述
组合:
数学
统计学
编程技能
->数学和统计学的基础将有助于理解数据科学概念。编程技能将有助于使用各种工具。
应用
最后,数据科学的目的是从数据中提取有意义的见解。
数据科学中一些最受欢迎的领域:自然语言处理、计算机视觉、机器学习、统计学、数学、编程、数据分析和商业智能。
数据科学在上述领域有许多重要的应用,例如 -
图像分类和对象检测
欺诈和异常检测
医疗保健管理
语言翻译和文本分析
遥感
三个重要作用:
数据分析师:分析数据以进行业务决策。
数据科学家:从大数据中获取有价值的信息。
数据工程:使用数据管道。
如何学习数据科学或其他任何东西。
您对数据科学了解得越多,它就越广泛。这可能会让你感到不知所措,因为有很多东西要学。从一些在线课程中学习或依赖一些在线证书不足以保持自己的动力。
因此,有一个好的策略以有效的方式学习是很重要的。
从个人经验来看,我正在使用的方法已被证明至少对我有效,它让我保持动力,使我能够应用以创造真正的价值。
学习方法 - “基于项目的学习”:
学习基本概念:您可以快速浏览文章、在线课程、阅读概述报告以获取工具或技术的基本概念(4-7 天)。
示例:如果您想学习 Python,请阅读有关此编程语言的概述文章,以了解基本语法、信息源、简单数据结构和基本应用程序。
从事项目: 选择一个适合你水平的简单项目,然后开始工作。
您可以在项目工作时不断更新您的知识。此过程可能需要更长的时间,因为您将不得不进行大量研究并观看多个教程2-4 周。
重复:重复步骤 1 和步骤 2,但这一次,学习更复杂的概念并选择更高级别的项目。此步骤将重复,具体取决于您想掌握多少技能。
请记住:
你永远不会到达一个你对某个主题或技能了如指掌的地方。
当你必须付出持续的努力来提高你的表现时,你将不得不经过刻意的练习。
做研究并确定目标(SMART标准),一心一意地瞄准它。
你必须告诉自己,你会毫无借口地以任何方式完成它。保持信念,无论结果如何,你都会在更好的地方。
在数据科学中学习什么
一开始,你应该选择数据科学中的一个领域(如上所述)并瞄准一个领域,这样你就不会被太多的选择所淹没。
基于多篇文章、研究、教程和个人经验,这是我个人对“在数据科学领域工作必须具备的概念”这个问题的回答:
基础知识
数学与统计学
使用数据库
Python 及其库
数据清理
探索性数据分析
可视化
这包括技术方面以外的其他信息,但与现实世界的情况更相关。您应该知道的一些知识:数据科学定义、教育背景、工作特征、工作性质、薪水、全球趋势和个人意义。您需要阅读和更新新闻以不断更新此信息。
例如:即使你喜欢数据科学,但你没有任何与数学、编程或统计相关的学位,你将不得不接受这样一个事实,即你会发现很难与拥有这些学位的人竞争,因为他们有教育背景的优势(或多或少)。
数学
线性代数:这个数学分支在机器学习中非常有用,因为大多数机器学习模型都可以以矩阵形式表示。数据集本身表示为矩阵。线性代数用于数据预处理、数据转换和模型评估。
概率:有助于预测任何事件的未知结果。这使数据科学家能够评估其工作结果的确定性。关键概念涉及概率分布、统计显著性、探索性数据分析、模式分析、假设检验和回归。
微积分:这个数学分支涉及基于无穷小差分之和的方法,以确定和描述函数的导数和积分。深度学习和机器学习都严重依赖于梯度下降的概念。只有那些对微积分有工作知识的人。
统计学
描述统计学: 了解位置估计值(平均值、中位数、模式、修剪统计数据和加权统计数据)以及用于描述数据的变异性。这是分析定量数据的初始阶段,可以使用图形和图表轻松可视化。
推论统计:涉及定义业务指标、A/B 测试、设计假设检验以及使用置信区间、p 值和 alpha 值分析收集的数据和实验结果。
本节将介绍数据科学家和数据工程师之间的重叠。开发和创建可以从多个源收集数据并将其整合到单个仓库中的管道。数据需要以高度可用的格式表示,以便进一步分析。
初学者可以从学习SQL语言开始,然后转向一个RDBMS,如MySQL,Oracle和一个NoSQL。此外,参加云技术和框架(如敏捷和Scrum)的初级课程也很重要。
Python编程语言在科研小组中被广泛使用,因为它简单且语法简单。
此外,Python拥有大量的库,如NumPy,Pandas,Matplotlib和Scikit-learn,这使得数据科学家能够更有效地处理数据。
初学者应该从基本的Python开始,通过学习Udemy或Coursera的课程,一些关键语法是:列表,设置,元组,字典,函数,...(记得上面的应用学习方法)
大多数时候,数据科学家花时间清理数据,这是初学者的强制性工作。在分析未清理的数据集后,您根本无法获得无偏的结果。
数据清理是识别和修复错误数据的过程。以下是数据清理过程中的常见步骤:
删除不相关的数据
删除重复项
标准化大写
转换数据类型
处理异常值
修复错误
语言翻译
处理缺失值
我总是使用电子表格或Python(取决于数据量)开始该过程,因为它具有简单直接的方法。
这种分析只是意味着调查数据以发现未知模式,发现异常,在统计数据和图形可视化的帮助下测试假设。
作为初学者,python将是进行EDA的完美工具。
EDA 步骤:
数据收集:收集、测量和分析来自各种来源的准确数据以找到问题的答案的过程。
2.数据清洗:识别和修复不正确的数据(第5节)
箱形图:(晶须图)显示数据集的五个数字摘要:最小值、第一个四分位数、中位数、第三个四分位数和最大值。
箱体图
直方图:用于发现和显示一组连续数据的基础频率分布(形状)的图。
直方图
4.二元分析:此过程使用两个变量并进行比较。这使我们能够确定一个特征如何影响另一个特征,并开始进一步分析以找出原因。
散点图:二维数据可视化,使用点来表示为两个不同变量获得的值 - 一个沿 x 轴绘制,另一个沿 y 轴绘制。
散点图示例
条形图:表示分类数据,矩形条的长度与其表示的值成正比。
数据可视化是所有分析项目的支柱。它有助于深入了解数据集,也用于数据预处理。为不同的数据类型和业务场景提供正确的可视化效果集是有效传达结果的关键。
图表类型以及何时使用它
推荐给初学者的强大可视化工具:
Tableau:使用最广泛的数据可视化工具。Tableau 以科学研究工作为基础,旨在使分析更快、更轻松、更直观。
Power BI:由微软开发的交互式数据可视化软件产品,主要关注商业智能。
谷歌图表:作为数据可视化市场领域的主要参与者之一,用SVG和HTML5编码的谷歌图表以其生成图形和图形数据可视化的能力而闻名。
JupiterR:基于Web的应用程序JupyteR是顶级数据可视化工具之一,使用户能够创建和共享包含可视化的文档
注意:
您可以选择一种工具并了解如何使用它。
学习使用可视化工具并不像能够使用正确的技术来布局你的论点那么重要。
当可视化可以为自己说话而不要求读者阅读解释时,它是好的。
可视化的主要目的是传输消息,而不是布局所有信息。
项目学习:什么是探索性数据分析
在数据挖掘中,探索性数据分析 EDA 是一种分析数据集以总结其主要特征的方法,通常使用可视化方法。
EDA 用于在建模任务之前查看数据可以告诉我们的内容。查看一列数字或整个电子表格并确定数据的重要特征并不容易。
通过查看普通数字来获得见解可能是乏味、无聊和/或压迫性的。在这种情况下,已经设计了探索性数据分析技术作为辅助手段。
探索性数据分析通常以两种方式交叉分类。首先,每种方法要么是非图形的,要么是图形的。其次,每种方法要么是单变量的,要么是多变量的(通常只是双变量的)。
使用Chartio进行探索性数据分析
我们将对虹膜数据集进行探索性数据分析,以熟悉EDA流程。让我们看几个示例数据点:
样本数据
该数据集包含四个特征 - 鸢尾花不同物种(花色,弗吉尼亚,塞托萨)的萼片长度,萼片宽度,花瓣长度和花瓣宽度。在数据集中,每个物种有 50 个实例(数据行),总共 150 个数据点。
单变量分析
单变量分析是最简单的数据分析形式,其中正在分析的数据仅包含一个变量。由于它是单个变量,因此不处理原因或关系。
单变量分析的主要目的是描述数据并查找其中存在的模式。让我们看一下用于执行单变量分析的几个可视化。
箱形图
箱须图(也称为箱形图)显示一组数据的五个数字汇总。五个数字汇总是最小值、第一个四分位数、中位数、第三个四分位数和最大值。
一般箱体图
通用框
创建的箱形图为我们提供了数据集中四个数值特征的摘要。我们可以观察到,花瓣长度和宽度的分布更加分散,如盒子的更大尺寸所表明的那样。
然而,萼片的长度和宽度集中在它的中位数附近。此外,在萼片宽度箱图中,我们可以观察到一些异常值,如晶须上方和下方的点所示。
直方图
直方图是一种绘图,可用于发现并显示一组连续数据的基础频率分布(形状)。
这允许检查数据的基础分布(例如正态分布)、异常值、偏度等。
图表中的直方图
上图显示了在Chartio中制作的萼片和花瓣宽度的直方图。从图表中可以观察到,萼片宽度遵循高斯分布。然而,花瓣宽度更偏向右侧,大多数花样的花瓣宽度小于0.4厘米。
多变量分析
多变量数据分析是指用于分析来自多个变量的数据的任何统计技术。这模拟了更真实的应用程序,其中每种情况、产品或决策都涉及多个变量。让我们看一下用于执行多变量分析的几个可视化效果。
散布图
散点图是一种二维数据可视化,它使用点来表示为两个不同变量获得的值 - 一个沿 x 轴绘制,另一个沿 y 轴绘制。
散点图
以上是使用 Chartio 制作的两个散点图的示例。我们可以观察到花瓣长度和宽度之间存在线性关系。然而,随着萼片长度的增加,萼片宽度不会成比例地增加——因此它们没有线性关系。
在散点图中,如果对点进行颜色编码,则可以显示附加变量。例如,让我们通过根据花种对每个点进行颜色编码来创建下面的花瓣长度与宽度图表。
图表中的颜色编码散点图
我们可以观察到,“setosa”物种的花瓣长度和宽度最低,“virginica”的花瓣长度和宽度最高,“杂色”位于它们之间。通过绘制更多维度,可以从数据中得出更深入的见解。
条形图
条形图表示分类数据,矩形条的长度与其表示的值成正比。例如,我们可以使用鸢尾数据集来观察所有不同物种的平均花瓣和萼片长度/宽度。
的条形图
观察条形图,我们可以得出结论,“弗吉尼亚”的花瓣长度、花瓣宽度和萼片长度最高,其次是“花色”和“塞托萨”。然而,萼片宽度偏离了这种趋势,其中“setosa”最高,其次是“弗吉尼亚”和“花色”。
我们执行的探索性数据分析使我们能够很好地理解数据包含的内容。完成此阶段后,我们可以执行更复杂的建模任务,例如聚类和分类。
除了 EDA 示例中显示的图表外,我们还可以根据数据的特征使用各种其他图表:
显示随时间变化的折线图 饼图,用于显示零件与整体之间的关系 用于可视化位置数据的地图图表 结论 在深入研究机器学习或统计建模之前,EDA 是关键步骤,因为它提供了为手头问题开发适当模型并正确解释其结果所需的上下文。EDA 对于数据科学家来说很有价值,可以确保他们生成的结果有效、正确解释并适用于所需的业务环境。
资源 硅谷数据科学——探索性数据分析的价值 工程统计手册 – 什么是 EDA?
本文由 mdnice 多平台发布