本文由Saeed Aghabozorgi和Polong Lin共同撰写后,本人翻译而来,原文在此:
https://cognitiveclass.ai/blog/data-scientist-vs-data-engineer
数据分析师是其组织中经验丰富的数据专业人员,可以查询和处理数据,提供报告,总结和可视化数据。他们对如何利用现有工具和方法来解决问题有着深刻的了解,并帮助公司的员工通过特殊的报告和图表来了解具体的查询。
然而,他们并不期望处理大数据的分析,也不希望有具体的数学或研究背景为特定问题开发新的算法。
技能:数据分析师需要了解一些核心技能:统计数据,数据显示,数据可视化,探索性数据分析,
工具:Microsoft Excel,SPSS,SPSS Modeler,SAS,SAS Miner,SQL,Microsoft Access,Tableau,SSAS。
是数据专家,与内部利益相关者进行更密切的互动,以了解报告需求,然后收集公司的需求,设计和构建商务智能和报告解决方案。他们必须设计,开发和支持新的和现有的数据仓库,ETL包,立方体,仪表板和分析报告。
此外,他们还处理关系数据库和多维度数据库,并且应该具有很好的SQL开发技能来集成来自不同资源的数据。他们使用所有这些技能来满足企业范围的自助服务需求。 BI开发人员通常不会执行数据分析。
技能:ETL, developing reports, OLAP, cubes, web intelligence, business objects design
工具:Tableau, dashboard tools, SQL, SSAS, SSIS and SPSS Modeler
数据工程师是数据专家,准备数据科学家分析的“大数据”基础设施。他们是设计,构建,集成各种资源的数据和管理大数据的软件工程师。然后,他们撰写复杂的查询,确保其易于访问,工作顺利,目标是优化公司大数据生态系统的性能。
他们还可以在大数据集之上运行一些ETL(提取,转换和加载),并创建可用于数据科学家报告或分析的大型数据仓库。除此之外,由于数据工程师更侧重于设计和架构,因此通常不会知道任何机器学习或大数据分析。
技能:Hadoop, MapReduce, Hive, Pig, Data streaming, NoSQL, SQL, programming
工具:DashDB,MySQL,MongoDB,Cassandra
数据科学家是21世纪的炼金术士:可以将原始数据转化为纯净的见解的人。数据科学家应用统计学,机器学习和分析方法来解决关键业务问题。它们的主要功能是帮助组织将大量数据转化为有价值且可操作的洞察。
事实上,数据科学本身并不一定是一个新的领域,但它可以被认为是由机器学习和计算机科学驱动和自动化的高级数据分析。换句话说,与“数据分析师”相比,除了数据分析技能之外,数据科学家预计具有强大的编程技能,设计新算法的能力,处理大数据,以及领域知识方面的一些专业知识。
此外,数据科学家还期望通过可视化技术,构建数据科学应用程序或叙述关于其数据(业务)问题的解决方案的有趣故事来解释和雄辩地提供他们的发现结果。
数据科学家的解决问题的技能需要了解传统和新的数据分析方法来建立统计模型或发现数据模式。例如,创建推荐引擎,预测股票市场,根据其相似性诊断患者,或查找欺诈交易的模式。
数据科学家有时可以呈现大数据,而不考虑特定的业务问题。在这种情况下,好奇的数据科学家有望探索数据,提出正确的问题,并提供有趣的发现!这是棘手的,因为为了分析数据,强大的数据科学家应该在机器学习,数据挖掘,统计和大型数据基础设施方面有不同的技术知识。
他们应该具有使用不同大小和形状的不同数据集的经验,并能够有效高效地运行大型数据的算法,这通常意味着保持最新的所有最新尖端技术。这就是为什么必须知道计算机科学的基础知识和程序设计,包括语言和数据库(大/小)技术的经验。
技能:Python, R, Scala, Apache Spark, Hadoop, machine learning, deep learning, and statistics.
工具: Data Science Experience, Jupyter, and RStudio.