全文共2604字,预计学习时长4分钟
数据科学家也许是“21世纪最性感的工作”,但他们每天在做什么?是不是一直在建模?或者将70-80%的时间用于清理数据?
以下列举了五位来自业内人士的5个回答,来帮助你了解数据科学家的日常事务。
这个回答清晰易懂且简明扼要。作者还设计了一个流程图,并用图表生动展示了他的思维过程。以下是他的答案:
机器学习非常注重过程。我们总是处于以下图片中的某个位置:
机器学习工程师绝大部分时间都处于前两幅图(或阶段)。有趣的部分其实在第三个阶段,但现实中它只占了很小一部分。
现实世界中数据科学的一些关键事项:
· 几乎所有应用的机器学习都受到监管。这意味着数据科学家是在利用结构化数据库来建立模型。
· 数据处理占据现实工作的一大部分。
· 当听到监管一词,想想分类和回归。我的大部分模型都是分类问题。
· 建立模型占了工作的20%。没错,就是这样!
· 很多中小企业根本不会使用深度学习。因为每次用像XGBoost这样的结构化数据算法就足够了。
· 我做的一切都和编程有关。
· 大多数现实数据都存在于关联式数据库中。你的工作就是查找出你需要的数据。
· 大数据是非结构化数据。要想用大数据建立模型,需要学习另一套技能。
· 云必不可缺。BigQuery能用于现实中庞大的结构化数据。大部分大型模型无法在笔记本电脑中构建。
· 计算机是单语的,只会用数字。给模型传递数据时,实际上传输的是高度结构化的纯净数字数据库
数据科学家任务的百分比图示易于理解,也很有深度。Vinita还借助她的经历来一步步解释数据科学家的日常工作。这是一个必须阅读的回答!
与普遍观点相反,数据科学并非处处充满魅力。数据科学家典型的一天中会涉及到很多回顾工作。有时甚至需要预测移除或添加变量可能会带来什么后果。
· 收集数据集:数据是数据科学的生命线。数据科学家们会花很多时间收集数据。只在极少情况中,一些项目可能已经有充足数据。
· 清理和组织数据:这是整个过程中最花时间也最关键的步骤,对最终结果有极大的影响。完成这个步骤后,曾经庞大的数据通常会减少,这时可能需要收集更多的数据来进行有效训练。
· 挖掘数据:这是一种检查大量预先存在的数据库以生成新信息的做法。一旦数据组织完成并存储在数据库中,最后就可以开始通过在数据中查找模式来从中获取数值。
· 构建训练集和测试集:一旦获得大量数据,就需要将其分成训练集和测试集。训练集是用于发掘潜在预测关系的一组数据。它包含有关预期输出的所有信息。测试集则是用于评估预测关系的强度和效用的一组数据,包含混合变量。
· 精炼算法:从骨架算法开始。它非常基础,大致定义输出预期。几个阶段过后,准确度、精度等都能被记录下来。同时算法也得到改进,变得非常高效。
图片来源:pexels.com/@rawpixel
值得注意的是,机器学习虽然是数据科学家工作中最受期待的方面,但仅占总时间的5%!就像Vinita的回答一样,他也用百分比来解释自己的日常任务。以下是Justin的观点:
· 和NLP相关的任务(15%)。PaperRater的自动校对技术需要大量使用解析器、标志器、正则表达式和其他与NLP相关的好用工具,来作为核心算法和反馈模块的一部分,这不足为奇。
· 机器学习(5%)。这常常是最有趣的部分。涉及到数据清理、特性提取/设计/选择,以及构建模型。
· 报告和分析(10%)。启动查询、审查分析,以及协助制定战略决策。
· 数据管理(5%)。设置和管理数据库服务器,包括MySQL、Redis和MongoDB。较大的项目可能需要Hadoop或Spark。
· 一般软件开发(40%)。许多数据科学家都有计算机科学的背景。所以如果有合适的背景,就做好准备投入进去。API集成,Web开发,以及可以增添价值的任何领域。即使在AI创业公司,大部分开发都不会涉及AI。
· 其他方面(25%)。涉及各种类型的任务,包括上传博客文章、营销、管理、整理技术文档、提供技术支持、网站复制、发送电子邮件、参加会议等。
Tim Kiely使用韦恩图来解释数据科学。好好看看下面的韦恩图,绝对会拓宽思维。此外,Tim对于数据科学家的定义也与大众略有不同。以下是Tim的回答:
“数据科学家”有点像神话。不是说它们不存在,但是他们的数量比普通认识的要少得多,而且更多存在于想象之中,而非由规则定义。
我把它比作网络泡沫中的“网络大师”。这些人可以进行完整的堆栈编程、前端开发、营销等一切工作。所有这些角色/技能总是十分专业,如今仍然如此。
“数据科学家”应该是数据库的建筑师,需要了解分布式计算,并对统计学和商业或领域专业的某些范围有深刻理解。这些组合技能中的任意一个都能支撑职业生涯,这其实是非常高的要求。
我合作过的数据科学家通常都获得了人工智能或机器学习的博士学位。他们能高效沟通,有能力随时指挥分析师、开发端人员、程序员和数据库管理员,以提供数据驱动方案来解决问题。他们能大致规划出所需的解决方案,然后交给团队来执行。
一起来深入研究机器学习的特定领域。我的最爱自然语言处理!在此提出一位机器学习工程师的观点(每个数据科学家都应熟悉的角色)。以下是Evan的完整回答:
目前正致力于NLP,主要包括意图分类和实体提取。以下是我的典型日常:
· 上班,打开GitHub并检查ZenHub面版(有点像Jira,不过更加稳定)。我昨晚在服务器上训练了一些模型,现在应该要收到完成的邮件了。搞定!
· 我可能会花几分钟测试一些这些新模型,调整一些参数,然后重新开始训练过程。
· 剩下的时间我通常会低头编码,要么就是在弄为产品供应AI的后端Python应用,要么就是运行我想尝试的新算法。
· 比如说,最近我阅读了关于耦合模拟退火(coupled simulated annealing , CSA)的一篇论文,想要调整XGBoost的参数来作为网格搜索的一种替代方案。CSA是模拟退火(simulated annealing , SA)的通用形式,是不使用函数导数的任何信息来优化函数的一种算法。
· 很不幸,它无法在Python中运行,所以我决定自己编写一个。两天后,我向PyPI提交了自己的第一个数据包!
留言 点赞 关注
我们一起分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”
(添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~