《数据科学家访谈录》总结·3


01 - 05:DJ Patil, Hillary Mason, Pete Skomoroch, Mike Dewar, Riley Newman
06 - 10:Clare Corthell, Drew Conway, Kevin Novak, Chris Moody, Erich Owen
11 - 15:Eithon Cadag, George Roumeliotis, Diane Wu, Jace Kohlmeier, Joe Blitzstein
16 - 20:Jonh Foreman, Josh Wills, Bradley Voytek, Luis Sanchez, Michelangelo D’ agostino
21 - 25:Michael Hochster, Kunal Punera, Sean Courley, Jonathan Goldman, William Chen


  1. Eithon Cadag
    教育背景:华盛顿大学·商学和信息科学双学位,华盛顿大学·博士,研究方向是将机器学习算法应用于生物学领域。
    职业经历:拓扑机器学习公司Ayasdi的经理和首席数据科学家
《数据科学家访谈录》总结·3_第1张图片
  • 在研究生课程中锻炼了代码能力

研究生阶段选修的很多计算机课程和其他非计算机课程都需要写大量的代码。并且做过很多和生物相关的项目。

  • “充实”的研究生经历

“我研究生的最后一年几乎就没睡觉!”

  • 统计学的重要性

“数据科学里很重要的一块是对统计学的训练。从根本上来说,“数据科学”这个名词意味着你是一个科学家,而科学家有责任和义务去做出正确结果。如果你做不到这一点,其实你就是会用数据做点漂亮图像的人而已,根本称不上科学家。能够理解你做的东西,并且从统计学的角度去评估是否你的东西是有效而且正确的,这一点非常重要。”

  1. George Roumeliotis
    教育背景:悉尼大学·应用数学学士,斯坦福大学博士后,研究方向是等离子天体物理。
    职业经历:Dynaptics,JRG Software,财务软件公司Intuit的资深数据科学家&数据创新领袖。
    (注:从姓氏判断,George因该是希腊裔)
《数据科学家访谈录》总结·3_第2张图片
  • 数据科学的范畴

数据科学自有其规律和底蕴,是一个结合了应用数学、计算机科学、商业资讯和新产品开发的综合职位,最后一项目前在数据科学的比例越来越大。

数据科学家的技术列表中大概包括了统计学、机器学习、SQL和Hadoop,以及一门类似Java一类的主流编程语言。

一个具有商业咨询能力的数据科学家就像是一个资深的麦肯锡咨询师,可以流畅地在商业和技术两个领域腾挪闪转,并且是一名能被人信任的商业顾问或者领袖。这些绝对是很高很难的能力。

  • 技术学习

熟练使用SQL语言和Hadoop绝对是绕不过去的条件。

学会R语言是重中之重。另外,毫无疑问你也需要学会一门主流的编程语言,比如Java或者C++。当然,学会一门主流的脚本语言,例如Python和Perl也是很有用的。

  • 年轻数据科学家最常犯的错误是什么?

首先,你要主动去和身边的非技术人员搞好关系。

其次,尝试用商业流程去看、去分析这个世界。商业流程包括了一个商业活动里所涉及的人员、体系和步骤。概括来说,一个数据科学项目的目的是提高某一项现存的商业流程的利润效率。

  • 一名成功的数据科学家应该具备什么?

一名成功的数据科学家应该有能力去改变他周边的世界。

  • 未来数据科学的走向是怎样的?

数据科学将会带来数据产品的井喷式爆发,提供数据产品的公司与使用数据产品的客户都会快速增长——也就是说,这一项基于大数据和高级分析的科学将会进入千家万户。

  1. Diane Wu
    教育背景:西蒙弗雷泽大学·计算机学士,斯坦福大学·遗传学博士,选修了很多计算机科学与机器学习的课程(Andrew Ng的机器学习课程、Daphne Koller的概率图模型(Probabilistic Graphical Models)课、Jeff Heer的数据可视化课以及Jure Leskovec的大数据挖掘课。)。
    职业经历:Palantir,MetaMind。
《数据科学家访谈录》总结·3_第3张图片
  • 在Palantir(注:这家公司的老板是Peter Thiel)的工作

将定性的问题转换为定量的问题来研究(比如找到不错的替代指标来做出正确的结论)、统计(对数据做计算操作)、沟通交流(用易于被理解的方式展示数据)

  • 卓越的数据科学家与普通数据科学家之间的区别在哪里?

需要同时能从工程学和统计学两个角度去思考问题。你必须要思考什么样的统计检测方法是正确的,从什么角度去看问题,如何去用软件工程实现你的解决方案,以及如何玩转那些体量非常大的数据集。还需要能用清晰易懂的方式去展示你的结果。

  • 数据科学的未来?

我觉得在未来10年,我们将会出现数据科学之外的很多新名词,因为人们终将意识到他们在寻找的人是怎样的(分析师或者预测建模师)。

  1. Jace Kohlmeier
    教育背景:堪萨斯大学·数学和计算机双学位,普林斯顿大学林论计算科学硕士。
    职业经历:Citadel,Khan Academy数据科学主管。
《数据科学家访谈录》总结·3_第4张图片
  • 在Citadel是如何学习的?

“我的方法——可能不是最优的方法——就是读书。”

  • 哪些技能是非常基础而且核心的?

定量分析思维。编程能力。设计模型。

  • 如何锻炼沟通能力?

“我当时录制了几盘尝试扮演各种商业角色的录像带。然后我看了那些录像带,并且惊愕地看着自己的肢体语言,听着自己的发音怪癖。直到今天我都在努力改正这方面的问题。”

“我的另一个进步方式是,努力与那些非常外向的人结伴。”

  1. Joe Blitzstein
    教育背景:加州理工大学·数学学士,斯坦福大学·数学博士
    职业经历:哈佛大学应用统计专业教授
《数据科学家访谈录》总结·3_第5张图片
  • 概率论简介课程

Joe在斯坦福的概率论课程非常受欢迎,有推特账号@stat110(https://twitter.com/stat110)和书《Introduction to Probability》。这本科还有网页,https://projects.iq.harvard.edu/stat110。(这本书真的非常好,推荐阅读,但只有英文版,下载地址:https://github.com/iamseancheney/pythonbooks/blob/master/Introduction%20to%20Probability%20-%20Blitzstein.pdf)。

  • 讲故事、沟通交流和可视化在数据科学中分别具有怎样的作用?

“但是我觉得,能从数据中获得可以解释的正确结果,并且将它告诉更多的人,这绝对是一种艺术。”沟通交流其实包括了与你自己的沟通交流!推荐Edward Tufte的书《The Visual Display of Quantitative Information》。

  • 通过对别人讲授这些知识来巩固学习

“你必须要思考应该强调什么东西,必须用那些非常常规的语言去讲授那些不那么常规的专有名词。你还要回想你一开始学习这些概念的时候是怎么理解的,想到一路上你越过的那些障碍和绊脚石,知道重点和核心在那里。这一招对于任何人都有用。”

你可能感兴趣的:(《数据科学家访谈录》总结·3)