011 《数据科学家访谈录》读后感

      真的万万没有想到,读这样一本访谈录会记录下来这么多的令自己比较有感触的内容。25位各行各业的专家,通过他们的言谈内容,发现其中的通性——强大的撸码能力、扎实的统计数学知识以及沟通交流能力 。

    反观自身,数学专业出身,如今依然没有底气说自己的数学功底扎实,有比较完备的统计学知识。 前路漫漫,坚定信心,每日坚持,去针对自己想实现的现在还不太清晰的目标, 但是方向是明确的,去创造出自己的长板来!!!

 

《数据科学家访谈录》 单研(Carl Shan)著 摘录
    一、重要问题的取舍——RelateIQ产品部副总裁DJ Patil
        你首先需要做的就是证明你可以完成一些任务,然后证明你可以创造一些东西。
        鉴于这个时代事物转变得如此快速,我们最应该培养自己的地方,就是让自己多元全能。
        我经常告诉新入行加入公司的年轻数据科学家的一件事就是,他们最好是每天最早到公司但是最晚离开的人。
        一些很重要的素养应该强调一下——讲故事的能力和叙事能力。另外,永远不要丢掉内心里的激情和好奇心。
        如果你的人生故事写错了,那你就有责任自己把故事写回来。一句话,如果你不喜欢自己正在做的事情,那就想办法改变它。
        做事一定要从简单的做起,然后慢慢做一些复杂而且艰难的事情,那个时候你才有办法解决那些复杂的事情。


    二、在成为成功的数据科学家之际——Fast Forward Labs创始人Hillary Mason
        沟通能力和讲故事的能力
        如果你所在的初创公司拥有一个可以产出数据的产品,那么这绝对是最完美的地方了
        如何同时推进几个项目的进度?如何让项目之间的成员有所交流?如何让项目的进度赶得上公司其他部门的进展?
        如果你一直以来都期待加入某些公司或者项目组,成为他们其中的一员,但你对于自己将要参与的事业却没有任何的想法,那这就有问题了。你应该要能想到一些让你自己都为之喝彩、激情澎湃的点子
        在工作中,有一个无限长的待办事项清单等待你去解决——你如何选择那个能够带来最显著影响的问题?
            第一个问题是,我们能不能清楚地定义这个问题?
                我觉得一个很好的办法就是,把这个问题用最简洁的语言描述出来,写在一张白纸上,让所有人都明白我们想要做什么。
            第二个问题是,我们怎么估计何时顺利完成这个项目?我们应该用什么成败指标来判断我们针对某个问题的解决方案是不是成功的?
                例如,如果你项目的算法根本无法返回一个可以量化的指标,你至少应该写清楚这个项目的量化指标不能是一个简单的数字。
            第三个问题是,假设我们最终可以完美地解决这个问题,我们应该首先从什么地方入手?
                这个问题的目的是确保每一个项目都时刻与公司的业务和产品相关,而不能仅仅因为我们对某些东西好奇就花费大量的人力、物力去一探究竟。所以针对项目,在入手的第一步,就要有一个长期的规划,确保我们可以通过这一阶段的工作,更深入地了解数据。
        对于所涉及的每一个数据项目,你需要不断问自己以下几个问题
            我正在做什么事?
            我如何估计工期还有多长?
            这项工作会带来什么影响?
        会对人们的行为产生什么影响?
针对这个问题我们能做的最邪恶的事情是什么?
        数据科学家的工作分为3个板块
            统计
            代码
            讲故事/可视化
        最好去那些你能学到最多东西的地方。
            你知道数据科学是什么样的
            你可以做出一些用于展览的东西
        我一直都在鼓励人们勇敢一些,把自己的工作放在自己的博客上或者Github上。想要做好数据科学这件事情,需要的是乐观与坚持。


    三、无处不在的软件开始用数据重构这个世界——Data Wrangling核心数据科学家PeteSkomoroch
        我觉得完成自己能力升级的方法就是做真实的课程作业,以及和从事这方面技能的人在一起
        如果你即将转入管理岗位,我建议你不要完全放弃编程。
        在当下对自身最有价值的投资,就是去努力获得工程开发能力和计算机技术。
        我认为加入一个项目最糟糕的情况莫过于你知道公司并不看好你的项目,并且你根本就没有足够多的资源去启动这个项目
        公司越年轻,越是有机会产生新事物。
        史蒂夫·乔布斯的名言:“人们认为专注意味着对于他们应该专心的事情说‘好’,但是其实根本就不是。其精髓在于敢于对几百个已经很好的主意说‘不’。”
        如果你刚刚从学校毕业,而你想要为数据团队工作,你需要找到好的导师。
        如果你不知道你手下团队内的人在做什么事情,那么你就很难做出什么正确的决策。
        我个人会在讲述项目和做项目这两者之间求取平衡点。我的建议就是,努力工作、长时间工作,然后告诉别人你做了什么,之后你就可以向着下一步努力了。


    四、学术期刊中的数据科学——《纽约时报》数据科学家Mike Dewar
        很快地做出很粗糙的图片来查看一批数据是怎样的,从时间序列和柱状图开始。
        一旦有人给了你一批数据,或者给了你一个实时数据流的接口,你最开始应该做的事情就是找到其中有用的变量,然后把它们的图像做出来。
        对于有志于数据科学的人们,您有什么建议吗?
            公开去编程,这是第一要诀
            另一个重要的事情就是人际网络
            尝试用你的所学去做出一些东西


    五、通过数据倾听你的客户——Airbnb数据主管Riley Newman
        他们在团队之中非常珍重同志友情的价值,今天回看,我觉得这就是Airbnb成功的“秘密武器”。
        我有一个数据科学家朋友,他在简历开头就写了三点他坚信不疑的信条:
            多数据胜于好模型
            好数据胜于多数据
            二八原则
        每一个人都有能力通过挖掘和洞察数据给这个公司带来影响
        好的数据科学不仅仅是那种会通过数据回答问题的人,而是真正具有数据挖掘能力和分析能力的高手。


    六、建立你自己的数据科学课程表——Mattermark数据主管Clare Corthell
        “我所做的每一件事最终都会对我的人生产生影响。”
        我这种通过自己设计课程来获取海量知识进而完成自身职场进步的能力,完全颠覆了以往的高等教育模式。
        市场其实要求人们表现出适合于工作的能力,而不是希望你仅仅表现一个出众的面试;大部分公司也不会为了你未来的潜在价值而聘用你。
        跟那些能够理解这(数据科学)背后的艰辛和磨砺的人聊,而不是那些仅仅在对比条目查看你有没有符合“过往工作经验”的人。
        学着写产品级别的代码
        如果你想要达到新的层次,无论你想要达到的下一个层次是什么,一定是有办法自己另辟蹊径直达目标的。这条路不会很容易,但确实是属于你一个人的路。


    七、均方误差根无法解决所有社会难题——Project Florida数据主管Drew Conway
        如果我们困在某个问题上就是因为缺少某个工具上的知识,那么就去学它,把拼图中那个缺少的板块补起来。但是整个事情的起点就是,你需要去解决一个问题。
        一个互联网公司赚钱的所有方法其实在深层次来说都是依赖人们做决定:做决定买什么东西;做决定点击什么页面;做决定分享某些东西或者与某人来往。
        不要有畏难情绪,因为其实相比于他人,你已经在这条路上处于领先地位了。现在你只需要学习一些简单的东西就够了。难学的那部分你已经知晓了。去学习一下那些简单得多的东西,然后让自己变得越来越出色。


    八、软件工匠学堂、软件工程及产品——Uber数据科学主管Kevin Novak
        只要是任何符合正态分布的数据集,在海量数据面前,统计异常值都会快速消失掉。
        对于小数据来说,数据清理更重要的是用来评估一批数据的可信度;而在大数据中,它更重要的功能是将杂乱的原数据归整为一个更加简洁统一的数据集,并最终将其用在某个算法上。
        如果拥有完备的数学和统计学知识,你就已经完成了这条路的85%了,剩下的15%主要就是一些基础的编程技能。统计学的背景和直觉对于你是非常有帮助的。
        我们付给数据科学家的工资,是希望他们可以建立分析流程,将数据导入算法,并且知道如何将特定的算法用于特定的领域。这些技能都需要数学和统计学方面的直觉。
        我是一个数据科学家,同时我也是一个工程师。今天我想做的事情就是解决问题。所以如果比起昨天,我更有能力去解决问题,那么这就是成功。
        分析师是那些使用现成的工具分析金融或者计量信息的人,而数据科学家是一个更为融合了软件技术、工程开发和产品运营的角色。
        成为顶尖数据科学家的基础就在于对于重要性的清晰认识和搞清楚应该如何增加自己的武器库
        没有什么建议是保证成功的。如果你能找到一个问题,就去解决它,或者你甚至可以为一些公众问题提出自己的解法,通过这样做你可以让大家都高兴。
        只要去解决问题就行了。开始用数据去分析现实世界,其他的东西慢慢都会来的。


    九、从天体物理到数据科学——Square数据科学家Chris Moody
        你需要让自己的结果尽快地出来。你用自己的结果获得别人的注意,然后就可以继续做下一步了
        科学上的所有东西都是针对一个想法被详细定义好演讲展示。在商业中,情况正好相反。
        没有人会来检查你的工作,也没有人应该来检查你的工作。你是独立完成自己项目的人,并且你需要自己把项目分解出来,看出哪些重要哪些不重要。
        参与开源项目还有很多间接的好处。最直接的好处当然是你会变得越来越好。间接的好处就是有很多人会因为你的工作而受益,你会收到很好的反馈的。


    十、数据科学中软件工程的重要性——Facebook数据工程师Erich Owen
        如果你总是习惯在白板上写画示意图,你就会越来越害怕编程。我觉得反复琢磨研究一个原型产品真的会对你的编程水平有很大的提高。
        我在自己工作过的公司里见过的最聪明的人,都是那些既可以读科学论文,又可以造出产品原型,还可以将之部署上线、成为一个可以正常运转的系统的人。
        所以我觉得,牢固的编程基本功,再加上系统的思维能力,是最为重要的。要求你做出一个实实在在稳定的产品系统可能确实会限制住你天马行空的想法,但是在造成的影响力上,它绝对更有价值。
        我觉得对于从非常严谨的学科背景出身的人来说,发现不同领域之间可以类比的特征是他们最擅长做的事情。


    十一、弥合领域的鸿沟:从生物信息到数据科学——Ayasdi数据科学家Eithon Cadag
        我并不觉得还有比直接阅读别人的代码来学习编程更好的办法。
        我认为读研的人一定要清楚地认识到自己有没有可能继续待在学术圈,你必须保证自己有得以傍身的技术和能力,以便于如果你最终没有进入学术圈的话,也有其他更多的选择和可能性。
        一个更为重要的原因是,你需要问自己:“能够让我越走越远的技能有哪些?”
        能够理解你做的东西,并且从统计学的角度去评估是否你的东西是有效而且正确的,这一点非常重要
        如果是对于有志于数据科学,想要有这方面职业生涯的人,我的建议是尽可能多地学习统计学
        尽量多上统计课,另外,多上数学课,但是最好还是偏重于统计


    十二、如何锻炼数据科学技能——Intuit资深数据科学家&创新领袖GeorgeRoumeliotis
        数据科学家的技术列表中大概包括了统计学、机器学习、SQL和Hadoop,以及一门类似Java一类的主流编程语言
        商业咨询能力是区分数据科学家与数据“技术宅”的重要指标
        我觉得一个出色的数据科学应该像瑞士军刀一样多才多艺,能够在诸多领域都有所作为,并且在一两个领域内拥有深邃的真知灼见
        数据库技术,熟练使用SQL语言和Hadoop绝对是绕不过去的条件
        如果你需要我给这些语言或者技术做一个优先级排序或者估计一下它们的比例,大概是这个样子的:SQL 40%Hadoop 30%R 15%主流编程语言10%主流脚本语言5%
        不是让你创造一个类似Google一样的超级企业,而是让你去为自己创造一个商业环境,去问自己如果给你100美元,你有没有能力用它源源不断地去赚钱。这是最直观的学习方法了。不要做一个连柠檬水小生意经验都没有的数据科学家
        在学术圈,我们经受过的训练都是,“这是我演示的开始部分,这是我要用到的公理和定义,然后中间是我做这个研究的过程和细节,最后是我的结果”
        我已经发现给他们做报告,最有效的方法就是“先说结论再说原因”,至于中间的处理过程,如果有人问的话你再回答就行了。
        你要把自己放在公司负责人的角度去思考问题
        不要盲目地坚信自己的观点,市场反馈是唯一的宗旨
        年轻人应该保有的做事方法:
            首先,你要主动去和身边的非技术人员搞好关系
            其次,尝试用商业流程去看、去分析这个世界
                商业流程包括了一个商业活动里所涉及的人员、体系和步骤。概括来说,一个数据科学项目的目的是提高某一项现存的商业流程的利润效率。而事实就是,商业过程是很难发生改变的
            你必须要对于商业流程中的人们报以足够的同情和理解,在你想解决方案的时候,要做到同时也能帮助那些人找到更理想的工作。
        一名成功的数据科学家应该具备
            应该有能力去改变他周边的世界
                个常见的思维模式就是,你去分析情况、想出解决方案,然后把这个解决方案交给别人去落实
                一个更好的思维模式是,把自己想象成生意里的那个人,那个要对改变这个商业世界负全部责任的人
            必须要有一个主人翁的心态和思维
        在你想要对别人提出重要的意见或者建议之前,最好时常地做一些小的努力去证明自己。小小的成功会向别人证明自己是可靠的伙伴
        我并不觉得数据科学家必须要成为多么厉害的软件工程师,那项工作需要完全不同的另一种心态,但至少你要熟练——知道如何写代码,如何记录测试代码,以及如何为大型的系统撰写小的模块,这些技术是很重要的


    十三、科学、工程和数据科学的交织——Palantir数据科学家Diane Wu
        是否回答了正确的问题,以及你的解决方案是否确实有影响力
        科学家们经常在获得任何结论之前就去问为什么,总是希望每个步骤、所有部分都完美无缺,而工程师会直接把半生不熟的假设直接做成产品出来,然后再去看有没有什么问题
        招聘数据科学家的时候,最难的一点就是找到那种在科学思维和工程开发两方面技能比较平衡的人
        Palantir的其中一个核心价值就是人与机器的共存:让计算机去完成它最擅长的工作(运行模型、计算指标等),然后让人来做我们最擅长的事情(解读规律与意义、做出正确的决定,尤其是那些有益于人类福祉的决定)
        那些最出色的数据科学家,大多是那些在学术生涯阶段进行各种编程创业写小项目的人
        当人们寻求数据科学帮助的时候,他们真正想要的东西是魔法。他们希望你用数据来预测所有东西。当他们说起数据科学的时候,其实他们根本不知道自己想要什么。
        大部分人都想在其中寻找刺激,但是却不知道如何做到。他们想要一些东西,但是对于真正想要什么,他们并没有很清晰的概念。
        你需要同时能从工程学和统计学两个角度去思考问题。你必须要思考什么样的统计检测方法是正确的,从什么角度去看问题,如何去用软件工程实现你的解决方案,以及如何玩转那些体量非常大的数据集。在你做完上述的所有东西之后,你还需要能用清晰易懂的方式去展示你的结果。这部分工作需要你去创造一个可视化产品。拥有图论知识和用于做可视化的计算机语言是非常有用的。
        你必须要意识到,你无法成功掌握所有事情。你一定要找到自己的优势,然后让它成为自己的杀手锏。
        与人多交流是学习的好办法。我指的不是去拉关系搞社交,而是去理解别人的工作是什么。在深度数据科学项目中,我通过与他人交流获益匪浅
        能够问对问题,并且将问题解构出来让自己有头绪,是非常重要的。在你完成这一步以后,原本模糊的问题就会变得像是你平时需要做的统计和算法问题。
        勇往直前!大胆地向前走并且去学那些你必须要学的东西。
        我觉得他们不应该妄自菲薄。你可以将自己培养成T型人才,也就是说,广泛地培养自己的技能,但是专注于其中一项技术。


    十四、从高频交易到驱动个性化教育——Khan Academy数据科学主管JaceKohlmeier
        编程能力贯穿了那一项工作的始终。你编程越快,你就可以越快地将你的想法化作实现。如果你对于开发系统得心应手,你可以将一些始于研究项目的东西尽快地落地成产品。
        使用信息论和图论模型来总结知识,我们可以将总结的结论看作是一种参考,然后依据它来从尽量少的用户里获得尽量多的信息
        工作中最难学到的东西就是一个很强的定量分析思维
        对于数据科学家来说,一个极为重要的能力就是知晓如何才能让自己的能力适用于整个团队,以及清楚在整个组织的架构中你所在团队是处于一个怎样的位置
        如果想要成为一名出色的数据科学家,你必须也是一名出色(至少是非常高效)的程序员。我的意思不是你必须要成为一名计算机科学家,而是你必须要熟练于写代码,并且对于开发真正的软件系统有经验。
        对于想要培养自己编程能力的人的建议
            首先,你必须要去写代码,而且写很多很多代码
            另外想要写得又好又快的一个好办法,是获得大量的代码反馈。而最好的获得代码反馈的办法,就是找到那些出色的开发工程师,然后让他们审阅你的代码
            这个时代最好的一点——也是我当年无法享受的一点——就是你可以参与到很多开源项目中,并且从出众的开发者那里获得很明确具体的反馈。对于那些想要提高自己编程能力的人来说,这简直是不能更好的资源和机会了。
            多写代码,确保自己的代码能获得那些编程高手的反馈意见
        培养沟通交流能力
            第一要诀就是,要让自己获得反馈——可以通过录像带,然后不断地磨练自己的沟通交流能力
            第二要决就是,找到外向的搭档,让他们去纠正你内向的天性,并且与这些人建立紧密的关系。
        当你在做分析的时候,你不仅仅是在写代码。你也是在运用现成的机器学习库,并且你本人也是一个数据和合适的模型之间的一个接线员,这就需要你清楚地认识你什么方法可以被运用于什么问题。这绝对是很高水品的工作,至少在现在这依然是一个依赖于人类直觉的工作。所以我认为在很长一段时间,我们依然需要这方面的能力。


    十五、针对数据科学与演讲能力的教育——哈佛大学应用统计学教授Joe Blitzstein
        无论你要做什么事情,你一定要有一个方向,而不是漫无目地尝试各种东西。你需要对于事物的发展趋势有一个估计与认识。
        如果你没有办法将一个事情解释得很清楚,唯一的原因就是你还不够完全通透地了解它
        学着将一个东西用可以被理解的方式讲述给别人听,这一过程也会强化自己对这个东西的理解以及学习
        条件黄金法则:试着用自己最希望看到的方式去展示你的点子
        很多时候,展现相对信息比展现绝对信息要更有用。你应该努力让人们一目了然地看懂图表中的比较结论,而不要用一些看上去非常炫目但实际上只会分散人们的注意力,让人们无法一眼抓住图表结论重心的展示方式
        如果你已经清楚地知道了这些所有的子丑寅卯了,你就不可能再做数据科学了。
        正确的做法是:在你开始学习其中的某一项技术的时候,慢慢会遇到瓶颈,意识到自己还应该学习其他的四项东西。然后你就去学习这些东西,并最终意识到,有些东西你不需要完全都绝知绝会。
        你真正想要学习的东西,是那种与语言无关的技术。你需要培养的是对于所有未知事物的一种基本思维模式,并且这是一种不需要依赖任何特定的计算机语言都能完成的沟通交流模式。
        学习新东西并且牢牢地记住它们的最好办法就是每天在工作中尽量去使用它们。千万不要抱着这样的想法:“我需要尽快看完这五本书,然后我就有足够的成为一名数据科学家所需要的技术了。”所有的学习都是旨在构建非常基础的思维模式。
        努力地将自己深入沉浸在某一个应用型的问题当中,你会慢慢地找到你应该用什么样的方法去做什么样的事情,然后再去翻书找答案,看文章,找相关的所有资源。到那个时候你会很更好地理解这些技术和方法,因为你毕竟将它们真枪实战地运用在了真实的你关心的问题当中。
        你需要管理自己的时间,这样你才能尽快地尝试不同的模型,并且得到结果,这样你才能可以通过计量那些预测模型的指标来选择最合适的方法。
        去看那些不同的问题,然后尝试去用每一个问题提供的数据解决它们,你将会对于用什么方法解决什么问题有更深的理解。
        但是时至今日,在大数据的时代,了解实验设计等知识仍是至关重要的
        我建议他们努力去做数学、统计学和计算机这三种学科的交叉型人才,并且牢牢地打好基础。然后让自己专注于解决现实问题,要记住深度比广度有用。
        当你在学习的时候,要多问问题,以及严谨求实。随时随地问自己一个很基本的问题:“有谁会关心这个问题?”多想想你做这一切的动机。为什么这些变量相互关联?为什么这个数据集有意思?我们能用它回答什么问题?当你使用不同的统计方法的时候,不要只是像用架子上的一个黑盒子一样,拿过来用它产出结果。一定要多问问题!这些结果有意义吗?你如何评估你使用的方法是不是靠谱的?或者说你怎么知道用这个复杂模型的效果要比随便去猜更准确?你怎么知道它更好?它在哪些方面更好?它确实比一些很简单的模型好吗?不停地去试问这些东西,然后去比较它们。无论结果有没有变好,都一定要深究下去。


    十六、数据科学不是Kaggle竞赛——MailChimp首席科学家Jonh Foreman
        在建立一个模型之前,你需要知道你的公司里有什么可用的数据资源,有什么技术对于你来说是有平台资源支持的,有什么技术是适合的,你需要去很好地定义那个问题,并且认真研究其中的各个细节。
        我觉得数据科学里的一大核心就是不断询问你为什么做这件事,以及你正在做什么事——在业界,你一定要选择最准确的问题去处理,并且抛弃其他的无关问题。
        数据科学家的角色
            数据整理
            沟通
            眼光
        知道这些技术并且能从公司里找到数据、看出分析机会,然后将合适的数据用于合适的技术,这些都不是简单的问题。这是需要创新力的工作。这需要你对于这许多技术都有所了解,并且能够融会贯通。
        如果你完全依赖某一个搞商业的人去帮你沟通联络,把问题扔给你处理,然后他自己在那里等着你汇报工作进度,这是非常危险的。
        它之所以重要,是因为正如数据清洗是一个建模工作的初始一般,沟通交流是整个建模工作的完结,而且这是一个将会做出改变的部分。
        物理世界是凌乱而且混乱的,尽管如此,我们可以在整个空间中了解人们的行为。那就是我看到数据科学最好的机会。


    十七、数学、自谦以及成为更好的程序员——Cloudera数据科学主任Josh Wills
        当你从学术界走出来,一般来说你都会发现现实世界比它看起来还要有趣,并且你需要解决的问题其实比看起来要难得多
        保持谦虚是很难的,但是要记住谦虚终将会带来进步。有朝一日如果你能成为一个专家,一个可以将自己的东西流利地说出来的专家,那就再好不过了。


    十八、数据科学和学术界——UCSD计算神经科学教授,前Uber数据布道师Bradley Voytek
        我觉得大部分人都会关心我在简历里写了什么,但事实就是,在人生的重要节点上,只要有一个正确的人看了你写了什么,并且喜欢你的东西,那么事情就成了。
        你发现自己拥有一些技术,一些非常有价值的技术,可以在那个领域解决很多别人无法解决的问题。突然间,你就像是一个会使用魔法的人。
        我们跳过了看起来显而易见的步骤,但如果你不是一个盯着这整个过程的人,确实很容易遗漏一些东西。试着去记住你做的某一个东西中的每一个步骤是很重要的,因为这会有助于你对别人讲述这些问题。


    十九、数据科学家的学术、量化金融与企业家之路——ttwick创始人/数据科学家Luis Sanchez
        对我来说,数据科学是一门从一组数据中提取价值的艺术和科学,无论数据大小都是。
        数据科学家的目标是从最有效的资源利用和时间限制中创造出可操作、可使用的智能价值。数据科学家应该能够以有意义的方式将数据连接起来,从而从数据的组合中创建新的知识,从而能够以创造性的方式模拟和解决问题,并快速地完成所有的工作。就像巴顿将军曾经说过的:“一个马上就能上马的好的解决方案,要比一个十分钟之后才能部署的完美解决方案更有用。”
        多关注自己的长处,少关注那些在当时被视为很酷的职业道路。


    二十、美国总统竞选就像物理科学一样——Civis Analytics资深数据科学家MichelangeloD' agostino
        需要的技能
            你必须通过完成一些项目和自学来知道这些东西。
            另一种是坚持不懈攻关解决难题的耐心和能力,你需要学会如何找到突破的方法,当某件事情不奏效时也不会沮丧,因为大多数情况下,事情都不是一蹴而就的。
            学习如何处理数据的唯一方法是实际使用数据
        对我来说,大数据的意思不是你拥有的数据量有多大,而是你应该如何处理你的数据,你如何将它应用到问题中,以及你用它做了什么有趣的事情。这更重要。


    二十一、培养数据感觉的重要性——LinkedIn数据科学家主任Michael Hochster
        几乎无论你处理什么问题,你总是会碰到一些奇怪的问题。在任何真实的生活工作经验中,我从来没有碰到过任何一个教科书式规规矩矩的问题。
        没有人真的在乎你有多聪明。这就是为什么它和学术圈不同。“我很聪明”的潜台词在学术界以外的任何地方都不重要。你必须从这里开始习惯这样的模式:“这是我的发现,以及我为什么要关心它。”
        关于指标分析,我有两件事要说。
            首先,有两个非常不同的角度来看待指标。
                有一个综合评价标准的概念,你选择那些所有人都会认可的重要指标,然后把所有的努力都集中起来攻关改良这个指标,这个指标数据的变化就代表了我们的工作进展。
                你必须在对近似指标这个问题上做出一个概念上的区分——你用它来决定哪一个特性是好的,哪个是非常细粒度的,然后才是你希望提升的全局指标
            第二点是,你没有用来衡量指标优劣的指标
        当我招聘的时候,我重视数据科学家应该具备的最重要的素质,包括
            如何获取数据集,并回答有关数据集的一个问题,搞清楚:应该比较什么?应该控制什么变量?如何将手里拥有的资源合理使用转化是合理的?这里有没有漏掉什么?需要去收集什么数据?
            编程是非常必要的
            非常专业的统计推断技术
        只理解理论是不够的,你需要有数据的感觉。


    二十二、数据挖掘、数据产品与企业家精神——Bento Labs联合创始人/CTO Kunal Punera
        这个世界上每个人都不想浪费时间,我们都明白,我们活在这个地球上的时间很短,我们都想去某家很喜欢的公司工作,或者去做一些我们特别想要做的事情。
        在编程方面,我认为掌握核心的编程理念是很重要的。
        我尽可能鼓励人们不断地问“我在优化什么?”例如,如果您想获得对数据做聚类,最好的方法是先确定什么属性维度可以得到最好的聚类效果,然后尝试将这些属性写成一个损失函数。
        在开始实施解决方案之前,有的人就会去思考问题的本质是什么。以这个例子来说,问题的本质在于我们需要寻找一个边界——两个类之间的分离边界,这是我们需要找到的。找到边界是什么意思?决策树会给我们一个什么样的边界吗?线性回归支持向量机又会给我们一个什么样的边界?使用核方法有帮助吗?在这种情况下,我需要担心不相关的变量吗?这是否意味着我需要通过L1规范或者依然使用L2?这些都是一些很根本的问题,如果能很好地解释这些问题,将可以让我们采取更为适当的方法,从而避免了大量的尝试和错误。此外,这些知识还有其他作用:一旦我们应用了第一种算法并且获得了65%的分类精度,我们下一步应该做什么来提高效果呢?所以说,认真地定义参数和变量,研究和一个好的解决方案中的各种特性,可以帮助我们了解下一步该做什么。
        但是我总是督促人们,应该尽量通过哪怕一个机器学习课程去研究一些很底层很基本的东西,哪怕那门课所教授的算法不多,只要模型原理、基本统计、优化方法和算法讲得够清楚就好了,求精不求多。这将为他们的工作打下良好的基础。
        如果有人做了三到四次,他们将来会再次这样做,就应该尝试自动化那个过程,自动化数据清理脚本,自动化模型部署,编写工具来重新培训模型,不要每一次都手工操作。编写能够自动创建新数据集的工具,重新培训模型,检查其准确性。如果精度低于阈值,发送电子邮件;如果精度良好,那么部署模型。


    二十三、从战争建模到增强智能——Quid联合创始人/CTO Sean Courley
        你可以拥有强大的数学知识,你可以拥有各种科学素养,但你也需要去对抗这个世界,让它倾听你在说什么。
        重要的是你必须要知道什么重要,什么不那么重要。
        数据科学家有义务用数据来在这个世界上创造一些美好的事物。仅仅不作恶是不够的,它完全可以带来更多积极的影响。


    二十四、如何创建新颖的数据产品和公司——Intuit数据科学家主任Jonathan Goldman
        我认为最重要的事情之一就是学会好奇。
        要努力去思考那些在未来可能会带来燎原之势的星星之火。一旦获得了能帮你解答你好奇的问题的数据,你就请学者去解决和回答这些问题,无论用什么技术,都尽量去尝试。你可能需要反复求索才能最终获得成功,但是商业的世界上永远没有已经定义好的高考题。
    二十五、从本科生到数据科学家
Quora数据科学家William Chen
        如果没有足够强大的编程知识供你实现自己的统计想法,你可以做的东西就会受到很多的限制。
        获取数据并确定如何处理数据需要花费大量的时间,而且这部分通常不需要任何统计知识。这部分大多数都是利用软件工程技术去清理数据,或者撰写高效的查询代码去数据库中移动和分析你的数据。
        你越是了解统计或者算法的底层机制和原理,你就可以越好地阐明自己正在做什么,并与团队的其他成员沟通。
        我们总是需要能够解读结果的人,并将洞察力提炼成可行的计划来改善业务。数据科学永远不缺困难的问题——人们总是需要解释结果并交流想法。
        当你拥有领域知识时,你拥有的一个优势就是,你甚至可以在查看数据之前,就对你好奇的内容做出更好的假设。
        我想成为一些数据理念的传播者,并说服人们数据是有用的。
        能够在数据科学这个领域方兴未艾的时候踏足其中,我感到激情澎湃。我想与更多人一起,用技术去让人们的生活变得更好。

你可能感兴趣的:(读书笔记,读书笔记)