硅谷数据科学家成长之路-笔记

1我是如何选择统计这个专业,读博的一些经历

2读博期间的做了两个暑期实习,提高工作经验

3去年十月份到十一月份找数据科学家工作的一些经历

      读硕士期间认识tiger,本科上海交大核工业专业、硕士物理学和博士专业都不一样,本科后本来签了一个核电站的工作,但是因个人原因就选择出国,拿到硕士全奖,硕士期间选修一些数学和统计,发现自己对统计的理解比量子物理更容易,而且发现统计学更容易找工作,于是申请博士。当时申请到4家offer,因为UCSD的学校排名最高,UCSD的教授也比较有名气,所以来读博。本科、硕士没有任何数学和统计背景,如果你有一个目标,你就会想尽办法去达到,例如我硕士期间选修一些数学和统计课,拿到统计教授的推荐信,这时我为什么选择统计的原因。

        美国的统计学博士学校不多,共五十多所学校有统计课,统计博士学位在数学系下,有五位统计教授和五位概率学教授,学校的统计专业还是不错的,计算机系也很优秀,有很多业界很著名教授做人工智能这块,统计课有很多专业课需要修,对中国学生来说很容易,但是比较难的是做科研,如何发paper,需要一定的科学成果才能达到毕业要求,这是每个博士都觉得困难的地方。 我们教育模式我们更擅长考试,但并不一定擅长创造性的研究,我比较幸运遇到一个很好的导师,在他的领导下我的博士道路进展还算顺利。修很多统计课,笔试,开题报告,发一些paper证明你达到统计博士水平,博士论文答辩。

        读博期间的科研,ucsd的科研做了很多,真正发表paper的只有后面三个,写进论文的有四个project,From Sparse PCA to Sparse Clustering,A Simple Approach to Sparse Clustering,Semiparametric Estimation of Symmetric Mixture Models,Concentration of Measure for Radial Distributions。

        老板给了一个很难的课题,要做很多理论分析,项目做起来很困难,八个月做起来了,做了很多证明,因为项目立意不够新,没有太强的原创性,于是不发表paper,让我很被动,当时一度想放弃想找工作。但是老板又给了一个课题,说这个很容易,然后就有了第一篇文章,这篇统计学的paper用了五个月的省稿时间,统计学论文省稿周期一般是一到二年,这篇文章被用了之后增大了我的自信。自己找一些课题,老板的毕业要求至少三篇文章,其中一篇是自己的idea,自己是第一原创作者,博士后需要自己找课题自己写文章。

        业余生活,攀岩,图书馆,海景,建筑,公园,(想象……)

       读博面临一个问题,选择学术界还是工业界,做学术并不是一件容易的事情,统计教授付出的时间和回报并不一定成正比,我老板正教授年薪15万美金,博士毕业做教授,先做一两个博士后六万五千美金,找到教职也需要很大精力,助理教授九万五千美金。好处拿到终身教授,就是铁饭碗,不担心失业问题,金融危机什么的也不怕,想去学术界你的文章就需要很好,学术研究很有名,你的老板也要很有名气,你还要会教书。工业需要扩展自己的一些技能,数据科学是一个交叉学科,计算机,数学和统计,以及一些背景知识的结合。我是统计博士对统计这块了解深入,但是不代表我能做大数据,并不能代表能成为一个很好的数据科学家。

        读博期间选修了一些计算机系的课,数学算法,人工智能,选修或者旁听课,提高自己的技能,有了这样一个认知,我就去修课去找实习,我博士二年级做开题报告,当时已经拿到一个实习offer,找暑期实习还是比较困难,想去硅谷大公司做实习,没有任何经验就比较困难,最后拿到两个面试,得到一个Teradata的工作,想利用我对统计的理解和人工智能方面做一款软件,去分析数据的实习。第二年找实习是Yahoo的实习,做的是数据科学家的工作,Yahoo收入依赖于广告,曾经辉煌过,现在被收购,实习主要做预测广告点击率,需要很多人工智能的方法,用某些模型去估计广告点击率,我们就知道给什么用户推荐什么广告,能增加用户的点击率。线上广告推广,谷歌或是Facebook的营收,广告占了很大一部分,广告这块是个很有价值可挖的部分。如果你能增加用户的点击率和转换率,你就能赚很多钱。广告实时竞价系统里面的一些模型,发送广告是为了提高品牌效应,对应的模型是CPM模型,想降低每一百万用户看到广告所消耗的成本。如果发送广告是为了增加用户的点击率和转化率,就是我们需要卖产品,那就是有两种模型,一个是CPC,为了降低广告供应商每一个点击转化所消耗的成本,另一个是CPV。我们的模型是CPC,量化标准是广告的点击率。我做的实习是CPR的预估,广告实时竞价系统,是一个很庞杂的系统,大多数谷歌员工在做广告,Yahoo做cpc模型,目的就是为了提高用户点击率,用以往的数据去估计点击率。这样的实时竞价系统,最顶层是广告供应商是出钱的,例如facebook,把广告位卖给了广告供应商,决定给什么用户什么广告,一方面提高用户转化率另一方面降低广告商成本。

        我在Yahoo做的项目,它的数据庞大,几百万条用户信息和所对应的广告信息,投放广告的信息,广告供应商的信息,广告本身的信息和用户的一些信息,例如用户体验和用户个人的信息,怎么去提取有用变量,怎么建立模型,用这些模型去预测用户的点击率(CTR)。这广告被点击它的变量就是1,没有被点击那就是零,这是个分类问题。我们真正关注的是点击的概率有多少,我们用的是逻辑回归模型,可以直接给我们用户点击的概念。人工智能的一个很重要的问题是它的方法有很多,真正预测CTR的时候所用的方法只有决策树模型,DT,JDBT,LR。在Yahoo所做的事情给你很多数据,选择有用的变量,建模型,预测将来的点击率,做很多线下实验,如果能增加用户的点击率,才可以做线上实验,线上实验成功后才可以放到实战当中,如果证明有用,才可以长期使用,才能为公司赚很多钱。当时带我的导师是一个工作三四年的博士,因为之前的两个员工不是很想做于是跳槽,当时我正好在实习,导师让我做,最后这个项目提高了CTR,让我拿到offer。

        我找工作的一些经历,找full-time的一些经历,数据科学家的工作,刷了一百道简单的题,对我比较难的是编程算法题,比较简单的是统计方面的问题和数据相关的问题,我面试谷歌时失败的经历,问的问题偏向统计,例如很难的概率题,用R和Python去分析数据……。四轮面试,最后一轮感觉到我的交流沟通能力不强,给一个不是统计方面的数据科学家说我简历上的项目时不能讲的很明白,最后hr给我的反馈说我的一个表现不是很好,最后两选一给了另一个有经验的人。总结经验去面了两家公司一个是美国版的知乎,另一个是电商公司,拿下了两家的offer,最后选择了电商公司。求职面试过程中有时候不是你的technique方面的技能,有时候沟通表达能力可能更重要,也是认清自己的一个过程,你会遇到很多牛人,会激发自己去努力。

        数据科学家(DS),资深数据科学家,principal DS,管理层,经理,总监,资深总监,vp,资深vp。

         实习时导师给我的一个建议,作为一个数据科学家,如果你能同时不断提升自己,发文章,能提高自己的价值,提升自己在业界的影响力。

你可能感兴趣的:(硅谷数据科学家成长之路-笔记)