机械到数据分析的转变历程

大一和厦大金融的朋友一起做外汇,做股票,到了大二顺理成章的成为了自己学校创业与风险投资协会的会长,顺应当时大学生热潮就组了一个设计工作室给创业的朋友提供logo、海报设计。对于自己的专业机械设计也没有落下太多,但这两年却很混乱,因为一直没找到自己感兴趣的点,可以ALL IN 的那个点。直到接触了一门学科概率论与数理统计,一个很有魅力的老师把我带进了统计的世界。

那个时候我花了两个月的时间写了篇 文章《以小见大之样本方差的无偏性》,进入了一种我向往的状态那种ALL IN 的状态。我通过样本方差这个点,把统计学的逻辑梳理了一遍,而数据分析的工具就是统计学。统计学是什么:design,设计,数据的收集、埋点,比如通过GA,talkingdata, 友盟这些工具或者抽样调查的方式来获取数据;description,描述,从均值方差偏度峰度异常值这些到同比环比定基比移动平均去分析数据,寻找趋势tipping point,去发现问题;之后则是inference,统计推断,用机器学习算法去建立模型,做出预测推断。

当时让我困惑的点,是为什么样本可以去估计总体?他们差别那么大,怎么可能会没有偏差?数据所收集到的基本都是总体的一个部分,或者说用短时期的数据去推测长时期的趋势,他何以可能去做到这点?从理论层面上,这个问题可以追溯到大数定律、中心极限定理、概率。
在理清楚这个原理后,那么又如何去做到更加精确地去描述这个总体?这便到了数理统计的三大核心:参数估计、假设检验、非参数估计。
而无偏性就是由于参数估计所引起的,样本的方差的公式是用RSS/n-1,这个n-1的自由度保证了估计的没有偏差。而无偏估计又有很多个,从这个概念也就有了MSE,mean sum of error,用来选择到底用哪个无偏估计。这就有了机器学习一个非常关键的调参指标---test MSE或者说validate MSE。在选择机器学习算法的关键是方差偏差的均衡。像SVM LR LDA LASSO RIDGE 这些算法本质区别是因考虑到方差偏差均衡,loss function 的不同所引起的。

所以正是因为这篇文章,才慢慢打通了我的一些概念。在运用统计去做数据分析时,它是建立在一个概率基础上的。数据分析是什么,收集数据,发现问题,提出目标,建立模型,调参,验证测试改版,然后又收集数据,这样不断循环的一个过程。
其实我考虑过去考研,统计或者CS方向,但后来放弃了。因为我知道,数据分析它的关键点并不是严格的数学证明或者说强悍的编程能力,更多的是一种思维,一种能够把业务,产品,后端都结合起来的一种能力,甚至要TO C,而这些技能,读研并不能给我。所以我特别渴望,能够找到一个实习,找到一个团队,不断的去学习去成长,去创造一些有价值的东西,真正的去解决一个业务问题。这就是我目前最大的目标。

触动我的有两点,一个是在学习朴素贝叶斯算法时有个例子,它说,对于一条女生内裤,机器学习需要大量的训练数据去不断地学习才能判别出,这是一个女生内裤,而人却能够立马判别,也就是它最大的缺点就是不能很好的去解释或者预测有大量噪声和特征值的数据。

第二个是今日头条的一个黑科技让我感触很深,他新闻的推荐机制通过读取用户微信公众号的logo来推测你的偏好。这个算法更多的是一种思维,而不是算法本身。

你可能感兴趣的:(机械到数据分析的转变历程)