R极简教程-1:数据分析前景

这是我自己写的一个教程,是我几年来用R语言的一些经验整理,写的不好,有些观点可能也不对,有些技术用的可能也不好。如果有问题,还请理性提出。

数据分析之我见

数据分析是一个久已有之的行当了,最早出现的地方,应该是可能是在几百年前的科学领域,绝大多数的科学,其实都是实验+数据的模式,实验自然就是各种试管仪器激光化学,但是实验最终会产出数据,科研的后半部分就是数据分析。这样的模式一直延续到的今天,今天的大部分理工科博士做的工作,都是数据分析,所以,如果想要找数据分析方面的人,其实理工科博士是很合适的对象。

另外,数据分析的最主要工具是统计学。相比于机器学习、人工智能等等新潮的科技,统计学绝对拥有非常渊源的历史。当然,统计学也是有高低之分的。计算一个平均数叫做统计,建一个统计模型也是统计,这两者之间差距是天壤之别的。再大部分的问题中,统计学一般都能给出比较好的解答。诚然再AlphaGo这种问题上,最新的人工智能和深度学习在准确度上更胜一筹,但是就数据分析而言,统计学再运用的广度和方便上,依然是数据分析中无可替代的一个部分。

最新的人工智能(AI)对我来说是一个很尴尬的词语,因为我本科的时候,现今的“人工智能”中的大部分东西,还被叫做“模式识别”(我用的是清华大学张学工的教材)。简而言之就是,用数据来做分类、聚类、预测……之类的工作。但是在我本科毕业之后,这其中的很多内容被叫做人工智能、又被叫做机器学习,然后又被叫做数据科学……所以到了今天,我很不愿意听到有人跟我说自己是做人工智能或者机器学习的,更愿意听到别人直接告诉我:我是做广义线性回归的、神经网络的、推荐系统的……这样我可以更快地在大脑里检索到他在做的具体东西。

另外知乎上的一些回答,也可以用来参考。

R极简教程-1:数据分析前景_第1张图片
图:数据分析的一些基本方面。转自链接

数据分析的高下之分

另外,如果所数据分析师的职责是什么,最简单的功能当然就是分析数据。但是数据分析也是分难度的,比如说:

用Excel处理一些小数据当然也叫数据分析,但是面对上亿行的数据,Excel几乎就没什么用了。

用R或者Python载入一批结构很清晰的数据没什么难度。但是如果数据杂乱无章,需要正则表达式提取,可能就没那么容易。

数据来了,能不能分析正确是是一个很大的问题。比如说:我见过的绝大多数数据分析,都是滥用平均值的。但是只要稍微学过统计学的人,都知道除非数据分布符合正太分布,否则均值说明不了太多问题。(这就是为什么上海人均收入7000+,而中位数才3000,身为看报告的人,你更愿意看到中位数还是均值?)

准确度也是一个问题。线性回归可谓是最简单实用的预测模型,至今都被大部分的学术课题利用。诚然相比于极度复杂的“深度学习模型”,它准确度可能没那么高。但是你愿意花10秒钟,用lm模型完成线性回归得到一个80%的准确度,还是花40万,雇佣一个深度学习博士,折腾一两年,得到一个90%的准确度?(那个博士如果跳槽了,可能那个模型都没人能维护……)

再说能力的问题。如果做BI(商业智能)或者审计会计,能用Excel不停地像是机器一样重复操作可能就够了。但如果你想要做一些漂亮的可视化,可能需要学习Echart、Plotly、D3等等……如果你还希望你的东西能上线运行,你还的学习如何搭建网站前端后台等等……

总而言之,我觉得,数据分析是一个想要挖的话可以无穷地挖下去的东西(我可能会一直挖下去)。从最简单的Excel,到最深的复杂人工智能模型,每一个模型背后都有复杂的数学推导,再加上各种工具和语言,这绝对是一个可以让人学习一生的行业。

我不太喜欢现在社会上对于数据分析过于浮夸的描述,也不喜欢太多的新颖词汇包装。从数据科学、增长黑客、人工智能、机器学习,预测学习等等……很多概念互相都交叉重复,这真的没有太多的意义。不过大概IT已经和投资和金融纠缠在一起了,任何与投资金融缠再一起的东西,都会快速出现泡沫和各种概念名词……

数据分析前景

R极简教程-1:数据分析前景_第2张图片
*图:国外的digital analytics的职位薪水情况,总的趋势是上涨(This chart provides the 3-month moving average for salaries quoted in permanent IT jobs citing Digital Analyst within the UK.)转自链接

我觉得不会有问题。数据分析就和审计、财务、勘探、挖掘、冶炼……等等非常实际的技术一样,不是什么虚的东西,能够真切掌握数据分析,肯定出路是很好的。就我个人感觉,有几点额外的感想:

1: 科研学术界从古至今都是数据分析的最大提供方和需求方。尤其到了当代,数据分析的需求简直可以用“饥渴”来形容。计算生物学、计算化学、计算物理学、计算社会学、计算天文学……这些学科,其实全部都是基于那些领域的数据分析工作。而且难度一点都不小。

2:数据分析搞的厉害真的很难,需要常年的积累和不断地学习。现在有太多人搞一些很粗浅的数据分析,然后就自称数据分析师了。哎……我博士都快毕业了,都不敢称,因为我统计说不上大师。

3:现在数据分析真的应该更多地被人重视。经济学新闻的那些数据分析统计,很多都是错的,或者隐瞒了很多问题。雄安新区规划发布了,有没有人研究一下,上海浦东20年发展的状况呢?

4: 数据分析是非常非常依赖分析员本身的,我也觉得目前还不存在被AI替代的可能性。因为分析什么、用什么分析、分析的结果是怎样的,这些都是问题,而这些问题都需要分析员本身去解决,可以这么说,分析这个行业没有什么具体的规范:咨询师可以成为分析师、博士后也是分析师……高下是很难判断的。

R极简教程-1:数据分析前景_第3张图片
转自链接

在这一部分,我简要说了一下我对于数据分析的理解。

你可能感兴趣的:(R语言)