在和很多想进入数据科学行业的小白们聊天的时候,在谈到为什么要进入这个行业的时候,他们都认为未来,将会是数据为王的时代,他们之中有很多已经工作多年已经了解到行业内数据的发展变化,有一些是还处于校园内,通过各种方式也是看到了未来的大数据时代的方向。他们普遍的认为随着技术的发展,在不远的未来,数据将成为主导各行业发展的前提,通过数据分析客户的行为,来更好的为客户去进行定制化服务。那么在这个逐渐逼近的大数据的时代下,单个的人如何去适应这股浪潮以及如何在这股浪潮下去选择前进的方向,也是他们在不断的前进中迷茫了方向的原因。
今天我们从多个方面的发展,看一下大数据这股浪潮的起源,并探讨一下大数据时代浪潮是如何发展起来的,以及在大数据时代下,我们个人如何是否要选择进入这股浪潮,并在这股席卷全球的浪潮中,分析各个行业的要求与发展,选择适合我们个人的岗位,让那些还在迷茫状态下的人早点认识到自己前进的方向,毕竟这不是一个大鱼吃小鱼的时代,而是一个快鱼吃慢鱼的时代,随着一股股浪潮的袭来,只有快速的掌握好方向,才能防止自己被吃掉,并且可以不断的壮大自己,不止是各行业内的企业,个人也是一样。
KDD流程是指从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程代表了在关系型数据库积累了部分数据之后,人们对数据利用的一种原始构想。代表工具:结构化数据语言(SQL)
数理统计分析是指利用小样本,进行描述性统计分析,即数理统计推断等工作,是一个从数学原理、统计学原理向外求印证的过程代表了人们开始将复杂数学原理应用于数据库中数据进行分析的初步尝试
上图是将统计分析落实到数据空进行数理统计分析的阶段
机器学习的定义有两个,一个是经典定义一个是通俗的定义。
经典的定义是:一个计算机程序可以从经验E中学习某些类型的任务T和性能度量P,并且它在任务T中的性能(用P度量)随着经验E的提高而提高。原文为:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E。
通俗的定义来自湖畔大学教育长、阿里集团学术委员会主席曾鸣的《商业智能20讲》,认为机器学习,其实是机器用笨办法去算,它的所谓学习是通过概率论的方法,不断地去通过正反馈来优化结果,而不是像人一样去思考学习
现在我们已经处在一个大数据的时代,这个时代是以创造更大的社会价值为核心需求为驱动,并且数据、算法、计算能力这三个方面的都有所发展,有所突破的情况下,驱动彼此,这三方面相互促进,协同发展,并且伴随着大数据时代标志的来临。下面我们探讨一下,有关数据、算法、计算能力这三个方面,近些年的发展突破。
数据层的突破主要是伴随着数据从结构化到非结构化、数据列由小到大、数据维度从低到高而进行的突破。
信息技术以及计算能力的突破主要是以存储容量、网络宽带及CPU计算能力为核心一系列的突破
存储设备容量的不断增加
网络宽带的不断提高
以Apache Hadoop为核心的分布式集群的诞生极大的提高了单价所能买到的计算性能,同时,以云计算为代表的一系列技术进一步提高了计算资源的可获取性。
分布式算法执行是借助分布式集群、Hadoop生态进行算法执行,这就是典型的使用者创造工具,而工具将反过来影响使用者。
分布式算法执行的一些优点:
算法的突破是从KDD到数据挖掘的突破,在到现在的从机器学习到深度学习的突破。
数据层的突破导致了算法适用面的多样化,计算机计算能力的提升则进一步导致了算法设计层面的突破,而持续不断的数据分析需求及社会对于数据分析的期望度,则进一步加快了算法的迭代速度。
根据中国18年颁发的《人工智能标准化白皮书》中对人工智能的定义对人工智能学科的基本思想和内容作出了解释,即围绕智能活动而构造的人工系统,人工智能是知识的工程,是机器模仿人类利用知识完成 一定行为的过程。获得最佳结果的理论、方法、技术以及应用系统的最好方法就是通过感知环境来获取知识并使用知识,转换到人工智能中就是数字计算机通过数据计算机控制的机器来模拟、延伸、扩展人的智能。
同时人工智能又可以分为两种:弱人工智能和强人工智能
弱人工智能是值不能真正实现推理和解决问题的智能机器,这些机器表面看像是智能的,但是并不真正拥有智能,也不会有自主意识。目前的主流研究仍然集中于弱人工智能,并取得了显著进步如语音识别、图像处理和物体分割、机器翻译等方面取得了重大突破,甚至可以接近或超越人类水平。
强人工智能是指真正能思维的智能机器,并且认为这样的机器是有知觉的和自我意识的,这类机器可分为类人与非类人两大类,从一般意义来说,达到人类水平的、能够自适应地应对外界环境挑战的、 具有自我意识的人工智能称为“通用人工智能”、“强人工智能”或“类人智能”
人工智能的发展阶段可以分为三部分:
目前人工智能的三次亮相可以视作每一代人工智能的分界线,这三次亮相分别的IBM的深蓝、Google的AlphaGo和AlphaGo Zero。
第一代人工智能是基于规则创造的智能,经典的代表就是深蓝,1997年5月11日美国IBM公司研制的并行计算机“深蓝”击败了雄踞世界棋王宝座12年之久的卡斯帕罗夫。但是国际象棋每一步的选择以及应对对手某一特殊步骤的最有方案是确定的,只要足够多的定性棋谱以及足够大的计算速度,就能够在对手走任何一步的时候准确判断出下一步应该如何走,就本质上而言,1997年的深蓝是基于规则的人工智能,深蓝本身并不会创造新的战略战术。
第二代人工智能是能够自主学习的人工智能,AlphaGo就是第二代人工智能的代表,在2016年3月9日到15日,阿尔法围棋程序挑战世界围棋冠军李世石的围棋人机大战五番棋在韩国首尔举行。比赛采用中国围棋规则,最终阿尔法围棋以4比1的总比分取得了胜利。当消息放出时,世界一遍哗然当时全世界都在讨论人工智能是否要打败人类并且在猜测这会不会是未来天网的开始,但是还有一小部分人不认为人工智能可以打败人类,因为李世石的围棋水平并不是围棋界最顶尖的水平,直到下一次比赛的结果传出。
2017年5月23日到27日,在中国乌镇围棋峰会上,阿尔法围棋以3比0的总比分战胜排名世界第一的世界围棋冠军柯洁。在这次围棋峰会期间的2017年5月26日,阿尔法围棋还战胜了由陈耀烨、唐韦星、周睿羊、时越、芈昱廷五位世界冠军组成的围棋团队。当这个结果产生的时候,人工智能可以代替人类这件事已经不置可否了,人工智能在智力上击败了人类,已经说明了人类在自己最擅长的领域输给了机器,只是下一次人工智能再次发展的时候,人类的结局会怎么样就不得而知了。
当数据变为无限的时候,世界将会变成什么样子。与AlphaGo对战并百战百胜的AlphaGo Zero。2017年10月19日,谷歌DeepMind团队在Nature发表论文,以《Mastering without human knowledge》为名,详细介绍了没有再用人类历史棋局作为训练样本,训练过程从随机开始,通过左右互搏精进棋艺,最终以100:0战胜了AlphaGo的AlphaGo Zero。这场较量并没有被人们所了解,只是在圈子内传播开来。
来自MIT经济学教授艾瑞克.布莱恩.杰弗森的观点认为普遍性技术(GPT)的构成有三点:
所有的重大的技术突破,由于对整个社会的影响力巨大,甚至可能会需要整个社会进行重新组织,来适应这种技术。
有关重大技术突破对行业进行影响时,最直观的就是行业岗位的爆发式增长,那么接下来我们就行业岗位上的变化情况来讨论一下行业的发展。
业务数据分析人才需求较大,数据挖掘、大数据分析人才需求较少
人才从业经验来看,大多数的公司对经验并没有太大的要去,其次是1-3年的相关工作者从业经验的需求较大。
人才的学历要求目前来说本科与专科的需求量较大。
不同的岗位经验需求结构不同,数据挖掘岗位对工作要求经验最高,随之而来的是数据分析与大数据分析岗位。
大数据、数据挖掘岗位对工作学历的要求最高
学历越高薪资越高,经验越久薪资越高
不同行业的平均月薪情况
结合第四第五节可以分析出,互联网、IT、网络游戏、咨询、金融、通信行业能够提供更高的薪酬,但对数据分析者要求也越高。
数据挖掘岗位的工作经验最高,岗位薪资也是最高的。
数据挖掘岗位中博士学历的岗位薪酬是最高的。
学历越高薪酬越高,经验越久薪酬越高
从上边的分析中我们可以看出目前行业正处在爆发增长期,人才处于供不应求状态,专业技能人才缺口额度巨大,行业整体门槛较低。对于薪资待遇来讲,是否掌握核心技术与工作经验仍然是影响薪资待遇最核心因素,就平 均薪酬而言,处于整个IT行业上游。而对于核心需求技能来说数据分析仍然是需求量最大的工作岗位,其岗位定位在整个数据科学体系的最基层,数据分析技能也是入行的必修课。
目前行业的发展阶段一般分为五个阶段:
根据IBM前首席执行官郭士纳的观点,整个IT行业发展大概每年15年就会迎来重大变革,也就是信息化浪潮,而每次信息化浪潮来临,都会诞生一批将在日后成为行业巨头的企业
信息化浪潮
发生时间
标志
解决问题
代表企业
第一次浪潮
1980年前后
个人计算机
信息处理
Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等
第二次浪潮
1995年前后
互联网
信息传输
雅虎、谷歌、阿里巴巴、百度、腾讯等
第三次浪潮
2010年前后
物联网、云计算和大数据
信息计算
将涌现出一批新的市场标杆企业
行业创业的窗口期永远在行业起步阶段,而就个人从业来讲最佳的时机则是行业的爆发期。
在行业的快速发展期间入职的优势如下:
目前数据科学领域正在快速的发展中,现在如果想进入这个领域应该是最好的时机,如果已经打算进入这股潮流,那么就需要具备相应的知识,那么希望通过这篇文章,让你明白是否想要进入这个行业。