很荣幸受CSDN的邀请参加了这次2014大数据技术大会BDTC。第一天会议结束,的确是满满的讲座。虽然说很多演讲嘉宾特别能做广告,但整体上来说还是带来了很多干货。
在此,笔者第一时间将个人的一些收获分享一下,主要是思考大数据与机器学习深度学习相关的内容。
大数据,深度学习和以前的其他技术发展方式不一样
为什么这么说呢?以前的技术都是从学校,从科研机构中走出来的。但现在大数据和深度学习却反过来了,产业在前,学术在后。关注深度学习的童鞋肯定都知道深度学习的几个大牛Hinton,Lecun,Andrew Ng都纷纷投入到Google,Facebook,Baidu等科技公司。
为什么?
这个问题其实很显而易见------学校里没有数据,而企业里有数据,还有政府也有数据。
大数据时代,没有数据,做什么研究??
大数据完全以技术和产业化为导向,在会上很多专家都提到了“落地”这个词,确实很贴切。大数据不仅仅是现在炒得很火,关键是如何确确实实变成应用改变我们的生活。
根据Gartner的报告,大数据的发展需要5-10年,相对其他技术还是比较慢的。这其实很大程度取决于数据本身。现在的大数据的形式还比较有限,物联网,可穿戴设备的发展将带来种类越来越多的海量数据。
然后,在有了海量数据后,更多需要考虑的事情是研究数据背后的问题。比如说通过数据研究北京雾霾产生的研究,研究车祸发生的原因。因为数据涉及的面太广,这就是大大需要跨界创新。获取各种领域的数据,然后通过数据找出某种特别的联系。
那么会上Doug Cutting大神做了The Data Revolution的演讲,提到了在有硬件和数据为基础的情况下,核心还在于软件。从大局的角度看确实是这样。但对于很多小的研究机构,缺的恰恰就是硬件和数据。然后他提到了开源Open Source对大数据发展的贡献。我想开源这种无偿分享的行为不仅仅在于技术层面,对人类文明的发展都代表了一种重要的提升。最后他认为未来10年将是数据驱动型的技术发展,大数据时代才刚刚开始。
2015年大数据的发展趋势是什么?
会上嘉宾发布了大数据技术与产业发展白皮书,整体发展趋势用了8个字:融合,跨界,基础,突破。然后发展第一位无疑问地投给了智能计算:大数据与神经计算,深度学习,语义计算以及人工智能其他相关技术结合,成为大数据分析领域的热点。
深度学习这把火还能再火好几年。
整体大数据的发展涉及数据的获取,存储,分析处理。因此其涉及面可以说包含了计算机软硬件各个方面。
有没有更好的数据获取方式?
有没有更快的数据处理架构?
有没有更优的数据分析算法?
目前Amazon 的大数据提供了一套非常优秀的解决方案。http://aws.amazon.com/cn/big-data/
会上IBM李永辉介绍了IBM Watson 开创感知计算Cognitive Computing新时代,对于Watson很多人并不陌生,其中的核心技术既有硬件的发展,也有软件的架构和设计。
关于大会的内容,笔者最关注的是
业界关于大数据和深度学习的研究方向进展,也就是得把准发展脉向,做好定位。
上午最后两个讲座都涉及了深度学习这个话题,分别是Eric P Xing http://www.cs.cmu.edu/~epxing/ 和余凯的演讲。
Eric Xing介绍了A New Platform for Cloud-base Distributed Machine Learning on Big Data 也就是其弄的开放平台Petuum http://petuum.github.io 他这是研究机器学习的框架了,如何更好更快地运行机器学习算法,涉及到了不仅仅是数据并行,还有模型并行Model
Parallel 。
余凯的演讲更多是介绍性的研究,以深度学习为主,和他以前的演讲差不多。
那么Eric Xing提到了很重要的问题就是对于屌丝公司,或者小的研究团队,如何研究深度学习呢?很多企业显然考虑到了这一点,因此,数据的出租,机器学习的Framework等等成为一种需求。
先写到这吧!