返璞归真大数据

        今天我不想聊深度学习,机器学习,我想来说大数据。人类认知的核心一直都保持着稳定的流程:在知识的指引下探索,理解,分析,归纳,变成新知识。这个过程肯定会有很多不同步骤分类的意见,每个步骤的名称有不同的叫法,我觉得这不影响我继续探讨我谈认知这么一个问题。

        让我们从上面这个认知的流程出发,贯穿这个流程的数据,从一个步骤到下一个步骤的驱动则是使用知识“乘以”数据的结果。如果熟悉机器学习的人立刻意识到我在说什么,这不就是L = W x X + b,这个深度神经网络的基本公式吗?W代表我们的知识,X代表数据,b代表我们对于知识偏见的整体认知。那么这个公式有什么缺陷吗?有的,这个公式太武断了,X代表了已经,代表了过去,人类的直觉是我知道你怎么来的,很就很容易推断你怎么去的。可是,这样的美好预测被一件事情打破了,那就是意外。我们怎么定义意外,就是从未出现在我们过去的已经中间的未知。我们把已经用L表示和未知用L_来表示,还记得交叉熵(cross-entropy)吗?就是我们用来修正权值网络的CE = 西格玛L x log(L_),原来我们的知识就是不断的在评价我们已知和未知的差距中间不断的优化,那么除了大小差距的概念,剩下来的几乎全都是数据和知识,而知识本身又是数据和之前的知识计算得到的。当我们把这个过程回朔到最初的那个点,我们发现,除了数据,就是第一推动力的那个初始W,一切都是从此开始。当我们找到这个初始的第一推动力,得到交叉熵概念之后,整个世界都可以推演下去,因此我们得到第一个结论,一切认知的起点是初始权值网络W,但是一切都是数据。

        当我们意识到数据的时候,我们是在说一种类型的数据。而我们说大数据的时候,我们是在针对一种场景。当我们把数据分类的时候,偏见由此产生,大数据把各种偏见放到一起来消除,产生有条理的,完备的场景描述和观点。我反复分析数据和大数据的时候,希望能够找到与之匹配的分析工具。数据触点把各种数据接入,离线,流式,碎片还是其它形式;数据存储让数据分析可以轻易访问;数据分析直接把观点和描述用人最喜欢的可视化方式展现。这是多么Hortonworks的一件事情。

         其实,最后不管是深度学习,不管是大数据,最后一件事情是我们最关心的,就是数据下面的实质是什么?或者说,未来是什么?这一切从数据中来,最后回到数据中去,深度学习只是分析并且产生对未来数据预测的中间步骤,如果你觉得这些都是空洞无物的,那么我们现在给出非常实际的预测:

1. 一切都是数据,深度学习和大数据紧密结合,最后能够产生的可作用于这个世界的知识或者认知会是商业追逐的关键,而不是数据,也不是算法,比如:自动驾驶技术商用化之后的关键是给汽车操控系统下达指令的智能指令库,这个库的条理,完备和成熟决定了玩家在市场上的竞争力。

2. 达成这个目的的成本消耗在于构建数据捕获,存储,分析和抽取认知和知识的架构,以及供给这个架构的大数据和计算力。这个成本是目前大玩家防止中小玩家进入市场的主要门槛。

3. 预测这种事情的突破不会是总是从已知到未知的推理和逻辑,更会是量子物理,相对论还有经典物理对于这个世界认知革命性的突破,也就是参透时间。否则,就是纯粹的比拼信息不对称和计算力强横程度而已,数据和算法到了最后都不是个事。

我回到大数据来看深度学习是因为深度学习在对于动物大脑神经网络的仿真和神经网络自身发展都已经走到了一个新的瓶颈,网络的结构随着需要解决问题的难度和深入程度变得越来越复杂,也就越来越和生物大脑的构成大相径庭。这一点,我们可以从飞机的发明和进步和飞鸟不同找到安慰我们自己的先例,但是依然不能让我们看到深度学习的未来,所以我们是时候放手深度学习,还是回到大数据来梳理,深度学习的未来可能在于大数据本身,而不是神经网络的进步和演化,因为刻舟求剑式的发展神经网络一直没有停止,无关大神,无关学派,无关巨头。

你可能感兴趣的:(返璞归真大数据)