投资人如何解答人工智能

未来的技术发展趋势：新一代的网络、传感器、机器人、人工智能、合成生物学、基因组学、数字医学、纳米技术……人类生活的这个世界正在经历一场彻底的变革；世界上最大的问题等于最大的商机；要想成为一个亿万富翁的最好的办法就是解决一个10亿人共同面对的问题；

那新一轮技术迭代将以“集群”形式涌现，在未来 2-5 年里，以人工智能、大数据应用、云计算及基因技术等为代表的新“技术+商业”窗口将逐渐打开。无论大公司还是创业者，在分水岭技术迭代周期里，冒进和迟缓都是危险的，甚至冒进要更危险一些。合理做法是选择与自己公司和所处行业耦合高的新技术方向，先保持合理投入；在获得“技术+产品”融合突破后，可以提速；在获得“技术+产品+商业模式”进一步融合后，可以全力冲刺。

那用户数据挖掘将成为产品核心能力。随着挖掘工具的普及和全行业数据化程度提升，这一趋势讲从大公司向独角兽甚至创业公司扩展。谁在这一波分水岭周期里更好完成用户数据沉淀和挖掘，在未来的竞争中，就可以取得更高效的需求匹配能力和服务品质。

未来 2-5 年，全球和中国创投将进入一个整体守稳，但随时可能“引爆火山”的不确定阶段。烧钱投概念的时代短期内不会复现，投资者会更冷静的聚焦在离未来更近的领域，包括大数据、VR / AR、人工智能和互联网金融等方向。

那我们就看看人工智能领域投资人一般关注AI三个指标：大数据、应用场景、有效的智能算法；大数据应该是大规模、结构化并且被标注好的；而应用场景则要有决策整合，要么能达到更快的效率或者更好的决策质量。投资尽量避免投入无法形成自由大量的高质量额数据公司，从而避免数据孤岛效应。深度并不是投资人关注的重点，投资人要看到的是有用的算法；应用场景在商业上的点要够细，能用一两个简单的指标来去衡量。

其实人才才是人工智能目前发展最大的瓶颈，这里所指的人才有两类，一类是那些能真正理解并运用人工智能工具的工程师；另一类则是有创新意识和商业头脑的人才，能有效地将人工智能技术进行更广泛应用。人工智能的研究和应用是交叉性、综合性极强的过程，鉴于专业门槛，真正懂技术又懂产业的人才还较为匮乏。目前人工智能处于技术工具阶段，离平台和产品化还很远，部分企业在初创阶段并毫无营收的情况下居然估值10亿人民币，非理性会导致后期没有投资机构愿意接盘。”

如果人工智能是一种会学习的机器，那未来需要着重提高的，就是让机器在学习时的抽象或归纳能力向人类看齐。机器目前并无法深入理解文字深层的意义。目前AI研究的一个重大挑战是人类和机器的协作。将机器的计算能力和人类地判断能力及价值观相结合才有戏！

我们希望看到更多关于机器多任务学习的研究出现，还有比如（多表征学、迁移学习）其实也是机器学习研究人员研究了很长一段时间的课题。关于多图表达，现有的技术手段还停留在创新研发阶段，还有很多空白领域有待研究。人工监督下的机器学习已经很好的投入实际应用，无人工监督的机器学期据我所知还没有投入实际应用需要更多的科研努力，半人工刚好介于两者之间。

比如大算法：深度学习和增强学习的发展，深度学习用来感知、处理信号，增强学习则做于决策。二者相辅相成。强化学习不仅仅能够学习人的行为，还能够更好的使用延迟反馈功能。而之后人们能否发明一种新的学习方法，能把大数据的模型在用于小数据身上，迁移学习是把深度学习和强化学习叠加在一起。监督对抗学习和语义分割，将是视觉智能未来发展的关键。

在算法和底层技术架构并不是AI时代核心竞争力，因为这些都会被Commodity复制抄袭化。而数据和对垂直行业问题的理解才是最高商业价值！那些为AI算法和底层技术付过高溢价的投资，都会在不久后付出代价；

在算法层面，我们有比较强烈的看法。我们其实并不关心深度不深度，我们只关心有用的算法。所谓有用的算法就是提高决策质量，提高决策速度。在商业上的点一定要够细，细到可以用一两个很简单的指标去衡量。第一个对很多数据公司的建议是，你提供数据这种卖不了太多钱，你要提供别人基于你这个平台能够做什么。

目前人工智能最难以突破的是模式识别；机器获得智能的方式和人类不同，它不是靠逻辑推理而是靠大数据和智能算法；未来的社会属于那些具有创意的人才，包括计算机科学家而不属于掌握某种技能做重复性工作的人；学术界将机器智能分为传统人工智能的方法（模仿人的模式）和现代其它方法智能（比如数据驱动、知识发现、机器学习）机器智能最重要的是能够解决人脑能够解决的问题，而不在于是否需要采用和人一样的方法；

因此我们根据经验法则，神经网络越深，越难以训练。对循环神经网络而言，序列越长，神经网络随着时间维度越深。这造成了梯度的消失，也就是随着反向传输，循环神经网络学到的目标的梯度信号会消失。即使 RNN 是专门用来帮助防止梯度消失的，比如 LSTM，这仍然是个根本性的问题。经网络（ANN）十分擅于感觉处理、序列学习和强化学习，但由于缺少外部存储器，ANN 表示变量和数据结构以及长时间存储数据的能力十分有限。

可微分神经计算机（DNC）的机器学习模型，该模型含有一个能够对外部存储矩阵进行读写的神经网络，这个外部存储矩阵好比传统计算机的随机存取存储器。

就像传统计算机一样，DNC 能使用外存对复杂的数据结构进行表征及操纵，但同时又像神经网络一样，能够从数据中学会这样做。使用监督学习训练后，我们展示了 DNC 能够成功回答人工合成的问题，这些问题都是设计来模仿用自然语言进行推理和推断的。

我们展示了 DNC 能够学会找到特定的点之间距离最短的路线、从随机生成的图当中推断缺少的连接等任务，之后再将这种能力泛化，用于交通线路图、家谱等特定的图。使用强化学习训练后，DNC 能够完成移动拼图的益智游戏，其中符号序列会给出不停变化的游戏目标。综上，我们的成果展示了 DNC 拥有解决复杂、结构化任务的能力，这些任务是没有外部可读写的存储器的神经网络难以胜任的。

那目前“深度学习”概念热度转折点已经到了，两年后将很少人再提深度学习术语：1）广泛意义上的“深度学习”（多层和/或多学习系统的组合）本身就是机器学习的必然，将来几乎每个人工智能机器学习系统都可以广泛说是“深度学习”；2）再提深度学习所能创造的效益有限，投资概念的将跟上最后一班车；3）开源将使得深度学习不再高深莫测，但会使强者更强，弱者相对更弱；4）开源也预示着新的技术和术语在蕴酿积累，等待爆发点；5）世界科技巨头有分化，有的巨头其实很少提“深度学习”概念，却在另起炉灶；6）比传统深度学习快几万倍的芯片硬件将走入市场。

我们也看到大部分成功的机器学习提取系统在运行时都可以访问一个大型文件集。在这项研究中，我们探索了获取并结合外部证据来提升多个训练数据稀少的域中的提取精确度。这个过程需要发布搜索查询，从新的来源中提取数据，并对提取的值进行调和，这一过程一直重复到收集到足够的证据为止。

我们还可以使用一个强化学习框架，在这个框架中我们的模型会基于情境信息学习去选择最优的行动。我们还应用了一个 Q-network，训练它来优化一个奖励函数，这个奖励函数反映了提取精确度的同时还会惩罚额外的工作。

你会发现我们原来统计的学习方法，更多的可能叫回归算法、决策树、SVM，我们以前大部分是这套。现在比较流行的深度学习是过去两三年才真正成熟进入到主流的视野当中，这些做人脸的都是在过去两三年起来的，以前都没有他们的生意可做的，大部分都是在学校科研角度。还有一个是叫Buzz规则，深度学习之前那是规则系统，更土了。

所以大部分做人工智能的公司都存在这两个大的问题：数据不是你的，应用场景不是你的。你强的是有这种原来所积累的处理的能力，那些算法能力，调优能力。数据不是你的就意味着你是无源之水，很多事情干不了，业务不属于你的，付钱这一段，这个时间决策点是别人的，你要求着人家，像绝大多数的公司起点都是很困难的。

所以目前大数据的命门是在数据准备阶段（包含数据采集，数据获取，数据质量等苦活脏话）这个命门不破，所谓的数据可视化，数据模型，数据应用都是瞎扯淡！其实信息提取重大进展，MIT利用强化学习从外部网络抓取数据：比如沃森的知识库并不是由工程师提前编码设定的—它是通过读取维基百科和其他几个百科全书网站）全部自然语言文件）获得知识；它有一个优秀的贝叶斯推理系统，能将所有索引信息集合起来；

那感知（视觉、语音、语言）+决策（识别、推荐、预测）+反馈（生成、机器人、自动化）=人工智能。

所以在人工智能团队中，很多团队最多一两年就能复制其他团队的代码，但是要获得其他团队的数据是极其困难的。所以数据相比软件对大多数业务是更好建立的屏障。如果只是简单地下载和应用AI开源软件是没什么用的，你需要根据实际的业务场景和数据定制人工智能。这也就是现在出现了对那些能胜任这项工作的稀缺人才的争夺战的原因；所以说机器学习深似海，算法实战要躬行。减少开销提效率，训练测试不能停。透过黑箱窥本质，代码解构句句盯。

我们在实战过程中还发现人工智能最大的问题是没有常识，因此不能被信任。人们已经花了几十年尝试解决这个问题，可能我们的方法用错了。现在所有的重点都在深度学习，但深度学习不能获取常识。深度学习只是收集许许多多数据，基本做的是统计的工作。

比如，你给人工智能展示一朵花，它认识，并知道这代表美好。但如果一朵花出现在一个马戏团的人脑袋上，这很可能是一朵假花，这个人可能是个小丑，这是常识，却是人工智能不知道的事情。因此机器人在工厂里可能没问题，只是做些标准化的动作，最坏的情况不过弄坏一台机器，但如果把它放在拥挤的商场中，它可能会伤到儿童。

投资人如何解答人工智能

你可能感兴趣的:(投资人如何解答人工智能)