最近这几个月,人工智能陷入了混战。大厂都在布局,或协作,或自建,或收购,各种招数应接不暇。市场也快速被开发,软硬企业都有自己的布局Apollo、DuerOS、AliGenie、deepbrain、AIUI、DUI、Trio......Lenovo+DuerOS、Skyworth+DuerOS、 N+AIUI、 Microsoft +Element AI+Hexadite 、 Apple+Lattice Data 、 Velodyne 、NVIDIA、AMD 、INTEL GOOGLE TPU 、XILINX、Microsofl FPGA 、 Qualcomm 、Apple、ARM、IBM TrueNorth、 HiSilicon Cambricon 、Horizon Robotics ......
但是,目前落地的产品没有能够快速颠覆人们的习惯。或许正在进化吧?(技术/成本限制了场景?)我不知道。未来不要去控制,未来是“连接” ,去中心化,单向的,自上而下的思维不适用这个时代去做产品了。扯远了····说机器人
[机器人] 我的理解之所以带有一个“人”字。因为是同有人的属性,本质是对人的意识与思维的信息过程进行模拟。 以下同人特征:
1、输入:
听觉(麦克的阵列拾音得到音频数据,ADC)
语音识别:(将语音转换为文本技术)典型公司:Nuance、科大讯飞、云之声、思必驰、捷通华声。
语义识别:(解决听得懂,的问题)典型公司:微软小冰、度秘、trio.ai 三角兽、 出门问问Mobvoi、图灵机器人、DeepBrain出门智能360、蓦然认知等。
语料采集:(QA)典型公司:Speechocean海天瑞声 、中科信利。
视觉(摄像头、激光雷达、红外雷达、毫米波雷达)
将三维世界到二维世界的映射。提取图片特征,典型技术公司;SenseTime | 商汤科技、旷世科技FACE++ 、图普科技TUPU、依图科技、触景无限、格林深瞳、海康、大华、思岚等)
sensor 嗅觉、触觉等、数据采集,典型公司:freescale nxp、futaba、ON Semiconductor安森美半导体、欧姆龙、Sony、松下、英飞凌.....
2、存储:记忆,情感(太复杂,司马还没有想清楚放在哪个位置及如何描述)基于硬件CPU\GPU\NPU\TPU,云计算(CNN\RNN\GNN) 已有认知的知识图谱(RDF),(我同事李瑶说,假设我去吃一个宫保鸡丁,这个时候我会输入味觉,视觉,嗅觉,等,我会判断,这个不错,以后还要来。但是十年后,我是不会记得这些细节的,但是我会想到宫保鸡丁会很好吃。流口水的表情。这是一个人类的特征。)不过12年的Google X 实验室Jeff说:“我们在训练的时候从来不会告诉机器说:‘这是一只猫。’系统其实是自己发明或者领悟了“猫”的概念。” 不就的将来神经网络系统则是通过机器学习的方式,转换“宫保鸡丁,这个不错以后还要来,”转换成为,宫保鸡丁很好吃,流口水的表情。当然这只不过是设想,或许还有更好的答案。
3、行动:舵机技术,导航避障(多传感器交叉处理)
4、思考:判断、决策输出等(这里与第2点是紧密关联的,主要还是算法与开源的平台)
定 位 (产品的源头,或者说一个智能硬件的源头)
理解完笔者所认为“机器人”,那么要做一款什么样的产品呢?
需求、痛点、频次,嗯,以目前市场来看,垂直类的场景显得至关重要。开始一个产品不能做太重,否则无法聚焦核心定位。定位真的不是一个容易的决策,因为这牵扯到创始人对产品的执着与狂热,也有产品的偏执,有一个美好的愿景,也抛不开市场的了解,人性的通透,因为这不仅仅是做一个好卖的商品,而是一个改变生活的产品。当然也会带来商业价值,不谈商业的产品都是耍流氓......
用 例:(我们一直想着突破2B市场,一直把机器人定位高端市场,假设一个酒店场景,我们会想着怎么送行李,怎么解决业务需求,NO;NO;NO;导航避障,激光雷达、深度视觉,建图,这些高成本的技术目前却没有办法给“高端”人群惊喜,因为这个产品并没有提高效率,也不一定有惊喜。因为你们都是准备卖给高端酒店的。最后服务的还是人,那么这些“高端人群”才是真正的用户。如果一旦不能让这些“高端用户爽”高端酒店是不会买单的。
换个思路;我把产品定位在2、3星级酒店,如:7天连锁、如家,这种快捷酒店,出一款低成本的机器人,为酒店用户做一些服务,住快捷酒店的群体是否会有惊喜呢? 这个群体是否有装逼需求呢? 他们是否会好奇呢?(好了,可以研究一下这个群体) )
笔者还是先把行业锁定在“AI机器人” 笔者落地教育机器人,开干吧!
1、需求
市场分析,用研,定性与定量,竞品分析,二手数据分析,头脑风暴,做人物与场景建模,根据用户行为、痛点、需求,定义产品功能,理清业务逻辑,输出需求文档。(如何去理解需求这事就不细说了)
需求很重要,前期的传递一定要清晰,要让所有伙伴知道我们在做什么?为什么做?这么多需求,哪些做?哪些不做?为什么?是如何把用户需求转化为产品需求的?各个部门以及相关人员要统一传递,统一协作。以便更好的理解需求。get 到一个点,才能更好的协作,达到产品目标。
2、需求评审
理想与落地之间的撕逼(沟通之前,把PRD传递到相关伙伴,用人话描述清楚)
什么?谁谁谁,没看?评审时一脸懵逼? 那就看完再开。当然产品经理前期也应该小范围做一些沟通的。撕逼的时候请产品经理自行把逻辑理清楚先。不然伙伴们发大招,暴击9999点伤害,回不了血,自己扛着吧。
评审后,该修订的修订,搞定后发给所有相关伙伴。签字画押!哈哈哈
3、产品硬件规格
硬件选型:方案选型;主控用谁家? 全智?联盛德?山景?瑞星微?MTK?intel?用几瓦的喇叭?麦克风?LED ?电池?。。。。。。说白了就是看第一条需求来做选型硬件。当然,选好一个方案会决定您整个产品的生命周期。(一局可以玩更久)
4、硬件选型评审
理想与落地之间的撕逼 (硬件选型的大小,性能,参数,与结构设计等的,与需求都息息相关。所以ID ,结构,产品,硬件,会再次撕逼一次。这里产品就需要做好协调工作了,ID不管结构,结构推ID的事儿长有。混战,可以直接放一个大招。(开玩笑,没那么严重,不过确实需要良好的沟通与协作)
5、资源用谁家?哪里来?
又是需求来定义资源选型。流行音乐?儿童教育资源?视频通话方案商,其他开放平台等。商务谈判也是产品控制成本的重要环节。那么行业信息,资源渠道,都至关重要。笔者之前踩了个坑,一切都谈好了,配合也很不错,这公司倒闭了。具体笔者就不多说。找靠谱的。不然全队都game over.
6、交互设计 GUI + VUI(Voice User Interface)
信息架构、交互流程、交互规范、原型设计、交互文档DRD、语音交互规则
体验层面,一定是产品先落地,先解决需求问题,再谈体验。但是前期做好交互设计对未来产品迭代会有不少帮助,能少踩很多坑。 GUI+VUI 多模态的交互,是机器人必要的趋势。
机器人交互设计与传统的交互设计有什么不同?
GUI被动,VUI主动,如此分开就比较易懂了。被动的交互是一种引导,传递信息。而主动的交互不仅仅包含被动所能表现的,且能够主动感知或认知人来获取信息,而人还是原来的行为模式。VUI的实现基于NLP 的技术,市场需求,业务需求,产品形态的需求.
用例: 比如我们落地的机器人,简单的一个人脸识别,就能做到主动语音交互。
1、主动交互,当我在机器人端录入了我的人脸。可以通过限定的场景,机器人识别到我的人脸的时候。进行主动的语音交互。如:问个早上好或者主动播报今天的天气情况。(这里就体现了一个非常简单的主动交互,涵盖了语音,表情,灯光的交互)
2、上下文也是一种交互的处理方式,用一个小冰最简单的会话表示;
3、引导式对话;(您可以在siri 充电情况下体验) 嗨siri可以唤醒。
Q:我饿了
A:你想吃什么?
Q:我想吃面
A:附近离你最近的面点王评价还不错。这是你要找的吗?
Q:不是
A: 第二个是 品湘楼,离你500米,营业时间xxxx 这个行么?
Q: 可以
A:好的,现在帮您查询去品湘楼的路线。
A:您是步行还是开车呢?
Q: 步行
A:好的,为您规划步行导航。
以上是一些已经落地的产品,但是笔者认为,人还是对另外一个“人”正常说话表达,机器人要通过算法来理解人表达的信息,而不是引导人应该如何说话。 比如动作,人还是用它习惯的动作来表达,而机器人要能识别和认知人表达的意图。而不是机器人来引导人如何反馈。引导式的体验相对要差很多。目前只能在界面,输出的语音,以及少量的分析数据来判断。在未来,机器人表达的方式是人类能接受和阅读的。表达可以是非人的,一条狗不会说人话,但是人类也能读懂它是否友好,是否能听我的。它有它完整的表达逻辑。相信机器人也能成为人类的一份子。不仅仅是工具,而是生活中的一员。
说白了,与机器人交互,终极目标,同人一样交互。(超级大boss一般最后一关)
参考我的另一篇《浅说语音用户界面VUI+GUI设计》
7、视觉UI
视觉稿/一致性规范、切图标注/界面标注
这一块是比较成熟的了。但是,但是,请根据需求与产品目标来。不然看我青龙偃月刀, 暴击10000+伤害......
8、软件系统设计与架构(落地)
开发(这其中还有N次调整需求与撕逼过程,省略1万字)
说个大坑,大部分机器人是基于RTOS 、Linux、Android开发的OS ,前期的软件架构至关重要。后期迭代,或是OS 运用在其它智能设备。都是至关重要的。所以一个优秀的架构师,会让程序猿宝宝们工作更有效率,成果更自豪。