我们没有机会在工业制造领域去和领先的企业去竞争,但是好处是什么?我认为由于AI的出现,使得机器人变成了一个非常跨界的技术。只有机械制造、有空气动力学是不够的,只有AI的技术也是不够的,除此之外还需要有互联网的应用。我把今天的服务机器人看成手机里的一个个APP,我并不认为今天会出现一个能到处跟着你去完成所有任务的机器人。
每一个APP就是一个垂直场景,用这个维度去思考你就会发现,用互联网的思路去重新考虑机器人,你可以给它找到很多垂直的场景应用,那么我们就有机会把用户体验、机械制造、人工智能结合起来,做成一个又一个垂直场景的机器人。
所以,这也是我自己的一个机器人公式,就是AI+软件+应用+服务才会等于机器人。今天在某一个维度特别突出的,未必能做出一款真正满足用户需求的机器人。我们今天在讲技术创新、黑科技,其实所谓的技术创新、黑科技的本质都是给用户提供服务。我自己并不算一个真正科班出生的技术人员,当我2002年进入互联网的时候,我就莫名其妙的得到了一个职位叫产品经理,今天想起来,那个职位在当时来说,应该是互联网第一批产品经理,我们并不懂产品经理应该干什么。但是我当时就在想用户到底需要什么?我怎么把这个技术包装成用户需要的样式?
因为当时遇到了一个最大的问题,就是做软件的同事能够写出很好的程序,但是用户不会用,后来我们才发现,原来用户需要才是最关键的。后来我自己做安全软件,在只有几个人的情况下,对抗几百人的传统杀毒公司,我们用了看似非常low的技术,但是我们快速地满足了用户需求,使得我们的安全软件在短短的两年内在中国有超过50%的覆盖率。
出去(做海外市场)以后,我们又做了猎豹清理大师这个工具APP,在美国提供下载,它看上去虽然是一个非常简易的应用,只是帮你把手机里的垃圾文件清理掉,让你空间变的更大,但事实上在全球广受好评。
所以,今天机器人一定要为用户提供真正需要的服务,把所谓的黑科技,变成一个非常简单使用的服务,而不只是一个技术参数。
由此,我们成立了一家叫猎户星空的公司,它专门负责打造AI全链条的技术,然后再由猎豹移动过去接近10年历史积累的用户体验,把他们结合起来,去打造真正有用的机器人。
三、自主研发AI全链条技术 致力打造真有用机器人
这里着重介绍一下猎户星空这家公司,为什么要介绍它呢?
后来我经过思考,猎豹移动当年在全球做出几亿月度活跃用户的时候,安卓和手机已经是一个非常成熟的生态系,只需要在上面做一个应用,就有可能让全世界的用户都去使用。但机器人不是,我刚才讲的AI+硬件+软件+用户体验,其实这里面每一个环节都很早期。
所以,这个时候,我很难在市面上找到一个符合需求的技术方案。所以当时我们就下定决心,根据自己的需要去定制所有的技术环节,使得组合起来能够变成一个在用户层面非常好用的产品,所以我们花了很大的力气去打造了语音识别、视觉识别、自主导航、机械臂技术。
当然这也是这个时代给我们的最大机遇,很多人问:你一个做移动应用APP的,怎么能够做深度学习?深度学习好像只有大公司才能做。我说恰恰相反,深度学习给我提供了一个弯道超车的机会。
在以前,感知学分为很多不同的专业、差别是非常大的,人脸识别、翻译、语音识别,每一个领域都要有专门的领域专家。但AI出现以后,使得这些看上去跨行业的领域变成了一个集中的底层,神经网络模型能够在语义识别、语音识别、人脸识别、图像识别(等不同领域)达到同样的效果。
所以,这就使得我们有机会用一个通用型的技术模型去解决在各个领域的感知问题。我们也是看到了这样的机会,就定义了机器人的“眼耳口鼻手脑”,然后在每一个环节打磨技术。在打磨的过程中,我们又想避免自己成为研发型公司,所以我们在每个领域都去推出了相应的产品,让用户去检验我们的技术是不是真的好用。
比如我们的人脸识别算法拿过好几个冠军,但这只能表明你模型的能力,这是不够的。我们在很多地方都场景落地,这正是互联网公司的优势,我们在全球有几亿的月度活跃用户,我们在美国有最大的第三方直播平台LiveMe,我们每天有几十万的用户在线直播,这直播里面其实都是人脸的数据,这使得我们的人脸识别效果能够很快的提升。
今天在猎豹自己的办公区,几千名员工,每天上下班、购物、会议室预定、公司会议都是刷脸识别。
然后我们还做了语音合成技术,就是TTS,昨天小米的小爱同学宣布月活超过3000万,小爱同学所有的声音都是我们猎户星空提供的,我们在这款声音上也是花了很大的力气。
其实语音合成不是一个特别高技术难度的产品,语音合成更需要你去尊重用户体验,但由于大多数公司很难去发表这方面的论文,所以他们基本上只是在用一个算法去实现。而我们用了大量的拼接技术、去一句一句的听,然后反复的调试,最后我们用语音合成了TTS—小雅的声音,非常温暖、会跟大家打招呼。我们由此相当于开发了一整套以语音为基础的OS。
大家可能不知道,今天美的音箱、喜马拉雅的小雅音箱以及我们自己的小豹AI音箱,包括小米音箱的大部分语音识别,都是用了我们猎户星空的语音识别能力,已经有超过千万的用户每天都在使用,而且我们接入了很多内容。
所谓的语音识别,它核心并不是一个所谓多么了不起的黑科技,它的核心是一个新的交互界面。乔布斯说过,每一次交互界面的变革,都是一次产业革命的机会。
所以,从键盘到鼠标到触摸屏、再到语音交互,其实它是一代又一代的交互革命。所以我极度看好类似于像智能音箱、包括咨询服务机器人(这些产品),因为它再也不需要用户在一个没有见过的屏幕上去触摸,用户只要用最自然的方式去表达,核心不是为了跟这个机器聊天,而是通过语音去获取想要的内容和服务。
然后我们还做了室内导航的技术,如果一个机器人不能够主动的移动就很难真正谈的上是一个机器人,它和一个Pad就没有什么本质区别,所以我们在这方面也下了很大的工夫。最重要的核心,不是它能移动,而是用很低廉的成本去移动,所以我们用了激光加视觉进行导航,我们的激光传感器成本大概只有几百元人民币,用了大量的算法优化使得激光和视觉能够配合,在室内的空间里能够自主的移动和避障。
所以,这是一个多模态的导航技术,仅有一个点是很难的,就包括今天视觉,解决不了所谓的大逆光问题,玻璃的问题,我们其实就是用多个和多种类传感器进行相互的融合。