Reading Technology Ding Xiaoyu: Natural human-computer interaction has become the theme of smart home, and the integration of multi-modal technology is increasingly important

  一、自然人机交互成智能家居主题,阅面科技选择嵌入式视觉

  丁小羽首先谈到:

  跟很多在座的朋友一样,我们从这点出发, 从实验室的图像识别做起,去往全屋智能、智能家居的方向。

  我们把智能家居看作是一个方向,而不是一个行业,看作是一个大家都想去追求的更懂你的家——这个家可以感知人的需要,去理解人的需求,恰如其分地提供服务。(比如)我回到家的时候想做一件事,打开窗帘、听一首歌,并不想在手机18个APP里面找到应该用哪个,也不想跟手机说话,并不自然。

  我们朝着这个方向,沿途经过了跟芯片的结合,做到把实验室的GPU服务器上的算法做到嵌入式芯片上,把(视觉识别)模块用到像人脸抓拍摄像机、门禁闸机的行业应用上,一步步小型化。去年,我们开始大规模进入家庭场景,比如将3D人脸识别做到门锁上。

  现在我们看家庭AI服务这里怎么走还是一团迷雾。智慧的人居环境是大家都想去的方向,有人从“开关上网”去做,有人从智能音箱去做,我们则从嵌入式视觉这条路去走。怎么过去是未知的,但这也是有意思的地方。

  一个团队的出发点非常重要——人都有路径依赖,有时候是自己知道的,有时候是不知道的。现在回想起来当时出发时的环境,其实深远地影响我们对事情的认知,包括(处理问题)一些思维习惯。

  比如,当时我们出发的时候,大部分是静态图片的识别,目前大部分的网络设计在交互过程中也还是静态的,只是在时间域上加权策略性的方式。当时,端到端刚刚兴起的时候,我们应用到实际环境中发现,真正要在成百上千万的设备上都得到不错的效果,其实理解整个决策过程的网络可解释性是非常重要的。这是当时的环境决定,导致现在需要克服的一些问题。

  二、拨开家庭AI服务迷雾,阅面科技走出的四程路

  随后,丁小羽分享了阅面科技在嵌入式视觉这个方向上走过的四程路。

  其演讲实录如下:

  1、第一程:AI和算力适配,讲求精准打击

  带着这些问题,我们第一程做的是把实验室GPU集群上的视觉计算搬入到嵌入式设备上,抽象层面做的是AI和嵌入式算力的适配。 上午听了很多嘉宾分享算力这块,大家已经开始在反思,非常同意算力不是评价芯片的唯一标准,甚至不是一个最重要的标准。

  分享一组数字,最早做VPU视觉模组的时候,芯片算力0.1T,今天看来是很小的数字,当时我们已经可以做本地的连续无感人脸检测和追踪,在抓拍机这些应用上可以运行的很好。现在,算力已经翻了几十倍,甚至芯片价格还变得更低。

  今天跟大家分享一点,对AIoT智能家居的应用来说,还是要讲精准打击的,最适合这个场景包括I/O、存储各方面,综合性能要最适合,算力是其中可以说是比较小甚至有些资源过剩的一块。用超过十余家的芯片公司做过量产产品,甚至我们觉得做这个事情不是为了赚钱,只是为了跟芯片圈交个朋友而已,今天很高兴认识更多芯片圈的朋友,大家一起朝智能家居方向更进一步迈进。

  目前有超过两百万台设备使用阅面的嵌入式AI方案,像智能门铃和智能门锁等,去感知人、理解人。这里我们做的只是是智能家居方向很小的一块,把原来在实验室集群上做的事情搬入到嵌入式芯片上去。整个过程还是有很强的路径依赖,过程还是静态的、单向的。具体来看,模组我们当时做近景和远景两个版本,多核异构当时还是很新的词,现在很多芯片都已经这么设计了。

  (当时视觉模组)典型应用主要是社区级的安防,工作主要是模型检测、底层硬件的加速框架、低比特量化、模型剪枝。现在好像并不需要自己写底层硬件的加速框架了,但算力适配这个事情主要框架还是当时那套,本质提升并不是很多。右边图上是用在门禁上的模组——两个摄像头混合双目摄像头,通过多模态的方式把人和照片区分开来,这是我们做模组过程中发现比较有意思的事情,引出下边AI与传感融合的话题。

  2、第二程:AI与传感融合,可量产性面临挑战

  (谈到实际应用中),从实验室出来我们的环境不再是静态图片,而是真实场景——真实场景中蕴含丰富信息,“AI跟传感融合”这个事情变得非常重要。

  2017年,我们开始把越来越多的重心放到传感融合上面,3D是其中一块。要抓取场景中更丰富的信息,要超越人眼视觉能力,可用到的传感技术很多,像3D成像的各种技术实现,还会用到毫米波、超声波雷达等。

  创新传感技术可以定义更丰富灵活的识别功能,(比如)可以做金融支付级的活检安全标准;在隐私敏感场景使用,在拍摄用户时身份脱敏“去ID化”;适合用到老人看护等场景当中去。

  我们今年投入了比较多的时间来做健康传感方向,通过非接触无感方式去持续监测人的呼吸和心率。设计过程中比较有意思的地方是神经网络和ISP功能打通,芯片公司也在用神经网络做ISP,做完以后成像结果给我们,我们这边再用神经网络做视觉结果,很自然大家想有没有可能把两个网络合成一个网络去做,这里我们积累了很多联合优化经验。

  前面谈到意识到和摆脱路径依赖很难,算法团队倾向于用模型调参去解决问题,即使传感成像方面的优化有时更容易提升整体效果。同时考虑整个方案的可量产性,因为涉及到AI跟传感的结合、特殊摄像头标定等等因素,面临非常大的挑战。

  抽象层面是在做传感融合,具体工作这里举例3D人脸识别的门锁模组。那用在智能门锁上,最主要的功能还是帮助智能门锁刷脸开门。同时希望有超长的带机时间、单次换电希望用6个月以上,并且流畅、安全。

  这里是我们新版模组的实测数据显示,从上电启动到电机解锁,即门可以推开大概要2秒钟时间。大家可以看到,跟算力最相关的活检和识别部分的整个时间只有300毫秒,其实并不是系统的瓶颈。而内存加载等部分其实是越来越限制时间进一步优化的瓶颈。我们希望智能门锁达到的体验目标,就像大家过高速收费站一样,需要减速,但是不需要停顿就可以进到自己的家门。一般门锁在人距离1米的时候感应触发,人走过去的时间1秒,那目前水平在门前需要停留1秒,这1秒就是接下来要优化的空间。我们希望跟产业链一起努力,在芯片的I/O设计、量化方式和模型怎么做得更小等方面有所突破。

  3、第三程:AI智能终端阶段,整体设计人机交互

  第三程,讲到传感融合我们进入智能终端阶段,强调整体性而不仅是一个模组。

  回顾2016年我们刚开始在行业推出嵌入式AI方案的时候,业内容易接受的方式是做功能叠加,把一套算法或者模组附到传统的设备上,设备本质上还是一个门禁机等传统功能,只是具备了人脸识别功能。

  到第三程阶段,算力和传感的基础具备一定条件,我们可以做创新型的智能终端,从整体去设计AI嵌入式能力和人机交互交互过程。

  大家分享两个具体的例子:

  (1)AI婴儿监护器,我们通过毫米波雷达等创新的AI传感融合技术,可以持续无感做睡眠周期的统计,体温、呼吸、心率的监测、异常事件的预警,这个产品逻辑是通过改善婴儿睡眠来改善整个家庭的睡眠,也很好的体现了我们想实现“有温度的技术”理念。

  (2)3D行为识别相机,目前还用在行业场景,我们做技术积累,希望很快能用到家庭上面。如图这里做了远距离的3D行为分析,可以在10米范围用世界坐标做精准的测量和分析,人和物的相距状态等。这个设备在不远的将来有望在功耗和成本上小型化,做到家庭场景3D感知终端。

  4、第四程:全屋智能感知阶段,构建家庭AI中心

  第四程,方向是全屋智能,但是路径上还不清楚,如图上的迷雾。

  我们想要实现家居智能的一个“空灵”境界——用户回家后是“空”的,不需要打开手机找APP,开窗用哪个APP,开灯用哪个APP,不停地跟它说话指令它,而是环境感知人理解人提供服务,智能硬件都是很有“灵”气,可以恰如其分提供服务,打造家居智能硬件朋友圈。

  如图我们看智能家居发展这几个阶段,感知阶段就像我们做的人脸识别门锁可以主动识别门前情况,主动开门和关门。数字化服务阶段,像小孩回家等事件可以通过微信小程序的方式推送到用户手机上。之后产业界会把这个服务从数字化空间延伸到物理空间,提供机器人服务,而这里我们做的是其中整个全屋智能的感知基础技术。

  我们设计的整套系统包括家庭的AI中心、连接存储和计算的功能和一系列智能终端矩阵。我们从嵌入式视觉这个角度来做,一些各种形态的智能摄像头,以各种各样的形式,比如门铃门锁,会议摄像头和台灯等嵌入家居环境。

  家里会出现越来越多的智能摄像头,初听来可能会觉得这个事情有点可怕,其实大家每天都随身带着几个智能摄像头。家庭AI的影像数据逐步应用规范化,数据加密和去ID分析等隐私安全技术应用趋向成熟. 同时以家庭专属AI系统的方式提供高频、刚需、订阅服务,数据隐私规范性基础上提供便捷。

  三、前半程关注软硬一体,后半程关注传感融合

  我们前半程关注软硬一体,算法怎么搬入到嵌入式芯片上去,后半段传感融合,结合创新型的热成像技术、毫米波雷达等传感技术,在场景端抓取丰富信息,再往后的主题应是用户交互和系统服务. 从应用场景出发不断调整关注重点。

  家庭AI场景的隐私数据需要规范,应用形态也比较灵活。这里灵活性对芯片公司提出很大的挑战。我们看到门禁道闸等行业应用对嵌入式AI芯片的要求一段时间是稳定的,也确实出现了切入点准确长期成功的芯片。而家庭场景的AI应用变化很快,芯片需要应用到设计时没有考虑甚至还不存在的具体场景,这就特别需要跟算法结合以适应灵活性的挑战。

  现在我们已经看到可以做咖啡的机械臂,AI服务正在从数字空间开始逐步延伸到物理空间,在这个过程中AI融合3D传感技术是越来越重要的一个方向。

  此外,仿生是一种设计参考而不是限制,超越肉眼可见才有更大的机会。我们可以从数据的角度,大数据推断当前的状态和正常的区别,也可以从传感的角度,从超声波雷达检测到人的呼吸角度去超越一般的肉眼可见的水平,提供家庭场景定制化的产品和服务。

  从算力和传感的介绍也可以很明显看出,我们今天做的这个事情依赖产业链的共同进步。我们也一直在行业里面寻求优秀的同行者,特别像嵌入式AI芯片的公司、创新传感的公司,大家想去的方向一致,路径有别,希望在各个阶段可以深入交流,相互促进。

  以上内容来源于网络,如有侵权,请联系删除