模型嵌入式端部署(人机交互新突破:百度发布主动多模态交互技术)

Posted

篇首语:所谓得体,就是有些话不必说尽,有些事不必做尽。本文由小常识网(cha138.com)小编为大家整理,主要介绍了模型嵌入式端部署(人机交互新突破:百度发布主动多模态交互技术)相关的知识,希望对你有一定的参考价值。

模型嵌入式端部署(人机交互新突破:百度发布主动多模态交互技术)

近年来服务机器人逐渐进入商场、餐馆、银行、机场等场所,给人们提供了简单的咨询、导航等服务。然而,由于多数服务机器人仅能被动响应用户的请求,同时,大多数宾客不了解服务机器人的功能,甚至可能不知道它能否正常工作,这种情况下很多人不会选择贸然去咨询服务机器人。这种现象导致多数时候服务机器人难以起到实际作用,且使用和交互的频率非常低,变成“移动平板电脑”。如果服务机器人能主动关注工作区域的场景,针对有潜在需求的访客,在客户主动请求之前,就能发起交互,既能给人宾至如归的感受,又能主动让用户了解到服务机器人的功能,使得机器人更加智能化、人性化、提升宾客体验。


为此,百度的工程师们率先在小度机器人(DuRobot)上开展了一项技术革新。小度机器人落地于百度公司各个办公大厦大堂,提供迎宾咨询、引领讲解、互动娱乐等功能,是百度对外迎宾的重要一环。这项技术的目的在于让小度机器人能理解当前场景,发掘用户潜在意图,主动发起第一步交互。虽然主动交互也在学术界已经有一些初步的工作,主要通过距离传感器、摄像头等设备感知行人意图,按照预设的交互规则,发起简单的、宽泛的交互,比如简单问候“你好”和握手等等。但这些交互模式通常非常有限(比如小于10种)。


为了使得机器人能够更加理解场景的细节,带来更加智能、友好、和自然化的交互体验,百度提出了全新的“基于视觉记号和 Transformer 模型的人机主动交互系统”(TransFormer with Visual Tokens for Human-Robot Interaction,简称 TFVT-HRI)。这套系统不仅能观察场景主动发起交互和引导,其交互的动作更是包含千余种多模态动作,使其能够像人类一样表现出自然的主动问候。


工作原理解释


百度提出的 TFVT-HRI 框架,是业内首次尝试将主动交互扩展到集表情、动作、丰富话术于一体的多模态交互模式。通过目标检测器,将可能对主动交互产生影响的相关物体,提取为涵盖视觉以及相对空间信息的视觉标记(visual tokens),然后利用 Transformer 网络学习一段时间内 visual tokens 之间的关系,从而实现对交互主体的时空建模,预测该交互主体是否有潜在交互意愿,当前帧合适的多模态动作是什么。



该工作以小度机器人为主体,构建数据采集、模型训练、端上嵌入式设备部署一套完整的主动交互解决方案。小度机器人工作的真实环境(通常是公共场所,大堂等)十分复杂,各种各样的光照环境也给计算机视觉技术为基础的主动交互计算带来很大挑战。为此,百度在多个大堂采集了不同场景的视频片段,标注其中合适的触发时间点,以及合适触发的多模态动作。共计标注了上千小时的视频片段,其中包含了3800个需要发起主动交互的场景。数据和交互专家们标注了超过1000组多模态动作组合,同时使用采样技术获得足量负样本,辅助训练。


TFVT-HRI 框架包含三个模块:Visual Token 提取器、多模态动作表征、基于 Transformer 的交互决策模型,如下图所示。TFVT-HRI 框架首先以 Yolo 作为视觉特征提取器,提取了每帧图像中的多个物体和人物的区域,并结合了位置信息生成表示(a)。接下来,多帧连续信息,通过 Transformer 模型进行编码(b)。通过这种方式,模型不仅仅能获取图像中每一个物体随时间运动的轨迹,人物的表情和动作变化,还能获取到人物之间的互动关系,对于场景的理解起到了至关重要的作用。另一方面,我们将专家标注的多模态动作进行编码,其中,语言利用百度的大规模语义理解模型 ERNIE 进行编码,动作则利用 Embedding 表示(c)。这种编码方式在语言上具有很好的泛化和理解能力。模型最终需要决策是否发起主动交互,以及选择的多模态动作。



效果评估


该项目由于使用视频流作为输入,输出多模态动作 ID,这样的做法和当前的视频动作识别十分类似,因此百度采样目前最优的视频动作识别模型 R(2+1D)+ig65m 作为基线模型和 TFVT-HRI 进行对比。该基线模型使用65M 社交网络视频数据做预训练,并且利用收集的数据集 finetune。考虑到多模动作的合适性很难自动化评估,百度采用了采样真机部署模型,真人体验,问卷调查的方式评估动作的合适性,这样自动化评估指标只注重多模动作触发的时机的合适性,因而使用精准率、召回率、F1等指标。从下表可以看出,基线模型由于缺少交互对象时空建模能力,在全新的测试集上精准率显著低于 TFVT-HRI 模型。



基于 Paddle Inference,将模型部署到机器人的嵌入式运算设备 Jetson AGX 后发现,TFVT-HRI 模型可以达到6.25FPS,而基线模型(使用轻量版本)只有1.89FPS,考虑到基线模型延迟明显,严重影响用户体验,在用户实验部分,百度团队主要对比了不使用主动交互的传统模式。


有30名新入职员工参加了我们的用户问卷实验,他们之前全都没有体验过小度机器人,避免了主观印象的影响。问卷涵盖了情绪指标:效价(Valence)和唤醒度(Arousal);态度指标:整体舒适程度、自然程度、友好和智能程度。


独立样本 T 检验(Independent-Samples T Test)结果显示:两组被试在效价(t(28)=1.218,p=0.233>0.05)和唤醒度(t(28)=1.906,p=0.067>0.05)均不存在显著差异。将 Valence-Arousal 数据映射到社会心理学中常用的 Russel 情感极坐标模型,可以发现两种交互系统都能给用户带来偏向『激动』(EXCITED)的正向情绪。



虽然两种模式唤起的用户情绪无显著差异,但在其他主观指标上,两种交互系统差异明显。Levene’ Test 表明,除了“智能的”之外,其他变量方差齐性(homogeneity of variance)的假设成立,因此我们对“整体舒适度”、“自然的”、“友好的”进行了独立样本 T 检验,对“智能的”进行了 t'检验。 结果显示,两组被试对“整体舒适度”(t(28)=2.141,p=0.041<0.05)、“智能的”(t' (24.679)=2.225,p=0.035<0.05)、“自然的”(t(28)=2.354,p=0.026<0.05)和“友好的”(t(28)=2.705,p=0.012<0.05)评分均存在显著差异,TFVT-HRI 框架的评分显著高于被动交互组。


百度的这项新技术已经全面落地于小度机器人,并且在统计数据上取得了显著的效果。以小度机器人服务的某大堂为例,10月用户对比去年成功 Query 查询量从1070个提升到5077个,平均有效服务时间从3.109% 提升到9.268%,提升十分显著。


总结


作为小度机器人进化的第一步,百度提出的 TFVT-HRI 主动交互框架使用 visual tokens 和 Transformer 对交互主体进行时空建模,理解他们的行为、意图,然后引导机器人主动发出包含表情、动作、丰富话术的多模态交互,带给用户更加舒适、自然、友好的体验。目前该框架专注于主动发起第一次交互,后续百度也在探索引入用户反馈机制,实现在线学习、强化学习,以及更大的交互动作空间。百度该技术也已经开源于 PaddleRobotics 库,致力于向机器人行业输出高质量的 AI 和深度学习解决方案。


开源地址:

https://github.com/PaddlePaddle/PaddleRobotics


文章地址:

https://arxiv.org/abs/2012.04832

相关参考

手机触摸屏你类型有哪些(触摸屏行业新风向 超声波触控打造人机交互新体验)

Nokia7710手机早在智能手机市场还属于诺基亚的年代,手机的触控屏还在用电阻屏技术。就在2004年11月诺基亚就推出了带有可触控的手机——诺基亚7710,其屏幕就是采用电阻屏技术;在2008年发布的诺基亚5800XpressMusic同样搭载了此...

无线键鼠套装(定制生产力,雷柏9080G多模无线键鼠套装助力三星手机平板)

...机平板用户的核心诉求。手机、平板、笔记本、PC多设备交互,满足高效工作的需求。围绕用户优化服务体验,是一款产品真正做到无可替代的核心竞争力。借助科技智能、算法、触感、响应等逐步发掘适合用户的产品提案,雷...

江苏省计算机检测中心(6G、人机交互、工业互联网……2022年世界互联网大会乌镇峰会热点聚焦)

新华社杭州11月10日电题:6G、人机交互、工业互联网……2022年世界互联网大会乌镇峰会热点聚焦新华社“新华视点”记者2022年世界互联网大会乌镇峰会9日在浙江乌镇开幕。从“互联网之光”博览会展示的最新产品应用,到世界...

智能家庭影院(人工智能时代的家庭影院百度再发AI新物种小度电视伴侣)

...庭影院”,凭借出众的音质与视频播放能力,全语音远场交互能力以及全面接入的小度人工智能助手,让你彻底摆脱遥控器;而小度在家系列智能视频音箱再推新品——小度在家1S,它拥有全新外观设计与硬件配置,升级了颇受...

现代人机交互(MBUX智能人机交互系统)

MBUX智能人机交互系统MBUX采用同级先进的智能人机交互系统,具有全新设计的用户界面,搭配12.3英寸数字高清仪表显示屏与10.25英寸中央触摸显示屏;实景穿越导航系统与升级的停车辅助系统带给用户更好的体验。后排舒适空间

现代人机交互(MBUX智能人机交互系统)

MBUX智能人机交互系统MBUX采用同级先进的智能人机交互系统,具有全新设计的用户界面,搭配12.3英寸数字高清仪表显示屏与10.25英寸中央触摸显示屏;实景穿越导航系统与升级的停车辅助系统带给用户更好的体验。后排舒适空间

现代人机交互(MBUX智能人机交互系统)

MBUX智能人机交互系统MBUX采用同级先进的智能人机交互系统,具有全新设计的用户界面,搭配12.3英寸数字高清仪表显示屏与10.25英寸中央触摸显示屏;实景穿越导航系统与升级的停车辅助系统带给用户更好的体验。后排舒适空间

最新的人机交互方式(华为人机交互专利公布,用户无需直视即可下发不同操作命令)

...显示,11月25日,华为技术有限公司和天津大学申请的“人机交互方法、人机交互装置及存储介质”专利公布。该专利申请日为2021年5月24日。专利摘要显示,本申请实施例提供一种人机交互方法、人机交互装置及存储介质,该方...

机器人人机交互方式(机器人·人机交互·技术介绍)

...情感情绪识别的对话式AI及应用实践”中分享的《机器人-人机交互-技术介绍》编辑整理而成,在未改变原意的基础上稍做整理。前人工智能时代是基于关键词模板,只能接受固定命令,能力无法持续提升,不能识别用户情绪,...

当前人机交互主要方式(香港故事|人机交互音乐会:唱响不一样的《东方之珠》)

视频加载中...新华社香港7月17日电题:人机交互音乐会:唱响不一样的《东方之珠》新华社记者陆敏“小河弯弯向南流,流到香江去看一看……”歌声响起处,大屏幕上五彩斑斓的3D音画随着旋律“起舞”,晶莹欲滴的珠子不断...