模型嵌入式端部署(人机交互新突破：百度发布主动多模态交互技术)

Posted 2023-05-30

篇首语：所谓得体，就是有些话不必说尽，有些事不必做尽。本文由小常识网(cha138.com)小编为大家整理，主要介绍了模型嵌入式端部署(人机交互新突破：百度发布主动多模态交互技术)相关的知识，希望对你有一定的参考价值。

模型嵌入式端部署(人机交互新突破：百度发布主动多模态交互技术)

近年来服务机器人逐渐进入商场、餐馆、银行、机场等场所，给人们提供了简单的咨询、导航等服务。然而，由于多数服务机器人仅能被动响应用户的请求，同时，大多数宾客不了解服务机器人的功能，甚至可能不知道它能否正常工作，这种情况下很多人不会选择贸然去咨询服务机器人。这种现象导致多数时候服务机器人难以起到实际作用，且使用和交互的频率非常低，变成“移动平板电脑”。如果服务机器人能主动关注工作区域的场景，针对有潜在需求的访客，在客户主动请求之前，就能发起交互，既能给人宾至如归的感受，又能主动让用户了解到服务机器人的功能，使得机器人更加智能化、人性化、提升宾客体验。

为此，百度的工程师们率先在小度机器人（DuRobot）上开展了一项技术革新。小度机器人落地于百度公司各个办公大厦大堂，提供迎宾咨询、引领讲解、互动娱乐等功能，是百度对外迎宾的重要一环。这项技术的目的在于让小度机器人能理解当前场景，发掘用户潜在意图，主动发起第一步交互。虽然主动交互也在学术界已经有一些初步的工作，主要通过距离传感器、摄像头等设备感知行人意图，按照预设的交互规则，发起简单的、宽泛的交互，比如简单问候“你好”和握手等等。但这些交互模式通常非常有限（比如小于10种）。

为了使得机器人能够更加理解场景的细节，带来更加智能、友好、和自然化的交互体验，百度提出了全新的“基于视觉记号和 Transformer 模型的人机主动交互系统”（TransFormer with Visual Tokens for Human-Robot Interaction，简称 TFVT-HRI）。这套系统不仅能观察场景主动发起交互和引导，其交互的动作更是包含千余种多模态动作，使其能够像人类一样表现出自然的主动问候。

工作原理解释

百度提出的 TFVT-HRI 框架，是业内首次尝试将主动交互扩展到集表情、动作、丰富话术于一体的多模态交互模式。通过目标检测器，将可能对主动交互产生影响的相关物体，提取为涵盖视觉以及相对空间信息的视觉标记（visual tokens），然后利用 Transformer 网络学习一段时间内 visual tokens 之间的关系，从而实现对交互主体的时空建模，预测该交互主体是否有潜在交互意愿，当前帧合适的多模态动作是什么。

该工作以小度机器人为主体，构建数据采集、模型训练、端上嵌入式设备部署一套完整的主动交互解决方案。小度机器人工作的真实环境（通常是公共场所，大堂等）十分复杂，各种各样的光照环境也给计算机视觉技术为基础的主动交互计算带来很大挑战。为此，百度在多个大堂采集了不同场景的视频片段，标注其中合适的触发时间点，以及合适触发的多模态动作。共计标注了上千小时的视频片段，其中包含了3800个需要发起主动交互的场景。数据和交互专家们标注了超过1000组多模态动作组合，同时使用采样技术获得足量负样本，辅助训练。

TFVT-HRI 框架包含三个模块：Visual Token 提取器、多模态动作表征、基于 Transformer 的交互决策模型，如下图所示。TFVT-HRI 框架首先以 Yolo 作为视觉特征提取器，提取了每帧图像中的多个物体和人物的区域，并结合了位置信息生成表示（a）。接下来，多帧连续信息，通过 Transformer 模型进行编码（b）。通过这种方式，模型不仅仅能获取图像中每一个物体随时间运动的轨迹，人物的表情和动作变化，还能获取到人物之间的互动关系，对于场景的理解起到了至关重要的作用。另一方面，我们将专家标注的多模态动作进行编码，其中，语言利用百度的大规模语义理解模型 ERNIE 进行编码，动作则利用 Embedding 表示（c）。这种编码方式在语言上具有很好的泛化和理解能力。模型最终需要决策是否发起主动交互，以及选择的多模态动作。

效果评估

该项目由于使用视频流作为输入，输出多模态动作 ID，这样的做法和当前的视频动作识别十分类似，因此百度采样目前最优的视频动作识别模型 R(2+1D)+ig65m 作为基线模型和 TFVT-HRI 进行对比。该基线模型使用65M 社交网络视频数据做预训练，并且利用收集的数据集 finetune。考虑到多模动作的合适性很难自动化评估，百度采用了采样真机部署模型，真人体验，问卷调查的方式评估动作的合适性，这样自动化评估指标只注重多模动作触发的时机的合适性，因而使用精准率、召回率、F1等指标。从下表可以看出，基线模型由于缺少交互对象时空建模能力，在全新的测试集上精准率显著低于 TFVT-HRI 模型。

基于 Paddle Inference，将模型部署到机器人的嵌入式运算设备 Jetson AGX 后发现，TFVT-HRI 模型可以达到6.25FPS，而基线模型（使用轻量版本）只有1.89FPS，考虑到基线模型延迟明显，严重影响用户体验，在用户实验部分，百度团队主要对比了不使用主动交互的传统模式。

有30名新入职员工参加了我们的用户问卷实验，他们之前全都没有体验过小度机器人，避免了主观印象的影响。问卷涵盖了情绪指标：效价（Valence）和唤醒度（Arousal）；态度指标：整体舒适程度、自然程度、友好和智能程度。

独立样本 T 检验（Independent-Samples T Test）结果显示：两组被试在效价（t(28)=1.218，p=0.233>0.05）和唤醒度（t(28)=1.906，p=0.067>0.05）均不存在显著差异。将 Valence-Arousal 数据映射到社会心理学中常用的 Russel 情感极坐标模型，可以发现两种交互系统都能给用户带来偏向『激动』（EXCITED）的正向情绪。

虽然两种模式唤起的用户情绪无显著差异，但在其他主观指标上，两种交互系统差异明显。Levene’ Test 表明，除了“智能的”之外，其他变量方差齐性（homogeneity of variance）的假设成立，因此我们对“整体舒适度”、“自然的”、“友好的”进行了独立样本 T 检验，对“智能的”进行了 t'检验。结果显示，两组被试对“整体舒适度”（t(28)=2.141，p=0.041<0.05）、“智能的”（t' (24.679)=2.225，p=0.035<0.05）、“自然的”（t(28)=2.354，p=0.026<0.05）和“友好的”（t(28)=2.705，p=0.012<0.05）评分均存在显著差异，TFVT-HRI 框架的评分显著高于被动交互组。

百度的这项新技术已经全面落地于小度机器人，并且在统计数据上取得了显著的效果。以小度机器人服务的某大堂为例，10月用户对比去年成功 Query 查询量从1070个提升到5077个，平均有效服务时间从3.109% 提升到9.268%，提升十分显著。

总结

作为小度机器人进化的第一步，百度提出的 TFVT-HRI 主动交互框架使用 visual tokens 和 Transformer 对交互主体进行时空建模，理解他们的行为、意图，然后引导机器人主动发出包含表情、动作、丰富话术的多模态交互，带给用户更加舒适、自然、友好的体验。目前该框架专注于主动发起第一次交互，后续百度也在探索引入用户反馈机制，实现在线学习、强化学习，以及更大的交互动作空间。百度该技术也已经开源于 PaddleRobotics 库，致力于向机器人行业输出高质量的 AI 和深度学习解决方案。

开源地址：

https://github.com/PaddlePaddle/PaddleRobotics

文章地址：

https://arxiv.org/abs/2012.04832