可在下方连接中关注原账号
随着多模态技术的不断发展,多模态交互成为了智能交互的趋势。本文阐述了多模态交互设计的基本概念,介绍在多模态交互分析中可以应用的理论模型—VACP模型,并总结出了基于VACP模型的多模态交互设计分析流程,帮助各位设计师对现有的用户场景进行多模态交互分析,更科学的选择合适的多模态交互方式。
1.背景
近年来,人们在特定场景下面临的任务或者体验的需求越来越高,基于鼠标、键盘、触摸屏的近场交互形式已经不能很好满足人们对高效率信息传达的诉求。与此同时,随着人机深度交互技术的发展,人与产品的互动逐渐从单一的视觉或听觉模态向视、听、触、嗅等多模态融合发展,信息逐渐从单一屏幕向多个屏幕,甚至用户空间的延展,多模态融合交互已经成为新的智能交互趋势。
2.多模态交互
2.1多模态交互的概念
模态本质上指的是感官,多模态即多感官融合,对应人的感官有视觉、听觉、触觉、嗅觉、味觉。每一种信息的来源或形式,都可以称为一种模态,对应的信息媒介有语音、视频、文字,以及各种传感器,如红外、雷达、GPS等。多模态交互其实是指人通过声音、肢体语言、信息载体(文字、图片、音频、视频)、环境等多通道多感官融合与计算机进行交流,模拟人与人在现实世界中的交互,让用户在使用产品时候可以达到一个更自然更高效的交互目的。
人和智能系统的交互是相互理解的过程,即双方都通过各种通道表达,然后也都通过各种通道去分析对方表达的意图。多模态更多的是站在智能系统一方来表达,强调的是智能系统通过多个通道去捕获人和环境的信息,或者通过多个通道去呈现信息。
2.2多模态交互与多通道交互
多模态交互和多通道交互是我们常提到了两个专业名词,那它们有什么区别呢?实际上,多模态交互是从人的角度说的,多通道交互是从机器或设备的角度说的。人有多种感官资源,那么机器也有多种信息通信通道,其中包括输入通道(例如屏幕、话筒、按键等)和输出通道(例如屏幕、扬声器等),在人机交互的过程中,利用机器的多种通道进行信息的输入和输出即为多通道交互。
2.3多模态交互组合
相比于传统的单一界面,多模态界面可以被定义为多个输入模态和输出模态的组合,这些组合可以分为五种基本类型。
(1)互补型。当用两个或多个输入模态联合发出同一个命令时,它们会产生互补作用促进命令的更好实现。例如:手势与语音结合,用户手指某个位置方向说:“朝这个方向走就可以到达”,手势配合语音可以更快速准确实现导航。
(2)重复型。当两个或多个输入模态同时发出同一个信息时,虽然输入模态稍显冗余,但这种多重信息发送的方式可以引起用户的注意,帮助用户快速识别并解决错误的问题,强化系统需要执行的操作。例如:使用PDA进行高频任务操作时,如果出现操作错误,会同时有震动、语音警示信息,引起用户的注意,让用户可以立刻做出反应。
(3)等价型。当用户有使用多模态的选择时,这两个或多种输入模态具有相同的效果,是等价的。例如:用语音或手动输入相同的信息时,它们的效果是一样的,同样可以达到相同的目的。
(4)专业型。某种模态对于某项任务来说是最佳选择或者某个模态总是用于一个特定的任务时,它就成了专业的模态,即某种模态对某个类型信息的输入比其他模态更合适。例如:汽车、轮船等方向盘的控制用手操作会更容易和精确,但用语音就很难完成。
(5)并发型。当两个或多个以上的输入模态在同一时间发出不同的命令时,它们是并行发送的,可以实现不同的功能指令。例如:用户可以在虚拟购物空间中用手势进行动作操作,同时使用语音进行其他信息咨询。
3.多模态交互的理论模型
3.1VACP模型简述
Wickens 曾提出多资源理论,将人的信息处理源分为视觉、听觉、认知和动作4个部分,即人的资源。人在处理信息或执行任务的过程中会占用多种资源,资源被占用的越多也就意味着人的信息或任务负荷越大。
VACP模型是在多资源理论的基础上提出的,每一个字母代表一个资源,V为视觉,A为听觉,C为认知,D为动作。将每一种资源下可能发生的行为进行了穷举,并将行为对资源的占用程度进行了打分,分之越高则意味着资源被占用的程度越高(详见下表)。以视觉资源为例,当人不存在视觉行为时,则其评分为0,也就意味着对视觉资源的占用程度为0;当人在进行阅读时,对应的评分为5.9,也就意味着阅读这个行为对视觉资源的占用程度较高。(此表中的评分是此模型的提出者经过各种专业的模型算法得出来的分值,我们需要时可以直接引用此表中的分值)
3.2VACP模型的设计分析流程
第一步,拆解用户场景
首先要确定在什么用户场景中进行多模态设计,对于一些复杂的大场景可以根据业务的SOP流程或用户旅程拆解成多级子场景,再对子场景进行分析。例如线上购物流程比较大且比较负责,我们便可以根据用户旅程拆解为浏览场景、加购场景、比价场景、下单支付场景等等。
第二步,分析子场景用户行为
一般而言,用户在每个场景中的行为和任务都不是单一的,我们需要将用户在场景中可能会发生的行为或任务列举出来,将一级的任务/行为拆解为若干个子任务/行为。当然,拆解提炼的时候也可以结合业务或研究的重点区分主要行为和次要行为,着重分析主要行为。例如线上购物的浏览场景,用户可能的行为:浏览商品详情、浏览图片、浏览评价等。
第三步,评估子行为的资源占用
对照VACP模型的标准量表评估每一个子任务/行为中资源的占用情况,即对子行为在视觉、听觉、认知、运动上进行资源占用程度的打分。得分用可视化的图表表现出来将会更加直观。例如对浏览商品详情、浏览图片、浏览评价分别进行资源占用情况的打分。
第四步,综合分析资源占用特征
得出每一个子行为的资源占用程度得分后,将场景中的所有子行为得分进行汇总加和,即可分析出用户场景中的总体资源占用特征。例如线上购物浏览场景的总体资源占用特征=浏览商品详情的占用+浏览图片的占用+浏览评价的占用。(注意:如果所有子行为不是同时发生的,那就不能简单的相加,此处只是用于举例)
第五步,制定设计策略
得到总体资源占用特征后,我们可以从模态代偿和模态增强两种角度指定设计策略
模态代偿:当某行为对用户单一模态资源需求过高时(即用VACP量表的分值较高),可通过适当增大对其他模态的资源需求,以代替补偿单一模态对信息的接受障碍,从而实现多模态对信息的综合反馈。
模态增强:当某行为对用户单一通道资源需求过高(即用VACP量表的分值较高),且其他模态受阻难以实现代替补偿时(例如盲人无法用视觉模态代偿听觉模态),可通过对该模态增强的方式来提升交互效果。
第六步,产出设计方案
多模态交互的设计方案可以包括:
(1)视觉模态的设计方案,例如页面的信息布局、信息架构、信息触达方式等。
(2)听觉模态的设计方案,例如语音信息库(话术规范、语音时长、音量大小、触发机制等)以及语音交互逻辑。
(3)触觉模态的设计方案,例如震动的长短、震动的频率、震动时长等。
(4)其他模态:目前互联网的交互设计中尚未设计到嗅觉和味觉模态的方案,有待进一步探索可能性。
3.3VACP模型的实际应用
在物流场景中,我们将VACP模型应用于对货运司机场景的多模态交互分析。
拆解用户场景:货运司机场景根据用户的行为流程可以拆解为5个子场景,以其中以驾驶场景为例讲述VACP模型的实际应用。
分析子场景用户行为:司机(即用户)在驾驶场景中的主要行为有操纵汽车、关注导航、关注路况。
评估子行为的资源占用情况:
(1)操纵汽车:在视觉上不会占用很多视觉资源,偶尔用户会看某些信息,例如看速度表。听觉上不存在行为。在认知上用户可自主选择如何操纵汽车。在运动上需要用户手动操纵。对照VACP的标准量表对各资源的占用分别打分:视觉注册、检测——1.0分,不存在听觉行为——0分,方案选择——1.2分,手动操纵——4.6分
(2)关注导航:在视觉上需要辨别行进方向等,在视觉上听语音的播报导航,在认知上要进行交通相关符号的识别,在运动上偶尔需要用户点击等离散操作。对照VACP的标准量表对各资源的占用分别打分:视觉辨别——3.7分,解释语义内容——4.9分,符号、信号识别——3.7分,离散的行为——2.2分
(3)关注路况:在视觉上需要不断的跟踪、跟随,看路况的变化,在听觉上不存在行为,在认知上要进行交通相关符号的识别,在运动上不存在行为。对照VACP的标准量表对各资源的占用分别打分:视觉追踪、跟随——5.4分,不存在听觉行为——0分,符号、信号识别——3.7分,不存在精神行为——0分。
综合分析资源占用特征:结合上述子行为对货运司机驾驶场景进行综合的分析和打分。通过下方图例我们可以比较直观的发现,在货运驾驶场景中用户的听觉(A)占用程度最低,视觉(V)占用程度最高。
制定设计策略:
(1)由于视觉占用程度高,听觉占用程度低,所以如需在此场景中需将一些信息触达给司机,例如时效的倒计时提醒等,可以选择用听觉信息代偿视觉信息,不再增加视觉资源的占用。
(2)用户认知被导航和路况占用,因此我们传达信息时应当更加通俗易懂,减少用户思考,不再增加认知压力。
(3)运动的占用也很高,且主要被操纵汽车的行为占用,此行为会影响到行车安全,因此信息触达时最好不要用户有点击或者其他的界面操作。
上文中我们以运输司机驾驶场景为例描述了VACP模型的应用。在物流场景中,我们其实是对运输司机的全场景进行了分析,VACP模型的运用让我们确定了哪些子场景适合应用哪种多模态交互方式,在项目中我们对5大子场景产出了17条视听融合的体验优化点,从设计专业上出发推动运输司机的体验升级。
3.3VACP模型的两个要点
在应用此模型时我们还需要注意以下两个要点:1.需要考虑当前用户与信息输出主体之间的关系,信息输出主体当前是否是用户的视觉焦点;例如当用户在注视手机屏幕时,视觉模态被手机占用的程度较高,但此时视觉模态的信息增强或许才是最有效的。2.需要考虑用户在场景中的状态。例如当用户在睡觉或休息时,视觉通道的占用程度可能为0,此时设计策略还是在视觉模态进行增强是不符合逻辑的。
4.多模态交互的未来发展
每个人的心智资源是固定的,不同的任务会占用不同的心智资源,多模态的核心其实就是对资源进行再分配,通过研究目标人群和场景,细化感官的维度和精度,使用多模态设计手段,赋予产品具有生命感的智能感知,让用户用起来更智能、更自然。
多模态交互的发展依赖技术能力的不断升级,它能让用户通过多个模态以并行、非精确的方式与计算机系统进行交互,从而更精准获取用户交互的意图,提高人机交互的自然性和高效性。当前多模态技术在视频网站、电商物流、自动驾驶等领域已经得到了应用,例如电商平台的“拍照购”就是使用了图像、文本和高层语义属性等多模态下的信息融合以实现“以图搜图”功能。在物流场景下,通过视频分析技术实现物流园区作业人员操作行为的实时监控和规范管理。但纵观整个电商和物流产业链可以看到,当前对于多模态的技术实践多是站在“机”的主要视角,对于“人与机”间的模态交互探索还远远不够,例如我们大部分一线工作人员,在运输、装卸、配送货物等任务中仍依赖界面交互,无法真正解放双手来更好地进行任务操作。
随着多模态技术的进阶,多模态体验设计的层级也会随之升维:
(1)基础感知阶段(本能层):体验阶段的最初层级,即体验过程中的“感觉”与“认知”。设计时可以根据用户场景需要,将多种感官融于设计中,让用户获得更好的体验。
(2)行为交互阶段(行为层):体验阶段的中等层级。通过多模态交互设计,构建一个多维的多模态整体体验。用户可以在基础的感知层次上进行思想与行为探索,进而达到融入情感产生共鸣的目的。
(3)思维联通阶段(反思层):体验阶段的最高层级。思维联通阶段更多触达的是“反思”层,思维联通阶段的体验可以把用户带到不同的时间和空间,激起用户的记忆,向用户传达设计的思想。
作为设计师,我们可以根据每一个技术发展阶段设定要达到的体验设计目标,让我们设计的系统逐步从工具型产品向助手型产品再向智能伙伴型产品发展,让人机交互更加的自然和谐。
参考文献:
1.薛志荣《前瞻交互:从语音、手势设计到多模融合》
2.多模态人机交互综述 http://www.cjig.cn/html/jig/2022/6/20220612.htm
3.线下多感官货架导购设计 https://mp.weixin.qq.com/s/Vpvn76qk4_kJfxx5e6tGhg
4.多模态交互在数字体验设计中的策略探究