Gaze Algorithms and Interaction
眼动算法与交互
Author: Lei
简介
在这个越来越由屏幕主导的世界里,我们的眼睛已成为强大的信息获取和交互工具。Gaze算法是基于凝视的界面背后的核心技术,它为这种交互提供了便利。在本文中,我们将general的讨论gaze estimation算法,数据处理,以及它们如何彻底改变了用户交互方式。
什么是目光跟踪 Gaze Tracking or Eye Tracking?
目光跟踪通常称为眼动跟踪,是指确定一个人通常在屏幕上看什么的过程。其核心理念是捕捉观众的注视方向和焦点,提供有关其注意力、兴趣和意图的宝贵信息。
Gaze算法如何工作?
Gaze算法与摄像头或红外线传感器等硬件配合使用,可检测和解读眼球运动。这一过程通常包括
检测眼睛:第一步是在捕获的图像中识别和定位用户的眼睛。
确定瞳孔中心:一旦检测到眼睛,算法就会将瞳孔归零。通过确定瞳孔中心,算法可以获得精确的参考点。
映射目光: 利用瞳孔的位置,算法计算出注视矢量--一条表示眼睛注视方向的线。然后将该矢量映射到屏幕或环境上,从而得到一个聚焦点。
校准:为了提高准确性,用户通常会通过注视特定点来校准系统。这有助于算法了解眼睛解剖和行为的个体差异。
眼动数据处理
眼部生理学在Gaze Estimation中起着至关重要的作用,并指导着Gaze交互式应用的开发。掌握眼球运动的原理及其与人类意识水平的关系对于设计符合人体工程学的应用程序至关重要。人类通过眼睛收集有关外部环境的信息,这涉及持续的自主或不自主运动,使眼睛能够获得稳定而持续的视觉刺激。
下图介绍了眼动追踪领域处理注视点的一般流程[47, 87]。首先是数据清理,以提高数据质量,包括降噪、去空和处理异常值。这里的 "空 "是指数据缺失;例如,眼动追踪设备没有报告位置坐标,或者参与者没有注视屏幕。这通常是在桌面环境中进行离线眼动跟踪数据分析的必要步骤[89, 244]。注视事件分割是指使用第 6.2 节中的算法从连续注视点中检测注视事件,如定点或囊回。
中间的数据处理步骤是将眼动数据可视化,删除超出合理范围的数据并合并数据,例如,合并紧邻的固定点。进一步的分割可用于识别感兴趣区(AOI)[90],通过囊回路径和停留时间推断扫描轨迹和热图,如上图所示。这些信息可作为应用的高级特征。
基于Gaze的交互
利用从Gaze算法中收集到的信息,基于Gaze的交互提供了直观的界面和创新的内容互动方式。一些应用包括
辅助技术:对于行动不便的人来说,凝视式交互可以让他们只用眼睛就能浏览电脑、进行交流,甚至控制智能家居设备。
游戏:在视频游戏领域,玩家的视线可用于瞄准、选择项目或浏览菜单,从而创造更身临其境的体验。
营销与研究:通过了解消费者的视线,企业可以洞察产品定位、广告效果和用户行为。
虚拟现实和增强现实:在虚拟现实和增强现实中,沉浸感至关重要,基于Gaze的交互可用于选择物体、导航菜单或提供用户兴趣反馈。
基于Gaze的互动的未来
纯Gaze交互大致可分为两大类:隐性和显性。隐式交互涉及界面适应用户的被动注视行为,而显式交互则要求用户有意移动视线以提供直接输入。隐式交互通常是针对特定任务、设备和环境特征量身定制的。例如,阅读应用程序可以预测用户的阅读速度,并通过隐式分析用户的注视轨迹自动翻页 [143, 147];显示系统也可以根据用户的意图改变内容渲染 [247]。这类预测通常是通过应用机器学习技术来估计注视行为和推断人类意图来实现的。另一方面,显式交互依靠用户自愿和有意的注视动作进行操作。这类交互通常采用停留时间、追逐、注视手势或这些技术的组合。
基于Gaze的应用可根据交互方式和注视获取方式分为三类:显性Gaze交互、隐性Gaze交互和多模态Gaze交互 [118, 161]。下图 举例说明了这些类别。显性注视交互应用的两大类型是Gaze打字和Gaze界面控制。前者允许用户通过停留时间或Gaze手势输入文本[160, 172, 198, 262],后者则利用人们的自主眼球运动和有意识的注视方向来控制计算机或与计算机交流;例如,用户可以进行简单的水平或垂直眼球运动来表示不同意或同意[161]。
Dwell-time 停留时间是指用户在一段时间内短暂停留在目标上[48, 160],以区分随意观看和Gaze输入。这解决了 Midas touch 问题 [104],即用户无意中注视潜在目标并做出选择。这一技术已被广泛应用于凝视交互中,对于不需要精确凝视估计的交互技术也很有用,例如Gaze打字[160, 172]。对于远程眼动跟踪系统,建议的停留时间阈值在 200 到 1,500 毫秒之间 [160,172],而具体的阈值往往需要在特定任务中反复试验才能确定。
Pursuit 追逐指的是平滑追逐眼动,即眼睛追随移动的物体[137, 203, 238]。追随法通过皮尔逊相关系数 [41, 54, 235, 238] 或 CNN [226] 和贝叶斯 [211] 等机器学习技术来测量用户眼球运动与物体运动之间的匹配程度。如第 4.3.4 节所述,它经常被用作校准技术 [24, 276]。
Gaze Gesture 手势是一连串预定义的眼球运动(或称为笔画)[43, 86, 198, 206]。它是其他注视交互技术的一种很有前途的替代技术,尤其是当屏幕太小无法支持其他技术时[9]。注视手势的一个优点是,它可以使用少量的手势组合来支持大量命令[43]。不过,凝视手势的使用可能会带来复杂性,因为用户可能难以回忆起复杂的手势,也难以通过身体启动这些手势 [162]。有一些基于机器学习的方法,如分层时态记忆(HTM)[205, 207]和图神经网络(GNN)[216],可以从嘈杂的眼动信号中检测并分离出注视手势。
更广泛的应用领域
基于注视的技术潜力巨大。随着算法越来越复杂,硬件越来越经济实惠,我们有望看到Gaze Interaction在日常生活中的进一步融合。
个性化体验:想象一下,一个数字广告牌会根据大多数路人的视线改变其内容。或者一部电影能根据观众注意力最集中的地方调整故事情节。
效率和生产力:专业软件中基于视线的互动可以让用户更快地获取工具,并根据用户的视线预测他们可能需要的东西。
教育:在电子学习平台中,通过了解学生的视线聚焦点,可以深入了解学生的理解能力和困难领域,从而提供个性化反馈和自适应内容。
etc.
未来研究的挑战和机遇
— RQ1: How can we achieve robust gaze estimation in unconstrained environments?
— RQ2: How can we develop gaze analysis and processing methods that can tolerate the inherent instabilities of dynamic gaze estimation?
— RQ3: How can we utilise estimated gaze for a broader range of applications?
详情请阅读下文
Reference (如想进一步了解,请点击下文,如果本文对你有用,欢迎引用):
Yaxiong Lei, Shijing He, Mohamed Khamis, and Juan Ye. 2023. An End-to-End Review of Gaze Estimation and its Interactive Applications on Handheld Mobile Devices. ACM Comput. Surv. 56, 2, Article 34 (September 2023), 38 pages. https://doi.org/10.1145/3606947