AI for ALL | Inclusive AI的概念和在人机交互上的研究
Author: Yaman Yu
引言
今年最炙手可热的议题必然涵盖生成式人工智能 (GAI)。AI工具的功能显著提升,迅速渗透到人们工作和生活的方方面面。然而,若我们考虑广泛的用户群体,人工智能应用对于视力障碍者是否易用呢?想象一下,你的父母或者祖父母在使用AI工具时,是否会感到困惑?这一议题属于“Inclusive AI”研究范畴。“Inclusive AI”是指以包容性的方式设计、开发和部署人工智能系统,考虑到多样化的人类需求和观点。其旨在确保人工智能技术惠及社会的各个群体,同时尽量减少偏见,促进公平、无障碍和不同人群的代表性,包括但不限于种族、性别、年龄、能力和社会经济状况。例如,人工智能应该能够识别并理解多种语言和口音,以便不同母语的用户能够使用这些系统。再者,一个能够识别多种中国方言的语音助手,就更具包容性。
1. 生成式AI到底改变了什么?
互联网的本质是对信息的复制和分发。互联网是现实世界的一个镜像。比如淘宝是把现实世界中的商品信息复制到网站上,抖音是把生活中的娱乐信息复制到app上。互联网当然不仅是复制,也让信息分发的速度和距离完成了一次“进化”。在互联网出现之前,信息通过不同的媒介传递,比如空气,书本。信息发布者(人们)通过不同的媒介(说话或者书写)将信息传递了出去。但是传统的媒介的效率和稳定性都有极限,比如书无法保存很长时间,也很难同时传递给上万人,而口口相传只要距离远就会失真或者无法听到。而现在在互联网上信息以光速传播到世界各地,同时人们的问题也从“信息匮乏”变成了“信息过载”。如何更有效的筛选,分发信息也成为了主要解决的问题。不同的解决方案甚至可以把互联网划分成几个不同的时代,
~ 分类索引 - 门户时代 (e.g., 网络黄页,最早期的Yahoo!)
~ 搜索引擎 - 搜索时代 (e.g., Google)
~ 订阅关注 - SNS时代 (e.g., MySpace)
~ 推荐算法 - Feed时代 (e.g., Facebook)
而生成式AI改变了我们创建,交互和分发信息的方式。从用户创造内容变成了AI创造内容或者是AI共创内容。生成式AI能够创造原始内容,如文本、图像、音乐和视频,这在以往是由人类独自完成的。例如,AI现在能够编写文章、创作艺术品,甚至编曲,创造出人类可能无法想象或实现的作品。而在内容的分发上,与传统互联网的匹配和推送不同。生成式AI能够根据用户的即时需求生成内容,从而改变信息的推送方式,使其更加主动和个性化。在交互层面,生成式AI可以即时响应用户输入,创造互动体验。与静态内容或预先编程的响应不同,这些系统能提供动态的、上下文相关的回复和内容,从而增强用户体验。
2. 为什么我们应该讨论和研究Inclusive AI?
随着这些技术改变信息的创造、分发和接收方式,必须确保这些变化惠及所有人,并公平公正。生成式人工智能 (GAI) 的训练数据往往是基于过去的信息和行为,这可能反映出现实世界中的不平等和偏见。如果训练数据存在性别、种族、地理位置等方面的偏见,那么GAI生成的内容也可能会延续这些偏见,造成信息分发的不公平,甚至加剧社会不平等。例如,有研究指出AI生成的图像展现了年龄主义、性别歧视和阶级偏见,常常将人物放置于都市环境,使用过时的技术设备来描绘特定职业。
GAI的算法设计也可能存在偏见,例如在决策过程中对某些群体给予更多权重或偏好。这可能导致在某些情况下对特定群体的不公平对待,进一步加剧社会不平等。例如,在医疗领域,AI系统的偏见可能导致对某些群体的误诊。例如,IBM的最新研究表明一些计算机辅助诊断系统对黑人患者的诊断准确率低于白人患者。
其次,随着AI在生活中越来越普及和常见,如果AI的交互方式只关注一部分人群而忽略了minority,比如残障人士。那么信息获取的难度和不平等也在不经意间被拉大了。因此,我们需要关注和讨论如何构建包容性AI,以确保技术进步能惠及全社会,而不是仅仅服务于特定的群体。这关乎公平、透明度、以及我们希望未来社会的样子。
3. Inclusive AI在人机交互方向上的研究讨论
OpenAI为了解决这个问题,近期资助了十个不同的团队来探索如何让AI的各个环节更加公开(transparent)和包容(inclusive),确保AI技术造福所有人。比如Mass Deliberation for Democratic Inputs to AI项目通过AI辅助的视频通话技术,使得大规模的民主协商成为可能。这个项目利用先进的视频通话技术,让成千上万的人能够参与到关于AI行为规则的讨论中。通过精心设计的讨论框架和指导原则,参与者们可以提出意见、交换观点,并共同塑造AI的未来道路。而另一个项目Ubuntu-AI:A Platform for Equitable and Inclusive Model Training则更关注AI模型训练集的包容性(inclusiveness)。Ubuntu-AI聚焦在非洲的创意工作者,比如画家和摄影师。他们的作品在AI训练中不被使用或者在不经许可或补偿的情况下被采用的问题。该项目开发了一个实验平台,特别聚焦于非洲艺术和设计,旨在让非洲创意工作者能够与AI合作而非对立,通过这种合作创造新的资金筹集机会,扩大他们作品的传播,并建立一个包含更多关于非洲艺术和设计的知识库,用于AI的学习,以产生更具包容性的AI输出。
还有很多HCI的研究者在使用GAI技术解决现有的互联网包容性(inclusiveness)问题。其中生成式人工智能(GAI)与可访问性(Accessibility)结合,形成了一个重要的讨论话题,特别是在信息分发的领域。这个话题触及了如何利用生成式AI的能力来打破信息获取的障碍,确保所有人,特别是残疾人士,能够平等地访问和利用信息技术。在最近的研究中出现的几个话题包括:个性化内容创建:生成式AI可以根据用户的特定需求生成个性化的内容。对于有视觉障碍的人士,AI可以生成更易于理解和消费的信息表示形式,例如,图像作为信息传递的一种重要手段,其无处不在的特性对于视障人士来说构成了一定的信息获取障碍。视障人士在访问网页、使用社交媒体或处理电子文档时,常常因无法解读图像内容而错失关键信息。Sharma等人的研究探讨了人工智能在帮助视障人士保护隐私方面的应用。他们招募了视障人士作为参与者,使用者需要拍摄研究团队准备并发送给他们的包含虚构隐私信息的照片,如医疗报告、银行卡信息和日常用品。随后,研究团队建立了一个公开数据库,用于训练图像识别模型自动识别照片中的隐私物品和信息。这种模型旨在帮助视障人士在发布和分享照片时,能更加方便快捷地保护自己的隐私。针对这一问题,另一研究团队开发了ImageAlly,该工具利用人工智能技术来分析图像,并将这些图像中的关键信息以视障用户可理解的形式呈现出来。该工具可以识别和解释图像内容,然后通过语音反馈将信息传达给用户,从而帮助视障人士更有效地获取和利用数字图像中的信息。通过ImageAlly,研究团队希望提升视障用户在数字世界中的自立能力,使他们能更自信地导航和访问图像密集的在线资源。改善用户界面:生成式AI可以帮助设计更易于使用的用户界面,针对不同能力的用户优化交互设计。例如,为有运动障碍的用户生成更易于操作的界面布局,或为有认知障碍的用户提供更清晰直观的信息结构。在文章Screen Recognition: Creating Accessibility Metadata for Mobile Applications at Scale中Zhang等人探讨了一种新的技术方法,旨在通过屏幕识别技术提高移动应用程序的可访问性,尤其是为视觉障碍用户设计的。这项研究利用人工智能技术自动生成移动应用的可访问性元数据,帮助视障用户更有效地与移动应用互动。他们的方法侧重于自动生成移动应用界面上内容的可访问性元数据,这些元数据能够详细描述屏幕上的元素和内容,从而帮助视障用户更有效地与应用互动。
想象一下,一个视障用户正在使用一款流行的社交媒体应用。在没有Zhang等人研究成果的情况下,用户可能难以理解屏幕上的各种图标和按钮的功能,因为这些元素主要依靠视觉提示。通过Zhang等人开发的屏幕识别技术,应用能够自动生成每个元素的描述性元数据。例如,当用户触碰屏幕上的"发送消息"按钮时,屏幕阅读器可以立即识别这个按钮并通过语音反馈告诉用户:"发送消息按钮,双击以发送消息。" 这样,视障用户就能够更明确地理解他们正在与哪个元素互动,以及如何操作这些元素来完成特定的任务。这种技术的实施不仅提高了视障用户的独立操作能力,还为他们提供了更加丰富和无障碍的移动互联网体验,让他们能够与智能手机上的各种应用更有效地互动。总的来说,Zhang等人的工作为移动应用的可访问性领域带来了创新的视角和实用的技术方案,展示了人工智能在辅助解决视障用户挑战中的巨大潜力。无障碍内容检测和改进:生成式AI可以被用来分析网站或应用程序的可访问性,自动识别并建议改进措施,确保内容对所有用户都是可访问的。比如Morillo等人的研究通过创建一个网页系统,使用人工智能技术来识别、评估和自动修正网络可访问性问题,特别是针对多媒体元素。他们的方法重点在于自动生成与网页内容相关的可访问性元数据,这些元数据帮助识别和修正那些未正确标记的多媒体元素。研究成果表明,该技术能显著提高网站的可访问性,尤其是对于视障用户,使他们能更有效地获取和理解网页信息。此外,该系统为开发人员提供了一种相对简单的方式来增强其网站的可访问性,适用于多种不同类型的网页内容。使用Morillo等人开发的系统,一个教育平台的网页可以被自动分析和评估。例如,系统可以自动识别一个未标记的图像,并使用人工智能技术生成一个描述性的替代文本。如果视频缺少字幕,系统也能提出改进建议或自动生成字幕。总体而言,Morillo及其团队的工作为网络可访问性领域带来了一种创新的方法和实用的解决方案,展现了人工智能在促进网络环境无障碍化方面的巨大潜力。