iPhone现在可以为盲人用户自动识别并标记按钮和UI功能 微软推出其新数据治理服务Azure Purview Ben Ling的物质资本刚刚又从投资者那里募集了1.13亿美元 Pave筹集了数百万美元的资金以提高透明度 Google现在允许任何人使用AR和应用程序对街景做出贡献 VSCO收购了移动应用程序Trash 以扩展为AI驱动的视频编辑 Jio Platforms支持基于SF的AR游戏初创公司Krikey 祝贺淮南朝阳医院肿瘤中心荣获“淮南市 2020 年度抗癌先进集体” 修复补水的好选择——麦吉丽小银管 卡思黛乐正式牵手中国高端酒展览会(春季),进军华南市场! “互联网+”新模式 协盈在线打造投资风向标 阿卡索上榜新京报少儿英语品牌质量指数榜单 实力获认可 新京报“在线少儿英语品牌质量指数TOP15”榜单出炉,阿卡索位列第2! 长城欧拉:每一个FLAG 都终将在心上开出一朵小红花 小米股价在完成39亿美元的股权交易后下跌7.1% Lucideus推出新的移动应用程序SAFE Me 可用于您的在线安全评估 印度对待金融科技竞争对手的方法很简单 苹果的MagSafe Duo无线充电器终于上市了 但印度还没有 Excitel宣布新的宽带计划 查看所有详细信息 狮门影业Play应用程序在印度推出 每月收费99卢比 希捷发布了漫威复仇者联盟限量版游戏驱动器 但并非所有人都能拥有 微软团队获得了具有多个新功能的又一次大规模更新 中国飞船成功登陆月球回收月球岩石 经过8000万美元的融资 拥有2年历史的CRED估值达到8亿美元 Alphabet的DeepMind在基于AI的蛋白质结构预测中实现了历史性的新里程碑 Materialise获4000万美元SQL流数据库投资 尼古拉股价下跌 因为通用汽车取消了投资协议 树莓派基金会释放机箱风扇以防止过热 欧盟立法者推动视听行业实行地理封锁 ServiceNow即将收购加拿大的初创公司Element AI 为企业提供AI服务 Moderna声称疫苗的功效为94% 将向FDA申请紧急使用授权 苹果在意大利被扣1000万欧元 被控在iPhone防水功能方面误导用户 英国缩短了电信公司停止安装华为5G套件的时间表 玛丽·埃克兰创立了一项具有雄心勃勃的长期目标的新基金 Twitter将在2021年初重新启动帐户验证 要求提供有关政策的反馈 美国证券交易委员会发布拟议的规则制定 以给予零工工人公平的补偿 在被BuzzFeed收购之后 HuffPost关闭了其巴西和印度版本 Fortnite增加了每月12美元的订阅捆绑 特斯拉现在的市值达五万亿美元 HMBradley筹集了1825万美元 标志着洛杉矶作为挑战者银行业务的进入者 Proxyclick访客管理系统适应当前局势作为员工签到平台 手机银行应用程序Current筹集了1.31亿美元的C轮融资 会员数量突破200万 面向Z一代青少年的故事式问答应用F3筹集了390万美元 Kea获1000万美元A轮融资 打造可帮助餐厅接听电话的AI 《中国梦之声-我们的歌》跨界开茶饮?梦之声潮流茶饮站解锁跨界创业新方式 上海岙舟:疫情冻结日本线下经济 电商能趁势崛起吗? CELSIUS燃力士固体饮料跨界破圈 异业合作释放品牌活力基因 防疫在线,BE范德安暖心送口罩,异地过年也温暖! BE范德安惊艳亮相,《假日暖洋洋》霸屏热搜! 中蜜与您甜蜜相伴“5.20世界蜜蜂日”
你当前位置:首页 >资讯 >

iPhone现在可以为盲人用户自动识别并标记按钮和UI功能

2021-02-05 15:26:30来源:

苹果一直不遗余力地为残障用户构建功能,iOS上的VoiceOver对于视力障碍的人来说是无价的工具-假设界面的每个元素均已手动标记。但是该公司刚刚推出了一项全新功能,该功能使用机器学习来自动识别并标记每个按钮,滑块和标签。

屏幕识别(iOS 14中现已提供)是一种计算机视觉系统,已经对正在使用的应用程序的数千张图像进行了培训,可以学习按钮的外观,图标的含义等。这样的系统非常灵活-根据您提供给他们的数据,它们可以成为发现猫,面部表情或用户界面不同部分的专家。

结果是,现在在任何应用程序中,用户都可以调用该功能,并且在不到一秒钟的时间内,屏幕上的每个项目都会被标记。所谓“每一个”,是指每个人-毕竟,屏幕阅读器需要从图像中了解有视力的用户将看到并能够与之交互的每件事(iOS能够创建以下内容的单句摘要:一段时间)到常见的图标(主页,后退)和上下文相关的图标,例如“…”菜单,这些图标随处可见。

这个想法并不是要使手工标记过时-开发人员最清楚如何标记自己的应用程序,但是更新,不断变化的标准和具有挑战性的情况(例如游戏中的界面)可能导致事情难以获得。

我与Apple的iOS辅助功能工程团队的Chris Fleizach以及AI / ML辅助功能团队的Jeff Bigham进行了交谈,讨论了这一极其有用的新功能的起源。(将在明年发表的一篇论文中进行描述。)

“我们正在寻找可以介入可访问性的领域,例如图像描述,” Fleizach说。“在iOS 13中,我们自动为图标添加了标签-屏幕识别又向前迈出了一步。我们可以查看屏幕上的像素,并确定可以与之交互的对象的层次结构,所有这些操作都在设备上的十分之一秒之内发生。”

确实,这个想法不是一个新想法。Bigham提到了屏幕阅读器Outspoken,几年前它曾尝试使用像素级数据来标识UI元素。但是,尽管该系统需要精确匹配,但机器学习系统的模糊逻辑和iPhone内置AI加速器的速度意味着屏幕识别更加灵活和强大。

仅仅几年前这是不可能的-机器学习的状态以及缺少执行它的专用单元意味着这样的事情将对系统造成极大的负担,花费更长的时间并且可能会耗尽系统资源。电池一直。

但是一旦这种系统成为可能,团队就必须在他们专用的辅助功能人员和测试社区的帮助下进行原型设计。

“ VoiceOver长期以来一直是视觉可及性的标准承担者。如果您查看“屏幕识别”的开发步骤,它是基于各个团队之间的协作-整个环境中的可访问性,我们在数据收集和注释,AI / ML以及设计方面的合作伙伴。我们这样做是为了确保我们的机器学习开发继续推动获得出色的用户体验。” Bigham说。

通过为流行的应用程序和游戏拍摄数千张屏幕截图,然后将其手动标记为几种标准UI元素之一来完成。标记后的数据被馈送到机器学习系统,该系统很快就熟练地自行挑选出相同的元素。

它并不像听起来那样简单,而是像人类一样,我们已经很好地理解了特定图形或文本的意图,因此我们经常甚至可以浏览抽象或创造性设计的界面。对于机器学习模型来说,这还不是很清楚,因此团队不得不与它一起创建一套复杂的规则和层次结构,以确保最终的屏幕阅读器解释有意义。

这项新功能应有助于使数以百万计的应用程序更容易被视力障碍用户访问,或者完全可以访问。您可以通过以下方法打开它:“辅助功能”设置,然后依次选择“ VoiceOver”和“ VoiceOver识别”,在其中可以打开和关闭图像,屏幕和文本识别。

将屏幕识别带到Mac等其他平台上并不是一件容易的事,因此暂时不要抱有希望。但是原理是合理的,尽管模型本身不能推广到桌面应用程序,这与移动应用程序有很大不同。也许其他人会承担这项任务;AI驱动的可访问性功能的前景才刚刚开始被意识到。