蚂蚁集团发布VenusBench-GD：首个全平台GUI智能交互能力测试基准

这项由蚂蚁集团Venus团队联合iMean AI公司共同完成的研究发表于2024年12月，研究论文编号为arXiv:2512.16501v1。该研究团队由来自蚂蚁集团的周北桐、黄哲潇、郭远、顾张轩等多位研究员以及iMean AI的孔德韩、尚彦一等研究人员组成，项目由蚂蚁集团的沈舒恒博士领导。有兴趣深入了解的读者可以通过论文编号arXiv:2512.16501v1查询完整论文。

当你用手机点击一个APP图标，或者在电脑上寻找某个按钮时，这些看似简单的操作背后其实隐藏着复杂的视觉理解过程。你的眼睛需要在密密麻麻的界面元素中精准定位目标，大脑要理解各种图标的含义，还要根据空间位置关系找到正确的位置。现在，人工智能也在努力学会这种能力，就像训练一个从未见过电脑界面的人学会如何操作各种软件一样。

蚂蚁集团的研究团队发现了一个关键问题：现有的AI测试标准就像只考察学生能否认识单个汉字，却从未测试他们能否读懂一篇完整文章。大多数GUI（图形用户界面）测试基准要么规模太小，就像只有几十道题的考试，要么过于专业化，就像只测试医学专业术语而忽略了日常对话能力。更重要的是，这些测试往往只关注最基础的"找到红色按钮"这类简单任务，却忽略了真实应用中需要的复杂推理能力，比如"找到价格最便宜的那个商品并加入购物车"。

为了解决这个问题，研究团队开发了VenusBench-GD，这是目前世界上最大规模、最全面的GUI理解能力测试基准。这就像为AI设计了一套从小学到大学的完整课程体系，不仅要测试基础的视觉识别能力，还要考察复杂的逻辑推理和问题解决能力。

这套测试系统覆盖了我们日常使用的所有主要平台：手机应用、网页界面和电脑软件，总共包含97个不同的应用程序，涵盖创意设计、办公效率、电子商务、娱乐、金融、知识获取、社交、旅行和工具类等10个主要领域。研究团队花费三个月时间，动员20位专业标注员，精心制作了6166个测试样本，每个样本都经过多轮严格的质量检验。

VenusBench-GD的最大创新在于建立了分层次的评估体系。基础任务就像教会AI"看图识字"，包括元素识别、空间定位和视觉特征理解三个方面。元素识别类似于教AI认识界面上的各种"零件"，比如按钮、文本框、下拉菜单等；空间定位则是教会AI理解相对位置关系，比如"找到搜索框右边的那个按钮"；视觉特征理解让AI学会根据外观描述找到目标，比如"找到那个心形图标"。

高级任务则更像是考察AI的"综合应用能力"。功能推理任务要求AI理解不同界面元素的实际功能，就像你需要知道那个"X"按钮是用来关闭窗口的，而不仅仅是识别它的外形。逻辑推理任务则更进一步，要求AI能够进行多步骤的思考和比较，比如"找到评分最高但价格适中的那家餐厅"。最有趣的是拒绝应答任务，这是在测试AI是否具备"实事求是"的品质——当用户的要求在当前界面中根本无法完成时，AI应该诚实地说"找不到"，而不是胡乱猜测一个答案。

研究团队在数据质量控制方面下了很大功夫。他们开发了一套"人机协作"的标注流程，先让人工专家标记出界面中的重要元素，然后用AI模型生成对应的自然语言指令，最后再由人工专家验证指令与元素是否匹配。这个过程就像制作一道精美的菜肴，需要选材、配菜、烹饪、品尝等多个环节的精心把控。

为了确保测试结果的可靠性，研究团队还进行了"盲测"实验。他们从多个现有基准中随机抽取了3000个样本，打乱顺序后让标注员重新评估质量，就像让老师在不知道学生姓名的情况下批改试卷一样。结果显示，VenusBench-GD的标注错误率仅为2.6%，远低于其他基准的10-25%错误率。

在实验评估部分，研究团队测试了目前最先进的多种AI模型，包括GPT-4o、Claude等通用多模态模型，以及专门为GUI任务设计的特化模型。测试结果揭示了一个有趣的现象：在基础任务上，通用AI模型的表现已经追上甚至超越了专门的GUI模型。比如Qwen3-VL-8B模型在基础任务上达到了76.96%的准确率，表现相当出色。这就像一个全科医生在处理常见疾病时，效果并不比专科医生差多少。

然而，在高级任务上，专业化的GUI模型仍然保持明显优势。在功能推理和逻辑推理任务中，像Holo1.5-72B和UI-Venus-Ground-72B这样的专业模型分别达到了40%和68%的准确率，明显优于通用模型。这说明专业化训练在复杂任务中仍然具有不可替代的价值，就像专科医生在处理疑难杂症时的专业优势一样。

最令人意外的发现出现在拒绝应答任务中。大多数专业GUI模型在这个任务上的表现近乎为零，只有UI-Venus-Ground-72B达到了51.33%的准确率。这暴露了当前AI模型的一个致命弱点：过度自信和缺乏自我认知。就像一个总是不懂装懂的学生，即使面对无法解答的问题也要硬着头皮给出答案，而不是诚实地承认"我不知道"。

研究团队还特别关注了多语言环境下的表现。他们发现模型在中文指令下的表现通常比英文更好，这可能与训练数据的分布有关。比如Qwen3-VL-4B模型在基础任务上从英文环境的72.54%提升到中文环境的81.32%，显示出明显的语言偏好。

为了验证测试基准的有效性，研究团队还进行了人类表现对比实验。结果显示人类在高级任务上的表现显著超越所有AI模型：在逻辑推理、功能理解和拒绝应答三个方面分别超出当前最佳AI模型41.6%、11.8%和17.8%。这说明AI在GUI理解方面还有很大的提升空间，就像学生与老师之间仍然存在明显的能力差距。

通过深入的错误分析，研究团队发现了AI模型的几个主要问题。首先是语义理解偏差，AI往往难以将抽象概念与具体视觉元素联系起来，比如无法理解"文本对齐"这个概念对应的图标样式。其次是空间定位不准确，虽然能够大致判断区域位置，但在密集界面中难以精确区分相邻元素。第三是视觉特征组合能力不足，当需要同时考虑颜色、形状、位置等多个属性时容易出错。最重要的是缺乏多步推理能力，面对需要比较、筛选、排序的复杂任务时往往采用"贪心策略"，只关注第一个符合条件的选项而忽略全局最优解。

这项研究的意义远远超出了学术范畴。随着AI助手越来越多地参与我们的日常数字生活，GUI理解能力将成为衡量AI实用性的重要指标。一个真正智能的AI助手不仅要能听懂你说的话，还要能在复杂的应用界面中准确执行你的指令，就像一个贴心的秘书能够熟练操作各种办公软件一样。

VenusBench-GD的发布标志着GUI智能理解研究进入了一个新阶段。它不仅提供了更严格的评估标准，也为研究者指出了未来的发展方向。随着这套测试基准的广泛应用，我们有理由期待AI在图形界面理解方面取得更大突破，最终实现真正智能的人机交互体验。

说到底，这项研究就像为AI设计了一套"驾照考试"，不仅要测试基本的操作技能，还要考察复杂情况下的应变能力。只有通过这样全面而严格的考核，AI才能真正成为我们值得信赖的数字助手。当然，从目前的测试结果来看，AI们距离拿到"满分驾照"还需要继续努力，但这个方向无疑是正确的。归根结底，这不仅是技术进步的需要，更是我们迈向更智能、更便捷数字生活的必经之路。

Q1：VenusBench-GD与现有的GUI测试基准有什么不同？

A：VenusBench-GD是目前规模最大、最全面的GUI理解测试基准，包含6166个测试样本，覆盖手机、网页、电脑三大平台的97个应用。与现有基准相比，它建立了分层评估体系，不仅测试基础的元素识别能力，还考察复杂的逻辑推理和功能理解能力，标注错误率仅为2.6%，远低于其他基准的10-25%。

Q2：为什么专业的GUI模型在拒绝应答任务上表现这么差？

A：这暴露了当前AI模型过度自信和缺乏自我认知的问题。大多数专业GUI模型在拒绝应答任务上准确率接近零，说明它们无法识别不可能完成的指令，总是试图强行给出答案而不是诚实地说"找不到"。这就像一个不懂装懂的学生，即使面对无法解答的问题也要硬着头皮回答。

Q3：VenusBench-GD测试结果对普通用户有什么意义？

A：测试结果表明当前AI在GUI理解方面还有很大提升空间，人类在复杂任务上仍明显超越AI模型。这意味着现阶段的AI助手在处理复杂界面操作时可能出错，用户需要保持适当的监督。同时，这也预示着未来AI助手的巨大潜力，随着技术进步，我们将拥有更智能、更可靠的数字助手。

《ballbet贝博官网下载》，《首次登录送91元红包》

博狗买球网

“雪缘园比分直播比分”

mgm手机登录

……

{!! riqi() !!}

“斗球体育官网版”{!! reci() !!}

↓↓↓

{!! reci() !!}，是{!! reci() !!}

{!! riqi() !!}，万亩良田喝足“越冬水” 山西祁县智慧水利助农忙，众亿棋牌十人牛牛，世界杯结果查询网站，pc蛋蛋网赚，九游会j9官网，世界杯买球胜负标准|澳门有抢庄牛牛|缅甸锦利国际网投|M6APP安卓|乐博平台网址|能够买球的app

{!! riqi() !!}，柬泰边境冲突进入第7天双方对停火倡议态度不一，皇冠体育PG，新葡家娱乐场网站，果博app链接，必赢BWIN体育

{!! riqi() !!}，福建立法促两岸标准共通为台胞台企享受同等待遇提供保障，金沙app 下载客户端吗，凯时国际官方在线，彩神彩票登录入口，体育平台排行榜

{!! riqi() !!}，智慧养老，亟需变“概念热”为“实效优”，千赢在线登录，牛牛打团怎么才可以赢，真钱赌app下载，奥门金沙官方

{!! riqi() !!}|从一片树叶、一杯咖啡到美妆小瓶罐看小产品如何撬动大市场|京灵平台注册|英皇娱乐网投平台|龙8long8龙8国际网站|365怎么看比分

{!! riqi() !!}|报告：未来十年中国能源结构呈“煤减、油气稳、非化石升”特征|2020年欧洲杯比分|姜子牙神算B|UedBet赫塔菲|亚星网址登陆

{!! riqi() !!}|“甲骨文面”“司母戊鼎米饭”“编钟牛肉面”火出圈创意激活文化消费新潮活力|世界杯靠谱买球|英皇游戏app|bbin体育开户APP|亚星开户……

{!! riqi() !!}，第二十七届哈尔滨冰雪大世界开园游客：冰雕黄鹤楼非常震撼，葡亰娱乐平台，意大利足球直播，博鱼，银河真人在线网站

{!! riqi() !!}，海南封关首日见闻：第一批外籍人士领取就业许可、居留许可，新濠天地线上app娱乐，千亿官网地址，世界杯开户官方网站，bobty体育在线

{!! riqi() !!}|国家文物局工作组已赴南京开展工作|2026世界杯足球赛投注|世界杯手机在哪投注|球球体育网页版下载|maxbextx官方网站手机登录

{!! riqi() !!}，香港特区政府举行南京大屠杀死难者国家公祭日纪念仪式，bet9最近网址，老虎机网站，大众体育，万博官网

{!! riqi() !!}，两人水库边静坐一整天，为何最后连走路都要人帮？，必威登录入口，银河国际手机网址，大发体育网站是什么，棋牌官方平台

{!! riqi() !!}，小孩哥不想打扫纸屑动手做了个“全自动扫地机”，ag正规的平台网站是多少，万博平台登录网址，真钱斗牛游戏，体育网站排名

{!! riqi() !!}|创意作品点亮城市数字未来 2025上海“随申码”应用创新大赛落幕|365体育注册|完美国际娱乐网站|爱博love体育官网|万博2022世界杯

{!! riqi() !!}|直击海南自贸港全岛封关：第一批通关“天然橡胶加工品”从三亚港“二线口岸”销往内地|全民炸金花安卓版免费下载安装地址|bwin世界杯玩法|蓝月亮网址|世界杯投注网站

{!! riqi() !!}|王毅：台湾地位已被“七重锁定”|蓝盾娱乐|菲律宾亚星网址大全|下载注册送10|万博手机登录

{!! reci() !!}，{!! reci() !!}|公交车变寻亲信息栏重庆一公交线路张贴失踪儿童信息助寻亲|现在哪个平台捕鱼金币可以卖|真人赚钱棋盘游戏|金沙电玩城娱乐|亿万娱乐

{!! reci() !!}，{!! reci() !!}|联播一瞬丨悼我同胞！他们不曾离开，我们不会忘记|欧冠足彩去哪里买|百姓彩票主页|bet365官网是多少|优博在哪开户

{!! reci() !!}，{!! reci() !!}|科技策源力引领行业未来乳业生物技术国家重点实验室第三届学术委员会第5次会议圆满召开|MG真人app最新版|美高梅官方网站|牛牛怎么算|365体育游戏客户端下载

{!! reci() !!}，{!! reci() !!}|山西襄垣：便民食堂“烹出”家门口的幸福滋味|环球在线注册|ku游app登录页面|bet007即时比分|世界杯买球规则图片

{!! reci() !!}，{!! reci() !!}|广东省邮政管理局党组成员、副局长周建军接受审查调查|国内最大的棋牌游戏平台|世界杯足球买球入口|亚星官网登录平台|bt365登陆不了

{!! reci() !!}，{!! reci() !!}|残特奥会铁人三项比赛收官广东队获得七枚金牌|新濠最新官网|威利斯所有网址|优德88|im体育登录易胜博备用网址

{!! reci() !!}，{!! reci() !!}|扩内需为何成为四川明年经济工作首要任务？|世界杯投注app|皇冠球赛|188bet手机版app|365bet中文赛事直播网

监制：邓金木

策划：赖晗

主创：唐征宇林箴贺陈佛烘颜亦阳陈林韵

编辑：王家菁、段圣祺

下载APP

全部

蚂蚁集团发布VenusBench-GD：首个全平台GUI智能交互能力测试基准

热门视频