猫眼影戏
猫眼影戏
熊结平
手机审查
猫眼影戏记者 胡杰儒 报道Q8X2R7L1T4J5M9B6W3
随着多模态大语言模子(MLLM)的飞速生长,能够像人类一样通过视觉输入操作图形用户界面(GUI)的智能体(Agent)正逐渐成为现实。然而,在通往通用盘算机控制的蹊径上,怎样让模子精准地将自然语言指令对应到屏幕上的详细元素 —— 即 GUI Grounding 使命,依然是一浩劫题。
现有的要领,特殊是基于验证奖励的强化学习(RLVR),虽然在提升 “指得准”(空间对齐)方面体现精彩,却往往在 “指得对”(语义对齐)上遭遇瓶颈。模子经常陷入 “自信陷阱”,在重大的语义场景下无法通过有用探索找到准确的功效图标。
针对这一痛点,来自浙江大学、香港理工大学及 InfiX.ai 的研究团队提出了一种全新的自顺应探索战略优化框架(AEPO),并推出了InfiGUI-G1系列模子。该模子通过多谜底天生与自顺应奖励机制,彻底突破了古板 RLVR 的探索瓶颈。仅凭 3B 和 7B 的参数目,InfiGUI-G1 便在多个高难度 GUI 基准测试中刷新了 SOTA,部分指标甚至大幅逾越了闭源模子。
本文将深入先容这项被 AAAI 2026 吸收为 Oral 的事情,解读其怎样通过 “学会探索” 来实现更精准的 GUI 语义明确。
论文问题:InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization论文链接:https://arxiv.org/abs/2508.05731代码链接:https://github.com/InfiXAI/InfiGUI-G1
从 “空间对齐” 到 “语义对齐”:被忽视的探索瓶颈
GUI Grounding 使命的焦点是将自然语言指令(如 “翻开相机”)映射到屏幕上的特定元素坐标。研究团队指出,这一使命可以解构为两个正交的维度:
1. 空间对齐(Spatial Alignment):能否准确地定位到元素(即 “指得准”)。
2. 语义对齐(Semantic Alignment):能否识别出功效准确的元素(即 “指得对”)。
现有的 RLVR 要领(如 Naive RLVR)虽然能通过优化坐标天生来提升定位精度,但在面临语义模糊或重大的指令时却显得力有未逮。
例如,当指令是 “使用相机搜索物体” 时,屏幕上可能同时保存通俗的 “相机应用” 和具有视觉搜索功效的 “Google Lens”。缺乏深度语义明确的模子往往会自信地死磕 “相机应用” 图标。由于古板 RL 依赖目今战略采样,模子会一直重复这个高置信度的过失,陷入“自信陷阱”(Confidence Trap),从而无法发明真正准确的 “Google Lens” 图标,导致无法获得修正语义误解所需的学习信号。
GUI Grounding 的主要失败模式: (a) 空间对齐失败,(b) 语义对齐失败
InfiGUI-G1:自顺应探索战略优化(AEPO)
为相识决这一探索效率低下的问题,InfiGUI-G1 引入了AEPO(Adaptive Exploration Policy Optimization)框架。与古板的单次回覆天生差别,AEPO 旨在通过更普遍且高效的探索来捕获低概率但准确的选项。
AEPO 框架由三个协同事情的焦点组件组成:
1.多谜底天生气制(Multi-Answer Generation)古板的 RL 要领通常只采样一个行动,一旦模子 “顽强己见” 地选错,梯度的学习信号就会消逝。AEPO 强制模子在一次前向转达中天生 N 个候选坐标点。这一机制迫使模子跳出简单的高置信度展望,去探索战略漫衍长尾中的可能性,从而大幅增添了发明准确谜底(如上述例子中的 Google Lens)的概率。
2.自顺应探索奖励(Adaptive Exploration Reward, AER)仅仅天生多个谜底是不敷的,怎样评价这些谜底的质量至关主要。研究团队基于效率第一性原理(效率 = 效用 / 本钱)设计了 AER 函数。
动态激励:若是模子在靠前的排名(Rank k)就找到了准确谜底,给予高额奖励;若是失败,则给予较小的处分以勉励继续探索。这种非线性的奖励设计在失败时勉励模子 “广撒网”,在乐成时指导模子追求 “快准狠”,实现了探索与使用的动态平衡。
3.共线处分(Collinear Penalty)为了避免模子通过天生近似直线的点来 “作弊”(简朴的线性扫描战略),研究引入了共线处分。若是天生的多个候选点在几何上近似共线,将被视为低质量探索并受到严肃处分。这强制模子在语义空间而非纯粹的几何空间中举行多样化探索。
AEPO 与 Naive 强化学习基准要领的比照
实验效果:小参数目实现性能越级
研究团队在 MMBench-GUI、ScreenSpot-Pro、UI-Vision 等五个极具挑战性的基准上对 InfiGUI-G1(3B 和 7B 版本)举行了周全评估。
1.综合性能周全领先:在 MMBench-GUI 基准测试中,InfiGUI-G1-7B 在 Windows、iOS、Android 等多个平台上的体现均刷新了开源模子的最佳效果。值得注重的是,InfiGUI-G1-7B 在部分指标上甚至优于参数目大得多的 Qwen2.5-VL-72B 和闭源模子 GPT-4o。
2.攻克高难度语义明确使命ScreenSpot-Pro 基准专门区分了文本类(Text)和图标类(Icon)使命。效果显示,InfiGUI-G1 在更依赖语义明确的 “图标” 使命上提升尤为显着。这直接证实晰 AEPO 战略有用解决了语义对齐的瓶颈,让模子真正 “看懂” 了笼统图标背后的功效寄义,而不但仅是举行简朴的文本匹配。
3.让 “不可学习” 变得 “可学习”为了验证 AEPO 是否真的解决了探索难题,研究团队将样本按难度分为简朴、中等和难题。实验发明,InfiGUI-G1 在 “难题” 样本(即基座模子险些无法答对的样本)上的提升最为重大,相对 Naive RLVR 基线提升了凌驾60%。这意味着 AEPO 乐成挖掘出了那些以往因缺乏探索而被模子 “放弃” 的长尾知识。
ScreenSpot-Pro 基准测试的性能比照
总结与展望
InfiGUI-G1 的乐成批注,GUI 智能体的性能瓶颈不但仅在于视觉识别能力,更在于怎样通过有用的强化学习战略来解决语义对齐问题。通过引入自顺应探索机制,InfiGUI-G1 以极高的数据效率和较小的模子规模,实现了逾越大模子的 GUI Grounding 能力。这项事情为未来开发更通用、更智能的 GUI 交相助手提供了坚实的手艺基础。
现在,InfiGUI-G1 的代码、模子权重及相关资源已在 GitHub 开源,接待社区进一步研究与使用。
??时势1:无码在线首页第一页在线
??01月07日,广州塔1小时内6次“吸”闪电,
场中只剩下了石渊一人,其他人全都踉跄倒退,基础就没有步伐站立,不然必定要被那种气息压到肉身碎裂。
,在线毛片视频。??01月07日,广西侨办恭贺2024新春,
远处,一群凶寇战栗,见到这种犹如天威般的情形,他们凶戾全都消逝了,簌簌颤抖。
,白白的深夜宝库存小孩,成人版寶可夢18禁,精品 欧美。??时势2:免费成人情趣视频
??01月07日,铁路“蜘蛛侠”搜山扫石排风险,
宗老皆动容,但依旧有人脱手,一下子走出三位,同时祭宝术,向前攻杀。
,www深夜成人 网站下载麻豆,一级黄色亚洲国产视频,国产视频无码在线观看。??01月07日,这个五一假期,游客“爆单”的天安门广场地区是怎么做到井然有序的?,
“嗯!”小不点擦干了脸上的泪水,用力点了颔首,族人对他很好,让他快乐长大,很开心,他的童年并没有被恼恨充满。
,JK动漫被 到爽 流,91制片厂,欧美日韩激情A片视频一站。??时势3:国产精品福利在线观看网址
??01月07日,诗与思之舞 杨庆祥《另一个世界的入口》出版,
一群人冲来,宝术闪灼,符文交织,这个地方化成了霞光的海洋,被淹没了。
,国产裸体爆乳美女视频网站A色欲,13禁 游戏,AV黄片全部。??01月07日,习近平将出席法国总统马克龙举行的欢迎仪式,
突然,一道璀璨的亮光冲起,一条碧绿的柳枝,如神玉雕琢而成,通体晶莹,散发出绚烂霞光,洞穿了天空。
,天仙频道tv精彩时刻,一级黄色aaa视频,日韩AV无码一级毛片免费。??时势4:亚洲幼小激情视频图片小说在线播放网站
??01月07日,近120名顶尖车手角逐密云环湖国际公路自行车赛 ,
那是绝世宝术在攻击,天上地下都在惊颤,众人发毛,相顾骇然,这一刻他们的灵魂都在悸动,许多人竟噗通一声跪倒在了地上。
,日本高清在线不卡免费网站,国产色哟哟精选在线观看,妹妹主动让我吃她奶。??01月07日,三部门:开展工伤保险跨省异地就医直接结算试点工作,
我们投资近亿元的新医院已经完工并获得了全县人民的认可,今年凭证医疗卫生体制刷新整体安排,二级公立医院也将举行刷新,这就要求我们要准确明确和熟悉这次公立医院刷新的目的、意义,它不是纯粹的职员核岗定编,而是一个有机的整体,它涵盖了整个医疗历程,以是随着医疗机构的身份治理向岗位治理转变,已有的内部治理体制已经不可知足新形势下医院自身生长的需要,因此,医院要战胜自满情绪,认真研究生长形势,实时发明医院现行治理体制爆发的种种问题和矛盾,要一直深化内部运行机制刷新,建设完善医院内部各项制度,抓好岗位治理,岗位是医院的细胞,岗位治理是医院最基础和最焦点的治理,一定要引起我们治理职员的重视。卫生系统知识分子多,专业手艺职员多,县医院又是全县医疗单位人才济济的地方,这就要求我们的治理者也要转变治理模式,坚持治理之道应以人为本的理念,要对这些职员以激励为主,多表扬少品评,多激励少指责。一是对内要多激励。激励是一个调动起劲性的历程,使人爆发内在的动力,朝着所期望的目的前进,这是激励的“正强化”。所谓激励不但单是要搞好物质奖励,主要的是做好精神奖励,要轰轰烈烈的表扬哪些作出效果的医务事情者,要使全院宽大职工中赶有目的、学有模范,要营造爱医院、比贡献;爱岗位、比手艺;爱病人,比效劳的一种起劲向上的优异气氛。二是要敢于处分。这是激励的“负强化”。“惩恶扬善”运用的好,就会起到“弃恶从善”正效应作用。但处分时一定要让各人明确,处分不是为了整人、罚人,而是作为激励的一种强硬手段,通过惩办过失来弘扬准确的工具,申饬各人不要做违纪事,同时要考究处分的要领,要掌握力度,既要救人又要教人,既要警示又要激励,使各人感应公正公正。要通过激励手段充分调动全院职工的主观能动性,周全提升治理水平和事情效能,增进医院整体事情的快速生长。
,天堂干屄免费视频,www色色网,黄色视频在线免费看,相关视频,大片免费观看。【【巴黎奥运会】张雨霏戴“熊猫发箍” “龙角发卡”领奖:喜欢中国元素的东西】
【中国选手再次包揽冬青奥会金银牌 中国冰雪有望再现“谷爱凌”】
责编:洪勇跳
审核:李昆
责编:桑凤亭
Copyright (C) 2001- dzwww.com. All Rights Reserved
新闻信息效劳允许证 - 音像制品出书允许证 - 广播电视节目制作谋划允许证 - 网络视听允许证 - 网络文化谋划允许证
山东省互联网传媒集团主理 联系电话:0531-85193202 违法不良信息举报电话:0531-85196540
Copyright (C) 2001- Dzwww 鲁ICP备09023866号-1