F1��20��ʺ㶨��¼ܹ�VGent��Ŀ�Ķ�λ�ֿ��׼

��Ԫ��

�༭��LRST

��Ԫ��Ŀ�ģ�Multi-target�� Լ� �Ӿ��գ�Visual Reference�� Ϊ�Ӿ��λ��Visual Grounding��ʹ��ʺ��ͬʱ��ȫ�µ��ս�� Ϊ��ʶ��һ��UIC��Adobe��о��Ŷ��VGentģ��һ�ּ��ܵ��黯��ּ�ڽ�ģ�ӵ��չ��Զ��黯��ǿ�ƻ� ��VGent��16B�Ĳ��Ŀ��ڶ�Ŀ�ļ��Ӿ��յ��Ӿ��λ��׼��Omnimodal Referring Expression Segmentation, ORES��Խ��Qwen3-VL-30B��ʵ��ƽ��+18.24 F1��ش��

�ڶ�ģ̬��ģ�ӣ�MLLM��ʱ��Ӿ��λ��MLLMϸ��Ҫһ��ͬʱҲ��ʵ��˻��;��ܵĽ��

��еĽ��ƻ��Ҫ��Ϊ��ࣺ

ԭ��Token�ɣ�Native-token�� Qwen2.5-VL �� Ferret-v2 ��ģ��ͨ��Իع飨auto-regressive��ķ��ʹ��ԭ�еĴʱ��߿�� ַ��ʱ��Ŀ��Ŀ��ڶ�Ŀ�ĳ��ױ��þ��Hallucinations��ģ�ӿ��ܻ��ö��Ŀ�Ĺ��֮ǰ�͹��ֹ��Ŀ��缯�ĳ��ѭ��ͼһ��ʾ��Ŀ��Ŀ��Ҫ��ڶ�Ŀ�ĳ��µĵ�Ч�Ͳ��ȹ��Ա��Ϊ��

��Token�ɣ�New-token��һ��Ҫ��ʵ��ͨ��token��[SEG]�� object token��ָ��Ŀ��Ҫ��ģ��ݼ��LLM��¹��һ��ȷ��Щ��token��MLLM��Ҫ�첻��ֹ�ػ��LLM��Ԥѵ��׶λ�õ�ͨ��ص��䵼��޷�ֱ��ʹ��еġ��Ƚ��ġ��˸��ģԤѵ��Ŀ�ԴMLLM�� QwenVLϵ�У��

��UIC��ŵ��ѧ֥�Ӹ��У�� Adobe��о��Ŷ��һ��黯�ı��-��Encoder-Decoder��ܹ�VGent��佹��ͷ��ǣ��߲��MLLM��ײ��չ��Ŀ�ļ��detector��ͨ��hidden state��ֽ��Ĺ�ϵ��

��ĵص㣺https://arxiv.org/abs/2512.11099

�о�ְԱ��Ϊ��;�׼��λ��ֽ�Ȼ��ǿ��ѵ��һ��򵥵��ģ��ȥͬʱ��Ŀ��ͳ��ؼ��ĵײ�չ��ᵼ��ܺ�Ч��ϵ�Ȩ��

��к�ֱ��ķ��Ӧ��ɲ��ڵ��

��һ��VGent��һ��黯�ı��-��ʹ��ֳɵ�MLLM��detector��߲��ģ̬��ײ�չ��

�佹��MLLM��detector��ǻ��ģ�MLLM��ڶ�ģ̬��detector��ڸ�Ч��ṩ��׼�Ķ�Ŀ�ļ��

ͼһ��VGent��ɫ��Ƚ��MLLM��Qwen2.5-VL��ɫ��ڶ�Ŀ��Ӿ��λʹ��ϵı��ͼ��ʾVGent��ʱ��㶨��Ѹ�� MLLM ��Ŀ��Ŀ��ͼ��ʾVGent��F1��ʵ��ڶ�Ŀ�ĳ��

Ҫ��

��ܹ�

VGent��Ҫ��ͼ��ʾ��encoder��decoder��黯��ǿ��ƣ�ͼ��ĺ��壩��

ͼ��VGent��ܸ��

��ͼ��ʾ��encoder��һ�� MLLM��ʹ��QuadThinker��Ŀ��encoder��hidden states��洢��decoder��Ҳ�decoder��ʼ��encoder��LLM ��佫detector��object proposal��Ϊquery��ͨ��cross-attention��encoder��hidden states��

�о�ְԱ��decoder�ڲ��self-attention�㣨��ʼ��ͳһ��cross-attention��query֮��Ϣ�� յ��yes / no�Ķ�Ԫ�ж��ѡ��ÿ��proposal�Ƿ��Ŀ��Ӧ��segmentation mask��ͨ�� prompt SAM ��

QuadThinker��ǿ��Ŀ��

��MLLM�ڶ�Ŀ�ĳ��½��о�ְԱ��һ�ֻ�� GRPO ��ǿ��ѧϰѵ��ʽQuadThinker��ͨ��ض��prompt��reward functions��ָ��ģ��ִ��ȫ�֡��ֲ��̣��Ȼ��ͳ��ͼ��ĸ��ڵ�Ŀ��Ŀ��ٻ��չ��ϸ��

ͼ��QuadThinker��ʹ�õ�prompt��

Mask-aware Label��֧��

�ڶ�Ŀ�ĳ��⣨Box��֧�⣨Mask��ʹ��Ľ�˵��һ��Ĳ��ͨ��Ż��һ��һ��ƥ��֧��ּ��ٻ��Զ��

ͼ�ģ�Mask-aware Labelʾ��ͼ��IoA�ı�ǩ��ս��ٻر��Ű�IoU��Ե�ϸ��Ȳ��

��ֲ��˱�ע��壺��ͼ�ģ��ܽ��¹ͷװ�Ρ��䡸��Ϊ��Ŀ��

�ڼ��ʹ�� IoU ��׼��ڹ��Ŀ��С��ֵ��ص��ʹ��ᱻ��ɸ��ڱ�ע�׶α��˵��ϸ��ǩ��ǹ��֧��ʹ��˵��Զ��Ӧ�ñ��ǩ��

Ϊ��VGent��Mask-aware Label��ʹ��IoA (Intersection-over-Area) ָ��ǩ��ͼ�ģ��ң��IoAͨ��ѡmask ��ͨ��proposal prompt SAM��ã��Ŀ��ֵ��union mask�Ľ��Ժ�ѡmask��

��IoA�ķ�ĸ�Ǻ�ѡmask��û��ܾ�׼�ٻ��Щ��Ȼֻ��˲��Ŀ��Ⱥ��ϸС�Ĺ��Ȼ��õ� proposal��ģ��ʹ��һ��MLP headר��չ��֧�⵼��ı�ǩ��ڽ��Ӿ��λ��֧��͵��

Global Target Recognition��ǿȫ�ָ�֪

Ϊ��ѡ��ѡ��׼ȷ��VGent ��Global Target Recognition��

ͼ�壺Global Target Recognitionʾ��ͼ��ʹ��Learnable Queriesע��ȫ��Ŀ��Ŀ��Ϣ��ۺ϶��detector��Ч��ٻ��

Ϊ��ٻ��о�ְԱ�ۺ��Զ��detector��proposal�γ�һ��ͳһ��query set��֮�� learnable queries��Щproposal queriesƴ��Ϊdecoder��

��query��ר��ѵ��չ��Ŀ�ĵ��Լ��proposal��Ŀ��ͨ��decoder��ڵ�self-attention��Щ��ȫ��ͳ��Ϣ��learnable query�ܹ��proposal query��н��ȫ��ÿһ��ѡ��Ӷ��ǿ��Ŀ��Ⱥ��ȷ��ʵ�ָ��׼��ѡ��

ʵ��Ч��

�о�ְԱ��µĶ�Ŀ��Ӿ��λ��׼ ORES (MaskGroups-HQ) �Լ��Ű�ĵ�Ŀ��ݼ��Ͼ��ձ��

��Ŀ��Ӿ��λ��Multi-target Visual Grounding��

ͼ�� Omnimodal Referring Expression Segmentation (ORES) �ϵ��ܱ��ORES�Ƕ�Ŀ��Լ��Ӿ��գ�w/ < mask-ref >��Ӿ��λ��׼��

��ͼ��ʾ��ڼ��ս��ORES��׼��VGent ȡ��ȫ�µ�SOTAЧ��֮ǰ��Ҫ��RAS13B��VGent��F1��ʵ��+20.58%��ش��VGent��gIoU��cIoU�϶��ŵ��

ֵ��ע�ص��Ȼ��ղ��Ŀ��Qwen3-VL-30B��VGent ��Ȼ��ͬʱ��黯��VGent ��Ŀ��Ŀ��ʱ��ֺ㶨�ҿ��ٵ��ֹ��Իع�ģ��Ŀ��ӳ٣��ͼһ��ʾ��

��Ŀ��Ӿ��λ��Single-target Visual Grounding��

ͼ�ߣ��referring expression comprehension (REC) �ϵ��ܱ��

VGent�ڹŰ嵥Ŀ�Ļ�׼��RefCOCO, RefCOCO+, RefCOCOg��Ҳ��׿Խ��

VGentʵ��90.1%��ƽ��׼ȷ��Խ��InternVL3.5-20B��38B�ȸ��ģ��ģ�� backbone (Qwen2.5-VL-7B)��VGent��+3.5%��ƽ��

��ӻ�

ͼ�ˣ�VGent�ڲ��ս�µ�չ��Ч��ӻ��