QwenLong-L1.5��30B MoEģ�ӳ��ı��GPT-5

��Ϊ��ģ�Ӵ�ҵ�߻��о�Ա��Ƿ�Ҳ��Ϊһ��ģ�ӵ� ��ı�� ˷��ȴ��ʵӦ��з��û��ô��

��Ҳ��澳֮һ��

��α�Ĳ�ʢ�� ģ�� 롱 (Needle-in-a-Haystack) ��ȡ�ø߷��Ӫ��һ�ֳ��ı��Ѿ�� α��ʢ��һ��ʹ��Ӽ��ӵ��Ϣ��λ��Ϊ��Ҫ��ɢ֤�ݡ��ȫ��Ϣ�Ķ�� (multi-hop reasoning) ʱ��ģ�ӵ��ֱ�ἱתֱ��Թ��߼��̻¶��ȷ�ϵ��ʵ�̰��

ѵ��Ķ��Σ� ��ı��ʹ��ѵ��ݾ��һ��ش�� ӻ⡱��Դ��ñ�׼�� RL �㷨�� ˮ��ƽ��ȫ��ƵĽ��Reward Function��ܿ��ܵ�ǿ��ת��ģ��ܲ��ͼ��ǿ��𵴵Ľ��أ�Entropy��ѵ��̵� �� ߽��

��ڵ��컨�壺 ��Ȼ��Ĵ��ڱ��չ�� 256K��1M ��Ҳ�վ��һ��޵� ��ڴ桱��Ȼ��ʵ��µ�֪ʶ�� ջ��ж�һ��ȲƱ��Ǿ��һ��רҵ�� Ϣ��׾��ͻ��ʹ��ģ��ڴ��óͷ��Щ ��򡱣�Out-of-Window��ʹ��ʱ��ò��ֿ鴦�óͷ��Э�ƻ��յ��Ҫ��ȫ��Ϣ��ɥʧ�Ͷ˵��Ľ��

��Щ��㱶��Ϥ��ô��ܿ��ܲ��㲻��ҵ��ȱ��һ��˵��˵ĳ��ı��ѵ�� ䷽��Post-training Recipe��

��һϵ��ս��ͨ��ĵ��Ŷ��ʽ�Ƴ�QwenLong-L1.5�� һ�� Qwen3-30B-A3B ��ĳ��ı��ר��ǵĽ��Т˳��ṩ��ȱʧ�� ䷽��ϵͳ�Ե�ͳһ�ˣ�

��չ�ĸ��ݺϳɹ��Ϊ��ı��Ƶ�ǿ��ѧϰҪ��ͻ��ڵ��ܹ�

��ȭ��ּ��һ��Խ�� ѧǷ�á� �� ò��ˡ� ��ȫ��·��

��ձ��棺 https://huggingface.co/papers/2512.12967GitHub ��ջ�� https://github.com/Tongyi-Zhiwen/Qwen-Doc

��⣺��ǵ��󡸷��

Ҫ��ģ��ճ��ı��Ż��ԶԶ��һ��ϵͳ�Ե� ��ȭ��󽹵㷨��ӻ��ģ�ӵ�ѧϰ��˼��

��һ�� ʳ�� ݺϳ��ˮ��

ģ�ӵ� ��ʳ�� ̡��ֻ��ģ��Ͷι��ӵ� ��롱 ʽʹ��ֻ��ѧ��ѡ��ȴ��д��ƪ��

Ϊ�˽̻�ģ�� ˼��Ǵ��һ��ӱ��ݺϳ��ˮ��佹��ͷ�� Ȳ��ϡ��ר��Ҫ ��Դ (multi-hop grounding) ��ȫ�� ָ߻�ľƴ�Ǳ��Ȱ�һ��һ��֪ʶ ��ľ��ԭ��ʵ��ƾ֤�ش�� ͼֽ��֪ʶͼ�ס��ĵ��Щ��ڲ��½ڵĻ�ľƴ��һ��ΰ�� Ǳ��ش��⣩��

��ˮ�� 桱 ��ܳ��򻯵��޾��ĸ��ս��

֪ʶͼ��ָ�� (KG-Guided)�� Զ��ھ��ĵ��߼��۵Ķ��ǿ��ģ�Ӿ��п��䡢��ĵ��Ĺ��˼��ĵ�� (Cross-document Table Engine)�� Ӷ��ǽṹ��ĵ��Զ��ȡ��ϳ�ͳһ�Ľṹ��ݽ��Ҫ�ۺϡ�ͳ��ش��ֵ��ҽ�� (MASE)�� һ�� ߡ��ߡ��ĥ��ߡ� ��ɵĶ��ޱ�ǩ�ĵ��Զ��ϳ�ͨ�ó��ı�ʹ��ͨ�� - �� - ĥ�� ѭ��ϵ��ʷ�ϳ�ʹ��ʹ��ѶȺ͹��

��ȹ̸�Ч�� RL �Ż�ս��

ǿ��ѧϰ��RL��ģ��Ҫ��ڳ��ı��ʹ��׼�� RL Ҫ��ս��׵��ѵ��߽��

��һ��սԴ��ܵ��칹��ǵĳ��ı�ѵ��Դ��롢ѧ��ס��Ʊ��ȶ��ʹ��Ҳ��ʴ��㡢��ش��Ե��ѵ��ÿ��Σ�mini-batch��ܶ��ᱬ��ǿ��ƫ�ƣ�distributional drift��

��ƫ�ƻ��Ž��źţ�reward��ȹ��ƺ��advantage function��Ԥ��ش��ʹ��ݶȸ��ƫ��ü��ɿ��Ϊ��ǽ��˫��ս�ԣ�

ʹ��ƽ��Task-balanced Sampling�� ڹ��ÿ��ѵ��ʱ��ǿ�ƴӲ��ʹ��ͣ��ֵ��㡢�Ի�Ӱ��ȣ��ȳƳ�ȡ��Դͷ�ϰ��ܵ��ƽ��

ʹ��ר��Ԥ�ƣ�Task-specific Advantage Estimation�� ƺ��ʱ��ǲ��ٶ��εĽ��б�׼��ÿ��ʹ��ڲ��ø��ʹ��Ľ��ܣ�� 0/1 ��ϣ�� 0-1 ��缯��Ӷ�Ϊÿ��ʹ��ṩ��׼ȷ��ȹ̵��ź��

�ڶ��ս�ǳ��ı��е��÷��⣨Credit Assignment Problem��ʽʹ��һ��չ�ʧ��յף�negative response��˴��ȫ׼ȷ��취��Ű�� RL �㷨ͨ��һ��򵥵ĸ�� һ��С� ��ʧ�ش��Щ׼ȷ�ġ��̽��ֵ�İ취��ѹ��ģ�ӵ�̽��ܵ�� ̮��entropy collapse��ѵ��ͣ��

Ϊ��˳Ӧ�ؿ��ս��Ż��Adaptive Entropy-Controlled Policy Optimization, AEPO��㷨��AEPO �Ľ��һ�ֻ��ģ��ȷ��ԣ��ս��Ȩ�⣩�Ķ�̬�ݶ��ϻ��ƣ�

��ģ��ڸ߲�ȷ��ԣ��أ�״̬��˹�ʧ�յ�ʱ��AEPO ��Զ��ϣ�mask��为��ݶ��ģ�ӵ�̽��Ϊ��ֹ�򴦷ֲ��ʵ��ʧѧϰǱ��

��֮��ģ��ڸ��Ŷȣ��أ�״̬��Ȼ��ʱ��ݶȻᱻ��ʩ��Լ��Щ��ŶȵĹ�ʧ��

ͨ��ֶ�̬�ġ��ܵ��ݶȿ��AEPO ��ģ��ս�Ե��ȹ��һ��ƽ��̽��ʹ��ӻ��Ͻ��˳��ı� RL �еĲ��ȹ��

��ͻ�Ƽ��޵� ��ô��ԡ�� Ӱ��

256K ��Ĵ��ʵ��һ��޵� ��Ӱ��ٺ��̺��ʵ��֪ʶ��ʱ��Ҫ�Ĳ��һ��Ĵ��һ��ȫ�µ��ģʽ��

Ϊ��Ϊģ��һ��Ӱ�� (Memory Management Framework)��൱�ڸ��һ��չ�� Ǳ��Ķ��ĵ�ʱ��ģ�Ӳ��ͼ��Ӳ�� Ӱ��ѧ��˱߶��߼�Ҫ�㣨��ʽӰ��£��γɽṹ��Ӱ��Ҫʱ��Ч��ʹ��Щ ��ǡ��

��Ⲣ��һ��Ĺ��ͨ��Ķ�׶��ں� RL ѵ�� (multi-stage fusion RL training)��ǽ�� ģ�� Ŀ��С��޷��ں��һ��ջ�õ��һ��ͳһ��ģ�� һ�� ˼�� ѡ��ͻ��ڵ�Լ��

Ч��չʾ

��ȫ��30B moe ģ��ʵ��콢��Ч��

QwenLong-L1.5 �ڶ��Ȩ��ı��׼��ȡ��Ŀ��Ч��ֿ��ܽ�Ϊ��

��ܱ��ڣ� ��Ȼ��ģ�� Qwen3-30B-A3B-Thinking��QwenLong-L1.5 ��ƽ��ֱ�� 9.9 �֣��֤ʵ��ȫ�׺�ѵ�� ䷽�� ش��ֳ��ȼ綥��콢�� ڶ��Ȩ��ı��ǵ� 30B-A3B ģ��ȡ�� GPT-5��Gemini-2.5-Pro ��ҵ�綥��Դģ��չ��˼�ǿ�ľ��׼��Ծ�� ֵ��ע�ص��ǵ��׼��ĥ��ش�ʹ��Ҫ��ȫ��Ϣ��ϵ� MRCR��CorpusQA �� LongBench-V2 �Ȼ�׼��ǻ��ȡ��+31.72��+9.69 �� +6.16 ��

�Ⲣ��ɺ��Ǿ�׼��֤�� ʳ��ɱ��ݺϳɣ�� ר��Ϊģ�Ӵ��ʲô��ڽ��Щ��ϻ��ǿ��

��֮ϲ��ͨ��

ѵ�� ר�š� �Ƿ�� ͨ�š� ��Ǵ�ģ��΢��г�� ΰ塱 ��

��ǵ��յ��ǣ��໥��

ʵ��Ч��ʾ��ɳ��ı�ǿ��ѵ��QwenLong-L1.5 ��û�з�� ƫ�ơ� �� һϵ��ͨ��Ҳ��

��ѧ�� (AIME25) ʹ��ָ��Ӱ�� (BFCL) ʹ��չ�ֳ��ǿ��״̬׷��ڳ��Ի� (LongMemEval) ��Ӱ��ȷ��ǿ��

��֤ʵ��Ϣ��һ�ֻ��Ե� ��֪��䵽ģ�ӵĸ����֮��

��ս��ޣ�� 1M~4M Token ��ı��

��ʹ��Զ��Ĵ��ʱ��ģ��չ��ŵ��

��ǵ� ��ô��ԡ��Ӱ��ܣ��QwenLong-L1.5 �ڴ��óͷ��İ��򼶱�ĳ��ʹ��ʱ��չ�ֳ��׿Խ��

Ч��ʾ��QwenLong-L1.5 ��Щ��ս��Զ��ͬ��Ҫ��֤��ǿ��ǿʢ�Ŀ��չ��ע��ǲ��ģ��ڴ��ڵ��ͻ��ơ��óͷ��Ϣ��ش�Ǳ��

�ܽ�