欧美日韩在线一区二区亚洲综合

电脑版下载

67216
3

欧美日韩在线一区二区亚洲综合截图Q8X2R7L1T4J5M9B6W3

内容详情

欧美日韩在线一区二区亚洲综合

界面新闻记者 | 宋佳楠

界面新闻获悉，1月26日晚，阿里正式推出千问系列旗舰推理模子Qwen3-Max-Thinking。凭证阿里宣布的数据，该模子在19项权威基准测试中的体现媲美OpenAI的GPT-5.2-Thinking、谷歌的Gemini 3 Pro等国际顶尖模子，标记着国产大模子在高阶推理领域实现主要突破。

该模子总参数目超万亿，预训练数据量达36T Tokens，经大规模强化学习打磨而成。相较于前代模子，其焦点刷新集中在两方面。

一是自顺应工具挪用能力，可按需挪用搜索引擎和代码诠释器，现已上线Qwen Chat。与早期需要用户手动选择工具的要领差别，Qwen3-Max-Thinking能在对话中自主选择并挪用其内置的搜索、影象和代码诠释器功效。这种能力让模子能像专业人士一样自主判断是否挪用搜索、影象或代码诠释器，好比解答实时政策问题时自动检索最新信息，处置惩罚工程盘算时启动代码工具验证效果，无需用户特殊指令即可降低“幻觉”危害。

Qwen3-Max-Thinking相关测试数据图片泉源：千问

另一个是测试时扩展手艺（Test-Time Scaling），指在推理阶段分派特殊盘算资源以提升模子性能的手艺。据称显著提升推理性能，在要害推理基准上逾越Gemini 3 Pro。

一样平常AI遇到难题，会同时想许多思绪，许多是重复的，白白耗算力。该手艺则通过“履历提取”式反思，阻止古板模子并行推理的冗余盘算，在相同算力下聚焦未解决难点，使GPQA科学知识测试得分从90.3提升至92.8，LiveCodeBench编程测试从88.0升至91.4。

针对Qwen3-Max-Thinking的更多性能评估图片泉源：千问

在性能比拼中，该模子在被称为“人类最后的测试”的HLE工具挪用基准中，以58.3分远超GPT-5.2-Thinking的45.5分和Gemini 3 Pro的45.8分；IMO级数学推理测试获91.5分登顶，预览版更曾拿下AIME 25与HMMT 25双满分。

现在，通俗用户可通过千问PC端、网页端免费体验，企业则能通过阿里云百炼获取API效劳。

1月21日，全球最大AI开源社区Hugging Face最新数据显示，阿里千问衍生模子数突破20万个，成为全球首个告竣此目的的开源大模子；同时，千问系列模子下载量突破10亿次，平均天天被下载110万次，已完全逾越美国Llama，稳居开源大模子全球第一。

阿里CEO吴泳铭去年曾体现，公司正在起劲推进三年3800亿的AI基础设施建设妄想，并将会一连追加更大的投入。这一投入规模与谷歌、Meta和亚马逊等美股科技巨头的AI资源开支处于统一量级。