首页
闻乐 发自 凹非寺量子位 | 公众号 QbitAI
256K文本预加载提速超50%,还解锁了1M上下文窗口。
美团龙猫LongCat系列新年出招,宣布全新希罕注重力机制LoZA(LongCat ZigZag Attention)
新手艺集中火力,重点解决长文本使命的明确、算力难题。
相比于LongCat系列之前的全注重力MLA机制,LoZA只改了一半的焦点模块。
但模子长文本能力从256K扩展到1M,解码速率还快了不少。
甚至比同类型的Qwen-3模子体现还要好。
接下来看详细计划。
怎样做到 “只算要害部分” ?
全注重力机制的算力瓶颈在于平方级的盘算重漂后O (L?),这导致模子在处置惩罚长文本使命时对显卡要求高,还会泛起推理延迟问题。
LoZA的焦点思绪是专注于处置惩罚主要的内容,不主要的部分少花实力。
作为LongCat系列的焦点手艺升级,LoZA主要是在原来的MLA机制上做刷新。
详细分两步。
首先,给模子里的多头潜在注重力模块MLA做一个全局“筛查”,找出哪些模块可以被刷新。
在原来的MLA架构中,每个MLA模块都是处置惩罚注重力的焦点单位,现在的新计划是给每个模块配一个可学习权重α。
α值越高,说明该模块额全注重力盘算越要害,一旦简化就容易丢性能;α值越低就意味着模块的可替换性强,即便换成更轻量的盘算方法,对整体的明确能力影响也不大。
在训练历程中,团队冻结模子其他参数,只更新α的梯度,通过这种专门的校准训练让模子自主学习α值,然后按α值从小到大排序,找出那些希罕化后不影响性能的MLA模块,也就是后续的优化目的。
随后,将找出的50%低性能模块换成更轻盈的流式希罕注重力SSA
这样就形成了一种交织结构,团队将这种结构称为ZigZag
SSA的盘算重漂后是线性的O (L·S)(S为希罕窗口巨细,牢靠为1024Token),远低于全注重力的O (L?)。
以是这种交织结构让模子既不会由于太过简化而变笨,又能把盘算重漂后降到线性级别,省不少算力。
为了让模子在关注局部细节的基础上不忽略整体逻辑,LoZA还设计了一个1024Token希罕窗口
每个窗口里有1个认真抓整体关联的“全局块”和7个认真盯周围内容的“局部块”,单块巨细为128Token。
这样的刷新也不需要重新训练,在中期训练阶段就能完成,本钱也较量低。
从测试数据来看,LoZA的体现也不错,主要是“更快”的同时“没变笨”
速率上,要是处置惩罚128K上下文,解码速率直接比原来快10倍;
256K上下文,模子预加载(读文本历程)速率快了50%,后续解码阶段天生内容时还能省30%的算力,相当于同样的硬件,现在能同时处置惩罚两倍多的长文本使命。
这也让LongCat-Flash-Exp解锁了1M上下文窗口。
性能上,LoZA也没由于简化而缩水。
处置惩罚回覆问题、写代码这类一样平常使命时,和原版LongCat-Flash持平;处置惩罚长文本使命时,体现反而更好。
好比在MRCR测试里,反超了同样能处置惩罚1M长文本的Qwen-3模子,还更稳固。
接下来,团队还妄想让LoZA支持动态希罕比例
随笔本场景自动多用全注重力包管精度,长文本场景自动增添希罕模块提升效率,甚至适配多模态模子处置惩罚长视频、长图文内容。
好一个新年新气象!
论文地点:https://www.alphaxiv.org/abs/2512.23966
— 完 —
《www.色国产精品》,《Q8X2R7L1T4J5M9B6W3》肥臀熟女-Thepom
“9l视频自拍蝌蚪9l视频”
爆操av
……
01月18日
“脱粪排泄goshopping”国家统计局发布2023年国内数据
↓↓↓
01月18日,【光明时评】中国经济“飞得更高”,18岁免费的黄色网站,亚洲人妻系列,一节黄片,人操人人草
01月18日,【图解】超2万亿元税费“红利”!支持科创和制造业持续向好,一级一级a大片免费手机看,黄片视频。,日日爽日日操,白虎jk女学生被狂c
01月18日,13年来首次!土耳其总统罕见访问伊拉克首都巴格达,在线观看黄Ⅴ免费视频,www.狠狠cao.com,🍁可以买足球的app排行榜前十名,久久精品天天做日日做
01月18日|夜行日游 人游车停 山西开行首趟竞价旅游专列|性爱无码在线视频18|美女极品国产精品裸体喷水免费看|国产看片自拍小网站在线观看|国产精品操操操
01月18日|中方决定对13家美国军工企业及6名高管采取反制措施|人人操人人做人人摸|黄色视频又湿又黄|亚洲黄黄|欧美A一级免费
01月18日|“龙的传人”书画艺术交流展台北开幕 |久久久久精品免费毛片|国产欧美日韩各类在线视频|亚洲中文字幕久久无码精品A|色综合久久天天综合秋霞aV……
01月18日,加拿大政府宣布大幅削减国际留学生招生名额,18禁网站,黄色网站ww,日日操a片,子林41炸裂视频
01月18日,北京市财政局原党组副书记、副局长李玉国接受审查调查,乱伦亚洲图片,自慰喷水在线,欧美黄色网站透女人,亚洲天堂A综合
01月18日|四川成都:35名“熊猫小记者”将展开全球追访之旅|全裸双奶头排名|人妻视频这里只有精品|欧美A级片免费日本|国精品人妻无码一区二区三区野战
01月18日,四川眉山出现奇特辐射雾“云海”景观,黄色视频wwwww,3d动漫同人斗破苍穹美杜莎,97av人人操人人干,国产a欧美a
01月18日,浙江11地市联动解锁运动新玩法 掀起全民健身热潮,午夜欧美禁片在线观看,在线观看A片小网站,午夜少妇性夜影院,977人人色
01月18日,河北省邢台市气象台发布大雾黄色预警信号,久cao在线视频免费播放,高清无码乱伦a,韩国美女被c 到爽的视频,无遮挡污污视频网站
01月18日|不断增强服务群众的本领|馃埐馃崋馃崋|挠脚心|欧美高清免费观看|久久精品亚洲婷婷
01月18日|优化海南自贸港营商环境 海口海关促贸易便利化|国产亚洲精品性爱片|亚洲一区欧美二区|好爽好深好紧好高潮视频|九色网址
01月18日|引客入疆 “疏附好风光”文旅推介走进广州|馃敒馃埐馃敒|在线观看肉片AV网站免费麻豆|老熟妇乱仓一区二区|孕妇videos
宜家 向价格战低头,现在预制菜都这么齐全了吗|湖北对共建“一带一路”国家进出口规模创新高|小婷性开放肉日记高Hnp百度云|久久亚洲高潮太爽了|穼祖英一级|美女内裤被扒白浆喷水被蹂躏潮
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺
香港警方打击诈骗和洗黑钱拘219人 涉逾5亿港元骗款
广州:华南国家植物园落羽杉进入最佳观赏期
中央赠港大熊猫命名比赛反应热烈 海洋公园收逾2万份命名建议
云南镇雄山体滑坡搜救出11人已无生命体征 专家初步研判崩塌过程
台青走进电竞新媒体产业园:电竞让两岸青年更“来电”
陕西佛坪:大熊猫秀“花样滑雪”才艺
培育“一县一特”劳务品牌 湖南益阳推动就业民生双向奔赴
亚洲杯国足0:1不敌卡塔尔 排名小组第三出线待定
中国驻英大使为新增选的“两院”英籍院士举办专场新春招待会
报告:当前中国区域应急救援力量发展呈现五大主要特点
触手黄漫
中文字幕在线观看视频2020
日韩免费視頻
黄图视频在线观看
先锋资源欧美亚洲男人
www.gzqell.com
拔萝卜打朴克
亚欧美激情中文字幕小说
小黄.CC
97久久精品国产精品亚洲

闽公网安备 35010302000113号