发布日期:2025-10-23 14:25 点击次数:120
机器之心报说念欧洲杯体育
剪辑:+0,冷猫
经验了前段时候的国步艰难,扎克伯格的投资似乎终于初见收效。
近期,Meta Superintelligence Labs 鸠集建议了一个名为 REFRAG 的高效解码框架,旨在贬责 LLM 在处理长高下文输入时濒临的效用瓶颈,尤其是在 RAG 等应用场景下。
论文标题:REFRAG:Rethinking RAG based Decoding论文地址:https://arxiv.org/abs/2509.01092
为什么长高下文处理如斯辛勤?
在现时的 AI 应用中,期骗 LLM 处理包含宽绰外部学问的长文本输入,是提高问答、对话和智能体应用才能的关节。但是,这一过程也带来了严峻的挑战:在传统 LLM 中,提防力机制的谋划和内存支出会跟着输入长度的平淡(N²)增长。
这意味着文本长度翻一倍,速率可能会慢 4 倍,这会导致权贵的系统延长,并破费宽绰内存用于存储 KV Cache,进而攻讦系统朦拢量。这使得成就者不得不在学问丰富度与系统效用之间作念出可怜的衡量。
Meta 的商讨指出,在 RAG 应用中,LLM 处理的高下文中包含了宽绰从外部学问库检索拼接而成的段落,但其中只须一小部分与用户查询清雅关联。这些不关联的段落导致了谋划资源的挥霍。REFRAG 的中枢想想恰是基于这一不雅察,通过识别并跳过对这些非关联高下文的无效谋划,来优化解码过程。
REFRAG 是奈何贬攻讦题的?
REFRAG 框架通过一个小巧的四步经由,期骗提防力疏淡结构,杀青了权贵的性能提高。它与传统 RAG 的关节各异在于,它幸免了让 LLM 平直处理冗长的原始文本。
压缩:最初,一个轻量级的编码器会读取检索到的文档,将每 16 个 token 压缩成一个浓缩了语义精华的「块向量」。裁减:接下来,主模子不再读取原始的 token,而是平直处理这些块向量。输入序列的长度因此坐窝裁减了 16 倍。加快:由于输入变得极短,提防力机制的谋划支出大幅攻讦,同期动作显存破费大头的 KV cache 也变得更小。这恰是其能杀青惊东说念主速率提高的根底原因。聘请:为了回绝在压缩过程中丢失关节信息,框架引入了一个基于 RL 的政策充任「质检员」,它能智能地挑出信息密度最高、与任务最关联的关节片断,确保它们不被压缩,从而保留中枢信息。
Meta 暗意,该框架的有用性已在包括 RAG、多轮对话和长文档摘要在内的多种长高下文任务中得到考据,取得了打破性的后果:
速率提高: 将首个 token 生成时候(TTFT)加快高达 30.8 倍。在 16k tokens 的场景下,比较 CEPE 等基线递次,杀青了跳跃 16 倍的 TTFT 加快。从性能图表可以看出,文本越长,REFRAG 的上风越光显,其加快效果随高下文限制加多呈指数级提高,而基线递次仅为线性增长。
高下文扩展: 不详将现存 LLM 的有用高下文大小扩展 16 倍,使其能处理更海量的信息。精度不降反升: 在大幅提高速率和扩展高下文的同期,作念到了模子的准确率莫得蚀本。更关节的是,在 GSM8K 基准测试上,REFRAG 不仅能处理 8 倍更长的高下文(80 个 chunk vs 10 个 chunk),运行速率还提高了一倍,最终得益更是险些翻倍,从 6.71 提高到 12.08。
简而言之,REFRAG 让「大高下文 RAG」从祈望酿成了践诺。
天然其效果听起来特殊可以,但批驳区也暗意,它最终的价值仍需要在更庸碌的本体应用场景中进行磨练。
还有东说念主对该商讨中的 RL 政策建议了质疑。
递次
为杀青编码器与解码器的有用对皆,本商讨顺从 Yen et al. (2024) 的责任,选择了一种基于「下一段落展望」任务的抓续预锻练递次。
在锻练中,每个数据点包含共计 s+o=T 个词元(token)。通过这一预锻练过程,模子不详学习奈何期骗块镶嵌(chunk embeddings)来高效膨大卑劣任务。
为了进一步提高模子性能,该递次还引入了通过 RL 杀青的聘请性压缩机制。在完成 CPT 对皆后,模子会经过监督微调 ,以符合具体的卑劣应用场景,举例 RAG 和多轮对话。
抓续预锻练决策
为确保 CPT 阶段的顺利,商讨者建议了一个包含重建任务和课程学习递次的锻练决策。消融商讨标明,该决策关于杀青优异的 CPT 性能至关紧迫。
该任务主要杀青两个主义:
高效压缩:锻练编码器将 k 个词元压缩成一个块镶嵌,同期最猛进程地保留原始信息。空间映射:锻练投影层有用地将编码器输出的块镶嵌映射到解码器的词元空间中,使解码器不详「清爽」并准确重建原始信息。
筹划重建任务的一个特定意图是,荧惑模子在锻练时更多地依赖其高下文记挂(即从输入中赢得信息),而非其固有的参数化记挂(即模子自己仍是学到的学问)。一朝通过此任务初步对皆了编码器与解码器,便会解冻解码器,考究开动 CPT。
聘请性压缩。为了进一步提高谜底展望的准确性,该递次(REFRAG)引入了聘请性词元压缩机制。其中枢想想是,关于高下文中特殊紧迫的信息块,可以不进行压缩,而所以原始姿色保留,从而幸免关节信息丢失。
一个强化学习政策被用来决定哪些块应当被保留。该政策以下一段落展望的困惑度动作负向奖励信号进行指引(即困惑度越低,奖励越高),从而学习识别并保留关节信息。编码器妥协码器都经过微调,以符合这种压缩块与未压缩块夹杂的输入姿色。该政策网罗期骗块镶嵌和掩码技巧来优化块的扩展规章,既保留了解码器的自转头特色,又杀青了压缩位置的生动安排。
更多技巧细节请参看原论文。
#优质图文扶抓谋划#欧洲杯体育
Powered by 开云体育最新网站 开云最新官方网站 - 登录入口 @2013-2022 RSS地图 HTML地图
Copyright Powered by站群系统 © 2013-2024