金天★ღ◈ღ,麻省理工学院(MIT)计算机科学与人工智能实验室(CSAIL)博士五年级学生★ღ◈ღ,师从 Michael Carbin 和 Jonathan Ragan-Kelley★ღ◈ღ。他主要研究机器学习与编程系统的结合★ღ◈ღ。此前曾在 IBM Research 主导实现深度神经网络在 IBM 主机上的推理部署★ღ◈ღ。本科毕业于 Haverford College★ღ◈ღ,获计算机科学与数学双学位★ღ◈ღ。
鄭鈺熹★ღ◈ღ,麻省理工学院 CSAIL 博士三年级学生★ღ◈ღ,师从 Michael Carbin★ღ◈ღ。她的研究方向为编程语言与机器学习的交叉领域★ღ◈ღ。
大语言模型(LLM)的生成范式正在从传统的「单人书写」向「分身协作」转变中信银行透支卡★ღ◈ღ。传统自回归解码按顺序生成内容★ღ◈ღ,而新兴的异步生成范式通过识别语义独立的内容块★ღ◈ღ,实现并行生成★ღ◈ღ。
如图所示★ღ◈ღ,传统方法(下)按顺序生成所有内容★ღ◈ღ,而异步生成(上)同时处理多个互不依赖的内容块★ღ◈ღ。对比顺序生成★ღ◈ღ,异步生成在 AlpacaEval 长度控制评测中实现1.21-1.93× 的几何平均提速★ღ◈ღ,对应生成质量变化(胜率)为 +2.2% 至 -7.1%★ღ◈ღ。
研究团队不依赖人工设计规则来识别异步生成机会★ღ◈ღ,而通过策略学习让模型自主发现并标注这些机会★ღ◈ღ,系统地优化质量与速度的平衡★ღ◈ღ。这种方法使 LLM 根据内容特点自适应地确定最佳异步生成策略★ღ◈ღ,为生成效率优化开创学习驱动的全新路径★ღ◈ღ。
研究人员首先开发了一种新的标记语言 PASTA-LANG★ღ◈ღ,专为异步生成而设计★ღ◈ღ。大模型使用它在生成过程中标记语义独立块★ღ◈ღ,指示并行生成机会★ღ◈ღ。这种语言包含三种核心标记★ღ◈ღ:
★ღ◈ღ:标记语义独立的内容块★ღ◈ღ,通过 topic 属性总结内容主题★ღ◈ღ,大模型用它表明「这部分将会由一个独立子线程异步生成」中信银行透支卡★ღ◈ღ。★ღ◈ღ:在后标识对应的异步生成的内容★ღ◈ღ,表示这一部分由独立子线程负责生成★ღ◈ღ。★ღ◈ღ:在主线程标记同步点★ღ◈ღ,表明后续内容生成将会依赖于之前的异步生成★ღ◈ღ,主线程需等待所有异步线程完成后才能继续★ღ◈ღ。
如图所示的线段长度计算案例展示了这一机制★ღ◈ღ:面对计算任务(A)k8凯发·(中国区)天生赢家一触即发★ღ◈ღ,大模型首先识别出「坐标提取」和「长度公式」两个可并行的独立部分★ღ◈ღ,生成相应的
标记(E)表明需要等待这些内容完成★ღ◈ღ。图中红色和绿色区域(C★ღ◈ღ、D)显示了两个异步线程并行生成的内容★ღ◈ღ,最终在(F)处组合成完整解答★ღ◈ღ。
如图所示k8凯发·(中国区)天生赢家一触即发k8凯发·(中国区)天生赢家一触即发★ღ◈ღ,PASTA 系统采用双阶段训练流程★ღ◈ღ,使大模型自主学习使用上述标记语言★ღ◈ღ,完成异步生成★ღ◈ღ。
第二阶段★ღ◈ღ:偏好优化★ღ◈ღ。为优化标注策略★ღ◈ღ,团队设计了策略学习方案★ღ◈ღ。团队对每个样本从 PASTA-SFT 模型采样多种标注方案★ღ◈ღ,然后基于两项指标评估这些方案★ღ◈ღ:理论加速比和内容质量(由 Gemini 1.5 Pro 评估)★ღ◈ღ。根据评估结果★ღ◈ღ,团队构建「拒绝采样数据集」★ღ◈ღ,该数据集包含每个输入的最佳和最差标注方案★ღ◈ღ。最后★ღ◈ღ,团队用 BoNBoN 算法对 PASTA-SFT 模型进行偏好优化★ღ◈ღ,得到最终的 PASTA 模型★ღ◈ღ。
推理系统设计难点★ღ◈ღ。异步并行生成的主要挑战在于如何协调多个线程高效协作★ღ◈ღ。传统方法通常需要为每个线程创建独立的 KV 缓存池——创建新线程时必须复制主线程的前缀内容到子线程缓存池★ღ◈ღ,完成后再复制结果回主线程★ღ◈ღ。这两次大规模矩阵复制操作严重限制了系统性能★ღ◈ღ,使理论加速难以转化为实际收益★ღ◈ღ。
KV 缓存的存储布局中信银行透支卡★ღ◈ღ。PASTA 设计了交错式 KV 缓存布局★ღ◈ღ,所有线程共享单一连续内存池★ღ◈ღ。系统初始以连续方式存储用户输入★ღ◈ღ,在推理过程中动态将不同线程在同一时间点生成的 token 交错存储在相邻位置★ღ◈ღ。
注意力控制与位置编码★ღ◈ღ。PASTA 通过两个机制确保大模型正确理解多线程交错存储的 KV 缓存★ღ◈ღ:
注意力掩码控制★ღ◈ღ:限制子线程只能访问与自己相关的内容中信银行透支卡★ღ◈ღ,在后通过移除掩码使主线程能访问所有子线程生成的内容★ღ◈ღ。位置编码调整★ღ◈ღ:每个线程都使用独立且连续的位置编码中信银行透支卡k8凯发·(中国区)天生赢家一触即发★ღ◈ღ,使线程处理自己的内容时★ღ◈ღ,将交错存储的内容视为逻辑上连续的序列★ღ◈ღ,确保模型能正确理解上下文★ღ◈ღ。
PASTA 在性能与质量的平衡上取得了突破性成果★ღ◈ღ,实验结果表明它不仅实现了显著加速★ღ◈ღ,还在某些情况下提高了输出质量★ღ◈ღ。研究团队在 AlpacaEval 基准上进行了全面评估★ღ◈ღ,该基准包含 805 个具有代表性的指令跟随任务★ღ◈ღ。
质量-速度平衡的 Pareto 前沿★ღ◈ღ。如图所示★ღ◈ღ,PASTA 通过调节质量权重参数生成了一系列的模型★ღ◈ღ。在不同的生成质量的情况下★ღ◈ღ,PASTA 均能提供非常可观的加速★ღ◈ღ。结果显示k8凯发·(中国区)天生赢家一触即发★ღ◈ღ,即使最注重质量的 PASTA 模型也能提供显著加速★ღ◈ღ,而最快的模型则以一定的质量牺牲换取接近 2 倍的速度提升★ღ◈ღ。与基于手动设计的异步生成方案(Skeleton-of-Thought, APAR)相比★ღ◈ღ,PASTA 模型展现出全面优势★ღ◈ღ。
可扩展性★ღ◈ღ。研究结果展示了 PASTA 方法出色的可扩展性★ღ◈ღ,如图所示★ღ◈ღ。随着偏好优化不断推进★ღ◈ღ,PASTA 模型的性能持续提升★ღ◈ღ。图中清晰展示了从第一轮开始到第一轮结束★ღ◈ღ,再到第二轮开始和第二轮后半程的整个优化过程★ღ◈ღ,质量-速度的 Pareto 前沿大体持续向右上方推进★ღ◈ღ。
这种稳定的改进趋势表明★ღ◈ღ,PASTA 方法具有良好的可扩展性——随着投入更多计算资源★ღ◈ღ,仍未饱和k8凯发·(中国区)天生赢家一触即发★ღ◈ღ。与传统依赖固定规则的异步解码方法不同k8凯发·(中国区)天生赢家一触即发★ღ◈ღ,PASTA 通过策略学习驱动的训练算法提供了可持续的优化路径★ღ◈ღ,能够有效地将额外计算资源转化为更高的推理效率★ღ◈ღ。
PASTA 首次证明中信银行透支卡★ღ◈ღ,通过策略学习让 LLM 自主优化生成策略★ღ◈ღ,能够突破传统自回归和基于规则的异步生成的效率极限k8凯发·(中国区)天生赢家一触即发★ღ◈ღ。这一工作不仅为实时大模型应用提供了实用加速方案★ღ◈ღ,更印证了未来 LLM 可能具备推理时自我优化能力的发展方向★ღ◈ღ。凯发天生赢家一触即发★ღ◈ღ,凯发k8·[中国]官方网站★ღ◈ღ,金钱草★ღ◈ღ, 凯发k8一触即发★ღ◈ღ,