1.Zoom研究团队提出Chain of Draft(CoD)技术框架,重塑大语言模型推理范式,提高效率同时减少计算资源消耗。
2.CoD技术鼓励模型在每一步生成简洁、信息密集的输出,而不是过度强调中间步骤,更接近人类推理方式。
3.实验结果显示,在符号推理任务中,CoD的信息密度达到标准CoT输出的14.7倍,同时显著减少了token的使用和延迟。
4.该研究为金融高频交易、自动驾驶决策等时延敏感型应用提供了可行性验证,标志着LLM从实验室模型向工业引擎的实质性跨越。
以上内容由腾讯混元大模型生成,仅供参考
机器之心报道
随着推理模型 Deepseek R1 的爆火,Zoom 研究团队将认知科学中的思维链注入进 AI 推理领域,开创性地提出 Chain of Draft(CoD)技术框架,重塑大语言模型推理范式。
论文标题:Chain of Draft: Thinking Faster by Writing Less 论文地址:https://arxiv.org/pdf/2502.18600
设计稀疏的推理草稿,仅需 7.6% 的 token 量即可完成等效推理深度,开创了认知启发的模型压缩新路径; 端到端推理延迟压缩与部署成本的降低,推理延迟从 0.9 秒压缩至 0.7 秒,实现「降本增效」的双重突破; 提出了新的大模型重构推理架构,为金融高频交易、自动驾驶决策等时延敏感型应用提供了可行性验证,标志着 LLM 从实验室模型向工业引擎的实质性跨越。
首先基于思路链的结构化提示,构建端到端、简化认知等特征的思维稿; 继而设计思维稿对大模型驱动推理赋能,在 Claude 3.5 Sonnet 上实现算术推理 token 消耗从 189.4 骤降至 14.3(节省 92.4%); 最终通过并行稀疏注意力框架(吞吐量 + 3.8 倍)和动态批处理技术(批次弹性扩展 1-128)完成工业级优化,实测端到端延迟从 3.1 秒压缩至 1.6 秒(降幅 48.4%),为高频金融交易等场景提供亚秒级(<0.5s)高效推理支持。
基准测试实验选取了多个要求多步推理的基准测试,涵盖了数学推理、常识推理和符号推理等领域。 效率验证实验包括 token 消耗评估和推理延迟测试,其中 token 消耗评估包括精确测量 CoD 在各个基准测试任务中所使用的 token 数量,并与 CoT 进行对比;推理延迟测试通过 CoD 在不同任务中的端到端推理延迟,并与 CoT 进行比较。 成本效益实验基于 token 消耗和推理延迟等因素,计算 CoD 和 CoT 的单位推理成本。