论文研究 1天前 更新于 1天前 53

CosmicFish-HRM: 基于层级递归机制的紧凑型语言模型自适应推理

CosmicFish-HRM 提出了一种紧凑型语言模型,通过其分层推理模块根据输入复杂度动态分配推理计算,挑战了“扩展参数是增强大语言模型推理能力唯一途径”的主流假设。

65
热度
85
质量
80
影响力

深度分析

大语言模型的扩展方法论始终如一:更多参数、更多数据、更多计算、更佳推理。CosmicFish-HRM 并未全盘否定这一路径,但它提出了一个值得更多关注的问题:如果模型能自主决定思考深度会怎样?

这项工作的核心——分层推理模块——借鉴了认知科学理论,其方式比常见的“受大脑启发”这类模糊说法更具实质性。该模型在高层战略推理与低层战术处理间循环迭代,并关键性地学习了停止判据。这是一个具有实质意义的架构选择,而非噱头。当今大多数 Transformer 模型对每个 token 应用相同的计算图,无论是预测“猫坐在___”的下一个词,还是解答多步数学证明。这种处理方式存在浪费,且随着模型规模扩大,这种浪费愈发显得不合理。

该论文的核心假设——分层推理模块的开销在规模上会被有利地摊销——是区分真正研究探索与渐进工程的关键。目前在紧凑模型规模下,添加推理基础设施意味着要将相当比例的参数预算用于元推理而非原始知识存储,这确实是实际成本。但作者合理地指出,分层推理模块核心的规模相对于 Transformer 主干呈次线性增长。若此结论成立,那么在 700 亿或 4000 亿参数规模下,模型将能成比例地对复杂问题投入更多思考,而无需承担扩展思维链提示或测试时计算扩展所带来的全面成本。

特别值得注意的是论文展示的行为数据:模型学会了非均匀推理分配——对困难输入分配更多步骤,对简单输入分配更少步骤。这并非简单功能。模型必须建立任务难度的内部校准机制,这本身是一种当前大语言模型普遍缺失的元认知能力。现今的模型在计算层面对问题难度“浑然不觉”,无论问题难易都机械地运行相同的 Transformer 层。CosmicFish-HRM 的方法

免责声明:以上内容由 AI 生成,仅供参考。

大模型 推理 微调