Parallel-Probe问世，并行推理效率提升35.8%

当大模型推理进入Parallel Thinking时代，一个关键问题随之出现：

模型在并行推理的过程中，究竟发生了什么？多条推理路径同时展开，看似为模型带来了更强的能力，却也引入了一个长期被忽视的问题——大量计算是否正在被浪费在已经「没有必要继续」的思考上？

为了回答这一问题，来自马里兰大学、圣路易斯华盛顿大学、北卡罗来纳大学教堂山分校等机构的研究团队提出了Parallel-Probe。不同于直接从算法设计出发，该研究首先通过引入2D Probing，对 online 并行推理过程中的全局动态性进行了系统性刻画。研究发现，并行推理并非一个「算得越多越好」的过程：全局共识往往在所有分支结束之前就已提前稳定，而少数冗长的长尾路径却持续占据大量计算资源，成为并行推理效率的主要瓶颈。

基于这些关键发现，研究团队进一步提出了一个 training-free 的并行推理控制算法 Parallel-Probe，能够在不牺牲核心准确率的前提下，显著减少无效计算，将推理延迟降低35.8%，总 token 成本降低25.8%。

核心痛点：孤立的

「并行路径」到底带来了什么？

目前的并行推理方法（如多数投票机制）存在一个显著缺陷：各推理分支彼此独立。这意味着，即使大部分分支已经达成了共识，系统仍需等待所有分支（包括那些冗余的长尾路径）全部生成完毕。

研究人员提出，这种「局部视角」导致了严重的效率低下。通过系统2D 探测接口，研究团队揭示了并行推理的三大底层动态特征：

非单调缩放

路径长度不均

共识提早稳定

技术突破：基于全局信号的

「外科手术式」 2D Budget Control

即插即用：Parallel-Probe 是一种模型无关的方法，可直接适配各种现成的开源或闭源大语言模型。

针对上述发现，Parallel-Probe采用了一种 Training-Free 的轻量级控制器，通过两个核心机制优化同时从宽度和深度优化在线并行思考：

基于共识的早期停止（Consensus-based Early Stopping）

基于偏差的分支剪枝（Deviation-based Branch Pruning）

实验结果：刷新帕累托前

研究团队在Qwen3系列模型（0.6B 至 8B）上进行了广泛测试，涵盖了 AIME 2024/2025 和 HMMT 2025 等高难度竞赛题库。

实验结果表明，Parallel-Probe 在性能、成本效率和延迟效率之间建立了更优的平衡点，系统性地优于现有的 ESC 和 SC 等基准方法。

基础设施贡献：SCOUT 测试床

为了推动该领域的持续研究，团队还推出了SCOUT（顺序与并发离线利用测试床）。该平台实现了推理生成与控制策略的解耦，允许开发者在极低开销下模拟各种缩放策略，极大提升了测试效率。

代码及 Online Judge 平台已开源：

本文作者

郑童，马里兰大学计算机科学系二年级博士生，研究方向聚焦于Reasoning尤其是Parallel Thinking（并行思考）。他的研究关注如何打破传统顺序推理在效率与鲁棒性上的瓶颈，使大语言模型能够以更结构化、更高效的方式进行并行推理。代表性工作包括Parallel-R1，该工作首次提出基于强化学习的框架，在真实世界推理任务中自适应地激励并行思考行为；以及MoT（Mixture of Thoughts），系统性地构建多推理模态的并行思考机制，在训练与推理阶段统一整合自然语言、代码与符号推理等不同模态，从而实现更高效、更具表达力的并行推理。