雷锋网ICML 2026：从输入输出样例中自动生成程序——强化学习为大模型Programming-By-Example任务提供推理过程监督 Telegraph | 原文 | 🔔科技频道[奇诺分享-ccino.org]⚡️

雷锋网
ICML 2026：从输入输出样例中自动生成程序——强化学习为大模型Programming-By-Example任务提供推理过程监督 Telegraph | 原文

ICML 2026：从输入输出样例中自动生成程序——强化学习为大模型Programming-By-Example任务提供推理过程监督 - 雷锋网

ICML 2026 PRM-PBE方法示意图尽管大语言模型在代码生成和程序推理任务中取得了显著进展，但其在Programming-by-Example（PBE）任务中的表现仍受到明显限制。PBE要求模型仅根据输入输出样例推断潜在程序逻辑，并合成能够满足所有样例的程序。现有LLM方法通常依赖输入到输出的直接映射，或借助Chain-of-Thought、执行反馈、监督微调等方式增强推理能力。然而，这类方法缺乏对中间推理过程的细粒度监督，容易生成只满足部分样例的shortcut程序，或在复杂逻辑归纳场景下偏离真实意图。…

Powered by BroadcastChannel & Sepia