🔔科技频道[奇诺分享-ccino.org]⚡️
4 小时前
雷锋网
ICML 2026:从输入输出样例中自动生成程序——强化学习为大模型Programming-By-Example任务提供推理过程监督
Telegraph
|
原文
Telegraph
ICML 2026:从输入输出样例中自动生成程序——强化学习为大模型Programming-By-Example任务提供推理过程监督 - 雷锋网
ICML 2026 PRM-PBE方法示意图 尽管大语言模型在代码生成和程序推理任务中取得了显著进展,但其在Programming-by-Example(PBE)任务中的表现仍受到明显限制。PBE要求模型仅根据输入输出样例推断潜在程序逻辑,并合成能够满足所有样例的程序。现有LLM方法通常依赖输入到输出的直接映射,或借助Chain-of-Thought、执行反馈、监督微调等方式增强推理能力。然而,这类方法缺乏对中间推理过程的细粒度监督,容易生成只满足部分样例的shortcut程序,或在复杂逻辑归纳场景下偏离真实意图。…
Home
Blog
Discuss
Gsearch
Powered by
BroadcastChannel
&
Sepia