🔔科技频道[奇诺分享-ccino.org]⚡️

从最优传输角度训练奖励模型：让 RLHF 学会「忽略错误偏好」丨ICML 2026 - 雷锋网

作者丨潘黎铖在大语言模型对齐研究中，一个看似自然、却值得重新审视的问题长期存在：一方面，RLHF、RLAIF、GRPO等方法不断推动模型对齐能力演进；另一方面，奖励模型训练阶段却普遍默认一个前提——收集到的偏好标注能够准确反映真实人类偏好。但现实并非如此。无论是人工标注、众包反馈，还是LLM-as…