🔔科技频道[奇诺分享-ccino.org]⚡️
4 小时前
雷锋网
从最优传输角度训练奖励模型:让 RLHF 学会「忽略错误偏好」丨ICML 2026
Telegraph
|
原文
Telegraph
从最优传输角度训练奖励模型:让 RLHF 学会「忽略错误偏好」丨ICML 2026 - 雷锋网
作者丨潘黎铖 在大语言模型对齐研究中,一个看似自然、却值得重新审视的问题长期存在: 一方面,RLHF、RLAIF、GRPO等方法不断推动模型对齐能力演进;另一方面,奖励模型训练阶段却普遍默认一个前提——收集到的偏好标注能够准确反映真实人类偏好。 但现实并非如此。无论是人工标注、众包反馈,还是LLM-as…
Home
Blog
Discuss
Gsearch
Powered by
BroadcastChannel
&
Sepia