本文共 1424 字,大约阅读时间需要 4 分钟。
人工反馈强化学习(RLHF)已成为大规模语言模型与人类偏好对齐的重要工具,显著提升了模型与人类交互的质量。在实际应用中,InstructGPT通过监督微调(SFT)、奖励模型训练和近端策略优化(PPO)实现了RLHF。然而,PPO在超参数调优和模型数量需求上存在较高的敏感性,通常需要至少4个模型的参与,这使得其训练过程较为复杂。针对这一问题,我们提出了一种新的学习范式RRHF(Ranking Response with Human Feedback),旨在通过排名损失函数将模型输出与人类偏好对齐。
RRHF通过对不同采样策略生成的响应进行评分,并利用排名损失函数将其与人类偏好对齐。与传统的PPO方法相比,RRHF在编码复杂度、模型数量以及超参数调优方面显著降低了难度,同时在性能上与PPO相当。RRHF可以视为SFT训练的扩展,支持通过对数概率评分或人工标注实现对齐。其独特之处在于,不需要额外的价值模型或参考模型,训练过程可以在单个RRHF会话中完成,效率更高。
工作流程简化:RRHF通过比较多个响应的奖励评分,而PPO需要额外的价值模型和参考模型进行优化和惩罚计算。这使得RRHF在实现上更加简单,资源消耗更低。
模型数量需求减少:RRHF通常只需1-2个模型即可完成训练,而PPO则需要4个模型的配合。这种差异在大规模模型训练中尤为明显,尤其是在资源有限的情况下。
超参数调优便捷:RRHF的超参数调优更加灵活,且不易过拟合。相比之下,PPO在训练过程中需要复杂的架构设计和参数调整。
性能与PPO相当:通过在Helpful和Harmless数据集上的实验,我们证明了RRHF与PPO在性能上的可比性。这表明RRHF不仅是理论上的改进,更是实用性上的可行替代方案。
在Alpaca数据集上的实验表明,RRHF能够高效地将模型输出与人类偏好对齐。我们开发了一个名为Wombat的新语言模型,通过对ChatGPT、InstructGPT、LLaMA和Alpaca的响应进行RRHF训练。Wombat在广泛的知识检索、复杂的技术问题解答以及指令遵循方面表现出色。
提出新范式:RRHF为大规模语言模型提供了一种更简单高效的与人类偏好对齐的方法,能够利用各种响应类型进行训练。
扩展SFT训练:作为SFT训练的扩展,RRHF在奖励评分上与传统方法保持一致,同时在模型训练上更加灵活。
降低训练复杂度:相比PPO,RRHF在编码难度、模型数量和超参数调优方面显著降低了门槛,使其更适合大规模部署。
可扩展性强:RRHF的设计使其在资源消耗和应用范围上具有更广泛的潜力,为未来语言模型的研究和实践提供了新的方向。
我们在Anthropic的Helpful和Harmless数据集上进行了实验,使用Dahoas/gptj-rm-static作为代理奖励模型。实验中主要采用LLaMA和Alpaca作为基础模型,并对其进行了指令优化。Wombat模型的训练仅耗时2小时,使用8块80GB的Nvidia A100 GPU完成。
RRHF通过简化训练流程和降低资源需求,为大规模语言模型的与人类偏好对齐提供了一种更高效的解决方案。其在性能、灵活性和资源消耗方面的优势,使其成为未来语言模型训练的重要选择。
转载地址:http://vjrfk.baihongyu.com/