2小时达到97%chatgpt？《RRHF: Rank Responses to Align Language Models with Human Feedback without tears 》

阅读量：797 次

发布时间：2023-04-04

本文共 1424 字，大约阅读时间需要 4 分钟。

RRHF: 一个更简单高效的语言模型与人类偏好对齐方法

人工反馈强化学习（RLHF）已成为大规模语言模型与人类偏好对齐的重要工具，显著提升了模型与人类交互的质量。在实际应用中，InstructGPT通过监督微调（SFT）、奖励模型训练和近端策略优化（PPO）实现了RLHF。然而，PPO在超参数调优和模型数量需求上存在较高的敏感性，通常需要至少4个模型的参与，这使得其训练过程较为复杂。针对这一问题，我们提出了一种新的学习范式RRHF（Ranking Response with Human Feedback），旨在通过排名损失函数将模型输出与人类偏好对齐。

RRHF的核心思想

RRHF通过对不同采样策略生成的响应进行评分，并利用排名损失函数将其与人类偏好对齐。与传统的PPO方法相比，RRHF在编码复杂度、模型数量以及超参数调优方面显著降低了难度，同时在性能上与PPO相当。RRHF可以视为SFT训练的扩展，支持通过对数概率评分或人工标注实现对齐。其独特之处在于，不需要额外的价值模型或参考模型，训练过程可以在单个RRHF会话中完成，效率更高。

与PPO的对比与优势

工作流程简化：RRHF通过比较多个响应的奖励评分，而PPO需要额外的价值模型和参考模型进行优化和惩罚计算。这使得RRHF在实现上更加简单，资源消耗更低。

模型数量需求减少：RRHF通常只需1-2个模型即可完成训练，而PPO则需要4个模型的配合。这种差异在大规模模型训练中尤为明显，尤其是在资源有限的情况下。

超参数调优便捷：RRHF的超参数调优更加灵活，且不易过拟合。相比之下，PPO在训练过程中需要复杂的架构设计和参数调整。

性能与PPO相当：通过在Helpful和Harmless数据集上的实验，我们证明了RRHF与PPO在性能上的可比性。这表明RRHF不仅是理论上的改进，更是实用性上的可行替代方案。

实验结果与模型表现

在Alpaca数据集上的实验表明，RRHF能够高效地将模型输出与人类偏好对齐。我们开发了一个名为Wombat的新语言模型，通过对ChatGPT、InstructGPT、LLaMA和Alpaca的响应进行RRHF训练。Wombat在广泛的知识检索、复杂的技术问题解答以及指令遵循方面表现出色。

主要贡献

提出新范式：RRHF为大规模语言模型提供了一种更简单高效的与人类偏好对齐的方法，能够利用各种响应类型进行训练。

扩展SFT训练：作为SFT训练的扩展，RRHF在奖励评分上与传统方法保持一致，同时在模型训练上更加灵活。

降低训练复杂度：相比PPO，RRHF在编码难度、模型数量和超参数调优方面显著降低了门槛，使其更适合大规模部署。

可扩展性强：RRHF的设计使其在资源消耗和应用范围上具有更广泛的潜力，为未来语言模型的研究和实践提供了新的方向。

数据集与工具

我们在Anthropic的Helpful和Harmless数据集上进行了实验，使用Dahoas/gptj-rm-static作为代理奖励模型。实验中主要采用LLaMA和Alpaca作为基础模型，并对其进行了指令优化。Wombat模型的训练仅耗时2小时，使用8块80GB的Nvidia A100 GPU完成。

结论

RRHF通过简化训练流程和降低资源需求，为大规模语言模型的与人类偏好对齐提供了一种更高效的解决方案。其在性能、灵活性和资源消耗方面的优势，使其成为未来语言模型训练的重要选择。

转载地址：http://vjrfk.baihongyu.com/

你可能感兴趣的文章