博客
关于我
2小时达到97%chatgpt?《RRHF: Rank Responses to Align Language Models with Human Feedback without tears 》
阅读量:797 次
发布时间:2023-04-04

本文共 1424 字,大约阅读时间需要 4 分钟。

RRHF: 一个更简单高效的语言模型与人类偏好对齐方法

人工反馈强化学习(RLHF)已成为大规模语言模型与人类偏好对齐的重要工具,显著提升了模型与人类交互的质量。在实际应用中,InstructGPT通过监督微调(SFT)、奖励模型训练和近端策略优化(PPO)实现了RLHF。然而,PPO在超参数调优和模型数量需求上存在较高的敏感性,通常需要至少4个模型的参与,这使得其训练过程较为复杂。针对这一问题,我们提出了一种新的学习范式RRHF(Ranking Response with Human Feedback),旨在通过排名损失函数将模型输出与人类偏好对齐。

RRHF的核心思想

RRHF通过对不同采样策略生成的响应进行评分,并利用排名损失函数将其与人类偏好对齐。与传统的PPO方法相比,RRHF在编码复杂度、模型数量以及超参数调优方面显著降低了难度,同时在性能上与PPO相当。RRHF可以视为SFT训练的扩展,支持通过对数概率评分或人工标注实现对齐。其独特之处在于,不需要额外的价值模型或参考模型,训练过程可以在单个RRHF会话中完成,效率更高。

与PPO的对比与优势

  • 工作流程简化:RRHF通过比较多个响应的奖励评分,而PPO需要额外的价值模型和参考模型进行优化和惩罚计算。这使得RRHF在实现上更加简单,资源消耗更低。

  • 模型数量需求减少:RRHF通常只需1-2个模型即可完成训练,而PPO则需要4个模型的配合。这种差异在大规模模型训练中尤为明显,尤其是在资源有限的情况下。

  • 超参数调优便捷:RRHF的超参数调优更加灵活,且不易过拟合。相比之下,PPO在训练过程中需要复杂的架构设计和参数调整。

  • 性能与PPO相当:通过在Helpful和Harmless数据集上的实验,我们证明了RRHF与PPO在性能上的可比性。这表明RRHF不仅是理论上的改进,更是实用性上的可行替代方案。

  • 实验结果与模型表现

    在Alpaca数据集上的实验表明,RRHF能够高效地将模型输出与人类偏好对齐。我们开发了一个名为Wombat的新语言模型,通过对ChatGPT、InstructGPT、LLaMA和Alpaca的响应进行RRHF训练。Wombat在广泛的知识检索、复杂的技术问题解答以及指令遵循方面表现出色。

    主要贡献

  • 提出新范式:RRHF为大规模语言模型提供了一种更简单高效的与人类偏好对齐的方法,能够利用各种响应类型进行训练。

  • 扩展SFT训练:作为SFT训练的扩展,RRHF在奖励评分上与传统方法保持一致,同时在模型训练上更加灵活。

  • 降低训练复杂度:相比PPO,RRHF在编码难度、模型数量和超参数调优方面显著降低了门槛,使其更适合大规模部署。

  • 可扩展性强:RRHF的设计使其在资源消耗和应用范围上具有更广泛的潜力,为未来语言模型的研究和实践提供了新的方向。

  • 数据集与工具

    我们在Anthropic的Helpful和Harmless数据集上进行了实验,使用Dahoas/gptj-rm-static作为代理奖励模型。实验中主要采用LLaMA和Alpaca作为基础模型,并对其进行了指令优化。Wombat模型的训练仅耗时2小时,使用8块80GB的Nvidia A100 GPU完成。

    结论

    RRHF通过简化训练流程和降低资源需求,为大规模语言模型的与人类偏好对齐提供了一种更高效的解决方案。其在性能、灵活性和资源消耗方面的优势,使其成为未来语言模型训练的重要选择。

    转载地址:http://vjrfk.baihongyu.com/

    你可能感兴趣的文章
    mysql 主从 lock_mysql 主从同步权限mysql 行锁的实现
    查看>>
    mysql 主从互备份_mysql互为主从实战设置详解及自动化备份(Centos7.2)
    查看>>
    mysql 主键重复则覆盖_数据库主键不能重复
    查看>>
    Mysql 优化 or
    查看>>
    mysql 优化器 key_mysql – 选择*和查询优化器
    查看>>
    MySQL 优化:Explain 执行计划详解
    查看>>
    Mysql 会导致锁表的语法
    查看>>
    mysql 使用sql文件恢复数据库
    查看>>
    mysql 修改默认字符集为utf8
    查看>>
    Mysql 共享锁
    查看>>
    MySQL 内核深度优化
    查看>>
    mysql 内连接、自然连接、外连接的区别
    查看>>
    mysql 写入慢优化
    查看>>
    mysql 分组统计SQL语句
    查看>>
    Mysql 分页
    查看>>
    Mysql 分页语句 Limit原理
    查看>>
    MySQL 创建新用户及授予权限的完整流程
    查看>>
    mysql 创建表,不能包含关键字values 以及 表id自增问题
    查看>>
    mysql 删除日志文件详解
    查看>>
    mysql 判断表字段是否存在,然后修改
    查看>>