随着人工智能系统变得更加强大,我们希望获得它们的帮助来监督其他人工智能。我们尝试通过自我改进来训练无害的人工智能助手,而无需任何识别有害输出的人类标签。唯一的人类监督是通过一系列规则或原则提供的,因此我们将该方法称为“宪法人工智能”。该过程涉及监督学习和强化学习阶段。在监督阶段,我们从初始模型中进行采样,然后进行自我批评和修订,然后根据修订后的响应对原始模型进行微调。在 RL 阶段,我们从微调模型中进行采样,使用模型来评估两个样本中哪一个更好,然后从这个 AI 偏好数据集中训练偏好模型。然后,我们使用偏好模型作为奖励信号来进行 RL 训练,即我们使用“来自 AI 反馈的 RL”(RLAIF)。因此,我们能够训练一个无害但非回避的人工智能助手,通过向有害查询解释其反对意见来处理有害查询。SL 和 RL 方法都可以利用思维链式推理来提高人工智能决策的人类判断性能和透明度。这些方法使得更精确地控制人工智能行为成为可能,并且使用更少的人类标签。
数据统计
数据评估
关于Claude AI特别声明
本站好狗导航-电影导航提供的Claude AI都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由好狗导航-电影导航实际控制,在2024年3月7日 上午9:24收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,好狗导航-电影导航不承担任何责任。
相关导航
暂无评论...