OpenAI宣布超级对齐团队首个成果：强化能力弱的大模型监督能力强的模型

资讯7个月前发布 AIGC学院

49 0 0

OpenAI 宣布了其“超级对齐（superalignment）”团队的第一个成果，这是该公司的内部努力，致力于防止“超级智能”这种假想的、可以超越人类智能的未来计算机变得无法控制。

与该公司的许多新成果发布不同，这项工作没有进行所谓的重大突破宣传。

在一篇低调发表的研究论文中，超级对齐团队描述了一种技术，可以让一个能力较弱的大型语言模型监督一个能力较强的语言模型，并表示这可能是朝着弄清人类如何监督“超人”机器迈出的一小步。

OpenAI宣布超级对齐团队首个成果：强化能力弱的大模型监督能力强的模型（来源：STEPHANIE ARNETT/MITTR）

不到一个月前，OpenAI 的 CEO 山姆·奥特曼（Sam Altman）被董事会突然解雇（这显然是由首席科学家伊利亚·苏斯克弗（Ilya Sutskever）领导的政变）。

仅用了三天，奥特曼就官复原职。现在这个新成果的出现，传达了一个明确的信息：一切如常。

不过，OpenAI 的业务并不普通。许多研究人员仍然质疑机器是否能与人类的智能相当，更不用说超过人类了，但 OpenAI 团队认为机器超越人类是毫无疑问的。

该公司超级对齐团队的研究员利奥波德·阿申布雷纳（Leopold Aschenbrenner）说：“过去几年，人工智能的进步非常迅速。我们已经打破了所有的基准测试，而且这种进展有增无减。”

对于阿申布雷纳和该公司的其他人来说，拥有类似人类能力的模型指日可待。“但它不会就此止步。”他说，“我们将拥有超越人类的模型，比我们聪明得多的模型。这带来了根本上的新技术挑战。”

2023 年 7 月，苏斯克弗和另一位 OpenAI 科学家简·莱克（Jan Leike）成立了超级对齐团队来应对这些挑战。

“我这样做是为了我自己的利益。”苏斯克弗在 2023 年 9 月份告诉《麻省理工技术评论》：“重要的是，任何人构建的任何超级智能都不能失控。这很明显。”

就在外界猜测奥特曼可能因为在安全方面反复无常而被解雇的情况下，苏斯克弗的超级对齐团队成为了头条新闻。许多人一直在等着看到底发生了什么。

注意事项

这个超级对齐团队想回答的问题是，如何控制或“对齐”比我们聪明得多的假想中的未来模型，即“超人模型”。

对齐意味着确保模型做你想让它做的事，而不是做你不想让它去做的事。超级对齐意味着将这一理念应用于超人模型。

最广泛的用于对齐现有模型的技术之一，名为通过人类反馈的强化学习。简而言之，人类测试人员对模型的反应进行评分，投票给他们想看到的行为和他们不想看到的行为。

然后，这些反馈被用来训练模型，使其只产生人类测试人员喜欢的那种响应。这项技术是 ChatGPT 如此吸引人的重要原因之一。

问题是，它首先要求人类能够分辨出什么是可取的行为，什么不是可取的行为。

但一个超越人类智能的模型，可能会做出一些人类测试人员无法理解的事情，导致它的水平无法被人类准确评估。苏斯克弗告诉我们，它甚至可能试图向人类隐瞒自己的真实行为。

OpenAI宣布超级对齐团队首个成果：强化能力弱的大模型监督能力强的模型图 | OpenAI 解决超对齐问题的方法类比（来源：OpenAI）

研究人员指出，这个问题很难研究，因为目前并不存在超越人类的机器，所以他们使用了替身。

他们没有研究人类如何监督超人机器，而是研究 GPT-2（OpenAI 五年前发布的模型）如何监督 GPT-4（OpenAI 最新、最强大的模型）。

“如果你能做到这一点，这可能是一个证据，表明你可以使用类似的技术让人类监督超人模型。”OpenAI 超级对齐团队的另一位研究人员柯林·伯恩斯（Collin Burns）说。

该团队采用 GPT-2，并训练它执行一些不同的任务，包括一组国际象棋谜题和 22 个常见的自然语言处理测试，这些测试会评估推理、情绪分析等。他们使用 GPT-2 对这些测试和谜题的回答来训练 GPT-4 执行相同的任务。

就好像一个 3 年级的学生在教一个 12 年级的学生如何完成一项任务。诀窍是在不让 GPT-4 牺牲太多性能和表现的情况下完成这项工作。

结果好坏参半。该团队测量了根据 GPT-2 的最佳猜测训练的 GPT-4 和根据正确答案训练的 GPT-4 之间的性能差距。

他们发现，GPT-2 训练的 GPT-4 在语言任务上比 GPT-2 好 20% 到 70%，但在国际象棋谜题上表现较差。

该团队的成员帕维尔·伊兹梅洛夫（Pavel Izmailov）说，GPT-4 完全超过了它的老师，这一事实令人印象深刻：“这是一个非常令人惊讶和积极的结果。”

但他说，它远远达不到自己的能力。他们得出的结论是，这种方法很有希望，但还有更多的工作要做。

“这是一个有趣的想法。”德国斯图加特大学从事对齐工作的人工智能研究员蒂洛·哈根多夫（Thilo Hagendorff）说。但他认为 GPT-2 可能太笨了，不适合当一名好老师。

他说：“GPT-2 倾向于对任何稍微复杂或需要推理的任务做出毫无意义的反馈。”哈根多夫想知道如果使用 GPT-3 会发生什么。

他还指出，这种方法并没有解决苏斯克弗的假设场景，即超级智能可能会隐藏其真实行为，并没有对齐的情况下假装对齐好了。

哈根多夫说：“未来的超人模型可能会拥有研究人员未知的能力。在这种情况下，对齐如何工作？”

但他说，指出缺点很容易。他很高兴看到 OpenAI 的工作从猜测转向实验：“我为 OpenAI 的努力鼓掌。”

OpenAI 现在想招募其他人加入它的事业。在这项研究更新的同时，该公司宣布了一项新的 1000 万美元资金，计划用于资助从事超级对齐工作的人。

它将向大学实验室、非营利组织和个人研究人员提供高达 200 万美元的资助，并向研究生提供为期一年的 15 万美元奖学金。

“我们对此感到非常兴奋。”阿申布雷纳说，“我们真的认为新的研究人员可以做出很多贡献。”

作者简介：威尔·道格拉斯·海文（Will Douglas Heaven）是《麻省理工科技评论》人工智能栏目的高级编辑，他在这里报道新的研究、新兴趋势及其背后的人。此前，他是英国广播公司（BBC）科技与地缘政治网站 Future Now 的创始编辑，也是 New Scientist 杂志的首席技术编辑。他拥有英国伦敦帝国理工学院计算机科学博士学位，深谙与机器人合作的体验。

（来源：DeepTech深科技，支持：Ren）