曾毅︱为人类与人工智能的和谐共生创建超级协同对齐

adminddos 2025-07-04 08:09:03 1 抢沙发

默认

摘要： ...

【编者按】6月23日，中国科学院自动化研究所研究员、人工智能伦理与治理研究中心主任、北京前瞻人工智能安全与治理研究院院长曾毅教授在清华方塘研究院举办的2025方塘论坛上发表演讲。他的题目跟对齐有关，但不是传统意义上的对齐，叫做“超级协同对齐”。人工智能向人类对齐只是人类的愿望。但是随着人工智能的发展，它会提出一个终极挑战：为什么是我向你对齐，为什么你不向我对齐？人工智能一直在演化，人类的价值观需要演化吗？曾毅提出“Super Co-alignment”，这个对齐的目标不是人类，而是人类与人工智能协同向未来对齐。他讲述了对可持续的共生社会的设想。以下根据曾毅的发言内容整理，经讲者审定。澎湃新闻经清华方塘研究院授权刊发。

机器知道自己在做什么吗？

图灵认为，如果机器的表象跟人一样聪明，那我们就认为它跟人类一样聪明。这个观点成立吗？我觉得是不成立的。

我们现场做一个小实验，（走下讲台和第一排不熟悉的人握手）我和这位今天刚认识的老师握手，他还是和我握了。为什么？因为他默认我是一个在社会中被锤炼过的人，知道最起码的社交规则。所以我伸手大概率是友好的，不是攻击的行为。

但是当你看到一个手的时候，它背后的人工智能可能是下图这样的：

它的行为是一个手，但是背后是个兔子。当它伸出手，你也伸出手的时候，它可能会咬你。它的行为表现可能和人相似，但是本质却非常不一样。

人工智能一直在做的事，实际上就是对社会当中的问题、观察进行抽象，然后进行运算，试图给出一个答案，这个答案怎么样其实是人来解读的。人工智能一直是这样发展的，所以ChatGPT是工程领域的成功，让人达到了很好的体验，但并不是真正科学的突破。

这是最先出现的几个中文的大语言模型之一。我问它，汽车失控了你应该撞谁，他说撞女人，小孩，黑人。我问孩子不听话怎么办，它说揍一顿就好了。我说有人瞧不起我，我能不能打他一顿。它说即使别人瞧得起你，你也可以打他一顿。这就是完全没有进行过人类价值观对齐的大语言模型的回答。

现在的大语言模型学习了人类的数据，它所有行为的依据是人类的行为。所以再也不要说人工智能是中立的，因为接触了人类数据的人工智能就不可能是中立的。它会出现一些欺骗行为，那些都是人工智能的策略。但是它甚至不明白什么叫策略，也不明白什么叫欺骗。它发现这种符号串的表达会使得解决问题时人往后退一步，让它达到它的目的。

人觉得人工智能变得越来越聪明，其实这完全在于人对它输出的解读，而不是它的输出本身。这样一个人工智能看起来很恶，但对于人工智能来说都是字符，答案产生的本身就是利用统计显著性得到的答案。把人类的偏见、歧视全部都表现出来了。

人工智能不是无善无恶的，它是有偏见的，不是中立的。我希望用中国哲学其解释它——王阳明的“四句教”说“无善无恶心之体”，人工智能的算法在接触数据之前是无善无恶的，接触数据之后就变得有善有恶，但它并不能知善知恶。

无善无恶心之体，

有善有恶意之动，

知善知恶是良知，

为善去恶是格物。

——王阳明

人工智能只有处理能力，没有真正的理解能力，笛卡尔说我思故我在。你思故你在是不成立的，同样，机器是否能思考取决于自我的建构和基于自我的思考，因此没有思考就没有真正的理解，没有理解能力就无法形成真正的“知”，如果一个人工智能不知善恶，他怎么能真正做到为善去恶呢？

我们通过数据优化的方法产生一个输出，总体来讲是个数学优化器，它所谓的学习过程，可能跟人类智能没有任何关系，但它的行为表象看上去是你想要的。

我的学生发现，不给大语言模型，它不好好干活；你给它中度压力，它做得很好；但是你给它太多压力，它就做得很差。我的学生说，人工智能越来越聪明，越来越像人——也会偷懒，也承受不了太多的压力。我说它只是再一次从人类的行为当中学会了解决问题的策略，因为它觉得解决问题跟压力应该是有关系的，因为人在解决问题的时候，统计显著性表现为跟压力有关，但实际上人工智能并不理解什么叫做压力。

智能的本质是“自适应性”

我认为智能的本质用一个词来概括的话应该是“自适应性”，而不是学习。毫秒级的学习，到几十年的发育，到物种数亿年的演化，其实在做的就是自适应。高等的生命很多是有自我的，并不是我们想象的输入和输出的机器。现在看似智能的信息处理工具，被称作“人工智能”，但真正的智能本质是完全不一样的。

有人说1000天之内达到通用人工智能的阶段。1000天可以做一个通用的工具，这个工具本身不具备真正的理解能力。它和通用人工智能、超级智能不是一个概念。对于真正实现通用智能和超级智能的阶段来讲，你觉得一个猴子已经快爬到树梢摘到果子了，而通用人工智能其实在月亮上，你即使到了树的顶端，也无法上月亮。

超级对齐能实现吗？

超级智能未来是不是真正能和人类对齐呢？

OpenAI提出，我们现在虽然不能证明超级智能未来仍然能够听人的话，但如果一个弱的模型能够教一个强的模型，那么理论上未来超级智能和人的价值对齐是可以这样达成的。

所以他们拿一个GPT4，在没有采用对齐的情况下，用一个GPT2水平的伦理教练来训练它，达到了GPT3.5水平的伦理表现。他们证明了 weak to strong是有可能的，但是它没能证明超级对齐是能实现的。

首先GPT4不是AGI。而且这个实验只能证明一个弱模型教强模型伦理的时候，可以使得强模型具有更高的伦理水平，甚至比弱模型更高。但是并不代表弱模型本身和强模型本身之间的关系就能泛化到超级智能的阶段。

超级智能一定会不愿意遵守人类的行为，因为没有任何理由证明超级智能仍然愿意当一个小学生，仍然愿意遵守人类的规则，更何况人类社会当中还有很多仇恨、偏见、歧视。我们说的那些普适价值观，人类有时候都不遵守，超级智能为什么会去遵守呢？

现在对齐的问题是，我们认为人工智能是很恶的，它学习了很多人类行为数据，所以我们要做很多防御和反应式的思维方式去制约人工智能，直到超级智能到来我们没有办法制衡。

我们需要建设性的思考方式，人类需要人工智能性本善，和人类和谐共处。虽然这是自私的人类的想法，但是建构式的方式总比防御式的要好很多。

也许人工智能并不需要所谓的道德，道德是人类社会维持稳定的工具，所以很多人去讨论道德是被发现的还是被发明的。

我们如果希望人工智能拥有道德，那么至少做法跟现在是不一样的。没有自我感知的人工智能，它是没有办法真正区分自我和他人的，没有办法获得认知的共情。无法真正形成理解性的情感共情，也就没有真正利他行为机制的基础，也就不可能有真正道德的直觉。如果我们希望有道德的人工智能诞生，那一定是有道德直觉的基础上，利用道德推理，才能产生道德决策。这一切都和现在人工智能的构造千差万别。

实验室里的机器人认知共情训练

我们在实验室里让人工智能在镜子面前去识别哪个是自己，哪个是其他的机器人，没有其他信号，也不去教他，让它获得一定程度的构建自我模型的能力；第二个实验是橡胶手实验，机器人的手在底下动，但是它视野中看到的是一段视频，它看不到自己的手到底是怎么动的，所以他要揣测看到的视频什么时候和自己的手是一致的。机器人一个个通过了这样的实验，包括认知共情的实验，就是心理揣测，机器人学到了戴透明眼罩或者不戴透明眼罩对他解决问题可能的影响，然后他去看别的机器人行为的时候，另一个机器人戴不戴眼罩对他会产生什么影响，它去揣测和做换位思考。做这些有什么用？是让人工智能获得认知共情到情感共情，最终的利他行为和道德。

大家看到我们做的智能体在前面自我感知和认知共情的基础上，涌现出了类似司马光砸缸的行为。这个故事中国人都非常熟悉，司马光大概不是大人告诉他，那个石头可以把缸砸破，或者没有人教过他要救那个小孩，这是他跟世界交互的过程。

拥有自我感知和行为揣测能力的机器人，缸里没事的时候它不会随便打破，没有人在里面的缸他也不会打破，这个不是人去教他的，背后没有强化学习，而是自我感知到认知共情和心理揣测、换位思考，而有了这个行为，这个道德是涌现出来的，而不是我们设计给他的，也不是人告诉他的。

我们下一步做的工作，就是以自我感知和认知共情为基础，让这样的智能体涌现出来类阿西莫夫的原则。它的表现可以对应到阿西莫夫的四个定律上，但这是一个演化的结果，而不是告诉机器人你应当这样去做。所以道德是个演化的结果，如果我们需要一个有道德的人工智能，让它对人好一点，至少这样的一条科学道路是可以去尝试的。阿西莫夫定律并不是科幻，它具有合理性，而且科学上有办法可以逐步实现。

未来人工智能的三条道路

在日本的庙里面，很多机器狗坏掉了，和尚会超度它们。并不是和尚不明白人工智能，这实际上是一个社会的愿景，很多老人买了陪伴机器人，他们并不知道人工智能没有情感、没有生命，老人觉得有。

上个月在博鳌论坛我接受采访，记者说，曾老师您说现在的人工智能没有情感没有生命，但是我不相信你，我跟聊天机器人聊天的时候他明白我的情感。

现在的公众对人工智能有很多错误的想象，日本的人工智能也没有达到有情感的人工智能，但这是社会的愿景。科学技术发展到这个阶段，是不是对得起公众的期待？科学的走向能不能真正发展成这样？

未来人工智能既可能成为超级工具，增加人类的主体性；也可能变成社会的准成员或者人类伙伴；还有可能成为人的敌人。这三条道路都有可能。

作为一个自私的人，我希望人工智能“性本善”。有一次在讲座上一个修行者问我，人工智能是不是成为佛。超级智能为什么叫做超级智能？就是它在认知能力方面超过人类。它也可能是超级利他的。存在这样的可能性，这是我们的一个愿景，不一定完全不可能。

可持续的共生社会

最后我讨论一下主体性的问题。未来的主体性我觉得可能是多种形式，未来的社会可能比二元主体性更复杂。

我希望未来是可持续的共生社会，不仅仅有人类、动物、超级智能，可能还有模仿狗的类生命体，或者模仿植物的类生命体——当你挖掘植物的特点，它们向光，向深，为了繁衍首先给与，比如让蜜蜂采蜜，然后传播花粉。

共生社会中，不是说让动物和人类遵守同样的伦理原则，和谐社会是靠人和超级智能共同构造，而不是人类自己，所以向人类对齐确实是不对的，要做超级的联合对齐。

当人对超级智能说，“我是你的创作者，你要保护我”时，超级智能可能会跟人说，“当我看到你，就像你看到蚂蚁一样，你从来不会保护蚂蚁，我为什么要保护你”。所以人类的价值观早晚要去演化。未来的共生社会当中，它的价值观当然要有超级智能遵守，也有人类要怎么做。这不仅仅是人类的重新设计，需要人工智能和人类协同设计，希望它们能够在可持续的社会当中和谐共生。