数字化 | AI与人类价值观的“对齐困境”：技术之外，我们还能做什么？

社会科学报

2025-03-19 12:00发布于上海上海社科院主办《社会科学报》官方账号

+关注

价值对齐要去对齐的不是解决方案，而是如何在AI与人类日渐模糊的边界中力图平衡的问题空间。

原文：《超越技术尺度审视AI价值对齐》

作者 | 上海交通大学科学史与科学文化研究院博士研究生李洋

图片 | 网络

随着人工智能的爆发式发展，社会各界都认识到在有关AI该怎样发展的问题上，执行不良策略可能将产生无法估量的后果，乃至威胁到人类的生存。对此，众多学者提出了“价值对齐”，以确保AI与人类价值观保持一致。但是，在实现价值对齐的过程中，新的技术问题层出不穷，人类是时候去思考怎样在技术之外审视价值对齐面临的发展困境了。

技术路径面临失效危机

当前价值对齐发展所遇到的障碍，可以分为两个问题：一是决定将AI与哪个目标对齐，这是典型的规范问题；二是从技术上实现上述目标，这属于技术实施问题。

面对第一条路径引发的关于AI价值对齐的本体论争议，一些学者已经提出了一些在论证上看似可行的解决方案。这些方案主要回应了以下几个核心问题：谁有权决定AI系统应遵循的价值观、如何应对社会价值观的多样性，以及如何协调价值对齐中的不同要素。然而，无可否认的是，关于AI系统应满足哪些规范原则的讨论仍处于初级阶段。某些规范原则可能仅适用于特定领域的AI。这意味着，灵活性和适应性是AI价值对齐过程中不可或缺的一部分，它要求在设计和应用AI时，既要考虑到普遍的伦理原则，又要考虑到特定领域的具体需求和挑战。

因为规范伦理学关于人类应该持有什么样的道德观一直处于争论之中，所以选择第二条路径切入价值对齐的研究居多，其主要是根据人类偏好来定义“价值”。目前技术界的共识都指向AI应该根据用户的偏好进行推断和行动，而不是为用户强加一套道德原则。这也恰如斯图尔特·罗素（Stuart Russell）在提出机器与人类价值观不一致的问题时，就指出了“价值”是一个技术术语。但是，使AI与人类偏好保持一致面临反社会偏好、偏好变化以及难以从人类行为推断偏好等困难。究其根本，主要是因为人类的决策行为不能完全简化为偏好或效用函数。因此，技术研究人员还需要探寻更加丰富的人类理性模型，以涵盖人类生成行为动机的所有方式。

技术表征产生价值限度

技术解决方案中重点研究的“偏好”在人类行为和决策中扮演着重要角色，是个体在特定情境下的选择倾向，它们受到个人经历、文化背景和环境因素的影响。偏好可以提供关于个体价值观的线索，但它们并不总是直接等同于深层的道德和伦理价值观，其本身并不是价值对齐的终极目标。在理想的价值对齐条件下，AI必须能够识别出形成这些偏好的潜在价值体系，并确保其行为与这些价值体系保持一致。当个体的偏好不完整或者在不同时间点出现冲突时，AI需要有能力识别这些冲突，并依据一套规范来提供适当的帮助。因此，价值对齐的目标不仅仅是识别和响应个体的偏好，更重要的是帮助AI精确地定位和理解人类价值观、社会规范和个人偏好之间的复杂联系。

值得肯定的是，价值对齐本身绝不只是一个技术问题。事实上，被限定在技术话语中的价值对齐产生的一系列新的技术问题已经彰显了“价值”这一概念在技术领域中被表征时，其“脆弱性”尤为突出。具体而言，AI系统的价值对齐可能因为算法的微小变化而遭受重大影响，甚至完全失效。

基于价值对齐在人机联盟中的核心地位，相较于技术方案的定义，价值对齐更加像是一个随着技术的进步、应用场景的更替、人类认知的转变而不断发展的动态概念。价值对齐要去对齐的不是解决方案，而是如何在AI与人类日渐模糊的边界中力图平衡的问题空间。这也同时预示着，随着技术的不断发展，价值对齐的挑战在不断增加。因此，超越技术限度，从更广阔的视角对价值对齐进行深入研究显得至关重要。

超越技术，思考价值对齐

AI虽然可以通过编程和机器学习技术来模拟和实现人类的规范性过程，但这种依赖于统计相关性的刚性机器语言往往忽略了人类行为背后的真正动机，从而可能导致AI在理解和预测人类行为时缺乏必要的深度和准确性，从而无法完全掌握解决问题的基本原则。因此，识别和理解AI与人类价值观在某些领域的错位，将成为未来价值对齐研究的一个关键焦点。未来的研究可能需要跨越多个学科，包括认知科学、心理学、社会学和伦理学等，以构建一个更加全面和细致的人类行为模型。这样的模型将有助于AI系统更准确地预测和响应人类行为，从而在价值对齐上取得实质性进展。

亟待联合研究的价值对齐也彰显了AI的设计者和使用者之间的价值一致性比AI与人类价值观的价值一致性更重要。为了实现这一点，不仅要为设计者制定明确的规范和准则，还必须对使用者进行AI素养的再教育和培训，确保他们能够以符合伦理道德的方式应用AI系统，从而促进两个群体间的价值一致性。这一过程中，双方应致力于构建一种包容的价值共识，这种共识能够在不同的AI使用场景中，跨越文化和社会形态被广泛接受和共享。通过在认知问题上达成初步的一致，AI的设计者和使用者将为实现更广泛的价值对齐奠定基础，为AI的未来开辟一条更加稳固和负责任的发展路径。

[本文是上海市哲学社会科学规划项目“数智时代的价值对齐研究”（2023BZX001）阶段性研究成果]

文章为社会科学报“思想工坊”融媒体原创出品，原载于社会科学报第1943期第6版，未经允许禁止转载，文中内容仅代表作者观点，不代表本报立场。

本期责编：潘颜

《社会科学报》2025年征订

拓展阅读

免责声明：本内容来自腾讯平台创作者，不代表腾讯新闻或腾讯网的观点和立场。