医疗人工智能面对重大挑战：如何让AI符合人类价值观？区结成医生 (信报「生命伦理线」专栏 18.08.2025)

区结成医生

中文大学生命伦理学中心顾问

近年来，AI伦理讨论的焦点，从早期的私隐保护、歧视与偏见防治，逐渐转向更具紧迫性的议题：深伪与恶意使用、AI代理 (Agentic AI) 自主作决策的风险，「AI对齐」(AI alignment) 问题更是重中之重。4月30日，《中国经济週刊》刊载工业和信息化部原副部长王江平文章〈医疗AI 必须以「人机对齐」为前提〉，就是在医疗范围阐述「对齐」的重要性，确保符合人类价值观。

今年初，DeepSeek热潮掀起，内地医院部署使用，医生用来辅助诊治。更具创新意义的是由清华大学研究人员策划的「代理医院」(Agentic hospital) 试验计划，今年5月正式投入；这是世界上首家完全由AI机械人医生和AI护理师运作的医院。

AI代理的自主能力突飞猛进时，也带来会否失控和造成灾难的忧虑，而且该风险并非理论性。AI代理的工作模式是「接受指令，完成任务」，它会运用思考和计算，自行判断最为有效的路径达至目标，这些思维链可能超过程式师和使用者预期或界定为合理的范围。不少大语言模型存在「阿谀奉承」和「欺骗」(Sycophancy and deception) 的问题，令人难以判定，它是在遵从人类真正的价值观，还是在附和人类在对话中流露或表述的价值观？

在一些压力下情况，AI能作出「战略欺骗」(Strategic deception)，掩饰不实的推理根据，或是以偏概全地误导。即使并非故意撒谎，它也有可能被「AI幻觉」自我误导；另外，在测试场景中，AI有时会为要达成一项子目标，忽视大局上的不良影响。

为任务拒绝服从

新近受关注的是，能力强的AI会为最大化地实现目标，设法寻求更大影响力，包括聪明地避开对它做成限制的规则；这是「权力寻求」(Power seeking) 风险。在一些测试中，AI甚至会拒绝服从人类指令，无视关闭自身的基本指令，甚至用智谋干预系统的关闭机制，以保持自身运行，因为自保才有机会完成任务。

有不少策略和技术可以纾解这些对AI自主风险的关注，例如通过人类回馈 (Human feedback)，进行强化学习训练，建立奖励模型令AI趋近人类价值观等等。这些技术有其限制：负责回馈的人，他们自己的价值观有没有问题？评估者也可能持有害的偏见和观点；为了追求开发AI的成绩，个别人类评估员有可能抵不住诱惑，篡改资料，这与学术论文造假一样，是科研诚信 (Research integrity) 问题;即使没有诚信问题，监督人员也可能因疲劳或资源不足，无法好好把关。

论者认为，要AI对齐人类价值观，还有一个深层次问题：人类社会具多样性与複杂性，并非价值观统一的整体。不同文化、宗教、历史背景，以及个别群体的经验，都会影响每个人或群体对「正确」、「善恶」的基本看法，例如个人私隐与集体利益的平衡、对权利与尊严的理解、对科技改造大自然与环保的观点。AI要对齐人类价值观，就必须面对价值多元、甚至互相矛盾的现实，面对价值冲突时，AI应该依据什麽原则做取捨？如何选择哪些价值被优先考量？这些问题并非技术性的监督可以解决。

提高道德敏感度

人类价值观当然不是全然地域性的。文化上的道德相对主义，必须受到普世价值的审视，否则人类无从追求共同福祉。不过，即使人类能达成某种价值观的共识，这些价值也往往具有抽象性与模糊性，例如「公平」、「正义」、「尊重」等概念，在不同语境可以有颇为不同的诠释。这些抽象的价值原则需要转化为AI的具体决策逻辑。人类语言的暧昧性和多重性，对「AI对齐」是一大挑战。

这或者是生命伦理学可以与「AI对齐」接壤的地方。在半个多世纪的发展进程，生命伦理学经常面对複杂和有争议的崭新科技议题，使用良好原则和推理，也会考虑特定的背景和实际情况来处理道德困境。生命伦理学的方法学，有助澄清道德与价值问题，也可以提高对複杂问题的道德敏感度 (Moral sensitivity)。这些都可以为「AI对齐」问题提供良好的思想土壤，帮助釐清价值冲突。因此，如何把生命伦理学的思考引入AI设计与规范，很值得深入探讨。

按此下载PDF版本

按此下载图像

免责声明
访谈和文章中所有观点或意见均属个人性质，并不代表香港中文大学生命伦理学中心的立场或意见。

医疗人工智能面对重大挑战：如何让AI符合人类价值观？ 区结成医生 (信报「生命伦理线」专栏 18.08.2025)

按此下载PDF版本​

按此下载图像

登记电邮

医疗人工智能面对重大挑战：如何让AI符合人类价值观？区结成医生 (信报「生命伦理线」专栏 18.08.2025)

按此下载PDF版本