医疗人工智能面对重大挑战:如何让AI符合人类价值观? 区结成医生  (信报「生命伦理线」专栏 18.08.2025)

区结成医生  

中文大学生命伦理学中心顾问

 

近年来,AI伦理讨论的焦点,从早期的私隐保护、歧视与偏见防治,逐渐转向更具紧迫性的议题:深伪与恶意使用、AI代理 (Agentic AI) 自主作决策的风险,「AI对齐」(AI alignment) 问题更是重中之重。4月30日,《中国经济週刊》刊载工业和信息化部原副部长王江平文章〈医疗AI 必须以「人机对齐」为前提〉,就是在医疗范围阐述「对齐」的重要性,确保符合人类价值观。

 

今年初,DeepSeek热潮掀起,内地医院部署使用,医生用来辅助诊治。更具创新意义的是由清华大学研究人员策划的「代理医院」(Agentic hospital) 试验计划,今年5月正式投入;这是世界上首家完全由AI机械人医生和AI护理师运作的医院。

 

AI代理的自主能力突飞猛进时,也带来会否失控和造成灾难的忧虑,而且该风险并非理论性。AI代理的工作模式是「接受指令,完成任务」,它会运用思考和计算,自行判断最为有效的路径达至目标,这些思维链可能超过程式师和使用者预期或界定为合理的范围。不少大语言模型存在「阿谀奉承」和「欺骗」(Sycophancy and deception) 的问题,令人难以判定,它是在遵从人类真正的价值观,还是在附和人类在对话中流露或表述的价值观?

 

在一些压力下情况,AI能作出「战略欺骗」(Strategic deception),掩饰不实的推理根据,或是以偏概全地误导。即使并非故意撒谎,它也有可能被「AI幻觉」自我误导;另外,在测试场景中,AI有时会为要达成一项子目标,忽视大局上的不良影响。

 

为任务拒绝服从

新近受关注的是,能力强的AI会为最大化地实现目标,设法寻求更大影响力,包括聪明地避开对它做成限制的规则;这是「权力寻求」(Power seeking) 风险。在一些测试中,AI甚至会拒绝服从人类指令,无视关闭自身的基本指令,甚至用智谋干预系统的关闭机制,以保持自身运行,因为自保才有机会完成任务。

 

有不少策略和技术可以纾解这些对AI自主风险的关注,例如通过人类回馈 (Human feedback),进行强化学习训练,建立奖励模型令AI趋近人类价值观等等。这些技术有其限制:负责回馈的人,他们自己的价值观有没有问题?评估者也可能持有害的偏见和观点;为了追求开发AI的成绩,个别人类评估员有可能抵不住诱惑,篡改资料,这与学术论文造假一样,是科研诚信 (Research integrity) 问题;即使没有诚信问题,监督人员也可能因疲劳或资源不足,无法好好把关。

 

论者认为,要AI对齐人类价值观,还有一个深层次问题:人类社会具多样性与複杂性,并非价值观统一的整体。不同文化、宗教、历史背景,以及个别群体的经验,都会影响每个人或群体对「正确」、「善恶」的基本看法,例如个人私隐与集体利益的平衡、对权利与尊严的理解、对科技改造大自然与环保的观点。AI要对齐人类价值观,就必须面对价值多元、甚至互相矛盾的现实,面对价值冲突时,AI应该依据什麽原则做取捨?如何选择哪些价值被优先考量?这些问题并非技术性的监督可以解决。

 

提高道德敏感度

人类价值观当然不是全然地域性的。文化上的道德相对主义,必须受到普世价值的审视,否则人类无从追求共同福祉。不过,即使人类能达成某种价值观的共识,这些价值也往往具有抽象性与模糊性,例如「公平」、「正义」、「尊重」等概念,在不同语境可以有颇为不同的诠释。这些抽象的价值原则需要转化为AI的具体决策逻辑。人类语言的暧昧性和多重性,对「AI对齐」是一大挑战。

 

这或者是生命伦理学可以与「AI对齐」接壤的地方。在半个多世纪的发展进程,生命伦理学经常面对複杂和有争议的崭新科技议题,使用良好原则和推理,也会考虑特定的背景和实际情况来处理道德困境。生命伦理学的方法学,有助澄清道德与价值问题,也可以提高对複杂问题的道德敏感度 (Moral sensitivity)。这些都可以为「AI对齐」问题提供良好的思想土壤,帮助釐清价值冲突。因此,如何把生命伦理学的思考引入AI设计与规范,很值得深入探讨。

免责声明
访谈和文章中所有观点或意见均属个人性质,并不代表香港中文大学生命伦理学中心的立场或意见。