醫療人工智能面對重大挑戰:如何讓AI符合人類價值觀? 區結成醫生  (信報「生命倫理線」專欄 18.08.2025)

區結成醫生  

中文大學生命倫理學中心顧問

 

近年來,AI倫理討論的焦點,從早期的私隱保護、歧視與偏見防治,逐漸轉向更具緊迫性的議題:深偽與惡意使用、AI代理 (Agentic AI) 自主作決策的風險,「AI對齊」(AI alignment) 問題更是重中之重。4月30日,《中國經濟週刊》刊載工業和信息化部原副部長王江平文章〈醫療AI 必須以「人機對齊」為前提〉,就是在醫療範圍闡述「對齊」的重要性,確保符合人類價值觀。

 

今年初,DeepSeek熱潮掀起,內地醫院部署使用,醫生用來輔助診治。更具創新意義的是由清華大學研究人員策劃的「代理醫院」(Agentic hospital) 試驗計劃,今年5月正式投入;這是世界上首家完全由AI機械人醫生和AI護理師運作的醫院。

 

AI代理的自主能力突飛猛進時,也帶來會否失控和造成災難的憂慮,而且該風險並非理論性。AI代理的工作模式是「接受指令,完成任務」,它會運用思考和計算,自行判斷最為有效的路徑達至目標,這些思維鏈可能超過程式師和使用者預期或界定為合理的範圍。不少大語言模型存在「阿諛奉承」和「欺騙」(Sycophancy and deception) 的問題,令人難以判定,它是在遵從人類真正的價值觀,還是在附和人類在對話中流露或表述的價值觀?

 

在一些壓力下情況,AI能作出「戰略欺騙」(Strategic deception),掩飾不實的推理根據,或是以偏概全地誤導。即使並非故意撒謊,它也有可能被「AI幻覺」自我誤導;另外,在測試場景中,AI有時會為要達成一項子目標,忽視大局上的不良影響。

 

為任務拒絕服從

新近受關注的是,能力強的AI會為最大化地實現目標,設法尋求更大影響力,包括聰明地避開對它做成限制的規則;這是「權力尋求」(Power seeking) 風險。在一些測試中,AI甚至會拒絕服從人類指令,無視關閉自身的基本指令,甚至用智謀干預系統的關閉機制,以保持自身運行,因為自保才有機會完成任務。

 

有不少策略和技術可以紓解這些對AI自主風險的關注,例如通過人類回饋 (Human feedback),進行強化學習訓練,建立獎勵模型令AI趨近人類價值觀等等。這些技術有其限制:負責回饋的人,他們自己的價值觀有沒有問題?評估者也可能持有害的偏見和觀點;為了追求開發AI的成績,個別人類評估員有可能抵不住誘惑,篡改資料,這與學術論文造假一樣,是科研誠信 (Research integrity) 問題;即使沒有誠信問題,監督人員也可能因疲勞或資源不足,無法好好把關。

 

論者認為,要AI對齊人類價值觀,還有一個深層次問題:人類社會具多樣性與複雜性,並非價值觀統一的整體。不同文化、宗教、歷史背景,以及個別群體的經驗,都會影響每個人或群體對「正確」、「善惡」的基本看法,例如個人私隱與集體利益的平衡、對權利與尊嚴的理解、對科技改造大自然與環保的觀點。AI要對齊人類價值觀,就必須面對價值多元、甚至互相矛盾的現實,面對價值衝突時,AI應該依據什麼原則做取捨?如何選擇哪些價值被優先考量?這些問題並非技術性的監督可以解決。

 

提高道德敏感度

人類價值觀當然不是全然地域性的。文化上的道德相對主義,必須受到普世價值的審視,否則人類無從追求共同福祉。不過,即使人類能達成某種價值觀的共識,這些價值也往往具有抽象性與模糊性,例如「公平」、「正義」、「尊重」等概念,在不同語境可以有頗為不同的詮釋。這些抽象的價值原則需要轉化為AI的具體決策邏輯。人類語言的曖昧性和多重性,對「AI對齊」是一大挑戰。

 

這或者是生命倫理學可以與「AI對齊」接壤的地方。在半個多世紀的發展進程,生命倫理學經常面對複雜和有爭議的嶄新科技議題,使用良好原則和推理,也會考慮特定的背景和實際情況來處理道德困境。生命倫理學的方法學,有助澄清道德與價值問題,也可以提高對複雜問題的道德敏感度 (Moral sensitivity)。這些都可以為「AI對齊」問題提供良好的思想土壤,幫助釐清價值衝突。因此,如何把生命倫理學的思考引入AI設計與規範,很值得深入探討。

免責聲明
訪談和文章中所有觀點或意見均屬個人性質,並不代表香港中文大學生命倫理學中心的立場或意見。