「超智慧對齊」能打造更安全 AI？

近期黃仁勳預言，未來五年內，AI 會追上人類。剛回鍋的 OpenAI 執行長奧特曼也強調，AI 開發不會停。但其聯合創辦人蘇茨克維卻擔憂，次世代的 AI 可能帶來重大社會風險。他所領導的「超智慧對齊」（Superalignment）專案，就是為此而生。

對我來說，所謂超智慧對齊，就是「自動化對齊」，讓 AI 能持續符合人類的期待。要瞭解這個概念，我們需要先理解製作 AI 的兩個步驟，分別是預訓練與微調。

「預訓練」是取得巨量資料之後，將它壓縮成一份模型，之後在輸入要求時，就會依照原始資料的共同性，來產生答案。好比說，模型會注意到人臉的共同性，如輪廓與顏色，收到指令後，便重新畫一張人臉出來。但遇到訓練資料不足之處，就可能產生似是而非的答案，也就是所謂的「AI 幻覺」。

「微調」則是透過獎懲機制，讓模型學會人類較能接受哪些答案。舉例來說，模型應該拒絕捏造、有害的回答，給出透明、充分揭露信心水準的答案。如果訓練資料裡沒有提供相關材料，AI 也應該如實說明。

而「超智慧對齊」，指的就是運用現有的 AI 系統，來協助人類完成大部分的微調工作。

打個比方：審理複雜的專利侵權案時，法官本人未必是領域專家，但只要交由兩造的專業律師針對事件辯論，法官判斷論點是否合乎法規即可。超智慧對齊的原理，就是將人類放在類似法官的位置。

展望未來，甚至只要共筆一份「憲法式 AI」文件，就能讓 AI 自動對齊這些準則——「集體智慧計畫」與 Anthropic 已經做出了示範。例如以《世界人權宣言》訓練的小型 AI，就能對齊次世代的大型 AI，讓後者更接近人們期待的樣子。

作為政策制定者，我們的工作就是透過政策以及政府投資，對市場給出訊號。近期剛開幕的 AI 評測中心，就揭櫫了 AI 應該要符合的十大要點，分別是安全、彈性、準確、當責、隱私、可解釋、公平、透明、可靠、資安。如果在這十件事上背道而馳，雖然不會馬上禁用，但政府不鼓勵部署。

在 2016 年入閣之前，我曾協助蘋果 Siri 團隊六年的時間，當時團隊最注重的，就是準確、無害。我認為，隨著對齊技術的成熟，頻頻出現幻覺的 AI 系統，將不會再獲得投資人的青睞。

這就像 1980 年代，人類發現冰箱用的冷媒會破壞臭氧層，各國便迅速簽定了《蒙特婁議定書》，彼此約定停用期限。這對出資者就是很明確的訊號：如果再不迅速調整的話，其他競品很快就會取而代之。反之，當市場上出現更穩定、安全的 AI 供消費者使用，投資和消費就會引導業界，不至於走上歧途。