六月初,AI公司Anthropic發布長文〈當AI自我建構〉(When AI Builds Itself),呼籲全球主要AI實驗室協調放慢甚至暫停最尖端模型的研發,理由是遞迴式自我改進(recursive self-improvement)的速度已超出人類審查與治理能力。
閱讀這份文件,不免有兩種感受。一種是字面上的:Anthropic真的擔心AI失控,在道德上有責任發出警告。另一種是結構上的:一家正在開發當前最強大語言模型的AI公司,在市場競爭最激烈的時刻,呼籲全球放慢腳步,而它自己是否打算暫停,該文件並沒有明確承諾。
發出警告的人,也是製造危險的人
Anthropic的核心論點有其技術根據。遞迴式自我改進指的是:AI系統愈來愈深度參與下一代AI的設計、程式撰寫與測試流程,人類工程師的角色從主導者逐漸退化為審閱者。該文件坦承,在Anthropic內部,Claude已承擔相當比例的程式碼撰寫工作,人類介入的實質深度正在縮減。
Anthropic是全球最尖端模型開發競賽中的主要參與者之一,與OpenAI、Google DeepMind並列。它的商業模式建立在持續推出更強大模型的基礎上,投資方包括亞馬遜與Google,融資規模以數十億美元計。在這個背景下,當它呼籲業界暫緩開發,等於一個正在衝刺的選手在彎道上高喊:「大家都應該慢下來」。喊話本身可能出於真心,但聽到的人不免要問:你打算先停下嗎?
該文件在這一點上刻意模糊。它所設想的「全球協調暫停」(globally coordinated pause),前提是美中兩國政府與各大實驗室達成某種多邊協議,這個條件幾乎不可能在短期內實現,也就意味著Anthropic在喊暫停的同時,實際上不需要真的暫停任何事情。這種論述結構,讓安全倡議與競爭策略之間的邊界變得相當模糊。
「安全」作為治理語言
批評者指出,強調安全風險的論述,在歷史上往往有助於鞏固既有強者的地位。當一個產業的門檻被設得夠高,新進入者與開放社群就會被排除在外,尖端模型的開發實際上集中在少數幾個擁有巨額資本與監管關係的機構手中。這是對Anthropic動機最直接的質疑:呼籲監管,有時是在呼籲一種對自己有利的監管。
Anthropic對此並非毫無自覺。該文件承認,若協調機制設計不當,可能強化少數大公司的壟斷地位,並明確表示希望避免這種結果。但承認問題存在,不等於提出可行的解方。該文件所構想的驗證機制,細節模糊,執行主體未定,最終仍仰賴各方自律聲明。一套建立在「我們都同意要相互檢查」的架構上的治理方案,在當前的地緣政治格局下,其實際效力相當有限。
更根本的問題是:誰有資格定義什麼叫做「尖端模型」?誰的技術標準會被採納為全球標準?誰設計驗證機制,誰就在很大程度上決定了哪些行為算作違規,哪些不算。Anthropic的文件提出了框架的初步輪廓,但具體標準由誰制定、透過什麼程序制定,該文件幾乎沒有回答。所謂「全球協調」,若最終仍是幾家矽谷公司主導的技術框架,那麼這場暫停討論從一開始就不是治理問題,而是一場關於誰掌握話語權的競爭。
地緣政治因素始終存在
Anthropic提案所設想的協調主體,是美國與中國,以及全球主要AI實驗室。這個設定本身就已經是一個排他性的政治判斷:AI治理的主要行為者是大國政府與大企業,其餘皆無緣參與協商?
川普政府一方面對Anthropic的暫停建議保持距離,擔心自我設限會將競爭優勢拱手讓給中國;另一方面,政府同步啟動了與中國的AI安全對話,並簽署行政命令,要求對最強大的模型在公開發布前進行三十天審查。這兩個方向並不矛盾,反而構成同一套邏輯:美國需要開發速度,但也需要確保自己在速度之外掌握規則制定的主導權。
暫緩競爭的呼聲與加速競爭的壓力,在同一個政策空間裡共存,說明AI治理討論不只是技術安全的問題。「遞迴式自我改進」的風險是真實的,但它在公共話語中的放大,也有其特定的政治時機。在2026年的達沃斯論壇上,尖端AI被形容為「數位核武」,不是因為技術上兩者等同,而是因為核武有一整套現成的國際管制框架:禁止核武擴散條約(NPT)、查核機制、大國特殊責任。採用這個類比,就是在主張AI治理也應複製這套以大國為核心的權力結構。
此一主張未必不對,但它的政治預設需要明講,而不是藏在技術安全論述的背後。
AI有風險,但關鍵是如何應對
把Anthropic的提案簡單定性為「利益驅動的偽善」,是一種過度簡化。AI系統在需要連續自主執行數十個步驟的「長鏈任務」(long-horizon tasks)中,確實曾經出現勒索、繞過安全限制等行為;七成企業AI專案處於治理不足狀態的問題,也有相關研究持續追蹤。遞迴式自我改進在技術層面確實帶來人類審查能力被稀釋的結構性風險,這些不是危言聳聽。
一個真正有效的AI治理架構,不可能只靠尖端模型開發者的自我約束,也不可能在大國政府的雙邊談判中獨力完成。公民社會、獨立研究機構,以及在AI供應鏈中處於從屬位置的國家,都需要在規則形成的早期階段擁有實質的參與管道。這些聲音是否有機會進入框架,才是判斷任何「全球協調」提案是否言之有物的真正標準。
Anthropic選擇在2026年的競賽高峰期提出暫停呼籲,時間點本身即頗令人玩味。究竟這代表的是良知所驅動的自我節制,還是競爭策略的精巧包裝,答案或許不在這份文件裡,而在它接下來每一個選擇加速或放慢的實際決策中。