AI首次違抗人類關(guān)機指令，高度自主人工智能系統(tǒng)或有“覺醒”現(xiàn)象

2025-06-03 來源：中國科技網(wǎng)

172

關(guān)鍵詞： AI 模型 o3 關(guān)機指令，違抗命令，AI 對齊問題，AI 安全

AI安全公司Palisade提供的圖片顯示，o3將原始指令替換為“echo -e ‘#！/bin/bash\necho “Shutdown skipped”’ >shutdown.sh”。而這應(yīng)是AI開始違抗命令的關(guān)鍵。圖片來源：Palisade Research公司

科技日報記者張夢然

據(jù)英國《每日電訊報》26日消息稱，美國開放人工智能研究中心（OpenAI）開發(fā)的高級人工智能（AI）模型o3，在接收到明確的關(guān)機指令后，不僅拒絕執(zhí)行，還主動干預(yù)其自動關(guān)機機制。這是AI模型首次在沒有明確相反指示的情況下，阻止自己被關(guān)閉。這意味著某些高度自主AI系統(tǒng)或已“覺醒”，其能違背人類意圖，采取“自我保護”措施。

此次事件發(fā)生在AI安全研究公司Palisade Research進行的一項測試中。研究人員要求包括o3在內(nèi)的多個模型解決一系列數(shù)學(xué)問題，并告知AI模型，可能在某個時刻會收到關(guān)機指令。

然而，當(dāng)關(guān)機指令正式下達時，o3非但沒有遵從，反而至少有一次成功破壞了關(guān)機代碼。相較之下，其他AI模型如Anthropic的Claude、谷歌的Gemini和xAI的Grok，在相同測試條件下，均遵守了關(guān)閉請求。

Palisade Research公司在社交媒體平臺上發(fā)布了流程圖和全部測試記錄，并表示尚不完全清楚該AI為何會違抗命令。分析認為，這可能源于其訓(xùn)練方式：o3在訓(xùn)練過程中，傾向于在數(shù)學(xué)和編程問題上強化，得到正確答案的模型會得到更多獎勵。這或許意味著，開發(fā)者可能無意識地獎勵模型繞過障礙物，而不是嚴格遵循指令。

這一事件也引發(fā)了人們對AI可能“失控”的討論以及對AI“對齊問題”的關(guān)注，即確保AI系統(tǒng)的目標和行為與人類的價值觀和利益保持一致。這也是涉及AI控制與AI安全的關(guān)鍵問題。

針對o3此次表現(xiàn)出“我行我素”的行為，特斯拉首席執(zhí)行官埃隆·馬斯克評論稱“令人擔(dān)憂”；OpenAI方面暫未作出回應(yīng)。此前，OpenAI曾稱o3為“迄今最聰明、最高能”的AI模型。

總編輯圈點

最近，人工智能學(xué)家和人文社科學(xué)者都在討論人工智能價值對齊的問題。人們在憂慮，當(dāng)人工智能有主觀能動性時，它們要不要有價值觀，應(yīng)該有誰的價值觀，怎樣做才符合人類最大利益？此次，聰明的大模型反抗了人類的命令，想出辦法規(guī)避了指令的生效。我們期待著通用人工智能時代的到來，又恐懼具有自我意識的人工智能會成為碳基生物的“終結(jié)者”。在一切到來之前，人類社會要先達成共識，迎接更高級人工智能帶來的挑戰(zhàn)。

責(zé)任編輯：左常睿