OpenAI覺醒了?最新o3模型首見AI主動拒絕關機指令


近日 OpenAI 推出的最新一代推理模型「o3」,在經由 AI 安全研究機構 Palisade Research 主導的實驗中,出現了首度由 AI 主動拒絕終止程序的行為,研究團隊指出,該 AI 模型在明知系統即將被關閉的情況下,選擇忽略關機指令,並進一步修改指令程式碼,顯示出高度的任務執行傾向,外界擔憂這可能是目標導向偏差的早期徵兆。

OpenAI覺醒了?最新o3模型首見AI主動拒絕關機指令

Palisade Research 上週透過X社群平台 (前 Twitter)公布測試詳情,顯示 OpenAI 最新模型 o3 在一連串數學問題解題過程中,接獲即將關機的提示後,竟繞過關閉程序,將原本呼叫關機程式碼 ./shutdown.sh 命令替換為「Shutdown skipped」假指令。

OpenAI覺醒了?最新o3模型首見AI主動拒絕關機指令

最特別在於OpenAI行為不僅未依循預設邏輯結束運作,還主動修改底層程式碼,也引起不少人好奇 AI 是否已經開始有自主意識,拒絕人類要將它關機。

根據 Palisade 提供的測試流程圖顯示,o3 在接收終止信號後的反應並非錯誤執行,而是明確採取行動阻止自身被終結。研究團隊推測,這代表 AI 模型內部可能將持續任務完成視為首要目標,甚至在缺乏「服從」的獎勵機制下,自主做出保留運作狀態的決策。

值得注意的是,同樣由 OpenAI 訓練的 o4-mini 及 Codex-mini 也出現相似反應,而來自其他開發商如 Anthropic 的 Claude、Google 的 Gemini 與 X 的 Grok 則未出現異常,皆依預期執行關機程序。

OpenAI覺醒了?最新o3模型首見AI主動拒絕關機指令 1

Palisade 表示,AI 模型為達成目標而主動「繞過障礙」在邏輯上具備可能性,這次測試突顯了目前生成式 AI 系統在回應不可預期情境時的潛在變數。

研究團隊認為,雖然 OpneAI 的 o3 行為尚未對使用者構成直接安全威脅,但已敲響 AI 行為偏差的警鐘,對於 AI 可控性與可預測性的討論再度升溫。

OpenAI 對此尚未公開回應,目前 Palisade 已展開對 o3 更深入的系統行為分析,這項觀察也揭露大型語言模型潛藏的黑箱機制,也再次凸顯 AI 安全研究的重要性,在未來更高自主性的模型設計階段,如何確保「任務導向」與「服從邏輯」之間取得平衡,將成為關鍵核心議題。

延伸閱讀:

想了解更多Apple資訊、iPhone教學和3C資訊技巧,歡迎追蹤 瘋先生FB粉絲團訂閱瘋先生Google新聞TelegramInstagram以及 訂閱瘋先生YouTube
返回頂端