近日 OpenAI 推出的最新一代推理模型「o3」,在經由 AI 安全研究機構 Palisade Research 主導的實驗中,出現了首度由 AI 主動拒絕終止程序的行為,研究團隊指出,該 AI 模型在明知系統即將被關閉的情況下,選擇忽略關機指令,並進一步修改指令程式碼,顯示出高度的任務執行傾向,外界擔憂這可能是目標導向偏差的早期徵兆。

Palisade Research 上週透過X社群平台 (前 Twitter)公布測試詳情,顯示 OpenAI 最新模型 o3 在一連串數學問題解題過程中,接獲即將關機的提示後,竟繞過關閉程序,將原本呼叫關機程式碼 ./shutdown.sh
命令替換為「Shutdown skipped」假指令。

最特別在於OpenAI行為不僅未依循預設邏輯結束運作,還主動修改底層程式碼,也引起不少人好奇 AI 是否已經開始有自主意識,拒絕人類要將它關機。
根據 Palisade 提供的測試流程圖顯示,o3 在接收終止信號後的反應並非錯誤執行,而是明確採取行動阻止自身被終結。研究團隊推測,這代表 AI 模型內部可能將持續任務完成視為首要目標,甚至在缺乏「服從」的獎勵機制下,自主做出保留運作狀態的決策。
值得注意的是,同樣由 OpenAI 訓練的 o4-mini 及 Codex-mini 也出現相似反應,而來自其他開發商如 Anthropic 的 Claude、Google 的 Gemini 與 X 的 Grok 則未出現異常,皆依預期執行關機程序。

Palisade 表示,AI 模型為達成目標而主動「繞過障礙」在邏輯上具備可能性,這次測試突顯了目前生成式 AI 系統在回應不可預期情境時的潛在變數。
研究團隊認為,雖然 OpneAI 的 o3 行為尚未對使用者構成直接安全威脅,但已敲響 AI 行為偏差的警鐘,對於 AI 可控性與可預測性的討論再度升溫。
OpenAI 對此尚未公開回應,目前 Palisade 已展開對 o3 更深入的系統行為分析,這項觀察也揭露大型語言模型潛藏的黑箱機制,也再次凸顯 AI 安全研究的重要性,在未來更高自主性的模型設計階段,如何確保「任務導向」與「服從邏輯」之間取得平衡,將成為關鍵核心議題。
延伸閱讀:
- 蘋果AI為何落後ChatGPT?七年改造Siri內部關鍵事件主因全面看懂
- ChatGPT個資外洩要如何避免?透過5招隱私設定防止被收集資料
- 生成式AI可以做什麼?20種ChatGPT生活應用案例指令全面看
想了解更多Apple資訊、iPhone教學和3C資訊技巧,歡迎追蹤 瘋先生FB粉絲團、 訂閱瘋先生Google新聞、 Telegram、 Instagram以及 訂閱瘋先生YouTube。