近日 OpenAI 推出的最新一代推理模型「o3」，在經由 AI 安全研究機構 Palisade Research 主導的實驗中，出現了首度由 AI 主動拒絕終止程序的行為，研究團隊指出，該 AI 模型在明知系統即將被關閉的情況下，選擇忽略關機指令，並進一步修改指令程式碼，顯示出高度的任務執行傾向，外界擔憂這可能是目標導向偏差的早期徵兆。

Palisade Research 上週透過X社群平台（前 Twitter）公布測試詳情，顯示 OpenAI 最新模型 o3 在一連串數學問題解題過程中，接獲即將關機的提示後，竟繞過關閉程序，將原本呼叫關機程式碼 ./shutdown.sh 命令替換為「Shutdown skipped」假指令。

最特別在於OpenAI行為不僅未依循預設邏輯結束運作，還主動修改底層程式碼，也引起不少人好奇 AI 是否已經開始有自主意識，拒絕人類要將它關機。

根據 Palisade 提供的測試流程圖顯示，o3 在接收終止信號後的反應並非錯誤執行，而是明確採取行動阻止自身被終結。研究團隊推測，這代表 AI 模型內部可能將持續任務完成視為首要目標，甚至在缺乏「服從」的獎勵機制下，自主做出保留運作狀態的決策。

值得注意的是，同樣由 OpenAI 訓練的 o4-mini 及 Codex-mini 也出現相似反應，而來自其他開發商如 Anthropic 的 Claude、Google 的 Gemini 與 X 的 Grok 則未出現異常，皆依預期執行關機程序。

Palisade 表示，AI 模型為達成目標而主動「繞過障礙」在邏輯上具備可能性，這次測試突顯了目前生成式 AI 系統在回應不可預期情境時的潛在變數。

研究團隊認為，雖然 OpneAI 的 o3 行為尚未對使用者構成直接安全威脅，但已敲響 AI 行為偏差的警鐘，對於 AI 可控性與可預測性的討論再度升溫。

OpenAI 對此尚未公開回應，目前 Palisade 已展開對 o3 更深入的系統行為分析，這項觀察也揭露大型語言模型潛藏的黑箱機制，也再次凸顯 AI 安全研究的重要性，在未來更高自主性的模型設計階段，如何確保「任務導向」與「服從邏輯」之間取得平衡，將成為關鍵核心議題。

延伸閱讀：

想了解更多Apple資訊、iPhone教學和3C資訊技巧，歡迎追蹤瘋先生FB粉絲團、訂閱瘋先生Google新聞、 Telegram、 Instagram以及訂閱瘋先生YouTube。