OpenAI最新GDPval評測：AI專業任務媲美人類專家，創意仍有突破空間

“`html

人工智慧（AI）在專業領域的應用日趨成熟，最新研究顯示，AI 在執行特定任務方面的能力已能媲美人類專家。然而，AI 在創意和複雜決策方面的表現仍存在差距。本文將深入探討 AI 在專業任務中的優勢與局限性，以及其對未來職場的潛在影響。

AI 執行專業任務：令人振奮的進展

OpenAI GDPval 評估框架是什麼？
OpenAI 的 GDPval 是一個衡量 AI 模型在經濟價值任務中表現的框架。它涵蓋了 44 個職業專家設計的 1,320 項真實任務，涉及美國 GDP 貢獻超過 5% 的主要經濟產業。

哪些 AI 模型表現出色？
根據 GDPval 評估，Anthropic Claude Opus 4.1 在 47.6% 的任務中表現超過或等於人類專家，是表現最佳的模型。OpenAI GPT-5 Thinking 在遵循提示方面表現出色，但格式化回應時常出現問題。

AI 在哪些經濟部門表現最佳？
AI 模型在政府、零售和批發貿易等領域表現最佳，但在製造業和創意產業（如電影製作、影片編輯等）表現較差。這表明 AI 在需要高度創意和複雜性的任務中仍存在局限性。

AI 在處理重複性、數據密集型和需要快速分析的任務中表現出色。例如，在「櫃檯和租賃文員」等職位中，Claude Opus 4.1 的表現甚至超越了人類專家。

儘管 AI 在某些專業任務中表現出色，但在需要高度創意、批判性思維和情感智能的任務中，人類仍然具有明顯優勢。例如，AI 在電影製作和影片編輯等創意產業的表現相對較差。

史丹佛大學經濟學家 Erik Brynjolfsson 呼籲設計「Centaur 評估」，即評估人類與 AI 模型合作的效果，而不是將 AI 視為人類的替代品。這種觀點強調了人類在 AI 應用中的重要性，認為 AI 發展仍需與人類知識整合，以達成最佳效果。

AI 的快速發展將對職場產生深遠影響。一方面，AI 將取代部分重複性工作，提高生產力。另一方面，AI 也將創造新的就業機會，例如 AI 開發、維護和應用等。未來，職場將更加注重人類與 AI 的協作，培養員工的創造力、批判性思維和情感智能等核心技能。

AI 會完全取代人類的工作嗎？
不太可能。AI 在特定任務中表現出色，但在需要高度創意、批判性思維和情感智能的任務中，人類仍然具有明顯優勢。未來，職場將更加注重人類與 AI 的協作。

如何應對 AI 帶來的職場變革？
應加強自身技能，培養創造力、批判性思維和情感智能等核心能力，並積極學習 AI 相關知識，以便更好地與 AI 協作。

AI 的發展是否會帶來倫理問題？
是的。AI 的發展涉及數據隱私、算法偏見和就業歧視等倫理問題。需要制定相關政策和法規，以確保 AI 的公平、透明和負責任的應用。

“`