OpenAI最新GDPval評測：AI專業任務表現直逼人類專家！ — image credit : pexels

“`html

AI專家級表現的真相：能力卓越，創意不足？

人工智慧（AI）在執行專業任務方面的能力正以驚人的速度發展，甚至在某些領域已經超越了人類專家。然而，一項新的評估框架顯示，儘管AI在專業技能上表現出色，但在創造力方面仍然存在明顯的局限性。本文將深入探討AI的優勢與不足，並分析其對未來職場的潛在影響。

AI專業能力突飛猛進

OpenAI GDPval框架是什麼？
OpenAI開發了一個名為GDPval的評估框架，旨在衡量AI模型在各種專業任務中的表現。該框架涵蓋了44個職業專家設計的1,320項真實任務，涵蓋了美國GDP貢獻超過5%的主要經濟產業。

哪些AI模型表現突出？
在GDPval的評估中，Anthropic的Claude Opus 4.1在47.6%的任務中表現超過或等於人類專家，成為表現最佳的模型。OpenAI的GPT-5 Thinking在遵循提示方面表現出色，但格式化回應時常出現問題。

AI在哪些領域表現最佳？
AI模型在政府、零售和批發貿易等領域表現最佳，但在製造業和創意產業（如電影製作、影片編輯等）表現較差。這表明AI在需要高度創造力和複雜判斷的任務中仍然存在局限性。

創意能力的短板

儘管AI在執行特定任務方面表現出色，但在創造力和創新方面仍然難以與人類匹敵。例如，在電影製作和影片編輯等創意產業中，AI的表現明顯落後於其他領域。這表明，AI目前更擅長於執行重複性和規則性的任務，而在需要靈感和獨特見解的領域仍然需要人類的參與。

人類與AI協作的重要性

史丹佛大學經濟學家Erik Brynjolfsson強調，AI研究者應設計「Centaur評估」，即評估人類與AI模型合作的效果，而不是僅將AI視為人類的替代品。這種觀點強調了人類在AI應用中的重要性，認為AI的發展應與人類知識整合，以達成最佳效果。未來，職場的趨勢將是人類與AI協作，共同完成更複雜和具有挑戰性的任務。