2025-07-21

siuleeboss

OpenAI新模型挑戰IMO金牌級表現，專家質疑測試條件差異難比較 — image credit : pexels

“`html

OpenAI 新模型數奧奪金：AI 數學能力驚人突破，但專家警惕過度樂觀

OpenAI 最新實驗推理模型在國際數學奧林匹克 (IMO) 中取得金牌級表現，這代表 AI 在通用推理能力上的一大進展。然而，專家提醒，測試條件與真人競賽存在差異，不應過度解讀其意義。

OpenAI 模型在 IMO 的驚人表現

最新模型如何取得金牌級表現？
OpenAI 研究科學家 Alexander Wei 宣布，其最新實驗推理模型在 2025 年 IMO 中，成功解決了 6 道題目中的 5 道，總分 42 分中獲得 35 分。該模型在與人類參賽者相同的規則下接受評估，包含兩個 4.5 小時的考試環節，禁止使用工具或互聯網，並由 3 名前 IMO 獎牌得主獨立評分。
這個成就的意義是什麼？
OpenAI CEO Sam Altman 稱此為 “AI 在過去 10 年取得進展的重要標誌”。這代表 AI 在處理複雜、嚴密論證方面的能力，已達到人類數學家的水平。然而，該模型並未立即向公眾開放。

專家對評估方式的質疑

儘管 OpenAI 的成就令人印象深刻，但專家對評估方法提出了質疑，例如訓練方式、「通用智能」範圍、對一般民眾的實用性，以及每道題目的成本。IMO 組織尚未獨立驗證這些結果。

測試條件差異帶來的影響

數學家 Terence Tao 指出，測試條件的變化會大幅影響結果。允許使用計數機、教科書、互聯網搜尋，或給予更長的解題時間，都會顯著提升成功率。

相關實例

獨立評估機構 MathArena 近期測試顯示，包括 GPT-4 在內的主要語言模型在 2025 年 IMO 題目上表現不佳，充滿邏輯錯誤、不完整論證甚至虛構定理。這與 OpenAI 的宣布形成鮮明對比。

優勢和劣勢的影響分析

優勢：證明AI在特定領域（如數學）的推理能力取得了顯著進展。
劣勢：測試條件的差異可能導致對AI能力的過度估計，實際應用效果可能不如預期。

深入分析前景與未來動向

AI 在數學領域的進展迅速，從小學數學到 IMO 金牌水平，僅僅經歷了短短的時間。然而，AI 的真正價值將取決於結果能否獨立重現並應用於實際科學問題。未來需要更嚴謹的評估標準，以及更廣泛的應用場景驗證。

常見問題 QA

OpenAI 模型何時會向公眾開放？
OpenAI CEO 表示，具有「金牌級能力」的模型在「數月內」不會向公眾開放。
專家對 OpenAI 模型的質疑是什麼？
質疑點包括模型的訓練方式、「通用智能」範圍、對一般民眾的實用性、每道題目的成本，以及 IMO 組織尚未獨立驗證這些結果。

“`

相關連結：

Janitor Ai – siuleeboss

Share this content: