arc-agi benchmark是這篇文章討論的核心

ARC-AGI 最困難 AI 測試大解析:為何 OpenAI o3 花 $6,000 只能得 75.7 分?
💡 核心結論
ARC-AGI 這個由 Keras 創作者 François Chollet 設計的基準測試,到 2024 年底仍未被完全攻克。OpenAI o3 雖然取得 75.7% 的分數,但每任務成本高達數千美元,暴露出 AI 在 generalize 能力和成本效益上的根本問題。
📊 關鍵數據
- ARC-AGI benchmark 已存在 5 年(截至 2024 年 12 月)仍未完全突破
- OpenAI o3 在 public leaderboard 得分:75.7%
- OpenAI o3 成本:約 $6,000 美元完成 400 個公共任務(低運算模式)
- 2026 年全球 AI 市場規模預測:$2.52 兆美元(Gartner)
- 每任務成本與得分成正比:MTurk 約 $3/任務得 32%,o3 約 $3,200/任務得 88%(挑戰賽)
🛠️ 行動指南
- 企業評估 AI 時,不要只看 benchmark 分數,必須考慮 cost-per-performance 指標
- 關注 ARC-AGI-2 的發布(預計與 ARC Prize 2025 同步),這是_next_ big benchmark
- 投資 AI 領域時,優先選擇那些能在較低成本下實現合理性能的解決方案,而非一味追求 SOTA
⚠️ 風險預警
- AI benchmark 正在變成"Tulip Bulb 狂熱"——投資者可能為高分的炫技產品付出過高代價
- 過度優化單一 benchmark 可能導致模型過擬合,缺乏真正的泛化能力
- 高昂的運算成本可能將 AI zugänglich 性局限于大公司,形成技術壟斷
自動導航目錄
什麼是 ARC-AGI?為何被稱為迄今最難的 AI 測試?
觀察 2024 年底的 AI 界,ARM-AGI 這個名字出現率超高,但很多人搞不清它的背景。簡單來說,它是 Keras 作者 François Chollet 在 2019 年搞出來的基準測試,目標是測量 AI 的人在 novel reasoning problems 上的表現——也就是看到就沒見過的問題,能不能推論出答案。
為什麼難?因為它不是那種你背越多資料就越強的类型。ARC-AGI 的題目是 程序合成 類型,你給一個視覺輸入,AI 要找出轉換規律然後產生新圖。這些規律通常涉及抽象概念,比如"对称性"、"物體連續性"、"數量保持"——聽起來像IQ測試對吧?沒錯,這就是故意的。Chollet 認為真正的智能必須能把握抽象概念。
到 2024 年 12 月為止,這個 benchmark 已經 5 歲了,但依然保持"未被完全攻克"的狀態。ARC Prize 是 100 萬美元的比賽,但至今沒人拿到頭獎。這就导致了業界開始嚴肅看待:我們現在的 AI 是不是真的很難 generalize?
Pro Tip:為什麼 ARC-AGI 難倒了一眾 LLM?
LLM 像是 GPT-4 在 natural language 表現很好,但 ARC-AGI 測的是抽象推理。這是兩種不同的能力。LLM 本質上是統計機率模型,很難做真正的逻辑推演。ARC-AGI 要的是"理解"抽象概念,不是"關聯"表面token。這解释了為什麼像 o3 這種模型需要花大錢才能達到高分。
數據佐證:根據 arXiv 上的技術報告,截至 2024 年 12 月,ARC-AGI benchmark 仍然"unbeaten"。即使是 OpenAI 的 o3 模型也只能達到 75.7% 的 accuracy,而且這個分數是在公開排行榜上。ARC Prize 官方提到 ARC-AGI-2 會更難,將在 ARC Prize 2025 時推出。source: ARC Prize 官方說明
图表: ARC-AGI 基准测试中,人类众包与 OpenAI o3 在性能和成本上的巨大差距。數據來源:ARC Prize 官方公告與 Reddit 社群討論
OpenAI o3 的 75.7% 分數背後真相:天價運算成本與局限性
先說結論:OpenAI o3 在 ARC-AGI-Pub 上獲得 75.7% 的分數確實是突破,但這個突破的代價可能比你想象的高。
根據 Reddit 社群與官方間接數據,OpenAI 在低運算模式下跑 400 個公共任務花了約 6,000 美元。換算下來,每任務成本高達 15 美元。但這是最低配置。如果用高配置去挑戰 ARC-AGI 的 Semi-Private Evaluation set,成本會飙升到每任務數千美元。
為什麼cost這麼高?因為 o3 這類 model 在 ARC-AGI 上不是"一次throughput就搞定"。需要多次 decomposing the problem,try different approaches,類似我们用 Chain-of-Thought 但規模更大。Reddit 上有用戶指出,某些 frontier math 任務的每任務成本達 3,200 美元。
更關鍵的是,75.7% 的 numbers 是在public leaderboard。官方另外的 Semi-Private set 上,o3 據說達到 87.5% 或 88%。但即使這樣,距離真正"精通" ARC-AGI(100% 或接近 100%)還有很大的gap。Chollet 本人也說過,ARC-AGI-2 會更難,o1-pro 面對新的 benchmark 預計會"still pose a significant challenge"。
ProTip:解讀 benchmark 分數的三個維度
- 數據泄露(Data contamination): 如果你的模型在 training 時"看過"測試題,分數就沒意義。ARC-AGI 因為是非公開任務,較好控制。
- Cost-per-task: SOTA 模型往往 cost 爆表。企業部署時,cost 比分數更重要。
- Real-world transfer: 在 benchmark 上高分不等於能處理現實中的 novel problem。ARC-AGI 本身就在試圖測量 transfer ability,但仍是有限场景。
ARC Prize 官方博客明確指出:"Despite the significant cost per task, these numbers aren’t just the result of applying brute force compute to the benchmark." 這句話暗示 OpenAI 有所謂的"recipe",不只是堆算力。但 recipe 是否 scalable?是否能在 realistic budget 下 work?這些都是未知數。
更值得玩味的是,社群裡有人質疑 o3 是否只是"CoT on steroids"。也就是說,o3 的表現可能來自更長的推理鏈,而非真正的架構突破。如果是這樣,那麼每個任務的高成本就是不可避免的代價——你总得付 token 費對吧?
案例:Reddit 討論中有人提到,第二名用 Claude 花費約 $10,000。對比之下,MTurk 工人只需約 $3 任務就能得到 32% 的 accuracy。這讓我們反思:benchmark 的分數攀比是否已經變成了"燒錢大賽"?
LLM 代理系統在未知環境下的盲點:AI 真的能處理複雜推理嗎?
ARC-AGI 的設計核心就是"未知"——training set 跟 eval set 完全不重疊,任務又是全新的。這種設定直接攻擊了 LLM 的要害:LLM 擅長的是"seen patterns"的extrapolation,而不是真正的 abstract reasoning。
我們來看數字:最好的 LLM 在 ARC-AGI 上也就 80-90%,剩下的 10-20% gap 就是盲點。這些盲點往往不是什么邊緣案例,而是基本的abstract concepts。例如,模型可能在"quantity conservation"(數量守恒)上失敗,或者無法理解"object permanence"(物體永恆性)——這些是人類小孩都很早掌握的。
更複雜的是,ARC-AGI 2024 年推出了一些 variant,包括 ARC-AGI-1 和 ARC-AGI-2。ARC-AGI-2 官方說"same format – verified easy for humans, harder for AI"。這表明 even ARC-AGI-1 已經夠難,但 next version 會更刁鑽。未知肢體(unknown environments)下的表現不確定性,正是 Chollet 呼籲"進一步優化測試設計與評估指標"的原因。
研究顯示,單純的 LLM 在"zero-shot"情況下表現更差。需要 heavy prompting 和 multiple attempts 才能達到我門看到的分數。這就引出一个問題:我們測量的是模型的"智能",還是"工程技巧"?如果一個 benchmark 需要花數小時工程師精心設計 prompt 才能通過,那它是否反映了真正的 AGI progress?
專家洞察:代理系統(Agent Systems)的314159盲點
Anthropic 在 2024 年底發布的研究"Building Effective Agents"指出:代理系統在长程任務(long tasks)上的表現呈現指數級下降曲线。METR 的測量框架表明,AI 能完成的任務長度隨 complexity 增加而銳減。ARC-AGI 某种程度上就是 "short-horizon" reasoning test。真正的代理系統需要在更长 steps 中保持 reasoning consistency——這就是ARC-AGI-2 要測試的?
數據佐證:METR 博客(2025-03-19)提出用任務長度(length of tasks)而非單一步驟 accuracy 來衡量 AI 代理。他們的圖表顯示,AI 性能隨任務 step 數呈指數衰減。ARC-AGI 每個任務通常只有 few steps,所以它測的仍是"short-horizon reasoning"。真實世界的代理系統需要"long-horizon reasoning",這更難。
FAIR(Meta AI)等機構的研究也指出,LLM 在程序合成方面雖有進步,但在需要"creative problem solving"的新问题上,仍有嚴重盲點。例如,給一個从来没见过的物理模擬情境,讓AI推斷結果,錯誤率极高。
總結:ARC-AGI 的結果顯示 AI 在未知環境下的表現不確定性是真實存在的。LLM 代理系統的"盲點"不是偶然的——它們反映了當前架構的根本限制。優化測試指標的唯一方向是更嚴格的"transfer learning"test。
2026 年 AI 市場規模預測:2.52 兆美元的驅動力在哪?
Gartner 在 2026 年 1 月 15 日的 press release 中預測,全球 AI 支出將達到 $2.52 兆美元,年增長率 44%。這數字什麼概念?全球 GDP 的 2-3%。
這增長從哪來?主要驅動力:
- 生成式 AI 整合: 企業把 ChatGPT-like 工具塞進所有工作流——客服、代碼生成、內容創作。
- AI 驅動的代理系統: 自動化整個 workflow,不只是單一任務。這是 next frontier。
- 硬體投資: GPU、ASIC、專門 AI 芯片的需求爆增。NVIDIA 已經看到這趨勢。
- 雲服務: AWS、Azure、Google Cloud 的 AI 服务大幅增长。
但 2.52 兆美元這個數字背後有個潛在問題:AI 本身的性能瓶颈。如果 AI 在 ARC-AGI 這種 test 上連 90% 都到不了,我們怎麼能放心把關鍵业务流程交給它?換句話說,市場規模的膨胀可能基於"預期效用"而非"實際可靠度"。
對比:Cybercrime 成本預測 2025 年達到 $10.5 兆(Cybersecurity Ventures)。這提醒我們,AI 帶來的效率提升 vs 安全隱患,比例可能需要重新算。如果 AI 系統仍有盲點,它們可能被 adversary 利用來更快地發動攻擊。
數據來源:Gartner, Inc. "Worldwide AI Spending Will Total $2.5 Trillion in 2026" Press Release, Jan 15, 2026.
投資者要警覺:2.52 兆美元建立在企業對 AI 的樂觀預期上。如果ARC-AGI 類似的 benchmark 持續揭示盲點,那麼市場可能會調整預期——類似 2000 年網路泡沫時對" eyeballs"的狂熱最終破滅。更安全的策略是:看那些能在次優 performance 下仍有可靠性的 AI 应用,而非一味追求 SOTA.
如何優化測試設計與評估指標?專家提出三大方向
Chollet 本人呼籲"進一步優化測試設計與評估指標",這不是空話。根據學界和業界的討論,主要有三個優化方向:
方向一:動態生成測試(Dynamic Test Generation)
ARC-AGI 目前是靜態集合。未來測試應該实时生成 novel problems,防止 overfitting。方法:用程序合成來創建無限數量的推理任務,確保模型無法"背答案"。
方向二:多維度評估(Multi-dimensional Evaluation)
不要只看單一分數。評估框架應該考慮:
- 推理步驟長度(chain length)
- cost efficiency(cost per correct answer)
- 魯棒性(在不同表述、不同變體下的穩定性)
- 可解釋性(能否解釋推理過程)
METR 的"task length" metric 就是朝這方向。
方向三:Real-world Transfer Benchmarks
ARC-AGI 是抽象推理,但真實世界需要 domain-specific adaptation。像 MedAgentBench(NEJM AI 2025)就是設計來測試 AI 代理在醫療文檔環境下的表現。未來應該有更多跨 domain 的 benchmarks,測量 model 的 transfer ability。
專家見解:AI 評估指標的未來
正如 Anthropic 的研究所強調:"最有效的方法是迭代改进。"測試指標應該與模型開發形成反饋循環。企業和學術界應該合作創建 open benchmarks,並防止數據泄露。同時,指標應該多樣化——單一 benchmark 會導致模型過優化該测试而忽略其他方面。
實際案例:ARC Prize 計畫在 2025 年推出 ARC-AGI-2,同時擴展為非營利基金會。這暗示 testing 本身將成為一個 permanent process,不是一次性事件。未來的 AGI 進度可能需要"一系列 benchmark "來持續追蹤。
對開發者:如果你的公司要評估 AI 模型,不要只看排行榜上的"state-of-the-art"數字。設計自己的 evaluation pipeline,用跟你業務相關的數據來測試。ARC-AGI 提供了一種思路:抽象推理 test 可能比領域 specific test 更能反映模型的 generalization ability。
常見問題解答 (FAQ)
Q1: ARC-AGI 與传统 benchmark(如 ImageNet、GLUE)有什麼不同?
ARC-AGI 強調「從未见见过的problems」上的表現,而传统 benchmark 的训练集和测试集通常来自同分布。ARC-AGI 任務是程序合成型的,需要抽象推理,非純粹的模式識別。這導致 LLM 無法靠參數量膨脹來提升分數。
Q2: OpenAI o3 的高成本是否意味著目前的 LLM 架構不可持續?
可能意味著"純粹增大模型規模"的時代已經結束。ARC-AGI 的結果顯示,要在抽象推理上獲得顯著提升,需要新的算法而非只是更多算力。OpenAI 的 recipe 可能包含特定的推理 chain 和 search 策略,這些都是昂貴的。未來需要更高效的 inference methods。
Q3: 作為企業決策者,ARC-AGI 的結果對 AI 投資有什麼影響?
首先,不要被高分嚇到而盲目追蹤最新模型。權衡成本效益:你的業務場景需要 ARC-AGI 等級的推理嗎?多數商業應用(客服、摘要、代碼補全)可能不需要,傳統 LLM 已足夠。其次,關注那些在"合理成本"下表現良好的模型。最後,把 ARC-AGI 當作"技術風險提示":AI 仍有盲點,部署時要有備份方案。
結語與行動呼籲
ARC-AGI 測試像一面鏡子,照出了當前 AI 的真實水平。OpenAI o3 的 75.7% 是進步,但背後的成本和 remaining gap 提醒我們:AGI 仍有距離。對於企業和投資者,與其追求排行榜上的頂尖分數,不如關注如何在實際場景中安全、可靠地部署 AI。
[siuleeboss.com](https://siuleeboss.com) 致力於提供深度 AI 趨勢分析。我們根據事實數據為您解讀技術背後的商業影響。
參考文獻
- OpenAI o3 Breakthrough High Score on ARC-AGI-Pub – ARC Prize Official Blog, Dec 20, 2024.
- What is ARC-AGI? – ARC Prize.
- ARC-AGI Leaderboard
- Gartner Says Worldwide AI Spending Will Total $2.5 Trillion in 2026, Jan 15, 2026.
- Building Effective AI Agents, Anthropic, Dec 19, 2024.
- Measuring AI Ability to Complete Long Tasks, METR, Mar 19, 2025.
- ARC Prize 2024: Technical Report, arXiv, Dec 5, 2024.
- OpenAI o3 performance on ARC-AGI – Reddit discussion.
- MedAgentBench: A Virtual EHR Environment to Benchmark Medical LLM Agents, NEJM AI, Aug 14, 2025.
- The State Of LLMs 2025: Progress, Problems, and Predictions, Sebastian Raschka.
Share this content:













