Siri Gemini 引擎是這篇文章討論的核心

Apple 低頭 Google 雲端?Siri 將 hosted on Gemini 引擎,每年撒 10 億美元背水一戰



💡 核心結論

Apple 在 AI 時代真的卡關了。2026 年 1 月,這家向來以封閉生態系自豪的科技巨人,竟低頭與谷歌簽下十年合作协议,把 Siri 這個看家本領放在 Google 雲端運行,每年乖乖繳納 10 億美元授權費。這不是普通的商業合作,而是 Apple 承認自己搞不定基礎模型訓練的真實寫照。

📊 關鍵數據

  • 全球 AI 市場規模:2027 年預估 7800 億至 9900 億美元(Bain)
  • 雲端運算市場:2027 年將突破 1 兆美元(Gartner)
  • Apple PCC 系統利用率:僅 10 %
  • Gemini 模型參數量:1.2 兆參數
  • Atlantra AI 晶片量產時程:2026 年下半年

🛠️ 行動指南

網站與 App 開發者現在就要準備好 Siri SDK 的整合測試,iOS 26.4 beta 預計帶來的重大變革,會直接影響使用者體驗設計。同時密切關注 Apple 自家的 AI 晶片 Baltra 的開發進度,這將決定未來 Apple 設備是否還能維持高階價值的關鍵。

⚠️ 風險預警

Google 掌控 Siri 核心引擎,等於掌握 Apple 億萬使用者的語音數據流動權限。雖然 Apple 強調隱私保護,但資料事實上會經過 Google 雲端處理,這可能引发歐洲 GDPR 與美國各州隱私法的監管挑戰。另外,每年 10 億美元的成本持續下去,會侵蝕 Apple 高達 30% 的毛利率。

Apple 的 PCC 大夢:10% 利用率像極了新手開民宿

2024 年 WWDC 上,Apple 端出 Private Cloud Compute(PCC)時,市場一片叫好。當時的說詞很美:建構專為隱私設計的雲端 AI Processing 環境,所有 Apple 晶片自動擴展,資料在傳輸過程全程加密,就連 Apple 自己都看不到明文。聽起來天衣無縫,但沒人知道這套系統實際跑起來有多燙手。

根據 The Information 與多名前 Apple 員工的說法,PCC 上線後平均利用率掉到只有 10 % 左右。這不是普通的資源浪費,而是十亿美元級別的基礎建設打水漂。很多伺服器甚至沒完全部署就停在那邊生灰塵。用管理的角度來看,等同於開了一家七星级酒店,卻只有零星幾個客人入住,每間房的空調 Still running full blast。

問題出在哪?Apple 一直以來沉迷於邊緣裝置的 everything-on-device 哲學,但真正的 AI 推理,尤其是巨型語言模型,根本無法塞進 iPhone 或 Mac。PCC 系統設計時並未充分預料到 2024 年 ChatGPT 爆發後的算力飢渴,導致架構上嚴重低估需求。更重要的是,Apple 慣用的 M 系列晶片在伺服器端的一些關鍵效能指標,例如 memory bandwidth 與 inter-node latency,比不上 Google 自家 TPU 或 NVIDIA 的 Blackwell 平台。

Apple PCC 利用率與 Google 雲端基礎設施容量對比示意圖,顯示 2024-2026 年間利用率曲線與競爭對手容量差距放大 Apple PCC 利用率 vs Google 雲端容量 2024–2026 年 PCC 利用率 Google 雲端可用容量 10%

這些數據曝光後,Apple 內部壓力山大。遲早得面對擴充算力的選擇題。是自己砸更多錢擴建 PCC?還是找外部合作?Apple 最終選擇了後者,而且一簽就是十年。這代表 Apple 已經把「自給自足」的 AI 策略暫時收起,轉為务实主義路線。這對長期以來強調垂直整合、端到端控制的公司來說,無異是一種戰略上的轉折點。

Pro Tip:根據 Apple 官方安全部落格所述,PCC 的硬體基礎是 Apple 客製化晶片加上強化版作業系統。然而,Google Gemini 的部署是基於 TPU v5 與 v6 優化版本,兩者的 matrix multiplication throughput 差距大約是 3–5 倍。這意味著 Siri _response 延遲與吞吐量在短期內會明顯提升,但代價是資料流經 Google -controlled endpoints。

每顆晶片都想當主角:Baltra 能否救場?

Apple 當然不會乖乖永遠依賴 Google。與谷歌合作的同時,Apple 的晶片團隊正在秘密推進代号「Baltra」的 AI 伺服器晶片計劃。這颗 ASIC 專為大型語言模型推理與訓練優化,傳聞將採用 Broadcom 的 800G Ethernet 控制器與自定義 AI 加速器,量產時間點落在 2026 下半年。

根據天風國際證券分析師郭明錤的最新報告,Baltra 將是一個大規模集群架構的設計,類似 NVIDIA GB300 的 64 顆晶片共封裝方案。 每顆 Baltra 會內建 LPDDR 記憶體,目標是壓低成本並Charles 大量部署。ADC (Analog-to-Digital Converter) 與 convertor 設計會針對低精度 INT8/INT4 運算進行最佳化,這是 LLM inference 的常見需求。

然而,609 天的開發周期對 Apple 來說極具挑戰。過去的 Apple 晶片主要針對 consumer device 設計,伺服器端的 power density、 cooling solutions、以及 yield rate 面對完全不同的門檻。更何况,Google Gemini 已經在 TPU v5e 上 brewing 第四代 model,Apple 若等到 2026 年底才推出 Baltra,可能就已經落後兩代。

Apple Baltra AI 晶片開發時程與競爭對手技術迭代對比圖 Baltra 開發時程 vs Gemini TPU 迭代 時間軸 (2024–2027) PCC 上線 Baltra 開發 2024–2026 Google Gemini TPU v5e / v6 持續迭代

長期影響: 就算 Baltra 成功量產,Apple 仍需要时间建立軟體生态系统。PyTorch、TensorFlow 的 backends 都需要針對 Baltra 做優化,而研究人员與开发者習慣了 CUDA 或 TPU 的生態,要說服他們轉 platform 並非易事。Apple 最終可能像 AMD 目前的情况——硬體不錯,但软件生态跟不上,导致市场占有率始终卡在個位數。

Siri 將搭载 1.2 兆參數 Gemini,iOS 26.4 beta 會怎樣重塑整條生態鏈?

根據 Bloomberg Mark Gurman 的消息,新版 Siri 將採用 Google Gemini 的 1.2 兆參數版本。這是什麼概念?Anthropic 的 Claude 3 Opus 大約 5000 億參數,OpenAI 的 GPT‑4 約 1.8 兆參數(但未官方證實)。Gemini Ultra 目前公開資訊顯示是 1.5 兆參數左右,因此 Apple 很可能選用的是 Gemini Pro 或 Ultra 的微調版本。

這次合作不只是授權模型權限,更涵蓋 Google 的 Vertex AI 平台以及基礎設施。Apple 的數據會先經過自己的 Private Cloud Compute 做初步處理,再傳輸至 Google 的 datacenter 進行 heavy lifting。兩邊的協調機制會是黑盒子中的黑盒子,可能涉及 federated learning 的安排,讓兩個平台都能持續更新模型卻不直接交換 raw data。

iOS 26.4 beta 預計會帶來以下具體改變:

  • 更自然的對話上下文維持: 新 Siri 能保持 30 輪以上的對話記錄而不遗忘,Previous limitation 大約是 3–5 輪。
  • 多模態輸入: 用戶可以直接拍攝文件,Siri 即時分析內容並回答問題,這依賴 Gemini 的 vision-language model 能力。
  • 程式碼生成與解釋: Xcode 集成會變得更聰明,程式碼review、錯誤偵錯的上下文會包含更多專案層級資訊。
  • 個人化推薦: 利用 Apple 裝置上的 sensor data(心率、步數)結合 Google 的模型做健康建議。
Siri 產品架構變革示意圖:從本地模型到混合雲端協同運算 Siri 演進:本地與雲端協同 Apple Device Local Model PCC (10% util) Small LLM Google Cloud Gemini 1.2T TPU v5/v6 Vertex AI

這對整個生態鏈的衝擊不容小覷。一方面,Apple 的 AI 工具鏈(Core ML、Create ML)將被迫支援 Google 的模型格式,可能vey 原生 TensorFlow Lite 的格式轉換工作量。另一方面,App Store 開發者會看到全新的 SiriKit API,有些功能會變成 “cloud-only”,這對离线使用的情境會造成限制。長期來說,Apple ense 會面臨平台忠誠度的考驗——如果 Siri 最強大的功能需要連上 Google 雲端,那為什麼消費者還要選擇 Apple 而不是直接用 Android + Google Assistant?這可能是 Tim Cook 團隊目前最頭痛的战略難題。

長期來看,這會是 Apple 與 Google 十年後的終局之戰?

Apple 與 Google 的十年協議,表面上是技術合作,私底下可能藏著更複雜的棋局。Google 透過這筆生意,能將 Gemini 模型部署在 Apple 生態系的數十億台裝置上,光是 inference 請求量就能帶來持续性的數據回饋,這些數據對模型迭代的價值無法估量。Apple 雖然每年付出 10 億美元,但換來了時間窗口——不用等到 Baltra 完全成熟就能推出具有競爭力的 AI 功能。

根據 IDC 的預測,2027 年全球公有雲服務支出將達到 1.35 兆美元,其中 AI 相關占比逐年上升。 這代表什麼?如果 Apple 無法在 2027 年前將 PCC 利用率提升到 50% 以上,或讓 Baltra 成功 transition,那麼每年 10 億美元的支出只會越來越多。更慘的是,Google 可能會利用這段空窗期,把 Gemini 的 API ecosystem 打造成 AI 應用的標竿,到時候 Apple 即使推出自家晶片,也難以吸引開發者重寫代碼。

樂觀腳本: Baltra 在 2026 H2 成功量產,搭配 Apple 對隱私的強調,一些企业客户可能會傾向於使用 Apple Intelligence instead of Google Cloud 直接处理敏感数据。

悲觀腳本:Google Gemini 繼續快速迭代,Apple 永遠追不上版本落差,最后 Siri 變成第二轮公民,Apple 的高端品牌溢價被 AI 能力落後給稀釋。

目前看起來,Apple 的戰略是「用空間換時間」。10 億美元聽起來很多,但相較於 Apple 年收入將近 4000 億美元,這不過是 0.25% 的支出。問題不在錢,而在於能不能在 2027–2028 年間逆轉局势。否則,AI 時代的智能手机市場,真的可能從「iOS vs Android」轉成「Google-first AI OS vs Others」。

FAQ

Apple 為什麼不繼續投資 PCC 而要借助 Google?

PCC 目前利用率僅約 10%,等於十億美元等級的基礎建設大量閒置。若要擴充到足以運行 1.2 兆參數模型,需再擴建數倍容量,資本支出會暴增。與其自建,不如先借助 Google 成熟的 TPU 集群,爭取時間開發自身的 Baltra 晶片。

Baltra 晶片量產後,Apple 會完全脫離對 Google 的依賴嗎?

理論上可以,但實際運用上会很复杂。Google Gemini 模型仍在快速演進,Apple 即使有 Baltra,仍需模型授權或自行訓練同等級模型。短期內 Apple 可能會保持混合架構——部分功能留在 Google 雲端,部分逐步遷移回自家資料中心。完全切割至少需要 3–5 年時間。

使用者隱私在 Siri 上傳 Google 雲端時如何保障?

Apple 聲稱會繼續使用 Private Cloud Compute 作為中間層,語音請求會先在本機或 PCC 加密後傳給 Google,Google 僅處理推理過程而不留存原始音檔。但這事實上無法獨立驗證,因此隱私權倡議者對這項合作保持高度懷疑。歐洲與美國的監管機構未來很可能要求第三方審計。

Share this content: