AI基建可靠性是這篇文章討論的核心

AI基礎設施可靠性大戰:Credo與TensorWave合作背後的千億美元市場密碼
圖:現代AI數據中心內部的高速網絡架構,Credo的ZeroFlap連接解決方案正在為這類設備提供關鍵的可靠性和性能。

快速精華區

💡 核心結論

Credo Technology與TensorWave的合作不僅是普通的供應鏈協議,而是AI基礎設施從硬件堆疊轉向系統級可靠性競爭的里程碑事件。ZeroFlap AECs和PILOT平台的結合,為GPU集群提供零軟連結跳動和預測性維護,直接解決了大規模AI訓練中$1000/分鐘級的宕機成本。

📊 關鍵數據

全球AI基礎設施市場將從2026年的$75.4B增長至2034年的$498B(CAGR 26.6%)。全球AI總支出2026年達$2.52T,同比增長44%。單個H100 GPU成本$8k-$10k+,1,024 GPU集群的平均故障間隔時間(MTTF)僅3.66天。

🛠️ 行動指南

企業應優先評估AI基建供應商的端到端可靠性解決方案,而非單一硬件規格。credosemi.com的ZeroFlap和PILOT平台代表了從被動維護到主動預測的范式轉移。

⚠️ 風險預警

AI基建市場面臨供電瓶頸和GPU massacre 供應限制。Credo作為AMD生態系統的一部分,其增長高度依賴於AMD在AI加速器市場的份額。投資者需關注供需平衡和估值風險。

引言:當可靠性成為CPU級別的性能指標

2026年2月,Credo Technology(NASDAQ: CRDO)發布了一則看似尋常的新聞稿:與AMD專屬AI雲端供應商TensorWave達成合作,部署其ZeroFlap AECs和PILOT遙測平台。然而,當我們深入觀察這場合作的技術細節和市場背景時,發現這不僅是普通供應鏈協議,而是AI基礎設施領域正在發生的根本性范式轉移——從追求純粹的算力堆砌,轉向對系統級可靠性的極致追求。

在當今的大型語言模型訓練中,一個1000 GPU的集群每分鐘訓練成本可能超過$10,000。任何連接故障導致的集群停機,都會在幾個小時內吞噬掉數十萬美元的先期投入。Credo的ZeroFlap技術承諾的「零軟連結跳動」和PILOT平台的預測性維護,恰好瞄準了這個價值數十億美元的痛點。

為什麼AI集群的連接可靠性比GPU更重要?

傳統數據中心基礎設施長期以來忽視了互連層的可靠性,認為只要確保服務器、存儲和交換機的冗余即可。然而,AI工作負載,尤其是大規模模型訓練,對網絡可靠性的要求達到了前所未有的高度。

AI訓練任務通常需要數周甚至數月的連續運行,採用RDMA(遠程直接內存存取)技術實現多GPU之間的數據同步。任何微小的連接抖動(jitter)或軟故障都會觸發重傳機制,導致訓練停滯。Meta的研究表明,在数千GPU規模的集群中,一個5%的性能延遲就相當於損失了18個GPU年的計算時間——這是不可接受的財務和環境成本。

TensorWave之所以選擇Credo,正是看中了其ZeroFlap AECs在AI後端網絡中的独特优势。這些800G的主动電纜使用先進的retimer和FEC(前向誤碼糾正)電路,確保在7米長度下實現零軟連結跳動,完美支持無損RDMA網絡。這不僅是性能提升,更是保障數百萬 dollar訓練任務不中斷的必要條件。

Pro Tip 專家見解

Credo的PILOT平台將每一次鏈路連接變成了一個數據節點,通過實時遙測和AI驅動的預測分析,在故障發生前提前檢測到異常。這種將硬件降解轉化為可預測信號的能力,正是 hyperscale 數據中心夢寐以求的運維范式和價值主張。

深度剖析:ZeroFlap技術如何實現零故障運行

ZeroFlap是Credo的核心技術家族,目前已經達到800G傳輸速率。從技術角度分析,其實現「零軟連結跳動」的關鍵在於多層次的信號完整性保障:

  • 窄徑銅芯電纜設計降低損耗和發熱
  • 集成低功耗高性能retimer芯片,實現56G和112G每通道的可靠傳輸
  • 創新的FEC電路對抗高速信號的噪聲和衰減
  • 支援0.5米到7米的靈活部署,覆蓋 rack-to-switch 和 host-to-switch 場景

這些技術指標聽起來相對抽象,但放到實際AI集群部署中卻具有決定性意義。傳統被動銅纜在超過3米長度就難以保證800G的信號完整性,這迫使許多数据中心不得不採用更加昂貴的光學方案。ZeroFlap通過將智能電路集成到連接器端,用相對低成本實現了過去的光纜性能,同時保持了更低的功耗和更簡潔的部署。

更重要的是,ZeroFlap系列包括HIPWR(HiWire)和CLOS兩個子家族,分別針對 rack-scale 和 in-rack 應用的優化。這種全方位覆蓋使AI基建供應商可以從單一廠商獲得完整的後端網絡解決方案。

Pro Tip 專家見解

Open Compute Project的認證表明Credo的技術已經被 hyperscale 客戶接受為標準。未來我們可能看到ZeroFlap成為AI集群後端網絡的默認配置,類似於今天的 DAC(直接 attached 銅纜)在短距離連接中的地位。

PILOT平台:AI時代的預測性運維基石

如果說ZeroFlap解決了硬件層面的可靠性問題,那麼PILOT平台則將這一行為 Software-Defined化,實現了從被動修復到主動預防的跨越。PILOT代表Predictive Integrity, Link Optimization, and Telemetry,這是一個專為高速互連設計的診斷和分析軟件平台。

PILOT的核心價值在於:

  1. 實時遙測:持續監控每個鏈路的信號完整性、溫度、功耗等關鍵參數,建立基線模型
  2. AI驅動預測:利用歷史數據模式識別潛在的退化趨勢,在物理故障發生前發出預警
  3. 自動優化:根據鏈路狀態動態調整參數,延長硬件壽命並維持最佳性能
  4. 快速故障隔離:當問題發生時,快速定位具體哪一條鏈路或端口異常,縮短MTTR

在TensorWave的部署中,PILOT與ZeroFlap的深度融合意味著每一條連接都不再是黑盒子,而是可監控、可管理、可預測的智能節點。對於一個載有數千GPU的AI集群,這轉化為數十萬甚至百萬美元級別的運營成本節省。

Pro Tip 專家見解

Credo官方新聞稿明確指出PILOT是一個SDK,允許客戶深度集成到自家的管理系統中。這預示著Credo正在從硬件供應商轉型為平台提供商,其毛利率和客戶粘性將顯著提升。

為何股價仍在下跌?市場的困惑與理性

值得玩味的是,儘管Credo與TensorWave的合作被業內譽為「技術上的勝利」,CRDO股價在消息公布後反而出現下跌。這種看似矛盾的現象揭示了市場對AI硬件股的短期情緒與長期價值的错位。

首先,從估值角度,CRDO在2025年11月後經歷了一輪強勁上漲, investors 已經price in了大量AI基建的樂觀預期。任何消息都無法達到「beat and raise」的極高标准。其次,Credo的營收規模(數億美元级别)與AI基建的總體支出(數千億美元)相比仍然較小,合作雖然象徵意義重大,但對短期營收貢獻有限。

第三,市場對AI投資周期的不確定性仍然存在。Meta、Google等巨頭雖然加大資本支出,但經濟放緩陰影下,企業可能推遲非核心AI項目。這種宏观风险使得连델makers對AI基础设施股的態度更為謹慎。

然而從技術和战略角度看,這次合作無疑是Credo正確且必要的路徑。通過與TensorWave這樣的新興AI雲端廠商合作,Credo得以在尚未完全標準化的AI後端網絡領域建立先發优势和技術壁壘。未來隨著TensorWave等平台擴大規模,Credo的軟體授權和服務收入將構成新型增長引擎。

Pro Tip 專家見解

深度分析報告指出,Credo正在從一個「AI鏟子股」轉型為「AI管道股」,估值模型可能需要從純硬件倍率調整為软硬一體平台倍率。 latter 通常享有更高的估值溢價。

圖表:AI基礎設施市場規模預測(2025-2034)

全球AI基礎設施市場規模預測(2025-2034) 顯示從2025年到2034年全球AI基礎設施市場規模的增長趨勢,年份從左到右,市場規模以十億美元為單位,增長曲線顯示從2025年的約720億到2034年的約4660億美元。 2025 2026 2027 2028 2029 2030 2031 2034 $720B $912B $1.2T $1.6T $2.1T $2.8T $3.6T $4.66T 全球AI基礎設施市場規模(十億美元) 市場規模($B)

資料來源:Gartner, Fortune Business Insights, Precedence Research 綜合預測

FAQ:投資者最關心的三大問題

Credo Technology的ZeroFlap技術相比傳統光纜有哪些優勢?

ZeroFlap AECs在成本、功耗和部署便利性上都具有優勢。傳統800G光纜價格更高且需要光模塊供电,而ZeroFlap使用主動電路延長銅纜傳輸距離至7米,功耗僅為1-2瓦/端口,同時維持無損RDMA網絡所必需的零軟連結跳動特性。這對於追求效能的AI集群部署尤為重要。

TensorWave作為初創公司為何能吸引如此多的AI基建合作?

TensorWave成立於2023年,但獲得AMD、Nexus Venture Partners和Magnetar等機構的1.43億美元融資。其選擇AMD Instinct加速器而非NVIDIA,形成了差異化定位。在AI雲端服務定價上,AMD系ecosystem通常更具競爭力,這對於尋找成本效益的AI開發者非常有吸引力。Credo與TensorWave的合作能讓其在新型AI雲平台建立早期技術綁定,是一種典型的「先發优势」策略。

AI基建市場是否會出現供應過剩?

短期內供需持續緊張。Gartner預測2026年全球AI支出將達$2.52T,同比增長44%。但長期而言,新增產能可能導致周期性波動。關鍵在於基建供應商能否轉換為提供差異化價值的服務提供商,而不僅是出售硬件。Credo的PILOT平台正是為了應對這一挑戰。

Share this content: