Cerebras 系統挑戰 Nvidia,帶來前所未有的 AI 推理速度!
– 人工智慧 (AI) 的蓬勃發展帶來了 AI 推理服務的熱潮,推理服務是將訓練好的 AI 模型應用於實際數據以進行預測或解決任務的關鍵。隨著 AI 應用的普及,推理服務的需求也隨之激增,成為雲端工作負載中增長最快的部分。然而,現有的 AI 推理服務並無法滿足所有客戶的需求,這使得 Cerebras 系統公司推出的「全球最快 AI 推理服務」成為眾人關注的焦點。
Cerebras 系統挑戰 Nvidia 的霸主地位
Cerebras 系統公司是一家專注於 AI 運算晶片的初創公司,其目標是挑戰 Nvidia 在 AI 晶片市場的領導地位。 Cerebras 系統公司相信,其推出的新型「高速推理」服務將成為 AI 產業的里程碑,能夠達到每秒 1000 個 tokens 的速度,這將為 AI 應用開創新的機遇。
專為 AI 設計的強大晶片:WSE-3
Cerebras 系統公司的核心競爭力來自其自主研發的專用晶片。 公司的旗艦產品 WSE-3(Wafer Scale Engine 3)處理器於今年三月正式發布,這款基於五奈米製程的先進晶片擁有 1.4 兆個晶體管、超過 90 萬個運算核心及 44GB 的靜態隨機存取記憶體 (SRAM),是其前代產品 WSE-2 的兩倍性能。與 Nvidia 的 H100 GPU 相比,WSE-3 具有 52 倍以上的核心數和 7000 倍的記憶體頻寬,這使得其推理速度更快,且成本更低。
WSE-3 處理器被集成於 Cerebras CS-3 系統中,該系統大小與小型冰箱相當,處理器本身則約有一個披薩大小,並內建冷卻和電力模組。 根據 Cerebras 的數據,WSE-3 的峰值速度可達到 125 petaflops(一 petaflop 等於每秒一千兆次運算),為推理服務提供了強大的運算支援。
驚人的速度與成本效益
Cerebras 推出的 AI 推理服務,號稱速度比使用 Nvidia 最強大 GPU 的雲端推理服務快 20 倍。 以開源的 Llama 3.1 8B 模型為例,Cerebras 的推理服務能夠達到每秒 1800 個標記的速度,而對於 Llama 3.1 70B 模型,則可達到每秒 450 個標記。與此同時,該服務的價格極具競爭力,起步價僅為每百萬個標記 10 美分,這意味著其 AI 推理工作負載的性價比是現有服務的 100 倍。
這項推理服務特別適合於「代理型 AI」(agentic AI)工作負載,這類應用需要頻繁地提示其基礎模型,以完成用戶指定的任務。 Cerebras 的推理服務在速度與成本上皆具顯著優勢,特別是針對那些需要實時或高頻度運行的 AI 應用。
記憶體頻寬突破
大多數 AI 推理服務速度緩慢的原因在於大型語言模型 (LLM) 的順序性和對記憶體頻寬的高需求。 例如,Llama 3.1 70B 模型擁有 700 億個參數,每個參數需要 2 個位元的儲存空間,整個模型需要 140GB 的記憶體。由於 GPU 僅有約 200MB 的片上記憶體,模型無法完全儲存於片上,每次生成輸出標記時都需要將整個模型從記憶體移至運算核心進行推理運算。這導致了推理速度的極大限制。
然而,Cerebras 透過其獨特的晶圓級設計,成功將 44GB 的 SRAM 整合到一顆晶片上,進而消除了對外部記憶體的依賴以及外部記憶體與運算核心之間的緩慢傳輸瓶頸。 WSE-3 擁有 21
相關連結:
Homepage | Cerebras
Home – Cerebras
Company – Cerebras
Views: 5