
DeepSeek 的爆紅,震驚了全球科技界。這個由中國 AI 實驗室 DeepSeek 開發的聊天機器人應用程式,在短短時間內席捲 Apple App Store 和 Google Play,引起全球關注。DeepSeek 運用計算效率高的技術訓練 AI 模型,挑戰了美國在 AI 領域的領導地位,也引發了 AI 芯片需求能否持續的質疑。DeepSeek 從何而來?它又是如何迅速崛起,成為國際焦點?
DeepSeek 的崛起:中國 AI 的強勢挑戰
DeepSeek 背後的推手是 High-Flyer Capital Management,一家利用 AI 進行交易決策的中國量化對沖基金。DeepSeek 的創辦人梁文峰是一位 AI 愛好者,他在 2015 年與人共同創辦了 High-Flyer。2019 年,梁文峰將 High-Flyer Capital Management 設立為對沖基金,專注於開發和部署 AI 演算法。2023 年,High-Flyer 成立了 DeepSeek 實驗室,專注於 AI 工具的研究,與其金融業務分開。High-Flyer 成為 DeepSeek 的投資者之一,實驗室後來獨立成立,也稱為 DeepSeek。從一開始,DeepSeek 就為模型訓練建立了自己的數據中心集群。但與中國其他 AI 公司一樣,DeepSeek 也受到美國出口禁令的影響。為了訓練最近的模型之一,DeepSeek被迫使用 NVIDIA H800 芯片,這款芯片的效能不如美國公司可獲得的 H100 芯片。DeepSeek 的技術團隊以年輕為主,據說公司積極從中國頂尖大學招聘博士 AI 研究人員。DeepSeek 還聘請了一些沒有計算機科學背景的人,幫助其技術更好地理解各種主題,這也為 DeepSeek 的技術帶來更豐富的應用層面。
DeepSeek 在 2023 年 11 月推出了第一套模型,包括 DeepSeek Coder、DeepSeek LLM 和 DeepSeek Chat。然而,直到 2024 年春天,DeepSeek 推出下一代 DeepSeek-V2 模型系列後,AI 行業才開始關注它。DeepSeek-V2 是一款通用文本和圖像分析系統,在各種 AI 基準測試中表現出色,而且運行成本遠低於當時的同類模型。這迫使中國國內競爭對手,包括字節跳動和阿里巴巴,降低了部分模型的價格,甚至將其他模型免費提供。2024 年 12 月發布的 DeepSeek V3 模型,更讓 DeepSeek 名聲大噪。根據 DeepSeek 的內部基準測試,DeepSeek V3 的性能優於可下載的公開模型,例如 Meta 的模型,以及只能通過 API 訪問的「封閉」模型,例如 OpenAI 的模型。DeepSeek 的 R1「推理」模型同樣令人印象深刻。DeepSeek 聲稱,這款於 2025 年 1 月發布的模型,在關鍵領域的表現與 OpenAI 的 o1 模型相當。作為推理模型,R1 可以有效地自我驗證,這有助於它避免一些通常會讓模型出錯的陷阱。與典型的非推理模型相比,推理模型通常需要更長時間(通常幾秒鐘到幾分鐘)才能得出解決方案。但好處是,它們在物理學、科學和數學等領域往往更可靠。然而,R1、DeepSeek V3 和 DeepSeek 其他模型都有一個缺點。由於它們是由中國開發的 AI,因此受到中國互聯網監管部門的審查,以確保其回應「體現核心社會主義價值觀」。例如,在 DeepSeek 的聊天機器人應用程式中,R1 不會回答有關天安門廣場或台灣自治的問題。
DeepSeek 的顛覆性策略:低價策略與開放性
DeepSeek 的影響:美國 AI 的壓力與中國 AI 的崛起
DeepSeek 的未來:挑戰與機遇
常見問題QA
DeepSeek 的模型目前並非完全開放,但部分模型可以通過 API 訪問。DeepSeek 的開放策略仍在不斷演進,未來可能會推出更多開放的模型。
相關連結:
Share this content: