
DeepSeek 是一款由中國人工智能實驗室開發的聊天機器人應用程序,近期在 Apple App Store 和 Google Play 商店中迅速竄紅,引發全球關注。DeepSeek 的 AI 模型以計算效率高的技術進行訓練,令華爾街質疑美國是否能維持其在人工智能領域的領先地位,以及人工智能芯片的需求是否能持續。本文將深入探討 DeepSeek 的崛起之路、背後故事和發展潛力。
DeepSeek 的崛起之路
DeepSeek 的母公司 High-Flyer Capital Management 是一家中國量化對沖基金,利用人工智能為其交易決策提供支持。創始人梁文峰是一位人工智能愛好者,他在 2015 年共同創立了 High-Flyer。2019 年,梁文峰將 High-Flyer Capital Management 發展成為一家專注於開發和部署人工智能算法的對沖基金。2023 年,High-Flyer 成立了 DeepSeek 實驗室,致力於研究與其金融業務分離的人工智能工具。在 High-Flyer 的投資支持下,該實驗室後來獨立成為一家名為 DeepSeek 的公司。
DeepSeek 從一開始就為模型訓練構建了自己的數據中心集群。然而,與中國其他人工智能公司一樣,DeepSeek 也受到美國出口禁令的影響。為了訓練其最新的模型之一,公司被迫使用 Nvidia H800 芯片,這是一款比美國公司可以使用的 H100 芯片性能較低的版本。據說 DeepSeek 的技術團隊非常年輕,公司積極從中國頂尖大學招募人工智能博士研究人員。此外,DeepSeek 還聘用沒有計算機科學背景的人員,以幫助其技術更好地理解各種主題。
DeepSeek 在 2023 年 11 月推出了第一批模型,包括 DeepSeek Coder、DeepSeek LLM 和 DeepSeek Chat。然而,直到 2024 年春季,DeepSeek 推出了下一代 DeepSeek-V2 模型系列後,人工智能行業才開始注意到 DeepSeek。DeepSeek-V2 是一款通用的文本和圖像分析系統,在各種人工智能基準測試中表現出色,並且比當時的同類模型運行成本低得多。這迫使 DeepSeek 在中國的競爭對手,包括字節跳動和阿里巴巴,降低了其某些模型的價格,甚至將其他模型完全免費提供。DeepSeek 在 2024 年 12 月推出的 DeepSeek V3 模型,更進一步提升了 DeepSeek 的知名度。根據 DeepSeek 的內部基準測試,DeepSeek V3 的性能優於可以下載和公開使用的模型,例如,以及只能通過 API 訪問的「封閉」模型,例如 OpenAI 的 。
同樣令人印象深刻的是 DeepSeek 的 R1 「推理」模型。該模型於 2025 年 1 月發布,DeepSeek 聲稱 R1 在關鍵的基準測試中表現出色,與 OpenAI 的 o1 模型不相上下。作為一個推理模型,R1 能夠有效地自我驗證,這有助於它避免通常會讓模型陷入困境的一些陷阱。與典型的非推理模型相比,推理模型需要更長的時間來得出解決方案,通常需要幾秒到幾分鐘。好處是,它們在物理學、科學和數學等領域往往更加可靠。
DeepSeek 的優勢和劣勢
DeepSeek 的 AI 模型在性能、成本效益和效率方面表現出色。DeepSeek-V2 和 DeepSeek V3 的性能優於競爭對手,同時運行成本更低。DeepSeek 的 R1 模型則具有強大的推理能力,能夠進行自我驗證,提高其可靠性。DeepSeek 的技術團隊年輕而充滿活力,並且積極從頂尖大學招募人才。
DeepSeek 的模型受到中國互聯網監管機構的限制,其回應必須「體現社會主義核心價值觀」。這導致 DeepSeek 的聊天機器人應用程序無法回答有關天安門廣場或台灣自治等敏感問題。此外,DeepSeek 的商業模式尚不清楚,其產品和服務的定價遠低於市場水平。
DeepSeek 的前景
相關連結:
Share this content: