
DeepSeek 近期以其強大的 AI 模型,席捲全球科技界,引發了熱議。這家來自中國的 AI 實驗室,憑藉其創新技術,快速竄紅,引發外界對其技術實力及未來發展的關注。DeepSeek 的崛起,也讓外界開始質疑美國是否能繼續保持其在 AI 領域的領先地位,以及 AI 晶片的需求是否能持續下去。本文將深入探討 DeepSeek 的崛起之路,分析其技術優勢、商業模式、發展前景以及潛在的影響。
DeepSeek 的崛起:從量化基金到 AI 巨頭
DeepSeek 背後的推手是 High-Flyer Capital Management,一家以 AI 技術驅動交易決策的中國量化對沖基金。High-Flyer 由 AI 愛好者梁文峰創立於 2015 年,他早在浙江大學求學期間就開始涉足交易領域。2019 年,梁文峰正式創立了 High-Flyer Capital Management,專注於開發和部署 AI 演算法。2023 年,High-Flyer 成立了 DeepSeek 實驗室,專注於 AI 工具的研究,與其金融業務分開。DeepSeek 後來從實驗室獨立出來,成為一家獨立的公司,High-Flyer 也是其投資者之一。
DeepSeek 從成立之初就建立了自有的資料中心集群,用於模型訓練。然而,DeepSeek 受到美國出口禁令的影響,無法獲得最先進的 AI 晶片。為了應對這一挑戰,DeepSeek被迫使用 Nvidia H800 晶片,該晶片是 Nvidia H100 的低功耗版本。儘管如此,DeepSeek 仍然取得了突破性進展,其技術團隊由年輕且充滿活力的研究人員組成,積極招募來自頂尖中國大學的 AI 博士。DeepSeek 也聘請非計算機科學專業的人員,幫助其技術更好地理解各種領域。
DeepSeek 的強大模型:技術突破與市場影響
DeepSeek 在 2023 年 11 月推出了第一套模型,包括 DeepSeek Coder、DeepSeek LLM 和 DeepSeek Chat。但直到 2024 年春季,DeepSeek 推出下一代 DeepSeek-V2 模型系列後,才真正引起 AI 行業的關注。DeepSeek-V2 是一款通用的文本和圖像分析系統,在各種 AI 基準測試中表現出色,並且運行成本遠低於當時可比的模型。這迫使 DeepSeek 的國內競爭對手,包括字節跳動和阿里巴巴,降低其部分模型的價格,甚至將其他模型完全免費提供。
DeepSeek 在 2024 年 12 月推出的 DeepSeek V3 模型,進一步鞏固了其在 AI 領域的領先地位。根據 DeepSeek 的內部基準測試,DeepSeek V3 的性能超越了 Meta 等可下載的公開模型,以及 OpenAI 等僅能通過 API 訪問的“封閉”模型。DeepSeek 的 R1 “推理”模型也同樣令人印象深刻。該模型於 2025 年 1 月發布,DeepSeek 聲稱 R1 在關鍵推理任務中的表現與 OpenAI 的 o1 模型相當。作為一個推理模型,R1 能有效地自我驗證,這有助於它避免通常會使模型出現錯誤的陷阱。推理模型在得出解決方案時通常需要更長的時間,通常比典型的非推理模型要多幾秒到幾分鐘。但優點是,它們在物理學、科學和數學等領域往往更可靠。
DeepSeek 的挑戰:政策限制與商業模式
DeepSeek 的模型雖然性能出色,但也面臨著來自中國網路監管的限制。中國網路監管部門要求 DeepSeek 的模型“體現社會主義核心價值觀”,因此 DeepSeek 的聊天機器人應用程式無法回答有關天安門事件或台灣自治等敏感問題。這限制了 DeepSeek 模型的應用範圍,也引發了
相關連結:
Share this content: