
DeepSeek 近期在全球引起廣泛關注,其聊天機器人應用程式在 Apple App Store 和 Google Play 商店均名列前茅。這家中國 AI 實驗室憑藉其高效的 AI 模型訓練技術,引發華爾街對美國在 AI 領域領先地位的質疑,以及對 AI 晶片需求持續性的擔憂。本文將深入探討 DeepSeek 的起源、技術優勢、所面臨的挑戰,以及對全球 AI 競賽的潛在影響。
DeepSeek 崛起的核心:技術優勢與策略
DeepSeek 由 High-Flyer Capital Management 支持,這是一家使用 AI 進行量化交易的中國對沖基金。High-Flyer 由 AI 愛好者 Liang Wenfeng 於 2015 年共同創立,並於 2019 年成立 High-Flyer Capital Management 對沖基金,專注於開發和部署 AI 演算法。2023 年,High-Flyer 啟動 DeepSeek 作為一個獨立於其金融業務的 AI 工具研究實驗室。DeepSeek 從一開始就建立了自己的資料中心叢集進行模型訓練。
DeepSeek 所面臨的挑戰
與其他中國 AI 公司一樣,DeepSeek 也受到美國出口禁令的影響。為了訓練其最新的模型之一,該公司被迫使用 Nvidia H800 晶片,這是 H100 晶片的效能較低版本,而美國公司可以使用 H100。DeepSeek 的技術團隊據說非常年輕,並且積極從中國頂尖大學招聘 AI 博士研究人員。根據《紐約時報》報導,DeepSeek 還聘用沒有電腦科學背景的人員,以幫助其技術更好地理解各種主題。
DeepSeek 的強大模型
DeepSeek 在 2023 年 11 月推出了第一組模型,包括 DeepSeek Coder、DeepSeek LLM 和 DeepSeek Chat。然而,直到去年春天,該新創公司發布了其下一代 DeepSeek-V2 系列模型,AI 產業才開始注意到它。DeepSeek-V2 是一個通用的文字和圖像分析系統,在各種 AI 基準測試中表現出色,並且在當時的運行成本遠低於同類模型。這迫使 DeepSeek 的國內競爭對手,包括字節跳動和阿里巴巴,降低了其某些模型的使用價格,並使其他模型完全免費。2024 年 12 月推出的 DeepSeek V3 更增加了 DeepSeek 的聲譽。根據 DeepSeek 的內部基準測試,DeepSeek V3 的效能優於可下載、公開可用的模型(如 Llama 3),以及只能通過 API 存取的「封閉」模型(如 OpenAI 的 GPT-4)。同樣令人印象深刻的是 DeepSeek 的 R1「推理」模型。DeepSeek 聲稱 R1 在關鍵推理基準測試中的效能與 OpenAI 的 GPT-4o 模型一樣好。作為一個推理模型,R1 可以有效地進行事實核查,這有助於它避免一些通常會使模型陷入困境的陷阱。與典型的非推理模型相比,推理模型需要更長的時間(通常是幾秒鐘到幾分鐘)才能得出解決方案。好處是它們在物理、科學和數學等領域往往更可靠。
令人擔憂的限制:中國審查的影響
然而,DeepSeek V3 和 DeepSeek 的其他模型也存在缺點。作為中國開發的 AI,它們受到中國互聯網監管機構的約束,以確保其回應「體現社會主義
相關連結:
Share this content: