
DeepSeek,一個由中國人工智能實驗室打造的聊天機器人應用程式,在今年迅速竄紅,不僅在蘋果應用商店和 Google Play 商店登上榜首,更讓華爾街和業界人士紛紛質疑美國是否能持續領先人工智能競賽,以及人工智能芯片的需求是否能持續下去。究竟 DeepSeek 從何而來,又是如何迅速崛起為國際明星的呢?
DeepSeek 的崛起:中國 AI 崛起的縮影
DeepSeek 背後的投資者是 High-Flyer Capital Management,一家運用人工智能進行交易決策的中國量化對沖基金。該公司創始人梁文峰從浙江大學開始就熱衷於交易,並於 2019 年創立了 High-Flyer Capital Management,專注於開發和部署人工智能算法。2023 年,High-Flyer 成立了 DeepSeek 實驗室,專注於研究與其金融業務分離的人工智能工具。DeepSeek 實驗室隨後獨立成為一家公司,High-Flyer 也是其投資者之一。從一開始,DeepSeek 就為模型訓練建立了自己的數據中心集群。但與中國其他人工智能公司一樣,DeepSeek 也受到美國出口禁令的影響。為了訓練其最新的模型之一,公司被迫使用英偉達 H800 芯片,這款芯片是 H100 的低性能版本,而 H100 可供美國公司使用。
DeepSeek 的技術團隊以年輕為主。據說公司積極從中國頂尖大學招募人工智能博士研究人員。DeepSeek 還聘用沒有任何計算機科學背景的人員,以幫助其技術更好地理解各種學科。
DeepSeek 在 2023 年 11 月推出了首批模型,包括 DeepSeek Coder、DeepSeek LLM 和 DeepSeek Chat。但直到去年春天,該初創公司發布了下一代 DeepSeek-V2 系列模型,人工智能行業才開始注意到它。DeepSeek-V2 是一個通用文本和圖像分析系統,在各種人工智能基準測試中表現出色,並且運行成本遠低於當時的同類模型。這迫使中國本土競爭對手,包括字節跳動和阿里巴巴,降低部分模型的價格,並將其他模型完全免費提供。
DeepSeek 於 2024 年 12 月發布的 DeepSeek V3 模型,進一步提升了其知名度。根據 DeepSeek 的內部基準測試,DeepSeek V3 的性能優於 Meta 等可下載、公開可用的模型,以及 OpenAI 等只能通過 API 訪問的“封閉”模型。DeepSeek 的 R1 “推理”模型同樣令人印象深刻。該模型於 1 月發布,DeepSeek 宣稱其在關鍵推理基準測試中的表現與 OpenAI 的 o1 模型一樣好。作為一個推理模型,R1 能夠有效地自我校驗,這有助於它避免通常會讓模型跌倒的陷阱。推理模型通常需要更長的時間(通常比典型的非推理模型多幾秒到幾分鐘)才能得出解決方案。但優點是,它們在物理學、科學和數學等領域往往更可靠。
DeepSeek 的潛在挑戰
DeepSeek 的 R1、DeepSeek V3 和其他模型都有一個缺點,那就是由於它們是中國開發的人工智能,因此受中國互聯網監管機構的約束,以確保其響應“體現核心社會主義價值觀”。例如,在 DeepSeek 的聊天機器人應用中,R1 拒絕回答關於天安門廣場或台灣自治的問題。
DeepSeek 的商業模式尚不清楚。該公司對產品的定價,似乎是一個不明朗的策略,也引發了外界对于其商业可持续性的质疑。
DeepSeek 的未來展望
DeepSeek 將繼續投入研發,不斷優化其人工智能模型,以提升其在各個领域的性能,並擴大其應用範圍。
DeepSeek 的崛起,預示著中國人工智能公司將與 Open
相關連結:
Share this content: