
“`html
近年來,人工智慧(AI)領域發展迅速,各國都在積極投入研發。中國AI實驗室 DeepSeek 近期異軍突起,其聊天機器人應用程式在蘋果App Store和Google Play商店名列前茅,引起了廣泛關注。DeepSeek 的 AI 模型以其高效的運算技術而聞名,甚至引發了華爾街對於美國是否能在 AI 競賽中保持領先地位,以及 AI 晶片需求是否能持續的質疑。本文將深入探討 DeepSeek 的崛起之路、技術優勢、以及其對全球 AI 格局可能產生的影響。
DeepSeek 的崛起:華爾街的隱憂
DeepSeek 背後是由 High-Flyer Capital Management 投資支持,這是一家中國量化對沖基金,利用 AI 來輔助其交易決策。AI 愛好者梁文峰於 2015 年共同創立了 High-Flyer。據報導,梁文峰在浙江大學就讀期間就開始涉足交易,並於 2019 年成立 High-Flyer Capital Management,專注於開發和部署 AI 演算法。2023 年,High-Flyer 成立 DeepSeek 實驗室,專門研究與其金融業務分離的 AI 工具。隨後,DeepSeek 實驗室發展成為一家獨立公司,也稱為 DeepSeek,High-Flyer 是其投資者之一。
DeepSeek 從一開始就建立了用於模型訓練的資料中心集群。但與中國的其他 AI 公司一樣,DeepSeek 也受到了美國出口禁令的影響。為了訓練其最新的模型之一,DeepSeek 不得不使用 Nvidia H800 晶片,這是美國公司可用的 H100 晶片的效能較弱版本。
據報導,DeepSeek 的技術團隊非常年輕,並積極從中國頂尖大學招募 AI 博士研究人員。據《紐約時報》報導,DeepSeek 還聘請了沒有電腦科學背景的人才,以幫助其技術更好地理解各種主題。
DeepSeek 強大的模型:突破性技術的證明
DeepSeek 於 2023 年 11 月推出了其第一組模型——DeepSeek Coder、DeepSeek LLM 和 DeepSeek Chat。但直到去年春天,該公司發布了其下一代 DeepSeek-V2 系列模型時,AI 行業才開始注意到它。
DeepSeek-V2 是一個通用的文本和圖像分析系統,在各種 AI 基準測試中表現良好,而且運行成本遠低於當時的可比模型。它迫使包括字節跳動和阿里巴巴在內的 DeepSeek 國內競爭對手降低了其某些模型的使用價格,並使其他模型完全免費。
DeepSeek V3 於 2024 年 12 月推出,更加聲名大噪。根據 DeepSeek 的內部基準測試,DeepSeek V3 的性能優於可下載的公開模型(如 Llama 2)和只能通過 API 訪問的「封閉」模型(如 OpenAI 的 GPT-4)。
DeepSeek 聲稱,R1「推理」模型於 1 月發布,在關鍵推理基準測試中的表現與 OpenAI 的 GPT-4o 模型一樣出色。作為一個推理模型,R1 可以有效地進行事實核查,這有助於它避免一些通常會讓模型出錯的陷阱。推理模型通常比典型的非推理模型需要更長的時間(通常是幾秒到幾分鐘)才能得出解決方案。好處是它們在物理、科學和數學等領域往往更可靠。
令人擔憂的限制:中國的監管
然而,DeepSeek V3 和 DeepSeek 的其他模型存在一個缺點。作為中國開發的 AI,它們必須受到中國互聯網監管機構的監管,以確保其回應「體現社會主義核心價值觀」。例如,在 DeepSeek 的聊天機器人應用程式中,R1 不會回答有關天安門廣場或台灣自治的問題。相關連結:
Share this content: