
DeepSeek,一家由中國量化對沖基金支持的人工智慧實驗室,近期憑藉其聊天機器人應用程式在蘋果應用商店和 Google Play 商店的爆紅,引發了全球關注。DeepSeek 的崛起不僅引發了華爾街對美國能否維持其在人工智能競賽中的領先地位,以及人工智能晶片的市場需求是否能夠持續的疑問,更令人好奇的是 DeepSeek 究竟是如何在短短時間內迅速竄紅的。
DeepSeek 的崛起:從對沖基金到全球熱門
DeepSeek 由 High-Flyer Capital Management 支持,這是一家利用人工智能輔助交易決策的中國量化對沖基金。High-Flyer 的創辦人梁文峰是一位人工智能愛好者,據說他在浙江大學讀書時就開始涉足交易領域。他在 2019 年創立了 High-Flyer Capital Management,專注於開發和部署人工智能演算法。2023 年,High-Flyer 成立了 DeepSeek 實驗室,專注於研究與其金融業務分離的人工智能工具。在 High-Flyer 的投資下,該實驗室最終分拆成一家獨立的公司,也稱為 DeepSeek。
DeepSeek 從一開始就為模型訓練建立了自己的數據中心集群。然而,與中國其他人工智能公司一樣,DeepSeek 也受到美國出口禁令的影響。為了訓練其最新模型,公司被迫使用英偉達 H800 晶片,這是針對美國公司提供的 H100 晶片的低功耗版本。
DeepSeek 的技術團隊據說以年輕人為主。公司積極從中國頂尖大學招募人工智能博士研究員。據《紐約時報》報導,DeepSeek 也聘請了沒有任何電腦科學背景的人,幫助其技術更好地理解各種各樣的學科。
DeepSeek 的強大模型
DeepSeek 在 2023 年 11 月推出了第一套模型——DeepSeek Coder、DeepSeek LLM 和 DeepSeek Chat。然而,直到去年春天,當這家新創公司發布下一代 DeepSeek-V2 模型家族時,人工智能產業才開始注意到 DeepSeek。DeepSeek-V2 是一款通用文本和圖像分析系統,在各種人工智能基準測試中表現出色,而且運行成本遠低於當時的同類模型。這迫使 DeepSeek 的國內競爭對手,包括字節跳動和阿里巴巴,降低了一些模型的使用價格,甚至將其他模型完全免費提供。
DeepSeek 在 2024 年 12 月發布的 DeepSeek V3 模型,進一步提升了 DeepSeek 的知名度。根據 DeepSeek 的內部基準測試,DeepSeek V3 的表現優於可下載的公開可用模型,例如 Meta 的模型,以及只能通過 API 訪問的「封閉」模型,例如 OpenAI 的模型。DeepSeek 的 R1「推理」模型同樣令人印象深刻。該模型於今年 1 月發布,DeepSeek 聲稱 R1 在關鍵基準測試中的表現與 OpenAI 的 o1 模型相當。作為一個推理模型,R1 有效地對自己進行事實核查,這有助於它避免一些通常會讓模型陷入困境的陷阱。推理模型需要更長的時間(通常比典型的非推理模型長幾秒到幾分鐘)才能得出解決方案。好處是它們在物理、科學和數學等領域往往更可靠。
DeepSeek 的限制:中國監管和商業模式不明朗
DeepSeek V3、R1 和 DeepSeek 其他模型都存在一個缺點。作為中國開發的人工智能,它們受到中國互聯網監管機構的限制,以確保其響應「體現社會主義核心價值觀」。例如,在 DeepSeek 的聊天機器人應用程式中,R1 不會回答關於天安門廣場或台灣自治的問題。
如果 DeepSeek 擁有商業模式,目前尚不清楚該模式的具體內容。公司以不同的價格出售其產品,但尚未宣布明確的盈利策略。
DeepSeek 的
相關連結:
Share this content: