
DeepSeek 的崛起引發了全球科技界的高度關注,這款由中國 AI 實驗室 DeepSeek 開發的聊天機器人應用程序,憑藉其強大的性能和低廉的價格,迅速席捲全球。DeepSeek 的成功不僅僅是 AI 技術的突破,更反映了中美 AI 產業競爭的激烈程度,以及中國在 AI 領域崛起所帶來的影響。
DeepSeek 的崛起:中國 AI 力量的崛起
DeepSeek 背後是 High-Flyer Capital Management,一家以 AI 驅動的量化對沖基金。DeepSeek 的創辦人梁文峰,是一位 AI 愛好者,早在 2015 年就與他人共同創辦了 High-Flyer。2019 年,梁文峰將 High-Flyer 轉型為一家對沖基金,專注於開發和部署 AI 算法。2023 年,High-Flyer 成立了 DeepSeek 實驗室,專注於研究 AI 工具,並於同年將其分拆為一家獨立公司。DeepSeek 從一開始就建立了自己的數據中心集群,用於模型訓練。然而,由於美國對中國的出口禁令,DeepSeek 在訓練其最新模型時被迫使用 Nvidia H800 芯片,這是一款性能低於美國公司可使用的 H100 芯片。
DeepSeek 的技術團隊以年輕人才為主,公司積極招募來自中國頂尖大學的 AI 博士生。DeepSeek 還聘用沒有計算機科學背景的人員,幫助其技術更好地理解各種主題。DeepSeek 推出了第一批模型,包括 DeepSeek Coder、DeepSeek LLM 和 DeepSeek Chat,但直到 2024 年春天發布下一代 DeepSeek-V2 系列模型時,AI 行業才開始關注。DeepSeek-V2 是一款通用文本和圖像分析系統,在各種 AI 基準測試中表現出色,而且運行成本遠低於當時的同類模型。DeepSeek-V2 的成功迫使中國國內競爭對手,包括字節跳動和阿里巴巴,降低其部分模型的使用價格,甚至將其他模型免費提供。
DeepSeek V3 於 2024 年 12 月推出,進一步提升了 DeepSeek 的知名度。根據 DeepSeek 內部的基準測試,DeepSeek V3 的性能超越了 Meta 等可下載的公開模型,以及 OpenAI 等僅能通過 API 訪問的“封閉”模型。同樣令人印象深刻的是 DeepSeek 的 R1“推理”模型。R1 於 1 月發布,DeepSeek 聲稱其在關鍵基準測試中的表現與 OpenAI 的 o1 模型一樣好。作為一個推理模型,R1 有效地自我事實核查,這有助於它避免通常會讓模型陷入困境的一些陷阱。推理模型需要更長的時間,通常比典型的非推理模型多花幾秒到幾分鐘才能得出解決方案。好處是它們在物理學、科學和數學等領域往往更可靠。
DeepSeek 的争议:监管与伦理
然而,DeepSeek V3、R1 和 DeepSeek 的其他模型都存在一個缺點。作為中國開發的 AI,它們受到中國互聯網監管機構的審查,以確保其響應“體現社會主義核心價值觀”。例如,在 DeepSeek 的聊天機器人應用程序中,R1 拒絕回答有關天安門廣場或台灣自治的問題。
DeepSeek 的未来:机遇与挑战
如果 DeepSeek 有一個商業模式,目前尚不清楚是什麼模式。公司將其產品和服務的價格定在遠低於市場價值的水平,甚至將部分產品免費提供。DeepSeek 表示,效率上的突破使其能夠保持極端的成本競爭力。然而,一些專家對公司提供的數據持懷疑態度。無論如何,開發人員都開始使用 DeepSeek 的模型,這些模型並非開源,因此開發人員無法訪問源代碼或對其進行修改。但這也意味着 DeepSeek 可以更好地控制其模型的開發和部署,並確保它們符合其價值觀和利益。
DeepSeek 的影响:全球 AI 競爭的升級
相關連結:
Share this content: