
“`html
中國AI實驗室DeepSeek近期迅速竄紅,其聊天機器人應用程式在蘋果App Store和Google Play上名列前茅。DeepSeek的AI模型採用高效運算技術訓練,引發華爾街質疑美國是否能在AI競賽中保持領先地位,以及AI晶片的需求是否能持續。本文將深入探討DeepSeek的崛起、技術優勢、以及其對AI產業的潛在影響。
DeepSeek的神秘起源
DeepSeek由High-Flyer Capital Management支持,這是一家中國量化對沖基金,利用AI進行交易決策。AI愛好者梁文峰於2015年共同創立High-Flyer。據報導,梁文峰在浙江大學就讀期間開始涉足交易,並於2019年創立High-Flyer Capital Management,專注於開發和部署AI演算法。2023年,High-Flyer成立DeepSeek實驗室,專門研究與金融業務無關的AI工具。隨後,該實驗室拆分為獨立公司,也稱為DeepSeek,High-Flyer是其投資者之一。
DeepSeek從一開始就建立了自己的資料中心集群進行模型訓練。但與中國其他AI公司一樣,DeepSeek也受到美國出口禁令的影響。為了訓練其最新的模型之一,該公司被迫使用Nvidia H800晶片,這是H100晶片的效能較弱版本,而美國公司可以使用H100晶片。據說DeepSeek的技術團隊非常年輕,並積極從中國頂尖大學招募AI博士研究人員。據《紐約時報》報導,DeepSeek還聘用沒有電腦科學背景的人員,以幫助其技術更好地理解各種主題。
DeepSeek的強大模型
DeepSeek於2023年11月推出了第一套模型,包括DeepSeek Coder、DeepSeek LLM和DeepSeek Chat。但直到去年春天,當該公司發布其下一代DeepSeek-V2系列模型時,AI產業才開始注意到它。DeepSeek-V2是一種通用文本和圖像分析系統,在各種AI基準測試中表現出色,而且運行成本遠低於當時的同類模型。它迫使包括字節跳動和阿里巴巴在內的國內競爭對手降低了一些模型的使用價格,並使其他模型完全免費。
DeepSeek V3於2024年12月推出,進一步提升了DeepSeek的聲譽。根據DeepSeek的內部基準測試,DeepSeek V3的效能優於可下載的開放模型(如Llama 3)以及只能通過API訪問的「封閉」模型(如OpenAI的GPT-4)。同樣令人印象深刻的是DeepSeek的R1「推理」模型。DeepSeek聲稱R1在關鍵推理任務上的表現與OpenAI的GPT-4o模型一樣出色。作為一種推理模型,R1可以有效地自我檢查,這有助於它避免一些常見的陷阱。推理模型通常需要更長的時間(通常是幾秒到幾分鐘)才能得出解決方案,但它們在物理、科學和數學等領域往往更可靠。
DeepSeek的發展限制
作為中國開發的AI,DeepSeek的R1、DeepSeek V3和其他模型必須受到中國互聯網監管機構的審查,以確保其回應「體現社會主義核心價值觀」。例如,在DeepSeek的聊天機器人應用程式中,R1不會回答有關天安門廣場或台灣自治的問題。
DeepSeek的驚人流量增長
今年3月,DeepSeek的訪問量超過1650萬。Similarweb編輯David Carr表示:「就3月而言,DeepSeek排名第二,儘管每日訪問量比2月下降了25%。」不過,與ChatGPT相比,DeepSeek的流量仍然相形見絀,ChatGPT在3月份的每周活躍用戶數超過5億。今年5月,DeepSeek在其開發者平台Hugging Face上發布了其R1推理AI
相關連結:
Share this content: