
DeepSeek 是一款由中國人工智能實驗室開發的聊天機器人應用程序,在今年初迅速走紅,引發了全球科技界的關注。它不僅在 Apple App Store 和 Google Play 商店取得了令人矚目的成績,更重要的是,其背後的人工智能模型挑戰了美國在人工智能領域的主導地位,引發了人們對於人工智能芯片需求以及未來發展的思考。究竟 DeepSeek 是如何崛起,其背後的技術和商業模式又是如何運作的呢?
DeepSeek 的崛起:從量化對沖基金到人工智能先鋒
DeepSeek 來自 High-Flyer Capital Management,一家由梁文峰創立的中國量化對沖基金。梁文峰早在浙江大學求學期間就開始涉足交易領域,並於 2019 年創立了 High-Flyer Capital Management,專注於開發和部署人工智能算法。2023 年,High-Flyer 成立了 DeepSeek 實驗室,專注於人工智能工具的研究,並在 2024 年正式將其拆分為獨立公司。
DeepSeek 從一開始就建立了自己的數據中心集群,為模型訓練提供強大的算力。然而,由於美國對中國的技術出口禁令,DeepSeek 在訓練模型時不得不使用性能較弱的 Nvidia H800 芯片。儘管如此,DeepSeek 的技術團隊仍舊以年輕人才為主,積極招募來自中國頂尖大學的人工智能博士,並聘請非計算機科學背景的專家來幫助他們更好地理解各種學科。
DeepSeek 在 2023 年 11 月推出了第一批模型,包括 DeepSeek Coder、DeepSeek LLM 和 DeepSeek Chat。但真正讓業界關注的是 2024 年春推出的 DeepSeek-V2 系列模型。DeepSeek-V2 是一款通用的文本和圖像分析系統,在各種人工智能基準測試中表現出色,而且運行成本遠低於當時的同類模型。這迫使中國的競爭對手,包括字節跳動和阿里巴巴,降低了部分模型的使用價格,甚至將部分模型免費提供。隨後推出的 DeepSeek V3 和 R1 模型則進一步鞏固了 DeepSeek 的地位,使其成為全球人工智能領域的領跑者之一。
DeepSeek 的強大模型:突破技術瓶頸
DeepSeek-V2 在各種人工智能基準測試中表現出色,並且運行成本遠低於當時的同類模型,迫使中國的競爭對手降低了部分模型的使用價格,甚至將部分模型免費提供。
DeepSeek V3 在 DeepSeek 的內部基準測試中表現優於其他下載和開放的模型,以及僅能通過 API 訪問的“封閉”模型,例如 OpenAI 的 GPT-4。
DeepSeek 的 R1 “推理”模型於今年 1 月發布,其推理能力與 OpenAI 的 o1 模型相當。R1 模型通過自我事實核查來避免一些常見的錯誤,並且在物理學、科學和數學等領域表現更加可靠。
DeepSeek 的商業模式:隱藏的秘密
DeepSeek 目前尚未公開其商業模式,但其產品和服務的定價遠低於市場水平。這表明他們可能正在探索新的盈利模式,例如通過提供免費服務來吸引用戶,並在其他領域獲取收益。
DeepSeek 的爭議:中國的政治干預
由於 DeepSeek 是中國公司,其人工智能模型受到中國互聯網監管機構的監管,必須確保其響應“體現社會主義核心價值觀”。例如,DeepSeek 的聊天機器人應用程序中的 R1 模型不會回答有關天安門廣場或台灣自治的問題。
DeepSeek 的未來:挑戰與機遇
DeepSeek 憑藉其強大的技術實力,在全球人工智能領域掀起了波瀾。然而,它也面臨著來自美國和中國的競爭對手以及政治干
相關連結:
Share this content: