
在人工智慧領域中,大型語言模型(LLM)的發展日新月異,其應用也逐漸擴展至各個領域。然而,高昂的開發成本一直是阻礙 LLM 大規模應用的主要因素。為此,開源 LLM 近年來備受關注,DeepSeek 的出現更進一步推動了開源 LLM 的發展。最近,舊金山的人工智慧新創公司 Deep Cogito 推出了全新開源大型語言模型(LLM)系列 Cogito v1,其表現令人驚艷,甚至直逼先進的閉源模型。
Deep Cogito 的 Cogito v1:開源 LLM 的突破性進展
Cogito v1 基於 Meta 的 Llama 3.2 模型微調而成,採用獨特的蒸餾和增強(IDA)訓練方法。與傳統的人類回饋強化學習(RLHF)或教師模型蒸餾不同,IDA 分配更多計算資源來產生解決方案,然後將推理過程蒸餾到模型參數中,建立回饋循環。這種方法類似於 Google AlphaGo 的自我對弈,但應用於自然語言處理。
Cogito v1 模型在通用知識、數學推理和多語言任務方面表現出色。在 MMLU 測試中,Cogito 3B(標準模式)的得分比 LLaMA 3.2 3B 高 6.7 個百分點,在推理模式下,Cogito 3B 的得分更是超過自身的標準模式,展現了 IDA 基於推理的優勢。Cogito 8B(標準模式)在 MMLU 的得分也比 LLaMA 3.1 8B 高出 12.8 個百分點。
Cogito v1 原生支援工具調用,這是代理和 API 整合系統日益重視的功能。Cogito 3B 支援四種工具調用模式,而 LLaMA 3.2 3B 則不支援。在工具調用測試中,Cogito 3B 表現優異,簡單工具調用得分為 92.8%,多重工具調用得分更超過 91%。
Cogito v1 的影響與應用
企業的機會與挑戰
Cogito v1 的開源商業許可特性,使企業能夠低成本部署高性能 AI 模型,無需負擔昂貴的專有模型訂閱費。這對於中小企業而言,降低了 AI 應用的門檻,使其更容易實現業務自動化和智慧化。
Cogito v1 的混合推理能力為企業提供了更靈活的 AI 應用場景。在需要快速回應的客戶服務場景中,標準模式可以提供即時答案;而在涉及複雜問題解決或決策支援的場景中,推理模式能夠提供更深入的分析和更可靠的結果。企業可以根據不同業務需求,靈活切換模型的工作模式,提高整體效率和準確性。
Cogito v1 的工具調用原生支援,使企業開發更複雜 AI 應用時更方便。企業可以將 Cogito 模型與系統和 API 整合,開發更強操作功能的 AI 助理或代理人,從查詢資訊到操作無縫過渡。客服 AI 不僅可以回答問題,還能直接查詢訂單系統、更新客戶資訊或觸發特定流程。
對於有技術力的企業,Deep Cogito 的蒸餾和增強(IDA)訓練方法提供了一個值得研究的方向。企業可以嘗試使用類似方法,根據特定範疇數據和任務最佳化基礎模型,開發更適合業務場景的專業 AI 系統。
開源 AI 的未來趨勢
Cogito v1 的出現和其技術路線反映了 AI 界幾個關鍵趨勢。首先,開源 LLM 的性能差距快速縮小,甚至在某些方面超越了
相關連結:
Share this content: