在大型語言模型(LLM)與其他基於 Transformer 的模型上建立應用程式時,記憶體效率是一個重要的考量因素。近年來,由於 Transformer 模型的上下文視窗越來越長,能夠容納更多的 token,導致運算成本和效能下降。為了解決這個問題,日本東京的新創公司 Sakana AI 開發了一項名為「通用 Transformer 記憶體(Universal Transformer Memory)」的技術,這項創新技術使用特殊的神經網路來最佳化 LLM,幫助企業降低成本,同時提升效能。
神奇的記憶體優化技術:通用 Transformer 記憶體
通用 Transformer 記憶體採用神經注意力記憶模組(NAMM)來最佳化提示。 NAMM 是一種簡單的神經網路,可以判斷 LLM 記憶體中每個 token 是否應該「記住」或「遺忘」。透過這種方式,模型能夠移除無用的資訊,並專注於最關鍵的資訊,對於需要長上下文推理的任務來說尤其重要。
NAMM 在與 LLM 分開的環境中訓練,並在推理時與預訓練模型結合,這使其具有靈活性且易於部署。 NAMM 運作於 Transformer 的注意力層,分析每個 token 的關係和重要性,並根據注意力值決定哪些 token 應該保留或移除。 這種基於注意力的機制使得訓練過的 NAMM 可以應用於不同模型,而無需額外的訓練。
通用 Transformer 記憶體的應用與效益
實例:NAMM 如何優化 LLM 效能
通用 Transformer 記憶體的優勢與劣勢
- 顯著降低 LLM 的記憶體使用量,節省運算成本。
- 提升模型效能,尤其在需要長上下文推理的任務上表現出色。
- NAMM 可以應用於不同模型,具有良好的可移植性。
- 透過自動調整行為,根據任務類型優化記憶體使用。
- NAMM 需要存取模型的內部啟動,目前僅適用於開源模型。
- 需要針對特定任務進行訓練,才能發揮最佳效能。
通用 Transformer 記憶體的未來展望
常見問題QA
目前,NAMM 需要存取模型的內部啟動,因此只能應用於開源模型。 但研究人員正在努力擴展 NAMM 的應用範圍,使其能夠適用於更多模型。
通用 Transformer 記憶體並非要取代現有的提示最佳化技術,而是提供了一種全新的思路,可以與現有技術互補,進一步提升 LLM 的記憶體效率和效能。
相關連結:
siuleeboss – 為您提供一站式的有用AI資訊、食譜和數位教學
Share this content: