Memory optimization, Universal Transformer, Neural Attention Memory	Model, Performance improvement
image credit : pexels

在大型語言模型(LLM)與其他基於 Transformer 的模型上建立應用程式時,記憶體效率是一個重要的考量因素。近年來,由於 Transformer 模型的上下文視窗越來越長,能夠容納更多的 token,導致運算成本和效能下降。為了解決這個問題,日本東京的新創公司 Sakana AI 開發了一項名為「通用 Transformer 記憶體(Universal Transformer Memory)」的技術,這項創新技術使用特殊的神經網路來最佳化 LLM,幫助企業降低成本,同時提升效能。

神奇的記憶體優化技術:通用 Transformer 記憶體

  • 通用 Transformer 記憶體如何運作?
    通用 Transformer 記憶體採用神經注意力記憶模組(NAMM)來最佳化提示。 NAMM 是一種簡單的神經網路,可以判斷 LLM 記憶體中每個 token 是否應該「記住」或「遺忘」。透過這種方式,模型能夠移除無用的資訊,並專注於最關鍵的資訊,對於需要長上下文推理的任務來說尤其重要。
  • NAMM 如何與 LLM 協作?
    NAMM 在與 LLM 分開的環境中訓練,並在推理時與預訓練模型結合,這使其具有靈活性且易於部署。 NAMM 運作於 Transformer 的注意力層,分析每個 token 的關係和重要性,並根據注意力值決定哪些 token 應該保留或移除。 這種基於注意力的機制使得訓練過的 NAMM 可以應用於不同模型,而無需額外的訓練。
  • 通用 Transformer 記憶體的應用與效益

    實例:NAMM 如何優化 LLM 效能

  • Sakana AI 的研究人員在 Meta Llama 3-8B 模型上訓練了一個 NAMM,實驗結果顯示,NAMM 顯著提升了模型在長序列上的自然語言和程式碼問題上的表現。同時,NAMM 透過丟棄不必要的 token,將 LLM 模型的快取記憶體使用量減少了高達 75%。
  • 除了 Llama 模型之外,NAMM 也在其他模型,例如 Llava(電腦視覺)和 Decision Transformer(強化學習)上取得了成功。 NAMM 透過丟棄冗餘資訊,例如影片幀和次佳動作,幫助這些模型專注於最相關的資訊,進而提高效能。
  • 通用 Transformer 記憶體的優勢與劣勢

  • 優勢:
    • 顯著降低 LLM 的記憶體使用量,節省運算成本。
    • 提升模型效能,尤其在需要長上下文推理的任務上表現出色。
    • NAMM 可以應用於不同模型,具有良好的可移植性。
    • 透過自動調整行為,根據任務類型優化記憶體使用。
  • 劣勢:
    • NAMM 需要存取模型的內部啟動,目前僅適用於開源模型。
    • 需要針對特定任務進行訓練,才能發揮最佳效能。
  • 通用 Transformer 記憶體的未來展望

  • Sakana AI 研究人員正在探索更進階的技術,例如在 LLM 的訓練期間使用 NAMM,以進一步擴展其記憶體功能。
  • 通用 Transformer 記憶體的出現為 LLM 的發展開闢了新的道路,有望在未來創造更多令人興奮的突破,提升 LLM 的效能和效率。
  • 常見問題QA

  • 通用 Transformer 記憶體是否可以應用於所有 LLM?

    目前,NAMM 需要存取模型的內部啟動,因此只能應用於開源模型。 但研究人員正在努力擴展 NAMM 的應用範圍,使其能夠適用於更多模型。
  • 通用 Transformer 記憶體會取代現有的提示最佳化技術嗎?

    通用 Transformer 記憶體並非要取代現有的提示最佳化技術,而是提供了一種全新的思路,可以與現有技術互補,進一步提升 LLM 的記憶體效率和效能。
  • 相關連結:

    siuleeboss – 為您提供一站式的有用AI資訊、食譜和數位教學

    Share this content: