AI產生的幻覺：揭秘企業如何運用RAG技術避免陷阱

幻覺－基本上是生成式 AI 模型所說的謊言－對於希望將技術整合到業務操作中的企業來說是一個大問題。因為模型沒有真正的智能，只是根據其私有的預測詞彙、圖像、語音、音樂和其他數據來預測，有時會出錯。在《華爾街日報》最近的一篇文章中，作者回憶起微軟的生成式 AI 模型曾經發明了與會者，並暗示會議通話的主題實際上並未在通話中討論。正如我之前寫過的那樣，這可能是當今基於轉換器的模型架構中無法解決的問題。但是，一些生成式 AI 廠商表示，它們可以通過一種名為檢索增強生成（Retrieval Augmented Generation，簡稱 RAG）的技術方法基本上消除這些幻覺。這是一家名為 Squirro 的廠商如何推銷的：該提供的核心概念是嵌入在解決方案中的檢索增強 LLM（Retrieval Augmented LLMs）或檢索增強生成（RAG）…我們的生成式 AI 在承諾零幻覺方面是獨一無二的。它生成的每一條信息都可以追溯到來源，確保可信性。這是一個類似的推銷語言：使用 RAG 技術和經過細調的具有行業特定知識訓練的大型語言模型，SiftHub 允許企業生成個性化回復，並且沒有幻覺。這保證了增加的透明度和降低的風險，並激發了對於滿足所有需求的 AI 的絕對信任。RAG 是由數據科學家 Patrick Lewis、Meta 和倫敦大學研究員，以及 2020 年創造這個術語的主要作者提出的。應用於模型時，RAG 通過關鍵字搜索檢索可能與問題相關的文檔，例如關於超級碗的維基百科頁面，然後要求模型根據這個附加上下文生成答案。AI2 的研究科學家 David Wadden 解釋道：“當您與生成式 AI 模型進行交互，並提出問題時，模型的默認答案是從它的‘參數記憶’中回答——即從其參數中存儲的知識，該知識是通過大量網絡數據訓練而來的。”他補充道：“但是，就像如果您面前有一本書或文件，您可能會給出更準確的答案一樣，在某些情況下，對於模型來說也是如此。”不可否認，RAG 是有用的——它允許將模型生成的內容歸因於檢索到的文檔，以驗證其事實性（並且作為附加好處，避免潛在侵犯版權的情況）。RAG 還允許不希望使用其文檔來訓練模型的企業（例如，高度管制的行業，如醫療保健和法律）以更安全和暫時的方式讓模型利用這些文檔。但是，RAG 當然無法阻止模型產生幻覺。並且它也有一些許多廠商掩蓋的限制。Wadden 表示，RAG 在“知識密集型”場景中最為有效，其中用戶希望使用模型來解決“信息需求”——例如，找出去年誰贏得了超級碗。在這些場景中，回答問題的文檔很可能包含與問題相同的許多關鍵字（例如“超級碗”、“去年”），這使得通過關鍵字搜索相對容易找到。對於“推理密集型”任務，如編碼和數學，情況變得更加棘手，很難通過基於關鍵字的搜索查詢來指定回答請求所需的概念，更不用說識別哪些文檔可能相關了。即使對於基本問題，模型也可能會被文檔中的無關內容“分心”，特別是在答案不明顯的長文檔中。或出於尚不清楚的原因，它們可以選擇忽略檢索到的文檔的內容，而是依靠它們的參數記憶。RAG 在硬件需求方面也比較昂貴。

Share this content:

AI產生的幻覺：揭秘企業如何運用RAG技術避免陷阱

Related posts: