數據驅動AI:為何龐大訓練數據庫才是關鍵?

Featured Image
數據是當今先進的 AI 系統的核心,但它的成本越來越高,使得只有富有的科技公司才能負擔得起。去年,OpenAI的研究人員詹姆斯·貝克爾(James Betker)在他的個人網站上發表了一篇關於生成式 AI 模型性質和訓練數據集的文章。在這篇文章中,貝克爾聲稱訓練數據是日益精密、能力強大的 AI 系統的關鍵,而不是模型的設計、架構或任何其他特徵。貝克爾寫道:“只要對相同的數據集進行足夠長時間的訓練,幾乎每個模型都會收斂到同一點。”貝克爾是否正確?訓練數據是否是決定模型能否回答問題、繪製人手或生成逼真城市景觀的最重要因素?這是很有可能的。統計機器生成式 AI 系統基本上是一堆統計數據,它們根據大量示例猜測哪些數據放在哪個位置是最“合理”的(例如,在句子“I go to the market”中,“go”在“to the market”之前)。因此,很容易理解,模型擁有越多的示例,訓練在這些示例上的模型性能就越好。AI2(Allen Institute for AI)的高級應用研究科學家凱爾·羅(Kyle Lo)告訴TechCrunch:“在你有了穩定的訓練設置之後,似乎性能提升來自於數據。”他舉例說,今年早些時候發布的文本生成模型Meta的Llama 3在架構上與AI2自家的OLMo模型非常相似,但性能卻優於後者。羅認為這是因為Llama 3訓練所使用的數據比AI2的數據多得多,這解釋了它在許多熱門AI基準測試中的優越性。這並不意味著訓練在指數級更大的數據集上就一定會得到指數級更好的模型。羅指出,模型遵循“垃圾進,垃圾出”的原則,因此數據的策劃和質量非常重要,可能比數據量更重要。“有可能一個小型模型通過精心設計的數據優於一個大型模型,”他補充說。“例如,大型模型Falcon 180B在LMSYS基準測試中排名第63位,而更小的模型Llama 2 13B則排名第56位。”在去年與TechCrunch的一次訪談中,OpenAI的研究人員加布里埃爾·戈(Gabriel Goh)表示,高質量的標註對於[DALL-E](https://openai.com/research/dall-e/) OpenAI的文本生成圖像模型的圖像質量改善貢獻巨大,超過了其前身DALL-E。他說:“我認為這是改善的主要原因,與[DALL-E 2](https://openai.com/research/dall-e-2/)相比,文本標註要好得多-根本無法相提並論。”許多AI模型,包括DALL-E 3和DALL-E 2,都是通過讓人類標註數據來使模型學習將這些標註與該數據的其他觀察特徵相關聯。例如,一個模型如果被餵入了許多帶有每個品種標註的貓圖片,最終將“學會”將像“bobtail”和“shorthair”這樣的詞與它們的獨特視覺特徵相關聯。像羅這樣的專家擔心,對大型、高質量的訓練數據集的日益重視將使得AI開發集中在那些能負擔得起這些數據集的數家公司手中。合成或基礎架構方面的重大創新可能會打破現狀,但這兩者似乎都還不在近期的視野中。“總的來說,負責管理對於AI開發有潛在用途的內容的實體都有動機將其材料鎖定起來,”羅說。“隨著AI技術的發展,越來越多的數據被限制在少數幾家公司手中。”

Share this content: