隨著人工智慧的發展,訓練資料的需求量不斷增加,然而,現有真實資料的獲取越來越困難,導致了「人工智慧是否可以僅使用由其他人工智慧生成的資料進行訓練?」這個問題的出現。這看似是一個荒謬的想法,但實際上已經存在了一段時間,並且隨著新資料的稀缺性,這個方法正逐漸獲得重視。
人工智慧訓練資料的必要性與類型
人工智慧系統本質上是統計機器,它們需要大量範例來學習這些範例中的模式,並根據這些模式進行預測。例如,在電子郵件中,「敬啟者」通常會在「關切事宜」之前出現。人工智慧系統可以學習這種模式並應用於預測。
人工智慧系統需要帶有標記的資料,這些標記通常是對資料的意義或部分進行的文字標記。這些標記就像路標一樣,教導模型區分不同的事物、地點和概念。例如,一個識別廚房照片的模型需要大量帶有「廚房」標籤的廚房照片,讓模型學習到「廚房」與冰箱、檯面等特徵的聯繫。如果這些照片被標記為「牛」,那麼模型就會將它們識別為牛,這強調了標記品質的重要性。
人工智慧資料標記的需求
由於人工智慧市場的快速增長,對帶有標記的訓練資料的需求也大幅增加。市場研究公司 Dimension Market Research 估計,全球資料標記市場規模將在未來 10 年內增長到 103.4 億美元。
目前,許多人工智慧模型的訓練資料都依賴於人工標記。標記員由資料標記公司僱用,負責為人工智慧訓練集創建標籤。有些標記工作報酬較高,尤其需要專業知識,例如數學專業知識。但也有些標記工作十分辛苦,標記員在發展中國家的工作報酬僅為每小時幾美元,而且沒有任何福利或工作保障。
資料獲取的困境
人工標記資料存在一些問題,例如標記速度慢、標記員的主觀性可能會影響標記結果、標記員可能會誤解標記說明等等。此外,人工標記資料的成本很高。
真實資料的成本也很高,例如 Shutterstock 和 Reddit 等公司會向人工智慧公司收取高額費用,讓他們可以存取其資料庫。此外,隨著資料所有者越來越擔心其資料被濫用,以及他們無法獲得應有的權利,他們開始限制對公開資料的存取。
隨著更多資料被限制,研究人員擔心,到 2026 年至 2032 年之間,開發人員將無法獲得足夠的資料來訓練生成式人工智慧模型。這個問題,加上人們對版權和不當內容可能出現在公開資料集中的擔憂,迫使人工智慧公司尋找新的解決方案。
合成資料的出現
合成資料似乎可以解決上述所有問題。它可以快速生成帶有標記的資料,並且可以根據需要創建更多範例。此外,合成資料的成本相對較低,並且可以解決資料獲取的困難。
合成資料的應用案例
Anthropic 使用合成資料訓練其旗艦模型 Claude 3.5,該模型可以進行對話、生成文本和編寫代碼。Anthropic 的方法是使用另一個人工智慧模型生成大量合成資料,然後使用這些資料訓練 Claude 3.5。
Meta 使用合成資料微調其 Llama 模型,該模型
相關連結:
Share this content: