Stable Diffusion 背後的組織聲稱已從訓練資料集中移除 CSAM
– 訓練 Stable Diffusion 等生成式 AI 模型的資料集背後的組織 LAION 聲稱,他們已從資料集中移除所有已知的 CSAM(兒童性虐待材料)連結。這一舉措旨在解決對該資料集中存在 CSAM 的擔憂,這些擔憂源於 2023 年 12 月斯坦福大學互聯網觀察站的一項調查。
資料集清理和新版本的发布
LAION 從其資料集中移除所有已知的 CSAM 連結,並發布了新的資料集版本 Re-LAION-5B。這個新版本是 LAION-5B 的重新發布,其中包含來自非營利組織 Internet Watch Foundation、人權觀察組織、加拿大兒童保護中心和已解散的斯坦福大學互聯網觀察站的建議,並對資料集進行了“徹底清理”。
新的資料集版本 Re-LAION-5B 包含兩個版本:Re-LAION-5B Research 和 Re-LAION-5B Research-Safe。兩個版本都過濾了數千個已知和可能與 CSAM 有關的連結。Re-LAION-5B Research-Safe 版本還移除了額外的 NSFW(不適合工作場合)內容。
LAION 的資料集不是包含圖像,而是包含指向圖像的連結和圖像替換文字的索引。這些資料來自 Common Crawl 資料集,該資料集包含從網站和網頁上抓取的資料。
斯坦福大學互聯網觀察站的調查
斯坦福大學互聯網觀察站的調查發現,LAION-5B 資料集中包含至少 1,679 個指向從社交媒體帖子和成人網站抓取的非法圖像的連結。調查還發現,資料集中包含“各種不適當的內容,包括色情影像、種族歧視用語和有害的社會刻板印象”。
調查報告建議停止使用和分發使用 LAION-5B 資料集訓練的模型。
其他延伸主題
相關實例
優勢劣勢與影響
深入分析前景與未來動向
常見問題QA
A:LAION 的資料集來自 Common Crawl,該資料集包含從公開網站抓取的資料。因此,資料集中可能會包含一些來自非法網站的內容。
A:目前還不清楚資料集是否完全清理。然而,LA
相關連結:
Stable Diffusion – FREE Text-to-Image Online AI Site
How to use Stable Diffusion – Stable Diffusion Art
Share this content: