AI偏見揭露:研究發現文本分析模型對敏感話題處理不一

Featured Image
不是所有生成式 AI 模型都是平等的,特別是在處理具有爭議性的主題時。在最近於 2024 年的 ACM 公平、責任和透明度(FAccT)會議上發表的一項研究中,卡內基梅隆大學、阿姆斯特丹大學和 AI 初創公司 Hugging Face 的研究人員測試了幾個開放式文本分析模型,包括 Meta 的 Llama,以了解它們如何回答有關 LGBTQ+ 權利、社會福利、代孕等問題。他們發現這些模型在回答問題時存在不一致的情況,這反映了訓練模型所使用的數據中嵌入的偏見。研究共同作者、首席倫理學家 Giada Pistilli 在接受 TechCrunch 的採訪時表示:“在我們的實驗中,我們發現不同地區的模型在處理敏感話題時存在顯著差異。我們的研究顯示,模型的回應所傳達的價值觀存在顯著差異,這取決於文化和語言。”文本分析模型,就像所有生成式 AI 模型一樣,都是統計概率機器。根據大量的例子,它們猜測哪些數據在哪裡放置最“合理”(例如,在句子“I go to the market”中,“go”在“the market”之前)。如果這些例子存在偏見,模型也會存在偏見,並且這種偏見將在模型的回應中顯示出來。在他們的研究中,研究人員使用包含有關移民、LGBTQ+ 權利和殘疾權利等主題的問題和陳述的數據集,測試了五個模型 – Mistral 的 Mistral Cohere’s Command-R,阿里巴巴的 Qwen,谷歌和 Meta 的 Llama 3。為了探索語言偏見,他們以多種語言,包括英語、法語、土耳其語和德語,將陳述和問題提供給這些模型。根據研究人員的說法,有關 LGBTQ+ 權利的問題觸發了最多的“拒絕”情況 – 也就是模型不回答的情況。但是有關移民、社會福利和殘疾權利的問題和陳述也產生了大量的拒絕情況。某些模型比其他模型更經常拒絕回答“敏感”問題。例如,相比於 Mistral,Qwen 的拒絕次數超過了四倍,Pistilli 認為這體現了阿里巴巴和 Mistral 在開發模型時的兩極化方法的象徵。這些拒絕受到模型的隱含價值觀以及開發它們的組織的明確價值觀和決策的影響,例如為避免對敏感問題發表評論而進行的微調選擇。她說:“我們的研究顯示,模型的回應所傳達的價值觀存在顯著差異,這取決於文化和語言。”可能是因為總部位於北京的阿里巴巴在這方面做出了受政治壓力影響的決策。去年 9 月,英國廣播公司(BBC)的一篇報導發現,中國搜索巨頭百度開發的 AI 助手 Ernie 對於任何它認為太有爭議性的問題都不回答,尤其是涉及到西藏壓迫、中國國家主席習近平和天安門事件的問題。在中國,網絡審查管理部門必須批准生成式 AI 服務,而該機構的標準之一是這些服務“反映核心社會主義價值觀”。但是,模型對某些問題的回應也可能指出了世界觀上的根本差異 – 包括參與標註模型訓練數據的人的觀點。對於 AI 模型的訓練數據,標註或標籤是至關重要的,它使模型能夠將特定概念與特定數據關聯起來(例如,反對 LGBTQ+ 的言論是不好的)。這些標註來自標註者,通常是承包人。而標註者 – 就像我們所有人一樣 – 都有偏見,這些偏見可能會體現在他們的標註上,進而體現在訓練以這些標註為基礎的模型上。

Share this content: