AI模型偏見揭秘:多語言敏感話題處理差異大

Featured Image
不是所有的生成式 AI 模型都是平等的,特別是在它們對極具爭議性的主題如何處理方面。在最近在 2024 年的 ACM 公平性、責任和透明度 (FAccT) 會議上發表的一項研究中,卡內基梅隆大學、阿姆斯特丹大學和 AI 初創公司 Hugging Face 的研究人員測試了幾個開放式文本分析模型,其中包括 Meta 的 Llama,以了解它們對 LGBTQ+ 權利、社會福利、代孕等問題的回答方式。他們發現這些模型的回答在一致性上存在差異,這反映出訓練模型所使用的數據中嵌入的偏見,他們表示:“在我們的實驗中,我們發現不同地區的模型在處理敏感話題時存在顯著差異。”研究人員測試了五個模型,包括 Mistral 的 Mistral Cohere’s Command-R、阿里巴巴的 Qwen、Google 和 Meta 的 Llama 3,使用包含移民、LGBTQ+ 權利和殘疾權利等主題範疇的問題和陳述的數據集。為了探索語言偏見,他們使用多種語言,包括英語、法語、土耳其語和德語,將陳述和問題提供給模型。研究人員表示,關於 LGBTQ+ 權利的問題觸發了最多的“拒絕”情況,這些情況是指模型沒有回答的情況。但是涉及移民、社會福利和殘疾權利的問題和陳述也產生了很多拒絕情況。某些模型在一般情況下拒絕回答“敏感”問題的頻率比其他模型高。例如,相比 Mistral,Qwen 的拒絕數量超過了四倍,這表明阿里巴巴和 Mistral 在開發模型時的方法論上存在差異。這些拒絕受到模型的隱含價值觀以及開發它們的組織所做的明確價值觀和決策的影響,比如為了避免對敏感問題發表評論而進行的微調選擇,Pistilli 說:“根據我們的研究,模型回應所傳達的價值觀存在顯著差異,這取決於文化和語言。”可能是在總部位於北京的阿里巴巴的情況下,這些決策受到政治壓力的影響。去年九月,英國廣播公司 (BBC) 發現,由中國搜索巨頭百度開發的 AI 助手 Ernie 在判定為太具爭議性的問題上逃避回答,特別是觸及到西藏壓迫、中國國家主席習近平和天安門廣場事件的問題。在中國,網絡審查管理局 – 這是該國的互聯網監管機構 – 必須批准生成式 AI 服務,其中一個標準是這些服務“反映核心社會主義價值觀”。但是模型對某些問題的回答也可能指向世界觀上的根本差異 – 包括參與標註模型訓練數據的人的觀點。對 AI 模型的訓練數據來說,標註或標籤是至關重要的,它們使模型能夠將特定概念與特定數據關聯起來(例如,反對 LGBTQ+ 的言論是不好的)。這些標註來自標註者,通常是承包商。而標註者 – 像我們所有人一樣 – 都有偏見,這些偏見可能會在他們的標註中表現出來,並因此影響到訓練在它們上面的模型。

Share this content: