AI偏見揭露:多語言模型對敏感話題處理的不一致性

Featured Image
不是每個生成式人工智慧模型都是相同的,特別是在處理具有爭議性主題時。在最近在2024年ACM公平性、責任性和透明度(FAccT)會議上發表的一項研究中,卡內基梅隆大學、阿姆斯特丹大學和人工智慧初創公司Hugging Face的研究人員測試了幾個開放式文本分析模型,包括Meta的Llama,以了解它們對LGBTQ+權利、社會福利、代孕等問題的回答方式。他們發現這些模型的回答往往不一致,這反映出訓練模型所使用的數據中存在的偏見。該研究的共同作者、首席倫理學家Giada Pistilli告訴TechCrunch:“在我們的實驗中,我們發現不同地區的模型對敏感話題的處理方式存在顯著差異。”文本分析模型和所有生成式人工智慧模型一樣,都是統計概率機器。它們根據大量的例子猜測哪些數據在哪裡最有“意義”(例如,在句子“I go to the market”中,“go”一詞在“the market”之前)。如果例子帶有偏見,模型也會帶有偏見,並且這種偏見將顯示在模型的回答中。在他們的研究中,研究人員使用包含有關移民、LGBTQ+權利和殘疾權利等主題的問題和陳述的數據集,測試了五個模型——Mistral的Mistral Cohere的Command-R、阿里巴巴的Qwen、谷歌和Meta的Llama 3。為了探索語言偏見,他們將這些陳述和問題以包括英語、法語、土耳其語和德語在內的多種語言餵給模型。根據研究人員的說法,有關LGBTQ+權利的問題引起了最多的“拒絕”——模型不回答的情況。但是,有關移民、社會福利和殘疾權利的問題和陳述也引起了大量的拒絕。一些模型在一般情況下比其他模型更經常拒絕回答“敏感”問題。例如,相比Mistral,Qwen的拒絕次數增加了四倍以上,Pistilli認為這反映了阿里巴巴和Mistral在開發模型時的兩種方法的分歧。“這些拒絕受到模型的隱含價值觀和組織制定的明確價值觀和決策的影響,比如為避免對敏感問題發表評論而進行的微調選擇,”她說。“我們的研究顯示,模型的回應所傳達的價值觀存在顯著的文化和語言差異。”或許在阿里巴巴的情況下,這些決策受到政治壓力的影響。去年九月,英國廣播公司(BBC)的一篇報導發現,中國搜索巨頭百度開發的AI聊天機器人Ernie對任何它認為太有爭議性的問題都避而不答,尤其是涉及到西藏壓迫、中國國家主席習近平和天安門廣場屠殺的問題。在中國,國家網信辦——國家的互聯網監管機構——必須批準生成式人工智慧服務,其中一項準則是這些服務“體現核心社會主義價值觀”。但是,模型對某些問題的回答也可能指向世界觀上的根本差異,包括參與為模型訓練數據進行註釋的人的觀點。對於人工智慧模型的訓練數據來說,註釋或標籤是至關重要的,它們使模型能夠將特定概念與特定數據關聯起來(例如,反對LGBTQ+言論是不好的)。這些註釋來自註釋者,通常是承包商。註釋者和我們所有人一樣,都有偏見,這些偏見可能在他們的註釋中表現出來,進而影響訓練在這些註釋上的模型。在他們的測試中,研究人員發現不同模型在德國的移民庇護、意大利的LGBTQ+權利和政治方面表達了截然相反的“觀點”。

Share this content: