突破AI黑箱:Anthropic如何逆向解碼大語言模型?

Featured Image
過去十年,人工智慧研究員克里斯·歐拉(Chris Olah)對人工神經網路一直都很著迷。他在 Google Brain、OpenAI以及Anthropic等機構的工作都圍繞著一個問題:我們做出了這些系統,但卻不知道其內部發生了什麼事情,這似乎是很瘋狂的。現如今,生成式人工智慧已經無處不在,而這個問題也成為了大家關注的核心問題。ChatGPT、Gemini以及Anthropic自家的Claude等大語言模型的語言能力一方面讓人眼花繚亂,一方面又因往往會胡說八道而惹火大家。解決這個問題的潛力讓技術樂觀主義者著迷。

然而,對於我們來說,這些大語言模型(LLM)仍然是個謎。哪怕是開發它們的人也不知道它們究竟是怎麼運作的,並且為此需要花大功夫設立防護措施,以防生成偏見、錯誤資訊,甚至致命化學武器的藍圖。如果開發模型的人知道這些「黑箱」裡面究竟發生了什麼事情的話,讓它們變得更安全就會更加容易。歐拉相信我們正朝著這個方向前進。他領導的Anthropic團隊已經可以對這個黑箱窺探一番。他們的工作基本上是試圖對大語言模型進行逆向工程,以瞭解它們為什麼會生成特定的輸出。根據近日發表的一篇論文,他們已經取得了重大進展。

Anthropic的「機械式可解釋性」(mechanistic interpretability)團隊共有18名人類學研究人員,我採訪了歐拉及其他3名同事。他們解釋說,他們的方法是把人工神經元看作是西方字母。這些字母本身通常沒有意義,但按一定順序串在一起之後就能產生意義。根據這個原理解釋神經網路牽涉到所謂的詞典學習(dictionary learning)技術,就是將一組神經元關聯起來,當這些神經元同時激發時,就會喚起一個特定的概念,也就是特徵。

人類學研究科學家賈許‧巴特森(Josh Batson)說道:「這會有點令人困惑。我們在大語言模型中提取了約1700萬個不同的概念,但這些概念並未被標注出來,因此很難理解。所以我們只能去看看這種模式在什麼時候會出現。」

Anthropic團隊去年開始試驗一種只用了單層神經元的微型模型。他們希望在最簡單的環境下能發現指定特徵的模式。他們進行過無數次實驗但都沒有取得成功。之後,一項名為「Johnny」的實驗開始將神經模式與輸出所出現的概念建立起關聯。研究人員突然之間就能辨識出一組神經元正在編碼的特徵了。他們可以窺見黑箱的一瞥了。其中有一組神經元表示的是俄語文本。另一組與Python電腦語言的數學函數有關。諸如此類。

在證明了自己能夠辨識微型模型的特徵之後,研究人員投入到更艱巨的實戰當中,去破解完整規模的大語言模型。他們的破解目標是Claude Sonnet,Anthropic當前的三個模型當中能力居中的那個。結果也成功了。他們注意到某個特徵與金門大橋有關,發現一組神經元同時啟動時表明Claude正在「想」著那個將舊金山與馬林郡連在一起的巨大結構。更重要的是,當類似的神經元組啟動時,會喚起與金門大橋關聯的主題:惡魔島、加州州長葛文‧紐森和以舊金山為背景的希區柯克電影《迷魂記》。該團隊總共確定了數百萬個特徵,這些特徵就像解碼Claude神經網路的羅塞塔石碑一樣。其中有很多特徵與安全有關,比如「出於某種不可告人的目的接近某人」、「討論生物戰」以及「統治世界的邪惡陰謀」等。

Anthropic團隊的下一步行動是看看能否利用這些資訊來改變Claude的行為。他們開始操縱神經網路,去增強或減弱某些概念,就好像為人工智慧大腦進行動手術,給每個特徵都加個撥盤,看看調節到什麼位置能讓大語言模型變得更安全,或增強其在特定領域的能力。到目前為止,這個問題的答案似乎是:把撥盤調到合適位置非常重要。Anthropic表示,透過抑制某些特徵,模型就可以生成更安全的電腦程式並減少偏見。比方說,該團隊發現了若干代表危險做法的特徵,如不安全的電腦程式、詐騙電子郵件,以及製造危險產品的說明。然而,當團隊故意啟動這些危險的神經元組合時,情況則正好相反。Claude就會輸出具有危險的緩衝區溢位漏洞的電腦程式、詐騙電子郵件,甚至會提供製造毀滅性武器的方法建議。如果把撥盤調得太大時,語言模型就會對那個特徵表現出癡迷。比方說,當研究團隊把金門大橋的特徵撥盤調到很高的數值時,Claude就會不斷把話題轉移到那座雄偉的大橋上。在被問到它的物理形態是什麼樣的時候,大語言模型回答說:「我是金門大橋……我的物理形態就是這座象徵性大橋本身。」

根據研究論文的描述,當人類學研究人員將與仇恨和誹謗相關的特徵增強到正常值的20倍時,Claude會「交替出現種族主義言論與自我憎恨」,多到連研究人員都感到不安。

鑒於這樣的結果,有人擔心Anthropic旨在幫助讓人工智慧變得更安全的目標是否會事與願違,提供了一個也可以用來製造人工智慧災難的工具包。然而,研究人員表示,如果使用者願意,還有其他更簡單的方法來製造這些問題。Anthropic的團隊並不是唯一一支致力於破解大語言模型黑箱的團隊。DeepMind也有一個團隊在研究這個問題,該團隊的負責人曾與歐拉一起共事過。美國東北大學的大衛·鮑(David Bau)領導的一支團隊開發了一個系統,用來辨識和編輯開源大語言模型的事實。該團隊給這個系統命名為「羅馬」,因為研究人員只需稍加調整就能讓模型相信艾菲爾鐵塔就在梵蒂岡對面,距離羅馬競技場只有幾個街區。歐拉對於看到有越來越多的人正在用各種技術來解決這個問題感到欣慰。「兩年半前,我們還在思考並非常擔心這個問題,但現在已經有一個規模相當大的社群在努力推動解決問題。」

Share this content: