過去十年,人工智慧研究員克里斯·歐拉(Chris Olah)對人工神經網路一直都很著迷。不論是在 Google Brain、OpenAI,還是現在他擔任聯合創始人的Anthropic,這個問題一直是他工作的焦點。他說:「我們做出了這些系統,但卻不知道其內部都發生了什麼,這似乎是很瘋狂的。」 現如今,生成式人工智慧已經無處不在,而這個問題也成為了大家關注的核心問題。ChatGPT、Gemini 以及Anthropic自己的 Claude 等大語言模型的語言能力一方面讓人眼花繚亂,一方面又因往往會胡說八道而惹火大家。其解決之前棘手問題的潛能讓技術樂觀主義者著迷。但 LLM 對我們而言是陌生人。哪怕是開發它們出來的人都不知道它們究竟是怎麼運作的,並為此需要花大功夫設立防護欄,以防生成偏見、錯誤資訊,甚至致命化學武器的藍圖。如果開發模型的人知道這些「黑箱」裡面究竟發生了什麼事情的話,讓它們變得更安全就會更加容易。 歐拉相信我們正朝著這個方向前進。他領導的 Anthropic 團隊已經可以對這個黑箱窺探一番。他們的工作基本上算是試圖對大語言模型進行逆向工程,以瞭解它們為什麼會生成特定的輸出——根據近日發表的一篇論文,他們已經取得了重大進展。 如果你看過神經科學研究的話,應該知道這是試圖透過解釋核磁共振(MRI)掃描來確定人類大腦是否在思考飛機、泰迪熊或鐘樓。類似地,Anthropic 也深入研究了大語言模型 Claude 的神經網路內在的數位糾纏,並大概確定了人工神經元的哪些組合會引發特定的概念或「特徵」。該公司的研究人員已經確定哪些人工神經元組合表徵的是墨西哥捲餅、程式碼中的分號,或者是致命生化武器等。此類工作對人工智慧安全可能會產生巨大影響:如果能找出大語言模型內部潛伏的危險的話,大概就能更好地阻止危險發生。 Anthropic 的「機械式可解釋性」(mechanistic interpretability)團隊共有 18 名人類學研究人員,我採訪了歐拉及其他3名同事。他們解釋說,他們的方法是把人工神經元看作是西方字母。這些字母本身通常沒有意義,但按一定順序串在一起之後就能產生意義。歐拉說:「C 通常沒有任何意義,但 car 就有意義。」根據這個原理解釋神經網路牽涉到所謂的詞典學習(dictionary learning)技術,就是將一組神經元關聯起來,當這些神經元同時激發時,就會喚起一個特定的概念,也就是特徵。 人類學研究科學家賈許‧巴特森 (Josh Batson) 說道:「這會有點令人困惑。我們在大語言模型提取了約 1700 萬個不同的概念,但這些概念並未被標注出來,因此很難理解。所以我們只能去看看這種模式在什麼時候會出現。」 去年,該團隊開始試驗一種只用了單層神經元的微型模型。(複雜的大語言模型有幾十層)他們希望在最簡單的環境下能發現指定特徵的模式。他們進行過無數次實驗但都沒有取得成功。之後,一項叫做「Johnny」的實驗開始將神經模式與輸出所出現的概念建立起關聯。 研究人員突然那之間就能辨識出一組神經元正在編碼的特徵了。他們可以窺見黑箱的一瞥了。Henighan 說他辨識出了所看到的前五個特徵。其中有一組神經元表示的是俄語文本。另一組與 Python 電腦語言的數學函數有關。諸如此類。 在證明了自己能夠辨識微型模型的特徵之後,研究人員投入到更艱巨的實戰當中,去破解完整規模的大語言模型。他們的破解目標是 Claude Sonnet,Anthropic當前的三個模型當中能力居中的那個。結果也成功了。他們注意到某個特徵與金門大橋有關,發現一組神經元同時啟動時表明 Claude 正在「想」著那個將舊金山與馬林郡連在一起的巨大結構。更重要的是,當類似的神經元組啟動時,會喚起與金門大橋關聯的主題:惡魔島、加州州長葛文‧紐森和以舊金山為背景的希區柯克電影《迷魂記》。該團隊總共確定了數百萬個特徵——這些特徵就像解碼 Claude 神經網路的羅塞塔石碑一樣。其中有很特徵與安全有關,比如「出於某種不可告人的目的接近某人」、「討論生物戰」以及「統治世界的邪惡陰謀」等。 Anthropic 團隊的下一步行動是看看能否利用這些資訊來改變 Claude 的行為。他們開始操縱神經網路,去增強或減弱某些概念——就好像為人工智慧大腦動手術,給每個特徵都加個撥盤,看看調節到什麼位置能讓大語言模型變得更安全,或增強其在特定領域的能力。 到目前為止,這個問題的答案似乎是:把撥盤調到合適位置非常重要。Anthropic 表示,透過抑制某些特徵,模型就可以生成更安全的電腦程式並減少偏見。比方說,該團隊發現了若干代表危險做法的特徵,如不安全的電腦程式嗎、詐騙電子郵件,以及製造危險產品的說明。 當團隊故意啟動這些危險的神經元組合時,情況則正好相反。Claude就會輸出具有危險的緩衝區溢位漏洞的電腦程式、詐騙電子郵件,而且會樂於提供製造毀滅性武器的方法建議。如果把撥盤調得太大時,語言模型就會對那個特徵表現出癡迷。比方說,當研究團隊把金門大橋的特徵撥盤調到很高的數值時,Claude就會不斷把話題轉移到那座雄偉大橋上。在被問到它的物理形態是什麼樣的時候,大語言模型回答說:「我是金門大橋……我的物理形態就是這座象徵性大橋本身。」 該研究論文表示,當人類學研究人員把與仇恨和誹謗相關的特徵增強到正常值的 20 倍時,就會「導致Claude交替出現種族主義言論與自我憎恨」,多到甚至讓研究人員都感到不安。 鑒於這樣的結果,那旨在幫助讓人工智慧變得更安全的Anthropic會不會事與願違,提供了一個也可以用來製造人工智慧災難的工具包呢?不過研究人員表示,如果使用者願意的話,還有其他更簡單的方法來製造這些問題。 Anthropic 的團隊並不是唯一一支致力於破解大語言模型黑箱的團隊。DeepMind 有個團隊也在研究這個問題,該團隊的負責人曾與歐拉 一起共事過。美國東北大學的大衛·鮑(David Bau)領導的一支團隊開發了一個系統,用來辨識和編輯開源大語言模型的事實。該團隊給這個系統命名為「羅馬」,因為研究人員只需稍加調整就能讓模型相信艾菲爾鐵塔就在梵蒂岡對面,距離羅馬競技場只有幾個街區。歐拉說,自己對看到有越來越多的人正在用各種技術來解決這個問題感到欣慰。「兩年半前,我們還在思考並非常擔心這個問題,但現在已經有一個規模相當大的社群在努力推動解決問題。」
Share this content: