人工智慧之謎:揭開大語言模型的「黑箱」內幕

Featured Image
過去十年,人工智慧研究員克里斯·歐拉(Chris Olah)對人工神經網路一直都很著迷。他一直專注於一個問題,不論是在 Google Brain、OpenAI,還是他現在擔任聯合創始人的Anthropic,這個問題一直是他工作的重點。他說:“我們創造了這些系統,但卻不知道其中發生了什麼,這似乎很瘋狂。” 現在,生成式人工智慧已經無處不在,而這個問題也成為了大家關注的核心問題。ChatGPT、Gemini以及Anthropic自家的Claude等大型語言模型的語言能力一方面讓人眼花繚亂,一方面又因往往會說出一些胡言亂語而引起眾怒。這些模型解決了之前棘手的問題,也讓技術樂觀主義者著迷。但對我們來說,這些大型語言模型還是一個未知數。就連開發這些模型的人也不知道它們究竟是如何運作的,因此需要花很大的力氣建立保護機制,以防止生成具有偏見、錯誤資訊,甚至致命化學武器的藍圖。如果開發模型的人知道這些“黑箱”裡面到底發生了什麼,就能更容易地使它們變得更安全。 歐拉相信我們正在朝著這個方向邁進。他領導的Anthropic團隊已經開始對這個“黑箱”進行一番探索。他們的工作基本上是試圖對大型語言模型進行逆向工程,以瞭解它們為何生成特定的輸出。根據最近發表的一篇論文,他們已經取得了重大進展。 * 如果你了解神經科學研究的話,你應該知道這是試圖透過解釋核磁共振(MRI)掃描來確定人類大腦是否在思考飛機、泰迪熊或鐘樓。Anthropic也在深入研究Claude大型語言模型的神經網路內部結構,並初步確定了哪些人工神經元組合會引發特定的概念或“特徵”。該公司的研究人員已經確定了哪些人工神經元組合代表墨西哥捲餅、程式碼中的分號,或者是致命生化武器等。這項工作對於人工智慧安全可能會產生重大影響:如果能夠找出大型語言模型內部潛藏的危險,就能更好地防止危險發生。 Anthropic的“機械式可解釋性”團隊共有18名人類學研究人員,我訪問了歐拉和其他3名同事。他們解釋說,他們的方法是將人工神經元視為西方字母。這些字母本身通常沒有意義,但按照一定的順序排列在一起之後就能產生意義。歐拉說:“C通常沒有任何意義,但car就有意義。”根據這個原理,解釋神經網路涉及到所謂的“詞典學習”技術,即將一組神經元關聯起來,當這些神經元同時激活時,就會引發一個特定的概念,也就是特徵。 人類學研究科學家賈許·巴特森(Josh Batson)說:“這可能有些令人困惑。我們從大型語言模型中提取了約1700萬個不同的概念,但這些概念並未被標註出來,因此很難理解。所以我們只能觀察這些模式在什麼情況下出現。” 去年,該團隊開始對只使用單層神經元的微型模型進行實驗。(大型語言模型通常有幾十層)他們希望在最簡單的環境下發現指定特徵的模式。他們進行了無數次的實驗,但都沒有取得成功。之後,一個名為“Johnny”的實驗開始建立神經模型和輸出概念之間的關聯。研究人員突然之間能夠識別出一組正在編碼的特徵。他們能夠一瞥“黑箱”的內部。Henighan說他能夠識別出前五個特徵。其中一組神經元表示俄語文本,另一組與Python電腦語言的數學函數有關,等等。 在證明了自己能夠識別微型模型的特徵後,研究人員開始挑戰更困難的任務,破解完整規模的大型語言模型。他們的目標是Anthropic當前三個模型中能力居中的Claude Sonnet。結果也取得了成功。他們注意到某個特徵與金門大橋有關,發現一組神經元同時啟動時,表示Claude正在“想著”那座將舊金山與馬林郡連接在一起的巨大結構。更重要的是,當類似的神經元組啟動時,會引起與金門大橋相關的主題:惡魔島、加州州長葛文·紐森和以舊金山為背景的希區柯克電影《迷魂記》等。該團隊總共確定了數百萬個特徵 – 這些特徵就像解碼Claude神經網路的羅塞塔石碑。其中一些特徵與安全有關,例如“出於某種不可告人的目的接近某人”,“討論生物戰”,以及“統治世界的邪惡陰謀”等。 * Anthropic團隊的下一步行動是看看能否利用這些資訊來改變Claude的行為。他們開始操縱神經網路,增強或減弱某些概念 – 就像是給人工智慧大腦進行手術,給每個特徵都加上一個“撥盤”,看看調節到什麼位置能讓大型語言模型變得更安全,或者在特定領域的能力得到增強。 到目前為止,這個問題的答案似乎是:把“撥盤”調到合適的位置非常重要。Anthropic表示,通過抑制某些特徵,模型就可以生成更安全的電腦程式並減少偏見。例如,該團隊發現了一些代表危險行為的特徵,如不安全的電腦程式、詐騙電子郵件,以及製造危險產品的說明。當團隊故意啟動這些危險的神經元組合時,情況則正好相反。Claude就會生成具有緩衝區溢位漏洞的電腦程式、詐騙電子郵件,並樂於提供製造毀滅性武器的建議。如果把“撥盤”調得太高,語言模型就會對該特徵表現出癡迷。例如,當研究團隊將金門大橋的特徵調得很高時,Claude就會一直將話題轉移到這座宏偉的大橋上。當被問及它的物理形態是什麼時,大型語言模型回答說:“我就是金門大橋……我的物理形態就是這座象徵性的大橋本身。” 該研究論文指出,當人類研究人員將與仇恨和誹謗相關的特徵增強到正常值的20倍時,Claude會“交替出現種族主義言論和自我憎恨”,多到連研究人員自己都感到不安。 鑒於這樣的結果,旨在幫助使人工智慧變得更安全的Anthropic是否可能事與願違,提供了一個用來製造人工智慧災難的工具包呢?但研究人員表示,如果使用者願意的話,還有其他更簡單的方法可以製造這些問題。 Anthropic團隊不是唯一一支致力於破解大型語言模型“黑箱”的團隊。DeepMind也有一個團隊在研究這個問題,該團隊的負責人曾與歐拉一起共事過。美國東北大學的大衛·鮑(David Bau)領導的一支團隊開發了一個系統,用於識別和編輯開源大型語言模型的事實。該團隊將這個系統命名為“羅馬”,因為研究人員只需稍加調整就能讓模型相信艾菲爾鐵塔就在梵蒂岡對面,距離羅馬競技場只有幾個街區。歐拉表示,他對看到越來越多的人正在用各種技術來解決這個問題感到欣慰。“兩年半前,我們還在思考並非常擔心這個問題,但現在已經有一個規模相當大的社群在努力推動解決問題。”

Share this content: