探索AI黑箱：Anthropic如何逆向解碼神經網路？

過去十年，人工智慧研究員克里斯·歐拉（Chris Olah）對人工神經網路一直都很著迷。不論是在 Google Brain、OpenAI，還是現在他擔任聯合創始人的Anthropic，這個問題一直是他工作的焦點。他說：「我們做出了這些系統，但卻不知道其內部都發生了什麼，這似乎是很瘋狂的。」現如今，生成式人工智慧已經無處不在，而這個問題也成為了大家關注的核心問題。ChatGPT、Gemini 以及Anthropic自己的 Claude 等大語言模型的語言能力一方面讓人眼花繚亂，一方面又因往往會胡說八道而惹火大家。其解決之前棘手問題的潛能讓技術樂觀主義者著迷。但 LLM 對我們而言是陌生人。哪怕是開發它們出來的人都不知道它們究竟是怎麼運作的，並為此需要花大功夫設立防護欄，以防生成偏見、錯誤資訊，甚至致命化學武器的藍圖。如果開發模型的人知道這些「黑箱」裡面究竟發生了什麼事情的話，讓它們變得更安全就會更加容易。歐拉相信我們正朝著這個方向前進。他領導的 Anthropic 團隊已經可以對這個黑箱窺探一番。他們的工作基本上算是試圖對大語言模型進行逆向工程，以瞭解它們為什麼會生成特定的輸出——根據近日發表的一篇論文，他們已經取得了重大進展。如果你看過神經科學研究的話，應該知道這是試圖透過解釋核磁共振（MRI）掃描來確定人類大腦是否在思考飛機、泰迪熊或鐘樓。類似地，Anthropic 也深入研究了大語言模型 Claude 的神經網路內在的數位糾纏，並大概確定了人工神經元的哪些組合會引發特定的概念或「特徵」。該公司的研究人員已經確定哪些人工神經元組合表徵的是墨西哥捲餅、程式碼中的分號，或者是致命生化武器等。此類工作對人工智慧安全可能會產生巨大影響：如果能找出大語言模型內部潛伏的危險的話，大概就能更好地阻止危險發生。 Anthropic 的「機械式可解釋性」（mechanistic interpretability）團隊共有 18 名人類學研究人員，我採訪了歐拉及其他3名同事。他們解釋說，他們的方法是把人工神經元看作是西方字母。這些字母本身通常沒有意義，但按一定順序串在一起之後就能產生意義。歐拉說：「C 通常沒有任何意義，但 car 就有意義。」根據這個原理解釋神經網路牽涉到所謂的詞典學習（dictionary learning）技術，就是將一組神經元關聯起來，當這些神經元同時激發時，就會喚起一個特定的概念，也就是特徵。人類學研究科學家賈許‧巴特森（Josh Batson）說道：「這會有點令人困惑。我們在大語言模型提取了約 1700 萬個不同的概念，但這些概念並未被標注出來，因此很難理解。所以我們只能去看看這種模式在什麼時候會出現。」去年，該團隊開始試驗一種只用了單層神經元的微型模型。（複雜的大語言模型有幾十層）他們希望在最簡單的環境下能發現指定特徵的模式。他們進行過無數次實驗但都沒有取得成功。之後，一項叫做「Johnny」的實驗開始將神經模式與輸出所出現的概念建立起關聯。研究人員突然那之間就能辨識出一組神經元正在編碼的特徵了。他們可以窺見黑箱的一瞥了。Henighan 說他辨識出了所看到的前五個特徵。其中有一組神經元表示的是俄語文本。另一組與 Python 電腦語言的數學函數有關。諸如此類。在證明了自己能夠辨識微型模型的特徵之後，研究人員投入到更艱巨的實戰當中，去破解完整規模的大語言模型。他們的破解目標是 Claude Sonnet，Anthropic當前的三個模型當中能力居中的那個。結果也成功了。他們注意到某個特徵與金門大橋有關，發現一組神經元同時啟動時表明 Claude 正在「想」著那個將舊金山與馬林郡連在一起的巨大結構。更重要的是，當類似的神經元組啟動時，會喚起與金門大橋關聯的主題：惡魔島、加州州長葛文‧紐森和以舊金山為背景的希區柯克電影《迷魂記》。該團隊總共確定了數百萬個特徵——這些特徵就像解碼 Claude 神經網路的羅塞塔石碑一樣。其中有很特徵與安全有關，比如「出於某種不可告人的目的接近某人」、「討論生物戰」以及「統治世界的邪惡陰謀」等。 Anthropic 團隊的下一步行動是看看能否利用這些資訊來改變 Claude 的行為。他們開始操縱神經網路，去增強或減弱某些概念——就好像為人工智慧大腦動手術，給每個特徵都加個撥盤，看看調節到什麼位置能讓大語言模型變得更安全，或增強其在特定領域的能力。到目前為止，這個問題的答案似乎是：把撥盤調到合適位置非常重要。Anthropic 表示，透過抑制某些特徵，模型就可以生成更安全的電腦程式並減少偏見。比方說，該團隊發現了若干代表危險做法的特徵，如不安全的電腦程式嗎、詐騙電子郵件，以及製造危險產品的說明。當團隊故意啟動這些危險的神經元組合時，情況則正好相反。Claude就會輸出具有危險的緩衝區溢位漏洞的電腦程式、詐騙電子郵件，而且會樂於提供製造毀滅性武器的方法建議。如果把撥盤調得太大時，語言模型就會對那個特徵表現出癡迷。比方說，當研究團隊把金門大橋的特徵撥盤調到很高的數值時，Claude就會不斷把話題轉移到那座雄偉大橋上。在被問到它的物理形態是什麼樣的時候，大語言模型回答說：「我是金門大橋……我的物理形態就是這座象徵性大橋本身。」該研究論文表示，當人類學研究人員把與仇恨和誹謗相關的特徵增強到正常值的 20 倍時，就會「導致Claude交替出現種族主義言論與自我憎恨」，多到甚至讓研究人員都感到不安。鑒於這樣的結果，那旨在幫助讓人工智慧變得更安全的Anthropic會不會事與願違，提供了一個也可以用來製造人工智慧災難的工具包呢？不過研究人員表示，如果使用者願意的話，還有其他更簡單的方法來製造這些問題。 Anthropic 的團隊並不是唯一一支致力於破解大語言模型黑箱的團隊。DeepMind 有個團隊也在研究這個問題，該團隊的負責人曾與歐拉一起共事過。美國東北大學的大衛·鮑（David Bau）領導的一支團隊開發了一個系統，用來辨識和編輯開源大語言模型的事實。該團隊給這個系統命名為「羅馬」，因為研究人員只需稍加調整就能讓模型相信艾菲爾鐵塔就在梵蒂岡對面，距離羅馬競技場只有幾個街區。歐拉說，自己對看到有越來越多的人正在用各種技術來解決這個問題感到欣慰。「兩年半前，我們還在思考並非常擔心這個問題，但現在已經有一個規模相當大的社群在努力推動解決問題。」

Share this content:

熱門内容

健脾去濕薏米雞湯

多鄰國相撲大賽爆炸開戰！音速小子、小精靈、泡泡龍夢幻對決震撼東京

ChatGPT越獄咒語2024

ChatGPT指令

AI失業危機爆發！71%美國人驚恐永久失業威脅迫近

椒鹽軟殼蟹

AI資訊
AI工具
AI繪圖指令
食譜

AI失業危機爆發！71%美國人驚恐永久失業威脅迫近

71% 美國人擔心 AI 會導致永久性失業，並對其在政治、軍事及能源消耗帶來的影響表達關注，揭示公眾對 AI …
→ Read more
iPhone 17印度組裝崛起蘋果大幅瘦身中國供應鏈風暴

蘋果將iPhone 17系列主力組裝轉移到印度，減少對中國產能依賴，同時享受印度出口關稅豁免，推動全球供應鏈多…
→ Read more
特斯拉自动驾驶虚假宣传致加州车主集体诉讼爆发

加州車主集體控訴特斯拉多年誇大自動駕駛功能，指控其缺乏關鍵傳感器，導致誤導消費者購買全自動駕駛包，引發集體訴訟…
→ Read more
NVIDIA大降價！RTX 5080 Super直降150美元記憶體升級24GB超值搶購

NVIDIA 將大幅下調 RTX 50 Super 系列價格，RTX 5080 Super 降 150 美元，…
→ Read more
AI機器學習加持！AMD FSR 4顛覆遊戲畫質與效能極限

AMD全新FSR 4利用機器學習升頻技術，提升遊戲畫質與效能，實測《四海兄弟：故鄉》展現流暢高畫質體驗，完美平…
→ Read more
多鄰國相撲大賽爆炸開戰！音速小子、小精靈、泡泡龍夢幻對決震撼東京

多鄰國攜手音速小子、小精靈、泡泡龍等吉祥物於東京舉行夢幻相撲大賽，融合趣味與文化，吸引熱烈關注。
→ Read more
NVIDIA大降價！RTX 5080 Super直降150美元再祭記憶體升級震撼玩家

NVIDIA 將大幅調降 RTX 50 Super 系列售價，RTX 5080 Super 降價 150 美元…
→ Read more
AMD FSR 4 AI升頻強勢來襲：畫質與效能雙升級揭秘

AMD FSR 4運用機器學習技術提升遊戲畫質與效能，通過智能升頻有效提高FPS，打造更流暢且細膩的遊戲體驗。
→ Read more
多鄰國首創吉祥物相撲賽音速小子泡泡龍夢幻對決

多鄰國於日本舉辦吉祥物相撲大賽，邀請音速小子、小精靈、泡泡龍等知名角色同場競技，打造夢幻亂鬥盛事，吸引眾多粉絲…
→ Read more
驚爆的士司機竟用實體地圖搵路手機導航全被拋棄引網民熱議

的士司機用實體地圖搵路，引發網民熱議。有人批評未用手機導航，不熟路不專業；亦有人讚實體地圖資訊清晰，反映傳統工…
→ Read more

ai生成圖片

Introduction MyEdit Midjourney DALL·E3 Stable Diffusio…
→ Read more
Janitor Ai

Introduction Platform Overview 1 Account Terminati…
→ Read more
Stable Video Diffusion 穩定的圖片轉動畫Demo

Stable Video Diffusion能讓你用一張圖片變成動畫. 限制 Share this conte…
→ Read more
HappyAccidents

HappyAccidents是一個提供預先訓練的AI模型庫的平台，讓使用者能夠輕鬆生成圖像而無需手動下載和上傳…
→ Read more
文心一格

「文心一格」是百度推出的一個基於文心大模型能力的AI藝術和創意輔助平台。該平台於2022年8月正式發布，利用百…
→ Read more
Ai Gallery

Ai Gallery為用戶提供了一個強大的工具，利用人工智慧技術根據用戶輸入提示產生令人驚嘆的圖像。但是要強調…
→ Read more
Graviti Diffus

Graviti Diffus 是一個免部署的在線平台，專注於提供穩定擴散（Stable Diffusion）的…
→ Read more
Aitubo

Aitubo是一個AI創作工具，它提供了方便且強大的功能，讓使用者能夠透過文本和照片輸入來生成藝術作品。 Ai…
→ Read more
SeaArt

SeaArt AI是一款免費且強大的AI繪畫工具，它能夠幫助使用者無需專業技能，輕鬆生成高品質的繪畫作品。 S…
→ Read more
Diffusion Art

DiffusionArt是一個精選的開源AI藝術模型庫，專注於藝術、動漫和照片逼真圖像的生成，涵蓋數十個類別。…
→ Read more

AI繪圖指令

AI繪圖指令待編輯中… Share this content: Views: 47 Related…
→ Read more

健脾去濕薏米雞湯

健脾去濕薏米雞湯簡介：這款湯水適合潮濕天氣，以雞肉和薏米為主，加入其他健脾去濕食材，味道清淡，有助於祛除體內濕…
→ Read more
夏日彩虹米線

夏日彩虹米線簡介：這道米線色彩繽紛，清爽開胃，搭配多種蔬菜，營養豐富，低卡健康，非常適合炎熱的夏天。結合了營養…
→ Read more
健脾去濕薏米雞湯

健脾去濕薏米雞湯簡介：這款湯水適合潮濕天氣，以雞肉和薏米為主，加入其他健脾去濕食材，味道清淡，有助於祛除體內濕…
→ Read more
健脾去濕薏米雞湯

健脾去濕薏米雞湯簡介：這款湯水適合潮濕天氣，以雞肉和薏米為主，加入其他健脾去濕食材，味道清淡，有助於祛除體內濕…
→ Read more
芒果糯米糍

芒果糯米糍簡介：一道清新香甜的港式甜點，軟糯的外皮包裹著新鮮芒果，口感豐富，消暑解膩。準備時間：20分鐘烹飪時…
→ Read more
隱生蟲能量粥 (港澳台風味)

隱生蟲能量粥 (港澳台風味)簡介：靈感來自《死亡擱淺》的山姆零食隱生蟲，將概念融入廣東粥，以高纖食材模擬蟲的口…
→ Read more
香煎雞腿佐芒果莎莎

香煎雞腿佐芒果莎莎簡介：這道菜選用鮮嫩多汁的雞腿，香煎至表皮金黃酥脆，搭配酸甜清爽的芒果莎莎，口感豐富，非常適…
→ Read more
台式滷肉飯

台式滷肉飯簡介：滷肉飯是台灣的國民美食，香濃的滷肉搭配白飯，簡單卻令人滿足。這道食譜改良自傳統做法，更適合家庭…
→ Read more
香煎檸檬三文魚配時蔬

Share this content: Views: 10 Related posts: Streamline…
→ Read more
薑蔥爆花蛤

薑蔥爆花蛤簡介：這道菜以新鮮花蛤為主要食材，搭配薑蔥爆炒，鮮香惹味，是港澳台地區非常受歡迎的海鮮料理。準備時間…
→ Read more

探索AI黑箱：Anthropic如何逆向解碼神經網路？

Related posts:

熱門内容