Anthropic投資新AI評測基準:提升AI模型安全與效能

Featured Image
Anthropic計劃資助一個更全面的新一代AI基準
Anthropic計劃資助一個更全面的新一代AI基準,旨在評估AI模型的性能和影響,包括其自家的生成模型Claude。Anthropic在週一公布了這項計劃,將向第三方機構提供資助,這些機構能夠“有效測量AI模型的先進能力”,根據該公司在其官方博客上的聲明。有興趣的人可以提交申請,並根據滾動的方式進行評估。Anthropic在其官方博客上寫道:“我們對這些評估的投資旨在提升整個AI安全領域,提供有價值的工具,使整個生態系統受益。”“開發高質量、與安全相關的評估仍然具有挑戰性,需求正在超過供應。”正如我們之前所提到的,AI存在著基準問題。如今,最常被引用的AI基準無法很好地捕捉到普通人使用所測試的系統的方式。此外,一些基準問題,尤其是在現代生成AI誕生之前發布的那些基準問題,是否真正測量了它們所聲稱測量的內容,給人們帶來了疑問。Anthropic提出的非常高層次的解決方案是通過新的工具、基礎設施和方法創建具有挑戰性的基準,重點關注AI安全和社會影響。該公司特別要求進行測試,評估模型在執行網絡攻擊、“增強”大規模殺傷性武器(例如核武器)以及操縱或欺騙人們(例如通過深度偽造或錯誤信息)方面的能力。對於涉及國家安全和國防的AI風險,Anthropic表示將致力於開發一種“早期警報系統”,以識別和評估風險,盡管在博客文章中並未透露此類系統可能包含的內容。Anthropic還表示,該公司打算通過這一新計劃支持基準和“端到端”任務的研究,這些任務探索了AI在科學研究、多語言對話以及減少根深蒂固的偏見和自我審查毒性方面的潛力。Anthropic設想了新的平台,允許主題專家開發自己的評估並進行涉及“數千”用戶的模型大規模試驗。該公司表示已經聘請了一名全職協調員來負責該計劃,並可能購買或擴展具有潛力的項目。Anthropic在文章中寫道:“我們提供一系列根據每個項目的需求和階段量身定制的資金選擇。”然而,Anthropic的發言人拒絕提供有關這些選項的任何進一步細節。“團隊將有機會直接與Anthropic的領域專家(包括紅隊、微調、信任和安全等相關團隊)進行互動。”Anthropic支持新的AI基準的努力是值得稱讚的,前提是當然有足夠的資金和人力支持。但考慮到該公司在AI競賽中的商業野心,這可能是一個難以完全信任的項目。在博客文章中,Anthropic對於想要確定的事實相當透明

Share this content: