首個AI軟體工程師項目發佈,所有人都將能輕鬆構建自己的程式

AI實驗室Cognition成功籌集了2100萬美元的A輪融資,由Founders Fund領投。該實驗室介紹了他們的最新產品Devin,這是世界上第一個完全自主的AI軟體工程師。Devin具有長期推理和規劃的能力,能夠執行複雜的工程任務,並具備記憶和修正錯誤的能力。Devin還配備了常見的開發工具,並可以與使用者進行實時協作。文章還列舉了Devin的幾個應用場景,包括學習使用陌生技術、構建和部署應用程式、自主尋找和修復程式碼中的錯誤等。該實驗室在SWE-bench基準上對Devin的表現進行了評估,結果顯示Devin可以解決高達13.86%的問題,遠超過之前最先進模型的1.96%.

Devin的表現:

我們在SWE-bench上對 Devin 進行了評估,這是一個具有挑戰性的基準,要求代理解決在 Django 和 scikit-learn 等開源專案中發現的實際 GitHub 問題。

Devin 端到端正確解決了 13.86%* 的問題,遠遠超過了之前 1.96% 的最佳水平。即使提供了要編輯的確切文件,以前最好的模型也只能解決 4.80% 的問題。

*Devin 是在資料集的隨機 25% 子集上進行評估的。 Devin 沒有得到協助,而所有其他模型都得到了協助(這意味著模型被準確告知哪些文件需要編輯)。

原文鏈接

Share this content: