Google Gemini 2.5震撼登場，AI首次完美模擬瀏覽器操作填表單技術突破 — image credit : pexels

“`html

Google Gemini 2.5 Computer Use 模型：AI 模仿人類操作瀏覽器，潛力無窮！

Google Gemini 2.5 Computer Use 模型：AI 模仿人類操作瀏覽器，潛力無窮！

Google 最新發布的 Gemini 2.5 Computer Use 模型，代表著人工智慧發展的重大一步。這款模型讓 AI 能夠模仿人類使用瀏覽器、填寫表單，進而執行各種網路操作。這不僅提升了 AI 的應用範圍，也為開發更強大、更通用的 AI 代理程式鋪平了道路。然而，這項技術的發展也引發了關於自動化、數據安全以及對傳統產業的潛在衝擊等一系列值得關注的問題。

Gemini 2.5 Computer Use 模型的主要功能

AI 如何模擬人類操作瀏覽器？
Gemini 2.5 Computer Use 模型基於 Gemini 2.5 Pro 的視覺理解和推理能力，能夠分析網頁的圖形使用者介面 (GUI)，理解網頁元素（如按鈕、輸入框、下拉選單等）的功能，並透過模擬點擊、輸入等動作與網頁互動。這使得 AI 能夠自動填寫表單、操作篩選器，甚至在需要身分驗證的情況下登入網站。

「computer_use」工具如何運作？
這個模型的核心能力是透過 Gemini API 新增的「computer_use」工具公開。它在一個迴圈內運行，接收使用者的請求、環境的截圖以及近期操作的歷史紀錄作為輸入，然後輸出下一步的操作指令。這個工具讓 AI 能夠根據當前網頁的狀態和使用者的目標，做出合理的判斷和操作。

這項技術有哪些應用場景？
Gemini 2.5 Computer Use 模型可用於許多領域，例如：

網路介面測試：自動化測試網頁的功能和使用者體驗。
自動化資料輸入：自動填寫各種線上表單，例如申請表、訂購單等。
網路爬蟲：更有效地從網頁上抓取數據。
RPA (機器人流程自動化)：自動執行重複性的網路操作，提高工作效率。

其他延伸主題

Gemini 2.5 Computer Use 模型的推出，與 OpenAI 和 Anthropic 等公司的類似技術發展相呼應，顯示了開發通用 AI 代理程式的趨勢。然而，Google 強調 Gemini 2.5 Computer Use 模型目前僅能存取瀏覽器，而非整個電腦環境，這與其他公司的做法有所不同。這種限制可能旨在降低潛在的安全風險。