Google Gemini 2.5震撼登場,AI首次完美模擬瀏覽器操作填表單技術突破
image credit : pexels

“`html





Google Gemini 2.5 Computer Use 模型:AI 模仿人類操作瀏覽器,潛力無窮!



Google Gemini 2.5 Computer Use 模型:AI 模仿人類操作瀏覽器,潛力無窮!

Google 最新發布的 Gemini 2.5 Computer Use 模型,代表著人工智慧發展的重大一步。這款模型讓 AI 能夠模仿人類使用瀏覽器、填寫表單,進而執行各種網路操作。這不僅提升了 AI 的應用範圍,也為開發更強大、更通用的 AI 代理程式鋪平了道路。然而,這項技術的發展也引發了關於自動化、數據安全以及對傳統產業的潛在衝擊等一系列值得關注的問題。

Gemini 2.5 Computer Use 模型的主要功能

  • AI 如何模擬人類操作瀏覽器?
    Gemini 2.5 Computer Use 模型基於 Gemini 2.5 Pro 的視覺理解和推理能力,能夠分析網頁的圖形使用者介面 (GUI),理解網頁元素(如按鈕、輸入框、下拉選單等)的功能,並透過模擬點擊、輸入等動作與網頁互動。這使得 AI 能夠自動填寫表單、操作篩選器,甚至在需要身分驗證的情況下登入網站。
  • 「computer_use」工具如何運作?
    這個模型的核心能力是透過 Gemini API 新增的「computer_use」工具公開。它在一個迴圈內運行,接收使用者的請求、環境的截圖以及近期操作的歷史紀錄作為輸入,然後輸出下一步的操作指令。這個工具讓 AI 能夠根據當前網頁的狀態和使用者的目標,做出合理的判斷和操作。
  • 這項技術有哪些應用場景?
    Gemini 2.5 Computer Use 模型可用於許多領域,例如:
    • 網路介面測試:自動化測試網頁的功能和使用者體驗。
    • 自動化資料輸入:自動填寫各種線上表單,例如申請表、訂購單等。
    • 網路爬蟲:更有效地從網頁上抓取數據。
    • RPA (機器人流程自動化):自動執行重複性的網路操作,提高工作效率。
  • 其他延伸主題

    Gemini 2.5 Computer Use 模型的推出,與 OpenAI 和 Anthropic 等公司的類似技術發展相呼應,顯示了開發通用 AI 代理程式的趨勢。然而,Google 強調 Gemini 2.5 Computer Use 模型目前僅能存取瀏覽器,而非整個電腦環境,這與其他公司的做法有所不同。這種限制可能旨在降低潛在的安全風險。

    相關實例

    Google 示範影片展示了「computer_use」工具的運作,讓人們直觀地了解 AI 如何自動操作網頁。雖然影片經過快轉處理,但仍然可以清楚地看到 AI 能夠理解網頁上的元素,並根據指令執行相應的操作。例如,AI 可以自動搜尋特定產品、填寫訂購資訊,並完成付款流程。

    優勢和劣勢的影響分析

    優勢:

    • 提高效率:自動化重複性的網路操作,節省時間和人力成本。
    • 降低錯誤率:減少人為錯誤,提高數據的準確性。
    • 擴展應用範圍:讓 AI 能夠應用於更多需要與網頁互動的場景。

    劣勢: