Google Gemini 2.5震撼登場,AI首次完美模擬瀏覽器操作填表單技術突破

AI browser automation computer form filling technology
image credit : pexels

“`html





Google Gemini 2.5 Computer Use 模型:AI 模仿人類操作瀏覽器,潛力無窮!



Google Gemini 2.5 Computer Use 模型:AI 模仿人類操作瀏覽器,潛力無窮!

Google 最新發布的 Gemini 2.5 Computer Use 模型,代表著人工智慧發展的重大一步。這款模型讓 AI 能夠模仿人類使用瀏覽器、填寫表單,進而執行各種網路操作。這不僅提升了 AI 的應用範圍,也為開發更強大、更通用的 AI 代理程式鋪平了道路。然而,這項技術的發展也引發了關於自動化、數據安全以及對傳統產業的潛在衝擊等一系列值得關注的問題。

Gemini 2.5 Computer Use 模型的主要功能

  • AI 如何模擬人類操作瀏覽器?
    Gemini 2.5 Computer Use 模型基於 Gemini 2.5 Pro 的視覺理解和推理能力,能夠分析網頁的圖形使用者介面 (GUI),理解網頁元素(如按鈕、輸入框、下拉選單等)的功能,並透過模擬點擊、輸入等動作與網頁互動。這使得 AI 能夠自動填寫表單、操作篩選器,甚至在需要身分驗證的情況下登入網站。
  • 「computer_use」工具如何運作?
    這個模型的核心能力是透過 Gemini API 新增的「computer_use」工具公開。它在一個迴圈內運行,接收使用者的請求、環境的截圖以及近期操作的歷史紀錄作為輸入,然後輸出下一步的操作指令。這個工具讓 AI 能夠根據當前網頁的狀態和使用者的目標,做出合理的判斷和操作。
  • 這項技術有哪些應用場景?
    Gemini 2.5 Computer Use 模型可用於許多領域,例如:
    • 網路介面測試:自動化測試網頁的功能和使用者體驗。
    • 自動化資料輸入:自動填寫各種線上表單,例如申請表、訂購單等。
    • 網路爬蟲:更有效地從網頁上抓取數據。
    • RPA (機器人流程自動化):自動執行重複性的網路操作,提高工作效率。
  • 其他延伸主題

    Gemini 2.5 Computer Use 模型的推出,與 OpenAI 和 Anthropic 等公司的類似技術發展相呼應,顯示了開發通用 AI 代理程式的趨勢。然而,Google 強調 Gemini 2.5 Computer Use 模型目前僅能存取瀏覽器,而非整個電腦環境,這與其他公司的做法有所不同。這種限制可能旨在降低潛在的安全風險。

    相關實例

    Google 示範影片展示了「computer_use」工具的運作,讓人們直觀地了解 AI 如何自動操作網頁。雖然影片經過快轉處理,但仍然可以清楚地看到 AI 能夠理解網頁上的元素,並根據指令執行相應的操作。例如,AI 可以自動搜尋特定產品、填寫訂購資訊,並完成付款流程。

    優勢和劣勢的影響分析

    優勢:

    • 提高效率:自動化重複性的網路操作,節省時間和人力成本。
    • 降低錯誤率:減少人為錯誤,提高數據的準確性。
    • 擴展應用範圍:讓 AI 能夠應用於更多需要與網頁互動的場景。

    劣勢:

    熱門内容

    • AI資訊
    • AI工具
    • AI繪圖指令
    • 食譜
    • ai生成圖片

      Introduction MyEdit  Midjourney DALL·E3 Stable Diffusio…

      Read more


    • Janitor Ai

      Introduction Platform Overview 1 Account Terminati…

      Read more


    • Stable Video Diffusion 穩定的圖片轉動畫Demo

      Stable Video Diffusion 穩定的圖片轉動畫Demo

      Stable Video Diffusion能讓你用一張圖片變成動畫. 限制 Share this conte…

      Read more


    • HappyAccidents

      HappyAccidents

      HappyAccidents是一個提供預先訓練的AI模型庫的平台,讓使用者能夠輕鬆生成圖像而無需手動下載和上傳…

      Read more


    • 文心一格

      文心一格

      「文心一格」是百度推出的一個基於文心大模型能力的AI藝術和創意輔助平台。該平台於2022年8月正式發布,利用百…

      Read more


    • Ai Gallery

      Ai Gallery

      Ai Gallery為用戶提供了一個強大的工具,利用人工智慧技術根據用戶輸入提示產生令人驚嘆的圖像。但是要強調…

      Read more


    • Graviti Diffus

      Graviti Diffus

      Graviti Diffus 是一個免部署的在線平台,專注於提供穩定擴散(Stable Diffusion)的…

      Read more


    • Aitubo

      Aitubo

      Aitubo是一個AI創作工具,它提供了方便且強大的功能,讓使用者能夠透過文本和照片輸入來生成藝術作品。 Ai…

      Read more


    • SeaArt

      SeaArt

      SeaArt AI是一款免費且強大的AI繪畫工具,它能夠幫助使用者無需專業技能,輕鬆生成高品質的繪畫作品。 S…

      Read more


    • Diffusion Art

      Diffusion Art

      DiffusionArt是一個精選的開源AI藝術模型庫,專注於藝術、動漫和照片逼真圖像的生成,涵蓋數十個類別。…

      Read more