Google I/O 2024重磅公布:AI賦能搜尋與影像,領航科技新未來

Featured Image
Google 正在全力發展人工智慧,並希望讓你知道。在週二的 I/O 開發者大會上,Google 在主題演講中提到了「人工智慧」超過 120 次!但並非所有的 Google 人工智慧公告都是重要的。有些是漸進式的,有些是重複性的。因此,為了幫助大家分辨出重點,我們整理了 Google I/O 2024 上推出的頂尖新人工智慧產品和功能。

「搜尋中的生成式人工智慧」
Google 計劃使用生成式人工智慧來組織整個 Google 搜尋結果。這些頁面會根據搜索查詢的不同而有所不同。Google 表示,這些頁面可能會顯示由人工智慧生成的評論摘要、來自 Reddit 等社交媒體網站的討論,以及人工智慧生成的建議列表。目前,當 Google 檢測到用戶正在尋找靈感時,計劃顯示增強型人工智慧結果頁面,例如旅行計劃。不久之後,當用戶搜索餐飲選擇和食譜時,也會顯示這些結果,並且將為電影、書籍、酒店、電子商務等提供結果。

「Astra 計劃和 Gemini Live」
Google 正在改進其基於人工智慧的聊天機器人 Gemini,以使其更好地理解周圍的世界。該公司在 Gemini 中預覽了一個名為 Gemini Live 的新體驗,它允許用戶在智能手機上與 Gemini 進行「深入」的語音聊天。用戶可以在聊天機器人說話時打斷 Gemini,提出澄清問題,它將實時適應用戶的語音模式。Gemini 可以看到並回應用戶的周圍環境,可以通過智能手機的相機捕捉到的照片或視頻來實現。Live 的技術創新部分來自於 DeepMind 內的一個名為 Astra 的新倡議,旨在創建用於實時、多模態理解的人工智慧應用程序和「代理人」。

「Google Veo」
Google 推出了一款人工智慧模型 Veo,可以根據文本提示創建大約一分鐘長的 1080p 視頻片段。Veo 可以捕捉不同的視覺和電影風格,包括風景和延時攝影,並對已生成的素材進行編輯和調整。該模型可以從提示中合理地理解相機運動和視覺效果,例如「平移」、「縮放」和「爆炸」等描述詞。Veo 在物理學方面也有一定的理解,例如流體動力學和重力,這有助於生成的視頻的真實感。Veo 還支持對視頻中特定區域進行遮罩編輯,並可以從靜態圖像生成視頻,類似於生成模型 Stable AI 的方式。最有趣的是,根據一系列共同講述的提示,Veo 可以生成更長的視頻,即超過一分鐘長的視頻。

「Ask Photos」
Google Photos 推出了一項名為 Ask 的實驗性功能,它使用 Google 的 Gemini 系列生成式人工智慧模型進行增強。Ask Photos 將在今年夏天推出,它將允許用戶使用自然語言查詢在其 Google Photos 收藏中進行搜索,利用 Gemini 對照片內容和其他元數據的理解。例如,用戶可以執行更廣泛和複雜的搜索,而不僅僅是在照片中搜索特定事物,例如「我參觀的每個國家公園中最好的照片」。在這個例子中,Gemini 將使用光線、模糊程度和背景變形等信號。

Share this content: