
“`html
香蕉暗號揭曉!Gemini圖像生成功能強勢挑戰ChatGPT,AI圖像霸主之爭白熱化
Google DeepMind 最新推出的 Gemini 2.5 Flash Image 模型,以其精準的圖像生成和編輯能力,正式向 ChatGPT 發起挑戰。這項新技術不僅提升了圖像編輯的精準度,更在 AI 圖像生成領域設立了新的標竿,預示著一場激烈的用戶爭奪戰即將展開。Gemini能否憑藉這項強大的圖像生成功能,成功撼動ChatGPT的領先地位,成為市場關注的焦點。
Gemini 2.5 Flash Image:更精準的圖像生成與編輯
Gemini 2.5 Flash Image 的核心優勢在於能夠根據用戶的文字提示,對圖像進行更精準的編輯,同時保持角色或物件外觀的一致性。這解決了目前大多數圖像生成工具的難題,例如 ChatGPT 在修改圖像時,容易出現臉部扭曲或背景不自然的問題。Gemini 的這項突破,讓圖像編輯變得更加自然且精準。
Gemini 2.5 Flash Image 具備更進階的「世界知識」,能從單一文字提示結合多個參考,例如將沙發圖、客廳照片及配色設計整合成一個和諧的生成圖像。這代表 Gemini 不僅能理解文字指令,還能將其與現實世界的知識結合,創造出更符合用戶需求的圖像。
為了防止 Deepfake 造假,Google 在 AI 生成圖像中加入了浮水印,並在 metadata 加上標記。這項安全機制有助於用戶辨識圖像的真偽,避免 AI 技術被濫用。
Gemini 的圖像生成功能大進化
除了導入 Gemini 應用程式外,Gemini 2.5 Flash Image 透過 Gemini API 及 Google AI Studio、Vertex AI 平台提供給開發者。收費方式為每百萬個輸出詞元(token)收費 30 美元,每張圖片約含 1,290 輸出詞元(相當於每張圖 0.039 美元),輸入和其他輸出模式則照 Gemini 2.5 Flash 既有定價。
挑戰 ChatGPT:用戶爭奪戰開打
ChatGPT 今年 3 月底加入 4o 圖像生成功能後,用戶對於吉卜力動畫風格的圖像需求暴增,OpenAI 執行長奧特曼甚至表示「我們的 GPU 快要燒壞了」。Gemini 2.5 Flash Image 的推出,無疑是 Google 對 ChatGPT 在圖像生成領域的一次正面挑戰,旨在吸引更多用戶並縮小與 OpenAI 之間的用戶差距。
Meta 與 Midjourney 合作,AI 圖像戰場更加激烈
Meta 上週宣布與 Midjourney 建立合作夥伴關係,獲得 Midjourney 美學技術的授權,用於 Meta 未來的模型和產品。由矽谷創投 Andreessen Horowitz(a16z)支持的德國新創 Black Forest Labs 及其 FLUX 模型,仍在多項基準測試領先。這顯示 AI 圖像生成領域競爭激烈,各家科技巨頭都在積極尋求技術突破與合作,以搶佔市場先機。
Gemini 2.5 Flash Image 的優勢和劣勢分析
- 精準的圖像編輯能力,解決業界痛點。
- 具備更進階的「世界知識」,整合多重參考。
- 安全機制與浮水印,防堵 Deepfake 濫用。
- 收費模式可能限制部分用戶的使用。
- 市場佔有率仍落後於 ChatGPT。
Gemini 的未來動向
Gemini 2.5 Flash Image 的推出,代表 Google 在 AI 圖像生成領域邁出了重要一步。未來,Google 可望繼續強化 Gemini 的圖像生成功能,
相關連結:
Share this content: