Gemini 2.5圖像生成革命：香蕉暗號揭曉挑戰ChatGPT極限 — image credit : pexels

“`html

香蕉暗號揭曉！Gemini圖像生成功能強勢挑戰ChatGPT，AI圖像霸主之爭白熱化

Google DeepMind 最新推出的 Gemini 2.5 Flash Image 模型，以其精準的圖像生成和編輯能力，正式向 ChatGPT 發起挑戰。這項新技術不僅提升了圖像編輯的精準度，更在 AI 圖像生成領域設立了新的標竿，預示著一場激烈的用戶爭奪戰即將展開。Gemini能否憑藉這項強大的圖像生成功能，成功撼動ChatGPT的領先地位，成為市場關注的焦點。

Gemini 2.5 Flash Image：更精準的圖像生成與編輯

文字提示精準編輯，解決業界痛點
Gemini 2.5 Flash Image 的核心優勢在於能夠根據用戶的文字提示，對圖像進行更精準的編輯，同時保持角色或物件外觀的一致性。這解決了目前大多數圖像生成工具的難題，例如 ChatGPT 在修改圖像時，容易出現臉部扭曲或背景不自然的問題。Gemini 的這項突破，讓圖像編輯變得更加自然且精準。

具備更進階的「世界知識」，整合多重參考
Gemini 2.5 Flash Image 具備更進階的「世界知識」，能從單一文字提示結合多個參考，例如將沙發圖、客廳照片及配色設計整合成一個和諧的生成圖像。這代表 Gemini 不僅能理解文字指令，還能將其與現實世界的知識結合，創造出更符合用戶需求的圖像。

安全機制與浮水印，防堵 Deepfake 濫用
為了防止 Deepfake 造假，Google 在 AI 生成圖像中加入了浮水印，並在 metadata 加上標記。這項安全機制有助於用戶辨識圖像的真偽，避免 AI 技術被濫用。

Gemini 的圖像生成功能大進化

除了導入 Gemini 應用程式外，Gemini 2.5 Flash Image 透過 Gemini API 及 Google AI Studio、Vertex AI 平台提供給開發者。收費方式為每百萬個輸出詞元（token）收費 30 美元，每張圖片約含 1,290 輸出詞元（相當於每張圖 0.039 美元），輸入和其他輸出模式則照 Gemini 2.5 Flash 既有定價。

挑戰 ChatGPT：用戶爭奪戰開打

ChatGPT 今年 3 月底加入 4o 圖像生成功能後，用戶對於吉卜力動畫風格的圖像需求暴增，OpenAI 執行長奧特曼甚至表示「我們的 GPU 快要燒壞了」。Gemini 2.5 Flash Image 的推出，無疑是 Google 對 ChatGPT 在圖像生成領域的一次正面挑戰，旨在吸引更多用戶並縮小與 OpenAI 之間的用戶差距。

Meta 與 Midjourney 合作，AI 圖像戰場更加激烈

Meta 上週宣布與 Midjourney 建立合作夥伴關係，獲得 Midjourney 美學技術的授權，用於 Meta 未來的模型和產品。由矽谷創投 Andreessen Horowitz（a16z）支持的德國新創 Black Forest Labs 及其 FLUX 模型，仍在多項基準測試領先。這顯示 AI 圖像生成領域競爭激烈，各家科技巨頭都在積極尋求技術突破與合作，以搶佔市場先機。