Google Gemini 2.5多國語言語音 AI 技術震撼登場

“`html

Gemini 2.5 語音功能令人驚豔！多國語言實時生成，但廣東話仍缺席？

Google 最新發布的 Gemini 2.5 在語音技術上取得了顯著的突破，它不僅支援超過 24 種語言的即時語音對話，還賦予開發者前所未有的語音控制能力。這項技術的進步對於人機互動的未來有著深遠的影響，也將為應用程式開發帶來更多可能性。然而，目前對廣東話的支援缺失，也突顯了這項技術仍有進一步完善的空間。

Gemini 2.5 語音功能的核心優勢

即時語音對話與風格控制
Gemini 2.5 的原生語音對話功能展現了自然流暢的語音互動，具備出色的表達能力和韻律模式，並以極低延遲實現即時對話體驗。更令人驚豔的是其風格控制功能，使用者可以透過自然語言提示調整對話方式，包括口音、音調，甚至是耳語。

工具整合與情感回應
系統具備工具整合能力，可以在對話中使用 Google Search 或開發者自訂工具，讓對話更具實用性。同時，Gemini 2.5 能夠回應用戶的語調變化，識別相同文字在不同語調下可能產生的不同效果。

語音影片理解與多語言支援
Gemini 2.5 能夠透過串流語音和影片與用戶進行對話，討論影片內容或透過螢幕分享進行互動。此外，它還支援 24 種以上的語言進行對話，甚至在同一句話中混合多種語言。

Gemini 2.5 語音生成的進階控制

文字轉語音技術的發展日新月異，Gemini 2.5 的最新模型可以提供前所未有的語音生成控制能力。使用者可以生成從短片段到長篇敘述的各種內容，精確控制風格、音調、情感表達和表現方式。模型可以表現特定情感並在需要時產生口音效果，還能控制語速並確保發音準確性，包括特定詞彙的精確發音。

多說話者對話生成與應用

Gemini 2.5 的另一項突破性功能是多說話者對話生成，能夠從文字輸入生成類似 NotebookLM 風格的雙人語音概覽，透過對話形式讓內容更加引人入勝。系統提供超過 24 種語言的多語言語音內容創建支援。開發者可選擇 Gemini 2.5 Pro Preview 獲得複雜提示的最高品質效果，或選擇 Gemini 2.5 Flash Preview 進行成本效益的日常應用。