想像一下,你站在一座熟悉的建築物前,無論是教堂、雕像還是廣場,即使你未曾從所有角度觀察過它,你也能輕易想像它從不同角度的樣貌。這是人類獨有的「空間理解」能力,我們能基於過往經驗填補細節、推斷未知。然而,對於機器而言,這項任務卻異常艱鉅。即使是當今最先進的 AI 模型,也難以想像場景的缺失部分或從新角度觀測。 但這種情況即將改變。空間智慧,將是 AI 模型的下一個「frontier」(新領域)。 Niantic,作為 AR 領域的先驅,正致力於構建「大型地理空間模型 (LGM)」。LGM 將利用大規模機器學習來理解場景,並將其與全球數百萬個場景連結起來,賦予機器如同人類般的空間理解能力。
令人振奮的革新:Niantic 的大型地理空間模型 (LGM)
近年來,大型語言模型 (LLM) 的發展對我們的生活和各個產業產生了不可否認的影響。LLM 透過學習大量的文本數據,展現出驚人的語言理解和生成能力,挑戰了我們對「智慧」的認知。 而 LGM 的目標,則是幫助電腦以同樣先進的方式感知、理解和導航現實世界。如同 LLM 學習文本數據,LGM 則學習大量的地理空間數據:數十億張錨定於精確地理位置的真實世界圖像,這些數據經過模型的萃取和學習,最終形成對空間、結構和物理互動的深度理解。
從文字到 3D,AI 的進化之路
從基於文本的模型到基於 3D 數據的模型,反映了近年來 AI 發展更廣泛的發展軌跡:從理解和生成語言,到解讀和創造靜態和動態圖像(2D 視覺模型),再到如今方興未艾的 3D 物體建模(3D 視覺模型)。 LGM 比 3D 視覺模型更進一步,它捕捉的是根植於特定地理位置、具有真實比例的 3D 實體。與生成無比例 3D 資產的 3D 生成模型不同,LGM 與真實世界的比例尺度綁定,能確保精確的尺寸估計。因此,LGM 所代表的是新一代的地圖,而非任意的 3D 資產。 3D 視覺模型或許能夠創造和理解 3D 場景,但 LGM 卻能理解該場景與全球數百萬個場景的地理關係。LGM 賦予機器「地理空間智慧」,使其能夠從先前的觀察中學習,並將知識遷移到新的位置,即使這些位置只有部分被觀察到。
LGM 的應用:空間智慧的無限可能
雖然搭載 3D 圖形的 AR 眼鏡距離大規模普及尚需數年,但 LGM 仍有機會與純音訊或 2D 顯示眼鏡整合。LGM 可以引導使用者探索世界、回答問題、提供個人化推薦、輔助導航,並擴增實境世界的互動。
此外,LGM 與 LLM 的整合,將使空間理解和語言理解相結合,讓人們更深入地了解周遭環境,並與其互動。
LGM 所帶來的地理空間智慧,還能生成、完善或操控 3D 世界模型,進一步推動 AR 體驗的發展。
Niantic 的探索:VPS 與神經地圖
過去五年,Niantic 一直致力於構建「視覺定位系統 (VPS)」。VPS 利用手機拍攝的單張圖像,透過由使用者掃描的 3D 地圖,精確判斷手機的位置和方向。 藉助 VPS,使用者可以公分級的精度將自己定位在真實世界中,並查看與物理環境精確
相關連結:
Share this content: