4月6日,Meta推出了一個AI模型Segment Anything Model(SAM,分割一切模型),能夠根據文本指令等方式實現圖像分割,而且萬物皆可識別和一鍵摳圖。
想必很多小伙伴已經看到了這個東西的介紹。對于XR的從業者來說,Meta的這個SAM模型可謂石破天驚,XR的發展突然就這么迎來了個強大的核動力引擎。
這個模型看起來是說可以“摳圖”,但本質上它是實現了對圖像的徹底的結構化。我們說文字類信息是結構化信息,但圖像是非結構化的,而很多AI算法就是要解決圖像數據結構化問題。但即使經歷的多年的發展,此前AI也就能能夠對一些特定類型的圖像進行結構化,比如說數字、文字、人臉等。而Meta的SAM模型一次性實現了對圖像中任意類型的目標進行結構化。
那么為什么說這個SAM對于XR的發展將起到核動力引擎的作用呢?
作為XR來說,一是要人感知世界,二是要世界感知人。但無論怎樣感知,XR都需要首先能夠理解世界上的萬物,然后才能對其進行處理。但一直以來,都沒有一個很高效的辦法讓XR通過圖像去理解他“看到”的世界。
舉個例子來說,假設小明戴著AR眼鏡,拿起一根鐵絲,走到一個插座面前,拿著鐵絲去捅進插座,直到小明被活活電死,AR眼鏡對這整個過程也會無動于衷,因為它無法通過圖像識別對象,自然也無法理解小明在干嘛,更談不上給小明發出任何的提醒了。
如果有了SAM模型的加持,AR眼鏡就能夠理解手、鐵絲、插座等對象,當小明手持鐵絲去做出危險動作時,AI就能通過AR眼鏡給他發出危險提示。
當然,有了SAM模型加持的AR眼鏡,不僅能夠幫助人規避風險,也能夠幫助人學做菜、學開車、學飛行、學織毛衣、學飼養小寵物,至于說學編程、學視頻剪輯等更是不在話下。
警長現在能夠想象到的場景一定只是SAM應用的一小部分??偠灾?,XR在SAM的賦能下具備了通過圖像理解現實的能力,無論是“增強現實”還是“虛擬現實”,在內容制作成本上會大幅降低,在使用場景上會大幅增加。SAM的出現,無異于為XR行業安裝了一臺核動力引擎,而且,已然按下了啟動鍵。