【ITBEAR科技資訊】5月10日消息,meta公司發布了一項新的開源人工智能模型ImageBind。該模型可以將文本、音頻、視覺數據、溫度和運動讀數等多種數據流整合在一起,并將其嵌入到一個多維索引空間中。該研究表明,未來的人工智能系統將能夠創建沉浸式、多感官的體驗,與目前針對文本輸入的系統一樣,交叉引用這些數據。
據ITBEAR科技資訊了解,該模型是第一個將六種類型數據整合到一個嵌入空間中的模型。這些數據包括:視覺(包括圖像和視頻);熱力(紅外圖像);文本;音頻;深度信息;以及由慣性測量單元(IMU)產生的運動讀數。
未來的人工智能系統將能夠像當前針對文本輸入的系統一樣,交叉引用這些數據。例如,未來的虛擬現實設備將不僅能夠生成音頻和視覺輸入,還能夠生成你所處的環境和物理站臺的運動。這將讓用戶在體驗中感受到更多的真實感和身臨其境的感覺。
meta公司的這項研究顯示了未來版本的系統如何能夠整合其他數據流,例如生成與視頻輸出匹配的音頻。而這種開源的做法,也將在人工智能領域受到更多的關注。雖然這項研究仍處于初步階段,但對于人工智能領域的發展具有重要的指導意義。