智東西
編譯 | 徐珊
編輯 | 云鵬
大模型之戰席卷了整個2023年,緊接著的是,各大科技巨頭似乎都瞄準了AI可穿戴設備,尤其是智能眼鏡!
智東西12月18日消息,據The Information報道,Meta、谷歌、微軟、OpenAI等科技巨頭都準備將AI大模型應用在智能眼鏡等帶有攝像頭的可穿戴設備上。他們認為智能眼鏡等硬件將成為AI大模型的合適載體,因為多模態AI大模型可以處理聲音、圖片、視頻等多類型的信息。
近期,各大科技巨頭都在嘗試將AI功能融入到不同移動設備中。有知情人士透露,OpenAI最近正在將“GPT-4 with Vision”的物體識別軟件嵌入到社交公司Snap的產品中。這或許將為Snap的智能眼鏡Spectacles提供新功能。
Meta也在上周二展示了自己將AI功能融入至雷朋(Ray-Ban)智能眼鏡的效果。該智能眼鏡可以通過AI語音助手描述用戶看到哪些東西,同時能夠告訴用戶哪件襯衫適合哪件褲子,以及擁有西班牙語報紙翻譯成英語等一系列新功能。
亞馬遜Alexa AI助理團隊內同樣有個小組在研發一種新型帶有設覺功能的AI設備。此外,和多數手機廠商一樣,谷歌開始嘗試將AI功能應用到手機中。
今年6月,蘋果Vision Pro頭顯正式亮相,計劃在明年出售。但據The Information推測,該設備可能剛開始并不會具備多模態AI功能。
當一場新的移動終端變革開始,蘋果、微軟、OpenAI、Meta等科技巨頭將會如何布局新的戰場?他們又是如何在各大硬件中凸顯出自己的AI優勢?哪些新的AI硬件或成為AI大模型的最佳載體?我們通過最新爆料可以看到一場AI硬件創新戰正在開始。
一、谷歌:已適配手機AI助手Pixie,借助軟件為智能眼鏡提供搜索服務
在上周剛剛發布的AI大模型Gemini中,展示了一段AI是如何根據模仿者的動作,猜出電影名稱的視頻。它還展示了如何猜地圖、如何處理手工問題等細節。
盡管視頻內容可能有所編輯,但是該視頻也透出了谷歌想要傳達的基本思想:打造一款始終在線的AI,它可以通過人們在看、在聽的東西,給用戶直接的反饋或者幫助。一位直接了解谷歌消費硬件戰略的人士表示,谷歌可能還需要數年時間才能提供這種體驗,因為這種實施基于環境的計算將會耗費大量電力。
▲谷歌眼鏡
現如今,谷歌正在重新設計其Pixel手機的操作系統,希望嵌入較小規模的Gemini模型,為其手機AI助手Pixie升級體驗,比如說告訴用戶周邊哪里可以買到他們剛剛拍攝下來的產品。
基于谷歌在搜索技術上長期布局,The Information覺得基于周圍環境信息,學習和預測人們需要或想要的AI設備似乎非常適合谷歌。盡管十年前,谷歌眼鏡失敗了,但是谷歌后續也推動Android/ target=_blank class=infotextkey>安卓手機廠商們通過手機攝像頭掃描環境并將圖像推送到谷歌,然后基于云系統進行分析,從而形成“google Lens”的圖像搜索應用程序。
了解該戰略的人士表示,該公司最近取消了眼鏡式設備的開發,但仍在為該類型的設備開發軟件。這些人士表示,谷歌計劃將圖像搜索軟件授權給硬件制造商,類似于為三星等手機制造商開發安卓移動操作系統的方式,發揮其AI大模型的作用。
二、微軟:在HoloLens上運行AI軟件,通過聊天機器人提供多模態語言
在多模態AI大模型的熱潮下,微軟研究人員和產品團隊也開始嘗試升級自己的語音助手,并且嘗試在一些小型設備上運行AI功能。
根據專利申請顯示以及知情人士透露,其模型可以為一些平價的智能眼鏡或者其他硬件提供支持。微軟正計劃在其AR頭顯HoloLens上運行AI軟件。用戶將頭顯前置攝像頭對準物體,拍下照片發送給由OpenAI 驅動的聊天機器人,讓聊天機器人直接識別物體。同時,用戶還可以通過對話的方式,從聊天機器人這里獲得更多的信息。
▲HoloLens
三、蘋果:Vision Pro發布時或不會搭載AI大模型
蘋果Vision Pro擁有不少多模態的新功能,但AI大模型方面的進展,和其他幾家相比略有落后。目前,沒有任何跡象表明Vision Pro在發布時將擁有復雜的物體識別或其他多模態AI功能。
但蘋果花了數年時間完善Vision Pro的計算機視覺功能,以便該設備能夠快速識別周圍環境。這包括快速識別家具并了解佩戴者是坐在客廳、廚房還是臥室。或許,蘋果正在開發可以識別圖像和視頻的多模態大模型。
▲Vision Pro
但和其他公司正在開發的眼鏡相比,Vision Pro又大又重,且不適合在戶外日常場景中使用。
另一方面,據報道,蘋果公司今年早些時候暫停了自己的AR眼鏡的開發工作,以專注于其頭顯的銷售。目前尚不清楚AR眼鏡的研發工作何時會恢復。
四、Meta:已適配雷朋眼鏡,提供AI新功能
Meta首席技術官Andrew Bosworth周二在Instagram發帖說,部分雷朋(Ray-Ban)眼鏡用戶將能夠直接在智能眼鏡端訪問AI大模型。
▲Ray-Ban
Meta的一些領導者將雷朋眼鏡視為AR眼鏡的“先驅”。該設備可以將數字圖像與周圍現實世界融合在一起。按照原計劃,Meta計劃在未來幾年推出AR眼鏡,但該計劃遇到了一系列困難。具體而言,有報道成,智能眼鏡很難吸引用戶,并且新一代顯示器開發遇到了難題。
但多模態AI大模型的到來似乎讓Bosworth以及其團隊重新煥發了新活力,讓他們了解這款眼鏡在短期內可以為客戶帶來一系列AI新功能。
五、亞馬遜:開發新AI設備系列,或為智能眼鏡提供支持
今年夏天,在亞馬遜每年兩次的產品規劃中,Alexa團隊的工程師提出推出一款能夠運行多模態AI的新設備。
據直接了解相關項目的人士透露,該團隊特別關注的是如何減少在設備上處理圖像、視頻和語音等AI計算和內存的需求。目前尚不清楚該項目是否獲得了資金支持,也不清楚該設備打算為客戶解決什么問題,但它與該公司的Echo語音助理設備系列是分開的。
此前,Alexa團隊也曾研發過一款名為Echo Frames的智能音頻眼鏡。該設備不支持屏幕顯示器或攝像頭。目前尚不清楚亞馬遜是否會開發具有視覺識別功能的智能眼鏡。
六、AI可穿戴設備+攝像頭,或成大模型最佳硬件載體
這不是硅谷巨頭們第一次設計這類帶有攝像頭的可穿戴設備產品。此前谷歌、微軟以及其他科技巨頭都曾研發過AR頭顯。他們當初希望能夠讓數字屏幕出現在頭顯的半透明屏幕上,逐步提供指引幫助用戶完成任務。但由于光學設計較復雜,最后多數產品反響不佳。
OpenAI推出的多模態大語言模型,可以通過視覺識別功能,讓AI知道人們在看什么,在做什么,并且可以對這些行為、事物提供進一步信息。當大語言模型開始輕量化,一些小型設備也可以搭載模型,能夠即時反饋用戶的請求??紤]到人們對隱私安全的重視,人們可能還需要一段時間才能接受智能眼鏡,以及一些內置攝像頭的AI設備。
The Information覺得智能眼鏡擁有AI助手后,或許將會成為像智能手機一樣變革性的產品。它不但能成為指導學生數學問題或者論文問題的導師,還可以隨時給周邊的人提供環境信息,如翻譯廣告牌、告訴用戶如何解決汽車故障等。
蘋果公司前工程經理,AI搜索公司Objective的首席執行官巴勃羅·門德斯(Pablo Mendes)說:“AI大模型對一切都至關重要,它們將在計算機、手機和其他設備的底層架構中起到作用”。
結語:科技巨頭尋求AI大模型最佳硬件載體
在由ChatGPT掀起的第三輪人工智能熱潮中,多模態大模型屬于底層基礎設施,ChatGPT屬于直接應用,這些都是已經明晰的答案。但ChatGPT在哪些設備上才能最大發揮出其應用潛力,哪些設備又是大語言模型的最佳載體?這些成為OpenAI、微軟、谷歌等科技巨頭們如今開始摸索的方向。
從The Information最新爆料看來,帶有攝像頭的智能眼鏡成為不少巨頭探索的重要方向,同時也有部分企業開始摸索研發新的可穿戴AI設備。又或者,嘗試在手機上適配各類AI大模型。
其實不僅是科技巨頭們如此思考。在國內,不少AR眼鏡廠商們同樣也認為這是機遇所在。“機器人和AR眼鏡或許將成為這波AI大模型的最大受益者。”一位關注AI產業十余年的產業人士說道。
但在同一設計思路下,最后誰能調教出最好的輕量化AI大模型?誰又能打造出最實用的智能眼鏡?我們將持續觀察各大科技巨頭的進展,找到答案。
來源:The Information