【ITBEAR科技資訊】4月11日消息,蘋果公司于4月8日發布了一款名為Ferret-UI的新型多模態大語言模型,該模型能夠有效理解和與屏幕信息進行交互,并在所有基本UI任務上超越了GPT-4V。這一技術的發布,讓人們對未來智能交互的期待愈發高漲。
據ITBEAR科技資訊了解,Ferret-UI被設計為一種專為理解移動UI屏幕量身定制的MLLM,它具備指向、定位和推理等多重能力。該技術通過靈活的輸入格式和基礎任務,能夠在移動用戶界面屏幕上執行各類引用任務。Ferret-UI的一個顯著特點是“任何分辨率”技術,這項技術通過放大細節來解決UI屏幕中小型對象的識別問題,進而提升模型對UI元素的理解精度。
網友對此技術表示出極大的熱情,紛紛稱贊其“泰褲辣”。盡管蘋果的泰坦項目曾遭遇挫折,但Ferret-UI的發布無疑為蘋果在AI領域注入了新的活力。人們期待,如果這項技術能夠應用于Siri,那么未來的智能助手將會變得更為聰明和便捷。
此外,研究人員為了增強模型的推理能力,特別編譯了用于高級任務的數據集,包括詳細描述、感知/交互對話和功能推理。在基礎任務性能的比較上,Ferret-UI展現了對UI屏幕的出色理解能力以及執行開放式指令的能力。
隨著技術的不斷進步,掌握應用程序屏幕并使AI像人類一樣進行交互,蘋果未來或將改變MLLM的游戲規則,為我們帶來更加智能和便捷的生活體驗。