【ITBEAR科技資訊】4月11日消息,蘋(píng)果近日發(fā)布了最新的多模態(tài)大語(yǔ)言模型Ferret-UI,該模型專為理解和與移動(dòng)UI屏幕交互而設(shè)計(jì)。Ferret-UI在所有基本UI任務(wù)上的表現(xiàn)均超越了GPT-4V,顯示出了卓越的理解和交互能力。
據(jù)ITBEAR科技資訊了解,F(xiàn)erret-UI作為一種新的多模態(tài)大型語(yǔ)言模型(MLLM),具備指向、定位和推理等多重功能,能夠有效理解和交互移動(dòng)UI屏幕上的信息。它通過(guò)靈活的輸入格式和基礎(chǔ)任務(wù),在移動(dòng)用戶界面屏幕上執(zhí)行各種引用任務(wù)。Ferret-UI的一個(gè)顯著特點(diǎn)是“任何分辨率”技術(shù),通過(guò)放大細(xì)節(jié)來(lái)解決UI屏幕中小型對(duì)象的識(shí)別問(wèn)題,從而提升了對(duì)UI元素的理解精度。
此外,F(xiàn)erret-UI不僅能夠在詳細(xì)描述和感知對(duì)話中討論視覺(jué)元素,還能在交互對(duì)話中提出目標(biāo)導(dǎo)向的動(dòng)作,并通過(guò)函數(shù)推理來(lái)推斷屏幕的整體功能。研究人員為了增強(qiáng)模型的推理能力,特別編譯了用于高級(jí)任務(wù)的數(shù)據(jù)集,包括詳細(xì)描述、感知/交互對(duì)話和函數(shù)推理等方面的數(shù)據(jù)。
在基礎(chǔ)任務(wù)性能的比較上,F(xiàn)erret-UI展現(xiàn)出了對(duì)UI屏幕的出色理解能力以及執(zhí)行開(kāi)放式指令的能力。這項(xiàng)技術(shù)的掌握使得AI能夠像人類一樣進(jìn)行交互,預(yù)示著蘋(píng)果未來(lái)可能將改變MLLM的游戲規(guī)則。
通過(guò)獨(dú)特的模型架構(gòu)和數(shù)據(jù)集訓(xùn)練方法,F(xiàn)erret-UI實(shí)現(xiàn)了對(duì)移動(dòng)UI屏幕的深入理解和有效交互,為用戶帶來(lái)了更為智能和便捷的操作體驗(yàn)。這一技術(shù)的突破,無(wú)疑將推動(dòng)科技行業(yè)向更智能化、人性化的方向發(fā)展。