新加坡國立大學的研究團隊近期公布了一項令人矚目的研究成果,他們針對Claude這一人工智能(AI)系統進行了廣泛的能力測試,測試覆蓋了超過20個不同的應用場景。
在測試中,Claude展現出了驚人的電腦操控能力,不僅能夠輕松完成手機上的日常任務,還能夠在復雜的辦公環境中游刃有余。研究團隊特別選擇了熱門手游《崩壞:星穹鐵道》作為測試對象之一,通過簡單的指令,如“幫我完成今天的模擬宇宙”,Claude便能自動執行游戲中的各項任務,包括啟動戰斗、等待結束并退出,整個過程流暢自如。
值得注意的是,Claude的操控并非簡單的機械重復,而是基于對游戲規則和目標的深刻理解。它能夠根據游戲界面的不同任務進行智能調整,展現出極高的靈活性和適應性。
除了在游戲領域的出色表現,Claude在辦公場景中同樣大放異彩。研究團隊設計了一個基于Claude Computer Use API的自動化GUI框架,該框架涵蓋了系統提示、狀態觀察、推理范式等多個模塊。通過這個框架,Claude能夠執行包括網頁搜索、工作流程管理以及辦公生產力軟件操作等在內的多項日常辦公任務。
例如,在Amazon和Apple的官方網站上,Claude能夠成功完成下單購物的全過程,包括選擇商品顏色、配置以及填寫收貨地址等步驟,無需人工干預。
盡管在復雜網頁操作和辦公軟件使用中,Claude也遇到了部分挑戰,但整體而言,其表現已經相當出色。研究團隊還慷慨地公開了所有測試用例的具體信息,供其他研究者和開發者參考和進一步探索。這一舉措無疑將推動AI技術在更多領域的應用和發展。