【ITBEAR】在人工智能領域,一項新的評測基準正悄然興起,它不同于傳統的算法測試,而是將AI放入了一個極具創意的場景——《我的世界》游戲中進行建筑能力的比拼。
這項新奇的評測方法吸引了大量關注,不同版本的大模型如Claude 3.5 Sonnet、OpenAI的o1系列等紛紛在《我的世界》中一展身手,其建筑成果由網友們投票評選。
在比拼中,新舊兩版Claude 3.5 Sonnet的表現尤為引人注目。新版Sonnet,被戲稱為“Sonnet 3.6”,在建筑創意性上小勝一籌,展現了不俗的迭代進步能力。
與此同時,OpenAI的o1系列也表現出色。o1-preview模型雖然建筑速度較慢,但其精細度和結構完整性令人印象深刻。在模仿真實建筑泰姬陵的任務中,o1-preview更是大放異彩,展現了極高的建筑技藝。
這場AI建筑大賽不僅吸引了眾多觀眾的目光,更激發了開源社區的熱情。在GitHub上,相關代碼迅速上架,更多模型的測試結果也陸續公布,形成了一股AI建筑評測的熱潮。
這場競賽并非簡單的建筑比拼。AI需要通過文本提供上下文,并生成下一步的操作指令,類似于根據棋盤行列編號下盲棋。這種評測方式不僅考驗了AI的建筑能力,更對其文本理解和指令生成能力提出了高要求。
隨著比賽的深入進行,越來越多有趣的建筑作品涌現出來。從塔式建筑到太陽系模型,再到反映AI個性的鉆石墻和機器人形象,這些作品充分展現了AI的創造力和多樣性。
如今,這項新型MC Bench評測已經成為AI領域的一道亮麗風景線。未來,隨著更多模型的加入和評測機制的完善,我們有理由期待更多精彩作品的誕生。