【ITBEAR科技資訊】4月13日消息,馬斯克旗下的人工智能公司xAI繼3月下旬推出Grok-1.5大語言模型后,于近日再度發布其首個多模態模型Grok-1.5 Vision(簡稱Grok-1.5V)。
xAI計劃近期邀請早期測試者及現有的Grok用戶參與Grok-1.5V的測試。新模型不僅增強了文本理解能力,更進一步擴展至處理各類文檔、圖表、截圖及照片內容,展現出全方位的解析實力。
據ITBEAR科技資訊了解,Grok-1.5V的推出標志著xAI在多模態模型領域的重要突破。xAI自豪地宣稱,Grok-1.5V在多學科推理、文檔解析、科學圖表解讀、表格數據處理以及屏幕截圖和照片分析等多個方面,均能與當前領先的多模態模型相媲美。
為了直觀展示Grok-1.5V的能力,xAI在官方發布的新聞稿中詳細演示了7個具體應用場景,其中包括將手繪白板上的流程圖直接轉化為Python代碼、根據孩童的繪畫作品生成富有想象力的睡前故事、解釋網絡流行語的含義,以及將圖片中的表格數據快速轉換為CSV文件格式等實用功能。
此外,xAI還分享了Grok-1.5V的性能測試結果。在RealWorldQA基準測試中,新模型的表現超越了GPT-4V、Claude 3Sonnet、Claude 3 Opus和Gemini Pro 1.5等一系列業界知名競爭對手,展現了卓越的性能和準確性。