【ITBEAR科技資訊】5月25日消息,巴塞羅那超級計算中心(BSC)和加泰羅尼亞理工大學(UPC)的研究人員最近取得了重大突破,成功開發出一項全新工具,可將手語翻譯成文本,為聽覺障礙者提供更多包容性和可及性。通過運用人工智能技術,包括自我注意機制和更高的處理速度,該工具能夠更準確地識別手語者的姿勢并生成準確的文字轉寫。
據ITBEAR科技資訊了解,該工具基于名為How2Sign的數據集進行開發,這是一個開放的、多模態和多視角的大規模數據集,包含80小時的美國手語教學視頻及其對應的英語文字記錄。BSC和UPC發布了這一數據集,用于訓練模型將手語轉化為文本。研究人員采用了膨脹式三維網絡(I3D)對數據進行預處理,該網絡能夠從視頻中直接提取時空信息,進行三維過濾。此外,他們還采用了一種類似于ChatGPT的轉換器式機器學習模型。
研究人員發現,他們的模型能夠生成有意義的翻譯結果,但仍有改進的空間。盡管該工具目前仍處于實驗階段,研究人員表示他們將繼續努力,力求開發出與無聽力損失者使用的技術相媲美的工具。
Laia Tarrés,這項研究的主要作者表示:“我們開發的這一新工具是我們之前發布的名為How2Sign的研究成果的延伸。通過利用這一已公開的數據集,我們開發了一個新的開源軟件,能夠學習視頻和文本之間的對應關系。”
她還指出,這個自動手語翻譯的開放工具對于致力于創造無障礙環境的科學界來說是一項寶貴的貢獻。該工具的發布代表著朝著為所有人創造更具包容性和無障礙性的技術邁出的重要一步。