2022年9月9日,掘力計劃第23期線上技術分享活動以“AIGC的應用和創新”為主題,邀請到 Jina AI 工程師季光輝進行了主題為《多模態大模型為視覺障礙者打造無障礙數字體驗》的演講。他介紹了多模態人工智能產品 SceneXplain 如何通過算法創新,為殘障人士提供平等的數字體驗,網站鏈接:scenex.jinaai.cn/a/NEW。
直播回放地址:https://juejin.cn/live/jpowermeetup23
數字時代的無障礙體驗
隨著移動互聯網的興起,“無障礙”已成為這個時代的重要詞匯。它意味著不論性別、年齡或能力如何,每個人都能平等地獲得數字產品和服務。對殘障人士而言,無障礙體驗尤為關鍵。以視障群體為例,全球約有 2.85 億視力障礙者,其中包括 3900 萬盲人。因此,如何通過科技創新為他們提供更好的數字體驗,已成為一個非常迫切的需求。發達國家也開始出臺相關法規,要求政府部門網站達到無障礙標準。
然而,就目前而言,無障礙體驗還存在諸多不足。以網站為例,歐盟內僅有 34% 的政府網站達標;即便達標的網站,圖像描述也往往過于簡單或不準確。這主要是由于現有圖像描述算法的局限所致。
傳統圖像描述算法的局限
對視障用戶而言,網站圖片的替代文本是實現無障礙的關鍵。但手動編寫圖像描述是一項艱巨的工作,而現有算法生成的描述往往不夠豐富和準確。具體問題包括:
●圖像細節缺失:算法無法準確表達圖像的細節,導致視障用戶難以理解圖像內容。
●情感表達不足:算法無法捕捉圖像所要表達的氛圍與情感。
●空間關系理解不足:不同的空間關系會表達不同的意義,但算法難以識別。
●抗干擾能力弱:圖像質量下降時,算法的描述能力會大幅降低。
總體來說,現有圖像描述算法要么只能生成圖像提示詞,無法形成流暢的語言描述;要么對復雜圖像理解不足,無法生成高質量的描述。
SceneXplain:多模態算法生成高密度圖像描述
針對上述問題,Jina AI 研發的 SceneXplain 利用多模態深度學習算法,實現了圖像高密度描述的自動生成。該算法專注處理復雜場景圖像,通過多語言描述呈現圖像細節。其優勢包括:
●捕捉圖像細節。可準確描述復雜圖像的場景元素、空間關系等細節。
●抓取圖像情感。可分析作品的語調和氛圍,幫助用戶理解圖像情感。
●生成連貫描述。融合多模態信息,以流暢自然的語言描述圖像。
●強大抗干擾。可應對低質量、噪聲圖像,輸出可靠描述。
通過案例分析,SceneXplain 明顯優于舊有算法。它可生成上下文豐富、情感細膩的描述,幫助視障用戶充分理解圖像所傳達的信息。
除圖像外,SceneXplain 也可自動描述視頻內容。它可解析不同語言的視頻,識別關鍵場景,并產出多語言描述,帶來更好的視頻無障礙體驗。
對開發者而言,SceneXplain 提供靈活的 API 接口,支持自定義描述長度、語言等。開發者可以基于該API開發無障礙應用插件,為更多用戶提供無障礙服務。
以科技促進無障礙發展
數字時代,我們有責任利用科技力量,為每個人創造公平的數字體驗。SceneXplain 正是基于這樣的理念誕生的產品。它展示了人工智能算法的進步如何惠及殘障群體,為他們帶來比文字和圖像更豐富的數字體驗。讓我們一起期待人工智能為弱勢群體帶來更多驚喜,構建充滿溫度與陽光的數字社會。