近日,標貝科技作為英特爾AI百佳創新激勵計劃成員,受邀出席英特爾&智東西公開課《AI百佳創新激勵計劃在線研討會》智能語音專場活動,標貝科技副總裁穆向禹博士圍繞《智能語音技術的發展和產品落地形態》進行主題分享,與近7000位業內人士一起在線探討交流了AI技術在智能語音的應用和落地。
據介紹,今年5月,「AI 百佳創新激勵計劃在線研討會」由英特爾聯合智東西公開課全新策劃上線,包括智慧零售、智慧醫療、智慧金融、智能機器人、智能語音和智能決策六大專場組成,計劃邀請15家創新團隊進行專題分享。作為智能語音領域代表名牌,標貝科技應邀出席智能語音專場研討會。
以下為穆向禹博士分享的主要內容
↓↓↓
01
AI賦能 智能語音遍地開花
智能語音是實現人與機器以語言為紐帶的通信。完整的人機對話包括聲音信號的前端處理、通過語音識別技術將聲音轉為文字供機器處理、通過自然語言處理和自然語言理解技術,計算機理解了文字內容,用語音合成技術將文本語言轉化為聲音輸出,從而形成完整的人機語音交互。
人類對機器語音識別的探索始于20世紀50年代,隨著計算硬件能力的不斷提升和深度學習技術的不斷演進,智能語音技術歷經了萌芽、突破、產業化、快速應用的發展后,終于進入到一個新的爆發期,迄今已逾70年。
當前,大批國際、國內巨頭加速在各垂直行業的滲透和布局,形成了全新的智能語音產業格局。從C端應用的移動設備、智能車載設備、智能家居,到B端的智能客服、智慧教育、智慧醫療、智慧金融等,智能語音應用遍地開花。
02
全面語音能力 加速智能語音產品落地
智能語音交互是基于語音識別、語音合成,自然語言處理等諸多技術賦予語音產品“聽清、聽懂、回應”的綜合型交互技術。常見的語音助手、語音播報、智能翻譯等,這些都離不開語音交互技術的身影。
隨著智能語音商業化應用推動智能語音市場的迅猛發展,從單一的語音產品體驗,到更加多樣化以及個性化的語音交互體驗,AI在各個應用場景落地應用給產業帶來了新生機。
從技術發展角度來看,人工智能邏輯推理能力不斷增強、運算智能逐漸成熟,目前語音識別、語音合成、機器翻譯等交互技術的能力都已經逼近人類智能。未來幾年內,更加成熟化的語音交互技術將通過云平臺和智能硬件產品平臺快速實現商業化部署,前景十分廣闊。
為推動語音交互技術以更便捷、更普惠的形式賦能企業和個人開發者,標貝科技以一站式SaaS服務平臺的方式對外開放AI智能語音服務能力,通過簡單易用的SDK和API的接入,即可一鍵部署各類服務,讓開發者輕松搞定產業級應用,加速語音產品的落地。
標貝開放平臺的語音合成服務搭載了標貝科技現有的全域發音人模型,提供超過100個精品特色發音人選擇,支持在線合成、離線合成,長文本及短文本合成。語音識別提供一句話識別、長語音識別、錄音文件識別、自學習工具四種服務,支持中文、英文、粵語和維語四種語言。
此外,為了滿足更多合作伙伴的多樣化語音定制需求,標貝開放平臺還可以提供在線和離線的聲音轉換、聲紋識別、聲音理解、語音評測等多種語音拓展能力。
03
人機交互 未來無限可期
AI時代,萬物互聯已成必然趨勢。而智能語音作為人機交互的關鍵通信接口,隨著應用場景的進一步下沉和拓展,面臨不少挑戰。
對于語音識別而言,由于每一種語言都需要單獨采集數據,獨立訓練部署,不同場景需要有持續學習的能力,效率低成本大;其次,復雜場景下的語音識別夾雜的噪音、混響、白噪聲、多人說話等,容易影響機器識別的準確率。
另一方面,雖然近兩年語音合成的聲音自然度有了很大提升,但還缺少情感表現力,同時由于受限于數據采集和專業知識的限制,無法打造適用于所有場景的語音合成能力。
挑戰的背后,歸根結底在于關鍵技術仍有待突破。未來,標貝科技不僅將持續加碼自主研發投入,推動技術升級,還將不斷從多個維度拓展新的應用場景,持續為客戶提供更便捷、更場景化的語音服務,實現技術創新和商業化應用的雙贏。