與機器進行語音交流,讓機器明白你說什么,是人們長期以來夢寐以求的事情,隨著AI人工智能技術的實現,語音識別技術已經開始在各個領域應用。而如何驗證機器是否正確采集并識別語音,在測試領域又是一個新興的課題。下文將闡述如何針對語音語義識別技術進行測試。
一、什么是語音&語義
假設我們對某AI說了心事,那機器該怎么理解我們所說的呢?首先機器會對我們發出的語音信息進行識別,語音識別就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的技術。語音識別技術主要包括特征提取技術、模式匹配準則及模型訓練技術三個方面。特征提取技術可以對某一模式的組測量值進行變換,以突出該模式具有代表性的特征,并通過影像分析和變換,以提取所需的特征,而通過模式匹配準則,我們就可以精準的在模板庫里鎖定特征,然后通過大量模型訓練形成語音識別模型。這樣可以讓機器明白了我們說的文字是什么,而機器不是人,那對自然語言的識別和理解就是語義識別技術需要解決的問題。
語義識別就是將連續的講話分解為詞、音素等單位,并建立起一個理解語義的規則,并把其中分解出來的某一個詞作為關鍵詞,當語義識別出來關鍵詞的時候,返回識別結果。語義識別的核心除了理解文本詞匯的含義,還要理解這個詞語在語句、篇章中所代表的意思,這意味著語義識別從技術上要做到:文本、詞匯、句法、詞法、篇章層面的語義分析和歧義消除,以及對應的含義重組,以達到識別本身的目的。
二、語音&語義識別應用場景
語音和語義識別技術可以分析網頁、文件、郵件、音頻、論壇、社交媒體中的大量數據,也可以直接應用于醫療、教育、金融等行業。還可以通過技術接口應用于所有智能語音交互場景,如智能家居、車載語音、可穿戴設備、VR、機器人等。
醫療場景,為醫療專業人士提供實時語音聽寫、電子病歷錄入,也可以讓醫療專業人士,通過對癥狀的描述,關鍵詞查詢,進行病癥的初步判斷,分類科室、輔助診斷等。
教育場景,基于自然語言處理技術進行口語能力的測評,同時也可以通過人工智能技術,題庫系統,以及算法模型,根據學生在測試中對上一道問題的回答情況,自動調整學生接下來所需回答問題的難度和順序,以達到讓每一個學生擁有最合適的學習方案
金融場景,運用自然語言處理,深度學習等多種AI技術,進行量化交易模型的建立來量化交易,以更強大的計算機模型運用人工智能的技術對大量客戶進行財富畫像,為客戶量身定制的資產管理投資的智能投顧。
商業場景,基于系統數據庫、知識圖譜,在與客戶的對話中,獲取客戶需求,并提供相應的答案來解決客戶的問題。
營銷場景:通過各種算法模型,對用戶在互聯網上留下的大量個人信息、登錄信息、路徑關系、社交關系、消費記錄等數據進行數據挖掘,來對用戶進行精準需求分析,自動化營銷。
三、語音&語義識別模型測試方法
1.語音&語義識別功能的測試標準
在常規的測試內容中我們會對模型的接口調用連通性、參數非法校驗、返回碼正誤等等進行測試,而最重要的是測試模型的識別效果。因此語音&語義識別功能的測試通過標準有兩個,第一是模型接口可以成功調用,而且會對無法識別的語音信息于前端進行錯誤拋出;第二就是模型的識別結果準確率達到通過準則(大量的語音信息,語音的模糊性和環境噪聲都會對模型的識別造成困擾,很難做到每一次都能識別成功。雖然模型訓練追求完美,但目前卻無法保證100%的正確,因此一般來說準確率就是各自場景的使用人員自行決定準確率通過準則,業界的通用標準是語音識別準確率達到99%以上)
2.語音&語義識別功能的測試流程
我們以某掌銀的導航和轉賬業務為例,下圖展示了測試模型識別效果的主要流程。首先需要準備一定量的數據(當數據量越大的時候,模型的訓練效果越好)分為兩個部分,一部分是語音測試數據,一部分是語義測試數據。其中語音測試的數據都是提前錄好的對應文字的語音,語義測試的數據是包含意圖關鍵詞的語料文檔,兩部分的數據都包含導航和轉賬兩個業務場景的語句。
把錄制的語音文件發送至“語音識別模型”,返回語音識別的結果,并根據識別的結果出具一個語音識別的準確率,其中包含接口請求的成功率,字準率(識別正確的字符數/評測集所有字符數)和句準率(全部識別正確的句子數目/評測集所有句子數),并將該結果裝載至“語義識別模型”,返回語義識別結果,同樣出具一個語義識別準確率,即詞準率(正確識別出的某類關鍵詞(例如意圖)/評測集所有某類關鍵詞數(例如意圖)),語音和語義識別的準確率即為模型效果評價指標的方式。
以下圖中第一條自造數據為例,當客戶說出我要轉賬給丁某三十元的時候,把語音識別模型識別出來的結果裝載至語義識別模型,語義識別模型提取關鍵字“轉賬”、“丁某”、“三十元”,對應意圖“TRANSFER”、人名以及金額,即可識別出來客戶需要給丁揚轉賬30元,當該條轉賬的操作可以成功完成即測試通過。
當導航和轉賬的自造數據通過批量運行腳本都成功加載至語音識別模型和語義識別模型,并在語音識別模型得到了相應的字準率和句準率,且兩個準確率均能達到99%以上的時候,我們可以判定語音識別是成功的,同理,在語義識別模型里,得到的詞準率也能達到99%以上的時候,語義識別也是成功的。通過字準率,句準率,詞準率,我們可以認為該語音語義識別模型的效果是符合業界標準的,同時也達到了測試通過準則。