縱觀人工智能騰飛的這十年,從最初的計算智能,逐漸發展成為以計算機視覺、智能語音為代表的感知智能階段,隨著科技不斷地在產業場景中應用落地,不斷有人叩問:新一代AI技術是否能通過“圖靈測試”,達到“能理解、會思考、有感情”的認知智能階段?
人機交互作為人工智能的重要研究領域,自然語言處理、意圖理解、情緒識別、對話交互和知識推理等一直是其技術迭代升級的主要組成部分。而其中基于基于深度學習的自然語言處理(NLP)研究,在2020年迎來了最繁忙的年份,OpenAI的GPT-3(175B參數)的參數量比Microsoft Research的Turing-NLG(17B參數)高出約10倍。
得益于計算能力的提升、算法框架的優化和大數據的升級等,NLP研究實現了廣泛商業化。而一知智能作為一家專注于人機交互領域的杭州市領軍型人工智能公司,在首席科學家趙洲的科研成果支持下,以數字化謀效率,向數字化要生產力,致力于為全社會提供高效率的數字員工,在2021年,也迎來了NLP研究全速發力的一年。
大型領域預訓練模型
從底層數據來看,提升NLP產品及服務的使用體驗,需要貼近真實使用場景的語料庫作為更加有效的訓練素材。
今年,以首席科學家趙洲老師為核心、算法總監姜興華為主導的一知智能算法團隊訓練了消費對話領域十億級參數的預訓練語言模型Yiwise-DNLP。基于Yiwise-DNLP模型,全面升級了意圖識別算法、實體抽取算法、對話生成算法。
Yiwise-DNLP采用transformer的模型結構,同時對對話理解和對話生成進行聯合建模。使用雙向注意力機制,模型對上下文充分理解,并采用解碼器使用單向注意力機制,幫助生成對話內容。
Yiwise-DNLP在千億級token語料上訓練,模型參數量高達十億。模型訓練過程使用了多種模型優化算法,包括 shareded data parallelism、activation checkpointing、model parallel、pipeline parallel等多種策略。
自學習的對話管理系統
對話管理模塊控制著人機對話的整個流程,對話管理根據對話歷史信息,決定此刻對用戶的反應。
在首席科學家趙洲老師的指導下,一知智能算法團隊開發了基于強化學習的自學習對話管理系統,能夠對系統理解用戶輸入的不確定性進行建模,讓算法來自己學習最好的行為序列。
一知智能構建了用戶模擬器,讓用戶模擬器和對話管理模型進行交互,通過目標評估模型獲得Action的Reward,從而獲得大量對話管理交互數據。利用強化學習不斷優化。該系統支持自學習、可交互學習、在線學習,從而使得對話管理能夠快速更新,越來越智能。
多模態情緒識別模型
一知智能使用語音和文本的多模態神經網絡模型,進行對話情緒識別。利用海量數據的聊天語料進行模型的預訓練。抽取語音特征、文本特征、語音和文本混合特征等多種不同模態的特征,在海量對話語料上訓練情緒識別模型,大幅提高了情緒識別準確率。不同模態信息相互補充,可以幫助機器更好地理解情感。
首席科學家趙洲認為,從人機交互角度出發,多模態情感分析可以使得機器在更加自然的情況下與人進行交互。機器可以基于圖像中人的表情和手勢,聲音中的音調,和識別出的自然語言來理解用戶情感,進而進行反饋。
算法總監姜興華說道,AI探索的征程是星辰大海,一知智能作為孜孜不倦的摘星人,致力于在數據底層技術升級的影響下,提升語音識別技術準確率,為Al語音識別的商用滲透提供強大的市場驅動力,讓科技的成果在更多應用場景落地,讓企業與員工真正感知數字員工的價值。