騰訊俞棟：定義下一代智能人機交互從目標、挑戰到實現路徑-魔扣目錄

語音識別及深度學習領域專家、騰訊AI Lab副主任及西雅圖實驗室負責人俞棟博士，在2018年騰訊全球合作伙伴大會上展示了騰訊AI正在推進的跨領域前沿研究：下一代的多模態智能人機交互。以下是有補充的演講全文，介紹了人機交互的歷史與目標、下一代智能人機交互的優勢與挑戰，及騰訊AI的解決方案。

人機交互的未來，就是多模態智能人機交互

很長時間以來，計算機都只能在人們經過特定的訓練之后才能使用，比如學習各種控制命令、理解各種圖標的含義、熟悉各種程序的交互邏輯、練習使用鍵盤和鼠標等。對某些沒有能力或沒有意愿學習這些交互方式的人（比如盲人或年邁的老人），計算機將很難成為他們生活的一部分。

幸運的是，隨著近些年來人工智能技術的發展，機器感知世界的能力也突飛猛進，計算機與人類的交互方式也正變得越來越自然，學習成本也越來越低。現在，雖然還遠不夠完美，但計算機已經能在一定程度上聽懂人類的話語、預測人類的意圖以及理解人臉的表情了。在這些研究和工程進展的基礎上，研究者和開發者正基于“以人為中心”的原則探索未來的人機交互方式——多模態智能人機交互。

多模態智能人機交互是指使用人工智能技術，通過多種模態的信號（比如語音、文本、動作、表情等）實現人與機器的交互，其最終目標是使人機交互與人人交互一樣便捷和自然。

人機交互的歷史和目標

在計算機的發展歷史上，隨著技術的進步，發生過幾次大的交互模式的演進。最近的兩次大家比較熟悉的轉變是從以鼠標/鍵盤為主的交互模式轉換為以觸摸和語音為主的交互模式。

人類創造計算機的最早目的是幫助自己處理一些繁瑣的計算任務，比如彈道計算；那時候，只有經過訓練的專業人員才有能力向計算機輸入信息和閱讀計算機輸出的結果。隨著硬件和軟件技術的發展，計算機的速度越來越快，功能也愈漸強大，人與計算機的交互方式也越來越多樣化，并日益向對人類而言更自然更便捷的“以人為中心”的方向發展。實際上，在計算機的發展歷史上已發生過幾次顯著的交互范式演進。

1946 年正式投入使用的世界第一臺通用計算機 ENIAC 的輸入和輸出都在卡帶上進行，這種人機交互方式需要對卡帶進行加工（打孔或涂繪等），從而為計算機提供二進制程序，因此速度緩慢。60 年代中期，命令行界面出現了，計算機使用者可以通過鍵盤直接輸入程序并在屏幕上獲得反饋，各種編程語言也順勢發展。1968 年，Douglas Engelbart 設計的 NLS 系統將鼠標、指針、超文本和多窗口界面整合進了計算機系統中，奠定了我們當今的主流桌面計算機的基于圖形界面的形式基礎。

現在，智能手機的普及已經讓人們習慣了基于觸摸屏的交互方式，現在幾乎所有有人的地方都有“點手機”的身影。在語音識別和自然語言處理技術的推動下，基于語音的交互方式也正在迅猛發展——智能語音助手已經成為了很多智能手機的標配，智能音箱也正在進入越來越多的家庭。此外，基于計算機視覺乃至腦波分析的交互技術也已經出現，比如通過人臉跟蹤控制系統或通過檢測玩家的表情來個性化地調整視頻游戲的難度和劇情等。

交互模式的演進主要還是為了降低交互的困難程度，使更多人能夠使用計算和智能設備，也使用戶能夠方便地使用更多形態和數量的設備。顯而易見，每一次交互范式的轉變都帶來了新的用戶群體、新的應用場景、新的商業模式、和新的想象空間。比如觸摸方式的普及使很多老年人也會使用智能設備，語音技術的進展則使得我們可以遠距離控制設備，極大地增加了可交互設備的數量。但是，新型交互方式并不會在所有場景中都完全替代已有的交互方式；在可預見的未來里，程序命令、圖形界面和語音等交互方式都將有各自更為擅長的應用場景，基于智能處理技術的多模態交互將成為人機交互發展的未來

多模態智能人機交互系統的優勢

多模態的智能人機交互相比單模態的傳統交互方式有幾個優點。

多模態智能人機交互系統的優勢

優勢1：交互自然

最明顯的優點是交互的自然度和自由度，用戶可以根據場合以及對不同模態的熟悉度來選擇一種或多種方式與設備交互，比如用戶可以用手勢或語音或者結合手勢和語音來表達同一意思。

優勢2：信息融合

在很多場景下，單一的信息源往往不足以保證系統的準確率和魯棒性，比如在高噪音場景下，語音信號會受到很大干擾從而影響語音識別的準確率。然而通過多模態信息的融合，比如同時基于手勢、口型或面部表情我們可以獲得更精確的語義信息。不但如此，多模態信息融合也可以使系統更準確地辨識用戶、情感、場景、和發聲人位置，從而降低交互的成本。

優勢3：互為監督

不同模態之間可以互相提供關聯和監督信息。不同模態之間的關聯是語義理解的一個很重要的組成部分，比如當我們提到一個有實體的概念時我們往往會聯想到這個實體的形狀、聲音、運動方式等諸多方面，又比如當我們聽到咣當一聲時會聯想到門被關上了，并且頭腦中會出現門的形象。這些都是通過多模態之間的關聯學習到的。不同模態之間的關聯和監督信息還能夠幫助系統在運行過程中持續做自適應學習，比如當系統同時具備麥克風陣列和攝像頭陣列時，麥克風和攝像頭可以互相提供校準信息。

優勢4：多維感覺

這對用戶和系統都很重要，因為人在交互過程中，除了語言信息外，還會使用很多副語言信息和非語言信息，例如態度、情感、意圖等。這些信息很多是通過面部表情和肢體語言來輔助表達的。多維感覺對用戶尤其重要，因為用戶可以在多模態交互系統中從視覺、聽覺、觸覺等多個維度來感知和體會智能設備想要表達的情感和語義。

智能人機交互系統的終極目標

智能人機交互系統的終極目標是使人與機器交互和人與人交互一樣輕松自然。我們認為從以人為本的角度來看，理想的系統應該具有幾個重要的指標。

智能人機交互系統的終極目標

目標1：不用學就會

最重要的指標就是不用學就會，如果用戶愿意學習一些不熟悉的交互方式，他/她會有更多的選擇，但是如果他/她不愿意學的化也能以其最自然的方式比如聽覺和視覺與機器交互。

目標2：多模態交互

人與人之間的交互就是多模態的，我們可以用語言、表情和肢體動作等方式傳達我們的想法和意圖，因為這些方式對人而言是最自然的。基于剛剛提到的多模態交互的優勢我們認為這樣的系統也應該是多模態的，這里多模態包含輸入的多模態和輸出的多模態，而由于智能設備可以提供屏幕輸出，從輸出的效率來說它們甚至可能比人更為優越，這一模態是很多人機交互場景的核心。

目標3：深層次理解

結合場景、世界知識和歷史交互信息，再對語義、語用和情感進行深層次理解，能交互自然而有效率。

目標4：擬人式對話

在系統的輸出側，如果系統能夠以高逼真度、高自然度、和高清晰度的擬人形象、聲音、用詞、和表達方式來和用戶交互，就能大大減小對用戶感知能力的要求。

目標5：個性化交互

最后一個指標是個性化交互，這也是為了使交互更自然。比如當與小孩交互時我們會希望機器的回答匹配孩子的認知水平、智能設備的語調和口吻適合孩子。又比如當與不同人交互時我們會希望智能設備的交互方式和內容是用戶所感興趣的。我們雖然不知道這些指標到什么程度用戶會覺得足夠好，但我們知道如果智能設備可以生成對話和形象使之表現得和與用戶進行視頻通話的朋友一樣自然，那智能人機交互系統的終極目標就達到了。

智能交互系統距離期望目標尚遠

在下一代智能交互的道路上，我們已經有了一些進展，但離我們的目標還有不少的距離。比如，雖然用戶可以用語音和系統交互，但是用戶往往需要適應機器，需要學習如何和系統交互以及系統能理解什么。在多模態交互方面，各模態往往互相獨立或只有單一模態，沒有充分發揮多模態能提供的能力和體驗。對語義、情感、和場景的理解也還遠遠不到位，往往只有在非常特定的垂類上有一定的理解能力，超出這些垂類系統就表現得非常弱智。機器在交互過程中臉部表情和聲音還不自然，并且有時會出現前言不搭后語的情況，更不用說通過不同的語調，借助不同的語氣詞，使用不同的回答方式，并結合豐富的面部表情和肢體語言來和用戶交互。系統對用戶也沒有或只有簡單的辨識和建模，對答沒有統一風格也缺少個性化特色。

多模態智能交互系統的挑戰與實現路徑

我們可以看到，人機是一個高度協同的系統，為了降低對人的要求和限制，我們必須通過技術手段提升機器的能力。這里是一個高度簡化的多模態交互系統，我們只列了語音和視覺兩個模態的輸入和輸出。不過，這已經足以讓我們看到系統的主要能力和信息流。在目前的系統中，這個框架圖中的每一個模塊都還不完善，都需要很多的前沿研究和細致的工程實現。要實現人機智能交互的終極目標我們面對的挑戰還很多。這里我列舉其中的四個挑戰和我們正在研究的解決方案。

挑戰一：復雜場景下語音喚醒和識別

在多模態交互系統中，語音作為對人來說最自然和最常用的交互手段是不可或缺的。雖然語音識別技術經過這些年的研究已經能在近場識別中達到或超過實用的門檻，但在很多真實遠場場景下性能還遠遠不夠，而遠距交互是語音優于其他交互方式比如鍵盤和觸摸的關鍵點。這里主要的挑戰來自于重口音和雞尾酒會這樣的場景。為了在這些復雜場景下提升系統的識別率，我們的解決方案需要結合聲源和人臉信息來辨識說話人及其方向，使用多通道語音來分離和跟蹤特定說話人的語音，并利用該說話人信息做識別自適應。目前的交互系統中有一個很大的痛點是用戶需要經常使用喚醒詞來喚醒系統，這使交互過程不夠自然，效率不高。我們認為結合語義、目光交流、和視覺場景分析是減少交互中喚醒詞使用次數的重要方向。

挑戰一：復雜場景下語音喚醒和識別

挑戰二：對話、場景、和情感理解

理解能力，這不僅包含自然語言的理解還包含場景和情感層面的理解。自然語言理解被廣泛地認為是目前系統里最薄弱的一個環節，這是因為語言是用來刻畫和描述世界并傳遞信息的，所以要理解一個語句所對應的實體或概念，我們往往需要了解這個實體或概念相對應的視覺、聽覺、觸覺體驗以及和它相關的其他概念。而且，為了提升語言交互的效率人們往往假設許多背景信息交互的雙方是已知的，不需要在對話中提及或傳輸。

這些都表明要提升理解能力很重要的一點，就是構建一個關于世界的模型，這個模型可能不止包含語言表達的知識還包括與概念相關的其他模態信息。這也表明為了使系統更有效率地和用戶交互需要建立用戶模型，用以描述用戶的個性、習慣、愛好、對話歷史，以及用戶所了解的世界，有了用戶模型，系統就可以針對性地進行個性化交互，也可以比較容易地理解和用戶相關的語言。另外，為了提升對對話場景和情感的理解，我們可以同時利用聲音和視覺信息來判別場景和情感。

挑戰二：對話、場景、和情感理解

挑戰三：智能對話管理

對話需要邏輯上一致、語義上連貫。與人與人交互類似，人機交互也有不同的目的，并且多種目的的交互方式往往會在同一個對話段里出現，對話系統需要能靈活處理不同類型的對話而且需要因人而異。

一個可行的實現方式是將任務型、問答型、和閑聊型對話分解成可復用的更小的數量巨大的微技能，并通過統一的多層次對話管理模塊整合在一起。對話管理模塊需要能支持用戶主導和系統主導的對話，能在兩者之間自由切換，并對不同個性的用戶使用不同的對話策略。

挑戰三：智能對話管理

挑戰四：高逼真度多模態對話回復

這是為了使用戶能夠和與人交互那樣自然地得到信息反饋。

在視頻展示方面，我們的做法是逐步實現低成本、高可定制化、可控人臉實時動態三維建模和高真實度紋理生成和渲染。這里是我們和騰訊NEXT Studio團隊合作的Siren虛擬人，可以看到我們在高逼真度智能控制語音和人臉方面的一些進展。

在對話回答的生成方面我們從數據中總結出各種表達語義信息的模板，并利用它們作為基本回復方式結合用戶模型和對話狀態生成最后的回答，并和視頻同步合成具有情感的表情和聲音。

Siren虛擬人

這樣的虛擬人已經具備了一些基礎的功能，包括多模態的輸入、語音閑聊、簡單的行政功能等，但是，完全達到智能人機交互的終極目標還有很長的路要走。

多模態智能人機交互系統賦能應用場景

然而，在我們逼近這一目標的過程中，就可以逐漸賦能一系列應用場景，比如在辦公場景下的虛擬秘書、家庭里的陪伴機器寵物、游戲里的虛擬玩家、車載虛擬助手、和社交里的千人千面的交互bot。

多模態智能人機交互系統賦能應用場景

比如，對于青年人來說，開車途中可以通過和虛擬助手通話來控制汽車中控系統和智能設備，而虛擬助手還可以通過語音和視覺信息來判斷駕駛員的疲勞程度和情感狀態，降低駕駛風險。工作中，虛擬秘書可以幫助處理高重復性、高標準化工作，讓你專注在核心問題上。下班后，虛擬社交使你能夠打破時間、空間、想象力的界限，兼顧娛樂性、隱私性，創造更大的世界。

多模態智能人機交互系統服務不同場景下的不同人群——青年