過去的十年,是以神經網絡、深度學習為代表的新一代AI算法在計算機視覺、自然語言及語音等領域取得了革命性進展的十年;過去的十年,同樣也是全球范圍內移動互聯網、多媒體互聯網與各行各業深度融合,數字科技不斷為社會發展帶來驚喜的黃金十年。
在這十年里,音視頻通信從網絡社交深入日常辦公、生產及生活場景;點播、直播產業在全球范圍內崛起;對話機器人成為大眾服務行業標配。數字產業的創新發展,為各行各業開拓了新的業務場景,也為現代企業帶來了新的發展機遇。
新機遇、新場景對多媒體通訊、數字營銷及網絡安全等傳統數字技術提出了新的技術要求,帶來了新的挑戰,而AI技術的融合應用在其中扮演著尤為關鍵的角色。
新機遇、新場景下,隨之而來的技術挑戰
●互聯網內容井噴式增長,數據種類多樣化,如何構建具有快速識別能力的內容風控系統?如何高效降低內容風控系統的資源消耗?
●場景多樣化,設備性能參差不齊,實時音視頻通信技術如何在嘈雜的真實環境中穩定運行?如何提高泛場景計算能力以及保證端側落地的低開銷與穩定性?
●智能客服產業快速發展,如何更好地應用自然語言對話技術解決復雜場景下的訪客需求?如何實現快速冷啟動及提升性能降低成本?
首次公開,網易智企的AI技術駕馭之道
針對以上問題,網易智企攜手機器之心聯合發布《數字經濟時代,AI加持下的技術與業務創新》人工智能技術應用實踐白皮書。
報告以網易智企為研究對象,在透視現代數字科技企業如何在對技術架構的持續創新的基礎上,通過高效、靈活的技術解決方案全面擁抱AI技術,實現內容風控、音視頻及智能客服等技術的高效迭代,解鎖新型實時通訊、點播直播與智能營銷業態,嘗試為現代企業在AI時代進行業務創新,開展企業數字化轉型提供有效參考。
駕馭AI加持下的內容風控技術
近年來,隨著互聯網及各種新興業務的飛速發展,內容形式更加多元化,內容創作門檻的大幅降低,使圖像、視頻、語音、文本、直播、聊天等創作形式井噴式增長。
與此同時,內容風控問題日益凸顯,內容安全成為互聯網安全場景的重中之重。龐大且多維度的新場景對內容風控技術提出了新的挑戰。
網易易盾從快速識別、敏捷響應、低資源消耗、場景泛化四個層面所搭建的新一代數字內容風控系統。
· 快速識別
模擬應試策略思路,通過智能調整計算方案為“先易后難”的方式構建技術解決方案,系統性應對內容風控場景下,需在海量數據中篩選萬分之幾、十萬分之幾的有害信息,進行快速識別的挑戰。
· 低資源消耗
從數據生成、模型打標、人工打標三個角度出發,通過無監督學習、置信學習、噪聲訓練和主動學習等方法構建解決方案,實現全面的低資源消耗優化。
· 敏捷響應
通過設計基于深度特征檢索的目標樣例模糊匹配、基于動態特征拓展的新類別增量迭代和領域遷移學習的場景適配等方法,應對內容風控領域中樣例漏識別、知識新增和不同領域算法適配等需求。
· 場景泛化
從數據增強、特征表示、訓練策略三個方面提高算法模型在未知數據分布上的泛化能力;從類別檢索的角度,結合特征檢索敏捷響應的特點,優化實例檢索沒有明確類別泛化的局限,探索開放域識別場景下的識別范圍泛化。
駕馭AI加持下的音視頻技術
疫情持續的大環境下,視頻通話、視頻會議、在線教育等功能成為了人們工作生活中的剛性需求。豐富、廣泛的市場需求,帶動了音視頻技術的超高速發展。
與此同時,更加多元化和復雜化的應用場景也對音視頻技術提出了更高的要求。
網易云信對音視頻的底層算法技術及端側應用作出多維度優化,重點研究 RTC 產品相關的音頻處理技術,例如回聲消除、降噪、自動增益控制等通話中長期應用的算法。同時關注空間音效、基于統計機器學習和深度學習的AI降噪、場景檢測、嘯叫檢測等最新技術方向。
· AI加持下的音頻技術
通過將 AI 與 DSP 算法結合、提高AI算法在復雜場景的泛化能力、降低端側落地開銷、提高穩定性及研發實時音視頻環境中的AI算法,解決音頻AI算法在真實場景中的落地困難問題。
· AI加持下的視頻技術
通過構建輕量級網絡、深度優化視頻處理模型與推理設備,持續改進計算機視覺網絡設計和訓練方法,實現視頻處理算法在兼顧計算實時性及低功耗的前提下,對視頻進行像素級處理。
圖:網易云信所設計的RFDECB自適應神經網絡。RFDECB在訓練階段用面向邊緣的卷積塊(ECB)代替殘差特征蒸餾模塊(RFDB)中的 SRB 淺殘差塊。在推理階段將面向邊緣的卷積塊(ECB)轉換為普通的3x3卷積層,該方法可以更高效地提取圖像的紋理信息和邊緣信息,在降低開銷的同時提升網絡性能;同時對增強空間注意力(ESA)模塊進行裁剪,減少參數量以及增加池化層步長,進一步減少了算法開銷。
駕馭AI加持下的客服機器人/自然語言對話技術
在自然語言對話技術的支持下,智能客服機器人提供從文字咨詢、智能外呼、業務辦理等多維度的客戶服務,從客戶獲取到訂單管理實現了無人化、智能化,并越來越多地在金融、零售、房地產、物流等行業應用。
在實際應用中,自然語言對話技術要求系統具備從零學習的能力,快速領悟行業知識,并且針對業務場景進行多輪、有效的對話。
網易云商采用新一代AI算法,從訪客需求、低成本與高可用、快速冷啟動等技術方面提出技術創新,推動智能客服機器人的持續進化。
· 高效解決訪客需求
通過開發基于大模型、多模型集成與知識蒸餾的語義匹配算法、設計基于 FAISS 語義搜索引擎的智能推薦方案,同時結合知識圖譜,構建智能客服機器人。
· 低成本及高可用
構建白名單管理平臺,使用正則表達式和完全匹配的方式攔截不良案例;通過CPU 離線計算、通過分布式計算分配線路等方法實現去GPU化,降低處理器成本。
· 快速冷啟動
采用語義檢索、算法聚類推薦等技術打造基于行業的知識包;使用 Paraphrase 生成模型、“回譯”等方法獲得相似問法候選項與問法集,構建冷啟動助手,使系統具備學習行業知識和極強的變通能力。
圖:云商團隊采用了稱為“回譯”的方法增加相似問法。該方法借助于翻譯模型,將標準問法翻譯成英、日、法、德等多國語言,再將翻譯結果譯回中文,以此獲得近似問法。給該方法在設計排序模型時,需要同時考慮語義相似度和句法結構多樣性兩個維度:對語義相似度,通過獲得相似問法和標準問法的語義表征向量來計算相似度;對句法結構多樣性,通過編輯距離來獲得。方法隨后綜合兩者得分,獲得最終排序結果。
持續創新的AI系統架構
AI系統是一個相對比較寬泛和完備的概念,涵蓋了一個AI任務落地應用的各個環節。將其概念拆解,則包括數據、模型、算法、解決方案、部署與加速等五個部分。五個方面任一存在短板,都可能成為制約AI系統總體性能的瓶頸。把握系統性研發的難點在于,需要同時立足于這五個環節。而在此之上,還需進一步結合業務場景的某個具體問題和特點,進行具有針對性的設計、創新和落地實施。
報告的第三章對數據、模型、解決方案、算法及部署這五個方面逐一展開,以網易智企AI技術團隊所采用的架構為線索,總結當前AI系統架構的創新發展與實踐方法論。
為企業插上AI技術的翅膀
互聯網普及率的上升正在推動音視頻市場急速增長,滲透率持續上升;5G技術的突破促使高質量的音視頻對話、內容輸出、多媒體實時交互成為可能。在此趨勢下,借助音視頻技術所構建的新業態與暴增的多媒體內容進而引發了用戶、政府及行業對內容安全的關注。
不斷萌發的需求帶來了企業業務模式創新的空間。本章節通過研究網易易盾、網易云信和網易云商的落地案例,詳細解讀其技術團隊如何在充分深入理解業務場景的特點、難點和問題的基礎上,系統性地進行探索和優化,完成 AI技術的落地。
報告的第四章通過研究網易易盾、網易云信和網易云商與汽車之家、網易云音樂及松果出行的三個真實技術合作案例,聚焦企業如何通過采用高效、專業的AI解決方案抓住市場機遇,實現業務創新與發展突破,探索人工智能如何幫助企業在內容風控、音視頻通信及營銷客服場景實現突破與創新。
圖:云信為網易云音樂獨創提供了實時合唱的融合方案,其一是串行合唱方案,優勢是受弱網和物理環境的干擾影響小,可保證觀眾端的體驗,但是無法真實還原主唱副唱之間的實時合唱體驗; 其二是實時合唱方案,在網絡和設備情況良好的情況下可完美保障主唱副唱之間的實時合唱體驗,為了能全覆蓋用戶場景,不損失優質用戶的體驗,云信合唱方案支持根據用戶不同環境下進行串行和實時合唱方案切換,以達到全環境覆蓋。
變革中的AI技術
伴隨AI算法的發展與突破,越來越多的企業開始熟悉各類AI能力,并逐步解鎖了更多的難點場景。與此同時,人們對信息安全、隱私保護的重視程度也在逐步加深,可信AI成為了學界、產業界乃至政府部門的重點關注領域。
此外,在人工智能發展過程中,長期存在的數據問題也在近期愈發得到重視。吳恩達教授于2021年發表的論調中指出,太多人工智能研究工作聚焦于模型,而忽略了數據,但稍作優化的數據往往能對模型或算法的性能帶來更明顯的提升。另一方面,優質的數據同樣能夠為企業在AI模型訓練、應用開發等工作中帶來極大增益。由此,Data Centric AI也成為了學界與產業界的關注重點。
報告的第五章將從可信AI與Data Centric AI 兩方面探討當前人工智能技術的變革趨勢,洞察業界在該方面的最新工作。
展望AI技術前沿
過去的十年,是以神經網絡、深度學習為代表的新一代AI算法在計算機視覺、自然語言及語音等領域取得了革命性進展的十年。在這十年里,數字產業的創新發展,為各行各業開拓了新的業務場景,也為現代企業帶來了新的發展機遇。人工智能技術的發展腳步將持續邁進,技術的突破與創新將繼續層見迭出。
報告的最后一個章節將從多模態、無監督與超大規模和工程自動化三方面匯總學界、業界對AI技術前沿的觀察。