8 月 18 日,2022 “視界無垠 音聚而生”網易音視頻技術大會在線上舉辦。會上,來自網易智企、網易云音樂、網易伏義、網易傳媒、英特爾等眾多聚焦于音視頻領域多年的產品和技術專家,共同為觀眾分享了音視頻技術的前沿創新與應用實踐經驗。
技術發展一日千里,不僅顯著改變了人們的社會生活,也深刻變革了社會生產方式。隨著近幾年短視頻及直播等業務的爆發,人類正式邁入了音視頻的時代,加之新冠肺炎疫情的催化,許多原本可在線下完成的活動被大量遷移到線上,音視頻技術生發出了在各個行業應用的無限可能,基于音視頻的娛樂社交、遠程辦公協同、在線課堂教學、線上招聘等新場景紛紛涌現。
如何探尋音視頻在更多新興領域的新機會、新實踐,如何令技術更好地為企業所用并獲取技術更迭帶來的價值增量,成為許多從業者共同關注的問題。
作為 2022 網易音視頻技術大會的總出品人,網易智企技術VP 陳功對本次大會的內容和亮點進行了介紹。陳功指出,多年以來,網易旗下多個事業部在音視頻領域進行了大量的研發投入,來自不同事業部的音視頻專家們圍繞音視頻前沿技術進行了不斷的探索實踐、共建共享,為網易各個業務的產品創新推波助力,并得到了商業化的閉環驗證,而音視頻技術大會的初衷,便是將網易已經驗證的、成熟的場景落地經驗分享。此外,除了網易的音視頻專家,大會還專門邀請到了合作伙伴英特爾的技術大咖參與其中。
最后,陳功表示,期待以本次大會為契機,與更多音視頻技術人建立交流與探討的橋梁,聽到更多音視頻技術人的獨到建議和看法,與所有從業者共同推動行業的健康持續發展。
產品為先,聚焦音視頻多場景實踐
在上午的產品專場,大會邀請到了來自網易智企、網易云音樂、網易傳媒、網易伏義等業務的產品專家,分享音視頻技術如何在各業務場景融合及落地。
產品專場出品人:網易伏羲瑤臺產品總監 郭冠敏
網易伏羲瑤臺產品經理張書超分享,元宇宙已成為數字新基建的重要組成部分,作為全國首個元宇宙落地產品,瑤臺通過數字化技術打破了時間和空間的限制,構建了一個與現實世界并存的虛擬世界,并為用戶帶來了超越現實的極致觀感和沉浸互動體驗。張書超還進一步展開了瑤臺在大型發布會、學術會議、云會展等場景的成功實踐經驗。
網易云音樂 AI 音樂產品經理江琳以 2020 網易未來大會上發布的全鏈路 AI 驅動歌曲《醒來》為切入點,為觀眾打開了 AI 音樂的細分垂直領域。隨著中國數字音樂市場規模快速擴張,音樂人群體也迅速擴大,與之相對的是低門檻的音樂人工具缺失。網易云音樂展開了以技術賦能音樂內容、以工具加速音樂創作能力轉化的業務探索,通過 AI 編曲、AI 作詞、一鍵 AI 寫歌等全方位的能力覆蓋,打造業界首創的詞曲編唱全 AI 音樂創作工具,讓更多音樂愛好者參與到音樂內容創作中。
在全民視頻的時代,視頻理解是大勢所趨。網易傳媒內容理解和質量方向產品經理吳繼美介紹,網易新聞同樣具備視頻理解的需求,并通過實踐不斷提高機器理解視頻的技術能力,實現對視頻信息從點到面的收集及精密的識別計算,最終按需輸出視頻特征的目的。基于對視頻理解技術的精耕細作,網易新聞有效保障了新聞信息的質量和安全性,同時不斷縮減機械重復的人力工作,取得降本增效、推薦效果提升的成績。
網易智企云信娛樂社交行業產品經理聶夏軍分享了音視頻技術在娛樂社交中的應用。聶夏軍指出,人是社會性動物,需要通過社交建立彼此之間的聯系,而娛樂化互動方式能幫助人們更好地打破陌生人的冰冷關系。隨著音視頻技術發展,娛樂社交玩法越來越豐富,視頻直播、語音聊天、在線 K 歌、在線相親、游戲社交等都成為了常見的社交場景。在這些紛繁復雜的場景中,網易云信音視頻技術提供了可靠支撐,如:在語音聊天中消除噪音,提供最純凈的語聊環境;在線 K 歌時消除回聲,確保良好的 K 歌體驗;3D 空間音效技術為游戲用戶帶來了“聲音方向感”;智碼超清技術在實現更高畫質的同時節省更多碼率……此外,網易云信音視頻技術還面向不同國家的復雜網絡和低端機型進行了特殊優化,能幫助國內企業在海外市場的角逐中占得先機。
技術奠基,夯實音視頻創新沃土
下午場為技術專場,邀請了來自網易智企、網易云音樂、網易傳媒、網易伏義等業務的技術專家,分享前沿的技術創新成果。值得一提的是,大會還首次邀請到了來自合作伙伴英特爾的技術專家前來“做客”。
技術專場出品人:網易云音樂音視頻實驗室負責人 劉華平
網易伏羲虛擬交互技術負責人畢夢霄介紹了元宇宙的虛擬場景和虛擬角色兩大基礎設施。其中,網易瑤臺解決了虛擬場景的問題,用戶可以通過瑤臺“前往”任何想去的地方。而在虛擬角色方面,畢夢霄詳細分享了網易伏羲在虛擬角色創建和虛擬角色驅動上的技術實踐,包括視覺形象創建、語音形象創建、語音合成、表情合成、動作合成、歌聲合成、舞蹈合成等環節。
網易云音樂音頻算法專家李鵬則講述了如何從 0 到 1 搭建高質量歌聲合成系統。李鵬介紹,歌聲合成是通過輸入歌詞和旋律進而合成演唱干聲的過程,目前已經具備很多的應用和創新玩法,并重點從數據構建、模型設計、細節處理三個方面詳細介紹了高質量歌聲合成系統研發的全流程。結合業務訴求,歌聲合成的未來探索方向將從小樣本音色定制、演唱技巧調教、AI 輔助音樂創作等方面展開。
網易傳媒推薦中心多模態理解技術負責人趙棟表示,音視頻技術已從數據層、算法層、業務層全面貫穿應用于網易新聞。趙棟從多模態理解視頻類別和標簽、多維度內容理解視頻封面選取、視覺相似特征、圖像和視頻增強等方面具體闡釋了音視頻技術如何為網易新聞的用戶使用時長、用戶體驗、人均互動 PV 增長帶來價值。
網易智企云信視頻編解碼算法專家苗晉偉分享,當前視頻行業正處于高速增長期,其中超高清視頻在其中扮演了重要的角色,根據權威機構預測,2022 年超高清視頻產業市場規模將有望達到 4 萬億。然而,隨著視頻分辨率不斷提高,其在網絡傳輸中的帶寬成本也越來越大,市場迫切需要一項既能保證視頻分辨率又能有效控制帶寬成本的極致壓縮技術。網易云信推出的智碼超清技術很好地兼顧了上述兩大問題,并在視頻超分、編碼技術等方面達到行業領先水平,讓用戶在同等碼率下盡享更加極致、更高質量的超高清視覺體驗。
英特爾中國行業解決方案事業部互聯網技術專家張立宇分享了基于英特爾技術的端到端音視頻優化經驗。張立宇表示,當前數字經濟與實體經濟正在加速融合,成為中國經濟發展的新引擎,在這過程中,音視頻技術的應用日漸廣泛,價值愈加凸顯,甚至已成為了互聯網“水電煤”一般不可或缺的基礎設施之一。與此同時,隨著直播、游戲、電商、VR 等典型場景的普及,用戶對視頻的需求和體驗要求越來越高。為此,英特爾通過一系列先進產品與技術方案提供和優化算力、存儲、網絡和軟件能力,以靈活可擴展的生態和各類成熟的解決方案,橫跨從基礎硬件到上層應用的全部產品,以及從數據采集、預處理、編碼、數據傳輸、分析解碼、分發的全鏈路過程,利用英特爾全棧技術提升優化音視頻處理能力,在保證品質的同時提升效率,幫助客戶應對不同場景下的差異化需求,并為用戶提供更好的體驗。
英特爾中國行業解決方案事業部互聯網技術專家 張立宇
小 結
本次大會,來自音視頻各個細分領域專家們的精彩分享,為行業發展提供了新的思考和見解,也為行業實踐提供了切實可行的落地方案,讓音視頻的技術沃土長出更繁茂的枝葉,為其帶來更長久的繁榮。
大會數據顯示,講師們的真知灼見吸引了超過 10 萬人次觀看,并廣受觀眾認可。
為方便觀眾重溫回顧,促進技術交流共享,大會回放視頻將陸續發布于 MCtalk 技術學院、云商會等平臺,所有講師分享的內容干貨也將陸續發布于“網易智企技術+”微信公眾號,敬請各位關注。