摘要:作為智能視音頻解決方案解決方案的服務商,美攝科技致力于為移動互聯網、智能手機、智能硬件、傳統廣電及通信運營商等行業機構提供最前沿的整體視音頻解決方案,為開發者與行業合作伙伴提供高效、穩定的底層技術支撐,助力合作伙伴實現業務創新并創造巨大的用戶價值。
2020年10月31日,LiveVideoStackCon 2020 音視頻技術大會在北京麗亭華苑酒店舉行,會議聚焦音視頻技術與全球化、AI與多媒體處理、教育與多媒體、視頻編解碼、服務端開發優化、教育與多媒體等音視頻技術與行業應用相關熱點話題。匯集 500多位來自泛娛、教育、視頻會議、社交、游戲、電商、金融、物聯網等行業資深技術專家與頂尖學者共聚本次多媒體開發領域盛會。
會議中,北京美攝網絡科技有限公司AI研究組負責人侯康先生受邀出席并分享主題演講《AI合成虛擬人物的技術框架與挑戰》,演講內容從AI合成虛擬人物的技術框架出發,介紹了AI合成虛擬人物技術的背景,該技術通過輸入一段文字,生成接近真實拍攝的主播視頻。進一步詳細介紹了AI合成虛擬人物不同技術路徑之間的差異和優缺點,表情和口型預測模型的設計和優化思路,3D人臉重建和渲染技術、對抗生成網絡,視頻幀渲染和融合等關鍵技術。針對口型抖動和失真,GAN渲染結果中面部細節失真,最終視頻的前后幀之間的平滑過渡等難點分享了解決方案。
美攝科技AI合成虛擬主播,將人工智能與計算機圖形學相結合。當計算機獲取語音或者文本中的內容信息后,即可通過計算機圖形學合成技術對虛擬形象的面部進行驅動,渲染及融合,經過海量的面部數據進行生成對抗網絡的訓練,實現極具逼真感的表情還原,最終實現精細的唇音同步、表情姿態生動與真人無異的虛擬主播。在新聞播報、虛擬客服、互聯網教學等領域有豐富的應用場景。
目前美攝科技的產品矩陣包括:視頻高清拍攝及深度編輯SDK、智能視頻生產服務平臺、智能剪輯解決方案、智能手機解決方案、人臉+美顏/貼紙解決方案、云剪輯、虛擬主播、視頻包裝定制設計等服務。覆蓋移動端、PC端、Web端,其從拍攝到編輯的全流程功能,實現當前所有主流視頻的玩法。擁有靈活的技術架構,使用多線程和GPU、CPU協同預處理機制、自然語言處理演算法等技術,受到各行業的頭部廠商一致認可,現與如小米、OPPO、ViVO、華碩、獵豹移動、嗶哩嗶哩、新浪、KEEP等各領域頭部客戶展開深度技術合作。并與國家電網、廣電等傳統企業合作,推動頭條APP、融媒體在政企中的運用。除國內客戶外,美攝科技也布局國外市場,在國際上填補海外市場智能視音頻解決方案的空白。目前,已在美國、韓國、印度、新加坡等多個國家與當地互聯網企業提供深度技術服務,輻射數千萬海外用戶,助力合作伙伴實現業務創新并創造巨大的用戶價值。