互聯(lián)網(wǎng)經(jīng)歷從圖文至短視頻、直播發(fā)展之后,人們對(duì)視頻視頻畫質(zhì)的追求也越來(lái)越高。但這一趨勢(shì)也帶來(lái)了新的矛盾點(diǎn),一方面是日益增長(zhǎng)的視覺(jué)體驗(yàn)需求,一方面是設(shè)備性能、傳輸成本、用戶帶寬的限制。
隨著實(shí)時(shí)互動(dòng)場(chǎng)景的爆發(fā),很多RTE場(chǎng)景集中在移動(dòng)端,在移動(dòng)終端用戶的設(shè)備性能參差不齊,這就要求移動(dòng)端實(shí)時(shí)超分的復(fù)雜度必須極低,這樣才能在大部分移動(dòng)設(shè)備中做到實(shí)時(shí)處理。
如何在超低計(jì)算量的情況下還保持較好的視頻超分效果,聲網(wǎng)人工智能算法團(tuán)隊(duì)經(jīng)過(guò)持續(xù)的技術(shù)鉆研,正式推出了業(yè)內(nèi)首個(gè)基于移動(dòng)端實(shí)時(shí)處理的多倍超分算法,該算法的優(yōu)勢(shì)是成本低、功耗小,不需要部署 GPU服務(wù)器,僅依靠移動(dòng)端設(shè)備自身的CPU、GPU或NPU來(lái)實(shí)時(shí)超分,以較小的算法計(jì)算量實(shí)現(xiàn)視頻分辨率的多倍超分,有效增強(qiáng)了視頻的畫質(zhì),并降低視頻傳輸?shù)某杀尽?nbsp;
由于移動(dòng)端的算力有限,并且對(duì)算法的功耗、模型大小要求十分苛刻,這類算法的研發(fā)難度是極具挑戰(zhàn)性的,既要保持較好超分效果,也要滿足移動(dòng)端實(shí)時(shí)處理的要求。傳統(tǒng)超分的技術(shù)原理可以簡(jiǎn)單理解為插值+銳化,插值是將低分辨圖像放大為高分辨率圖像,銳化是使圖像邊緣更清晰的一種圖像處理方法,插值法和銳化方法,都是人工基于觀察、總結(jié)和試驗(yàn)出來(lái)的方法,存在一定的局限性,常常出現(xiàn)圖像放大后出現(xiàn)模糊、銳化過(guò)度的現(xiàn)象。
而聲網(wǎng)移動(dòng)端實(shí)時(shí)超分的技術(shù)原理是基于深度學(xué)習(xí)算法進(jìn)行豐富的視頻數(shù)據(jù)訓(xùn)練,從大量的低分辨圖像和高分辨圖像對(duì),有監(jiān)督地學(xué)習(xí)低分辨到高分辨率的映射關(guān)系,實(shí)現(xiàn)圖像放大后,細(xì)節(jié)豐富、畫面清晰的效果,其超分效果、自適應(yīng)能力明顯優(yōu)于傳統(tǒng)的超分方法。
從之前聲網(wǎng)發(fā)布的一個(gè)視頻demo可以看到,360p 視頻在開啟多倍超分后,畫質(zhì)實(shí)現(xiàn)了明顯的增強(qiáng),視頻中的鵝卵石與遠(yuǎn)處山脈的分辨率變的更加清晰,不僅保證了視頻畫質(zhì),還降低了視頻的實(shí)時(shí)傳輸成本。
目前聲網(wǎng)多倍超分已跟多個(gè)客戶進(jìn)行了集成,并得到客戶高度認(rèn)可,并為行業(yè)提供了全新的解決方案。