近日,字節(jié)跳動(dòng)產(chǎn)品安全多媒體與AI安全團(tuán)隊(duì)的數(shù)字水印研究論文入選ACM MM 2023,研究論文關(guān)注數(shù)字水印在現(xiàn)實(shí)應(yīng)用中所面臨的挑戰(zhàn),致力于解決高清原創(chuàng)圖像經(jīng)過(guò)多種復(fù)雜攻擊后的侵權(quán)或溯源等問(wèn)題。
ACM Multimedia(ACM MM)是國(guó)際計(jì)算機(jī)學(xué)會(huì)(ACM)的多媒體年會(huì),由ACM的SIGMM多媒體特別興趣小組主辦。ACM MM是全球首屈一指的多媒體領(lǐng)域?qū)W術(shù)會(huì)議,也是中國(guó)計(jì)算機(jī)學(xué)會(huì)推薦的多媒體領(lǐng)域A類國(guó)際學(xué)術(shù)會(huì)議。
據(jù)了解,本次研究論文《Practical Deep Dispersed Watermarking with Synchronization and Fusion 》,提出了一種基于深度學(xué)習(xí)的圖像離散水印方案(DWSF),該方案能夠有效提高圖像水印在實(shí)際應(yīng)用中的魯棒性和隱蔽性,可促進(jìn)深度圖像水印技術(shù)在數(shù)字版權(quán)、內(nèi)容可信和數(shù)據(jù)安全等防護(hù)體系建設(shè)中的作用。
人工智能時(shí)代下的知識(shí)產(chǎn)權(quán)及版權(quán)保護(hù)
近年來(lái)隨著多媒體技術(shù)和多媒體內(nèi)容的爆發(fā)式增長(zhǎng),多媒體內(nèi)容的數(shù)據(jù)安全和版權(quán)保護(hù)需求激增。尤其當(dāng)前生成式人工智能技術(shù)快速發(fā)展和普及,人工智能生成內(nèi)容呈現(xiàn)快速增長(zhǎng)和廣泛傳播的趨勢(shì),而人工智能生成的內(nèi)容存在易混淆、易誤認(rèn)和被濫用的風(fēng)險(xiǎn),對(duì)人工智能生成內(nèi)容的標(biāo)記、識(shí)別和溯源的需求愈加迫切。
對(duì)這兩方面的現(xiàn)實(shí)需求,多媒體數(shù)字水印均可提供有效的技術(shù)方案。另外,隨著深度學(xué)習(xí)的發(fā)展,研究者發(fā)現(xiàn)在深度學(xué)習(xí)技術(shù)在數(shù)字水印領(lǐng)域有極大的應(yīng)用潛力。但目前在實(shí)際應(yīng)用場(chǎng)景中,深度學(xué)習(xí)水印技術(shù)仍存在一些挑戰(zhàn)有待突破,以深度圖像水印為例,當(dāng)前大多數(shù)方案在魯棒性和隱蔽性方面仍有明顯短板。
針對(duì)深度圖像水印在實(shí)際應(yīng)用場(chǎng)景中面臨的挑戰(zhàn),多媒體與AI安全團(tuán)隊(duì)研發(fā)了一套原創(chuàng)的深度圖像水印技術(shù)框架(DWSF),不僅在圖像視覺(jué)隱蔽性、文件體積增長(zhǎng)率方面達(dá)到了極好的效果,而且提升了深度學(xué)習(xí)水印在幾何變換攻擊、混合攻擊等眾多攻擊場(chǎng)景下的魯棒性。在當(dāng)前多種深度學(xué)習(xí)圖像水印技術(shù)中,DWSF水印技術(shù)在多方面的測(cè)試中均達(dá)到最佳性能。
深度圖像水印技術(shù)提升水印魯棒性
據(jù)介紹,為了解決現(xiàn)有深度圖像水印技術(shù)在實(shí)際應(yīng)用場(chǎng)景中的諸多弊端,論文提出了一套原創(chuàng)的深度圖像水印方案,由離散嵌入、水印同步、消息融合三個(gè)核心模塊有機(jī)組合而成。方案框架圖如上所示,給定一張載體圖像,該框架在嵌入時(shí)隨機(jī)選取多個(gè)圖像塊并利用編碼器模型嵌入水印;在提取階段,為應(yīng)對(duì)水印圖像可能經(jīng)過(guò)多種攻擊疊加的復(fù)雜情況,該框架引入了一個(gè)精細(xì)分割模型來(lái)定位水印圖像塊的位置,并矯正圖像經(jīng)過(guò)的幾何變換,再用解碼器從水印圖像塊中提取水印,最后綜合所有提取結(jié)果確定最終水印信息。三個(gè)核心模塊的詳細(xì)介紹如下。
離散嵌入
在水印嵌入模塊中,論文采用編碼器-解碼器的模型結(jié)構(gòu),如下圖所示,先用編碼器嵌入水印、再用解碼器提取水印,同時(shí)為了提升水印的魯棒性,在訓(xùn)練過(guò)程中對(duì)編碼器編碼后的圖像進(jìn)行數(shù)據(jù)增強(qiáng)處理(壓縮、加噪等),再將其輸入到解碼器中進(jìn)行提取。最后,通過(guò)設(shè)計(jì)合適的損失函數(shù)確保模型能高效收斂。
相比于現(xiàn)有工作(在整張圖像上嵌入一個(gè)水印),該方案另辟蹊徑采用了離散嵌入方式。首先從圖像中隨機(jī)挑選部分子圖像塊,再利用編碼器對(duì)每個(gè)圖像塊嵌入同樣的水印信息,從而保證水印區(qū)域具有較好的稀疏性。這種策略可以靈活適配各種分辨率圖像而不必重新訓(xùn)練模型,同時(shí)具備多種優(yōu)點(diǎn):
○稀疏性:僅修改圖像的部分區(qū)域,能夠?qū)崿F(xiàn)更好的不可察覺(jué)性,而且對(duì)文件體積增長(zhǎng)有著更小的影響;
○隨機(jī)性:水印隨機(jī)地分布在圖像上,攻擊者很難針對(duì)性擦除,對(duì)于裁剪、遮擋、共謀攻擊等的魯棒性更強(qiáng);
○一致性:鑒于單張圖像上存在多個(gè)水印圖像塊且嵌著相同的水印,可以互相校驗(yàn)與糾正,容錯(cuò)性更優(yōu)。
水印同步
在水印同步模塊中,該論文引入了一個(gè)輕量級(jí)分割模型用于定位水印嵌入的區(qū)域,并且采用了Pad&Split的訓(xùn)練-推理策略來(lái)提高定位的泛化性和效率(對(duì)任意分辨率圖片)。在訓(xùn)練時(shí),采用固定分辨率的圖片;而在推理時(shí),通過(guò)填充(Pad)使其可以分塊(Split)成多個(gè)與訓(xùn)練集尺寸相同的子圖片,便于并行處理以及縮小與訓(xùn)練數(shù)據(jù)集的差異。即使圖像受到幾何攻擊而變形,相應(yīng)的預(yù)測(cè)掩碼也將保持相同的變形,從而在多種未知的幾何攻擊下也能矯正圖片,實(shí)現(xiàn)水印同步的目標(biāo)。
消息融合
矯正后的水印圖像塊輸入解碼器可得到每個(gè)塊的水印解碼結(jié)果,但單個(gè)塊的解碼結(jié)果存在出錯(cuò)的可能。為提高容錯(cuò)能力,鑒于單張圖像上的所有水印圖像塊嵌著相同水印,本論文引入了基于相似度的消息融合算法來(lái)確定最終的水印結(jié)果,使得在最壞情況下,如所有塊的解碼結(jié)果都出錯(cuò),也能得出正確的水印,算法示意圖如下。
數(shù)據(jù)已成為新生產(chǎn)要素,數(shù)字水印技術(shù)保駕護(hù)航
據(jù)悉,該論文原創(chuàng)性地提出了一種基于深度學(xué)習(xí)的圖像離散水印方案(DWSF),具有如下幾個(gè)突出優(yōu)勢(shì):
●可適配任意分辨率的圖片:不同場(chǎng)景中圖片的分辨率往往差異很大,本方案可靈活適配多種多樣的分辨率,并且不影響泛化性。
●圖像視覺(jué)質(zhì)量更好:通常水印如果添加地過(guò)于明顯會(huì)影響用戶體驗(yàn),而本方案提出的稀疏水印塊修改的圖片區(qū)域更少(<=20%面積),對(duì)用戶體驗(yàn)的影響更小。
●圖像文件體積增長(zhǎng)率更低:圖片的分辨率越來(lái)越大,對(duì)存儲(chǔ)空間的影響也越來(lái)越大。而本方案由于對(duì)圖片的修改更少(<=20%面積),因此文件大小的比特增長(zhǎng)率更低、對(duì)存儲(chǔ)空間的影響更小。
●魯棒性更強(qiáng):該方案在應(yīng)對(duì)復(fù)雜圖像攻擊具有更高的魯棒性,顯著提高了溯源的可靠性。
據(jù)透露,上述優(yōu)勢(shì)使得該數(shù)字水印方案的適用范圍更廣、用戶感知更優(yōu)、溯源更可靠。目前該方案已應(yīng)用到抖音、西瓜視頻、飛書(shū),以及火山引擎視頻云、數(shù)據(jù)安全中心和飛連等產(chǎn)品中。
此外,多媒體和AI安全團(tuán)隊(duì)也將繼續(xù)深入行業(yè)應(yīng)用場(chǎng)景,聯(lián)合國(guó)內(nèi)外高校進(jìn)行創(chuàng)新研究,為行業(yè)提供更優(yōu)、更全面的水印解決方案,為人工智能時(shí)代下的版權(quán)保護(hù)、內(nèi)容可信和數(shù)據(jù)安全貢獻(xiàn)一份力量。(作者:侯昌裕)