日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會(huì)員:747

近日,以“新技術(shù),新機(jī)會(huì)”為主題的2021 LiveVideoStackCon 北京站如期召開。人與人、人與機(jī)器之間的交互將更加身臨其境,視覺(jué)和聽覺(jué)感官刺激前所未有的被滿足,技術(shù)的升級(jí)正在創(chuàng)造想象中的新應(yīng)用。作為多媒體技術(shù)領(lǐng)域的盛會(huì),大會(huì)聚焦在音頻、視頻、圖像等技術(shù)的最新探索與應(yīng)用實(shí)踐,覆蓋教育、娛樂(lè)、醫(yī)療、安防、交通、制造、旅游、電商、金融、社交、游戲、智能設(shè)備、IC等行業(yè)領(lǐng)域。

眾所周知,互聯(lián)網(wǎng)平臺(tái)在確保線上內(nèi)容安全時(shí)需要極大的人力成本,相對(duì)于原來(lái)傳統(tǒng)的有監(jiān)督,半監(jiān)督和自監(jiān)督中的“半”和“自”代表只用一半的標(biāo)簽、一半的資源或者是不用標(biāo)簽也能達(dá)到很好的效果。

深度學(xué)習(xí)領(lǐng)域中,半監(jiān)督、自監(jiān)督算法通過(guò)借助無(wú)標(biāo)簽數(shù)據(jù)與無(wú)監(jiān)督訓(xùn)練任務(wù),可有效改善傳統(tǒng)有監(jiān)督算法中“泛化性能不足”、“模型過(guò)擬合”、“嚴(yán)重依賴數(shù)據(jù)標(biāo)注質(zhì)量”等問(wèn)題。

網(wǎng)易易盾資深算法工程師崔若璇在2021 LiveVideoStackCon 北京站發(fā)表技術(shù)分享,她總結(jié)了半監(jiān)督學(xué)習(xí)領(lǐng)域的發(fā)展脈絡(luò),并展示半監(jiān)督、自監(jiān)督算法在網(wǎng)易易盾數(shù)字內(nèi)容風(fēng)控業(yè)務(wù)上的創(chuàng)新應(yīng)用,希望為聽眾在“降低數(shù)據(jù)標(biāo)注成本”、“提升深度學(xué)習(xí)模型效果”方面帶來(lái)一些啟發(fā)。

本次的分享分為三大部分:

?網(wǎng)易易盾在數(shù)字內(nèi)容風(fēng)控領(lǐng)域的業(yè)務(wù)背景

?半監(jiān)督和自監(jiān)督近年的前沿算法思想,以及對(duì)內(nèi)容風(fēng)控業(yè)務(wù)的適用性分析

?網(wǎng)易易盾在新算法以及業(yè)務(wù)解決方案上的實(shí)踐

以下為演講全文:

一、數(shù)字內(nèi)容風(fēng)控下的AI價(jià)值

1. 1 業(yè)務(wù)背景

隨著移動(dòng)終端5G的快速發(fā)展,內(nèi)容生成的速度加快,內(nèi)容審核的要求也越來(lái)越高。也就是說(shuō),內(nèi)容業(yè)務(wù)端在風(fēng)控過(guò)程中,面對(duì)的數(shù)據(jù)量將出現(xiàn)“大爆發(fā)”。其次,面對(duì)的數(shù)據(jù)形式也從以往的以文本、圖像為主,演變?yōu)楝F(xiàn)在的文本、圖像、視頻等各個(gè)數(shù)據(jù)類型。近兩年,政府加強(qiáng)了內(nèi)容監(jiān)管方面的工作,這對(duì)內(nèi)容風(fēng)控的從業(yè)者來(lái)說(shuō),不僅是一次好機(jī)會(huì),也是一個(gè)大挑戰(zhàn)。

關(guān)于網(wǎng)易易盾的業(yè)務(wù)背景,我們致力于對(duì)“色情”、“低俗”、“廣告”、“暴恐”和“違禁”等違規(guī)內(nèi)容進(jìn)行智能檢測(cè)與處理,面對(duì)的數(shù)據(jù)任務(wù)形式包含但不限于圖像、視頻、語(yǔ)音和NLP。

1. 2 關(guān)鍵點(diǎn)

作為數(shù)字內(nèi)容風(fēng)控行業(yè)的領(lǐng)軍者,網(wǎng)易易盾多年來(lái)在內(nèi)容風(fēng)控領(lǐng)域積累了豐富的業(yè)務(wù)和技術(shù)經(jīng)驗(yàn)。對(duì)于內(nèi)容風(fēng)控任務(wù)的關(guān)鍵點(diǎn),我們總結(jié)為以下幾方面:

1、識(shí)別內(nèi)容敏感:內(nèi)容風(fēng)控領(lǐng)域經(jīng)常面對(duì)敏感內(nèi)容,這部分內(nèi)容會(huì)對(duì)網(wǎng)絡(luò)受眾和審核人員造成傷害。

2、開放式攻防場(chǎng)景:做內(nèi)容風(fēng)控需要經(jīng)常與黑灰產(chǎn)業(yè)斗智斗勇,所謂“我在明,敵在暗”,黑灰產(chǎn)的攻擊形式層出不窮。因此,內(nèi)容風(fēng)控不是一勞永逸的工作,而是一項(xiàng)需要持續(xù)不斷地考察問(wèn)題、創(chuàng)新解決的挑戰(zhàn)。

3、極致的識(shí)別效果:客戶對(duì)內(nèi)容風(fēng)控的要求非常高,畢竟安全無(wú)小事,所以在一些任務(wù)特殊的、范圍廣、細(xì)分繁雜的內(nèi)容風(fēng)控領(lǐng)域,對(duì)產(chǎn)品的識(shí)別效果要求可謂極致。

4、要求敏捷響應(yīng):凡是涉及到安全問(wèn)題的業(yè)務(wù)都至關(guān)重要,我們的全部技術(shù)團(tuán)隊(duì)、產(chǎn)品團(tuán)隊(duì)、以及市場(chǎng)和銷售團(tuán)隊(duì),都要具備敏捷響應(yīng)的能力。

以上四項(xiàng)關(guān)鍵點(diǎn)也映射出進(jìn)行內(nèi)容風(fēng)控算法設(shè)計(jì)時(shí)遇到的四個(gè)痛點(diǎn):

1、 由于識(shí)別內(nèi)容敏感,收集、標(biāo)注數(shù)據(jù)過(guò)程存在著成本高、傷害大、數(shù)據(jù)量少的問(wèn)題。

2、開放式的防御場(chǎng)景經(jīng)常會(huì)遇到新形式的攻擊類型,這要求整個(gè)團(tuán)隊(duì)要具有超高的業(yè)務(wù)洞察力、全面的算法技術(shù)儲(chǔ)備,才能高效地給出最合適的解決方案。

3、業(yè)務(wù)需要我們具備極致的識(shí)別效果,但是目前常見的有監(jiān)督訓(xùn)練算法已經(jīng)面臨數(shù)據(jù)積累和效果提升的瓶頸,這也推動(dòng)著我們必須從算法訓(xùn)練角度做出突破。

4、內(nèi)容風(fēng)控領(lǐng)域離不開敏捷的反應(yīng)。正如前文提到的,業(yè)務(wù)安全領(lǐng)域數(shù)據(jù)收集難度大,這會(huì)拖慢整個(gè)算法優(yōu)化進(jìn)度。

1. 3 常見AI算法點(diǎn)評(píng)

此處向大家簡(jiǎn)要介紹下常見的AI算法及其特點(diǎn)。目前的AI算法主要包括兩個(gè)重要環(huán)節(jié),一個(gè)是數(shù)據(jù)收集,另一個(gè)模型訓(xùn)練(常見的訓(xùn)練方式是有監(jiān)督訓(xùn)練)。具體來(lái)說(shuō),AI算法迭代循環(huán)一般經(jīng)歷以下幾個(gè)環(huán)節(jié):遇到問(wèn)題、收集相應(yīng)數(shù)據(jù)并標(biāo)注、擴(kuò)充數(shù)據(jù)集進(jìn)行模型訓(xùn)練,從此遇到新問(wèn)題后再循環(huán)往復(fù)。

可以看到,以上環(huán)節(jié)之間形成一個(gè)閉環(huán)鏈條,循環(huán)往復(fù),理想情況下算法效果會(huì)至臻完美,但實(shí)際操作中整個(gè)過(guò)程成本高昂、進(jìn)展緩慢。同時(shí),算法效果也極大地依賴于數(shù)據(jù)的收集、標(biāo)注和質(zhì)檢質(zhì)量。再加之有監(jiān)督訓(xùn)練存在天然的弊端,“過(guò)擬合”、“泛化性能差”等問(wèn)題也會(huì)限制模型的訓(xùn)練效果。以上種種困難集中在一起,難免人工智能經(jīng)常會(huì)被詬病為“有多少人工就有多少智能”。

二、前沿深度學(xué)習(xí)算法簡(jiǎn)述

了解了當(dāng)前業(yè)務(wù)、技術(shù)的背景情況和痛點(diǎn)問(wèn)題,我們?cè)诖藶榇蠹規(guī)?lái)半監(jiān)督、自監(jiān)督學(xué)習(xí)領(lǐng)域交出的一份“解題答卷”。此領(lǐng)域的解決方案,也是主要包含了數(shù)據(jù)使用、模型訓(xùn)練兩大重點(diǎn),接下來(lái)我們就從以上兩點(diǎn)出發(fā)為大家簡(jiǎn)要介紹半監(jiān)督、自監(jiān)督方法為何有效。

2. 1 算法介紹

首先是數(shù)據(jù)層面。(a)圖以一個(gè)二分類任務(wù)為例,展示了幾種訓(xùn)練方法中數(shù)據(jù)標(biāo)簽的不同使用方式。圓圈代表數(shù)據(jù)樣本,其顏色代表標(biāo)簽信息(紅藍(lán)彩色代表標(biāo)注的分類標(biāo)簽,灰色代表未標(biāo)注,帶線條陰影的彩色代表標(biāo)注標(biāo)簽在某些階段使用并在某些階段不使用;圓圈中一條黑色的線代表兩個(gè)類別的決策邊界)。簡(jiǎn)單來(lái)說(shuō),半監(jiān)督和自監(jiān)督就是對(duì)數(shù)據(jù)標(biāo)簽進(jìn)行花樣使用“時(shí)而用、時(shí)而不用,可用可不用”。

其次在模型訓(xùn)練層面,半監(jiān)督和自監(jiān)督相比有監(jiān)督有什么獨(dú)特之處?我們經(jīng)常遇到的是右下角這種與實(shí)際業(yè)務(wù)強(qiáng)相關(guān)的模型訓(xùn)練任務(wù),比如違禁圖片分類、敏感元素檢測(cè)與分割等。

舉個(gè)例子,現(xiàn)在要對(duì)暴恐元素進(jìn)行識(shí)別,我們最簡(jiǎn)單的方案就是將其簡(jiǎn)化為一個(gè)暴恐元素檢測(cè)任務(wù),需要進(jìn)行暴恐元素?cái)?shù)據(jù)標(biāo)注、檢測(cè)模型訓(xùn)練等步驟,其中第二步可以直接借鑒當(dāng)前很成熟的檢測(cè)任務(wù)來(lái)進(jìn)行訓(xùn)練。

而半監(jiān)督和自監(jiān)督算法則會(huì)引入新的訓(xùn)練任務(wù),如左上角所示,它會(huì)設(shè)計(jì)一些輔助訓(xùn)練任務(wù),而這些任務(wù)可能看起來(lái)和業(yè)務(wù)需求毫不相干。比如預(yù)測(cè)圖像塊旋轉(zhuǎn)角度、預(yù)測(cè)圖像塊是否來(lái)自同一張圖、將一張圖打亂順序后重新拼圖等。

還是以“暴恐元素識(shí)別業(yè)務(wù)”為例,自監(jiān)督訓(xùn)練過(guò)程不需要對(duì)數(shù)據(jù)進(jìn)行暴恐元素的標(biāo)注,它會(huì)對(duì)圖片進(jìn)行特定角度的旋轉(zhuǎn),然后讓模型學(xué)會(huì)預(yù)測(cè)這個(gè)旋轉(zhuǎn)角度。看似這個(gè)學(xué)習(xí)過(guò)程對(duì)實(shí)際業(yè)務(wù)沒(méi)有任何幫助,但其實(shí)半監(jiān)督和自監(jiān)督是通過(guò)輔助任務(wù)來(lái)加強(qiáng)模型對(duì)于通用特征的學(xué)習(xí)能力。

也就是說(shuō),我們先不告訴模型學(xué)什么,先讓模型自己去看數(shù)據(jù),總結(jié)規(guī)律,有一些懵懂的認(rèn)識(shí),打好基礎(chǔ)。然后再借助少量有標(biāo)簽數(shù)據(jù),進(jìn)行業(yè)務(wù)相關(guān)的針對(duì)性學(xué)習(xí)。

我們?cè)儆脙蓚€(gè)淺顯易懂的例子來(lái)展示半監(jiān)督和自監(jiān)督的學(xué)習(xí)方式:

半監(jiān)督就好比是“助教借我抄作業(yè)”。所謂“助教”,就是我們針對(duì)這個(gè)新的習(xí)題,沒(méi)有權(quán)威的標(biāo)簽,也就是沒(méi)有老師給的權(quán)威答案。但半監(jiān)督可以用現(xiàn)有的標(biāo)簽訓(xùn)練一些不是很完美的模型來(lái)打偽標(biāo)簽,這個(gè)偽標(biāo)簽就類似于助教給的參考答案。半監(jiān)督在讓學(xué)生去模仿這些參考答案,從而獲得學(xué)習(xí)能力。

而無(wú)監(jiān)督就好比是“學(xué)生之間私下對(duì)答案”。沒(méi)有標(biāo)準(zhǔn)答案,那我們幾個(gè)同學(xué)都去把這些題多做幾遍,大家校對(duì)一下做題過(guò)程和思路,從而能歸納出一些特點(diǎn)和規(guī)律,對(duì)知識(shí)有一些懵懂的認(rèn)知。

2.2“數(shù)字內(nèi)容風(fēng)控”適用性分析

回歸到業(yè)務(wù)上,半監(jiān)督和自監(jiān)督算法為什么適用于“數(shù)字內(nèi)容風(fēng)控”業(yè)務(wù)?

第一,“更合理”:半監(jiān)督和自監(jiān)督很符合人類的認(rèn)知方式,就像嬰兒學(xué)習(xí)東西時(shí)不是每一樣?xùn)|西都要拿著去問(wèn)父母、問(wèn)老師,它的標(biāo)準(zhǔn)答案是什么,而是在見到了很多東西后,能夠自己總結(jié)出它們的特點(diǎn)。

第二,“提效果”:半監(jiān)督和自監(jiān)督能夠利用海量容易獲取的無(wú)標(biāo)簽數(shù)據(jù),并引入更多維的模型訓(xùn)練任務(wù)。有這兩方面加持,它可以更大化地發(fā)揮人工智能“數(shù)據(jù)驅(qū)動(dòng)”的優(yōu)勢(shì),從而提升模型的效果和泛化能力。

第三,“提效率”:半監(jiān)督和自監(jiān)督極大縮短了傳統(tǒng)優(yōu)化過(guò)程中數(shù)據(jù)獲取的周期,從而提升整個(gè)算法迭代效率。

第四,“減成本”:還是上述提到的數(shù)據(jù)問(wèn)題,半監(jiān)督和自監(jiān)督很大程度上減免了人工標(biāo)注、質(zhì)檢的成本,也減少了內(nèi)容風(fēng)控業(yè)務(wù)數(shù)據(jù)對(duì)人工的傷害。

三、易盾創(chuàng)新實(shí)踐案例

3. 1 前沿算法落地

對(duì)于半監(jiān)督和自監(jiān)督算法的落地,網(wǎng)易易盾采取了兩種形式的應(yīng)用,在不同業(yè)務(wù)中都取得了優(yōu)異表現(xiàn)。

第一種是串聯(lián)嘗試,即上圖右側(cè)流程圖中間的三個(gè)串聯(lián)訓(xùn)練過(guò)程:兩個(gè)自監(jiān)督訓(xùn)練和一個(gè)半監(jiān)督訓(xùn)練。首先是在ImageNet數(shù)據(jù)域上的自監(jiān)督訓(xùn)練,旨在提升該數(shù)據(jù)域上模型的通用特征提取能力;其次是在實(shí)際業(yè)務(wù)數(shù)據(jù)域上的自監(jiān)督訓(xùn)練,算是一個(gè)數(shù)據(jù)域的過(guò)渡,旨在提升業(yè)務(wù)數(shù)據(jù)域上模型的通用特征提取能力;最后是一個(gè)針對(duì)特定業(yè)務(wù)任務(wù)的半監(jiān)督訓(xùn)練,旨在針對(duì)性地提升模型對(duì)于特定業(yè)務(wù)任務(wù)的表現(xiàn)。

上述串聯(lián)結(jié)構(gòu)的創(chuàng)新點(diǎn)總結(jié)有:

首先,我們?yōu)閿?shù)字風(fēng)控任務(wù)針對(duì)性地引入、設(shè)計(jì)自監(jiān)督訓(xùn)練任務(wù)。比如在“暴力恐怖”識(shí)別任務(wù)中引入無(wú)監(jiān)督輔助訓(xùn)練任務(wù),提升模型對(duì)于業(yè)務(wù)數(shù)據(jù)的通用特征提取能力,不再受限于任務(wù)本身。結(jié)合上后期的半監(jiān)督訓(xùn)練微調(diào),算法整體能達(dá)到更好的效果。

其次,我們對(duì)內(nèi)容分控業(yè)務(wù),針對(duì)性地設(shè)計(jì)了偽標(biāo)簽數(shù)據(jù)的篩選規(guī)則。設(shè)計(jì)過(guò)程借鑒了Meta learning等半監(jiān)督前沿算法中的一些思想,比如怎么選擇無(wú)標(biāo)簽數(shù)據(jù)集?選擇之后怎么用?用完之后新數(shù)據(jù)怎么回流?這些問(wèn)題都可以通過(guò)模型自動(dòng)化確定規(guī)則。

第二種嘗試是并聯(lián)結(jié)構(gòu),即不同任務(wù)并聯(lián)地同時(shí)進(jìn)行訓(xùn)練。和圖中UDA算法的想法類似:左邊是傳統(tǒng)的有監(jiān)督的訓(xùn)練Loss,右邊是一個(gè)或多個(gè)無(wú)監(jiān)督的訓(xùn)練Loss,在具體訓(xùn)練時(shí)我們借鑒了FixMatch、Self-tuning等多篇研究成果,并根據(jù)內(nèi)容風(fēng)控業(yè)務(wù)特點(diǎn)做了針對(duì)性修改,從而多種Loss協(xié)同共同訓(xùn)練。

總結(jié)一下以上兩個(gè)實(shí)際落地的算法結(jié)構(gòu),網(wǎng)易易盾將半監(jiān)督和自監(jiān)督上算法應(yīng)用于數(shù)字內(nèi)容風(fēng)控領(lǐng)域時(shí),聚焦于三大主要工作:

一是,開創(chuàng)性地引入和設(shè)計(jì)與業(yè)務(wù)特點(diǎn)相關(guān)的無(wú)監(jiān)督訓(xùn)練任務(wù)。

二是,借助了豐富的數(shù)據(jù)資源。此處“豐富”不僅指大量業(yè)務(wù)數(shù)據(jù),也包含海量的業(yè)務(wù)以外的如公開數(shù)據(jù)集,甚至ImageNet1000 分類等。

三是,我們開創(chuàng)了新的迭代流程。傳統(tǒng)來(lái)看,一個(gè)算法的迭代流程就是“收集數(shù)據(jù)-打標(biāo)簽-模型訓(xùn)練”幾步。在引入半監(jiān)督和自監(jiān)督的元素以后,算法迭代流程改良為自動(dòng)回流數(shù)據(jù)、自動(dòng)篩選合適的數(shù)據(jù)進(jìn)入訓(xùn)練、自動(dòng)進(jìn)行訓(xùn)練方案的設(shè)計(jì)。

3. 2 效果展示

接下來(lái),我們簡(jiǎn)單展示一下借助半監(jiān)督、自監(jiān)督算法,我們易盾產(chǎn)品在一個(gè)檢測(cè)任務(wù)上的優(yōu)異表現(xiàn)。

左側(cè)是奧運(yùn)會(huì)場(chǎng)景上的國(guó)旗檢測(cè),可以看到即使出現(xiàn)很多次國(guó)旗遮擋的情況,模型都能敏捷地檢測(cè)出國(guó)旗位置。

右側(cè)也是國(guó)旗檢測(cè),其中不僅涉及到目標(biāo)在不同方向的轉(zhuǎn)換,還有小目標(biāo)檢測(cè)的問(wèn)題,可以看到檢測(cè)算法都表現(xiàn)良好。

在易盾官網(wǎng),我們?yōu)槠髽I(yè)客戶提供了免費(fèi)的網(wǎng)頁(yè)版“內(nèi)容檢測(cè)”體驗(yàn),其中涉及到的內(nèi)容非常多,比如廣告過(guò)濾、色情過(guò)濾、暴恐過(guò)濾。以下是兩張檢測(cè)結(jié)果示例:

兩張圖檢測(cè)出來(lái)都是廣告,不同的是,左側(cè)100%命中了通用廣告,右邊疑似手寫體廣告。這個(gè)結(jié)果也是因?yàn)槲覀冊(cè)趯?shí)際攻防布控時(shí),不是用一套簡(jiǎn)單的規(guī)則,輸出一個(gè)簡(jiǎn)單的標(biāo)簽,而且實(shí)際上對(duì)數(shù)據(jù)、甚至對(duì)數(shù)據(jù)來(lái)源進(jìn)行了全方位、多角度的分析,可以輸出細(xì)化的多維度的標(biāo)簽。

四、總結(jié)

本次分享主要從技術(shù)的角度,簡(jiǎn)單地介紹了半監(jiān)督、自監(jiān)督的前沿算法與其在網(wǎng)易易盾產(chǎn)品中的應(yīng)用。不過(guò)由于半監(jiān)督、自監(jiān)督訓(xùn)練方法的通用性,只要是用到AI模型的場(chǎng)景,都可以用今天講到的技術(shù)去優(yōu)化。希望本次分享能為不同領(lǐng)域的實(shí)踐者帶來(lái)啟發(fā)。

分享到:
標(biāo)簽:網(wǎng)易易盾
用戶無(wú)頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過(guò)答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫(kù),初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定