近期,中國信息通信研究院(以下簡稱“中國信通院”)在 2022 可信 AI 峰會(主論壇)上公布了首批“智信計劃”成員單位,網(wǎng)易智企旗下數(shù)字內(nèi)容風(fēng)控品牌網(wǎng)易易盾,憑借安全合規(guī)的人工智能識別技術(shù),入選中國信通院“智信計劃”首批成員單位。
網(wǎng)易易盾與中國移動、騰訊云、螞蟻集團(tuán)、百度等互聯(lián)網(wǎng)、數(shù)字科技、通信領(lǐng)域的頭部企業(yè)一同入選,攜手鑄就可信的人工智能應(yīng)用環(huán)境。此前不久,網(wǎng)易易盾還成為了中國信通院發(fā)起的人工智能可信治理系列標(biāo)準(zhǔn)參編單位,并參與中國信通院云大所倡議發(fā)起的“可信人臉應(yīng)用守護(hù)計劃”。
作為業(yè)內(nèi)領(lǐng)先的 AI 企業(yè),網(wǎng)易易盾致力于推動 AI 應(yīng)用的健康落地,網(wǎng)易易盾 AI 實驗室有著豐富的技術(shù)積累和業(yè)務(wù)落地經(jīng)驗,提供涵蓋文本、圖片、視頻與音頻的多類型的內(nèi)容檢測。理解圖像、文字、語音的工作交給 AI 機(jī)器算法,有效幫助人力從簡單重復(fù)的審核操作中脫離出來,全天候守護(hù)清朗的網(wǎng)絡(luò)空間。
為 AI 引入信賴機(jī)制
早上 8:00,上班族在鬧鐘的呼喚中醒來,打開社交軟件閱讀新鮮事,回復(fù)了一個在線帖子,在用早餐的間隙,收聽當(dāng)天的天氣預(yù)報與早間新聞。在這個過程中,人工智能(AI)無處不在。內(nèi)容中可能存在著各種大大小小的問題。人工智能技術(shù)像一位敬業(yè)的管家,自動化完成內(nèi)容審核,不讓污染視聽的內(nèi)容進(jìn)入大眾的視線,用時僅需毫秒,讓用戶暢游在安全的內(nèi)容生態(tài)中。
此外,AI 也藏身于語音助手、面部識別、自動駕駛等功能中,在日常的客廳、汽車和錢包中,AI 已經(jīng)滲透到我們的日常生活中,潛移默化地給世界帶來巨大的變化。很顯然,隨著人工智能變得越來越普遍,AI 的失控將置人類于危險之中,可信人工智能建設(shè)必須放在重要位置。
當(dāng)前,AI 仍舊存在種族歧視與偏見等現(xiàn)象,相關(guān)問題層出不窮。此前,在谷歌搜索中輸入典型的黑人名字會推薦逮捕記錄查詢的廣告,谷歌相冊將美籍非洲裔黑人的照片錯誤定位為大猩猩。究其原因在于 AI 訓(xùn)練依賴于數(shù)據(jù),一旦數(shù)據(jù)類型過于集中,將會導(dǎo)致社會偏見的長期存在。
此外,網(wǎng)絡(luò)犯罪瘋子將目光聚焦于破壞人工智能,給予致命性的打擊,落入別有用心的人手中。黑客突破人臉系統(tǒng)轉(zhuǎn)走大量資金,掌控網(wǎng)絡(luò)推薦系統(tǒng)向大眾推送影響判斷的文章。人工智能算法從設(shè)計、訓(xùn)練到使用均面臨可信賴性問題。
圖 | 歐盟對可信 AI 概念的要求
鑒于 AI 決策對人類的影響,網(wǎng)易易盾以可信為基石,從公平性、透明性、安全性、隱私保護(hù)等多個方面評估 AI 系統(tǒng)的風(fēng)險,將人工智能在內(nèi)容審核過程中的獨特危害降至最低。
如果在對 AI 系統(tǒng)進(jìn)行訓(xùn)練時,沒有針對性的考慮與設(shè)計,可能會讓偏見在“內(nèi)容風(fēng)控決策”時發(fā)揮作用。
易盾制定框架來解決這個類型的問題,從預(yù)處理、模型訓(xùn)練、后處理這三個方面出發(fā),提高模型的公平性。預(yù)處理方面,通過重采樣等方式對數(shù)據(jù)進(jìn)行清洗、從而降低數(shù)據(jù)中存在的偏差。模型訓(xùn)練方面,考慮模型公平性要求,增加損失項或者正則項來保證提升模型的公平性。綜合策略方面,考慮決策偏差的特點,調(diào)整后處理方式減輕模型的決策偏差。
AI 黑盒如何得出內(nèi)容風(fēng)控的結(jié)論和建議,審核的可預(yù)性是大眾信任計算機(jī)做出“內(nèi)容風(fēng)控決策”的關(guān)鍵。
易盾在算法模型訓(xùn)練過程中通過“可視化機(jī)制評估”來解釋模型的中間狀態(tài),盡可能拉近模型和人之間的感知差距,能做什么和不能做什么,使得模型輸出可接受的結(jié)果。
針對 AI 的網(wǎng)絡(luò)攻擊可能肆意篡改“內(nèi)容風(fēng)控決策”,如控制仇恨言論檢測系統(tǒng)以發(fā)布大量危言聳聽的話術(shù)。
易盾結(jié)合關(guān)聯(lián)圖網(wǎng)絡(luò)、行為模型、用戶屬性等其他技術(shù),進(jìn)行全方位診斷和分析,提升整體服務(wù)的可信程度。即便單一的算法遭到攻擊,其他技術(shù)也能及時補(bǔ)上,令結(jié)果更加穩(wěn)定可靠。
AI 致力于內(nèi)容風(fēng)控
2017 年,大量針對兒童的粗制濫造的視頻在視頻分享網(wǎng)站 YouTube 上流傳,內(nèi)容綁架迪士尼角色做出粗俗行為,堂而皇之采用純真的童謠混搭,描繪性與暴力、淫穢語言、酒精和藥物濫用。在上傳數(shù)月之后,上述內(nèi)容才被發(fā)現(xiàn)與刪除。UGC 內(nèi)容變得血腥,令人震驚與不安。
由于涉及黑產(chǎn)的經(jīng)濟(jì)利益,內(nèi)容安全是一個充滿對抗和升級的過程,變種不斷涌現(xiàn)。單靠人類無法做到的海量、即時、敏捷的審核,而互聯(lián)網(wǎng)又催生了數(shù)量、速度、種類都前所未有的內(nèi)容。毫無疑問,AI 將視為一個可靠的解決方案。網(wǎng)易易盾內(nèi)容安全借助于深度學(xué)習(xí)技術(shù),在自然語言處理、機(jī)器視覺和機(jī)器聽覺等領(lǐng)域都取得了迅速的進(jìn)展,通過數(shù)據(jù)收集標(biāo)注、模型訓(xùn)練、效果優(yōu)化、性能優(yōu)化、算法測試這一系列標(biāo)準(zhǔn)化流程構(gòu)建全面的算法內(nèi)容安全能力。
以音頻審核為例,易盾音頻內(nèi)容安全算法主要由聲音分類算法和語音識別算法兩部分組成。其中聲音分類算法(Sound Classification)主要用于識別音頻中的聲音類型,例如嬌喘、呻吟、ASMR、說話語種等,語音識別算法(Automatic Speech Recognition, ASR)主要用于說話內(nèi)容識別,將語音內(nèi)容轉(zhuǎn)寫為文字內(nèi)容,并進(jìn)一步檢測文字的合規(guī)性。
目前,越來越多企業(yè)正在使用這套處于數(shù)字內(nèi)容風(fēng)控領(lǐng)域領(lǐng)導(dǎo)者地位的、可全面降低人力成本的、高效攔截違規(guī)不良內(nèi)容的內(nèi)容安全解決方案,平穩(wěn)地開展內(nèi)容生態(tài)的數(shù)字化轉(zhuǎn)型之旅。