近日,第三屆中國(guó)人工智能大賽的最終結(jié)果出爐,網(wǎng)易易盾斬獲雙賽道冠軍。至此,網(wǎng)易易盾已連續(xù)3年成功奪得大賽冠軍。
憑借在音視頻AI技術(shù)的積累及與黑灰產(chǎn)對(duì)抗的豐富經(jīng)驗(yàn),網(wǎng)易易盾AI實(shí)驗(yàn)室-音視頻團(tuán)隊(duì)在說(shuō)話(huà)人相關(guān)的音頻深度偽造檢測(cè)和深度偽造視頻生成方法識(shí)別雙賽道中榮獲最高級(jí)A級(jí)證書(shū),并在深度偽造視頻檢測(cè)賽道中獲得B級(jí)證書(shū)。
經(jīng)過(guò)近5年的發(fā)展,網(wǎng)易易盾一直利用人工智能(AI)技術(shù)不斷深耕,在內(nèi)容安全領(lǐng)域的多樣場(chǎng)景下適應(yīng)落地,以信息技術(shù)賦能互聯(lián)網(wǎng)時(shí)代的數(shù)字風(fēng)險(xiǎn)治理。
角逐數(shù)月,交出最新成績(jī)單
由國(guó)家互聯(lián)網(wǎng)信息辦公室、工業(yè)和信息化部、公安部、國(guó)家廣播電視總局、廈門(mén)市人民政府聯(lián)合主辦的第三屆中國(guó)人工智能大賽近日正式收官。
本屆大賽歷時(shí)近3個(gè)月,集結(jié)了來(lái)自全國(guó)的164支隊(duì)伍,重點(diǎn)聚焦算法治理、深度偽造音視頻檢測(cè)、網(wǎng)絡(luò)安全等方向,以競(jìng)賽方式解決現(xiàn)實(shí)場(chǎng)景中需求問(wèn)題,發(fā)掘一批人工智能領(lǐng)域的技術(shù)領(lǐng)先團(tuán)隊(duì),推動(dòng)人工智能與傳統(tǒng)行業(yè)深度融合與跨界應(yīng)用。
2021年是網(wǎng)易易盾參加競(jìng)賽的第三年。在工程師的創(chuàng)新性探索下,網(wǎng)易易盾分別在前兩個(gè)年度一舉拿下“旗幟識(shí)別”與“視頻深度偽造檢測(cè)”賽道最高級(jí)A級(jí)證書(shū)。
以深度偽造為代表的網(wǎng)絡(luò)安全問(wèn)題屢禁不止,也給社會(huì)公共治理帶來(lái)嚴(yán)峻挑戰(zhàn)。與往年相比,本屆競(jìng)賽的一個(gè)關(guān)鍵點(diǎn)在于AI技術(shù)的落地性與成熟應(yīng)用,讓深度偽造的技術(shù)檢測(cè)成為監(jiān)管治理的利器。
兩大方向上的創(chuàng)新工作
1音頻方向:聲紋鑒偽技術(shù)
為了兼顧高性能與低功耗,易盾AI實(shí)驗(yàn)室團(tuán)隊(duì)設(shè)計(jì)了“聲紋識(shí)別”與“分類(lèi)模型結(jié)果”相融合的解決方案,發(fā)揮兩者優(yōu)勢(shì)識(shí)別千變?nèi)f化的偽造音頻。在驗(yàn)證集上,團(tuán)隊(duì)通過(guò)深度學(xué)習(xí)的方式,學(xué)習(xí)了融合兩個(gè)模型輸出的最佳方案,以此作為最終的鑒偽系統(tǒng),獲取更準(zhǔn)確的檢測(cè)結(jié)果。
跨語(yǔ)種干擾消除
數(shù)據(jù)一直是通用智能發(fā)展的阻礙。在多語(yǔ)種的場(chǎng)景下應(yīng)用,常規(guī)的解決方案是加多種語(yǔ)種的數(shù)據(jù)進(jìn)行訓(xùn)練,面臨不同語(yǔ)種的標(biāo)注數(shù)據(jù)收集的難題:一是,部分小語(yǔ)種獲取標(biāo)注數(shù)據(jù)成本大,二是,出現(xiàn)各個(gè)語(yǔ)種樣本數(shù)量不平衡的問(wèn)題,三是,難以完全覆蓋測(cè)試數(shù)據(jù)的語(yǔ)種范圍。為了突破多語(yǔ)種數(shù)據(jù)受限的瓶頸,易盾團(tuán)隊(duì)引入了創(chuàng)新的“對(duì)抗訓(xùn)練”方式。簡(jiǎn)單而言,就是讓學(xué)習(xí)到的聲紋特征不具備語(yǔ)種信息,同時(shí)在高維空間中有一個(gè)類(lèi)內(nèi)緊湊,類(lèi)間距離大的一個(gè)表達(dá)。通過(guò)技術(shù)升級(jí),在比賽的驗(yàn)證集中,等錯(cuò)誤率(EER)成功降低2%左右。在業(yè)務(wù)場(chǎng)景中,可以支持跨語(yǔ)種的聲紋識(shí)別,在提供覆蓋面更廣的服務(wù)的同時(shí),提高模型在小語(yǔ)種與語(yǔ)種混雜場(chǎng)景下魯棒性。
標(biāo)簽噪聲糾正
在訓(xùn)練聲紋模型時(shí),一旦標(biāo)注數(shù)據(jù)出現(xiàn)誤標(biāo)注,即標(biāo)簽噪聲,就會(huì)影響最終訓(xùn)練得到的模型的精度。傳統(tǒng)的解決方案依靠于人工挑揀,去除錯(cuò)標(biāo)數(shù)據(jù),而人工成本大,時(shí)間周期長(zhǎng),并不是良策。對(duì)此,易盾團(tuán)隊(duì)做了重大突破。團(tuán)隊(duì)引入subcenter-arcface損失函數(shù),它通過(guò)為每個(gè)類(lèi)劃分多個(gè)子中心,只要求訓(xùn)練數(shù)據(jù)離任意一個(gè)子中心小于一定距離即可。高效抑制標(biāo)簽噪聲的方法,不要求模型強(qiáng)行去擬合那些噪聲標(biāo)簽,同時(shí)又能學(xué)習(xí)到好的聲紋特征,極大地提高了對(duì)錯(cuò)誤標(biāo)簽的判別力度,助力錯(cuò)誤率(EER)有效降低1%左右。
模型結(jié)構(gòu)的探索
易盾團(tuán)隊(duì)對(duì)聲紋識(shí)別的模型結(jié)構(gòu)做了重大升級(jí)。在light-cnn的基礎(chǔ)上,加入各種attention的結(jié)構(gòu),并采取了多頻段分別建模再特征聚合的方式。引入attention的目的在于讓模型更好地關(guān)注對(duì)分類(lèi)有幫助的頻率和時(shí)間模式上,而多頻段分別建模再特征聚合的引入,讓分類(lèi)更細(xì)致。與直接用CNN做分類(lèi)的傳統(tǒng)方式相比,在比賽驗(yàn)證集上等錯(cuò)誤率降低3%左右。
視頻方向:視頻偽造檢測(cè)
視頻深度偽造檢測(cè)技術(shù),面臨著偽造方法多樣、持續(xù)對(duì)抗、數(shù)據(jù)分布廣泛、后處理方式多樣等難點(diǎn)。針對(duì)這些問(wèn)題,易盾AI實(shí)驗(yàn)室團(tuán)隊(duì)從數(shù)據(jù)、特征、訓(xùn)練方式、持續(xù)迭代等多角度出發(fā),設(shè)計(jì)了“基于域泛化多特征融合”的解決方案,持續(xù)的提升鑒偽模型對(duì)于未知偽造方法、多樣的后處理方式、持續(xù)對(duì)抗的魯棒性。
基于半監(jiān)督學(xué)習(xí)的數(shù)據(jù)挖掘方法
針對(duì)上述偽造方法多、后處理方式多、數(shù)據(jù)分布廣泛的問(wèn)題。從數(shù)據(jù)層面,團(tuán)隊(duì)基于半監(jiān)督學(xué)習(xí)技術(shù),設(shè)計(jì)了完整的數(shù)據(jù)挖掘、帶噪學(xué)習(xí)、持續(xù)迭代的解決方案。從提高難例占比和提升精確度的角度出發(fā),保證數(shù)據(jù)挖掘的有效性和準(zhǔn)確性,讓數(shù)據(jù)分布更多的覆蓋未知域,從而更好的提升模型的泛化能力。從帶噪學(xué)習(xí)的角度出發(fā),提升模型對(duì)噪聲標(biāo)簽的“容忍度”,從而更加高效的提升模型的泛化能力。
基于多特征融合的鑒偽識(shí)別方法
深度鑒偽的識(shí)別方法往往有比較強(qiáng)的“針對(duì)性”,一種特征或者識(shí)別方法往往對(duì)一種或者一系列生成方法有比較好的魯棒性,但是面對(duì)一個(gè)完全的開(kāi)集問(wèn)題,面對(duì)一個(gè)數(shù)據(jù)和生成方式都未知的偽造方式,單一的特征和方法往往很難取得很好的泛化性和識(shí)別效果。所以,我們?cè)诳v向?qū)γ總€(gè)識(shí)別方法和特征進(jìn)行深入研究和改進(jìn)的同時(shí),橫向的融合和選擇多種的特征,包括embedding特征、頻域特征、序列特征、人工定義特征、偽造痕跡特征等等。
基于域泛化的模型訓(xùn)練方法
從鑒偽的角度來(lái)看,識(shí)別的數(shù)據(jù)有明確的“域”的概念。一種偽造方式與一種后處理方式的結(jié)合,就等于一個(gè)特定的識(shí)別“域”。換句話(huà)說(shuō),模型的訓(xùn)練和測(cè)試數(shù)據(jù)很難滿(mǎn)足獨(dú)立同分布的前提假設(shè),并且可能有非常大的域偏移。因?yàn)閭卧斓姆绞胶秃筇幚淼姆绞蕉鄻樱⑶页掷m(xù)發(fā)展和對(duì)抗,所以想從生成的角度窮盡所有的“域”來(lái)提升鑒偽模型的泛化能力基本是不可行的?;谝陨戏治?,我們從域泛化和域自適應(yīng)的角度出發(fā)進(jìn)行模型訓(xùn)練,提升模型對(duì)未知域的泛化能力、提升模型對(duì)未知分布的魯棒性。
持續(xù)發(fā)力深偽防范,守護(hù)清朗網(wǎng)絡(luò)
“換臉變聲”的深度偽造應(yīng)用不少,幾乎具備以假亂真的迷惑性,通過(guò)AI技術(shù)對(duì)圖像、聲音、視頻的篡改、偽造和自動(dòng)生成,形成高度逼真的效果。
易盾AI實(shí)驗(yàn)室的“視頻偽造檢測(cè)”與“聲紋識(shí)別”能力,不僅在比賽中取得最低錯(cuò)誤率,并且已經(jīng)嘗試應(yīng)用在點(diǎn)播、直播視頻等場(chǎng)景下的內(nèi)容安全檢測(cè)能力中。我們助力線上圖像、語(yǔ)音、視頻等內(nèi)容的檢測(cè),阻斷作惡者的內(nèi)容傳播鏈,全力以赴阻止科技作惡,如判斷內(nèi)容是否涉及敏感人員及其惡搞、是否存在深度偽造的嫌疑。
保護(hù)敏感人物
明星與政治人物往往成為深偽的重災(zāi)區(qū),因其具備充分的圖像、聲音等公開(kāi)數(shù)據(jù)用于假音頻和假視頻的仿制。在真實(shí)場(chǎng)景下,易盾針對(duì)敏感人員聲音的特點(diǎn)、應(yīng)對(duì)不同清晰度、不同膚色的人像案例,對(duì)解決方案做了多輪的迭代優(yōu)化,被多家客戶(hù)應(yīng)用于“深度偽造”專(zhuān)項(xiàng)清理,并且申請(qǐng)多項(xiàng)專(zhuān)利。
阻止深偽作惡
“深度偽造”的風(fēng)險(xiǎn)事件屢見(jiàn)不鮮,引發(fā)淫穢 、詐騙、惡搞與侵權(quán)等問(wèn)題。易盾積極跟進(jìn)最前沿的偽造技術(shù),探索泛化能力更強(qiáng)的音視頻“深度偽造”對(duì)抗技術(shù),精準(zhǔn)鑒別音視頻深度偽造,已經(jīng)可應(yīng)用于多行業(yè)、多場(chǎng)景、多問(wèn)題范疇的守護(hù)。
開(kāi)發(fā)者共思同行,不斷給出新答案
回顧過(guò)去,網(wǎng)易易盾連續(xù)3年在中國(guó)人工智能大賽奪冠,技術(shù)持續(xù)進(jìn)步的背后,浸透著工程師們的辛勤汗水,離不開(kāi)默契的配合。在電腦之間穿梭的他們,是人工智能的訓(xùn)練師,也是互聯(lián)網(wǎng)數(shù)字內(nèi)容的把關(guān)人。每天的大部分時(shí)間,AI實(shí)驗(yàn)室的工程師們都待在一起共思同行,也隱藏著許多有趣的故事。
每天一個(gè)新點(diǎn)子的產(chǎn)生與執(zhí)行攻略
技術(shù)探索是波浪式的前進(jìn),既需要站在巨人的肩膀上思考,也需要結(jié)合當(dāng)下實(shí)際的創(chuàng)新。團(tuán)隊(duì)長(zhǎng)期致力于智能聲學(xué)研究,能更輕松應(yīng)對(duì)各項(xiàng)比賽任務(wù),得益于平日常在業(yè)務(wù)需求中得到的鍛煉。
在比賽截止的最后一周時(shí)間里,音頻組的兩位技術(shù)搭檔正處于機(jī)器模型搭建、數(shù)據(jù)訓(xùn)練、效果優(yōu)化的沖刺中。所有工作都在井然有序的節(jié)奏中完成了。
某天晚上,一位工程師結(jié)束了一天繁忙的工作,離開(kāi)了自己的工位。在回家路上,他看到路上有人倒著走路健身,突然腦子里靈光一閃,冒出一個(gè)算法優(yōu)化的想法。
倒著行走的人是不是等于問(wèn)題可以反過(guò)來(lái)看。他在挨過(guò)興奮且充滿(mǎn)討論欲望的夜晚之后,第二天一早醒來(lái)就給拍檔發(fā)了消息。幾人一番商討,重新分析了賽題,新視角下的聲學(xué)模型對(duì)偽造的反應(yīng)更敏銳。
“這個(gè)想法快速成為現(xiàn)實(shí),反而一躍成為三個(gè)參賽模型中取得最好結(jié)果的一個(gè),錯(cuò)誤率最低,也幫助我們奪冠?!彼f(shuō),對(duì)團(tuán)隊(duì)而言,比賽是一個(gè)發(fā)現(xiàn)問(wèn)題、優(yōu)化問(wèn)題的過(guò)程,基于每天測(cè)試過(guò)程中發(fā)現(xiàn)的問(wèn)題,尋找解決方法,擇最優(yōu)方案而為。
未來(lái),網(wǎng)易易盾的AI工程師們將始終堅(jiān)持技術(shù)創(chuàng)新戰(zhàn)略,改進(jìn)關(guān)鍵核心技術(shù),不斷進(jìn)行一個(gè)又一個(gè)課題的探索,為企業(yè)客戶(hù)帶來(lái)業(yè)界領(lǐng)先的技術(shù),支持真實(shí)場(chǎng)景下的新功能。
免責(zé)聲明:以上內(nèi)容為本網(wǎng)站轉(zhuǎn)自其它媒體,相關(guān)信息僅為傳遞更多信息之目的,不代表本網(wǎng)觀點(diǎn),亦不代表本網(wǎng)站贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性。如稿件版權(quán)單位或個(gè)人不想在本網(wǎng)發(fā)布,可與本網(wǎng)聯(lián)系,本網(wǎng)視情況可立即將其撤除。