作者:人民中科研發(fā)中心張朝
摘要:在過(guò)去的很長(zhǎng)時(shí)間里,計(jì)算機(jī)視覺(jué)領(lǐng)域依靠大規(guī)模的有標(biāo)注數(shù)據(jù)集取得了很大的成功,特別是卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用,使得視覺(jué)各子領(lǐng)域?qū)崿F(xiàn)了跨越式發(fā)展,學(xué)術(shù)界和工業(yè)界開(kāi)始投入大量的研究和應(yīng)用,一度使大家相信,人工智能的大廈即將建成。然而,最近關(guān)于自監(jiān)督學(xué)習(xí)(Self-supervisedLearning,SSL)、Transformer、MLP等在學(xué)術(shù)界的研究成為熱點(diǎn),特別是Transformer和MLP的進(jìn)擊,大有要將監(jiān)督學(xué)習(xí)和卷積結(jié)構(gòu)拍死在沙灘上的節(jié)奏,作者相信,計(jì)算機(jī)視覺(jué)(CV)領(lǐng)域正在進(jìn)入新的變革時(shí)代。
本文主要聚焦于CV領(lǐng)域自監(jiān)督學(xué)習(xí)的相關(guān)內(nèi)容,包含基本概念,與視覺(jué)各領(lǐng)域的關(guān)系和應(yīng)用,以及當(dāng)前的進(jìn)展和一些思考,關(guān)于具體的自監(jiān)督學(xué)習(xí)方法原理和技術(shù)有太多的文章進(jìn)行解讀,本文暫不涉及,力求從其他角度去觀察自監(jiān)督學(xué)習(xí)的特點(diǎn)和當(dāng)前的局限性,分析總結(jié)經(jīng)驗(yàn),以求能給大家更多創(chuàng)新的想法啟發(fā)。由于作者本人也有很大的局限性,一些觀點(diǎn)不免有偏頗,還望各位大佬批評(píng)指正。
一、自監(jiān)督學(xué)習(xí)介紹
AAAI2020會(huì)議上,YannLeCun做了自監(jiān)督學(xué)習(xí)的報(bào)告,表示自監(jiān)督學(xué)習(xí)是人工智能的未來(lái)。從2019年底至今,MoCo系列,SimCLR,BYOL等一系列方法等井噴發(fā)展,通過(guò)無(wú)標(biāo)注數(shù)據(jù)集達(dá)到了有標(biāo)注數(shù)據(jù)集上的效果,幾乎所有的下游任務(wù)都獲得收益,使其成為了CV各領(lǐng)域的研究熱門(mén)。自監(jiān)督學(xué)習(xí)的優(yōu)勢(shì),就是可以在無(wú)標(biāo)簽的數(shù)據(jù)上完成訓(xùn)練,而監(jiān)督學(xué)習(xí)需要大量的有標(biāo)簽數(shù)據(jù),強(qiáng)化學(xué)習(xí)需要與環(huán)境的大量交互嘗試,數(shù)據(jù)為王的時(shí)代,此特點(diǎn)也使得大家充分相信自監(jiān)督學(xué)習(xí)才是人工智能的發(fā)展方向。
自監(jiān)督學(xué)習(xí)是與大家熟悉的監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)的新名詞,該類(lèi)方法最早歸類(lèi)于無(wú)監(jiān)督學(xué)習(xí)的范疇。關(guān)于自監(jiān)督學(xué)習(xí)的概念,Paperwithcode[1]給出的定義是,使用無(wú)標(biāo)注數(shù)據(jù)用自我監(jiān)督的方式學(xué)習(xí)一種表示的方法,具體方式是通過(guò)學(xué)習(xí)一個(gè)替代任務(wù)(pretexttask)的目標(biāo)函數(shù)來(lái)獲取特征表示。替代任務(wù)可以是一個(gè)預(yù)測(cè)類(lèi)任務(wù)、生成式任務(wù)、對(duì)比學(xué)習(xí)任務(wù)。替代任務(wù)的監(jiān)督信息來(lái)源是從數(shù)據(jù)本身獲得的。舉個(gè)栗子,替代任務(wù)可以是圖片上色,圖片摳圖位置預(yù)測(cè),視頻幀順序預(yù)測(cè)等?;蛘呶覀儚慕Y(jié)果反推方法,對(duì)于自監(jiān)督來(lái)說(shuō),數(shù)據(jù)本身是沒(méi)有標(biāo)簽的,我們需要通過(guò)自行設(shè)計(jì)任務(wù)來(lái)確定數(shù)據(jù)的標(biāo)簽。例如下圖[2]中把圖片中扣出9個(gè)塊,讓模型預(yù)測(cè)每個(gè)塊的位置,對(duì)每個(gè)塊自動(dòng)構(gòu)建標(biāo)簽的過(guò)程就是生成標(biāo)簽的過(guò)程,預(yù)測(cè)位置的工作就是替代任務(wù)。
圖1圖像塊相對(duì)位置預(yù)測(cè)
近來(lái)熱門(mén)且效果出色的自監(jiān)督模型MoCo系列、SimCLR等,除去BYOL和SimSiam舍棄了負(fù)樣本數(shù)據(jù),基本都是采用正負(fù)樣本對(duì)間對(duì)比的方式來(lái)構(gòu)建,BYOL和SimSiam也構(gòu)建了兩個(gè)網(wǎng)絡(luò)間的對(duì)比形式,都屬于對(duì)比學(xué)習(xí)(ContrastiveLearning)任務(wù)的范疇,可以說(shuō),當(dāng)前的自監(jiān)督學(xué)習(xí)的火熱就是對(duì)比學(xué)習(xí)自監(jiān)督方法的火熱。其基本原理,是采用Siamese形式的網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)輸入正負(fù)樣本對(duì)數(shù)據(jù),計(jì)算網(wǎng)絡(luò)兩個(gè)分支的輸出的損失,以使網(wǎng)絡(luò)能夠?qū)W習(xí)到可以將相似樣本拉近,不相似樣本拉遠(yuǎn)的特征。自動(dòng)構(gòu)建標(biāo)簽的過(guò)程,就是常用的各種數(shù)據(jù)增強(qiáng)方法,如下圖[3],原始圖采用隨機(jī)裁剪、顏色變換、模糊等方式構(gòu)造相似樣本對(duì),而不同的原圖或者增強(qiáng)后圖像即是非相似樣本對(duì)。訓(xùn)練得到的對(duì)比學(xué)習(xí)網(wǎng)絡(luò),在遷移到下游任務(wù)(分類(lèi)、檢測(cè)、分割)等數(shù)據(jù)集時(shí),表現(xiàn)達(dá)到了可以媲美監(jiān)督學(xué)習(xí)模型的效果。
圖2SimCLR使用的數(shù)據(jù)增強(qiáng)方法
基于對(duì)比的自監(jiān)督方法發(fā)展史如下圖所示,選取了幾個(gè)受關(guān)注較多的方法,時(shí)間截止2021年3月。Facebook和google兩家研究團(tuán)隊(duì)神仙打架,對(duì)比學(xué)習(xí)框架逐漸去除掉一些技巧、結(jié)構(gòu),朝著中國(guó)哲學(xué)“大道至簡(jiǎn)”這一概念前進(jìn)。
圖3自監(jiān)督對(duì)比學(xué)習(xí)發(fā)展歷程
換一個(gè)角度思考,如果拋棄下游任務(wù)的finetune,只關(guān)注于替代任務(wù)的學(xué)習(xí),那么自監(jiān)督學(xué)習(xí)就像一個(gè)大染缸,各種替代任務(wù)只要可以構(gòu)造出來(lái),將其嵌入到自監(jiān)督學(xué)習(xí)框架內(nèi),最終學(xué)習(xí)出來(lái)的特征和網(wǎng)絡(luò),就具有了替代任務(wù)的判別性。由此,就像使用魔法一樣,我們就能夠?qū)崿F(xiàn)對(duì)神經(jīng)網(wǎng)絡(luò)能力的定制化改造。當(dāng)前已經(jīng)有不少研究成果發(fā)表,可以使用自監(jiān)督完成幀序列預(yù)測(cè)、視頻播放速度判斷、圖像旋轉(zhuǎn)方向預(yù)測(cè)等。
二、自監(jiān)督學(xué)習(xí)與其他領(lǐng)域的關(guān)系和思考
由于對(duì)比學(xué)習(xí)的強(qiáng)勁發(fā)展勢(shì)頭和其在自監(jiān)督領(lǐng)域中占有的絕對(duì)比重,本文接下來(lái)直接以對(duì)比學(xué)習(xí)代替自監(jiān)督學(xué)習(xí)的說(shuō)法,在深挖對(duì)比學(xué)習(xí)框架過(guò)程中,發(fā)現(xiàn)其與CV的各領(lǐng)域其他方法如蒸餾學(xué)習(xí)、表示學(xué)習(xí)等有相似或關(guān)聯(lián)之處,下面將逐個(gè)討論。
1.對(duì)比學(xué)習(xí)和蒸餾學(xué)習(xí)
二者的網(wǎng)絡(luò)結(jié)構(gòu)形式非常相似,同樣是雙路網(wǎng)絡(luò)結(jié)構(gòu),同樣是對(duì)于最終的雙路網(wǎng)絡(luò)輸出計(jì)算loss。不同的是,蒸餾學(xué)習(xí)往往是固定一個(gè)teacher網(wǎng)絡(luò),student網(wǎng)絡(luò)規(guī)模要小于teacher,對(duì)比學(xué)習(xí)中,兩個(gè)網(wǎng)絡(luò)結(jié)構(gòu)常常一致,并且是共同更新網(wǎng)絡(luò)參數(shù),蒸餾學(xué)習(xí)中teacher網(wǎng)絡(luò)的參數(shù)固定。當(dāng)然還有輸入、loss、參數(shù)更新等不同,但蒸餾網(wǎng)絡(luò)提供給了我們理解對(duì)比學(xué)習(xí)架構(gòu)的另一種思考方式。在對(duì)比學(xué)習(xí)中常用的momentumupdate的更新方法和stopgradient技巧,可以理解成蒸餾學(xué)習(xí)的緩慢更新teacher版本和變體,由此我們可以將對(duì)比網(wǎng)絡(luò)理解成雙路網(wǎng)絡(luò)互相學(xué)習(xí),左右互搏。甚至,論文DINO[4]中將網(wǎng)絡(luò)結(jié)構(gòu)圖中的兩個(gè)分支直接寫(xiě)成了teacher和student。
圖4DINO算法網(wǎng)絡(luò)結(jié)構(gòu)
2.對(duì)比學(xué)習(xí)和表示學(xué)習(xí)
對(duì)比學(xué)習(xí)屬于表示學(xué)習(xí)的一種方法,通過(guò)對(duì)比學(xué)習(xí)獲得的特征,遷移到下游任務(wù)中,進(jìn)行finetune即可達(dá)到監(jiān)督學(xué)習(xí)的效果,像極了早期CV領(lǐng)域的手工特征。對(duì)比學(xué)習(xí)的損失函數(shù)設(shè)置也是表示學(xué)習(xí)的出發(fā)點(diǎn),相似樣本在特征空間的距離依然相近,反之距離較遠(yuǎn)。監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)也是學(xué)習(xí)到了很好的特征表示,才對(duì)我們的分類(lèi)等任務(wù)有較好的表現(xiàn)。而現(xiàn)在對(duì)比學(xué)習(xí)要做的,就是在無(wú)標(biāo)簽的基礎(chǔ)上,學(xué)習(xí)到一種泛化性更強(qiáng)的特征表示??梢灶A(yù)見(jiàn)的是,我們可以將對(duì)比學(xué)習(xí)模型替換掉imagenet預(yù)訓(xùn)練模型作為各類(lèi)任務(wù)訓(xùn)練的起點(diǎn),因?yàn)閷?duì)比學(xué)習(xí)的訓(xùn)練集規(guī)模可以輕松超越imagenet,并且訓(xùn)練得到是超越分類(lèi)任務(wù)的更具泛化的特征表示。
圖5監(jiān)督學(xué)習(xí)的流程
3.對(duì)比學(xué)習(xí)和自編碼器
自編碼器也是無(wú)監(jiān)督領(lǐng)域圖像特征提取的一種方式,該方法基于一個(gè)編碼器(encoder)將輸入映射為特征,再通過(guò)解碼器(decoder)將映射的特征恢復(fù)到原圖,以減小重構(gòu)誤差為訓(xùn)練目標(biāo)。
圖6自編碼器網(wǎng)絡(luò)結(jié)構(gòu)示意
自編碼器的編碼過(guò)程可以看作是對(duì)比學(xué)習(xí)的單個(gè)分枝結(jié)構(gòu),二者的區(qū)別在于自編碼器通過(guò)重構(gòu)輸出來(lái)作為自監(jiān)督信息并避免平凡解,而對(duì)比網(wǎng)絡(luò)是依靠?jī)陕肪W(wǎng)絡(luò)的輸出對(duì)比解決問(wèn)題。從提取圖片特征來(lái)看,對(duì)比學(xué)習(xí)直接對(duì)提取的特征做約束優(yōu)化,保持了在嵌入空間中特征分布的Alignment(相似實(shí)例有相近的特征)和Uniformity(保留更多的信息,分布均勻)。此外,如果兩種方式做一種結(jié)合也不失為一種可以嘗試的方向,魔法不一定要打敗魔法,兩種魔法的加成也可能創(chuàng)造神奇的世界。
4.對(duì)比學(xué)習(xí)和自然語(yǔ)言處理
自然語(yǔ)言處理(NLP)領(lǐng)域自監(jiān)督學(xué)習(xí)的成功,是對(duì)CV領(lǐng)域?qū)Ρ葘W(xué)習(xí)熱潮的引領(lǐng)。詞向量(Word2Vec)等方法的成功,在視覺(jué)領(lǐng)域能否成功復(fù)刻,驅(qū)動(dòng)著大家向自監(jiān)督視覺(jué)方向進(jìn)行探索。
二者也有不同之處,單詞或短語(yǔ)的數(shù)量是有窮的,而圖片的數(shù)量則是無(wú)窮的,語(yǔ)句可以通過(guò)掩膜(mask)等方式構(gòu)造出各種類(lèi)型的變化,圖片領(lǐng)域的變化如何高效地獲得樣本對(duì)并且有利于下游任務(wù)的效果提升都是要解決和優(yōu)化的問(wèn)題。也有各類(lèi)簡(jiǎn)單的應(yīng)用可以直接進(jìn)行遷移,比如ALBERT[5]提出了句子順序預(yù)測(cè)(SOP)任務(wù)可以直接遷移到視頻片段的順序預(yù)測(cè)上來(lái)。
5.對(duì)比學(xué)習(xí)和生成對(duì)抗網(wǎng)絡(luò)(GAN)
問(wèn):對(duì)比學(xué)習(xí)和GAN還能扯上關(guān)系?
答:您好,有的。
請(qǐng)看來(lái)自于videoMoCo[6]文章的網(wǎng)絡(luò)架構(gòu),其中,使用生成器作為相似樣本對(duì)的生成方式,判別器就是對(duì)比學(xué)習(xí)的框架??梢哉f(shuō),GAN中的判別器分辨真假的任務(wù)和對(duì)比學(xué)習(xí)中的判別正負(fù)樣本對(duì)的任務(wù)基本一致。
雖然videoMoCo在這里使用的生成器方式比較naive,但是給我們開(kāi)闊了巨大的想象空間。對(duì)比學(xué)習(xí)的難點(diǎn)之一就是如何構(gòu)造替代任務(wù),當(dāng)前各類(lèi)對(duì)比學(xué)習(xí)方法都是采用機(jī)械的數(shù)據(jù)增強(qiáng)來(lái)完成,如果使用網(wǎng)絡(luò)來(lái)完成正負(fù)樣本對(duì)的標(biāo)簽生成,是不是能促進(jìn)對(duì)比學(xué)習(xí)的效果提升,甚至擴(kuò)大對(duì)比學(xué)習(xí)的應(yīng)用范圍。萬(wàn)物皆可對(duì)比,只要能夠生成。
圖7videoMoCo算法網(wǎng)絡(luò)結(jié)構(gòu)
6.對(duì)比學(xué)習(xí)和度量學(xué)習(xí)、圖像檢索
通過(guò)與研究度量學(xué)習(xí)的同事交流,從相關(guān)網(wǎng)絡(luò)算法和損失函數(shù)來(lái)看,對(duì)比學(xué)習(xí)和度量學(xué)習(xí)關(guān)系密切,或者直接看成是同一概念的兩種稱(chēng)呼,目標(biāo)都是使學(xué)習(xí)到的特征相似對(duì)象間距離小,不相似對(duì)象間距離大?,F(xiàn)在對(duì)比學(xué)習(xí)領(lǐng)域大多使用InfoNCE損失函數(shù),而度量學(xué)習(xí)用的多種損失還鮮有涉及,將這些損失引用過(guò)來(lái)也是有可能進(jìn)一步優(yōu)化的方向。
圖像檢索是我們嘗試將對(duì)比學(xué)習(xí)作為實(shí)際應(yīng)用的重要領(lǐng)域,對(duì)比學(xué)習(xí)可以天然地得到圖像embeeding,并且也具有判別相似圖像或者非相似圖像的特點(diǎn),在某些檢索需求下,是完美的落地應(yīng)用。我們也嘗試過(guò)將對(duì)比學(xué)習(xí)模型和ArcFace訓(xùn)練的模型做對(duì)比,二者在embedding之后應(yīng)用于圖像檢索中,簡(jiǎn)單驗(yàn)證的差異并不大,在模型適應(yīng)性上,原始的數(shù)據(jù)增強(qiáng)多樣性帶來(lái)的影響更大。
三、對(duì)比自監(jiān)督學(xué)習(xí)的發(fā)展趨勢(shì)
1.化繁為簡(jiǎn)之路
大家在看之前的一些對(duì)比學(xué)習(xí)研究論文可能有一些疑惑,為什么stopgradient會(huì)起作用,momentum的作用具體是什么,好像并不是那么直觀。后續(xù)方法中,momentumupdate被舍棄,負(fù)樣本也可以舍棄,而B(niǎo)arlowTwins[7]則大開(kāi)大合,舍棄各類(lèi)奇技淫巧,將對(duì)比學(xué)習(xí)落實(shí)到最直觀的互相關(guān)矩陣上,簡(jiǎn)潔到令人抓狂。反觀各類(lèi)方法和損失的根本歸根結(jié)底就是互相關(guān)矩陣,互相關(guān)矩陣簡(jiǎn)潔的處理了樣本對(duì)的采樣方式,相比其他算法具有更高效的數(shù)據(jù)采樣方式和數(shù)據(jù)規(guī)模,之前的各類(lèi)方法就像在敵人的心臟周?chē)粩鄵]舞,而B(niǎo)arlowTwins就好像劍客直刺到敵人的心臟。當(dāng)然其采用的8192高維度的映射層也是值得討論的問(wèn)題。
負(fù)樣本的數(shù)量對(duì)于特征的學(xué)習(xí)是十分重要的已經(jīng)是對(duì)比學(xué)習(xí)中的共識(shí)。此方法以降低各特征維度的冗余為目標(biāo),換一個(gè)思考方式,咱們可以將互相關(guān)矩陣轉(zhuǎn)換為批次內(nèi)圖像的相似矩陣,以此獲得大規(guī)模的負(fù)樣本數(shù)據(jù)以提升模型效果,不再受限于硬件的限制也能完成一個(gè)高效的對(duì)比模型訓(xùn)練。當(dāng)然這種方法的先驗(yàn)假設(shè)就是,同一個(gè)批次內(nèi)的圖像,都是互為負(fù)樣本對(duì)的。
損失函數(shù)的使用也有回歸傳統(tǒng)的意味,以下分別是YannLeCun于2006年論文[13]中使用的損失函數(shù)和BarlowTwins的損失函數(shù),你瞅瞅這倆損失像不像twins呢?
2006年提出的對(duì)比損失
BarlowTwins使用的互相關(guān)矩陣對(duì)比損失
2.TransformerorMLP?
2021年4月初,陳鑫磊,何愷明等大神又發(fā)布了MoCoV3[8]版本的自監(jiān)督方法,將VisualTransformers(ViT)引入到對(duì)比學(xué)習(xí)中來(lái)。4月底,DINO[4]論文發(fā)布,指出了自監(jiān)督的ViT特征包含明顯的語(yǔ)義分割信息,在有監(jiān)督的ViT和卷積網(wǎng)絡(luò)中都沒(méi)有類(lèi)似的表現(xiàn)。
圖8DINO算法分割效果展示
在視覺(jué)領(lǐng)域,大有Transformer取代卷積網(wǎng)絡(luò)的趨勢(shì),好像一個(gè)初出茅廬的年輕人亂拳打死老師傅。并且已經(jīng)由簡(jiǎn)單的圖像分類(lèi)進(jìn)攻到了自監(jiān)督學(xué)習(xí)領(lǐng)域,還表現(xiàn)出了更厲害的特性,相信基于自監(jiān)督的Transformer還會(huì)有更多的研究出現(xiàn)。
或者涅槃重生的MLP[9]等方法也可能在自監(jiān)督領(lǐng)域大展身手,對(duì)應(yīng)[9]的標(biāo)題:MLP-Mixer:Anall-MLParchitectureforvision,自監(jiān)督下的MLP方法題目我都想好了:Anall-MLPArchitectureforself-supervisedLearning。
3.對(duì)比自監(jiān)督在視頻領(lǐng)域的應(yīng)用
對(duì)比學(xué)習(xí)方法在視頻領(lǐng)域的應(yīng)用也有很多,[10]將不同播放速度的影片輸入對(duì)比學(xué)習(xí)網(wǎng)絡(luò),訓(xùn)練模型用于播放速度判別;背景減除(BackgroundErasing[11])在視頻每一幀中疊加當(dāng)前視頻中的隨機(jī)幀,以達(dá)到減弱背景對(duì)于模型判斷的影響,提高行為識(shí)別的準(zhǔn)確性,網(wǎng)絡(luò)輸入為正常視頻和疊加幀后視頻;[12]對(duì)同一個(gè)視頻采樣不同的片段,將其看作是視頻的數(shù)據(jù)增強(qiáng)即正樣本對(duì)輸入到網(wǎng)絡(luò)中,獲得視頻特征的表示學(xué)習(xí)。
當(dāng)前在視頻領(lǐng)域的各種應(yīng)用中,替代任務(wù)和下游任務(wù)一致的現(xiàn)象比較嚴(yán)重,造成模型只能對(duì)特定任務(wù)具有識(shí)別效果。同時(shí),視頻的特征的表示學(xué)習(xí),照搬圖像方法的現(xiàn)象明顯,將2D卷積替換為3D卷積即可做遷移,相關(guān)研究還處于起步階段,個(gè)人認(rèn)為視頻序列的特征提取可以針對(duì)其時(shí)間維度的特殊性做一些專(zhuān)門(mén)的工作。
視頻表示學(xué)習(xí)的進(jìn)步,必將推動(dòng)視頻檢索領(lǐng)域的發(fā)展。在視頻檢索領(lǐng)域,可以通過(guò)自監(jiān)督學(xué)習(xí)的方式構(gòu)建檢索以視頻搜視頻的檢索方法,也可以做跨模態(tài)的視頻檢索,比如以文本搜視頻,以語(yǔ)音搜視頻等。反過(guò)來(lái)暢想,視頻也可以生成文本、視頻生成語(yǔ)音。
4.監(jiān)督的對(duì)比學(xué)習(xí)
本來(lái)在自監(jiān)督領(lǐng)域大放異彩的對(duì)比學(xué)習(xí),還可以應(yīng)用在監(jiān)督學(xué)習(xí)領(lǐng)域,論文[14]做到了這一點(diǎn)。自監(jiān)督領(lǐng)域中對(duì)比學(xué)習(xí)的依據(jù)是,兩張圖片是否同源,而和監(jiān)督學(xué)習(xí)的結(jié)合,變成了兩張圖片是否同類(lèi)。在使用監(jiān)督對(duì)比損失后,獲得了超過(guò)交叉熵的表現(xiàn)。
圖9自監(jiān)督對(duì)比和監(jiān)督對(duì)比
不過(guò),該方法的核心還是采用了對(duì)比學(xué)習(xí)的方式訓(xùn)練了提取embedding的網(wǎng)絡(luò),而后將特征提取網(wǎng)絡(luò)凍結(jié),訓(xùn)練了全連接的分類(lèi)網(wǎng)絡(luò)。從本質(zhì)上來(lái)講,與自監(jiān)督的網(wǎng)絡(luò)遷移到下游任務(wù)是一致的。關(guān)鍵在于替代任務(wù)的構(gòu)建,吸納了有監(jiān)督數(shù)據(jù)的信息。再次驗(yàn)證了自監(jiān)督學(xué)習(xí)的魔法光環(huán),也證明了對(duì)比損失相對(duì)于分類(lèi)交叉熵?fù)p失,在提取有效特征方面的優(yōu)秀能力。
四、一些思考
1.理論原理
盡管自監(jiān)督學(xué)習(xí)取得了很好的效果,但其背后的數(shù)學(xué)原理和理論基本并沒(méi)有特別扎實(shí),大多通過(guò)實(shí)驗(yàn)結(jié)果反推模型結(jié)構(gòu)和策略的效果,可能造成很多研究走了彎路,從理論基礎(chǔ)出發(fā),直達(dá)最終目標(biāo)的效果可能會(huì)更好。
2.替代任務(wù)的構(gòu)建
當(dāng)前替代任務(wù)的構(gòu)建特別是視頻方向,多與下游任務(wù)為主導(dǎo),沒(méi)有特定的范式或者規(guī)則。替代任務(wù)所能完成的任務(wù),就是自監(jiān)督模型能完成任務(wù)的邊界。替代任務(wù)的五花八門(mén),導(dǎo)致各類(lèi)任務(wù)的千差萬(wàn)別,沒(méi)有辦法比較性能優(yōu)劣,只能是單純的網(wǎng)絡(luò)在另一個(gè)任務(wù)上的應(yīng)用,當(dāng)前圖片領(lǐng)域多基于多種數(shù)據(jù)增強(qiáng)方法構(gòu)建替代任務(wù),而視頻領(lǐng)域也可以提出統(tǒng)一的構(gòu)建方式。
能夠通過(guò)“半自動(dòng)”方式做出來(lái)的替代任務(wù)少之又少,在各類(lèi)的圖像算法應(yīng)用中,可能是影響自監(jiān)督方法適應(yīng)性的絆腳石。
3.能否構(gòu)建直通下游任務(wù)的端到端學(xué)習(xí)
既然[4]中已經(jīng)發(fā)現(xiàn)自監(jiān)督中有明顯的語(yǔ)義分割特征,在對(duì)比模型后端加入分割分支網(wǎng)絡(luò)會(huì)不會(huì)對(duì)網(wǎng)絡(luò)學(xué)習(xí)有幫助,抑或是直接訓(xùn)練得到可使用的分割網(wǎng)絡(luò),都是值得研究的問(wèn)題。
4.除對(duì)比的其他形式構(gòu)建特征提取網(wǎng)絡(luò)
本質(zhì)上,對(duì)比網(wǎng)絡(luò)是除去常規(guī)網(wǎng)絡(luò)之外,訓(xùn)練得到特征表示的一種方式而已,與前文提到的自編碼器有異曲同工之妙。對(duì)比學(xué)習(xí)的成功在于,其訓(xùn)練得到的特征提取網(wǎng)絡(luò),在下游任務(wù)中表現(xiàn)優(yōu)異,也是所提特征有效的表現(xiàn)。由此我們可以得到啟發(fā),還有沒(méi)有其他的形式構(gòu)建訓(xùn)練網(wǎng)絡(luò),也能夠提取得到有效特征。相信新模式的提出肯定也會(huì)和對(duì)比學(xué)習(xí)一樣,引領(lǐng)一波研究浪潮。
5.廣闊天地,大有可為
自監(jiān)督學(xué)習(xí)還處于探索階段,有很多可以深入探究的部分,相信無(wú)論在學(xué)術(shù)界和工業(yè)界自監(jiān)督學(xué)習(xí)都會(huì)有廣泛的應(yīng)用。作為深度學(xué)習(xí)中的一種魔法,還需要更多的人來(lái)挖掘其潛能,創(chuàng)造更多的神跡。
總結(jié)
本文針對(duì)當(dāng)前熱門(mén)的自監(jiān)督學(xué)習(xí)領(lǐng)域在CV領(lǐng)域的研究,梳理了其與其他CV的相同和不同點(diǎn),以及幾個(gè)前沿研究點(diǎn)的探討。希望通過(guò)本文,大家對(duì)自監(jiān)督學(xué)習(xí)的有個(gè)更加明確的定位,如果對(duì)于您的研究和思路有些許幫助,將是作者的更大欣慰。
—————————————————————————————————
人民中科(濟(jì)南)智能技術(shù)有限公司是由人民網(wǎng)與中科院自動(dòng)化所共同建設(shè)的“智能技術(shù)引擎”和“人才創(chuàng)新平臺(tái)”,聚焦音視頻內(nèi)容理解技術(shù),圍繞“內(nèi)容理解+行業(yè)應(yīng)用”,提供多形態(tài)的內(nèi)容理解算法技術(shù)、軟件系統(tǒng)、硬件裝備等,向各行業(yè)輸出專(zhuān)業(yè)的AI技術(shù)解決方案。
免責(zé)聲明:以上內(nèi)容為本網(wǎng)站轉(zhuǎn)自其它媒體,相關(guān)信息僅為傳遞更多信息之目的,不代表本網(wǎng)觀點(diǎn),亦不代表本網(wǎng)站贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性。如稿件版權(quán)單位或個(gè)人不想在本網(wǎng)發(fā)布,可與本網(wǎng)聯(lián)系,本網(wǎng)視情況可立即將其撤除。