CLIP+增強(qiáng)版GLIDE密序。
譯者 |Ryan OConnor
校對(duì)丨王玥
撰稿 | 陳彩嫻
OpenAI的數(shù)學(xué)模型DALL-E 2于本月底正式發(fā)布,但一現(xiàn)身,便在影像聚合和影像處理應(yīng)用領(lǐng)域揚(yáng)起了捷伊龍卷風(fēng)。
只須要給到寥寥無幾幾句話文檔提示信息,DALL-E 2就能按文檔命令聚合嶄新影像,即使能將毫不相干的球體以貌似科學(xué)合理的語法形式女團(tuán)在一同。
比如說使用者輸出提示信息一杯湯是另兩個(gè)魔界的出口處后,DALL-E 2便聚合了下列的夢(mèng)幻相片。
DALL-E 2不但能按使用者命令聚合沒錯(cuò)夢(mèng)幻,卻又看著極為科學(xué)合理未明覺厲的相片。做為這款強(qiáng)悍的數(shù)學(xué)模型,現(xiàn)階段他們未知DALL-E 2還能:
聚合某一古典風(fēng)格的影像,好似出自于此種古典風(fēng)格的畫家之手,極為原汁原味!
保持一張相片顯著特征的情況下,聚合該相片的多種變體,每一種看起來都極為自然;
修改現(xiàn)有影像而不露一點(diǎn)痕跡,天衣無縫。
感覺有了DALL-E 2,表演藝術(shù)家都能下崗了。
DALL-E 2現(xiàn)階段曝光的功能令人瞠目結(jié)舌,不禁激起了眾多AI愛好者的討論,這樣兩個(gè)強(qiáng)悍數(shù)學(xué)模型,它的組織工作基本原理到底是什么?!
1
組織工作基本原理:簡單粗暴
"一只在吹噴火喇叭的柯基——DALL-E 2相片聚合流程解析 圖源:https://arxiv.org/abs/2204.06125揚(yáng)州電液推桿廠家
針對(duì)相片聚合這一功能來說,DALL-E 2的組織工作基本原理剖析出來貌似并不復(fù)雜:
首先,將文檔提示信息輸出文檔編碼器,該訓(xùn)練過的編碼器便將文檔提示信息映射到表示空間。
接下來,稱為先驗(yàn)的數(shù)學(xué)模型將文檔編碼映射到相應(yīng)的影像編碼,影像編碼捕獲文檔編碼中包含的提示信息的語法信息。
最后,影像解碼數(shù)學(xué)模型隨機(jī)聚合一幅從視覺上表現(xiàn)該語法信息的影像。
2
組織工作細(xì)節(jié):處處皆奧妙
可是以上步驟說起來簡單,分開看來卻是每一步都有很大難度,讓他們來模擬DALL-E 2的組織工作流程,看看究竟每一步都是怎么走通的。
他們的第一步是先看看DALL-E 2是怎么學(xué)習(xí)把文檔和視覺影像聯(lián)系起來的。
第一步 - 把文檔和視覺影像聯(lián)系起來
輸出泰迪熊在時(shí)代廣場滑滑板的文字提示信息后,DALL-E 2聚合了下圖:
圖源:https://www.assemblyai.com/blog/how-dall-e-2-actually-works/
DALL-E 2是怎么知道泰迪熊這個(gè)文檔概念在視覺空間里是什么樣子的?
其實(shí)DALL-E 2中的文檔語法和與其相對(duì)的視覺相片之間的聯(lián)系,是由另兩個(gè)OpenAI數(shù)學(xué)模型CLIP(C揚(yáng)州電液推桿廠家ontrastiveLanguage-ImagePre-training)學(xué)習(xí)的。
CLIP接受過數(shù)億張相片及其相關(guān)文字的訓(xùn)練,學(xué)習(xí)到了給定文檔片段與影像的關(guān)聯(lián)。
也就是說,CLIP并不是試圖預(yù)測給定影像的對(duì)應(yīng)文字說明,而是只學(xué)習(xí)任何給定文檔與影像之間的關(guān)聯(lián)。CLIP做的是對(duì)比性而非預(yù)測性的組織工作。
整個(gè)DALL-E 2數(shù)學(xué)模型依賴于CLIP從自然語言學(xué)習(xí)語法的能力,所以讓他們看看如何訓(xùn)練CLIP來理解其內(nèi)部組織工作。
CLIP訓(xùn)練
訓(xùn)練CLIP的基本原則非常簡單:
首先,所有影像及其相關(guān)文字說明都通過各自的編碼器,將所有對(duì)象映射到m維空間。
然后,計(jì)算每個(gè)(影像,文檔)對(duì)的cos值相似度。
訓(xùn)練目標(biāo)是使N對(duì)正確編碼的影像/標(biāo)題對(duì)之間的cos值相似度最大化,同時(shí)使N2 - N對(duì)錯(cuò)誤編碼的影像/標(biāo)題對(duì)之間的cos值相似度最小化。
訓(xùn)練過程如下圖所示:
CLIP對(duì)DALL-E 2的意義
CLIP幾乎就是DALL-E 2的心臟,因?yàn)镃LIP才是那個(gè)把自然語言片段與視覺概念在語法上進(jìn)行關(guān)聯(lián)的存在,這對(duì)于聚合與文檔對(duì)應(yīng)的影像來說至關(guān)重要。
第二步 - 從視覺語法聚合影像
訓(xùn)練結(jié)束后,CLIP數(shù)學(xué)模型被凍結(jié),DALL-E 2進(jìn)入下兩個(gè)任務(wù)——學(xué)習(xí)怎么把CLIP剛剛學(xué)習(xí)到的影像編碼映射反轉(zhuǎn)。CLIP學(xué)習(xí)了兩個(gè)表示空間,在這個(gè)表示空間當(dāng)中很容易確定文檔編碼和視覺編碼的相關(guān)性, 他們須要學(xué)會(huì)利用表示空間來完成反轉(zhuǎn)影像編碼映射這個(gè)任務(wù)。揚(yáng)州電液推桿廠家
而OpenAI使用了它之前的另兩個(gè)數(shù)學(xué)模型GLIDE的增強(qiáng)版本來執(zhí)行影像聚合。GLIDE數(shù)學(xué)模型學(xué)習(xí)反轉(zhuǎn)影像編碼過程,以便隨機(jī)解碼CLIP影像嵌入。
一只吹噴火喇叭的柯基一圖經(jīng)過CLIP的相片編碼器,GLIDE利用這種編碼聚合保持原影像顯著特征的新影像。圖源:https://arxiv.org/abs/2204.06125
如上圖所示,須要注意的是,他們的目標(biāo)不是構(gòu)建兩個(gè)自編碼器并在給定的嵌入條件下精確地重建影像,而是在給定的嵌入條件下聚合兩個(gè)保持原始影像顯著特征的影像。為了進(jìn)行影像聚合,GLIDE使用了擴(kuò)散數(shù)學(xué)模型(Diffusion Model)。
何為擴(kuò)散數(shù)學(xué)模型?
擴(kuò)散數(shù)學(xué)模型是一項(xiàng)受熱力學(xué)啟發(fā)的發(fā)明,近年來越來越受到學(xué)界歡迎。擴(kuò)散數(shù)學(xué)模型學(xué)習(xí)通過逆轉(zhuǎn)兩個(gè)逐漸噪聲過程來聚合數(shù)據(jù)。如下圖所示,噪聲處理過程被視為兩個(gè)參數(shù)化的馬爾可夫鏈,它逐漸向影像添加噪聲使其被破壞,最終(漸近地)導(dǎo)致純高斯噪聲。擴(kuò)散數(shù)學(xué)模型學(xué)習(xí)沿著這條鏈向后走去,在一系列步驟中逐漸去除噪聲,以逆轉(zhuǎn)這一過程。揚(yáng)州電液推桿廠家
如果訓(xùn)練后將擴(kuò)散數(shù)學(xué)模型切成兩半,則能通過隨機(jī)采樣高斯噪聲來聚合影像,然后對(duì)其去噪,聚合逼真的影像。大家可能會(huì)意識(shí)到這種技術(shù)很容易令人聯(lián)想到用自編碼器聚合數(shù)據(jù),實(shí)際上擴(kuò)散數(shù)學(xué)模型和自編碼器確實(shí)是相關(guān)的。
GLIDE的訓(xùn)練
雖然GLIDE不是第兩個(gè)擴(kuò)散數(shù)學(xué)模型,但其重要貢獻(xiàn)在于對(duì)數(shù)學(xué)模型進(jìn)行了修改,使其能夠聚合有文檔條件的影像。
GLIDE擴(kuò)展了擴(kuò)散數(shù)學(xué)模型的核心概念,通過增加額外的文檔信息來增強(qiáng)訓(xùn)練過程,最終聚合文檔條件影像。讓他們來看看GLIDE的訓(xùn)練流程:
下面是一些使用GLIDE聚合的影像示例。譯者指出,就照片真實(shí)感和文檔相似度兩方面而言,GLIDE的表現(xiàn)優(yōu)于DALL-E(1)。
DALL-E 2使用了一種改進(jìn)的GLIDE數(shù)學(xué)模型,這種數(shù)學(xué)模型以兩種形式使用投影的CLIP文檔嵌入。第一種方法是將它們添加到GLIDE現(xiàn)有的時(shí)間步嵌入中,第二種方法是創(chuàng)建四個(gè)額外的上下文標(biāo)記,這些標(biāo)記連接到GLIDE文檔編碼器的輸出序列。
GLIDE對(duì)于DALL-E 2的意義
GLIDE對(duì)于DALL-E 2亦很重要,因?yàn)镚LIDE能夠?qū)⒆约喊凑瘴臋n聚合逼真影像的功能移植到DALL-E 2上去,而無需在表示空間中設(shè)置影像編碼。因此,DALL-E 2使用的增強(qiáng)版本GLIDE學(xué)習(xí)的是根據(jù)CLIP影像編碼聚合語法一致的影像。揚(yáng)州電液推桿廠家
第三步 - 從文檔語法到相應(yīng)的視覺語法的映射
到了這步,他們?nèi)绾螌⑽淖痔崾拘畔⒅械奈臋n條件信息注入到影像聚合過程中?
回想一下,除了影像編碼器,CLIP還學(xué)習(xí)了文檔編碼器。DALL-E 2使用了另一種數(shù)學(xué)模型,譯者稱之為先驗(yàn)數(shù)學(xué)模型,以便從影像標(biāo)題的文檔編碼映射到對(duì)應(yīng)影像的影像編碼。DALL-E 2的譯者用自回歸數(shù)學(xué)模型和擴(kuò)散數(shù)學(xué)模型進(jìn)行了實(shí)驗(yàn),但最終發(fā)現(xiàn)它們的性能相差無幾??紤]到擴(kuò)散數(shù)學(xué)模型的計(jì)算效率更高,因此選擇擴(kuò)散數(shù)學(xué)模型做為 DALL-E 2的先驗(yàn)。
先驗(yàn)訓(xùn)練
DALL-E 2中擴(kuò)散先驗(yàn)的運(yùn)行順序是:
標(biāo)記化的文檔;
這些標(biāo)記的CLIP文檔編碼;
擴(kuò)散時(shí)間步的編碼;
噪聲影像通過CLIP影像編碼器;
Transformer輸出的最終編碼用于預(yù)測無噪聲CLIP影像編碼。
第四步 - 萬事俱備
現(xiàn)在,他們已經(jīng)擁有了DALL-E 2的所有零件,萬事俱備,只須要將它們女團(tuán)在一同就能獲得他們想要的結(jié)果——聚合與文檔命令相對(duì)應(yīng)的影像:
首先,CLIP文檔編碼器將影像描述映射到表示空間;
然后擴(kuò)散先驗(yàn)從CLIP文檔編碼映射到相應(yīng)的CLIP影像編碼;揚(yáng)州電液推桿廠家
最后,增強(qiáng)版的GLIDE聚合數(shù)學(xué)模型通過反向擴(kuò)散從表示空間映射到影像空間,聚合眾多可能影像中的兩個(gè)。
以上就是DALL-E 2的組織工作基本原理啦~
希望大家能注意到DALL-E 2開發(fā)的3個(gè)關(guān)鍵要點(diǎn):
DALL-E 2體現(xiàn)了擴(kuò)散數(shù)學(xué)模型在深度學(xué)習(xí)中的能力,DALL-E 2中的先驗(yàn)子數(shù)學(xué)模型和影像聚合子數(shù)學(xué)模型都是基于擴(kuò)散數(shù)學(xué)模型的。雖然擴(kuò)散數(shù)學(xué)模型只是在過去幾年才流行起來,但其已經(jīng)證明了自己的價(jià)值,他們能期待在未來的各種研究中看到更多的擴(kuò)散數(shù)學(xué)模型~
第二點(diǎn)是他們應(yīng)看到使用自然語言做為一種手段來訓(xùn)練最先進(jìn)的深度學(xué)習(xí)數(shù)學(xué)模型的必要性與強(qiáng)悍力量。DALL-E 2的強(qiáng)勁功能究其根本還是來自于互聯(lián)網(wǎng)上提供的絕對(duì)海量的自然語言&影像數(shù)據(jù)對(duì)。使用這些數(shù)據(jù)不但消除了人工標(biāo)記數(shù)據(jù)集這一費(fèi)力的過程所帶來的發(fā)展瓶頸;這些數(shù)據(jù)的嘈雜、未經(jīng)整理的性質(zhì)也更加反映出深度學(xué)習(xí)數(shù)學(xué)模型必須對(duì)真實(shí)世界的數(shù)據(jù)具有魯棒性。
最后,DALL-E 2重申了Transformer做為基于網(wǎng)絡(luò)規(guī)模數(shù)據(jù)集訓(xùn)練的數(shù)學(xué)模型中的最高地位,因?yàn)門ransformer的并行性令人印象極為深刻。
聯(lián)系電話
微信掃一掃