新聞資訊

服務(wù)熱線18952584368

公司新聞

電液推桿圖片DALL-E2的工作原理

作者：147小編發(fā)布時(shí)間：2022-05-11 11:17:35點(diǎn)擊：263

CLIP+增強(qiáng)版GLIDE密序。

譯者 |Ryan OConnor

校對(duì)丨王玥

撰稿 | 陳彩嫻

OpenAI的數(shù)學(xué)模型DALL-E 2于本月底正式發(fā)布，但一現(xiàn)身，便在影像聚合和影像處理應(yīng)用領(lǐng)域揚(yáng)起了捷伊龍卷風(fēng)。

只須要給到寥寥無幾幾句話文檔提示信息，DALL-E 2就能按文檔命令聚合嶄新影像，即使能將毫不相干的球體以貌似科學(xué)合理的語法形式女團(tuán)在一同。

比如說使用者輸出提示信息一杯湯是另兩個(gè)魔界的出口處后，DALL-E 2便聚合了下列的夢(mèng)幻相片。

一杯湯是另兩個(gè)魔界的出口處圖源：https://openai.com/dall-e-2/

DALL-E 2不但能按使用者命令聚合沒錯(cuò)夢(mèng)幻，卻又看著極為科學(xué)合理未明覺厲的相片。做為這款強(qiáng)悍的數(shù)學(xué)模型，現(xiàn)階段他們未知DALL-E 2還能：

聚合某一古典風(fēng)格的影像，好似出自于此種古典風(fēng)格的畫家之手，極為原汁原味！

保持一張相片顯著特征的情況下，聚合該相片的多種變體，每一種看起來都極為自然；

修改現(xiàn)有影像而不露一點(diǎn)痕跡，天衣無縫。

感覺有了DALL-E 2，表演藝術(shù)家都能下崗了。

DALL-E 2現(xiàn)階段曝光的功能令人瞠目結(jié)舌，不禁激起了眾多AI愛好者的討論，這樣兩個(gè)強(qiáng)悍數(shù)學(xué)模型，它的組織工作基本原理到底是什么？！

組織工作基本原理：簡單粗暴

"一只在吹噴火喇叭的柯基——DALL-E 2相片聚合流程解析圖源：https://arxiv.org/abs/2204.06125揚(yáng)州電液推桿廠家

針對(duì)相片聚合這一功能來說，DALL-E 2的組織工作基本原理剖析出來貌似并不復(fù)雜：

首先，將文檔提示信息輸出文檔編碼器，該訓(xùn)練過的編碼器便將文檔提示信息映射到表示空間。

接下來，稱為先驗(yàn)的數(shù)學(xué)模型將文檔編碼映射到相應(yīng)的影像編碼，影像編碼捕獲文檔編碼中包含的提示信息的語法信息。

最后，影像解碼數(shù)學(xué)模型隨機(jī)聚合一幅從視覺上表現(xiàn)該語法信息的影像。

組織工作細(xì)節(jié)：處處皆奧妙

可是以上步驟說起來簡單，分開看來卻是每一步都有很大難度，讓他們來模擬DALL-E 2的組織工作流程，看看究竟每一步都是怎么走通的。

他們的第一步是先看看DALL-E 2是怎么學(xué)習(xí)把文檔和視覺影像聯(lián)系起來的。

第一步 - 把文檔和視覺影像聯(lián)系起來

輸出泰迪熊在時(shí)代廣場滑滑板的文字提示信息后，DALL-E 2聚合了下圖：

圖源：https://www.assemblyai.com/blog/how-dall-e-2-actually-works/

DALL-E 2是怎么知道泰迪熊這個(gè)文檔概念在視覺空間里是什么樣子的？

其實(shí)DALL-E 2中的文檔語法和與其相對(duì)的視覺相片之間的聯(lián)系，是由另兩個(gè)OpenAI數(shù)學(xué)模型CLIP（C揚(yáng)州電液推桿廠家ontrastiveLanguage-ImagePre-training）學(xué)習(xí)的。

CLIP接受過數(shù)億張相片及其相關(guān)文字的訓(xùn)練，學(xué)習(xí)到了給定文檔片段與影像的關(guān)聯(lián)。

也就是說，CLIP并不是試圖預(yù)測給定影像的對(duì)應(yīng)文字說明，而是只學(xué)習(xí)任何給定文檔與影像之間的關(guān)聯(lián)。CLIP做的是對(duì)比性而非預(yù)測性的組織工作。

整個(gè)DALL-E 2數(shù)學(xué)模型依賴于CLIP從自然語言學(xué)習(xí)語法的能力，所以讓他們看看如何訓(xùn)練CLIP來理解其內(nèi)部組織工作。

CLIP訓(xùn)練

訓(xùn)練CLIP的基本原則非常簡單:

首先，所有影像及其相關(guān)文字說明都通過各自的編碼器，將所有對(duì)象映射到m維空間。

然后，計(jì)算每個(gè)(影像，文檔)對(duì)的cos值相似度。

訓(xùn)練目標(biāo)是使N對(duì)正確編碼的影像/標(biāo)題對(duì)之間的cos值相似度最大化，同時(shí)使N2 - N對(duì)錯(cuò)誤編碼的影像/標(biāo)題對(duì)之間的cos值相似度最小化。

訓(xùn)練過程如下圖所示:

CLIP訓(xùn)練流程

CLIP對(duì)DALL-E 2的意義

CLIP幾乎就是DALL-E 2的心臟，因?yàn)镃LIP才是那個(gè)把自然語言片段與視覺概念在語法上進(jìn)行關(guān)聯(lián)的存在，這對(duì)于聚合與文檔對(duì)應(yīng)的影像來說至關(guān)重要。

第二步 - 從視覺語法聚合影像

訓(xùn)練結(jié)束后，CLIP數(shù)學(xué)模型被凍結(jié)，DALL-E 2進(jìn)入下兩個(gè)任務(wù)——學(xué)習(xí)怎么把CLIP剛剛學(xué)習(xí)到的影像編碼映射反轉(zhuǎn)。CLIP學(xué)習(xí)了兩個(gè)表示空間，在這個(gè)表示空間當(dāng)中很容易確定文檔編碼和視覺編碼的相關(guān)性，他們須要學(xué)會(huì)利用表示空間來完成反轉(zhuǎn)影像編碼映射這個(gè)任務(wù)。揚(yáng)州電液推桿廠家

而OpenAI使用了它之前的另兩個(gè)數(shù)學(xué)模型GLIDE的增強(qiáng)版本來執(zhí)行影像聚合。GLIDE數(shù)學(xué)模型學(xué)習(xí)反轉(zhuǎn)影像編碼過程，以便隨機(jī)解碼CLIP影像嵌入。

一只吹噴火喇叭的柯基一圖經(jīng)過CLIP的相片編碼器，GLIDE利用這種編碼聚合保持原影像顯著特征的新影像。圖源：https://arxiv.org/abs/2204.06125

如上圖所示，須要注意的是，他們的目標(biāo)不是構(gòu)建兩個(gè)自編碼器并在給定的嵌入條件下精確地重建影像，而是在給定的嵌入條件下聚合兩個(gè)保持原始影像顯著特征的影像。為了進(jìn)行影像聚合，GLIDE使用了擴(kuò)散數(shù)學(xué)模型（Diffusion Model）。

何為擴(kuò)散數(shù)學(xué)模型？

擴(kuò)散數(shù)學(xué)模型是一項(xiàng)受熱力學(xué)啟發(fā)的發(fā)明，近年來越來越受到學(xué)界歡迎。擴(kuò)散數(shù)學(xué)模型學(xué)習(xí)通過逆轉(zhuǎn)兩個(gè)逐漸噪聲過程來聚合數(shù)據(jù)。如下圖所示，噪聲處理過程被視為兩個(gè)參數(shù)化的馬爾可夫鏈，它逐漸向影像添加噪聲使其被破壞，最終（漸近地）導(dǎo)致純高斯噪聲。擴(kuò)散數(shù)學(xué)模型學(xué)習(xí)沿著這條鏈向后走去，在一系列步驟中逐漸去除噪聲，以逆轉(zhuǎn)這一過程。揚(yáng)州電液推桿廠家

擴(kuò)散數(shù)學(xué)模型示意圖圖源：https://arxiv.org/pdf/2006.11239.pdf

如果訓(xùn)練后將擴(kuò)散數(shù)學(xué)模型切成兩半，則能通過隨機(jī)采樣高斯噪聲來聚合影像，然后對(duì)其去噪，聚合逼真的影像。大家可能會(huì)意識(shí)到這種技術(shù)很容易令人聯(lián)想到用自編碼器聚合數(shù)據(jù)，實(shí)際上擴(kuò)散數(shù)學(xué)模型和自編碼器確實(shí)是相關(guān)的。

GLIDE的訓(xùn)練

雖然GLIDE不是第兩個(gè)擴(kuò)散數(shù)學(xué)模型，但其重要貢獻(xiàn)在于對(duì)數(shù)學(xué)模型進(jìn)行了修改，使其能夠聚合有文檔條件的影像。

GLIDE擴(kuò)展了擴(kuò)散數(shù)學(xué)模型的核心概念，通過增加額外的文檔信息來增強(qiáng)訓(xùn)練過程，最終聚合文檔條件影像。讓他們來看看GLIDE的訓(xùn)練流程：

下面是一些使用GLIDE聚合的影像示例。譯者指出，就照片真實(shí)感和文檔相似度兩方面而言，GLIDE的表現(xiàn)優(yōu)于DALL-E(1)。

由GLIDE聚合的影像示例圖源https://arxiv.org/pdf/2112.10741.pdf

DALL-E 2使用了一種改進(jìn)的GLIDE數(shù)學(xué)模型，這種數(shù)學(xué)模型以兩種形式使用投影的CLIP文檔嵌入。第一種方法是將它們添加到GLIDE現(xiàn)有的時(shí)間步嵌入中，第二種方法是創(chuàng)建四個(gè)額外的上下文標(biāo)記，這些標(biāo)記連接到GLIDE文檔編碼器的輸出序列。

GLIDE對(duì)于DALL-E 2的意義

GLIDE對(duì)于DALL-E 2亦很重要，因?yàn)镚LIDE能夠?qū)⒆约喊凑瘴臋n聚合逼真影像的功能移植到DALL-E 2上去，而無需在表示空間中設(shè)置影像編碼。因此，DALL-E 2使用的增強(qiáng)版本GLIDE學(xué)習(xí)的是根據(jù)CLIP影像編碼聚合語法一致的影像。揚(yáng)州電液推桿廠家

第三步 - 從文檔語法到相應(yīng)的視覺語法的映射

到了這步，他們?nèi)绾螌⑽淖痔崾拘畔⒅械奈臋n條件信息注入到影像聚合過程中?

回想一下，除了影像編碼器，CLIP還學(xué)習(xí)了文檔編碼器。DALL-E 2使用了另一種數(shù)學(xué)模型，譯者稱之為先驗(yàn)數(shù)學(xué)模型，以便從影像標(biāo)題的文檔編碼映射到對(duì)應(yīng)影像的影像編碼。DALL-E 2的譯者用自回歸數(shù)學(xué)模型和擴(kuò)散數(shù)學(xué)模型進(jìn)行了實(shí)驗(yàn)，但最終發(fā)現(xiàn)它們的性能相差無幾?？紤]到擴(kuò)散數(shù)學(xué)模型的計(jì)算效率更高，因此選擇擴(kuò)散數(shù)學(xué)模型做為 DALL-E 2的先驗(yàn)。

從文檔編碼到相應(yīng)影像編碼的先驗(yàn)映射修改自圖源：https://arxiv.org/abs/2204.06125

先驗(yàn)訓(xùn)練

DALL-E 2中擴(kuò)散先驗(yàn)的運(yùn)行順序是：

標(biāo)記化的文檔；

這些標(biāo)記的CLIP文檔編碼；

擴(kuò)散時(shí)間步的編碼；

噪聲影像通過CLIP影像編碼器；

Transformer輸出的最終編碼用于預(yù)測無噪聲CLIP影像編碼。

第四步 - 萬事俱備

現(xiàn)在，他們已經(jīng)擁有了DALL-E 2的所有零件，萬事俱備，只須要將它們女團(tuán)在一同就能獲得他們想要的結(jié)果——聚合與文檔命令相對(duì)應(yīng)的影像:

首先，CLIP文檔編碼器將影像描述映射到表示空間；

然后擴(kuò)散先驗(yàn)從CLIP文檔編碼映射到相應(yīng)的CLIP影像編碼；揚(yáng)州電液推桿廠家

最后，增強(qiáng)版的GLIDE聚合數(shù)學(xué)模型通過反向擴(kuò)散從表示空間映射到影像空間，聚合眾多可能影像中的兩個(gè)。

DALL-E 2影像聚合流程的高級(jí)概述修改自圖源：https://arxiv.org/abs/2204.06125

以上就是DALL-E 2的組織工作基本原理啦~

希望大家能注意到DALL-E 2開發(fā)的3個(gè)關(guān)鍵要點(diǎn)：

DALL-E 2體現(xiàn)了擴(kuò)散數(shù)學(xué)模型在深度學(xué)習(xí)中的能力，DALL-E 2中的先驗(yàn)子數(shù)學(xué)模型和影像聚合子數(shù)學(xué)模型都是基于擴(kuò)散數(shù)學(xué)模型的。雖然擴(kuò)散數(shù)學(xué)模型只是在過去幾年才流行起來，但其已經(jīng)證明了自己的價(jià)值，他們能期待在未來的各種研究中看到更多的擴(kuò)散數(shù)學(xué)模型~

第二點(diǎn)是他們應(yīng)看到使用自然語言做為一種手段來訓(xùn)練最先進(jìn)的深度學(xué)習(xí)數(shù)學(xué)模型的必要性與強(qiáng)悍力量。DALL-E 2的強(qiáng)勁功能究其根本還是來自于互聯(lián)網(wǎng)上提供的絕對(duì)海量的自然語言&影像數(shù)據(jù)對(duì)。使用這些數(shù)據(jù)不但消除了人工標(biāo)記數(shù)據(jù)集這一費(fèi)力的過程所帶來的發(fā)展瓶頸；這些數(shù)據(jù)的嘈雜、未經(jīng)整理的性質(zhì)也更加反映出深度學(xué)習(xí)數(shù)學(xué)模型必須對(duì)真實(shí)世界的數(shù)據(jù)具有魯棒性。

最后，DALL-E 2重申了Transformer做為基于網(wǎng)絡(luò)規(guī)模數(shù)據(jù)集訓(xùn)練的數(shù)學(xué)模型中的最高地位，因?yàn)門ransformer的并行性令人印象極為深刻。

相關(guān)標(biāo)簽：

上一篇：電液推桿安裝電液比例換向閥的發(fā)展概況下一篇：電液推桿圖片解析電壓力鍋的工作原理選購特

相關(guān)產(chǎn)品