亚洲欧美国产日韩制服bt_亚洲国产成人av一级毛片_亚洲高清在线观看无码_日韩欧美在线综合网片源丰富、内容全面_特黄特色一级aa毛片免费观看_播播影院 私人影院_一级毛片点击进入_青青草原国产在线_日韩精品视频第10页_18禁亚洲深夜福利人口

歡迎進(jìn)入電液推桿專業(yè)生產(chǎn)廠家揚(yáng)州富佳裕機(jī)械有限公司網(wǎng)站!
新聞資訊

服務(wù)熱線18952584368

電液推桿圖片DALL-E2的工作原理

作者:147小編 發(fā)布時(shí)間:2022-05-11 11:17:35點(diǎn)擊:263

CLIP+增強(qiáng)版GLIDE密序。

譯者 |Ryan OConnor

校對(duì)丨王玥

撰稿 | 陳彩嫻

OpenAI的數(shù)學(xué)模型DALL-E 2于本月底正式發(fā)布,但一現(xiàn)身,便在影像聚合和影像處理應(yīng)用領(lǐng)域揚(yáng)起了捷伊龍卷風(fēng)。

只須要給到寥寥無幾幾句話文檔提示信息,DALL-E 2就能按文檔命令聚合嶄新影像,即使能將毫不相干的球體以貌似科學(xué)合理的語法形式女團(tuán)在一同。

比如說使用者輸出提示信息一杯湯是另兩個(gè)魔界的出口處后,DALL-E 2便聚合了下列的夢(mèng)幻相片。

一杯湯是另兩個(gè)魔界的出口處 圖源:https://openai.com/dall-e-2/

DALL-E 2不但能按使用者命令聚合沒錯(cuò)夢(mèng)幻,卻又看著極為科學(xué)合理未明覺厲的相片。做為這款強(qiáng)悍的數(shù)學(xué)模型,現(xiàn)階段他們未知DALL-E 2還能:

聚合某一古典風(fēng)格的影像,好似出自于此種古典風(fēng)格的畫家之手,極為原汁原味!

保持一張相片顯著特征的情況下,聚合該相片的多種變體,每一種看起來都極為自然;

修改現(xiàn)有影像而不露一點(diǎn)痕跡,天衣無縫。

感覺有了DALL-E 2,表演藝術(shù)家都能下崗了。

DALL-E 2現(xiàn)階段曝光的功能令人瞠目結(jié)舌,不禁激起了眾多AI愛好者的討論,這樣兩個(gè)強(qiáng)悍數(shù)學(xué)模型,它的組織工作基本原理到底是什么?!

1

組織工作基本原理:簡單粗暴

"一只在吹噴火喇叭的柯基——DALL-E 2相片聚合流程解析 圖源:https://arxiv.org/abs/2204.06125揚(yáng)州電液推桿廠家

針對(duì)相片聚合這一功能來說,DALL-E 2的組織工作基本原理剖析出來貌似并不復(fù)雜:

首先,將文檔提示信息輸出文檔編碼器,該訓(xùn)練過的編碼器便將文檔提示信息映射到表示空間。

接下來,稱為先驗(yàn)的數(shù)學(xué)模型將文檔編碼映射到相應(yīng)的影像編碼,影像編碼捕獲文檔編碼中包含的提示信息的語法信息。

最后,影像解碼數(shù)學(xué)模型隨機(jī)聚合一幅從視覺上表現(xiàn)該語法信息的影像。

2

組織工作細(xì)節(jié):處處皆奧妙

可是以上步驟說起來簡單,分開看來卻是每一步都有很大難度,讓他們來模擬DALL-E 2的組織工作流程,看看究竟每一步都是怎么走通的。

他們的第一步是先看看DALL-E 2是怎么學(xué)習(xí)把文檔和視覺影像聯(lián)系起來的。

第一步 - 把文檔和視覺影像聯(lián)系起來

輸出泰迪熊在時(shí)代廣場滑滑板的文字提示信息后,DALL-E 2聚合了下圖:

圖源:https://www.assemblyai.com/blog/how-dall-e-2-actually-works/

DALL-E 2是怎么知道泰迪熊這個(gè)文檔概念在視覺空間里是什么樣子的?

其實(shí)DALL-E 2中的文檔語法和與其相對(duì)的視覺相片之間的聯(lián)系,是由另兩個(gè)OpenAI數(shù)學(xué)模型CLIP(C揚(yáng)州電液推桿廠家ontrastiveLanguage-ImagePre-training)學(xué)習(xí)的。

CLIP接受過數(shù)億張相片及其相關(guān)文字的訓(xùn)練,學(xué)習(xí)到了給定文檔片段與影像的關(guān)聯(lián)。

也就是說,CLIP并不是試圖預(yù)測給定影像的對(duì)應(yīng)文字說明,而是只學(xué)習(xí)任何給定文檔與影像之間的關(guān)聯(lián)。CLIP做的是對(duì)比性而非預(yù)測性的組織工作。

整個(gè)DALL-E 2數(shù)學(xué)模型依賴于CLIP從自然語言學(xué)習(xí)語法的能力,所以讓他們看看如何訓(xùn)練CLIP來理解其內(nèi)部組織工作。

CLIP訓(xùn)練

訓(xùn)練CLIP的基本原則非常簡單:

首先,所有影像及其相關(guān)文字說明都通過各自的編碼器,將所有對(duì)象映射到m維空間。

然后,計(jì)算每個(gè)(影像,文檔)對(duì)的cos值相似度。

訓(xùn)練目標(biāo)是使N對(duì)正確編碼的影像/標(biāo)題對(duì)之間的cos值相似度最大化,同時(shí)使N2 - N對(duì)錯(cuò)誤編碼的影像/標(biāo)題對(duì)之間的cos值相似度最小化。

訓(xùn)練過程如下圖所示:

CLIP訓(xùn)練流程

CLIP對(duì)DALL-E 2的意義

CLIP幾乎就是DALL-E 2的心臟,因?yàn)镃LIP才是那個(gè)把自然語言片段與視覺概念在語法上進(jìn)行關(guān)聯(lián)的存在,這對(duì)于聚合與文檔對(duì)應(yīng)的影像來說至關(guān)重要。

第二步 - 從視覺語法聚合影像

訓(xùn)練結(jié)束后,CLIP數(shù)學(xué)模型被凍結(jié),DALL-E 2進(jìn)入下兩個(gè)任務(wù)——學(xué)習(xí)怎么把CLIP剛剛學(xué)習(xí)到的影像編碼映射反轉(zhuǎn)。CLIP學(xué)習(xí)了兩個(gè)表示空間,在這個(gè)表示空間當(dāng)中很容易確定文檔編碼和視覺編碼的相關(guān)性, 他們須要學(xué)會(huì)利用表示空間來完成反轉(zhuǎn)影像編碼映射這個(gè)任務(wù)。揚(yáng)州電液推桿廠家

而OpenAI使用了它之前的另兩個(gè)數(shù)學(xué)模型GLIDE的增強(qiáng)版本來執(zhí)行影像聚合。GLIDE數(shù)學(xué)模型學(xué)習(xí)反轉(zhuǎn)影像編碼過程,以便隨機(jī)解碼CLIP影像嵌入。

一只吹噴火喇叭的柯基一圖經(jīng)過CLIP的相片編碼器,GLIDE利用這種編碼聚合保持原影像顯著特征的新影像。圖源:https://arxiv.org/abs/2204.06125

如上圖所示,須要注意的是,他們的目標(biāo)不是構(gòu)建兩個(gè)自編碼器并在給定的嵌入條件下精確地重建影像,而是在給定的嵌入條件下聚合兩個(gè)保持原始影像顯著特征的影像。為了進(jìn)行影像聚合,GLIDE使用了擴(kuò)散數(shù)學(xué)模型(Diffusion Model)。

何為擴(kuò)散數(shù)學(xué)模型?

擴(kuò)散數(shù)學(xué)模型是一項(xiàng)受熱力學(xué)啟發(fā)的發(fā)明,近年來越來越受到學(xué)界歡迎。擴(kuò)散數(shù)學(xué)模型學(xué)習(xí)通過逆轉(zhuǎn)兩個(gè)逐漸噪聲過程來聚合數(shù)據(jù)。如下圖所示,噪聲處理過程被視為兩個(gè)參數(shù)化的馬爾可夫鏈,它逐漸向影像添加噪聲使其被破壞,最終(漸近地)導(dǎo)致純高斯噪聲。擴(kuò)散數(shù)學(xué)模型學(xué)習(xí)沿著這條鏈向后走去,在一系列步驟中逐漸去除噪聲,以逆轉(zhuǎn)這一過程。揚(yáng)州電液推桿廠家

擴(kuò)散數(shù)學(xué)模型示意圖 圖源:https://arxiv.org/pdf/2006.11239.pdf

如果訓(xùn)練后將擴(kuò)散數(shù)學(xué)模型切成兩半,則能通過隨機(jī)采樣高斯噪聲來聚合影像,然后對(duì)其去噪,聚合逼真的影像。大家可能會(huì)意識(shí)到這種技術(shù)很容易令人聯(lián)想到用自編碼器聚合數(shù)據(jù),實(shí)際上擴(kuò)散數(shù)學(xué)模型和自編碼器確實(shí)是相關(guān)的。

GLIDE的訓(xùn)練

雖然GLIDE不是第兩個(gè)擴(kuò)散數(shù)學(xué)模型,但其重要貢獻(xiàn)在于對(duì)數(shù)學(xué)模型進(jìn)行了修改,使其能夠聚合有文檔條件的影像。

GLIDE擴(kuò)展了擴(kuò)散數(shù)學(xué)模型的核心概念,通過增加額外的文檔信息來增強(qiáng)訓(xùn)練過程,最終聚合文檔條件影像。讓他們來看看GLIDE的訓(xùn)練流程:

下面是一些使用GLIDE聚合的影像示例。譯者指出,就照片真實(shí)感和文檔相似度兩方面而言,GLIDE的表現(xiàn)優(yōu)于DALL-E(1)。

由GLIDE聚合的影像示例 圖源https://arxiv.org/pdf/2112.10741.pdf

DALL-E 2使用了一種改進(jìn)的GLIDE數(shù)學(xué)模型,這種數(shù)學(xué)模型以兩種形式使用投影的CLIP文檔嵌入。第一種方法是將它們添加到GLIDE現(xiàn)有的時(shí)間步嵌入中,第二種方法是創(chuàng)建四個(gè)額外的上下文標(biāo)記,這些標(biāo)記連接到GLIDE文檔編碼器的輸出序列。

GLIDE對(duì)于DALL-E 2的意義

GLIDE對(duì)于DALL-E 2亦很重要,因?yàn)镚LIDE能夠?qū)⒆约喊凑瘴臋n聚合逼真影像的功能移植到DALL-E 2上去,而無需在表示空間中設(shè)置影像編碼。因此,DALL-E 2使用的增強(qiáng)版本GLIDE學(xué)習(xí)的是根據(jù)CLIP影像編碼聚合語法一致的影像。揚(yáng)州電液推桿廠家

第三步 -  從文檔語法到相應(yīng)的視覺語法的映射

到了這步,他們?nèi)绾螌⑽淖痔崾拘畔⒅械奈臋n條件信息注入到影像聚合過程中?

回想一下,除了影像編碼器,CLIP還學(xué)習(xí)了文檔編碼器。DALL-E 2使用了另一種數(shù)學(xué)模型,譯者稱之為先驗(yàn)數(shù)學(xué)模型,以便從影像標(biāo)題的文檔編碼映射到對(duì)應(yīng)影像的影像編碼。DALL-E 2的譯者用自回歸數(shù)學(xué)模型和擴(kuò)散數(shù)學(xué)模型進(jìn)行了實(shí)驗(yàn),但最終發(fā)現(xiàn)它們的性能相差無幾??紤]到擴(kuò)散數(shù)學(xué)模型的計(jì)算效率更高,因此選擇擴(kuò)散數(shù)學(xué)模型做為 DALL-E 2的先驗(yàn)。

從文檔編碼到相應(yīng)影像編碼的先驗(yàn)映射 修改自圖源:https://arxiv.org/abs/2204.06125

先驗(yàn)訓(xùn)練

DALL-E 2中擴(kuò)散先驗(yàn)的運(yùn)行順序是:

標(biāo)記化的文檔;

這些標(biāo)記的CLIP文檔編碼;

擴(kuò)散時(shí)間步的編碼;

噪聲影像通過CLIP影像編碼器;

Transformer輸出的最終編碼用于預(yù)測無噪聲CLIP影像編碼。

第四步 - 萬事俱備

現(xiàn)在,他們已經(jīng)擁有了DALL-E 2的所有零件,萬事俱備,只須要將它們女團(tuán)在一同就能獲得他們想要的結(jié)果——聚合與文檔命令相對(duì)應(yīng)的影像:

首先,CLIP文檔編碼器將影像描述映射到表示空間;

然后擴(kuò)散先驗(yàn)從CLIP文檔編碼映射到相應(yīng)的CLIP影像編碼;揚(yáng)州電液推桿廠家

最后,增強(qiáng)版的GLIDE聚合數(shù)學(xué)模型通過反向擴(kuò)散從表示空間映射到影像空間,聚合眾多可能影像中的兩個(gè)。

DALL-E 2影像聚合流程的高級(jí)概述 修改自圖源:https://arxiv.org/abs/2204.06125

以上就是DALL-E 2的組織工作基本原理啦~

希望大家能注意到DALL-E 2開發(fā)的3個(gè)關(guān)鍵要點(diǎn):

DALL-E 2體現(xiàn)了擴(kuò)散數(shù)學(xué)模型在深度學(xué)習(xí)中的能力,DALL-E 2中的先驗(yàn)子數(shù)學(xué)模型和影像聚合子數(shù)學(xué)模型都是基于擴(kuò)散數(shù)學(xué)模型的。雖然擴(kuò)散數(shù)學(xué)模型只是在過去幾年才流行起來,但其已經(jīng)證明了自己的價(jià)值,他們能期待在未來的各種研究中看到更多的擴(kuò)散數(shù)學(xué)模型~

第二點(diǎn)是他們應(yīng)看到使用自然語言做為一種手段來訓(xùn)練最先進(jìn)的深度學(xué)習(xí)數(shù)學(xué)模型的必要性與強(qiáng)悍力量。DALL-E 2的強(qiáng)勁功能究其根本還是來自于互聯(lián)網(wǎng)上提供的絕對(duì)海量的自然語言&影像數(shù)據(jù)對(duì)。使用這些數(shù)據(jù)不但消除了人工標(biāo)記數(shù)據(jù)集這一費(fèi)力的過程所帶來的發(fā)展瓶頸;這些數(shù)據(jù)的嘈雜、未經(jīng)整理的性質(zhì)也更加反映出深度學(xué)習(xí)數(shù)學(xué)模型必須對(duì)真實(shí)世界的數(shù)據(jù)具有魯棒性。

最后,DALL-E 2重申了Transformer做為基于網(wǎng)絡(luò)規(guī)模數(shù)據(jù)集訓(xùn)練的數(shù)學(xué)模型中的最高地位,因?yàn)門ransformer的并行性令人印象極為深刻。

相關(guān)標(biāo)簽: