亚洲欧美国产日韩制服bt_亚洲国产成人av一级毛片_亚洲高清在线观看无码_日韩欧美在线综合网片源丰富、内容全面_特黄特色一级aa毛片免费观看_播播影院 私人影院_一级毛片点击进入_青青草原国产在线_日韩精品视频第10页_18禁亚洲深夜福利人口

歡迎進(jìn)入電液推桿專業(yè)生產(chǎn)廠家揚(yáng)州富佳裕機(jī)械有限公司網(wǎng)站!
新聞資訊

服務(wù)熱線18952584368

電液推桿 說明書簡潔、生動,圖解「老畫師」DALL-E2的工作原理

作者:147小編 發(fā)布時間:2022-04-26 17:23:28點(diǎn)擊:629

選自assemblyai

作者:Ryan OConnor

機(jī)器之心編譯

編輯:蛋醬

效果驚艷的 DALL-E 2,到底是怎么工作的?

2022 年 4 月初,OpenAI 的開創(chuàng)性模型 DALL-E 2 登場,為圖像生成和處理領(lǐng)域樹立了新的標(biāo)桿。只需輸入簡短的文字 prompt,DALL-E 2 就可以生成全新的圖像,這些圖像以語義上十分合理的方式將不同且不相關(guān)的對象組合起來,就像通過輸入 prompt「a bowl of soup that is a portal to another dimension as digital art」,便生成了下面的圖像。

DALL-E 2 甚至可以修改現(xiàn)有圖像,創(chuàng)建處保有其顯著特征的圖像變體,并在兩個輸入圖像之間進(jìn)行插值。DALL-E 2 令人印象深刻的結(jié)果讓許多人想知道,這樣一個強(qiáng)大的模型究竟是如何工作的。

在本文中,我們將深入了解 DALL-E 2 如何創(chuàng)造出眾多令人驚艷的圖像。將提供大量背景信息,并且解釋級別將涵蓋范圍,因此本文適合具有多個機(jī)器學(xué)習(xí)經(jīng)驗(yàn)級別的讀者。

總體來說,DALL-E 2 的亮點(diǎn)如下:

1. 首先,DALL-E 2 展示了深度學(xué)習(xí)中擴(kuò)散模型(Diffusion Model)的強(qiáng)大功能,因?yàn)?DALL-E 2 中的先驗(yàn)和圖像生成子模型都是基于擴(kuò)散的。雖然在過去幾年才開始流行,但擴(kuò)散模型已經(jīng)證明了自身價值,一些關(guān)注深度學(xué)習(xí)研究的人也期望在未來看到更多進(jìn)展。揚(yáng)州電液推桿廠家

2. 其次,展示了使用自然語言作為訓(xùn)練深度學(xué)習(xí) SOTA 模型的手段的必要性和力量。這一點(diǎn)并非源于 DALL-E 2,但重要的是認(rèn)識到, DALL-E 2 的力量是源于可在互聯(lián)網(wǎng)上獲得大規(guī)模匹配的自然語言 / 圖像數(shù)據(jù)。使用這些數(shù)據(jù)消除了手動標(biāo)注數(shù)據(jù)集的高成本和相關(guān)瓶頸,但這類數(shù)據(jù)嘈雜、未經(jīng)處理的性質(zhì)也反映了深度學(xué)習(xí)模型必須具備面對真實(shí)數(shù)據(jù)的魯棒性。

3. 最后,DALL-E 2 重申了 Transformer 的地位,鑒于它們具有令人印象深刻的并行性,因此對于在網(wǎng)絡(luò)規(guī)模數(shù)據(jù)集上訓(xùn)練的模型來說是至高無上的。

DALL-E 2 的工作原理:鳥瞰圖

在深入了解 DALL-E 2 的工作原理之前,讓我們先大致了解一下 DALL-E 2 如何生成圖像。雖然 DALL-E 2 可以執(zhí)行各種任務(wù),包括上面提到的圖像處理和插值,但們將在本文中專注于圖像生成任務(wù)。

在最高級別,DALL-E 2 的工作非常簡單:揚(yáng)州電液推桿廠家

1. 首先,將文本 prompt 輸入到經(jīng)過訓(xùn)練以將 prompt 映射到表征空間的文本編碼器中;

2. 接下來,稱為先驗(yàn)的模型將文本編碼映射到相應(yīng)的圖像編碼,該圖像編碼捕獲文本編碼中包含的 prompt 的語義信息;

3. 最后,圖像解碼模型隨機(jī)生成圖像,該圖像是該語義信息的視覺表現(xiàn)。

從鳥瞰的角度來看,這就是它的全部了。當(dāng)然,還有很多有趣的實(shí)現(xiàn)細(xì)節(jié),我們將在下面討論。

詳細(xì)介紹

現(xiàn)在是時候分別深入了解上述每個步驟了。讓我們先來看看 DALL-E 2 如何學(xué)會鏈接相關(guān)的文本和視覺概念。

第 1 步:鏈接文本和視覺語義

輸入「泰迪熊在時代廣場騎滑板」后,DALL-E 2 輸出如下圖像:

DALL-E 2 怎么知道像「泰迪熊」這樣的文本概念,應(yīng)該在視覺空間中如何體現(xiàn)?DALL-E 2 中的文本語義與其視覺表征之間的聯(lián)系是由另一個名為 CLIP 的 OpenAI 模型學(xué)習(xí)的。

CLIP 接受了數(shù)億張圖像及其相關(guān)標(biāo)題的訓(xùn)練,以了解給定文本片段與圖像的關(guān)聯(lián)程度。也就是說,CLIP 不是試圖預(yù)測給定圖像的標(biāo)題,而是學(xué)習(xí)任何給定標(biāo)題與圖像的相關(guān)程度。這種對比而非預(yù)測的目標(biāo)使 CLIP 能夠?qū)W習(xí)同一抽象目標(biāo)的文本和視覺表示之間的聯(lián)系。整個 DALL-E 2 模型取決于 CLIP 從自然語言中學(xué)習(xí)語義的能力,所以讓我們看看如何訓(xùn)練 CLIP 以了解其內(nèi)部工作原理。揚(yáng)州電液推桿廠家

CLIP 訓(xùn)練

訓(xùn)練 CLIP 的基本原則非常簡單:

1. 首先,所有圖像及其相關(guān)標(biāo)題都通過它們各自的編碼器,將所有對象映射到一個 m 維空間。

2. 然后,計(jì)算每個(圖像,文本)對的余弦相似度。

3. 訓(xùn)練目標(biāo)是同時最大化 N 個正確編碼圖像 / 標(biāo)題對之間的余弦相似度,并最小化 N 2 - N 個不正確編碼圖像 / 標(biāo)題對之間的余弦相似度。

該訓(xùn)練過程可視化如下:

CLIP 對 DALL-E 2 很重要,因?yàn)樗罱K決定了自然語言片段與視覺概念的語義相關(guān)程度,這對于 text-conditional 圖像生成至關(guān)重要。

第 2 步:從視覺語義生成圖像

訓(xùn)練后,CLIP 模型被凍結(jié),DALL-E 2 進(jìn)入下一個任務(wù)——學(xué)習(xí)反轉(zhuǎn) CLIP 剛剛學(xué)習(xí)的圖像編碼映射。CLIP 學(xué)習(xí)了一個表征空間,在該空間中,很容易確定文本和視覺編碼的相關(guān)性,但我們的興趣在于圖像生成。因此,我們必須學(xué)習(xí)如何利用表征空間來完成這項(xiàng)任務(wù)。

特別是,OpenAI 使用其先前模型 GLIDE (https://arxiv.org/abs/2112.10741) 的修改版本來執(zhí)行此圖像生成。GLIDE 模型學(xué)習(xí)反轉(zhuǎn)圖像編碼過程,以便隨機(jī)解碼 CLIP 圖像嵌入。揚(yáng)州電液推桿廠家

如上圖所示,應(yīng)該注意的是,目標(biāo)不是構(gòu)建一個自動編碼器并在給定嵌入的情況下準(zhǔn)確地重建圖像,而是生成一個在給定嵌入的情況下保持原始圖像顯著特征的圖像。為了執(zhí)行這個圖像生成,GLIDE 使用了一個擴(kuò)散模型。

擴(kuò)散模型是什么?

擴(kuò)散模型是一項(xiàng)受熱力學(xué)啟發(fā)的發(fā)明,近年來已顯著普及。擴(kuò)散模型通過反轉(zhuǎn)逐漸的噪聲過程來學(xué)習(xí)生成數(shù)據(jù)。如下圖所示,噪聲過程被視為一個參數(shù)化的馬爾可夫鏈,它逐漸向圖像添加噪聲以破壞圖像,最終(漸近地)產(chǎn)生純高斯噪聲。擴(kuò)散模型學(xué)習(xí)沿著這條鏈向后導(dǎo)航,在一系列時間步長上逐漸消除噪聲以逆轉(zhuǎn)這一過程。

如果然后將擴(kuò)散模型在訓(xùn)練后「一分為二」,則可以使用它通過隨機(jī)采樣高斯噪聲來生成圖像,然后對其進(jìn)行去噪以生成逼真的圖像。有些人可能會認(rèn)識到,這種技術(shù)很容易讓人聯(lián)想到使用自編碼器生成數(shù)據(jù),而擴(kuò)散模型和自動編碼器實(shí)際上是相關(guān)的。

GLIDE 訓(xùn)練

雖然 GLIDE 不是第一個擴(kuò)散模型,但它的重要貢獻(xiàn)在于修改了它們以允許生成文本條件圖像。特別是,人們會注意到擴(kuò)散模型從隨機(jī)采樣的高斯噪聲開始。起初,還不清楚如何調(diào)整此過程以生成特定圖像。如果在人臉數(shù)據(jù)集上訓(xùn)練擴(kuò)散模型,它將可靠地生成逼真的人臉圖像;但是如果有人想要生成一張具有特定特征的臉,比如棕色的眼睛或金色的頭發(fā)怎么辦?揚(yáng)州電液推桿廠家

GLIDE 通過使用額外的文本信息增強(qiáng)訓(xùn)練來擴(kuò)展擴(kuò)散模型的核心概念,最終生成 text-conditional 圖像。我們來看看 GLIDE 的訓(xùn)練過程:

以下是使用 GLIDE 生成的圖像的一些示例。作者指出,在照片寫實(shí)和字幕相似性方面,GLIDE 的性能優(yōu)于 DALL-E。

GLIDE 生成的圖像示例

DALL-E 2 使用修改后的 GLIDE 模型以兩種方式使用投影的 CLIP 文本嵌入。第一種是將它們添加到 GLIDE 現(xiàn)有的時間步嵌入中,第二種是通過創(chuàng)建四個額外的上下文 token,它們連接到 GLIDE 文本編碼器的輸出序列。

GLIDE 對 DALL-E 2 很重要,因?yàn)樗试S作者通過在表示空間中調(diào)整圖像編碼,輕松地將 GLIDE 的文本條件照片級逼真圖像生成功能移植到 DALL-E 2 。因此,DALL-E 2 修改后的 GLIDE 學(xué)習(xí)生成以 CLIP 圖像編碼為條件的語義一致的圖像。還需要注意的是,反向擴(kuò)散過程是隨機(jī)的,因此通過修改后的 GLIDE 模型多次輸入相同的圖像編碼向量很容易產(chǎn)生變化。揚(yáng)州電液推桿廠家

第 3 步:從文本語義映射到相應(yīng)的視覺語義

雖然修改后的 GLIDE 模型成功地生成了反映圖像編碼捕獲的語義的圖像,但我們?nèi)绾螌?shí)際去尋找這些編碼表征?換句話說,我們?nèi)绾螌?prompt 中的文本條件信息注入圖像生成過程?

回想一下,除了我們的圖像編碼器,CLIP 還學(xué)習(xí)了一個文本編碼器。DALL-E 2 使用另一個模型,作者稱之為先驗(yàn)?zāi)P?,以便從圖像標(biāo)題的文本編碼映射到其相應(yīng)圖像的圖像編碼。DALL-E 2 作者對先驗(yàn)的自回歸模型和擴(kuò)散模型進(jìn)行了實(shí)驗(yàn),但最終發(fā)現(xiàn)它們產(chǎn)生的性能相當(dāng)。鑒于擴(kuò)散模型的計(jì)算效率更高,因此它被選為 DALL-E 2 的先驗(yàn)?zāi)P汀?/font>

從文本編碼到其相應(yīng)圖像編碼的先驗(yàn)映射

事先訓(xùn)練

DALL-E 2 中的擴(kuò)散先驗(yàn)由一個僅有解碼器的 Transformer 組成。它使用因果注意力 mask 在有序序列上運(yùn)行:

1. tokenized 的文本 / 標(biāo)題。

2. 這些 token 的 CLIP 文本編碼。

3. 擴(kuò)散時間步長的編碼。揚(yáng)州電液推桿廠家

4. 噪聲圖像通過 CLIP 圖像編碼器。

5. 最終編碼,其來自 Transformer 的輸出用于預(yù)測無噪聲 CLIP 圖像編碼。

將它們放在一起

至此,我們擁有了 DALL-E 2 的所有功能組件,只需將它們鏈接在一起即可生成文本條件圖像:

1. 首先,CLIP 文本編碼器將圖像描述映射到表征空間。

2. 然后擴(kuò)散先驗(yàn)從 CLIP 文本編碼映射到相應(yīng)的 CLIP 圖像編碼。

3. 最后,修改后的 GLIDE 生成模型通過反向擴(kuò)散從表征空間映射到圖像空間,生成許多可能的圖像之一,這些圖像在輸入說明中傳達(dá)語義信息。

DALL-E 2 圖像生成過程的高級概述

參考內(nèi)容

1. Deep Unsupervised Learning using Nonequilibrium Thermodynamics (https://arxiv.org/abs/1503.03585)

2. Generative Modeling by Estimating Gradients of the Data Distribution (https://arxiv.org/abs/1907.05600)

3. Hierarchical Text-Conditional Image Generation with CLIP Latents (https://arxiv.org/pdf/2204.06125.pdf)揚(yáng)州電液推桿廠家

4. Diffusion Models Beat GANs on Image Synthesis (https://arxiv.org/abs/2105.05233)

5. Denoising Diffusion Probabilistic Models (https://arxiv.org/pdf/2006.11239.pdf)

6. Learning Transferable Visual Models From Natural Language Supervision (https://arxiv.org/pdf/2103.00020.pdf)

7. GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models (https://arxiv.org/pdf/2112.10741.pdf)揚(yáng)州電液推桿廠家

原文鏈接:https://www.assemblyai.com/blog/how-dall-e-2-actually-works/

相關(guān)標(biāo)簽: