Шта је Далле-мини и како функционише?

Далле-мини је модел дубоког учења који може да генерише слике високог квалитета из текста који унесе корисник. Заснован је на моделу ДАЛЛ-Е, који је ОпенАИ објавио у јануару 2021. ДАЛЛ-Е је скраћеница за „ Растављени језик и латентни израз ” је неуронска мрежа заснована на трансформатору која може да кодира текст и слике у заједнички латентни простор, а затим их декодира назад у било који модалитет.

Овај чланак ће објаснити следећи садржај:

Шта је Далле-мини?

Дај јој-мини је мања и бржа верзија ДАЛЛ-Е, коју је креирао ЕлеутхерАИ, истраживачки колектив отвореног кода. Далле-мини користи само 6 милијарди параметара, у поређењу са ДАЛЛ-Е-ових 12 милијарди, и може да ради на једном ГПУ-у. Далле-мини такође користи другачији токенизер и речник за унос текста, што га чини компатибилнијим са различитим језицима и доменима:

Белешка : Корисници могу да генеришу бесплатне слике користећи Далле-мини пратећи линк .

Шта је рад Далле-минија?

Главна идеја иза Далле-минија је моћ трансформатора, који су неуронске мреже. Они могу научити дугорочне зависности и сложене обрасце у секвенцијалним подацима, као што су текст или слике.

Трансформатори се састоје од два главна дела: енкодера и декодера. Први део узима унос (опис текста) и мења га у скривене векторе. Након тога, декодер га узима и генерише излаз (слику) који је релевантан за улаз.

Која је разлика између Далле-мини и ДАЛЛ-Е?

Далле-мини и ДАЛЛ-Е користе заједничку архитектуру кодер-декодер и за текст и за слике. Они могу да кодирају и декодирају оба модалитета користећи исту мрежу. Ово им омогућава да науче заједнички латентни простор који обухвата семантички однос између текста и слика. Након тога, омогућава им да обављају унакрсну генерисање, као што је креирање слика из текста или обрнуто.

Како функционише Далле-мини?

Да би генерисао слику из описа текста, Далле-мини прво токенизује текст користећи алгоритам кодирања пара бајтова (БПЕ), који дели текст на јединице подречи на основу њихове учесталости и истовремене појаве:

Хајде да пређемо на детаље унутрашњег рада Далле-минија:

Интерни рад Далле-мини

Претпоставимо, реч „ играње “ може се поделити на “ пла ' и ' иинг ”. Токени се затим мапирају у нумеричке ИД-ове користећи речник од 8192 токена. ИД-ови се уносе у кодер, производећи латентну репрезентацију величине 256 к 64:

Декодер затим узима латентну репрезентацију и генерише слику величине 256 к 256 пиксела. Декодер користи ауторегресивни процес, што значи да генерише сваки пиксел један по један, условљен претходним пикселима и латентном репрезентацијом.

Како генерисати слику из текстуалног описа користећи Далле-мини?

Да бисте генерисали текстуални опис са слике користећи Далле-мини, унесите текст у прозор са упитом. На пример, откуцајте „ Слика насумичног цвећа ” у одзивнику и притисните „ Трцати ” дугме:

Излаз показује да је Далле-мини генерисао релевантне слике према уносу текста.

Закључак

Далле-мини је изузетан модел који показује потенцијал трансформатора за унакрсну генерацију. Они могу да креирају реалистичне и разноврсне слике из описа природног језика, као и кохерентне и релевантне текстове од слика. Они такође могу да рукују сложеним композицијама, као што је комбиновање више објеката или атрибута у једној слици или тексту. Овај чланак је детаљно објаснио Далле-мини и његов рад.

Шта је Далле-мини и како функционише?