DALL-E oz. njegova najnovejša različica DALL-E 2 je nekakšen vizualni brat Chat GPT-ja, saj gre prav tako za generativno umetno inteligenco, ki jo je ustvaril OpenAI. Glavna razlika je seveda v tem, da DALL-E pretvarja besedilo v slike. Za danes smo pripravili celovito recenzijo DALL-E 2.
- Hitro ustvarjanje, saj lahko sliko ustvari v manj kot minuti
- Ustvarilo ga je podjetje OpenAI, ki stoji za Chat GPT
- Visoka ločljivost slik
- Možna brezplačna uporaba
- Avtorske pravice ter vprašanja, ali je bil program usposobljen na slikah, zaščitenih z avtorskimi pravicami
- Čeprav je Dall-E 2 bistveno izboljšal kakovost ustvarjenih slik, lahko nekatere slike za nekatere uporabnike še vedno niso videti dovolj resnične
Kaj je DALL-E 2?
DALL-E 2 je tehnologija generativne umetne inteligence, ki uporabnikom omogoča ustvarjanje novih slik z besedilnimi in grafičnimi napotki. Funkcionalno gledano je DALL-E nevronska mreža in lahko ustvari popolnoma nove slike v poljubnem številu različnih slogov, kot jih določajo uporabnikovi namigi. Tako kot slavnega chatbota ChatGPT, je tudi DALL-E ustvarilo podjetje OpenAI.
DALL-E 2 je naslednik modela DALL-E, ki je začel delovati januarja 2021. Vzdevek “DALL-E” je besedna tvorjenka znanega španskega umetnika Salvadorja Dalíja in Wall-E, priljubljenega animiranega robotskega lika, ki ga je ustvaril studio Pixar. Julija 2022 je model DALL-E 2 vstopil v beta različico in je bil na voljo izbranim uporabnikom z »belega seznama«. Pri OpenAI so 28. septembra 2022 odpravili zahtevo po beli listi, tako da je postala beta različica z odprtim dostopom, ki jo lahko uporablja vsakdo.
Tako kot izvirni DALL-E je tudi DALL-E 2 generativni jezikovni model, ki uporablja besedilne napotke za ustvarjanje izvirnih slik. Gre za velik model s približno 3,5B parametri, vendar ne tako velik kot njegov predhodnik, ki je uporabljal 12B parametrov. Kljub tej razliki v velikosti lahko DALL-E 2 ustvari slike s 4x višjo ločljivostjo kot njegova prva različica, kar je impresivna nadgradnja. Prav tako se zdi, da se je precej bolje odrezal pri fotorealizmu in razumevanju pozivov.
DALL-E 2 je eden izmed mnogih AI generatorjev slik na trgu danes. Če vaas zanima njegova konkurenca, si lahko preberete našo recenzijo Midjourney.
Kako deluje DALL-E 2?
Skrivni recept za zmogljivostmi DALL-E 2 je arhitektura transformatorja. Transformatorji so vrsta arhitekture modela, ki se uporablja pri strojnem učenju in obdeluje zaporedne podatke, kot so stavki ali časovne vrste podatkov. Še posebej dobro razumejo kontekst, v katerem se podatki pojavljajo. V DALL-E 2 se transformatorji uporabljajo za obdelavo vhodnega besedila in ustvarjanje zaporedja pikslov, ki tvorijo izhodno sliko. Model uporablja strukturo kodirnik-dekoder, pri čemer kodirnik obdela vhodno besedilo, dekoder pa ustvari sliko.
DALL-E 2 torej deluje tako, da s pomočjo difuzijskega modela postopoma izboljšuje sliko iz naključnega vektorja hrupa. Difuzijski model je usposobljen na obsežnem naboru podatkov parov besedilo-slika in se nauči povezovati določene besedilne opise s posebnimi vzorci vrednosti slikovnih pik. Ko uporabnik v DALL-E 2 vnese besedilni opis, model najprej kodira opis v visokodimenzionalni vektor. Ta vektor se nato posreduje difuzijskemu modelu, ki začne z naključnim vektorjem hrupa in ga postopoma izboljšuje, dokler ne ustvari slike, ki ustreza besedilnemu opisu. Difuzijski model je verjetnostni model, zato za dani besedilni opis ne ustvari vedno enake slike. Običajno pa ustvari nekaj različnih različic, ki so si vse relativno podobne. Uporabnik lahko nato izbere sliko, ki mu je bolj všeč.
Kako uporabljati DALL-E 2?
1 korak: Pojdite na spletno stran DALL-E 2 in kliknite »Sign Up«. Najlažje to storite prek računa Google/Microsoft oz. preko e-poštnega naslova. Postopek zahteva dvofaktorsko preverjanje pristnosti, zato je dobro, da imate telefon pri roki.
Če pa že imate OpenAI račun, se lahko enostavno prijavite z njim.
2. korak: Ko bo postopek prijave končan, vas bo pozdravilo pozdravno sporočilo. OpenAI bo na kratko predstavil, kaj lahko počnete s programom. Ko končate z branjem, pritisnite gumb »Continue«.
3. korak: Zdaj vam bo program na kratko predstavil svoj sistem kreditov. DALL-E 2 ni povsem brezplačen. Ima sistem “kreditov”, ki omejuje obseg brezplačne uporabe programa. Uporabniki ob registraciji prejmejo 50 brezplačnih kreditov, nato pa 15 brezplačnih kreditov na mesec.
4. korak: Pripravite besedilni opis. To je besedilo, ki ga bo DALL-E 2 uporabil za ustvarjanje slike. Opis mora biti jasen in podroben. Namesto “ptica” lahko na primer uporabite “majhna ptica s svetlo modrim perjem in rumenim kljunom”. Za opis želene vsebine lahko uporabite do 400 znakov. Vzemite si čas in dobro premislite. Program ustvari 4 slike na zahtevo.
Opcija »Surprise me«: Program v tem primeru samodejno ustvaril opis, ki bo pokazal, kako skrbno ubesediti svoje zahteve. Prav tako lahko naložite obstoječo sliko in prosite DALL-E 2, da jo uredi po vaših navodilih.
5. korak: Ko pošljete poziv, bo program DALL-E 2 ustvaril nekaj različnih različic slike. Ustvarjene slike lahko pregledate in izberete tisto, ki vam je najbolj všeč.
6. korak: Ko izberete sliko, jo lahko prenesete s klikom na gumb “Download”. Slika bo shranjena na privzeto mesto za prenos v vašem računalniku.
Še nekaj nasvetov za pisanje dobrih pozivov za DALL-E 2:
- V besedilnih opisih bodite čim bolj natančni. Bolj ko boste natančni, večja je verjetnost, da bo program DALL-E 2 ustvaril sliko, ki bo ustrezala vašim pričakovanjem.
- Uporabite ključne besede, ki opisujejo želeni slog slike. Če na primer želite fotorealistično sliko, uporabite ključne besede, kot sta “fotorealistična” ali “realistična”.
- Uporabite ključne besede, ki opisujejo predmete ali osebe, ki jih želite videti na sliki. Če na primer želite na sliki videti mačko, uporabite ključne besede, kot so “mačka” ali “mačkon”.
- Eksperimentirajte z različnimi besedilnimi opisi in preverite, kakšne slike ustvarja DALL-E 2.
O tem kako pisati boljše pozive za ChatGPT si preberite tukaj.
Primeri uporabe DALL-E 2
Glede na potencial umetne inteligence ima DALL-E 2 široko paleto uporabe. Tukaj je nekaj primerov:
- Grafično oblikovanje in ilustracija
Ena od najbolj neposrednih uporab DALL-E 2 je na področju grafičnega oblikovanja in ilustracij. Potrebujete logotip za svoje zagonsko podjetje? Ali morda ilustracijo za objavo na blogu? Namesto da bi ure in ure iskali popolno sliko ali najeli oblikovalca, lahko programu DALL-E 2 preprosto opišete, kaj potrebujete, in pustite, da vam ustvari sliko. To bi lahko korenito spremenilo industrijo oblikovanja, saj bi postala bolj dostopna in učinkovita.
- Ustvarjanje vsebine
V svetu digitalnega trženja in družabnih medijev je vsebina kralj. DALL-E 2 ima potencial spremeniti pravila igre za ustvarjalce vsebin, saj jim omogoča ustvarjanje edinstvenih slik, ki spremljajo njihove objave. Ne glede na to, ali gre za prilagojeno sličico za videoposnetek na YouTubu ali privlačno sliko za objavo na spletnem dnevniku, bi lahko DALL-E 2 močno poenostavil postopek ustvarjanja vsebine.
- Izobraževanje in učenje
Film DALL-E 2 bi bil lahko tudi dragoceno orodje pri izobraževanju. Učitelji bi ga lahko uporabljali za ustvarjanje vizualnih pripomočkov za podporo pouka, s čimer bi abstraktni pojmi postali bolj oprijemljivi in zanimivi za učence. Na primer, učitelj zgodovine bi lahko ustvaril slike zgodovinskih dogodkov, učitelj naravoslovja pa bi lahko ustvaril ilustracije zapletenih znanstvenih procesov.
- Zabava in gaming
DALL-E 2 bi lahko koristil tudi zabavni industriji. Razvijalci iger bi ga lahko uporabili za ustvarjanje umetniških del ali celo celotnih igralnih okolij, kar bi zmanjšalo čas in sredstva, potrebna za razvoj iger. Filmski ustvarjalci bi ga lahko uporabili za ustvarjanje konceptov ali zgodb. Poleg tega lahko z uporabo DALL-E 2 uporabniki tudi ustvarijo lastne NFT.
- Personalizirani izdelki
Predstavljajte si, da lahko lastne izdelke oblikujete tako, da jih preprosto opišete. Želite ovitek za telefon s sliko mačke v klobuku? Ali majico z določenim dizajnom? S programom DALL-E 2 bi lahko personalizirani izdelki postali veliko bolj dostopni. Podjetja bi lahko z uporabo DALL-E 2 ponujala izdelke po meri, ki bi jih oblikovale stranke same.
- AI umetnost
Nazadnje, DALL-E 2 odpira povsem nov svet umetniškega dela z umetno inteligenco. Umetniki bi lahko DALL-E 2 uporabljali kot orodje v svojem ustvarjalnem procesu in ustvarjali edinstvene podobe, ki bi navdihovale njihova dela. Lahko pa se pojavi umetnost, ki jo ustvarja umetna inteligenca, kot samostojen žanr.
Zgodovina
Zgodba DALL-E 2 se začne z razvojem modelov GPT s strani OpenAI. GPT ali Generative Pretrained Transformer je serija velikih jezikovnih modelov. Najnovejša iteracija, GPT-4, je sposobna razumeti in ustvariti človeku podobno besedilo na podlagi danega poziva. To razmišljanje je pripeljalo do razvoja DALL-E, različice modela GPT-3, ki je bil usposobljen za ustvarjanje slik iz besedilnih opisov.
DALL-E je bil svetu prikazan januarja 2021. Šlo je za zmogljivo orodje, ki je lahko iz besedilnih opisov ustvarilo realistične podobe. Vendar je imel nekaj omejitev. Včasih je na primer lahko ustvaril slike, ki niso bile natančne ali realistične. Poleg tega je bilo težko ustvariti slike, ki so bile točno takšne, kot ste želeli, saj je bilo mogoče besedilne opise razlagati na različne načine. Na podlagi uspeha igre DALL-E je podjetje OpenAI izboljšalo zmogljivosti tega modela umetne inteligence in razvila DALL-E 2, ki je svetu bil predstavljen aprila 2022.
Koliko stane DALL-E?
Ko porabite brezplačne kredite, jih boste morali kupiti več. Cena kreditov je 15 dolarjev za 115 kreditov, kar zadostuje za ustvarjanje 46 slik. To pomeni, da je cena približno 0,13 dolarja na sliko.
Obstaja tudi brezplačna verzija?
Da, na voljo je brezplačna stopnja programa DALL-E 2, ki omogoča ustvarjanje do 50 slik na mesec. Vendar so slike, ustvarjene v brezplačni stopnji, nižje ločljivosti kot slike, ustvarjene v plačljivi stopnji.
DALL-E: Prednosti
- Ustvarjalnost na novem nivoju: Sposobnost ustvarjanja edinstvenih slik na podlagi besedilnih opisov ustvarjalcem odpira svet možnosti in jim omogoča, da svoje zamisli uresničijo na načine, ki so bili prej nepredstavljivi. Ne glede na to, ali ste grafični oblikovalec, ki potrebuje navdih, ustvarjalec vsebin, ki išče popolno sliko, ali učitelj, ki išče vizualne pripomočke za pouk, vam lahko DALL-E 2 pomaga sprostiti ustvarjalnost.
- Racionalizacija procesa oblikovanja: DALL-E 2 lahko bistveno poenostavi postopek načrtovanja. Namesto da bi več ur ustvarjali sliko iz nič ali iskali popolno sliko na spletu, lahko oblikovalci preprosto opišejo, kaj potrebujejo, in DALL-E 2 ustvari sliko namesto njih. To lahko prihrani čas in vire ter poveča učinkovitost postopka oblikovanja.
- Izboljšanje dostopnosti: Še ena prednost projekta DALL-E 2 je, da lahko omogoči večjo dostopnost oblikovanja. Vsi nimajo dovolj znanja ali sredstev za ustvarjanje slik profesionalne kakovosti. Z DALL-E 2 pa lahko vsakdo ustvari edinstvene slike tako, da jih preprosto opiše. To bi lahko demokratiziralo področje oblikovanja in omogočilo več ljudem, da vizualno izrazijo svoje zamisli.
- Eksperimentiranje: DALL-E 2 spodbuja tudi eksperimentiranje. Ker je ustvarjanje novih slik tako enostavno, lahko uporabniki eksperimentirajo z različnimi opisi in parametri ter preverijo, kakšne rezultate dobijo. To lahko privede do nepričakovanih in vznemirljivih odkritij, ki premikajo meje mogočega v umetnosti in oblikovanju.
- Nova opredelitev vloge umetne inteligence: Morda je ena najbolj vznemirljivih prednosti filma DALL-E 2 ta, da lahko na novo opredeli vlogo umetne inteligence. Tradicionalno je umetna inteligenca veljala za orodje za avtomatizacijo opravil ali analizo podatkov. DALL-E 2 pa kaže, da je umetna inteligenca lahko tudi orodje za ustvarjalnost, ki lahko ustvarja edinstvene in prepričljive podobe. To bi lahko privedlo do novih načinov razmišljanja o umetni inteligenci in njene uporabe.
DALL-E: Pomanjkljivosti
- Negotovost rezultatov: Eden glavnih izzivov filma DALL-E 2 je nepredvidljivost rezultatov. Čeprav lahko na podlagi besedilnih opisov ustvari impresivne slike, so rezultati včasih nepričakovani ali neusklajeni. To je zato, ker je DALL-E 2, tako kot vsi modeli umetne inteligence, verjetnostni, kar pomeni, da ustvarja rezultate na podlagi verjetnosti, ki se jih je naučil med usposabljanjem. To lahko privede do neskladnosti in presenečenj v slikah, ki jih ustvari.
- Možnost zlorabe: Tako kot pri ostalih primerih generativne umetne inteligence je tudi pri DALL-E 2 težava možnost zlorabe. Ker je zmožen ustvariti realistične slike iz besedilnih opisov, obstaja nevarnost, da bi ga lahko uporabili za ustvarjanje zavajajoče ali škodljive vsebine, kot je deepfake. Lahko bi se na primer uporabila za ustvarjanje lažnih slik za uporabo v dezinformacijskih kampanjah ali za ustvarjanje neprimerne vsebine.
- Vpliv na ustvarjalne industrije: Prihod DALL-E 2 sproža tudi vprašanja o vplivu na ustvarjalno industrijo. Če lahko umetna inteligenca ustvarja slike na podlagi besedilnih opisov, kaj to pomeni za umetnike, oblikovalce in druge ustvarjalce? DALL-E 2 bi lahko bil dragoceno orodje za te strokovnjake, vendar bi lahko tudi razvrednotil njihovo delo ali povzročil izgubo zaposlitve. DALL-E 2 odpira tudi zapletena vprašanja v zvezi z intelektualno lastnino. Če umetna inteligenca ustvari sliko, kdo je lastnik avtorskih pravic? In kaj se zgodi, če umetna inteligenca ustvari sliko, ki je podobna obstoječemu avtorsko zaščitenemu delu? To so vprašanja, na katera trenutno ni jasnih odgovorov, in lahko privedejo do pravnih izzivov, ko bo uporaba umetne inteligence v umetnosti in oblikovanju vse bolj razširjena.
DALL-E 2 in Chat GPT: Kje so glavne razlike?
- Uporaba: DALL-E 2 in ChatGPT imata zaradi različnih funkcionalnosti različne primere uporabe. DALL-E 2 se lahko uporablja na področjih, kot so grafično oblikovanje, ustvarjanje vsebin, izobraževanje in zabava, kjer je ključna vizualna vsebina. ChatGPT pa se lahko uporablja na področjih, kot so storitve za stranke, ustvarjanje vsebin in virtualna pomoč, kjer sta pomembna besedilna vsebina in pogovor.
- Usposabljanje: Tako DALL-E 2 kot Chat GPT sta usposobljena z uporabo velikih zbirk podatkov, vendar je narava teh zbirk podatkov različna. DALL-E 2 se uči na podatkovni zbirki parov besedilo-slika, pri čemer se uči razumeti korelacijo med besedilnimi opisi in ustreznimi slikami. Chat GPT se uči na naboru podatkov z besedilom, pri čemer se uči napovedovati naslednjo besedo v stavku na podlagi konteksta.
- Rezultat: Razlikuje se tudi izpis DALL-E 2 in Chat GPT. DALL-E 2 ustvari zaporedje slikovnih pik, ki tvorijo sliko, Chat GPT pa ustvari zaporedje besed, ki tvorijo besedilo.
DALL-E 2 vs. Midjourney: Kateri je boljši AI generator slik?
Težko je reči, ali je boljši Midjourney ali DALL-E 2, saj sta oba visoko usposobljena modela in sta bila razglašena za naslednjo veliko stvar. Oba lahko na področju umetnosti in oblikovanja ustvarita nekaj impresivnih rezultatov. Do modela Midjourney lahko dostopate prek Discorda, medtem ko je model DALL-E 2 na voljo le prek spletnega mesta OpenAI. Na koncu bo izbira med obema modeloma odvisna od vaših posebnih želja in proračuna. OpenAI ponuja brezplačne mesečne kredite, kar pomeni, da lahko uporabniki do modela brezplačno dostopajo za nedoločen čas. Midjourney po drugi strani ponuja le 25 brezplačnih slik, preden storitev zaračuna. Če še vedno niste prepričani, kateri model uporabiti, je morda vredno eksperimentirati z obema, da ugotovite, kateri vam je bolj všeč.
Izbira, kateri generator slik je boljši, je res odvisno od vaših potreb. Če iščete generator slik umetne inteligence, ki lahko ustvari realistične slike iz različnih besedilnih opisov, je DALL-E 2 dobra izbira. Če pa iščete generator slik umetne inteligence, ki lahko ustvarja slike v različnih slogih in je bolj interaktiven, je dobra možnost Midjourney.
Ko potegnemo črto
Do nedavnega je prevladovalo mnenje, da sistemi umetne inteligence na ustvarjalnih področjih ne morejo realno preseči ljudi. Vsaj ne v kratkem. Vendar je DALLE-2 to trditev že precej orbil na glavo. DALL-E 2 je zmogljivo orodje, ki lahko revolucionarno spremeni način ustvarjanja in interakcije s slikami. Še vedno je v fazi razvoja, vendar je že pokazalo veliko obetov. V tem članku smo podrobno pregledali DALL-E 2. Obravnavali smo njegove zmogljivosti, omejitve in možne primere uporabe. Primerjali smo ga tudi z drugimi jezikovnimi modeli, kot je Chat GPT. Na splošno menimo, da je DALL-E 2 dragoceno orodje, ki se lahko uporablja za različne namene. Kot vsako zmogljivo orodje pa ima tudi to svoje izzive. Nepredvidljivost rezultatov, možnost zlorabe ter zapletena vprašanja v zvezi z intelektualno lastnino in etiko nas opozarjajo, da je z veliko močjo povezana tudi velika odgovornost.
Pogosta vprašanja
Kaj je DALL-E 2?
DALL-E 2 je napreden model umetne inteligence, ki ga je razvil OpenAI. Gre za različico modela GPT-3, ki lahko iz besedilnih opisov ustvarja slike.
Kako deluje DALL-E 2?
DALL-E 2 uporablja kombinacijo arhitekture transformatorja in VQ-VAE-2 (Vector Quantized Variational AutoEncoder 2) za obdelavo vhodnega besedila in ustvarjanje zaporedja pikslov, ki tvorijo izhodno sliko.
Kateri so možni primeri uporabe DALL-E 2?
DALL-E 2 ima široko paleto možnih primerov uporabe, vključno z grafičnim oblikovanjem, ustvarjanjem vsebin, izobraževanjem, zabavo in personaliziranimi izdelki. Uporablja se lahko za ustvarjanje edinstvenih slik za različne namene na podlagi besedilnih opisov.
Katere so pomanjkljivosti DALL-E 2?
Čeprav je DALL-E 2 zmogljivo orodje, ima tudi nekaj potencialnih slabosti. Te vključujejo nepredvidljivost rezultatov, možnost zlorabe, vpliv na ustvarjalno industrijo, pomisleke glede intelektualne lastnine in etične vidike.
Ali je lahko uporabljam DALL-E 2 brezplačno?
Da, film DALL-E 2 lahko uporabljate brezplačno. Ob prijavi dobite 50 brezplačnih kreditov, od drugega meseca naprej pa 15 brezplačnih kreditov. Če vam zmanjka brezplačnih kreditov, lahko dodatne kredite tudi kupite. V času pisanja članka lahko za 15 dolarjev kupite 115 kreditov.