OpenAI je predstavil nov generativni model umetne inteligence, ki lahko na podlagi preprostega besedilnega poziva ustvari do minuto dolg videoposnetek. Ime pa je očitno dobil po slovenski reki: Sora.
Ne mine teden brez mega novice s področja umetne inteligence. OpenAI, pionirski raziskovalni AI laboratorij, ki stoji za slavnim ChatGPT, je pred kratkim predstavil svojo najnovejšo revolucionarno inovacijo – model za pretvorbo besedila v video Sora. Na podlagi številnih tvitov lahko sklepamo, da je to vrhunsko orodje zasnovano tako, da uporabnikom omogoča ustvarjanje realističnih videoposnetkov neposredno iz besedilnih opisov.
Sora temelji na uspehih prejšnjih modelov OpenAI, kot sta GPT (Generative Pre-trained Transformer) in DALL-E. Slednji je model, ki lahko iz besedilnih opisov ustvari zelo podrobne in ustvarjalne slike. Pričakuje se, da bo Sorina tehnologija pretvorbe besedila v video spremenila ustvarjanje vsebin ter ga naredila dostopnejšega in učinkovitejšega. S preprostim vnosom besedilne zahteve lahko uporabniki ustvarijo videoposnetke, za katere bi običajno potrebovali veliko časa, sredstev in strokovnega znanja na področju produkcije in urejanja videoposnetkov. To lahko demokratizira ustvarjanje video vsebin, saj bo izobraževalcem, tržnikom, pripovedovalcem zgodb in ustvarjalcem vseh vrst omogočilo, da svoje vizije uresničijo s presenetljivo lahkoto. Sora ne razume le, kaj je uporabnik zahteval v pozivu, temveč tudi, kako te stvari obstajajo v fizičnem svetu.
Izvršni direktor OpenAI Sam Altman je na portalu X pozval uporabnike, naj predlagajo napotke za aplikacijo Sora, nato pa objavil rezultate, ki so vključevali realistične videoposnetke dveh zlatih prinašalcev, ki se pogovarjata na vrhu gore, babice, ki pripravlja njoke, in morskih živali, ki sodelujejo na kolesarski dirki na vrhu oceana.
To ni prvi AI video generator, je pa najbolj osupljiv
Sora je trenutno v fazi zaprte beta različice, ki je na voljo le povabljenim razvijalcem in predstavlja nekoliko pozen vstop vodilnega svetovnega podjetja na področju umetne inteligence. Pretvorba besedila v video ni povsem neznano področje. Podjetja, kot sta RunwayML in Pika Labs, so v igri že nekaj časa in trenutno prevladujejo na tem področju z modeli, ki lahko v nekaj sekundah ustvarijo osupljive vizualne podobe.
OpenAI si z razvojem sistema Sora prizadeva vzpostaviti standard enotnosti, saj ustvarja do minuto dolge videoposnetke z izjemnimi podrobnostmi, ki ohranjajo skladen in naraven potek. Ta cilj še zdaleč ni trivialen, saj morajo modeli umetne inteligence v bistvu vsak kader sestaviti na novo, kar je proces, pri katerem so možne napake. Že majhna nedoslednost v enem samem kadru lahko privede do vrste izkrivljanj in neverjetnih vizualnih rezultatov. Kljub temu se zdi, da je OpenAI na tem področju precej napredoval, saj je Sora predstavila tekoče in zanimive vizualne podobe, ki postavljajo novo merilo in presegajo trenutno ponudbo drugih subjektov na tem področju.
S tem OpenAI vstopa v konkurenčno areno in neposredno izziva drugaAI podjetja (kot je Google), ki raziskujejo področje generativne video tehnologije. Znana platforma za pretvorbo besedila v sliko Midjourney je razkrila svoj podvig pri razvoju generatorja za pretvorbo besedila v video, čeprav še ni objavila datuma začetka delovanja. Podobno je podjetje Stability AI pritegnilo pozornost s predstavitvijo odprtokodnega orodja Stable Video Diffusion, ki lahko ustvarja videoposnetke s 25 sličicami na sekundo in ločljivostjo 576×1024.