Boju za prevlado v umetni inteligenci se je pridružilo še mega uspešno e-commerce podjetje Alibaba, ki je predstavilo brezplačni model za AI generiranje video posnetkov, Wan 2.1. Tukaj je vse, kar morate vedeti.
Kitajski tehnološki velikan Alibaba, znan po svojem e-trgovinskem imperiju, ponuja brezplačen dostop do svojega generativnega AI modela, ki lahko iz besedilnih in slikovnih pozivov ustvari realistične videoposnetke in slike. V sredo je Alibaba napovedal, da bo njegov AI model za generiranje videoposnetkov in slik, Wan 2.1, javno dostopen.
This is wild.
— Min Choi (@minchoi) February 26, 2025
Alibaba just open-sourced Wan 2.1, AI that generates videos from text & images, edits video, & creates audio!
The videos look absolutely insane.
1. Physical Simulation of water surface pic.twitter.com/UFRjDngg33
Preberi še: 20 aplikacij z umetno inteligenco, ki jih morate poznati v 2025!
Odprtokodnost kot odličen marketing
Eden ključnih dejavnikov za viralni uspeh kitajskega chatbota DeepSeek je bila odločitev, da postane odprtokoden, kar omogoča vsakomur, da AI brezplačno namesti na svoj računalnik, neodvisno od njegovih uradnih aplikacij za iPhone ali Android.
Zdaj kitajski tehnološki velikan Alibaba sprejema podoben pristop z drugačno vrsto AI programske opreme – takšno, ki je prav tako revolucionarna. V sredo je Alibaba odprtokodno objavil svoj AI model za pretvorbo besedila v video, Wan 2.1. Postavljen kot neposredni tekmec OpenAI-jevemu Sora, je Wan pripravljen izzvati tako njegov cenovni model kot tudi zmogljivost.
Wan 2.1 uporabnikom omogoča ustvarjanje videoposnetkov iz besedila, slik in celo drugih videov, kar ga naredi vsestransko ustvarjalno orodje. Ker je odprtokoden, je na voljo brezplačno – kar mu daje veliko prednost pred plačljivimi alternativami.
Wan 2.1 trenutno vodi na lestvici Vbench
Še bolj impresivno je, da Wan 2.1 trenutno vodi na lestvici VBench, saj proizvaja tako visokokakovostne videe, da je težko verjeti, da prihajajo iz brezplačnega AI modela.
Po navedbah spletnega mesta Wan se AI model odlikuje pri upodabljanju kompleksnih gibanj, kar pomeni, da lahko ustvarja realistične videoposnetke s podrobnimi gibi telesa, dinamičnimi rotacijami, tekočimi prehodi med prizori in gladkim gibanjem kamere. Poleg tega podpira “filmsko kakovost” izhodov, pri čemer ponuja vizualno dovršene posnetke s teksturno bogatimi slikami in različnimi stiliziranimi učinki.
Ena izmed najbolj izstopajočih funkcij Wan 2.1 je njegova napredna zmožnost urejanja, ki omogoča natančne spremembe na podlagi slikovnih in video referenc. Model podpira tudi generiranje besedila znotraj AI-ustvarjenih videov, kar ga naredi za prvi model, ki omogoča integracijo besedil v kitajščini in angleščini. Za prikaz svojih zmogljivosti Wan na svoji spletni strani predstavlja AI-generirane videoposnetke, vključno s skupino psov, ki vozijo kolesa, dvema mačkama, ki se boksata, in ekipo plesalcev, ki izvaja sinhronizirano koreografijo. Poleg zabavne rabe Wan 2.1 natančno simulira resnične fizikalne zakonitosti in interakcije objektov. Med primeri so ženska, ki se dvigne iz vode s pršenjem kapljic, lokostrelec, ki izstreli puščico, in celo pes, ki spretno reže paradižnike.
Alibaba video model Wan 2.1 looks very good actually. Very impressed.
— Gadgetify (@Gdgtify) February 25, 2025
HT: https://t.co/WPeZ8aYt3r https://t.co/9VtpwF2soi pic.twitter.com/19vCiJwW1k
Wan 2.1 obsega 4 različne modele
Po poročanju Reutersa je Alibaba objavila, da so zdaj štirje modeli iz serije Wan 2.1 odprtokodni, kar uporabnikom omogoča, da jih prenesejo in prilagodijo. Wan 2.1 lahko iz besedilnih in slikovnih vnosov generira tako slike kot videoposnetke, zaradi česar je vsestransko uporabno AI orodje.
Ti modeli bodo na voljo prek Alibaba Cloud’s Model Scope in Hugging Face, enega največjih repozitorijev AI modelov. Dostopni bodo akademikom, raziskovalcem in komercialnim institucijam po vsem svetu.
Poleg paradnega modela s 14 milijardami parametrov je Alibaba izdala tudi Wan 2.1 T2V-1.3B, ki za delovanje potrebuje le 8,19 GB VRAM-a. Ta manjši model je zasnovan za potrošniške grafične kartice (GPU-je) in ponuja ravnotežje med zmogljivostjo in dostopnostjo. Po podatkih spletne strani Wan lahko na RTX 4090 ustvari 5-sekundni 480p video v približno 4 minutah, in to brez optimizacijskih tehnik, kot je kvantizacija. Kljub svoji učinkovitosti se njegova zmogljivost kosa s številnimi zaprtokodnimi modeli.
Se bo pojavilo še več kitajskih UI izzivalcev?
Nazadnje je vredno omeniti, da Alibaba ni edino kitajsko podjetje, ki premika meje AI-generacije videoposnetkov. Pred nekaj dnevi je ByteDance pritegnil pozornost z modelom OmniHuman-1, ki je navdušil s svojimi naprednimi zmogljivostmi in dodatno podžgal konkurenco na hitro razvijajočem se trgu AI-videa.