Vse kaže, da OpenAI lansira svoje chatbote pogosteje kot Apple svoje iPhone. Novembra je svet prevzel Chat GPT, ta teden pa ga je že s prestola zrinil novejši Chat GPT-4. Poglejmo, kaj se skriva pod njegovim pokrovom in v čem je boljši od starejšega brata.
Nismo se še niti dodobra navadili vsestranskega chatbota ChatGPT, pa so nam že postregli z novo verzijo, ki po je besedah kreatorja bolj ustvarjalen kot prejšnji modeli, bistveno manj halucinira in je manj pristranski. Poleg tega lahko opravi odvetniški izpit in najbrž marsikaterega drugega. Nov model po svojem velikem debiju 14. marca 2023 že poganja vse od virtualnega prostovoljca za slabovidne do izboljšanega bota za učenje jezikov v aplikaciji Duolingo.
Kaj je GPT 4?
Najprej nahitro analizirajmo samo ime. Čeprav je bil Chat GPT prvotno opisan kot GPT-3.5, sam ni različica velikega jezikovnega modela OpenAI, temveč je bolj na klepetu temelječ vmesnik za kateri koli model, ki ga uporablja. Sistem ChatGPT, ki je v zadnjih mesecih postal zelo priljubljen, je bil način interakcije z GPT-3.5, zdaj pa je način interakcije z GPT-4.
Vse kaže, da je GPT-4 stran od oči javnosti že obratoval nekaj časa. Microsoft je namreč pred kratkim potrdil, da Bing Chat, njegova tehnologija za klepetalnike, ki jo je razvil skupaj z OpenAI, deluje prav na GPT-4. Med ostalimi zgodnjimi uporabniki je tudi Stripe, ki uporablja tehnologijo GPT-4 za skeniranje poslovnih spletnih mest in posredovanje povzetka osebju za podporo strankam; platforma za učenje jezikov Duolingo pa je GPT-4 vgradilo v novo naročniško stopnjo za učenje jezikov.
GPT-4 lahko ustvarja besedilo ter sprejema slikovne in besedilne vnose, kar je napredek v primerjavi s predhodnikom GPT-3.5, ki je sprejemal le besedilo, in pri različnih strokovnih in akademskih primerjalnih testih deluje na.. no, človeški ravni.
Pri startupu OpenAI so bojda pol leta iterativno usklajevali GPT-4 z uporabo izkušenj iz internega programa testiranja z nasprotniki in programa ChatGPT, kar je po navedbah podjetja privedlo do najboljših rezultatov doslej na področju resničnosti, vodljivosti in zavračanja preseganja varovalnih ograj. Tako kot prejšnji modeli GPT je bil tudi GPT-4 usposobljen z uporabo javno dostopnih podatkov, vključno s podatki z javnih spletnih strani, in podatkov, za katere je OpenAI pridobil licenco.
GPT 4: 5 izboljšav v primerjavi ChatGPT
1. GPT-4 lahko razume slike
Da, prav ste prebrali. Najbolj opazna nadgradnja sistema strojnega učenja je, da je multimodalen, kar pomeni, da lahko razume več kot eno “modalnost” informacij. ChatGPT in GPT-3 sta bila omejena na besedilo: Znala sta brati in pisati, vendar je bilo to vse – čeprav je bilo to več kot dovolj za številne aplikacije. No, GPT-4 pa razume slike. Seveda ga lahko tudi preprosto prosite, naj opiše, kaj je na sliki, vendar je pomembneje, da njegovo razumevanje presega to. Naj vam ponazorimo s primerom Twitter uporabnika, ki je GPT-4 postregel s sliko svojega odprtega hladilnika ter ga prosil, naj mu v 60 sekundah napiše recept za jed, sestavljeno iz živil v hladilniku. GPT-4 je postregel z več recepti, tako slanih kot sladkih. Vendar je treba opozoriti, da je za enega od teh predlogov (wrap) potrebna sestavina, ki je na videz ni: tortilja.
To funkcijo lahko uporabite tudi v številnih drugih aplikacijah, vključno s tem, da lahko GPT-4 na podlagi ročno narisane skice ustvari kodo za spletno stran (kot so pri OpenAI ponazorili s predstavitvenim videjem). Prav tako pa sodelujejo zagonskim podjetjem Be My Eyes, ki za pomoč ljudem s težavami z vidom uporablja prepoznavanje predmetov ali človeške prostovoljce, da bi izboljšalo svojo aplikacijo z GPT-4.
2. GPT-4 bolje obvlada jezike
V svetu umetne inteligence prevladujejo angleško govoreči in vse, od podatkov do testiranja in raziskovalnih člankov, je v tem jeziku. Seveda pa so zmožnosti velikih jezikovnih modelov uporabne v katerem koli pisnem jeziku in bi morale biti na voljo tudi v njem. GPT-4 je naredil korak k temu, saj je dokazal, da lahko z visoko natančnostjo odgovori na tisoče vprašanj z več izbirnimi odgovori v 26 jezikih, od italijanščine do ukrajinščine in korejščine. Najboljši je pri romanskih in germanskih jezikih, vendar se dobro odreže tudi pri drugih jezikih.
Pri OpenAI zagotavljajo, da je GPT-4 je boljši pri nalogah, ki zahtevajo ustvarjalnost ali napredno razmišljanje. To trditev je težko oceniti, vendar se na podlagi nekaterih testov, ki smo jih videli in izvedli, zdi pravilna (čeprav razlike s predhodniki zaenkrat niso tako presenetljive).
Še vedno veliko prostora za izboljšavo
To začetno testiranje jezikovnih zmožnosti je obetavno, vendar še zdaleč ne pomeni popolnega sprejetja večjezičnih zmožnosti. Merila za testiranje so bila najprej prevedena iz angleščine, vprašanja z izbirnimi odgovori pa v resnici ne predstavljajo običajnega govora. Vendar bo GPT-4 veliko bolj »prijazen« do tistih, ki ne govorijo angleško.
3. GPT-4 ima boljši spomin in lahko obdela več besedila
AI jezikovni modeli so usposobljeni na milijonih spletnih strani in podatkov. Toda glavna zavora teh modelov je omejena količina besedila, ki ga lahko shranijo v svojem kratkoročnem spominu. Ta meja je bila pri GPT-3.5 in stari različici ChatGPT 4096 žetonov, kar je približno 8000 besed ali približno 4-5 strani knjige. Zato je sistem izgubil pregled nad stvarmi, ko so se v njegovi funkciji pozornosti premaknile tako daleč nazaj.
Vendar je OpenAI te zmogljivosti za GPT-4 bistveno razširil, saj lahko zdaj v enem zamahu obdela celotne znanstvene članke in romane – to pa mu omogoča, da odgovori na bolj zapletena vprašanja in poveže več podrobnosti v posamezni poizvedbi. GPT-4 ima največje število žetonov 32.768. To pomeni približno 64.000 besed ali 50 strani besedila, kar je dovolj za celotno dramo ali kratko zgodbo.
Kaj to pomeni v praksi?
GPT-4 si bo zapomnil, o čem ste se pogovarjali 20 strani nazaj, pri pisanju zgodbe ali eseja pa se lahko sklicuje na dogodke, ki so se zgodili pred 35 stranmi. To je zelo približen opis delovanja mehanizma pozornosti in števila žetonov, vendar gre za splošno idejo o razširjenem spominu in zmožnostih, ki ga spremljajo. Pri OpenAI pravijo, da še vedno optimizirajo daljše kontekste, vendar višja omejitev pomeni, da bo model omogočil primere uporabe, ki prej niso bili tako enostavni oz. sploh mogoči.
4. GPT-4 ima več osebnosti
To se morda sliši kot slaba lastnost pri ljudeh, toda za umetno inteligenco je lahko kar dobrodošla. Krmarjenje (steerability) je zanimiv koncept umetne inteligence, ki se nanaša na njihovo zmožnost spreminjanja vedenja na zahtevo. To je lahko koristno, na primer pri prevzemanju vloge sočutnega poslušalca, ali nevarno, na primer ko ljudje prepričajo model, da je zloben ali depresiven.
V GPT-4 je krmarjenje vključeno bolj naravno kot v GPT-3.5, uporabniki pa bodo lahko spremenili klasično osebnost ChatGPT z določenim besednjakom, tonom in slogom v nekaj, kar je bolj prilagojeno njihovim potrebam. Seveda vse skupaj v določenih mejah, ampak tako deluje koncept.
To lahko storite tako, da klepetalnega robota spodbudite s sporočilom, kot je na primer »Odgovarjaj, kot da si igralec, s katerim novinarji opravljajo intervju glede zadnjega filma”. Do zdaj ste samo dajali predloge “privzeti” osebnosti GPT-3.5. S GPT-4 bodo razvijalci lahko že v prvi fazi dodali perspektivo, pogovorni slog, ton ali način interakcije.
5. GPT-4 je težje pretentati
Kljub temu, da so današnji chatboti že zelo osupljivi, jih je mogoče zlahka speljati na napačno pot. Z malo prepričevanja jih lahko usmerite na pot vrste čudnih in odkrito nevšečnih odgovorov. Ljudje celo sodelujejo pri pripravi pozivov za “pobeg iz zapora”, ki ChatGPT in druge hitro zavede v kaotične odgovore. Po drugi strani pa je GPT-4 bil usposobljen na podlagi številnih zlonamernih pozivov, ki so jih uporabniki v zadnjem letu ali dveh prijazno posredovali OpenAI. V tem pogledu je novi model občutno boljši od svojih predhodnikov.
Pri matičnem podjetju pravijo, da je bila različica GPT-3.5 (ki je poganjala ChatGPT) testna različica nove arhitekture za usposabljanje in da so izkušnje iz nje uporabili v novi različici, ki je bila “brez primere stabilna”. Poleg tega so lahko bolje predvideli njene zmogljivosti, zato je bilo manj presenečenj.
GPT-4 že nekaj časa poganja novi Bing
Kot smo omenili zgoraj, Microsoft je potrdil, da je model, ki poganja izkušnjo klepeta v Bingu, pravzaprav GPT-4. To ni pretresljivo razkritje. Microsoft je že povedal, da uporablja velik jezikovni model naslednje generacije OpenAI, vendar ga ni želel poimenovati. Toda vseeno je dobro vedeti, da to pomeni, da lahko nekaj od tega, kar smo se naučili iz interakcij z Bingom, uporabimo tudi pri razmišljanju o GPT-4.
Kako lahko dostopam do GPT-4?
GPT-4 je danes na voljo plačljivim uporabnikom OpenAI prek storitve ChatGPT Plus (z omejitvijo uporabe), razvijalci pa se lahko vpišejo na čakalno listo za dostop do API-ja.
Cena je 0,03 dolarja na 1.000 »prompt« žetonov (približno 750 besed) in 0,06 dolarja na 1.000 »completion« žetonov, kat je spet približno 750 besed. Žetoni predstavljajo neobdelano besedilo; na primer beseda “fascinantno” se razdeli na žetone “fas”, “ci”, “nan” ter “tno”. Prompt žetoni so deli besed, ki se vnesejo v sistem GPT-4, medtem ko so completion žetoni vsebina, ki jo ustvari sistem GPT-4.
Ko potegnemo črto
Umetna inteligenca je v zadnjem letu naredila ogromen korak naprej in paradni konj procesa je zagotovo OpenAI, ki je vrhunske chatbote ponudil prav vsakemu z internetno povezavo. Razlik med GPT-4 in njegovimi predhodniki je veliko, večinoma bolj subtilne ali tehnične narave. Nedvomno bomo v naslednjih mesecih, ko bodo uporabniki preizkušali najnovejši jezikovni model, izvedeli še veliko več. Kljub »hypu« pa je vredno poudariti, da se chatboti zmotijo, in to veliko. In vsak poklic, bodisi kot učitelj, prodajalec ali programer, je treba opremiti z vidnim opozorilom, v katerem je to navedeno.
Pogosta vprašanja
V čem se GPT-4 razlikuje od ChatGPT?
Sprejema ukaze iz slik in besedil, obdela lahko več podatkov, je bolj natančen, težje ga je pretentati, poleg tega ima bolj dodelan jezikovni slog in bolj globinsko obvlada več jezikov.
Lahko GPT-4 ustvarja slike?
Da, s svojo zmožnostjo ustvarjanja človeku podobnega besedila ter ustvarjanja slik in računalniške kode na podlagi skoraj kateregakoli poziva je navdušil že veliko ljudi.
Je GPT-4 brezplačen?
Ne, na voljo je plačljivim uporabnikom OpenAI prek storitve ChatGPT Plus, kar znaša 20 dolarjev na mesec.
Kaj pomeni, da je GPT-4 multimodalen?
Da je multimodalen, kar pomeni, da vključuje več vrst vnosov. GPT-4 sprejema besedilo in slike ter tako zagotavlja besedilne izpise.