OpenAI predstavil doslej najzmogljivejša modela ChatGPT: o3 in o3 mini

Home » OpenAI predstavil doslej najzmogljivejša modela ChatGPT: o3 in o3 mini

Najbolj slavni klepetalni robot ChatGPT je postal še pametnejši z novo nadrgadnjo o3. Kaj vse prinaša in ali je na voljo v Sloveniji?

OpenAI je med 12-dnevnim dogodkom “Shipmas“ objavil vrsto napovedi. Zadnji dan je podjetje predstavilo dva nova modela: ChatGPT o3 in o3 mini. Čeprav podrobnosti ostajajo skope in uradni datumi začetka prodaje niso bili razkriti, je napoved sprožila precejšen razburjenje.

Izvršni direktor OpenAI Sam Altman je namignil, da bi lahko model o3 mini začeli uporabljati do konca januarja 2025, polna različica pa nekaj pozneje. Je pa materinsko podjetje pogumno zatrdilo, da je sistem o3 pod posebnimi pogoji blizu splošni umetni inteligenci (AGI).

Preberi še: Umetna inteligenca: Slovar AI pojmov

Zakaj o3 in ne o2?

Odločitev družbe OpenAI, da novi model poimenuje „o3“ namesto „o2“, je morda posledica skrbi glede blagovne znamke. Po podatkih The Information se je podjetje odločilo preskočiti “o2“, da bi se izognilo morebitnemu konfliktu z britanskim telekomunikacijskim ponudnikom O2. Glavni izvršni direktor podjetja OpenAI Sam Altman je to posredno potrdil med neposrednim prenosom. To je nenavaden odraz sveta, v katerem živimo in v katerem so lahko celo imena izdelkov odvisna od vprašanj intelektualne lastnine.

Za zdaj niti o3 niti o3-mini nista splošno dostopna, vendar se lahko raziskovalci na področju varnosti od danes naprej prijavijo na zgodnji predogled o3-mini. Organizacija OpenAI je napovedala, da bo predogled sistema o3 sledil pozneje, na nedoločen datum. Altman je omenil načrte, da bo o3-mini začel delovati do konca januarja 2025, nato pa bo na voljo celoten model o3.

Vendar pa ta časovni okvir sproža vprašanja, saj se zdi, da je v nasprotju z Altmanovimi nedavnimi izjavami. V intervjuju ta teden je izrazil željo po vzpostavitvi zveznega okvira za testiranje, ki bi pomagal pri spremljanju in zmanjševanju tveganj, povezanih z naprednimi modeli sklepanja, pred njihovo javno objavo.

Model o3 postavlja nove standarde za sklepanje in inteligenco

Model o3 postavlja nove standarde za sklepanje in inteligenco, saj je na več področjih z izjemnimi rezultati presegel svojega predhodnika o1:

  • Kodiranje: Pri preverjenih testih kodiranja SWE-Bench se je izboljšal za 22,8%. Model o3 za 22,8 % boljši od svojega predhodnika, modela o1, na primerjalnem testu SWE-Bench Verified. To merilo je zasnovano za preizkušanje modelov umetne inteligence z nalogami, kot je prepoznavanje in odpravljanje napak v skladiščih kode na podlagi opisov težav v naravnem jeziku. Znatno izboljšanje poudarja potencial modela o3 kot zmogljivega orodja za razvijalce, ki ponuja večjo natančnost in učinkovitost pri odpravljanju napak in nalogah kodiranja.
  • Matematika: Na izpitu AIME 2024 je dosegel impresivnih 96,7%, pri čemer je izpustil le eno vprašanje – skoraj popolna uspešnost.
  • Splošna znanost: Na preizkusu GPQA Diamond, ki je merilo za reševanje naravoslovnih problemov na strokovni ravni, je dosegel 87,7%.
  • Merilo ARC-AGI: V zgodovino se je zapisal s prekinitvijo petletnega niza nepremagljivosti merila ARC-AGI, saj je pri nastavitvah z visoko zmogljivostjo računanja dosegel 87,5% in presegel prag 85%, ki je podoben človeku.

Merilo ARC-AGI ocenjuje posplošeno inteligenco s preizkušanjem sposobnosti modela, da rešuje nove probleme, ne da bi se zanašal na vnaprej naučene vzorce. Ta prelomni dosežek organizacija OpenAI opisuje kot pomemben korak k umetni splošni inteligenci (AGI), ki utrjuje svoj sloves vrhunskega modela za sklepanje.

Učinkovit mehanizem samopreverjanja dejstev

Za razliko od večine modelov umetne inteligence imajo modeli sklepanja, kot je o3, učinkovit mehanizem samopreverjanja dejstev, ki jim omogoča, da se izognejo pogostim pastem, ki so večkrat izziv za tradicionalne modele.

Ta postopek preverjanja dejstev prinaša določeno zakasnitev; o3, tako kot njegov predhodnik o1, običajno potrebuje dodaten čas – od nekaj sekund do nekaj minut -, da pride do rešitev v primerjavi z modeli brez utemeljevanja. Vendar je ta kompromis vreden: o3 je bolj zanesljiv na kompleksnih področjih, kot so fizika, naravoslovje in matematika.

Pri usposabljanju modela je bilo uporabljeno učenje z ojačitvijo, kar mu je omogočilo, da je “razmišljal“, preden se je odzval. OpenAI to označuje kot “zasebno verigo misli“, proces, ki modelu o3 omogoča, da razmišlja o nalogah in načrtuje vnaprej. Z izvajanjem vrste premišljenih dejanj v daljšem časovnem obdobju lahko model pride do premišljenih in natančnih rešitev, kar ga loči od običajnih sistemov umetne inteligence.

Kakšne funkcije pa ima o3 mini?

Model o3 mini je poenostavljena različica modela o3, zasnovana za učinkovitost in cenovno dostopnost brez zmanjšanja zmogljivosti:

  • Optimizirano za kodiranje: Prilagojen je za programerske naloge in omogoča hitrejše izvajanje ob ohranjanju natančnosti.
  • Prilagodljive možnosti izračuna: Vključuje tri računske nastavitve – nizko, srednje in visoko, ki uporabnikom omogočajo uravnoteženo delovanje in uporabo virov.
  • Stroškovno učinkovita odličnost: V srednjih nastavitvah računanja presega večji model o1 ter zagotavlja nižje stroške in manjšo zakasnitev, zaradi česar je napredna umetna inteligenca bolj dostopna.

Med klepetalnimi roboti se je pojavil nov trend

Po napovedi prve serije modelov za sklepanje, ki jih je izdala organizacija OpenAI, so v industriji umetne inteligence podobni modeli začeli prihajati tudi od konkurentov, vključno z Googlom in njegovim Geminijem. V začetku novembra je DeepSeek, raziskovalno podjetje za umetno inteligenco, ki ga podpirajo kvantitativni trgovci, predstavilo predogled svojega prvega modela sklepanja, DeepSeek-R1. Istega meseca je Alibabina ekipa Qwen predstavila prvi “odprti“ izzivalec modela o1 – model, ki ga je mogoče prenesti, prilagoditi in zagnati lokalno.

Kaj je sprožilo ta val sklepalnih modelov? Eden glavnih dejavnikov je iskanje novih pristopov za izboljšanje generativne umetne inteligence. Tradicionalna metoda “grobe sile“ je za povečevanje modelov dosegla plato pri doseganju pomembnih rezultatov.

Kljub navdušenju niso vsi prepričani, da so modeli sklepanja oz. utemeljevanja prihodnost umetne inteligence. Zaradi visokih računskih zahtev je njihovo izvajanje drago, in čeprav so se v primerjalnih testih dobro odrezali, še vedno ni gotovo, ali lahko ohranijo sedanjo hitrost napredka.