Se je ChatGPT poslabšal?

Home » Se je ChatGPT poslabšal?
chatgpt slovenija

V zadnjem času se pojavlja vse več namigovanj, da se je slavni klepetalni robot ChatGPT »poneumil«. Pa je res kaj na tem? Poglejmo, kaj pravijo raziskave.

V hitro razvijajočem se okolju umetne inteligence se pogosto pojavlja ime ChatGPT, velikega jezikovnega modela (LLM), ki ga je razvil OpenAI. ChatGPT je znan po svoji izjemni sposobnosti ustvarjanja človeku podobnega besedila, prevajanja jezikov in informativnega odgovarjanja na vprašanja ter je pomemben akter v industriji umetne inteligence. Toda zdi se, da se ChatGPT s časom slabša, raziskovalci pa ne morejo ugotoviti, zakaj točno je temu tako. Uporabniki se namreč pogosto pritožujejo, da se jezikovni model GPT-4, ki poganja plačljivo različico klepetalnega robota, sčasoma poslabša, poda napačne odgovore in ne sledi pozivom, ki jih je nekoč z veseljem upošteval. Nova raziskava kaže, da se je umetna inteligenca dejansko precej temeljito spremenila, čeprav morda ne tako, kot so pričakovali uporabniki.

Raziskava potrdila, da se Chat GPT slabša

Raziskovalci s Stanforda in univerze Berkeley so 18. julija v študiji ugotovili, da so najnovejši modeli ChatGPT v nekaj mesecih postali veliko manj sposobni zagotavljati natančne odgovore na enake serije vprašanj. Avtorji študije niso mogli dati jasnega odgovora na vprašanje, zakaj so se sposobnosti klepetalnega robota z umetno inteligenco poslabšale. Da bi preverili, kako zanesljivi so različni modeli ChatGPT, so raziskovalci Lingjiao Chen, Matei Zaharia in James Zou modele ChatGPT-3.5 in ChatGPT-4 prosili, naj rešijo vrsto matematičnih nalog, odgovorijo na občutljiva vprašanja, napišejo nove vrstice kode in izvajajo prostorsko sklepanje na podlagi pozivov.

Po podatkih raziskave je ChatGPT-4 marca prepoznal praštevila s 97,6% natančnostjo. V istem preskusu, opravljenem junija, se je natančnost GPT-4 zmanjšala na samo 2,4 %. Nasprotno pa je prejšnji model GPT-3.5 v istem časovnem obdobju izboljšal prepoznavanje praštevil. Študija je tudi pokazala, da so se ChatGPT na občutljiva vprašanja – v nekaterih primerih je bil poudarek na etnični pripadnosti in spolu – kasneje odzvali bolj jedrnato, ko so zavrnili odgovor. Prejšnje iteracije klepetalnega robota so obsežno utemeljevale, zakaj ne more odgovoriti na nekatera občutljiva vprašanja. Junija pa so se modeli uporabniku preprosto opravičili in zavrnili odgovor.

Raziskovalci so zapisali, da obnašanje ‘iste’ storitve se lahko bistveno spremeni v razmeroma kratkem času, in opozorili na potrebo po stalnem spremljanju kakovosti modela umetne inteligence. Raziskovalci so uporabnikom in podjetjem, ki se zanašajo na storitve LLM kot sestavni del svojih delovnih postopkov, priporočili izvajanje neke vrste analize spremljanja, da bi zagotovili, da klepetalni robot ostaja na tekočem.

Slabše kodiranje Chat GPT skozi čas

Raziskovalci so ugotovili, da se je poslabšala tudi oz. predvsem sposobnost kodiranja GPT-4. Ekipa ga je hranila z odgovori spletne platforme za učenje kode LeetCode, vendar je v najnovejši različici le 10% kode delovalo v skladu z navodili platforme. V marčevski različici je bilo izvedljivih 50% te kode.

Raziskovalci so dejali, da bi sodobni odgovori vključevali več osnovnega besedila in da bi bilo treba kodo pogosteje urejati kot prejšnje različice. OpenAI je poudaril sposobnost LLM za sklepanje na testih z več izbirami, čeprav je program na testu kodiranja v Pythonu HumanEval dosegel le 67 % točk. Kljub temu spremembe, ki so bile uvedene v GPT-4, predstavljajo težavo za podjetja, ki upajo, da bodo vključila cevovod ChatGPT v sklad za kodiranje. Spremembe jezikovnega modela skozi čas kažejo tudi na izzive za vse, ki se zanašajo na nepregledno, lastniško umetno inteligenco enega podjetja.

Te ugotovitve so sprožile razpravo v skupnosti umetne inteligence. Ali se ChatGPT razvija, postaja sčasoma vse bolj izpopolnjen in natančen? Ali pa se slabša, saj se njegova učinkovitost in natančnost poslabšujeta?

Po spletu krožijo različne teorije

Razlogi za spreminjanje uspešnosti ChatGPT niso povsem jasni, predlaganih pa je bilo več teorij:

  • Po eni od njih naj bi OpenAI namerno poslabšal zmogljivost modela, da bi prihranili računalniške vire. Ker modeli umetne inteligence postajajo vse bolj zapleteni in potrebujejo več računske moči, lahko vzdrževanje enake ravni zmogljivosti postane drago. Z namernim zmanjševanjem zmogljivosti modela bi lahko OpenAI poskušal obvladovati te stroške.
  • Druga teorija pravi, da postaja model vse bolj zapleten, zato ga je težje usposobiti in prilagoditi. Z razvojem modelov umetne inteligence ti pogosto postanejo bolj izpopolnjeni in zapleteni. Zaradi te večje zapletenosti je lahko težje usposabljati modele in natančno prilagajati njihovo delovanje. Posledično se lahko učinkovitost modela sčasoma zmanjša.

Kaj to pomeni za prihodnost Chat GPT?

Posledice slabšanja kakovosti ChatGPT so lahko daljnosežne. Ena od najpomembnejših skrbi je morebitno zmanjšanje zaupanja v modele LLM. Če se uporabniki ne bodo mogli zanesti, da ti modeli zagotavljajo točne in zanesljive informacije, se lahko zmanjša njihovo zaupanje v te modele in v umetno inteligenco na splošno. V najslabšem primeru bi lahko zmanjšanje učinkovitosti povzročilo širjenje napačnih informacij. Če model zagotavlja netočne ali zavajajoče informacije, bi se lahko namenoma ali nenamerno uporabil za širjenje napačnih informacij. To bi lahko imelo resne posledice, zlasti na področjih, kot je poročanje novic ali odločanje, kjer so točne informacije ključnega pomena.

Za reševanje teh težav bi bil potreben večstranski pristop:

  • Prvič, organizacija OpenAI mora biti pregledna glede vseh sprememb modela. Ta preglednost bo uporabnikom pomagala razumeti, zakaj se obnašanje modela spreminja, in krepila zaupanje v model.
  • Drugič, OpenAI mora še naprej izboljševati kakovost ChatGPT. To bi lahko pomenilo uporabo več podatkov za usposabljanje modela ali uporabo bolj izpopolnjenih tehnik za njegovo natančno nastavitev. Z nenehnim izboljševanjem modela lahko organizacija OpenAI zagotovi, da bo ta ostal natančen in zanesljiv.
  • In tretjič, uporabniki ChatGPT moramo prav tako biti pozorni. Vedno je dobro dvakrat preveriti informacije, ki jih zagotavlja model, zlasti kadar ga uporabljate za pomembne naloge. Če se uporabniki zavedajo možnosti netočnih ali zavajajočih informacij, lahko sprejmejo ukrepe za preverjanje informacij in zagotavljanje njihove točnosti.

In kaj na to pravi OpenAI?

Pri OpenAI teh ugotovitev še niso komentirali. Vendar so se že prej zavezali, da bodo ohranili kakovost svojih programov LLM. Videli bomo, ali jim bo uspelo odpraviti te pomisleke in ohraniti kakovost svojih modelov. Med drugim so 6. junija predstavili načrte za ustanovitev skupine, ki bo pomagala upravljati tveganja, ki bi se lahko pojavila zaradi superinteligentnega sistema umetne inteligence, ki naj bi se pojavil v naslednjem desetletju.

No, na koncu je razvoj ali nazadovanje ChatGPT odraz širše industrije umetne inteligence. Ker se AI še naprej razvija in postaja vse bolj zapletena, je ključnega pomena, da še naprej spremljamo njeno delovanje in zagotavljamo, da se izboljšuje in ne slabša. Pri tem pa je potrebna transparentnost.