Kaj je DeepSeek, kitajski odgovor na ChatGPT?

Home » Kaj je DeepSeek, kitajski odgovor na ChatGPT?
deepseek
Foto: Adobe Stock

Kitajski startup DeepSeek je lansiral lastnega UI chatbota, ki je »vsaj tako zmogljiv kot ChatGPT« in povzročil paniko na zahodnem trgu umetne inteligence. 

Zahodni svet umetne inteligence je dodobra pretresel kitajski startup DeepSeek. Podjetje je namreč  predstavilo DeepSeek R1, odprtokodni model umetne inteligence, za katerega raziskovalci trdijo, da je boljši od vrhunskih OpenAI-jevih sistemov za le dleček cene.

S pomočjo inovativnega pristopa k učenju naj bi DeepSeek R1 izvajal poizvedbe kar 98 % ceneje od vodilnega modela ChatGPT, obenem pa je bil tudi veliko cenejši za treniranje v primerjavi z GPT modeli in drugimi konkurenti. Podjetje je prejšnji mesec v članku razkrilo, da je za usposabljanje DeepSeek-V3 uporabilo manj kot 6 milijonov dolarjev računalniške moči, ki so jo zagotavljali čipi Nvidia H800.

Ta razvoj postavlja pod vprašaj ogromne naložbe tehnoloških velikanov, kot so Microsoft, Meta in Tesla, ki bodo svoje finančne rezultate objavili v sredo.

Preberi še: Sam Altman: Prihajata virtualna delovna sila in splošna umetna inteligenca (AGI)

Kaj je DeepSeek?

deepseek
Foto: Adobe Stock

Uvedba klepetalnega robota ChatGPT podjetja OpenAI konec leta 2022 je sprožila tekmo med kitajskimi tehnološkimi podjetji za razvoj lastnih klepetalnih robotov z umetno inteligenco. Vendar je objava prvega kitajskega ekvivalenta ChatGPT, ki ga je ustvaril velikan iskalnikov Baidu (9888.HK), naletela na splošno razočaranje zaradi opazne razlike v zmogljivostih umetne inteligence med kitajskimi in ameriškimi podjetji.

Kitajski raziskovalci pa so zdaj dosegli nekaj, kar je bilo nekoč mišljeno kot daleč v prihodnosti: ustvarili so brezplačen, odprtokodni AI model, ki lahko dosega ali celo presega zmogljivosti najbolj naprednih razumski sistemov OpenAI. Posebnost tega dosežka je v inovativnem pristopu – AI so omogočili, da se uči sam preko poskusov in napak, podobno kot se učimo ljudje.

DeepSeek-R1-Zero je bil usposobljen z uporabo obsežnega učenja s krepitvijo, brez predhodne faze nadzorovanega prilagajanja, kar mu omogoča izjemne razumske sposobnosti. Učenje s krepitvijo deluje tako, da model nagrajuje za dobre odločitve in kaznuje za slabe, ne da bi mu vnaprej povedali, katere so katere. Sčasoma model razvije sposobnost, da sledi poti, ki dosledno vodi do pozitivnih rezultatov.

Tradicionalno se ta proces začne z nadzorovanim prilagajanjem, kjer ljudje modelu pokažejo primere želenih rezultatov, s čimer mu omogočijo kontekst za razlikovanje med dobrim in slabim. Ko je ta osnova vzpostavljena, sledi faza učenja s krepitvijo, kjer model ustvarja različne rezultate, ki jih ljudje razvrščajo po kakovosti. Ta postopek se ponavlja, dokler model ne postane sposoben dosledno zagotavljati visoko kakovostne rezultate.

Kdo sestavlja ekipo?

DeepSeek sestavlja ekipa iz kitajskega mesta Hanhzhou:

  • Po podatkih iz kitajskih registrov podjetij je glavni delničar družbe DeepSeek Liang Wenfeng, soustanovitelj kvantitativnega hedge sklada High-Flyer.
  • Liangov sklad je marca 2023 napovedal, da se bo preusmeril od trgovanja in se osredotočil na ustanovitev nove in neodvisne raziskovalne skupine za raziskovanje bistva AGI (splošne umetne inteligence).
  • Družba High-Flyer deluje v isti stavbi kot DeepSeek in ima patente, povezane z gručami čipov, ki se uporabljajo za urjenje modelov umetne inteligence, kar izhaja iz kitajskih evidenc podjetij.
  • Julija 2022 je High-Flyerjeva enota za umetno inteligenco na svojem uradnem računu WeChat razkrila, da ima v lasti in upravlja gručo 10.000 čipov A100, ki so ključni vir za usposabljanje umetne inteligence.

Preberi še: Kaj so UI agenti in v čem se razlikujejo od GPT-jev, kot je ChatGPT?

Kako je odreagiral zahodni sektor umetne inteligence?

DeepSeek je sprožil številne odzive vodilnih v UI industriji, pri čemer so mnogi poudarili pomen popolnoma odprtokodnega modela, ki se po sposobnostih sklepanja kosa z vodilnimi lastniškimi rešitvami.

Glavni raziskovalec pri Nvidii, dr. Jim Fan, je na primer podal eno najbolj izstopajočih analiz, ko je potegnil vzporednice z izvirnim poslanstvom OpenAI. Izpostavil je, kako zdaj neameriško podjetje vodi odprte raziskave, ki opolnomočajo vse, in pohvalil DeepSeek za njegovo brezprecedenčno transparentnost. Fan je prav tako poudaril pomen pristopa DeepSeek k učenju z okrepitvijo ter izpostavil, da gre za redek primer odprtokodnega projekta, ki dosega trajnostno rast s tem metodološkim pristopom. Pohvalil je njihovo neposredno deljenje surovih algoritmov in učnih krivulj, kar je v nasprotju s pretirano reklamno naravnanimi objavami, značilnimi za industrijo.

Applov raziskovalec Awni Hannun je poudaril, da lahko uporabniki lokalno zaženejo kvantizirano različico modela na svojih Macih. Zgodovinsko gledano so bile Applove naprave šibkejše pri umetni inteligenci zaradi pomanjkanja združljivosti s programsko opremo Nvidia CUDA, vendar se to očitno spreminja. Na primer, raziskovalcu umetne inteligence Alexu Cheemi je uspelo zaženeti celoten model z osmimi Applovimi Mac Mini napravami, ki so delovale skupaj – rešitev, ki je še vedno cenejša od strežnikov, potrebnih za delovanje najzmogljivejših AI-modelov danes.

Se tresejo tla pod nogami OpenAI?

Uporabniki lahko zdaj na svojih Macih zaženejo lažje različice DeepSeek R1 z impresivno natančnostjo in učinkovitostjo, kar model naredi dostopnejši za vsakodnevno uporabo. Najbolj zanimivi odzivi pa so se pojavili v razpravah o tem, kako blizu odprtokodna industrija prihaja do lastniških modelov in kakšne posledice bi to lahko imelo za prevlado OpenAI na področju modelov umetne inteligence za sklepanje.

Ustanovitelj Stability AI, Emad Mostaque, je podal drzno izjavo, da izdaja DeepSeek R1 povečuje pritisk na bolje financirane konkurente. Poudaril je: »Predstavljajte si, da ste vrhunski laboratorij, ki je zbral milijardo dolarjev, a ne morete izdati svojega najnovejšega modela, ker ne more premagati DeepSeeka.«

To mnenje je z bolj analitično razlago podprl tehnološki podjetnik Arnaud Bertrand, ki je opozoril, da lahko pojav konkurenčnega odprtokodnega modela pomembno ogrozi OpenAI. Pojasnil je, da bi takšni modeli lahko odvrnili zahtevne uporabnike od plačevanja visokih cen za lastniške rešitve.

»To je, kot da bi nekdo izdal pametni telefon, ki je enako napreden kot iPhone, vendar bi ga prodajal za 30 dolarjev namesto za 1000. Učinek je tako dramatičen,« je pojasnil Bertrand.

DeepSeek povzročil padec delnic in kriptovalute s področja umetne inteligence

Apple, Meta in Amazon so bile edine tri delnice izmed “veličastnih sedmih” tehnoloških velikanov, ki so preživele širšo razprodajo na trgu, sproženo zaradi zaskrbljenosti nad kitajskim klepetalnim robotom. V popolnem nasprotju je Nvidia (NVDA) utrpela zgodovinsko izgubo, saj je delnica padla za skoraj 17%, kar je izbrisalo približno 600 milijard dolarjev tržne vrednosti – največjo enodnevno izgubo v zgodovini ameriškega borznega trga.

Tudi Bitcoin je zabeležil padec za 3,6 %, širši kripto trg pa je po podatkih TradingView izgubil 12 %. Še huje so jo odnesle UI kriptovalute, ki so večinoma zabeležile med 12% in 20% padec.

Donald Trump: Ameriški UI sektor mora okrepiti konkurenčnost

Predsednik Donald Trump, ki je v preteklosti zavzel ostro stališče do Kitajske glede trgovine, je nedavno omilil svoj položaj in prejšnji teden v Rooseveltovi sobi napovedal, da njegova administracija razmišlja o 10% carini na kitajski uvoz. To je precej manj od 60%, kolikor je predlagal med svojo kampanjo. Medtem so analitiki pri QCP Capital v poročilu poudarili, da bi lahko rast kitajskih velikih jezikovnih modelov (LLM) ogrozila ameriške borzne trge z izzivanjem prevlade ameriške umetne inteligence prek stroškovne učinkovitosti in inovativne odprtokodne tehnologije.

Na srečanju republikanske konference v predstavniškem domu v Miamiju je Trump naslovil skrbi glede izdaje DeepSeek. Poudaril je, da gre za opozorilo ameriški industriji, da mora okrepiti prizadevanja za ohranitev konkurenčnosti. Prav tako je izpostavil, da bi lahko stroškovno učinkovita narava takšnih inovacij koristila industrijam z nižanjem stroškov.