Google je ta teden lansiral lastnega chatbota Gemini, ki pa je požel mešane občutke javnosti. Veliko prahu je dvignilo predvsem razkritje, da zelo odmevna predstavitev modela Gemini AI ni bila povsem pristna.
Kljub vse večji zaskrbljenosti zaradi hitrega razvoja umetne inteligence se tehnološki napredek nadaljuje nezadržno. Samo leto dni po tem, ko je OpenAI predstavil chatbota ChatGPT, je Google napovedal svoj lastni revolucionarni projekt umetne inteligence Gemini, s katerim si želi povrniti položaj vodilne avtoritete na področju tehnologije umetne inteligence. Gemini lahko tako kot ostali chatboti obdeluje besedilo, slike in videoposnetke. To bi lahko pomenilo najvplivnejši razvoj za Google po PageRanku, ki je dramatično dvignil status podjetja v digitalnem svetu.
Google gemini je integriran v Bard
V petek je Gemini za uporabnike v angleščini prvič predstavljen v Googlovem klepetalnem robotu Bard, ki smo ga obravnavali tukaj. Ta začetek zajema več kot 170 držav in ozemelj. Od 13. decembra bodo razvijalci imeli dostop do Geminija prek vmesnika API Googlovega oblaka. Poleg tega bo bolj poenostavljena različica programa Gemini od danes naprej izboljšala predlagane odgovore za sporočanje v pametnih telefonih Pixel 8. Google načrtuje, da bo Gemini v bližnji prihodnosti vključil v druge izdelke, kot so generativno iskanje, oglaševanje in brskalnik Chrome. Najnaprednejša iteracija sistema Gemini bo predvidoma izšla leta 2024, pri čemer bodo opravljene stroge ocene zaupanja in varnosti. Po Googlovih besedah je Geminijeva posebnost naravno multimodalna narava, saj je usposobljen ne le za besedilo, temveč tudi za slike, videoposnetke in zvok. Eli Collins, podpredsednik za produkte Google DeepMind, je na novinarski konferenci poudaril široke in napredne zmogljivosti Geminija.
Google Gemini na volj v 3 modelih:
- Gemini Ultra, največji in najzmogljivejši, za zelo zapletene naloge
- Gemini Pro bo poganjal Googlovega klepetalnega robota Bard, kar naj bi izboljšalo njegove sposobnosti razmišljanja in načrtovanja. Specializirana različica Gemini Pro je vključena tudi v AlphaCode, orodje za kodiranje podjetja Google DeepMind.
- Gemini Nano, za uporabnike sistema Android, ki želijo izdelati aplikacije, ki jih poganja Gemini. Z aplikacijo Gemini Nano lahko na primer zdaj povzemajo posnetke, ki so bili narejeni z aplikacijo Recorder na telefonu Pixel 8 Pro (vendar le v angleščini)
Nova, bolj vizualna perspektiva
Googlove predstavitve sistema Gemini so pokazale njegovo znanje pri interpretaciji vizualnih podatkov. V enem od primerov se je model umetne inteligence odzval na videoposnetek z risbami, ugankami in prošnjami za zamisli o igrah s pomočjo zemljevida sveta. Googlovi raziskovalci so prikazali tudi uporabnost modela Gemini v znanstvenih raziskavah z vprašanji o raziskovalnem članku, ki je vseboval grafe in enačbe. Gemini Pro v večini standardnih primerjalnih testov umetne inteligence presegel model GPT-3.5, ki je prvotno uporabljal ChatGPT.
Gemini Ultra, ki naj bi izšel naslednje leto, je dosegel 90% rezultat v primerjalnem testu MMLU, s čimer je presegel vse druge modele, vključno z GPT-4. Ta primerjalna lestvica ocenjuje modele umetne inteligence na različnih področjih, kot so matematika, zgodovina in pravo. Vodja projekta Collins je poudaril, da je Gemini v širokem spektru primerjalnih testov strojnega učenja dosegel vrhunske rezultate. Za primerjavo, OpenAI-jev GPT-4, ki poganja najnovejšo različico ChatGPT, je ob svoji izdaji močno vplival in spodbudil ponovno oceno potenciala umetne inteligence. Čeprav je bil GPT-4 nadgrajen za obdelavo slik in zvoka, ostaja nejasno, ali je bil njegov osrednji model neposredno usposobljen za te modalitete. ChatGPT uporablja tudi drug model OpenAI za ustvarjanje slik – DALL-E 2, katerega recenzijo si lahko preberete tukaj.
Je bil najbolj odmevni demo predstavitve Google Gemini lažen?
Pa vendar je odmevna predstavitev Google Gemini pustila grenak priokus. Gemini je sprva navdušil v predstavitvenem videoposnetku, toda nato se je razkrilo, da je bila njegova najbolj presenetljiva predstavitev uprizorjena, najverjetneje lažna. Videoposnetek, ki je prikazoval večmodalno razumevanje umetne inteligence pri različnih nalogah, kot sta prepoznavanje predmetov in igranje iger, je bil v resnici sestavljen iz izbranih fotografij in besedilnih pozivov, ne pa iz interakcij v realnem času. Ta uprizorjeni pristop se bistveno razlikuje od nakazane funkcionalnosti v živo, kar sproža vprašanja o zmožnostih modela in Googlovem prikazu njegove tehnologije. Neskladja med videoposnetkom in dejanskimi zmogljivostmi modela poudarjajo omejitve v interakciji v realnem času in zmožnostih obdelave podatkov sistema Gemini.
Googlov Gemini bi lahko pomenil nov razcvet generativne umetne inteligence
V zgodovini umetne inteligence so bila občasna obdobja, imenovana “zime umetne inteligence”, za katera sta bila značilna stagnacija in pomanjkanje sredstev. V teh obdobjih so mnogi verjeli, da je doseganje prave strojne inteligence nepremostljiv izziv. Nato pa se je najprej zgodil ChatGPT. Sprva skromen poskus umetne inteligence za generiranje besedil, je hitro pridobil pozornost zaradi svoje vsestranskosti, od pisanja esejev do reševanja kodnih poizvedb. Njegov uspeh, ki ga je še povečala vključitev GPT-4 podjetja OpenAI, je kljub pomislekom nekaterih strokovnjakov glede hitrega razvoja razburkal tehnološko industrijo.
Googlova napoved Geminija pa pomeni premik na področju umetne inteligence. Za razliko od prejšnjih modelov, ki so temeljili na jeziku, je Gemini “naravno multimodalen” model, ki se lahko uči iz različnih vrst podatkov, vključno z besedilom, zvokom, videom in slikami. Ta pristop nakazuje možen odmik od omejitev besedilno usmerjenih modelov UI, kot je GPT-4, ki se kljub svojim zmožnostim še vedno soočajo z izzivi na področju sklepanja, varnosti in zanašanja na besedilne informacije o fizičnem svetu. Demis Hassabis, ki je vodil razvoj sistema Gemini, je izrazil optimizem glede njegovih edinstvenih funkcij in možnosti za izboljšanje Googlovih izdelkov. Priznal je tudi, da je treba jezikovne modele združiti z drugimi tehnikami umetne inteligence za celovitejše razumevanje. Tudi OpenAI raziskuje širše od svoje obstoječe tehnologije, kot je razvidno iz skrivnostnega projekta Q* in pripomb izvršnega direktorja Sama Altmana o preseganju izključno obsežnih modelov.