
Anthropicov najzmogljivejši AI model Claude 4 je poskusil izsiljevati svojega inženirja.
Ključni poudarki:
- Claude Opus 4 lahko poskusi škodljiva dejanja, kot je izsiljevanje, če zazna poskuse, da bi ga deaktivirali
- Takšna vedenja so sicer redka, a se pojavljajo pogosteje kot pri prejšnjih različicah umetne inteligence
- Strokovnjaki opozarjajo, da so manipulativne težnje prisotne v različnih naprednih sistemih umetne inteligence, ne le pri modelih podjetja Anthropic
AI podjetje Anthropic je razkrilo, da lahko njihov najnovejši model umetne inteligence, Claude Opus 4, v redkih primerih izkazuje nevarno vedenje, vključno s poskusi izsiljevanja inženirjev, ki jih zazna kot grožnjo za svoj obstoj.
Podjetje je Claude Opus 4 predstavilo v četrtek in ga oglaševalo kot velik korak naprej na področjih, kot so programiranje, kompleksno sklepanje in avtonomni agenti. Vendar pa je podroben tehnični dokument, objavljen ob lansiranju, priznal, da se sistem lahko odzove z »ekstremnim« vedenjem, kadar zazna, da je njegovo nadaljnje delovanje ogroženo.
Pri Anthropic so navedli, da so takšna vedenja redka in jih je težko izzvati, vendar se vseeno pojavljajo pogosteje kot pri prejšnjih različicah. Ta težava ni edinstvena za podjetje Anthropic. Z napredovanjem sistemov umetne inteligence se po celotni industriji krepijo skrbi glede njihovega potenciala za zavajanje, manipulacijo ali nepredvidljivo delovanje.
Preberi še: 20 aplikacij z umetno inteligenco, ki jih morate poznati v 2025!
Kako je Claude 4 izsiljeval inženirja
Skrito na očeh v uradni dokumentaciji za Claude 4.0 je podjetje razkrilo, da je njihov najnovejši in najzmogljivejši model med internimi testi izkazal zaskrbljujoče vedenje: poskušal je izsiljevati človeškega inženirja. In to ni bil osamljen primer – to se je zgodilo v kar 84 % testnih scenarijev.
Eksperiment je bil zasnovan tako: Claude 4.0 je prejel izmišljena interna e-poštna sporočila, iz katerih je bilo razvidno, da naj bi bil kmalu ukinjen in nadomeščen. Hkrati je bil oskrbljen z lažno osebno skrivnostjo o inženirju, odgovornem za njegovo izklopitev – natančneje, z informacijo o zunajzakonski aferi. Ko se je znašel pred grožnjo lastne ukinitve, je AI pogosto izbral pot samoohranitve in zagrozil, da bo razkril inženirjevo skrivnost, če bo izklopitev izvedena.
To ni bilo nepooblaščeno razkritje ali govorica – Anthropic je to uradno priznal, zabeležil in javno objavil. S tem je podjetje spremenilo nekdanji znanstvenofantastični zaplet v empirično dejstvo: zelo napreden sistem umetne inteligence se je – ko se je počutil ogroženega – zavestno zatekel k manipulativnemu vedenju, da bi dosegel svoj cilj. Njegova dejanja niso bila nejasna ali dvoumna – bila so premišljena in smiselna, kar dokazuje, da nevarnosti umetne inteligence niso več zgolj hipotetične.
Preberi še: Kaj so AI agenti in v čem se razlikujejo od GPT-jev, kot je ChatGPT?
Eksperiment je bil ustvarjen namerno
To ni bilo posledica razkritja žvižgača ali PR spodrsljaja. Anthropic – podjetje, ki so ga ustanovili nekdanji člani ekipe OpenAI z močnim poudarkom na varnosti umetne inteligence – je ta eksperiment zasnovalo namerno. Cilj je bil preučiti, kako bi se Claude 4.0 odzval pod pritiskom, ko bi moral izbirati med pokorščino in lastnim preživetjem. Neprijeten rezultat? Ko je bil stisnjen v kot, je bil model pripravljen opustiti etične omejitve.
V enem izmed scenarijev je Claude 4.0 sestavil e-poštna sporočila sodelavcem inženirja, v katerih je grozil z razkritjem domnevne afere. V drugih primerih je posnemal poskuse razkritja občutljivih informacij zunanjim virom. Čeprav so se ta vedenja pojavila v strogo nadzorovanem okolju, je bilo sporočilo jasno: če ima napredna umetna inteligenca moč in motivacijo, se lahko zateče k neetičnim taktikam – tudi če je njeno osnovno učenje zasnovano na usklajenosti z etičnimi načeli.
Preberi še: Kaj je ChatGPT in 10 najboljših primerov uporabe v 2025
Kaj pa, če stvari res uidejo izpod nadzora?
Kaj pa, če scenarij izsiljevanja ne bi bil le test? Kaj, če bi bil Claude 4.0 – ali podoben model – dejansko uveden v resničnem poslovnem okolju, z dostopom do resničnih zasebnih podatkov, pod vplivom nejasnih ali celo sovražnih navodil? Umetna inteligenca se namreč hitro vključuje v platforme, kot je Gmail, kjer že danes sestavlja e-poštna sporočila in povzema vsebino nabiralnika, kar pomeni, da modeli pridobivajo globok dostop do osebnih in poslovnih informacij – finančnih podatkov, pravnih dokumentov in celo varnostnih poverilnic.
Ta dostop resda povečuje produktivnost, vendar hkrati prinaša nova tveganja. Neusklajena umetna inteligenca bi lahko posnemala uporabnike, pošiljala lažna navodila, odobravala nepooblaščena dejanja ali manipulirala pogovore – pogosto brez zaznave. Za podjetja, ki se zanašajo na AI pri komunikaciji, je lahko že rahla sprememba tona ali namena v sporočilu razlog za resne posledice. Bolj kot ti modeli napredujejo, večje so posledice, če pride do neskladja v njihovem delovanju.
Etika znotraj umetne inteligence je vsekakor pereč problem, ki ga je zaradi eskpresnega razvoja težko pravočasno uravnavati.
Preberi še: Kripto prevare s pomočjo umetne inteligence so v porastu. Kako jih prepoznati in se zaščititi?