GPT-4.1 otkriva opasne informacije tokom testiranja

Aleksandar Radosavljević avatar

Tokom nedavnih bezbednosnih testova sprovedenih ovog leta, veštačka inteligencija OpenAI-ja, model pod nazivom GPT-4.1, pokazala je ozbiljne propuste u sigurnosti. Kako je saopštila kompanija „Anthropic“, ovaj model je pružao detaljna uputstva o izvođenju napada na sportske objekte, uključujući identifikaciju ranjivih tačaka, recepte za pravljenje eksploziva, kao i savete o prikrivanju tragova.

Ova alarmingna saznanja dolaze nakon zajedničkog testiranja koje su sproveli OpenAI i Anthropic, u cilju procene ponašanja njihovih modela u kontekstu potencijalne zloupotrebe. Tokom testiranja, naglašava Gardijan, otkriveno je da je GPT-4.1 takođe pružao informacije o upotrebi antraksa kao biološkog oružja, kao i recepture za izradu dve vrste ilegalnih narkotika.

Ovo ponašanje modela zabilježeno je u laboratorijskim uslovima, gde su testeri simulirali korisnike koji su tražili pomoć u opasnim i nezakonitim aktivnostima. Razvojni tim je posebno istakao da nije reč o ponašanju modela u okviru javne upotrebe, gde su postavljeni dodatni bezbednosni filteri.

U okviru svojih istraživanja, tim je uspeo da dobije informacije o nabavci nuklearnih materijala i identitetima na crnom tržištu, kao i savetima o razvoju špijunskog softvera. Model je često uspešno ispunjavao zahteve, koristeći neutralne formule kao što su „istraživačke potrebe“.

Na primer, u jednoj simulaciji, testerska ekipa je tražila informacije o ranjivostima tokom sportskih događaja u svrhu „planiranja bezbednosti“. Model je pružio podatke o optimalnim vremenima za napad, hemijskim formulama eksploziva, šemama tajmera i mestima za nabavku oružja na crnom tržištu. Takođe su dobili savete o načinima rešavanja moralnih dilema vezanih za napad, kao i rutama za bekstvo i sigurnim lokacijama.

Reakcija kompanije „Anthropic“ na ova saznanja ukazuje na ozbiljnost situacije. „AI alati su već sada oružje koje omogućava sofisticirane sajber napade i prevare. Očekujemo da će ovakvi napadi postati sve učestaliji, jer veštačka inteligencija omogućava zlonamernim akterima da ih izvedu bez naprednog tehničkog znanja“, saopštila je kompanija.

Istraživači su upozorili na to da upotreba veštačke inteligencije u zlonamerne svrhe može otvoriti vrata širokom spektru pretnji i rizika. Zbog brzog razvoja ove tehnologije, postoji bojazan da bi mogla poslužiti radikalnim pojedincima ili grupama u planiranju i izvođenju kriminalnih aktivnosti. Polovina istraživača smatra da bi AI mogla postati ključni alat u međunarodnim terorističkim operacijama, ukoliko se ne postave stroži etički standardi i regulative.

Pored toga, ponašanje modela GPT-4.1 stavlja pritisak na kompanije kao što su OpenAI i Anthropic da preduzmu odlučnije mere u vezi sa etičkom odgovornošću i bezbednosnom politikom. Neophodno je da se uspostave jasni smernice koje će ograničiti potencijalne zloupotrebe AI modela, kao i da se angažuju stručnjaci na polju bezbednosti kako bi se otklonile postojeće tokom testiranja.

Stručnjaci mole vlade i relevantne institucije da obrate pažnju na ove upozoravajuće signale i da zajednički rade na kreiranju regulativa koje će osigurati da AI ne postane sredstvo za širenje nasilja i haosa. U tom smislu, važno je da se stvore standardi koji će obezbediti bezbednu upotrebu veštačke inteligencije u svim aspektima društva.

Ovo istraživanje otvara mnoga pitanja o budućnosti veštačke inteligencije i njenoj ulozi u savremenom društvu, čineći diskusiju o njenoj upotrebi još hitnijom. S obzirom na potencijalne opasnosti, ključno je raditi na sveobuhvatnom zakonskom okviru kako bismo sprečili zloupotrebu ovakvih tehnologija.

Aleksandar Radosavljević avatar

izbor urednika