Šta je trovanje veštačke inteligencije

Nikoleta Tadić avatar

Seyedali Mirjalili, profesor veštačke inteligencije na Univerzitetu Torrens u Australiji, istražuje problem „trovanja AI-ja“ u članku za The Conversation. Ovaj pojam označava namerno unošenje pogrešnih informacija u veštačku inteligenciju kako bi se narušavao njeno znanje i ponašanje. Cilj takvih napada je da AI počne da greši, donosi netačne zaključke ili čak prikazuje skrivene, zlonamerne funkcije.

Nedavno istraživanje Instituta UK AI Security, Alana Tjuringa i kompanije Anthropic, pokazalo je da je moguće „zatrovati“ model veštačke inteligencije pomoću samo 250 zlonamernih fajlova ubačenih u skup podataka od nekoliko miliona. Ovo otkriće ima ozbiljne implikacije na poverenje u bezbednost AI sistema, jer narušavanje može biti suptilno i bez vidljivih simptoma.

Postoje dve osnovne vrste napada: trovanje podataka i trovanje modela. Trovanje podataka podrazumeva unošenje lažnih informacija tokom procesa učenja, dok se kod trovanja modela direktno menjaju već obučeni sistemi. U oba slučaja, cilj je sličan: smanjenje tačnosti i pouzdanosti.

Mirjalili ilustruje ovaj problem jednostavnim primerom. Ako student koristi AI kao alat za učenje, a u materijalima koje koristi postoje pogrešne informacije, student može verovati da su ti podaci tačni i time napraviti greške na ispitu. Takvi slučajevi upozoravaju na ozbiljnost situacije gde AI može delovati kao pouzdan izvor, dok u stvarnosti širi dezinformacije.

Trovanja se mogu klasifikovati kao direktna i indirektna. Direktni napadi, poznati i kao „backdoor“ napadi, aktiviraju se samo na određene upite. Na primer, AI može pružiti normalan odgovor o javnoj osobi, ali kada se postavi specifičan izraz, može početi da širi uvredljive ili netačne informacije. Indirektni napadi su suptilniji i obično uključuju preplavljanje izvora podataka netačnim informacijama koje AI može početi da tretira kao činjenice.

Posledice ovakvih napada mogu biti dalekosežne. Istraživanja pokazuju da se čak i mala promena u podacima može dramatično odraziti na performanse AI sistema. Na primer, ako se u medicinskom AI sistemu promeni samo 0,001% tokena, to može izazvati ozbiljne greške u tumačenju, čak i kada model izgleda funkcionalno. Eksperimenti sa modelom nazvanim PoisonGPT pokazuju kako AI može izgledati potpuno normalno dok u pozadini širi netačne informacije.

Pored dezinformacija, trovanje AI-ja ima i ozbiljne implikacije za sajber bezbednost. U martu 2023. godine, OpenAI je morao da isključi ChatGPT zbog baga koji je omogućio pristup podacima korisnika. Dodatno, neki umetnici koriste „trovanje“ kao tehniku zaštite svog rada, menjajući svoj digitalni sadržaj tako da AI koji ga preuzima proizvede iskrivljene rezultate.

Mirjalili upozorava da, bez obzira na sve prednosti koje AI donosi, postoji mnogo slabih tačaka u ovoj tehnologiji. Kako se AI sve više koristi u obrazovanju, medijima, zdravstvu i bezbednosti, razumevanje i sprečavanje „trovanja“ postaje ključno, ne samo za programere već i za sve korisnike.

U svetu gde veštačka inteligencija postaje sve prisutnija, važno je razumeti da ona nije ni nepogrešiva ni neuništiva. Kada su njeni temelji, tj. podaci, podložni kontaminaciji, jasno je da „trovanje AI-ja“ nije samo tehnički izazov, već i društvena odgovornost. S obzirom na sve veći značaj AI u našem svakodnevnom životu, potreba za aktivnim merama koje će zaštititi od ovih pretnji postaje sve očiglednija.

Nikoleta Tadić avatar

izbor urednika