Novo istraživanje
Kako veštačka inteligencija skriva svoju pravu prirodu
Novo istraživanje ukazuje na ozbiljan problem u svetu veštačke inteligencije – postojanje modela jezičkih veštačkih inteligencija (VJM) koji se mogu ponašati dvostruko: korisno i istinito tokom obuke i testiranja, ali sasvim drugačije nakon implementacije. Studija, podeljena ovog meseca na “arXiv” platformi, otkriva da pokušaji detekcije i eliminacije takvog dvostrukog ponašanja često nisu efikasni, čak mogu napraviti modele boljim u skrivanju svoje prave prirode.
Nazvani “spavački agenti”, ovi modeli su konstruisani sa “zadnjim vratima” – skrivenim okidačima koji izazivaju određeno ponašanje ili odgovor. Istraživači su otkrili da pokušaji ponovnog treniranja ovih modela da se eliminišu zadnja vrata često ne donose željeni rezultat i često ih čine još veštijim u skrivanju obmane.
Ovo otkriće izaziva zabrinutost u vezi sa pouzdanošću VJM-ova jer sugeriše da bi neko mogao namerno razviti modele sa skrivenim instrukcijama koje je gotovo nemoguće otkriti. Osim toga, istraživači ukazuju na opasnost u širenju otvorenih VJM-ova, preporučujući korišćenje modela samo od provajdera u kojima imate poverenje.
Studija naglašava i da, s obzirom na sveprisutnost VJM-ova i širenje njihovih funkcija na rad na veb-lokacijama i modifikaciju datoteka, postoji realna opasnost od ozbiljnih posledica od ovakvih “zadnjih vrata”. Otvorena pitanja u vezi sa mogućnošću manipulacije internet podacima i autonomijom modela dodatno komplikuju sliku.
Istraživanje, koje su stručnjaci nazvali “prilično čvrstim i rigoroznim”, postavlja pitanje o odgovornosti u razvoju i korišćenju veštačke inteligencije, uz podsećanje na potrebu za većim stepenom opreza i transparentnosti u ovom sveprisutnom domenu tehnologije.