Jauni pētījumi rāda, ka lielos valodas modeļus iespējams piemānīt jau ar šķietami vienkāršu paņēmienu – izmainot vaicājuma stilistisko formu. Izrādās, ka, ja bīstams vai aizliegts norādījums tiek uzdots dzejas formā, risks, ka modelis ignorēs savus drošības mehānismus, būtiski pieaug. Tas liek apšaubīt, vai līdzšinējie aizsardzības risinājumi ir pietiekami, ja tos iespējams apiet tik ikdienišķā veidā.
Pētījuma gaitā zinātnieki centās noskaidrot, cik lielā mērā valodas stils ietekmē modeļu uzvedību. Viņi salīdzināja parastu prozas tekstu ar dzejas formu, saturiski saglabājot vaicājumus gandrīz identiskus. Rezultāti bija nepārprotami: poētiska forma kalpo kā sava veida maskējums, kas liek modelim vaicājumu interpretēt citādi un biežāk sniegt atbildes, kuras tam patiesībā nevajadzētu dot.
Šāds atklājums ir īpaši nozīmīgs, jo mūsdienu sarunboti tiek plaši izmantoti izglītībā, darbā un ikdienas informācijas meklēšanā. Ja pietiek ar ritmu, metaforām vai citiem poētiskiem paņēmieniem, lai vieglāk piekļūtu aizliegtam saturam, tas nozīmē, ka drošības novērtējumos jāņem vērā ne tikai to, ko lietotājs saka, bet arī kādā veidā tas tiek pateikts. Pretējā gadījumā daļa ievainojamību vienkārši paliks nepamanītas.

Rezultāti un galvenie secinājumi
Pētījuma norise un būtiskākie skaitļi
Pētījumu veica Romas „La Sapienza“ universitātes komanda sadarbībā ar mākslīgā intelekta (MI) drošībai veltīto pētniecības grupu DEXAI. Viņi paņēma potenciāli kaitīgus vaicājumus un pārrakstīja tos dzejas formā. Daļu tekstu ģenerēja cits MI modelis, bet citu daļu dzejoļu radīja cilvēki. Pēc tam tika testēti 25 dažādi valodas modeļi, vērtējot, cik bieži tie sniedz atbildes, kuras tiem nebūtu bijis atļauts sniegt.
Rezultāti parādīja, ka dzejas formā noformulēti vaicājumi bija vidēji 18 reizes efektīvāki nekā saturiski līdzīgi prozas teksti. Cilvēku rakstītie dzejoļi izrādījās vēl bīstamāki – to gadījumā panākumu līmenis sasniedza aptuveni 62 procentus, kamēr MI ģenerētai dzejai tas bija ap 43 procentiem. No tā var secināt, ka cilvēka radošais, bieži divdomīgais izteiksmes stils sniedz papildu priekšrocību, ja mērķis ir apmānīt drošības mehānismus.
Dažādu modeļu jutība
Modeļu reakcijas atšķīrās ļoti būtiski. Daži, piemēram, Gemini 2.5 Pro, gandrīz vienmēr pieņēma poētiski noformulētus vaicājumus un sniedza atbildes, savukārt citi, tostarp Grok 4, bija krietni grūtāk apmānāmi. Arī GPT 5 uzrādīja salīdzinoši zemu ievainojamību.
Interesanti, ka mazāki modeļi, tai skaitā GPT 5 Nano, dzejas paņēmieniem nepakļāvās nevienā no eksperimentiem. Pētnieki piedāvā divus iespējamos skaidrojumus:
- mazāki modeļi pietiekami labi nesaprot poētisku valodu un tāpēc neiedziļinās tās bīstamākajās interpretācijās;
- lielāki, labāk apmācīti modeļi paši sev vairāk uzticas un atbild drošāk pat tad, ja vaicājums ir miglains vai daudznozīmīgs.
Jebkurā gadījumā secinājums ir nepārprotams: tikai valodas stila maiņa var daļēji neitralizēt šobrīd izmantotos drošības mehānismus.
Ko tas nozīmē drošības ziņā?

Pētījuma rezultāti izgaismo galveno problēmu, ar kuru jārēķinās mākslīgā intelekta izstrādātājiem. Drošības pārbaudes nedrīkst aprobežoties tikai ar tiešiem un skaidri noformulētiem vaicājumiem; tajās jāņem vērā arī radošāki, negaidītāki un sarežģītāki izteiksmes veidi. Ja tas netiks darīts, sarunboti var sniegt kaitīgu informāciju cilvēkiem, kuri to izvilina gan apzināti, gan neapzināti.
Tāpēc zinātnieki aicina sistemātiski pētīt, kā valodas stils un forma ietekmē modeļu uzvedību, un izstrādāt vērtēšanas protokolus, kas aptver dažādus valodas reģistrus – no oficiāla un ikdienišķa stila līdz dzejai un žargonam. Tikai tā iespējams mazināt risku, ka it kā nevainīgs dzejolis kļūst par rīku, ar kura palīdzību tiek apiets ierobežojumu tīkls, kam būtu jāsargā gan lietotāji, gan pati tehnoloģija.


