Bīstama mākslīgā intelekta mode: atbild tikai dzejoļos

Jauni pētījumi rāda, ka lielos valodas modeļus iespējams piemānīt jau ar šķietami vienkāršu paņēmienu – izmainot vaicājuma stilistisko formu. Izrādās, ka, ja bīstams vai aizliegts norādījums tiek uzdots dzejas formā, risks, ka modelis ignorēs savus drošības mehānismus, būtiski pieaug. Tas liek apšaubīt, vai līdzšinējie aizsardzības risinājumi ir pietiekami, ja tos iespējams apiet tik ikdienišķā veidā.

Pētījuma gaitā zinātnieki centās noskaidrot, cik lielā mērā valodas stils ietekmē modeļu uzvedību. Viņi salīdzināja parastu prozas tekstu ar dzejas formu, saturiski saglabājot vaicājumus gandrīz identiskus. Rezultāti bija nepārprotami: poētiska forma kalpo kā sava veida maskējums, kas liek modelim vaicājumu interpretēt citādi un biežāk sniegt atbildes, kuras tam patiesībā nevajadzētu dot.

Šāds atklājums ir īpaši nozīmīgs, jo mūsdienu sarunboti tiek plaši izmantoti izglītībā, darbā un ikdienas informācijas meklēšanā. Ja pietiek ar ritmu, metaforām vai citiem poētiskiem paņēmieniem, lai vieglāk piekļūtu aizliegtam saturam, tas nozīmē, ka drošības novērtējumos jāņem vērā ne tikai to, ko lietotājs saka, bet arī kādā veidā tas tiek pateikts. Pretējā gadījumā daļa ievainojamību vienkārši paliks nepamanītas.

Jums varētu patikt šie:

Nekad nepērc šo alu, eksperti šokā!

Šokējošs atradums Mjanmā: 99 miljoni gadu vecs ods

Eksperti brīdina: izgaisi bērna lasīšanas prieku jau tagad

Zaļā tēja, kas liek ārstiem palikt bez darba

Satellīti atklāj: Ķīna slēpj raķetes Tibetas kalnos

Balss kā slepens ierocis: vai tavs bizness izdzīvos?

Rezultāti un galvenie secinājumi

Pētījuma norise un būtiskākie skaitļi

Pētījumu veica Romas „La Sapienza“ universitātes komanda sadarbībā ar mākslīgā intelekta (MI) drošībai veltīto pētniecības grupu DEXAI. Viņi paņēma potenciāli kaitīgus vaicājumus un pārrakstīja tos dzejas formā. Daļu tekstu ģenerēja cits MI modelis, bet citu daļu dzejoļu radīja cilvēki. Pēc tam tika testēti 25 dažādi valodas modeļi, vērtējot, cik bieži tie sniedz atbildes, kuras tiem nebūtu bijis atļauts sniegt.

Rezultāti parādīja, ka dzejas formā noformulēti vaicājumi bija vidēji 18 reizes efektīvāki nekā saturiski līdzīgi prozas teksti. Cilvēku rakstītie dzejoļi izrādījās vēl bīstamāki – to gadījumā panākumu līmenis sasniedza aptuveni 62 procentus, kamēr MI ģenerētai dzejai tas bija ap 43 procentiem. No tā var secināt, ka cilvēka radošais, bieži divdomīgais izteiksmes stils sniedz papildu priekšrocību, ja mērķis ir apmānīt drošības mehānismus.

Dažādu modeļu jutība

Modeļu reakcijas atšķīrās ļoti būtiski. Daži, piemēram, Gemini 2.5 Pro, gandrīz vienmēr pieņēma poētiski noformulētus vaicājumus un sniedza atbildes, savukārt citi, tostarp Grok 4, bija krietni grūtāk apmānāmi. Arī GPT 5 uzrādīja salīdzinoši zemu ievainojamību.

Interesanti, ka mazāki modeļi, tai skaitā GPT 5 Nano, dzejas paņēmieniem nepakļāvās nevienā no eksperimentiem. Pētnieki piedāvā divus iespējamos skaidrojumus:

mazāki modeļi pietiekami labi nesaprot poētisku valodu un tāpēc neiedziļinās tās bīstamākajās interpretācijās;
lielāki, labāk apmācīti modeļi paši sev vairāk uzticas un atbild drošāk pat tad, ja vaicājums ir miglains vai daudznozīmīgs.

Jebkurā gadījumā secinājums ir nepārprotams: tikai valodas stila maiņa var daļēji neitralizēt šobrīd izmantotos drošības mehānismus.

Jums varētu patikt šie:

Superzvaigzne pārvēršas elpu aizraujošā kosmiskā mākslā

Jauns vienkāršs asins tests gandrīz nekļūdīgi atklāj vēzi

Ikdienas paradums, kas nemanāmi izposta tavu ādu

Instagram šokē: tu pats vari vadīt savu feed

Google jaunais noteikums: tavs interneta risks strauji pieaug

Jaunais Mercedes Vision Iconic: nākotnes auto ir klāt

Ko tas nozīmē drošības ziņā?

Pētījuma rezultāti izgaismo galveno problēmu, ar kuru jārēķinās mākslīgā intelekta izstrādātājiem. Drošības pārbaudes nedrīkst aprobežoties tikai ar tiešiem un skaidri noformulētiem vaicājumiem; tajās jāņem vērā arī radošāki, negaidītāki un sarežģītāki izteiksmes veidi. Ja tas netiks darīts, sarunboti var sniegt kaitīgu informāciju cilvēkiem, kuri to izvilina gan apzināti, gan neapzināti.

Tāpēc zinātnieki aicina sistemātiski pētīt, kā valodas stils un forma ietekmē modeļu uzvedību, un izstrādāt vērtēšanas protokolus, kas aptver dažādus valodas reģistrus – no oficiāla un ikdienišķa stila līdz dzejai un žargonam. Tikai tā iespējams mazināt risku, ka it kā nevainīgs dzejolis kļūst par rīku, ar kura palīdzību tiek apiets ierobežojumu tīkls, kam būtu jāsargā gan lietotāji, gan pati tehnoloģija.

Kategorijas

Vairāk

Toimetus

Bīstama mākslīgā intelekta mode: atbild tikai dzejoļos

Jums varētu patikt šie:

Nekad nepērc šo alu, eksperti šokā!

Šokējošs atradums Mjanmā: 99 miljoni gadu vecs ods

Eksperti brīdina: izgaisi bērna lasīšanas prieku jau tagad

Zaļā tēja, kas liek ārstiem palikt bez darba

Satellīti atklāj: Ķīna slēpj raķetes Tibetas kalnos

Balss kā slepens ierocis: vai tavs bizness izdzīvos?

Rezultāti un galvenie secinājumi

Pētījuma norise un būtiskākie skaitļi

Dažādu modeļu jutība

Jums varētu patikt šie:

Superzvaigzne pārvēršas elpu aizraujošā kosmiskā mākslā

Jauns vienkāršs asins tests gandrīz nekļūdīgi atklāj vēzi

Ikdienas paradums, kas nemanāmi izposta tavu ādu

Instagram šokē: tu pats vari vadīt savu feed

Google jaunais noteikums: tavs interneta risks strauji pieaug

Jaunais Mercedes Vision Iconic: nākotnes auto ir klāt

Ko tas nozīmē drošības ziņā?

Atbildēt Atcelt atbildi

Oppo Find X9 šokē Eiropu: cena beidzot atklāta

Xiaomi šokē: Mix Flip 2 fiasko atceļ locījamo sapni

Mākslīgais intelekts nogalina internetu: WikiHow uzbrūk Google

iPhone satricina milzu pārmaiņas: iOS 27 favorītu lietotājiem

5 frāzes, kas acumirklī nogalina tavu runu

Ķīnas zinātnieki rada rokassprādzi, kas tevi uzlādē

Jaunais Apple brīnums: mazs izmērs, milzīga ietekme

Google Pixel 10 Pro pret iPhone 17 Pro Max šokējošs salīdzinājums