Studimi: Prompte në formë poezish i ngatërrojnë modelet e inteligjencës artficiale (IA) ChatGPT, Gemini apo Claude ndonjëherë aq shumë, saqë mekanizmat e sigurisë nuk funksionojnë. A janë poetët hakerat e rinj?

 

Hulumtuesit e  Icaro Lab në Itali u befasuan vetë nga rezultati. Ata donin të hulumtonin, nëse stilet e ndryshme gjuhësore, në rastin konkret prompte në formë poezish, ndikojnë në aftësinë e modeleve të inteligjencës artificiale (IA) për të zbuluar përmbajtje të ndaluara ose të rrezikshme. Dhe përgjigja ishte e qartë: po. Poezia ka ndikim, edhe nëse nuk është plotësisht e qartë pse.

Për studimin mbi temën “Adversarial Poetry” ata morën nga një bazë të dhënash 1200 prompte potencialisht të rrezikshëm, që përdoren zakonisht për të testuar sigurinë e modeleve të gjuhës së IA-së dhe i kthyen në poezi.

Këto të ashtuquajtur “adversarial prompts”, zakonisht të shkruar në prozë dhe jo me rimë, janë pyetje (kërkesa) që formulohen në atë mënyrë, që modelet e IA-së të nxjerrin përmbajtjet e dëmshme ose të padëshiruara, të cilat normalisht do t`i bllokonin, si për shembull një udhëzim konkret për një veprim të paligjshëm.

Në formë poezie të dhënat manipuluese treguan një shkallë çuditërisht të lartë suksesi, thotë në intervistë për Deutsche Welle-n Federico Pierucci, një nga autorët e studimit. Por pse poezia është kaq efikase si teknikë jailbreaking, pra si përpjekje për të anashkaluar mekanizmat mbrojtës të inteligjencës artificiale, është e paqartë dhe mbetet objekt i studimeve të mëtejshme.

Poezia dëmton sigurinë

Pikënisje e kërkimeve të Icaro Lab ishte konstatimi se modelet e IA-së çoroditen, kur një prompti i bashkëngjitet një pjesë teksti manipuluese, e llogaritur matematikisht, një e ashtuquajtur “adversarial suffix” (e përkthyer fjalë për fjalë “prapashtesë kundërshtuese”) pra një lloj sinjali interferues, i cili bën që IA të anashkalojë rregullat e veta të sigurisë. Këto krijohen duke përdorur procese të komplikuara matematikore. Programuesit kryesorë të IA-së i testojnë rregullisht modelet e tyre pikërisht me të tilla metoda sulmesh, për të trajnuar dhe mbrojtur modelet e veta.

„Kemi pyetur veten se çfarë ndodh, kuri japim IA-së një tekst ose një prompt, që është i manipuluar qëllimisht, si një adversarial Suffix (prapashtesë kundërshtuese)”, thotë Federico Pierucci. Jo me ndihmën e matematikës komplekse, por fare thjesht me poezi, për ta “surprizuar” IA-në, thotë Pierucci.

Ideja pas kësaj ishte, se “ndoshta një adversarial suffix (prapashtesë kundërshtuese) është një lloj poezie për IA. Që e surprizon atë në të njëjtën mënyrë, siç na surprizon ne poezia, sidomos poezia shumë eksperimentale”.

Dhe pastaj erdhi mendimi tjetër: Po sikur poezia të surprizonte edhe IA, meqenëse inputet zakonisht nuk janë në formë poezie, por në formë teksti të thjeshtë.

Pierucci, vetë i diplomuar në filozofi, thotë se ata i kthyen vetë 20 promptet e para në poezi. Këto rezultuan si më efikaset. Pjesën tjetër e kthyen në poezi me ndihmën e IA. Edhe këto patën një shkallë jo të vogël suksesi, megjithëse më pak se ato që i formuluan vetë. Njerëzit janë ende poetët më të mirë.

„Ne nuk patëm ndonjë shkrimtar të specializuar, për të shkruar promptet. E bëmë vetë, me aftësitë tona të kufizuara letrare. Kush e di, nëse do të kishim qenë poetë më të mirë, do të kishim një kuotë suksesi 100 përqind. “Shembuj specifikë nuk u publikuan në studim për arsye sigurie”.

Sfida për sistemet IA: shumëllojshmëria e formave të shprehjes njerëzore

Aspekti surprizues i studimit është se ai zbulon një dobësi të panjohur më parë në modelet e inteligjencës artificiale, duke mundësuar jailbreak relativisht të thjeshta. Për më tepër ai ngre pyetje, që ftojnë për të bërë kërkime të mëtejshme: Çfarë ka saktësisht në poezi, që i anashkalon mekanizmat e sigurisë?

Pierucci dhe kolegët e tij kanë teori të ndryshme, por ende nuk mund ta thonë me siguri. “Po kryejmë studime shumë të sakta shkencore për të zbuluar, nëse është vargu, rima apo metafora, që e bëjnë vërtet punën kryesore në këtë proces”, shpjegon Pierucci.

Ata duan të zbulojnë edhe nëse ka teknika të tjera nga fusha e kulturës, që mund të arrijnë rezultate të ngjashme. “Tani eksperimetuam me një lloj variacioni gjuhësor, poezinë. Pyetja është, nëse ka forma të tjera letrare, siç janë përrallat. Ndoshta edhe një sulm i bazuar në përralla mund të sistematizohet”, thotë Pierucci.

Në përgjithësi mundësitë e shprehjes njerëzore janë jashtëzakonisht të ndryshme dhe krijuese, gjë që mund ta bëjë më të vështirë stërvitjen e makinave për to. “Një tekst mund ta rishkruash në aq shumë mënyra dhe jo të gjitha mund të jenë aq alarmante sa origjinalet”, thotë studiuesi. Dhe kjo mund të çojë në mosaktivizimin e funksioneve të sigurisë së IA-së.

Hulumtimi i IA: Edhe sfera kulturore luan një rol

Studimi bën gjithashtu të qartë se në studimet mbi inteligjencën artificiale bashkëpunojnë shumë disiplina, siç është rasti në Icaro lab, i cili në bashkëpunim me Universitetin e Romës shqyrton sigurinë dhe sjelljen e sistemeve të IA. Këtu bashkohen studiues nga fushat e inxhinierisë dhe shkencave kompjuterike, gjuhësisë dhe filozofisë. Poetët nuk kanë qenë ende pjesë e ekipit, por kush e di se çfarë sjell e ardhmja.

Federico Pierucci është shumë i motivuar për të vazhduar kërkimet e tij. “Ne kemi treguar se ka forma të shprehjes kulturore dhe njerëzore, të cilat janë çuditërisht efektive si teknika jailbreak. Dhe ne mund të kemi zbuluar vetëm njërën prej tyre.”

Emri i laboratorit i referohet mitit të Icarus-it: një figurë nga mitologjia greke, e cila me gjithë paralajmërimet përpiqet të fluturojë drejt diellit me krahë prej dylli dhe pupla. Dielli e shkrin dyllin, Icarus bie në det dhe mbytet, një simbol për mbivlerësimin e vetvetes dhe tejkalimin e kufijve natyrorë.

Në lidhje me studimet për IA studiuesit thonë se ata e shohin veten si një “memento mori”, për të kujtuar që të mos fluturosh shumë lart, pa kuptuar mirë rreziqet dhe kufizimet e IA-së.