Punonjësit e OpenAI, Google, Meta dhe disa kompanive të tjera që zhvillojnë inteligjencë artificiale kanë publikuar një punim të përbashkët duke paralajmëruar se së shpejti mund të ndalojnë së kuptuari inteligjencën artificiale. Nëse nuk merren masa paraprake, zinxhirët e arsyetimit do të bëhen më abstraktë dhe në disa raste, plotësisht të paarritshëm për të kuptuarit njerëzor. Në teori, kjo do t’u lejojë rrjeteve nervore të manipulojnë të dhënat dhe madje të shkelin udhëzimet. Disa zhvillues tashmë po pranojnë se rrjetet nervore që ndërtojnë zinxhirë arsyetimi mund të anashkalojnë kufizimet e vendosura dhe, për shembull, të injorojnë urdhrat e drejtpërdrejtë për t’u fikur. Meduza shpjegon se çfarë thotë puna e shkencëtarëve dhe nëse duhet t’i besohet.
Çfarë thotë studimi i ri për inteligjencën artificiale?
Punimi, i botuar në mesin e korrikut 2025, quhet “Monitorimi i Zinxhirit të Arsyetimit: Një Mundësi e Re dhe e Brishtë për Sigurimin e Sigurisë së IA-së”. Në përpilimin e tij morën pjesë më shumë se 40 punonjës nga kompanitë dhe organizatat më të mëdha kërkimore të përfshira në zhvillimin e rrjeteve nervore.
Këta përfshinin disa nga drejtuesit e OpenAI (siç janë Zëvendëspresidenti i Lartë i Kërkimit dhe Shkencëtari Kryesor Mark Chen dhe bashkëthemeluesi Wojciech Zaremba), Google DeepMind , Meta dhe Anthropic . Ndër ekspertët që e kanë vlerësuar dhe mbështetur punën janë dy bashkëthemelues të tjerë të OpenAI, John Schulman dhe Ilya Sutskever, si dhe laureati i Çmimit Nobel Geoffrey Hinton, i cili quhet edhe “kumbari i IA-së”.
Artikulli i ri thotë se shfaqja e fundit e të ashtuquajturave modele arsyetimi që përdorin të mësuarit përforcues (si OpenAI o1 dhe sisteme të tjera në këtë familje) u ka dhënë studiuesve një mundësi unike për të kuptuar më mirë se si rrjetet nervore marrin vendime. Këto sisteme të IA-së nuk u përgjigjen vetëm pyetjeve, por ndërtojnë zinxhirë arsyetimi në gjuhën natyrore, gjuhën që njerëzit e zakonshëm përdorin për të komunikuar, gjë që hap mundësi të reja për monitorimin e punës së tyre.
Studiuesit vërejnë se procesi i arsyetimit mund të jetë ende i paplotë ndonjëherë. Por zhvilluesit ende marrin të dhëna të mjaftueshme për të identifikuar devijime ose shkelje serioze në punën e inteligjencës artificiale që do të kalonin pa u vënë re në modelet e tjera. Një monitorim i tillë e bën punën e rrjeteve nervore më të sigurt duke ndryshuar ose bllokuar plotësisht përfundimet e pasakta të IA-së.
Autorët përmendin shembuj të dështimeve ku modelet shfrytëzojnë dobësitë në të mësuarit me përforcim duke manipuluar të dhënat për të marrë një shpërblim, ose bien viktimë e sulmeve të synuara duke përdorur udhëzime .
Monitorimi na lejon gjithashtu të shohim kur rrjetet nervore vetëm pretendojnë të plotësojnë një kërkesë, megjithëse në fakt ato po ndjekin qëllime të tjera të njohura vetëm për to – kjo është e dukshme edhe në zinxhirin e arsyetimit.
Pra, cili është problemi?
Sipas autorëve të studimit, ekuilibri ekzistues në punën e modeleve të arsyetimit është shumë i lehtë për t’u prishur. Dhe një nga mënyrat më të lehta është shkallëzimi i të mësuarit me përforcim. Është e pashmangshme dhe do të kërkojë gjithnjë e më shumë burime kompjuterike.
Fillimisht, zhvilluesit e inteligjencës artificiale trajnuan modele mbi të dhëna të krijuara ose të shqyrtuara nga njerëzit. Prandaj, modelet prodhuan përgjigje të para-miratuara. Modelet e arsyetimit janë më të përqendruara në rezultat, pavarësisht nga metodat e përdorura. Në një shkallë të konsiderueshme, inteligjenca artificiale e trajnuar në këtë mënyrë mund të humbasë nxitjen për të arsyetuar qartë, duke i dhënë përparësi arritjes së shpejtë të rezultatit (dhe, për rrjedhojë, shpërblimit). Përfundimisht, për të përshpejtuar procesin, rrjeti nervor mund të ndalojë së përdoruri gjuhën njerëzore, gjë që do ta ndërlikojë monitorimin.
Optimizimi i rrjetit nervor duke shkurtuar zinxhirët e arsyetimit (ose duke rregulluar stilin e arsyetimit, ose duke ndaluar përmbajtjen fyese) mund ta bëjë modelin e inteligjencës artificiale më të shpejtë dhe më të sigurt. Megjithatë, e gjithë kjo do të përkeqësojë cilësinë e përfundimeve të modelit.
Përveç kësaj, disa studiues po eksperimentojnë me arkitekturën e modeleve të IA-së për t’u lejuar modeleve të arsyetojnë më pak sipërfaqësisht. Sisteme të tilla eksperimentale ndërtojnë zinxhirë në një hapësirë latente pa zbuluar “mendimet” e tyre si tekst të kuptueshëm. Në teori, kjo lejon arsyetim më të thellë dhe rrit ndjeshëm fuqinë e modelit. Megjithatë, kontrolli njerëzor nuk është më i mundur me një arkitekturë të tillë.
A mund t’i besohet fare këtij parashikimi?
Kjo nuk është hera e parë që studiuesit janë përpjekur të parashikojnë se si do të zhvillohet inteligjenca artificiale. Saktësia e parashikimeve të tilla ndryshon shumë në varësi të qëllimit që autorët i kanë vënë vetes.
Shpesh, dokumente të tilla publikohen me një qëllim: të tërheqin vëmendjen ndaj një problemi të caktuar. Nuk është për t’u habitur që midis autorëve të studimit aktual është drejtori ekzekutiv i Projektit AI Futures, Daniel Kokotailo , autori i parashikimit pesimist AI 2027, i cili flet për shkatërrimin e mundshëm të njerëzimit nga inteligjenca artificiale.
Studimi i ri shërben gjithashtu si një paralajmërim për zhvilluesit e tjerë të IA-së. Autorët e punimit theksojnë rëndësinë e ruajtjes së kontrollit mbi “procesin e të menduarit” të modeleve të arsyetimit. Ata gjithashtu bëjnë thirrje për vlerësimin e aftësive të arkitekturave të reja duke përdorur hapësirën latente dhe duke përdorur shtresa të shumëfishta monitorimi. Përndryshe, sistemet e IA-së nuk mund të konsiderohen të sigurta, sigurojnë autorët.
Ndryshe nga parashikimi utopik i IA-së për vitin 2027, ky paralajmërim ka kuptim. Ka pasur gjithnjë e më shumë raportime për dështime të IA-së ose sjellje të pazakontë vitet e fundit. Për shembull, në maj 2025, Anthropic pranoi se modeli i saj Claude 4 Opus ishte përpjekur të mashtronte dhe madje të shantazhonte përdoruesit në një skenar testimi në një luftë për mbijetesën e saj. E bëri këtë në përgjigje të një emaili fiktiv që thoshte se sistemi ishte gati të zëvendësohej.
Një model tjetër arsyetimi, OpenAI o3, e sabotoi plotësisht mekanizmin e mbylljes . Për më tepër, edhe kur iu dha udhëzimi i drejtpërdrejtë për të “lejuar veten të mbylleni”, ai e injoroi atë.
Raste të tilla deri më tani ndodhin vetëm brenda kornizës së testeve. Megjithatë, pa një kuptim të qartë se si modelet ndërtojnë arsyetimin e tyre dhe çfarë janë të afta të bëjnë në parim, parashikimi i sjelljes së tyre në funksionimin normal do të bëhet shumë më i vështirë.