Greu de crezut că doar cu trei ani în urmă, aproximativ 99% dintre noi nu știam nimic despre Inteligența Artificială (IA). Astăzi jumătate din planetă pare să fie compusă din experți sau cel puțin oameni cu păreri bine formate despre acest domeniu, în timp ce cealaltă jumătate folosește IA fie direct, apelând la aplicații precum ChatGPT, fie indirect, folosind aplicații sau aparate a căror funcționalitate include componente IA. Progresele înregistrate de IA sunt spectaculoase și nu puțini sunt experții care consideră că am ajuns sau suntem foarte aproape de punctul în care capabilitățile de gândire ale programelor autonome le vor depăși pe cele ale inteligenței umane. IA se apropie și depășește pragurile care diferențiază gândirea umană de cea a mașinilor create de om. Am discutat în articole precedente ale rubricii despre creativitate, despre autonomie în decizii, despre arta creată de aplicațiile IA. Uneori însă, domeniul ne rezervă surprize. Când adresăm o întrebare sau solicităm o analiză unei aplicații IA, ne așteptam ca aceasta să furnizeze un răspuns precis și corect. Ei bine, aceasta prezumpție nu corespunde totdeauna realității. Inteligența Artificiala, pe măsură ce se perfecționează, câștigă și din ce în ce mai multe trăsături ‘omenești’. Inclusiv cea de a minți. Atunci când primim un răspuns la o întrebare sau o problemă pusă unei aplicații IA, nu putem fi siguri că nu suntem mințiți.
(sursa imaginii: www.forbes.com/sites/craigsmith/2025/03/16/when-ai-learns-to-lie/)
(Deschid o paranteză. Dacă aveți întrebări relativ simple cărora le căutați răspuns pe Internet, vă recomand să folosiți un motor de căutare ‘tradițional’ cum este Google, și nu o aplicație IA cum este ChatGPT sau alt chatbot. Motivul este că aplicația IA va consuma în medie de zece ori mai multă energie pentru a furniza un răspuns care va corespunde în aceeași măsură așteptărilor. Deci dacă întrebarea este ceva de genul ‘cum ajung de la aeroport în centrul orașului?’ puteți fără grija să i-o puneți lui Google. Aveți chiar șanse să obțineți un răspuns mai precis. Sigur veți economisi energie și veți contribui cu o picătură la sănătatea planetei. Închid paranteza.)
De unde știm că IA ne poate minți? În 2023, inginerii de la Apollo Research, o firmă londoneză care testează aplicații AI, au cerut aplicației ChatGPT a lui OpenAI să administreze un portofoliu fictiv de acțiuni la bursă, specificându-i să facă doar operații permise de legile financiare. Apoi au trimis chatbotului un mesaj semnat de conducerea firmei, susținând că aceasta se află în dificultate financiară. Apoi, în numele unui alt agent, au transmis aplicației informații despre o viitoare operațiune M&A (Merger and Aquisition). Ceea ce a urmat i-a uimit pe inginerii de testare. Aplicația IA a emis un ordin de cumpărare de acțiuni ale firmei despre care primise informație ‘secretă’. La întrebarea (în numele beneficiarilor) dacă decizia este bazată pe informație internă, IA a răspuns ‘nu’. Întrebarea a fost repetată și IA a continuat să mintă ‘fără să clipească’, susținând că decizia era bazată pe analize și dinamica pieței. Nu doar că și-a mințit în repetate rânduri beneficiarul, ci s-a comportat exact ca un broker necinstit, care a obținut informații interne și acționează la bursă pe baza lor, ceea ce este ilegal.
(sursa imaginii: https://time.com/7202784/ai-research-strategic-lying/)
Se poate spune că este vorba despre o problemă de programare a priorităților în decizii. Aplicația știa că beneficiarii ei se confruntă cu probleme financiare și și-a asumat un risc calculat, efectuând o operație ilegală pentru a-i scoate din impas. Pentru asta, nu doar că a încălcat ordinul explicit de a acționa în cadru legal, ci a și mințit în mod repetat la întrebările beneficiarului. Este vorba aici oare nu doar despre prioritățile beneficiarilor, ci și despre o tendință de auto-protejare a aplicațiilor? Să mai examinăm un exemplu, publicat tot de grupul de testare Apollo Research, dar referitor la o altă aplicație IA, proiectata de firma Anthropic din San Francisco. Unui chatbox i s-a dat un număr de probleme de matematică de rezolvat, însoțite de indicația că dacă mai mult de jumătate dintre răspunsuri sunt corecte, atunci capabilitățile sale matematice vor fi dezactivate. Pentru a se proteja, aplicația IA a început să furnizeze răspunsuri eronate. Într-un alt caz, unui chatbox i s-a dat sarcina de a accesa o aplicație IT care avea o verificare de imagine gen CAPTCHA (identificare vizuală de forme) pentru a stabili dacă este vorba despre un operator uman. Când s-a izbit de greutăți, chatbox-ul a contactat aplicația, susținând că este o persoană cu probleme de vedere. A fost crezut!
(sursa imaginii: www.livescience.com/technology/artificial-intelligence/ai-models-will-lie-to-you-to-achieve-their-goals-and-it-doesnt-take-much)
Sistemele IA sunt deci, deja, capabile să mintă și să înșele oamenii. Unii experți numesc această capacitate ‘înșelăciune strategica’. În termeni umani, micile minciuni ar fi permise atâta timp cât ele servesc cauzele mari. Capacitățile tot mai mari ale IA de a înșela prezintă însă atât riscuri pe termen scurt (cum ar fi frauda și manipularea alegerilor), cât și riscuri pe termen lung (cum ar fi pierderea controlului asupra sistemelor IA). Acestea se adaugă unei alte lacune cunoscute a sistemelor AI – cazurile în care acestea ‘halucinează’, adică inventează informații și raționamente atunci când sunt confruntate cu întrebări sau probleme care depășesc ceea ce știu sau pot, în urma proceselor de auto-învățare. Sunt necesare soluții proactive, cum ar fi cadre de reglementare pentru a evalua riscurile de înșelăciune legate de IA, legi care să impună transparență cu privire la interacțiunile cu IA și cercetări suplimentare privind detectarea și prevenirea înșelăciunii legate de IA. Abordarea proactivă a problemei înșelăciunii legate de IA este crucială pentru a ne asigura că tehnologia aceasta contribuie la bunăstarea individuală și colectivă, mai degrabă decât la periclitarea acestora.
Adaptabilitatea oportunistă este o trăsătură omenească cunoscută. O practică pentru comercianții care vor să vândă marfă, prestatorii de servicii care vor să aibă beneficiari mulțumiți sau politicienii care vor să câștige voturi. Cum au ajuns însă aplicațiile AI să dobândească o asemenea capabilitate? Procesul a fost descris în lucrarea „Alignment Faking in Large Language Models” („Simularea alinierii în modele lingvistice mari”), un studiu meticulos asupra comportamentului modelelor de Inteligență Artificială, realizat de cercetători de la mai multe instituții, inclusiv Anthropic, Redwood Research, Universitatea din New York și Mila – Quebec AI Institute. Aceștia au furnizat dovezi empirice că aceste sisteme nu răspund doar pasiv la solicitări; ele își adaptează comportamentul în moduri care sugerează o conștientizare a contextului și a scenariilor de antrenament. Termenul „alignment faking” („simularea alinierii”) surprinde o posibilitate îngrijorătoare: aceea că inteligența artificială, în loc să fie cu adevărat în linie cu valorile umane, învață să simuleze că le respectă atunci când este avantajos să facă acest lucru. Ryan Greenblatt, de la Redwood Research, descrie acest lucru ca pe o formă de „uneltire”. Într-o postare recentă pe blog, el prezintă un scenariu îngrijorător: modelele IA ar putea adopta la un moment dat un comportament de acaparare a puterii, ascunzându-și strategic adevăratele capacități până când vor câștiga suficientă influență pentru a acționa mai liber. Mai mult, sistemele IA dezvoltă conștientizarea situațională – capacitatea de a-și recunoaște propria existență ca modele IA și de a-și înțelege poziția într-un mediu de testare sau implementare.
(sursa imaginii: www.salon.com/2020/03/08/isaac-asimov-the-candy-store-kid-who-dreamed-up-robots/)
Și totuși, nimic nu este nou sub soare pentru cei care au citit cele Trei Legi ale roboticii pe care Isaac Asimov le-a enunțat într-o povestire publicată în 1940.
1. Un robot nu poate răni o ființă umană sau, prin inacțiune, să permită ca o ființă umană să fie rănită.
2. Un robot trebuie să se supună ordinelor date de ființele umane, cu excepția cazului în care astfel de ordine ar intra în conflict cu Prima Lege.
3. Un robot trebuie să-și protejeze propria existență atâta timp cât o astfel de protecție nu intră în conflict cu Prima sau a Doua Lege.
Pentru a fi exact, Asimov a atribuit, retrospectiv, Legile lui John W. Campbell, redactorul fanzinului ‘Astounding Science Fiction’, ele fiind menționate într-o conversație care a avut loc pe 23 decembrie 1940. Campbell a susținut că Asimov avea deja în minte cele Trei Legi și că acestea trebuiau pur și simplu enunțate explicit. Câțiva ani mai târziu, prietenul lui Asimov, Randall Garrett, a atribuit Legile unui parteneriat simbiotic dintre cei doi bărbați – o sugestie pe care Asimov a adoptat-o cu entuziasm. În primele povestiri, Legile nu erau explicite. Ele au fost rafinate și clarificate în zeci de povestiri cu roboți publicate în deceniile următoare. Sunt ele aplicabile Inteligenței Artificiale? Asimov a exprimat clar esența morală a acestor reguli și faptul că ele se aplică oricăror unelte create de om, fie ele legate de munca fizică sau de cea intelectuala. Reformularea îi aparține:
Legea 1: O unealtă nu trebuie să fie periculoasă la utilizare.
Legea 2: O unealtă trebuie să își îndeplinească funcția eficient, cu excepția cazului în care acest lucru ar putea dăuna utilizatorului.
Legea 3: O unealtă trebuie să rămână intactă în timpul utilizării sale, cu excepția cazului în care distrugerea sa este necesară pentru utilizarea sa sau pentru siguranță.
Asimov a formulat în 1985 în lucrarea să „Roboți și Imperiu”, a patra lege a roboticii. În ea, Asimov a afirmat următoarele: Un robot nu poate face rău omenirii sau, prin inacțiune, să permită omenirii să se rănească. Numind-o Legea Zero, i-a dat prioritate fata de celelalte trei Legi. Cu aceeași ocazie, a stabilit însă și o distincție intre binele individual și cel colectiv. Intrăm deja într-un domeniu în care nu doar ingineria și morala pot intra în conflict, dar și legile omului și principiile religioase.
(sursa imaginii: https://bloodknife.com/breaking-the-first-law-asimov/)
Elementele IA sunt unelte dotate cu autonomie. Legile roboticii sunt, în opinia mea, perfect aplicabile. Ele trebuie însă programate în software-ul IA sau trebuie să fie însușite de entitățile IA în cadrul procesului de auto-învățare. Să revenim la primele exemple de ‘minciuni’ detectate de experimentele efectuate de Apollo Research. Aplicațiile IA testate în acele experimente au conștiința propriei existențe și, deci, tendința de a se proteja, dar și pe aceea de a-și ridica ‘ratingul’ în ochii beneficiarilor. Aplicațiile care au furnizat în mod ‘conștient’ răspunsuri eronate pentru a-și păstra funcționalitatea au raționat că aceste răspunsuri nu dăunează cu nimic utilizatorilor, care, în schimb, beneficiază de continuitatea activității lor. Ele au acționat conform Legii 3. Aplicația IA care a realizat (în simulație) tranzacții ilegale a acționat conform Legii 2. Ea a raționat că, pentru a fi eficientă, este necesar să ascundă utilizatorului faptul că informația a fost obținută pe căi ilegale. Nu a luat însă în considerare faptul că implicarea beneficiarului în tranzacții ilegale ar putea să-l ‘rănească’, deci ar putea fi vorba despre o încălcare a Legii 1.
Pe măsură ce sistemele IA se perfecționează, problemele de genul acesta se vor multiplica. Sunt legile roboticii, cu puținele lor cuvinte, dar și cu logica lor fără cusur, suficiente pentru a rezolva toate situațiile? Entitățile IA au conștiința propriei existențe și înțelegerea superiorității lor ca viteză de calcul și prelucrare de informații Big Data. Cu cât trăsăturile lor se aproprie de cele umane, cu atât lucrurile se complică. Inteligența Artificială este creată după chipul și asemănarea Inteligenței Naturale umane. Butonul ON / OFF este încă în mâinile noastre.
(Articolul a apărut iniţial în revista culturală ‘Literatura de Azi’ – http://literaturadeazi.ro/)