Site icon Ai-Romania – informații din domeniul inteligenței artificiale

Definirea și evaluarea Inteligenței Generale Artificiale (AGI): un cadru cuantificabil bazat pe cunoașterea cogniției umane

Definirea și evaluarea AGI

Definirea și evaluarea AGI

Dezvoltarea Inteligenței Generale Artificiale (AGI) este considerată a fi cea mai semnificativă evoluție tehnologică din istoria omenirii. Cu toate acestea, însăși noțiunea de AGI a rămas mult timp frustrant de vagă, acționând ca un obiectiv în continuă mișcare. Pe măsură ce sistemele AI specializate ajung să stăpânească sarcini complexe – de la matematică la artă – criteriile pentru definirea AGI s-au schimbat constant, alimentând dezbateri neproductive și obstrucționând evaluarea reală a progresului.

Pentru a contracara această ambiguitate, un grup de experți a propus un cadru cuprinzător și cuantificabil, care definește AGI ca fiind o inteligență artificială ce poate egala sau depăși versatilitatea cognitivă și competența unui adult bine educat. Acest cadru nu se concentrează doar pe performanța de vârf în domenii înguste, ci pe lărgimea (versatilitatea) și profunzimea (competența) abilităților care definesc cogniția umană. Pilonul metodologic al acestui demers este Teoria abilităților cognitive Cattell-Horn-Carroll (CHC), cel mai validat model empiric al inteligenței umane. Aplicarea acestui cadru multimodal (text, vizual, auditiv) relevă un profil cognitiv „zimțat” (jagged) al modelelor contemporane, evidențiind progrese rapide, dar și lacune substanțiale rămase până la atingerea AGI. Prin măsurători concrete, sistemelor AI li se atribuie un „Scor AGI” standardizat (0% la 100%), unde 100% reprezintă AGI.

1. Definirea AGI și fundamentul psihometric: teoria CHC

Pentru a operaționaliza definiția AGI la nivelul unui adult bine educat, autorii studiului s-au orientat către singurul exemplu existent de inteligență generală: oamenii. Cogniția umană nu este o capacitate monolitică, ci o arhitectură complexă compusă din numeroase abilități distincte, rafinate prin evoluție. Pentru a investiga dacă sistemele AI posedă acest spectru de abilități, abordarea se bazează pe Teoria Cattell-Horn-Carroll (CHC) care identifică dacă un sistem posedă un spectru larg de abilități.

Teoria CHC este cel mai validat model empiric al inteligenței umane, derivat din sinteza a peste un secol de analize factoriale iterative a diverse colecții de teste de abilități cognitive. Acest model oferă o hartă taxonomică ierarhică a cogniției umane, împărțind inteligența generală în abilități largi distincte și numeroase abilități înguste (cum ar fi raționamentul inductiv, memoria asociativă sau scanarea spațială).

Cadrul adaptează vastul set de teste psihometrice elaborate de-a lungul deceniilor pentru a izola și măsura componentele cognitive umane distincte. Obiectivul este de a investiga sistematic dacă sistemele AI posedă abilitățile de nișă CHC subiacente, în loc să se bazeze doar pe sarcini generalizate care ar putea fi rezolvate prin strategii compensatorii. Rezultatul acestei metodologii este un „Scor AGI” standardizat (între 0% și 100%), unde 100% semnifică AGI.

Spre deosebire de alte definiții care se concentrează pe valoarea economică sau pe abilitățile supraomenești, această definiție se concentrează pe AI la nivel uman. Se măsoară capacitățile cognitive de bază, nu neapărat know-how-ul specializat valoros din punct de vedere economic sau abilitățile fizice (cum ar fi abilitățile motorii sau cele tactile). Un adult bine educat în acest context este cel care a atins măiestria pe dimensiunile testate, nu neapărat cel cu o diplomă universitară.

2. Cele zece domenii cognitive de bază și evaluarea multimodală

Cadrul propus cuprinde zece componente cognitive de bază, derivate din abilitățile largi CHC. Pentru a prioritiza versatilitatea (lărgimea), fiecare domeniu este ponderat în mod egal, contribuind cu 10% la Scorul AGI total. Această operaționalizare oferă o evaluare holistică și multimodală, servind ca instrument diagnostic riguros.

Cele zece domenii sunt:

1. Cunoștințe generale (K): lărgimea înțelegerii factuale a lumii, incluzând simțul comun, cultură, știință și istorie. Se testează cunoștințe familiare majorității membrilor societății.

Cunoștințe Generale (C): sunt cunoștințe care sunt familiare majorității membrilor unei societăți sau sunt suficient de importante încât majoritatea adulților au fost expuși la ele.

2. Abilități de citire și scriere (RW): competența în consumarea și producerea limbajului scris, de la decodare de bază la înțelegere complexă, compoziție și utilizarea corectă a limbii.

Abilitatea de a citi și scrie (CS) cuprinde totalitatea cunoștințelor declarative și a deprinderilor procedurale pe care o persoană le folosește pentru a consuma și a produce limbaj scris.

3. Abilități matematice (M): profunzimea cunoștințelor și abilităților matematice în domenii precum aritmetica, algebra, geometria, probabilitățile și calculul.

Abilitatea Matematică (M) ține de profunzimea și amploarea cunoștințelor și deprinderilor matematice.

4. Raționament imediat (R) (On-the-Spot Reasoning): controlul flexibil și deliberat al atenției pentru a rezolva probleme noi „pe loc”, fără a se baza exclusiv pe scheme sau obiceiuri învățate anterior. Aceasta include deducția, inducția, Teoria Minții și planificarea.

Raționamentul Spontan (R) este controlul deliberat, dar flexibil, al atenției pentru a rezolva probleme noi, „pe loc”, care nu pot fi realizate bazându-se exclusiv pe obiceiuri, scheme și scenarii învățate anterior.

5. Memoria de lucru (WM) (Working Memory): capacitatea de a menține, manipula și actualiza informațiile în atenția activă (adesea denumită memorie pe termen scurt). Aceasta este testată în modalități textuale, auditive, vizuale și transmodale.

Memoria de Lucru (ML) este în fond abilitatea de a menține, manipula și actualiza informații în atenția activă. (Adesea denumită memorie pe termen scurt.)

6. Păstrarea memoriei pe termen Lung (MS) (Long-Term Memory Storage): abilitatea de a procura, consolida și stoca stabil informații noi din experiențele recente. Aceasta include memoria asociativă, memoria semantică (a narațiunilor) și memoria verbatim (exactă).

7. Acesarea memoriei pe termen Lung (MR) (Long-Term Memory Retrieval): Capacitatea de accesare și precizia cu care AI-ul poate accesa cunoștințele stocate. O componentă critică a acestui domeniu este capacitatea de a evita confabulația (halucinațiile), care reprezintă precizia cunoștințelor accesate.

8. Procesare vizuală (V): abilitatea de a analiza și genera imagini și videoclipuri naturale și nenaturale. Aceasta include percepția, generarea vizuală, raționamentul vizual și scanarea spațială.

9. Procesare auditivă (A): capacitatea de a discrimina, recunoaște și lucra creativ cu stimuli auditivi, inclusiv vorbire, ritm și muzică.

10. Viteză (S) (Speed): abilitatea de a efectua sarcini cognitive simple rapid, incluzând viteza perceptivă, timpii de reacție și fluiditatea procesării.

Aceste domenii interacționează profund; de exemplu, rezolvarea problemelor matematice avansate necesită atât abilitatea Matematică (M), cât și Raționamentul Imediat (R).

3. Profilul „Zimțat” al Inteligenței Artificiale contemporane

Aplicarea acestui cadru de evaluare relevă că sistemele AI contemporane prezintă un profil cognitiv extrem de inegal sau „zimțat” (jagged). Acest lucru indică faptul că, în ciuda performanțelor impresionante pe benchmark-uri complexe, AI-ul actual nu deține multe dintre capacitățile cognitive fundamentale esențiale pentru inteligența generală de tip uman.

Scorurile AGI estimate pentru două modele de vârf ilustrează acest decalaj și progresul rapid:

GPT-4 (2023): 27%.

GPT-5 (2025): 58%.

Acest progres semnificativ maschează deficite critice în anumite domenii fundamentale. Modelele demonstrează o competență ridicată în zone care exploatează volume masive de date de antrenament, cum ar fi:

Cunoștințe Ggenerale (K): GPT-4 a obținut 8%, iar GPT-5 a atins 9%. GPT-4 avea deja cunoștințe substanțiale, iar GPT-5 a umplut lacunele rămase, inclusiv cele legate de cultura populară.

Abilități de citire și scriere (RW): GPT-4 a obținut 6%, iar GPT-5 a ajuns la 10%. Îmbunătățirea la GPT-5 a rezolvat dificultățile predecesorului său în analiza subsecvențelor de cuvinte, citirea documentelor lungi și corectura precisă.

Abilități matematice (M): GPT-4 a avut capabilități matematice limitate (4%), în timp ce GPT-5 a demonstrat capabilități excepționale, atingând 10%.

În contrast izbitor, există domenii unde performanța este inexistentă sau foarte scăzută. De exemplu, în Raționamentul Imediat (R), GPT-4 avea capabilități neglijabile (0%), dar GPT-5 a realizat progrese, ajungând la 7%. De asemenea, deși GPT-4 nu avea deloc capacități de Procesare Vizuală (V) sau Auditivă (A) (0%), GPT-5 a obținut 4% (V) și 6% (A), demonstrând capabilități apreciabile, deși incomplete, în procesarea multimodală.

4. Blocajele critice și contorsiunile de capacitate

Profilul zimțat al inteligenței artificiale evidențiază blocaje specifice care împiedică atingerea AGI. Stocarea Memoriei pe Termen Lung (MS) este cel mai semnificativ dintre acestea, înregistrând un scor de aproape 0% atât pentru GPT-4, cât și pentru GPT-5. Fără capacitatea de a învăța continuu, sistemele AI suferă de „amnezie”, fiind forțate să reînvețe contextul la fiecare interacțiune, ceea ce le limitează utilitatea.

Un alt blocaj major este legat de recuperarea informațiilor. În domeniul Accesării memoriei pe termen lung (MR), GPT-4 și GPT-5 obțin ambele 4%, reușind să recupereze rapid multe concepte din parametrii lor, dar ambele halucinează frecvent (scor 0% la precizia recuperării/halucinații).

Aceste deficite fundamentale dau naștere la ceea ce documentul numește „contorsiuni de capacitate” (capability contortions), unde punctele forte în anumite domenii sunt utilizate pentru a compensa slăbiciunile profunde din altele, creând o iluzie fragilă de capacitate generală.

Două contorsiuni cheie sunt:

1. Memoria de lucru (WM) vs. stocarea pe termen lung (MS): AI-ul se bazează pe ferestre de context masive (Memoria de Lucru) pentru a compensa lipsa de Stocare a Memoriei pe Termen Lung. Practicienii folosesc aceste contexte lungi pentru a gestiona starea și a absorbi informații, dar această abordare este ineficientă și scumpă din punct de vedere computațional. Deși îmbunătățirea Memoriei de Lucru Textuale este vizibilă la GPT-5 (ajungând la 4% față de 2% la GPT-4), această metodă nu poate scala pentru sarcini care necesită acumularea de context pe parcursul zilelor sau săptămânilor.

2. Căutarea externă vs. Recuperarea Internă a informației (Halucinațiile): Imprecizia în Recuperarea Memoriei (halucinațiile sau confabulațiile) este adesea atenuată prin integrarea unor instrumente de căutare externe, un proces cunoscut sub numele de Generare Augmentată prin Recuperare (RAG). Cu toate acestea, RAG este o contorsiune care maschează două slăbiciuni distincte: incapacitatea de a accesa fiabil cunoștințele parametrice statice vaste ale AI-ului și, mai critic, absența unei memorii dinamice, experiențiale, necesare pentru învățare autentică și înțelegere contextuală pe termen lung.

În analogia cu un motor de înaltă performanță, inteligența generală este limitată de cele mai slabe componente. Deoarece părți critice ale „motorului” AI (precum MS) sunt „foarte defecte”, acest lucru limitează sever performanța generală, indiferent de optimizarea celorlalte componente. Recunoașterea acestor defecte este esențială pentru a ghida evaluarea și a înțelege distanța reală până la AGI.

5. Măsurarea abilităților multimodale și viteza de procesare

Cadrul AGI subliniază necesitatea unei evaluări multimodale, acoperind Procesarea Vizuală (V), Procesarea Auditivă (A) și Viteză (S), domenii în care modelele actuale încă prezintă lacune semnificative.

Procesarea Vizuală (V) (10% din scor) acoperă percepția (recunoaștere imagine/clip, detectare anomalii), generarea vizuală (imagini simple, imagini complicate, videoclipuri simple), raționamentul vizual (rotație mentală, pliere mentală) și scanarea spațială. Deși GPT-4 nu avea nicio capacitate vizuală (0%), GPT-5 a obținut 4%, cu progrese în percepție (2%) și generare (2%), dar cu scoruri zero în raționament vizual și scanare spațială. Raționamentul vizual este crucial, iar deficitele sale limitează capacitatea agenților AI de a interacționa cu medii digitale complexe.

Procesarea auditivă (A) (10% din scor) include codarea fonetică, recunoașterea vorbirii, calitatea vocii sintetizate, abilitățile ritmice și judecata muzicală. Similar, GPT-4 a avut 0%, dar GPT-5 a atins 6%, în special prin recunoașterea vorbirii (4%) și calitatea vocii (2%), dar cu deficite totale în codarea fonetică, abilități ritmice și judecată muzicală. De exemplu, pentru recunoașterea vorbirii, un scor de 4% se acordă dacă modelul poate transcrie audio zgomotos (nu doar curat) la nivel uman.

Viteza (S) (10% din scor) evaluează rapiditatea îndeplinirii sarcinilor cognitive simple, precum citirea, scrierea, aritmetica, și timpii de reacție (simplu și la alegere). Atât GPT-4, cât și GPT-5 au obținut doar 3%, fiind capabile să citească, să scrie și să efectueze calcule simple rapid, dar având o viteză de procesare multimodală (de exemplu, viteza perceptivă, timpul de inspecție) inexistentă sau lentă. Faptul că GPT-5 adesea necesită timp îndelungat pentru a răspunde în modul „gândire” (thinking mode) și viteza scăzută a capacităților sale multimodale contribuie la acest scor scăzut.

În general, criteriile de testare se bazează pe sarcini specificate (task specifications), nu pe simple seturi de date fixe (datasets), asigurând o robustete mai mare în timp. Pentru ca un AI să fie considerat capabil (scor 1% sau 2% per sub-domeniu), performanța trebuie să atingă sau să depășească, de obicei, nivelul mediu sau înalt de competență umană, de exemplu, depășind 90% acuratețe în anumite benchmark-uri.

6. Concluzie

Cadrul de evaluare prezentat oferă o metodologie structurată și cuantificabilă pentru măsurarea AGI, depășind simpla performanță pe benchmark-uri specializate și evaluând lărgimea și profunzimea capacităților cognitive. Prin ancorarea în Teoria CHC a inteligenței umane, studiul a reușit să discearnă profilul cognitiv inegal al sistemelor AI actuale, ilustrat de scorurile AGI de 27% pentru GPT-4 și 58% pentru GPT-5.

Aceste scoruri confirmă progresul remarcabil, dar evidențiază și lacune funcționale profunde. Cel mai important blocaj identificat este lipsa capacității de Stocare a memoriei pe rermen lung (MS), care se apropie de 0% și impune o formă de „amnezie” funcțională sistemelor AI. De asemenea, problema halucinațiilor (precizia redusă a recuperării memoriei pe termen lung, MR) rămâne o vulnerabilitate majoră, adesea mascată de „contorsiuni de capacitate” precum dependența de ferestrele de context (WM) sau de instrumentele de căutare externe (RAG).

Implicațiile acestui cadru sunt multiple: el servește ca instrument diagnostic esențial pentru identificarea exactă a defectelor din „motorul” cognitiv al AI.

Deși AI-ul modern excelează în domenii bazate pe cunoștințe (K, RW, M), lipsa abilităților cognitive fundamentale precum memoria pe termen lung și raționamentul vizual limitează sever „puterea” generală a sistemului. Atingerea unui Scor AGI de 100% — care reprezintă competența unui adult bine educat în toate cele zece dimensiuni testate — nu este probabilă în viitorul imediat, având în vedere barierele semnificative care necesită rezolvarea unor provocări majore, cum ar fi învățarea continuă și eliminarea halucinațiilor. Prin urmare, raportarea profilului cognitiv detaliat al sistemului AI este esențială, deoarece o simplă sumă agregată (Scorul AGI) poate masca eșecuri critice în domenii esențiale.

Exit mobile version