Sonnet 4.6: Anthropic oferă performanța la un cost mult mai mic Sonnet 4.6: Anthropic oferă performanța la un cost mult mai mic

Sonnet 4.6 Anthropic

Anthropic a lansat recent Claude Sonnet 4.6, un model care marchează o schimbare radicală în prețurile din industria AI. Acesta oferă o inteligență AI comparabilă cu modelele de top, dar la un cost semnificativ mai redus, integrându-se perfect în contextul actual al adoptării accelerate a agenților AI și a instrumentelor de programare automată în companii.

Funcționalități îmbunătățite

Sonnet 4.6 reprezintă o actualizare completă în multiple domenii, inclusiv: codare, utilizare a computerului, raționament contextual, planificare a agenților, procesarea informațiilor și design. Modelul dispune de o fereastră de context de 1 milion de tokeni (în versiune beta). Acesta este acum modelul implicit în claude.ai și Claude Cowork, iar prețul rămâne stabil la 3/15 dolari per milion de tokeni – același preț ca și predecesorul său, Sonnet 4.5.

Acest preț este elementul crucial. Modelele Opus de la Anthropic costă 15/75 de dolari per milion de tokeni (de cinci ori mai mult decât Sonnet). Totuși, performanța care anterior necesita modele de tip Opus, inclusiv pentru sarcini complexe și valoroase în mediul de lucru, este acum disponibilă cu Sonnet 4.6. Această modificare este esențială pentru mii de companii care utilizează agenți AI care procesează milioane de cereri API zilnic.

Progrese semnificative în utilizarea computerului

Performanța modelului Anthropic în utilizarea computerului a crescut aproape de cinci ori în 16 luni. Sonnet 4.6 a obținut un scor de 72,5% în benchmark-ul OSWorld-Verified, față de 14,9% în octombrie 2024, când această capacitate a fost lansată (Sursă: Anthropic).

De ce costul rulării agenților AI a scăzut dramatic

Pentru a înțelege importanța acestei lansări, trebuie să luăm în considerare contextul actual. Anul trecut a fost dominat de „codarea intuitivă” și de inteligența artificială agentică. Claude Code, instrumentul Anthropic destinat dezvoltatorilor, a devenit o forță importantă în Silicon Valley, inginerii creând aplicații întregi prin conversații în limbaj natural. The New York Times a publicat un articol despre ascensiunea meteorică a acestuia în ianuarie. Recent, The Verge a declarat că Claude Code are un „moment” semnificativ. OpenAI, în paralel, își continuă ofensiva cu aplicații de tip Codex și cu cipuri de procesare mai rapide.

Rezultatul este o industrie în care modelele AI nu mai sunt evaluate izolat. Acestea sunt evaluate ca motoarele din spatele agenților autonomi – sisteme care funcționează ore întregi, efectuează mii de cereri, scriu și execută cod, navighează pe internet și interacționează cu software-ul enterprise. Fiecare dolar cheltuit per milion de tokeni este multiplicat de aceste mii de cereri. La scară largă, diferența dintre 15 și 3 dolari per milion de tokeni de intrare nu este incrementală, ci transformatoare.

Performanța comparativă: Sonnet 4.6 vs. Opus 4.6 și concurența

Tabelul de benchmark publicat de Anthropic oferă o imagine clară. Pe SWE-bench Verified, testul standard pentru programare reală, Sonnet 4.6 a obținut 79,6%, apropiindu-se de 80,8% al modelului Opus 4.6. În ceea ce privește utilizarea computerului (OSWorld-Verified), Sonnet 4.6 a obținut 72,5%, echivalent cu Opus 4.6 (72,7%). Pentru sarcinile de birou (GDPval-AA Elo), Sonnet 4.6 a atins 1633, depășind Opus 4.6 (1606). În analiza financiară agentică, Sonnet 4.6 a obținut 63,3%, depășind toate modelele comparate, inclusiv Opus 4.6 (60,1%).

Anthropic Sonnet 4.6: tabel comparativ
Anthropic Sonnet 4.6: tabel comparativ

Acestea nu sunt diferențe minore. În multe dintre categoriile care contează cel mai mult pentru companii, Sonnet 4.6 egalează sau depășește modelele care costă de cinci ori mai mult.

O companie care utilizează un agent AI care procesează 10 milioane de tokeni pe zi era obligată să aleagă între rezultate inferioare la un cost mai mic sau rezultate superioare la un cost în creștere rapidă. Sonnet 4.6 elimină în mare măsură acest compromis.

Preferințele utilizatorilor pentru Sonnet 4.6

În testele inițiale cu Claude Code, utilizatorii au preferat Sonnet 4.6 față de Sonnet 4.5 în aproximativ 70% din cazuri. Utilizatorii au preferat chiar și Sonnet 4.6 față de Opus 4.5, modelul de ultimă generație Anthropic din noiembrie, în 59% din cazuri. Au evaluat Sonnet 4.6 ca fiind semnificativ mai puțin predispus la „supra-inginerie” și „lăcomie”, și semnificativ mai bun la urmărirea instrucțiunilor. Au raportat mai puține afirmații false de succes, mai puține halucinații și o urmărire mai consistentă a sarcinilor complexe.

Expansiunea Anthropic în piețele enterprise și apărare

Sonnet 4.6 este lansat într-un moment crucial pentru Anthropic, pe măsură ce compania se extinde pe piețele enterprise și apărare. Competiția se intensifică pe toate fronturile.

În aceeași zi cu această lansare, TechCrunch a raportat că gigantul IT indian Infosys a anunțat un parteneriat cu Anthropic pentru a construi agenți AI de nivel enterprise, integrând modelele Claude în platforma AI Topaz pentru sectorul bancar, telecomunicații și producție. Dario Amodei, CEO-ul Anthropic, a declarat pentru TechCrunch că există un „gol semnificativ între un model AI care funcționează într-o demonstrație și unul care funcționează într-o industrie reglementată”, iar Infosys ajută la depășirea acestui obstacol. TechCrunch a raportat, de asemenea, că Anthropic și-a deschis prima filială în India, în Bengaluru, iar India reprezintă acum aproximativ 6% din utilizarea globală a Claude, după Statele Unite. Compania, evaluată la 183 de miliarde de dolari, își extinde rapid amprenta enterprise.

De asemenea, Daniela Amodei, președintele Anthropic, a declarat săptămâna trecută pentru ABC News că inteligența artificială va face ca specialitățile umaniste să fie „mai importante ca niciodată”, argumentând că abilitățile de gândire critică vor deveni mai valoroase pe măsură ce modelele lingvistice mari stăpânesc sarcinile tehnice.

Imaginea competitivă pentru Sonnet 4.6 este, de asemenea, notabilă. Modelul depășește modelele Google Gemini 3 Pro și OpenAI GPT-5.2 în mai multe benchmark-uri. GPT-5.2 rămâne în urma modelului Sonnet 4.6 în ceea ce privește utilizarea agentică a computerului (38,2% față de 72,5%), căutarea agentică (77,9% față de 74,7% pentru scorul non-Pro al Sonnet 4.6) și analiza financiară agentică (59,0% față de 63,3%). Google Gemini 3 Pro are performanțe competitive la raționamentul vizual și benchmark-urile multilingvistice, dar rămâne în urma în categoriile agentice în care investițiile enterprise sunt în creștere.

Un nou capitol în evoluția AI

Concluzia generală poate să nu fie despre un singur model, ci despre ceea ce se întâmplă atunci când inteligența de clasă Opus devine disponibilă pentru câțiva dolari per milion de tokeni, în loc de zeci de dolari. Companiile care pilotau cu precauție agenți AI cu implementări mici se confruntă acum cu o situație financiară fundamental diferită. Agenții care erau prea scumpi pentru a fi utilizați în mod continuu în ianuarie sunt brusc accesibili în februarie.

Disponibilitate și acces

Claude Sonnet 4.6 este disponibil acum pe toate planurile Claude, Claude Cowork, Claude Code, pe API și pe toate platformele cloud majore. Anthropic a actualizat, de asemenea, nivelul gratuit la Sonnet 4.6 în mod implicit. Dezvoltatorii îl pot accesa imediat prin API-ul Claude, folosind claude-sonnet-4-6.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *