Printre cele mai recente inovații în domeniul inteligenței artificiale multimodale se numără NVIDIA Nemotron Nano V2 VL, un model de ultimă generație care reprezintă un pas semnificativ înainte față de versiunile anterioare precum Llama-3.1-Nemotron-Nano-VL-8B.
Acest nou model este proiectat special pentru a aborda provocările complexe ale înțelegerii documentelor reale, a analizei video lungi și a rezolvării de probleme complexe prin raționament avansat.
Prin combinarea unui arhitectură hibridă Mamba-Transformer, tehnici inovatoare de reducere a tokenilor și o strategie de antrenare eficientă, Nemotron Nano V2 VL oferă o balanță excelentă între performanță și eficiență computațională. În plus, modelul este disponibil în mai multe formate de cantificare — BF16, FP8 și FP4 — facilitând adaptarea sa pentru diverse medii de inferență, de la cloud la dispozitive locale.
De asemenea, NVIDIA a decis să elibereze o parte semnificativă din datele de antrenament, codul de antrenament și rețetele de training, promovând transparența și colaborarea în comunitatea de cercetare.
1. Arhitectură hibridă Mamba-Transformer
Unul dintre cele mai semnificative aspecte ale Nemotron Nano V2 VL este arhitectura sa hibridă, care combină avantajele modelului Transformer clasic — cunoscută pentru capacitatea sa de a modela relațiile lungi între tokenuri — cu eficiența și scalabilitatea modelului Mamba, o inovație recentă bazată pe sistemul de stări de tip State Space Models (SSM).
În contrast cu arhitectura Transformer, care are o complexitate temporală de O(n²) în funcție de lungimea secvenței, Mamba oferă o complexitate liniară O(n), ceea ce îl face extrem de potrivit pentru procesarea documentelor și video-uri lungi. În Nemotron Nano V2 VL, această combinație permite modelului să proceseze secvențe de până la 49.152 de tokeni — o capabilitate rară în modelele de dimensiune comparabilă — fără a compromite performanța în sarcini de înțelegere vizuală și textuală.
Structura hibridă funcționează astfel: în etapele inițiale ale procesării, Mamba este utilizat pentru a extrage caracteristici temporale și spațiale eficient, în special în cazul video-urilor sau documentelor cu multe pagini. Apoi, în etapele finale, arhitectura Transformer preia controlul pentru a realiza raționamente complexe, compară informații din diferite părți ale secvenței și generează răspunsuri coerente. Această abordare combinată nu doar că reduce consumul de memorie și timp de inferență, ci și îmbunătățește capacitatea de a înțelege contextul global al unui document sau video.

În plus, modelul utilizează o strategie de reducere a tokenilor care permite comprimarea informației fără pierderea semnificativă a conținutului. Această tehnică este esențială pentru a menține performanța în scenarii cu date voluminoase, cum ar fi analiza unui raport financiar de 100 de pagini sau un film documentar de 2 ore. Prin această metodă, modelul poate „înțelege” conținutul principal fără a fi suprasolicitat de detaliile redundante, ceea ce duce la o reducere semnificativă a latenței și a consumului de resurse.
2. Antrenament și optimizare
Antrenamentul modelului Nemotron Nano V2 VL a fost realizat în mai multe etape (SFT – Supervised Fine-Tuning), fiecare având un scop specific. În prima etapă, modelul a fost antrenat pe date generice de text și imagine, pentru a dezvolta o bază comună de înțelegere multimodală. După această etapă, s-a observat o scădere semnificativă a performanței în sarcini de codare și raționament logic, măsurată prin scorul LiveCodeBench, care a scăzut de la 70,0 la 50,87. Această degradare a fost o provocare majoră, deoarece modelul părea să piardă abilitatea de a înțelege și genera cod eficient.
Pentru a rezolva această problemă, echipa de cercetare a explorat mai multe strategii, inclusiv:
- adăugarea de exemple suplimentare de raționament cod în setul de date SFT1;
- dezactivarea scalării pierderii (loss scaling);
- crearea unui set de date dedicat pentru codare.
Toate aceste încercări au avut un impact limitat. În cele din urmă, s-a decis să introducă o etapă SFT3 separată și specializată, antrenată exclusiv pe date de raționament cod, cu un total de 1 milion de exemple sau 15 miliarde de tokeni. Această etapă a fost crucială pentru restaurarea performanței în sarcini de codare, fără a afecta alte benchmarkuri precum MUIRBench sau HallusionBench.
De asemenea, modelul a fost antrenat folosind FP8 cu scalare întârziată (delayed-scaling) prin TensorRT-Engine, o metodă care ajustează factorii de scalare în timp real pe baza maximului activațiilor din iterațiile anterioare. Această abordare este mai precisă decât metodele tradiționale de cantificare statică (cum ar fi în vLLM sau TensorRT-LLM), unde factorii sunt fixați într-o singură etapă de calibrare. Scalarea dinamică permite o reprezentare mai fidelă a valorilor, reducând erorile de cantificare și păstrând precizia modelului chiar și în condiții de resurse limitate.
3. Performanță semnificativă pe benchmarkuri multimodale
Pentru a evalua eficiența și versatilitatea Nemotron Nano V2 VL, cercetătorii au utilizat o gamă largă de benchmarkuri multimodale, acoperind domenii precum înțelegerea documentelor, analiza video, raționament logic și detectarea erorilor de interpretare. Rezultatele sunt impresionante, în special în comparație cu modele de dimensiune similară sau chiar mai mari.
În tabelul de mai jos sunt prezentate rezultatele principale pe un subset de benchmarkuri:
- MMBench V1.1 (EN/ZH): 83.0/80.2 — comparabil cu modelele de dimensiune mare, cum ar fi GLM-4.5V și sau seria de modele Qwen VL (Qwen3-VL);
- MMStar: 71.7 — o creștere semnificativă față de versiunea anterioară (65.9);
- MUIRBench: 44.2 — o creștere de 11 puncte față de modelul anterior, indicând o înțelegere mai bună a interacțiunilor vizuale și textuale;
- HallusionBench: 73.1 — o performanță superioară în detectarea iluziilor vizuale și a erorilor de interpretare;
- ZeroBench (sub): 18.3 — un scor ridicat în sarcini de tip zero-shot, indicând o generalizare puternică.
În plus, modelul susține două moduri de funcționare: reasoning-off și reasoning-on. În modul reasoning-off, modelul oferă răspunsuri rapide, fără a genera pași intermediari de raționament — ideal pentru aplicații în timp real. În modul reasoning-on, modelul generează o serie de pași logici, permițând o transparență mai mare și o înțelegere mai profundă a deciziilor, esențial pentru aplicații critice.
4. Cuantificare și accesibilitate
Unul dintre cele mai importante aspecte ale acestui proiect este accesibilitatea. NVIDIA a decis să elibereze modelul în mai multe formate de cantificare: BF16, FP8 și FP4. Aceste formate permit adaptarea modelului la diverse medii de execuție:
- BF16: ideal pentru hardware de performanță, oferind un echilibru între precizie și eficiență;
- FP8: permite o reducere semnificativă a memoriei și a timpului de inferență, fără pierderea semnificativă a preciziei;
- FP4: optimizat pentru dispozitive cu resurse limitate, cum ar fi telefoanele sau tabletele.

În plus, o parte semnificativă din datele de antrenament, codul de antrenament și rețetele de training au fost puse la dispoziție pe platforme precum Hugging Face și GitHub. Aceasta permite cercetătorilor și dezvoltatorilor să replice, extindă și îmbunătățească modelul în funcție de nevoile lor specifice. De asemenea, suportul pentru framework-uri precum vLLM și TensorRT-LLM permite integrarea ușoară în aplicații industriale și produse comerciale.
5. Cum putem folosi NVIDIA Nemotron Nano V2 VL?
Cel mai ușor mod de utilizare al modelului Nemotron Nano V2 VL este prin python.
Pentru început fom instala librăriile esențiale:
pip install causal_conv1d "transformers>4.53,<4.54" torch timm "mamba-ssm==2.2.5" accelerate open_clip_torch numpy pillow
Scriptul următor este folosit pentru a analiza o imagine de test:
import torch
from PIL import Image
from transformers import AutoModelForCausalLM, AutoProcessor, AutoTokenizer
# Load model and processor
model_path = "nvidia/NVIDIA-Nemotron-Nano-12B-v2-VL-BF16" # Or use a local path
device = "cuda:0"
model = AutoModelForCausalLM.from_pretrained(
model_path,
trust_remote_code=True,
device_map=device,
torch_dtype=torch.bfloat16
).eval()
tokenizer = AutoTokenizer.from_pretrained(model_path)
processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)
# Load image
image = Image.open("witcher.wenp")
# Prepare messages
messages = [
{"role": "system", "content": "/no_think"},
{
"role": "user",
"content": [
{"type": "image", "image": ""},
{"type": "text", "text": "Describe what you see in this image. Explain style."},
],
}
]
# Generate prompt and process inputs
prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = processor(text=[prompt], images=[image], return_tensors="pt").to(device)
# Generate output
generated_ids = model.generate(
pixel_values=inputs.pixel_values,
input_ids=inputs.input_ids,
attention_mask=inputs.attention_mask,
max_new_tokens=1024,
do_sample=False,
eos_token_id=tokenizer.eos_token_id,
)
# Decode output
output_text = processor.batch_decode(
generated_ids, skip_special_tokens=False, clean_up_tokenization_spaces=False
)[0]
print(output_text)Răspunsul dat de NVIDIA Nemotron Nano V2 VL este:
The scene depicts a solitary, elderly warrior cloaked in weathered armor sitting astride a chestnut horse with a dark brown mane and tail. The rider's back faces the viewer, revealing a long, silver ponytail and a cloak blending brown and red. Strapped to the rider’s back is a long, pointed sword. The horse stands on a rocky, uneven trail surrounded by tall grasses and dotted with clusters of yellow, pink, and red wildflowers. Behind them, a jagged mountain range rises steeply, its peaks dusted with snow and partially obscured by pine trees and fluttering banners strung between visible poles on the left. The sky is a vibrant blue with wisps of white clouds, through which a flock of small birds flies toward the peaks. A small body of water glimmers in the valley below, surrounded by meadows. The composition balances sharp, dramatic landscapes with soft, organic foliage, creating a sense of serene isolation.
The style is hyper-realistic, akin to high-end video game art, such as Red Dead Redemption 2 or The Witcher 3, with intricate environmental textures and character design. Lighting is soft yet vivid, emphasizing natural details like the horse’s muscular build, the rider’s battle-worn gear, and the delicate interplay of light on petals and feathers. The art merges photorealism with a painterly touch, particularly in the atmospheric mountain peaks and misty backgrounds, evoking both epic scale and intimate solitude.
(Note: This image closely resembles concept art or promotional material for the video game The Witcher 3: Wild Hunt, released in 2015 by CD Projekt Red.)
Scena înfățișează un războinic solitar, în vârstă, îmbrăcat într-o armură ponosită, așezat călare pe un cal castaniu, cu coamă și coadă maro închis. Spatele călărețului este orientat spre privitor, dezvăluind o coadă lungă, argintie și o mantie care îmbină maro și roșu. Prinsă de spatele călărețului este o sabie lungă și ascuțită. Calul stă pe o potecă stâncoasă și neuniformă, înconjurată de ierburi înalte și presărată cu ciorchini de flori sălbatice galbene, roz și roșii. În spatele lor, un lanț muntos zimțat se ridică abrupt, vârfurile sale acoperite de zăpadă și parțial ascunse de pini și steaguri fluturând întinse între stâlpi vizibili în stânga. Cerul este de un albastru vibrant, cu fire de nori albi, prin care un stol de păsări mici zboară spre vârfuri. O mică întindere de apă strălucește în valea de dedesubt, înconjurată de pajiști. Compoziția echilibrează peisaje ascuțite și dramatice cu un frunziș moale și organic, creând un sentiment de izolare senină.
Stilul este hiperrealist, asemănător cu arta jocurilor video de înaltă performanță, cum ar fi Red Dead Redemption 2 sau The Witcher 3, cu texturi ambientale complexe și design de personaje. Lumina este blândă, dar vie, accentuând detalii naturale precum constituția musculoasă a calului, echipamentul uzat de luptă al călărețului și interacțiunea delicată a luminii pe petale și pene. Arta îmbină fotorealismul cu o notă picturală, în special în vârfurile muntoase atmosferice și fundalurile încețoșate, evocând atât amploarea epică, cât și solitudinea intimă.
(Notă: Această imagine seamănă foarte mult cu arta conceptuală sau materialul promoțional pentru jocul video The Witcher 3: Wild Hunt, lansat în 2015 de CD Projekt Red.)NVIDIA Nemotron Nano V2 VL a identificat corect nu numai stilul și elementele din imagine, ci chiar și jocul din care provine imaginea respectivă.
6. Concluzie
NVIDIA Nemotron Nano V2 VL reprezintă o etapă importantă în evoluția modelelor de înțelegere multimodală. Prin combinarea unei arhitecturi hibride Mamba-Transformer, tehnici avansate de reducere a tokenilor și o strategie de antrenament multietapă, modelul oferă o performanță superioară în sarcini de documente lungi, video-uri complexe și raționament complex. Performanța sa pe benchmarkuri multimodale este în concordanță cu modele de dimensiune mult mai mare, ceea ce demonstrează eficiența sa computațională. În plus, accesibilitatea prin cantificare și eliberarea codului și datelor face din acest proiect un pilon pentru inovația deschisă în domeniul inteligenței artificiale.
Cu toate acestea, există și provocări: eficiența în modul de raționament activ poate fi încă un obstacol pentru aplicații în timp real. În viitor, este posibil ca modelul să fie extins cu funcționalități de interacțiune naturală, sau integrat în sisteme de asistență pentru utilizatori cu dizabilități vizuale. Nemotron Nano V2 VL nu este doar un model — este o platformă pentru viitorul inteligenței artificiale multimodale.




