LLAVA 1.6 – prelucrarea imaginilor

Stoica Paul

2 ani ago

Modelul multimode LLaVA 1.6 este este un pas înainte față de LLaVA 1.5 și se caracterizează prin îmbunătățiri ale capacităților de raționament, OCR și cunoștințe despre lume, depășind astfel predecesorul său și alte modele în mai multe benchmark-uri.

Acest model AI prezintă progrese tehnice semnificative în prelucrarea imaginilor, folosirea elementelor conversaționale pentru un dialog îmbunătățit cu utilizatorii și integrare scalabilă cu diferite modele AI mari, mai complexe.

LLaVA 1.6 extinde performanța și capacitățile congnitive menținând în același timp eficiența și filosofia minimalistă a designului său. Aceste îmbunătățiri sunt esențiale pentru progresul utilității modelului pentru o gamă mai largă de aplicații, în special în scenarii care necesită prelucrare vizuală cu rezoluție înaltă, raționament vizual sofisticat și interacțiune îmbunătățită prin conversație vizuală.

O actualizare semnificativă în LLaVA-1.6 este introducerea caracteristicii Rezoluție Dinamică Ridicată.

Modelul acceptă acum imagini până la rezoluțiile 672×672, 336×1344 și 1344×336, în trei raporturi de aspect. Această îmbunătățire permite modelului să captureze mai multe detalii vizuale, esențiale pentru sarcinile care necesită o înțelegere vizuală fină. Implementarea tehnicii ‘AnyRes’ permite modelului să proceseze eficient imagini cu rezoluții ridicate variate păstrând costurile operaționale la un nivel relativ scâzut.

Această abordare reduce semnificativ tendința modelului de a halucina sau interpreta greșit conținutul vizual în imagini cu rezoluție scăzută, îmbunătățind astfel precizia și fiabilitatea.

Testare descriere imagini

Pentru început vom ruga modelul să descrie o imagine desenată a unui vas de croazieră:

Răspunsul modelului este:

The image shows a cruise ship named „Carnival Fantasy,” which is a real vessel owned and operated by Carnival Cruise Lines. The ship is depicted in an illustration, showcasing its design with various amenities and features visible on its side. These include different types of staterooms, dining options, bars, and recreational areas. The top deck features a water slide and a miniature golf course. The background suggests that the ship is sailing on the ocean. On the left side of the image, there is text indicating „CRUISING LINES,” „SHIP TYPE,” „LENGTH,” „WIDTH,” „DRAFT,” „TONEGTS,” „GRTS,” „PASENGERS,” and „CAPACITY,” but no specific numerical values are provided for comparison or identification purposes.

Modelul identifică corect faptul că imaginea este o ilustrată a unui vas de croazieră care prezintă facilitățile prezente pe navă. În plus, LLAVA1.6 extrage și textele prezente în imagine.

Imaginea următoare reprezintă o livadă cu meri:

Modelul înțelege imaginea astfel:

„The image depicts a vibrant orchard filled with apple trees. The ground is covered in a dense carpet of fallen apples, predominantly red and yellow, which suggests that the trees are heavy with fruit. The trees themselves appear to be laden with ripe fruit, indicating it might be autumn, which is the typical harvest season for apples.

The apples on the ground are scattered throughout the field, some are closer to the viewer while others are further away, creating a sense of depth in the image. The trees are uniformly spaced, and their trunks and branches can be seen among the fallen fruit.

There is no visible text or human activity in the image, giving it a tranquil and natural appearance. The focus is solely on the abundant harvest in the orchard. The sky above is overcast, casting a soft, diffuse light that illuminates the scene evenly without harsh shadows.”

Pentru a testa capacitatea OCR a modelului vom folosi imaginea

și îl vom ruga să extragă titlul din imagine:

Modelul extrage corect titlul „CARTOON”.

Dimensiunea modelului LLAVA-1.6 este de 4.7 GB, extrem de mică, ceea ce îl face ideal pentru rularea pe dispozitive nepretențioase (chiar și Raspberry 4 și 5).