LLAVA 13B 1.6 LLAVA 13B 1.6

LLAVA 13 B 1.6

Fratele mai mare a lui LLAVA 1.6 (un articol despre acest model poate fi citit aici), LLAVA 13B versiunea 1.6 este un model mult mai performant care permite de asemenea extragerea informațiilor din imagini complexe.

Acest model poate fi folosit cu succes în aplicații care realizează descriere automate la imaginile dintr-un website de exemplu, la extragerea textului din imagini sau la depistarea unor obiecte sau situații specifice din imagini.

Modelul poate fi instalat local (prin Ollama) și are o dimensiune aproximativă de 11 GB ceea ce îl face să se încadreze perfect în VRAM-ul unei plăci grafice nu foarte pretențioase de 16 GB.

Am testat acest model pentru a extrage textul din 4 imagini care conțin atât doar text, cât și alte elemente naturale.

Pentru început am folosit o imagine simplă PNG, cu textul scris cu un font mare și clar:

Modelul a răspuns corect:

The image you’ve provided contains a text that reads, „It was the best of times, it was the worst of times, it was the age of wisdom, it was the age of foolishness.” This is a famous opening line from the novel „A Tale of Two Cities” by Charles Dickens. The background of the image is white, and there’s a subtle decorative border surrounding the text.

Modelul chiar a sugerat și sursa citatului din imagine.

Pentru al doilea test am folosit un text scris pe un fundal gri/cenușiu care îl face ușor mai greu de citit:

Modelul însă a răspuns:

„Power Supply
The Calculator is powered by a solar cell and a battery. When the display shows “LOW BATTERY” the calculator will dim down when it needs to be replaced.”

După cum se vede, modelul a identificat textul dar nu l-a reprodus identic, ci a rezumat informația, eliminând unele cuvinte esențiale.

Am încercat să împărțim imaginea în 2 subimagini care să conțină mai puțin text:

În această situație modelul a funcționat mai bine răspunzând:

The text in the image reads: „Power supply. The calculator is powered by solar cell and a battery for backup. A lithium ion rechargeable battery.
THE DISPLAY WILL DIM WHEN THE BATTERY NEEDS TO BE REPLACED.
THE „+” SIGN OF EACH BATTERY MUST
SHOWN UPWARD TOWARDS EACH BATTERY INSERT.

După cum se vede a adăugat o informație care nu exista în imagine legată de faptul că bateria din text este din lithium.

Pentru testul 3 am folosit o imagine din natură, vio colorată, în care textul este scris cu elemente de vegetație:

Iar modelul a răspuns din nou corect:

identificând textul WILDLIFE.

În concluze LLAVA 13B 1.6 pare că se descurcă destul de bine la extragerea textului dacă i se oferă imagini cu text puțin. Aceasta însemnă că pentru cele mai bune rezultate, imaginile ar trebui prelucrate înainte și împărțite în sub imagini mai mici.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *