În peisajul în continuă evoluție al inteligenței artificiale, scrisul de mână a fost tot timpul o preocupare constantă: cum putem automatiza recunoașterea acestuia? Modelele LLM multimodale precum Llama 3.2 Vision reprezintă un salt semnificativ în capacitatea de a procesa și înțelege imagini care conțin scris de mână. Acest model revoluționar aduce o nouă dimensiune în domeniul analizei vizuale, oferind posibilități remarcabile pentru dezvoltatori și utilizatori deopotrivă.
1. Llama 3.2 Vision: caracteristici și capabilități
Llama 3.2 Vision este un model LLM multimodal disponibil în două variante principale, fiecare având propriile sale caracteristici distincte:
- Modelul de 11 miliarde de parametri: ideal pentru hardware mai modest;
- Modelul de 90 miliarde de parametri: oferă calitate superioară, dar necesită resurse hardware mai substanțiale.
Un aspect remarcabil al acestui model este capacitatea sa de a rula complet offline, folosind platforma OLAMA. Acest lucru înseamnă că utilizatorii pot procesa imagini și extrage informații fără a avea nevoie de o conexiune la internet, oferind astfel avantaje semnificative în ceea ce privește confidențialitatea și viteza de procesare.
Avantaje principale:
- Procesare offline completă;
- Instalare și utilizare simplă prin OLAMA;
- Integrare flexibilă prin SDK-uri pentru Python și JavaScript;
- Interfață intuitivă prin Open Web UI;
- Capacitate de procesare a mai multor imagini simultan.
Limitări și considerații:
- Necesită minimum versiunea OLAMA 0.4;
- Modelul de 90 miliarde de parametri necesită hardware performant;
- Fișierul de descărcare are aproximativ 8 GB;
- Poate prezenta unele inconsistențe în recunoașterea logo-urilor complexe.
2. Implementare și utilizare practică pentru recunoașterea scrisului de mână
De multe ori avem nevoie nu doar să digitalizăm documente (de exemplu să le scanăm și să le stocăm in format electronic), dar și să extragem datele din acestea într-un format care să ne permită utilizarea lor mai târziu.
Nu tot timpul documentele sunt scrise uniform – ne lovim frecvent de notițe, de chitanțe, de înscrisuri sau chiar de documente de arhivă. Chiar și vechile buletine erau completate manual.
Avem nevoie de un sistem capabil să facă o recunoaștere corectă și completă a scrisului de mână indiferent de calitatea suportului sau orientarea acestuia.
În continuare vom testa capacitatea Llama 3.2 vision pe mai multe imagini, câteva preluate de pe internet și altele pregăte special pentru acest test.
Configurarea mediului de testare
Vom folosi modelul Llama 3.2 Vision de 11 miliarde de parametri pe care îl vom instala local prin serverul Ollama. Pentru aceasta vom începe cu :
- Descărcați și instalați OLAMA de pe olama.com
- Rulați comanda de instalare a modelului:
olama pull llama3.2-vision
:latest
Fișierul descărcat are o dimensiune aproximativă de 8 GB și poate să încapă complet în memoria unei plăci grafice de 12 GB VRAM.
Putem face testele în mai multe moduri posibile, fie direct în terminal prin comanda:
ollama run llama3.2-vision:latest
fie prin cod python folosind librăria ollama.
Pentru codul python putem utiliza următorul exemplu:
# Exemplu de cod Python
import ollama
response = ollama.chat(
model="llama-3.2-vision",
messages=[{
"role": "user",
"content": "Descrie această imagine",
"images": ["imagine.png"]
}]
)
print(response)
Să începem testele.
Prima imagine este:
Dacâ solicităm descrierea imaginii și extragerea textului obținem următorul răspuns:
The image features a close-up photograph of a hand holding a pen over a piece of paper with writing on it.
* A pen:
+ Held by a hand
+ Pointing towards the right side of the image
+ Tip touching the paper
* A hand:
+ Holding the pen between the thumb and index finger
+ Partially visible, with only the fingers and part of the palm showing
* Paper:
+ White with blue lines
+ Filled with writing in black ink
The image appears to be a still life photograph capturing a moment of creative expression or perhaps a
demonstration of handwriting.
Hhere is the text extracted from the image:
"This is my handwriting"
This text is written on what looks like lined paper in a childlike handwriting style. The words are centered and take up most of the page. There is a hand holding a pen writing above it.
Imaginea este extrem de clară, iar singura dificultate pe care o putem identifica ar fi faptul că textul nu este orizontal.
A doua imagine este de asemenea preluată de pe internet, dar este mult mai asemănătoare cu condițiile reale:
Llama 3.2 vision descrie imaginea în felul următor:
The image depicts a handwritten note on lined paper, with the text "Aggressive Temper" written in black ink. The note appears to be a rough draft or a brainstorming idea, rather than a polished piece of writing.
* **Text**
+ Written in black ink
+ Reads "Aggressive Temper"
* **Paper**
+ Lined paper
+ White with blue lines
The overall atmosphere of the image is one of informality and creativity, suggesting that the note was written quickly and without much attention to grammar or spelling.
Dacă solicităm recunoașterea scrisului de mână Llama 3.2 vision răspunde corect:
Aggressive Temper
Higher Temperment
Evident calitatea imaginii sursă contează mult.
Următoarea imagine este tipică pentru notițele luate la birou – este fotografiată o pagină dintr-o agendă.
Llama 3.2 vision nu prea e capabil să recunoască scrisul de mână din această imagine (desigur nici calitatea scrisului nu este prea bună):
The image shows a notebook with a pen on top of it, placed on a wooden table or desk. The notebook is open to a page with some writing on it, but the text is not legible.
* **Notebook:**
+ Opened to a page with writing
+ Writing is not legible
* **Pen:**
+ Placed on top of the notebook
+ Has a silver tip and a blue body
* **Table/Desk:**
+ Made of wood
+ Light brown color
The overall atmosphere of the image suggests that someone is working or studying, possibly taking notes or writing in the notebook. The presence of the pen on top of the notebook implies that the person may have been using it recently.
Am rescris textul folosind litere de tipar și am cerut din nou extragerea lui:
De data aceasta Llama 3.2 vision s-a descurcat mult mai bine:
TEST DE IDENTIFICARE SCRIS
ACESTA ESTE UN TEST
Llama 3.2 vision a fost antrenat să recunoască textul scris în condiții de calitate maximă, dar cred că este posibil să fie antrenat mai departe și pe scris de mână cursiv, urât și în grabă.
Aplicații Practice și Cazuri de Utilizare
Llama 3.2 Vision excelează în multiple scenarii de utilizare:
3. Concluzie și perspective de viitor
Noile modele multimodale care pot procesa imagini sunt din ce în ce mai puternice și mai capabile să execute diferite sarcini complexe. Qwen 2-vl, Phi 3.5 vision sau GOT-OCR2 se luptă pentru a acapara piața modelelor LLM dedicate digitalizării documentelor inclusiv a celora care conțin scris de mână.
Azi Llama 3.2 vision ne-a arătat că poate descrie corect imaginile și, în anumite condiții, poate identifica corect și scrisul de mână. Nu este capabil să facă identificarea în orice fel de condiții, dar e cu siguranță pe drumul cel bun.
Llama 3.2 vision are niște puncte tari: procesarea offline, flexibilitatea în implementare și capacitățile avansate de analiză – îl recomandă ca o soluție viabilă pentru o gamă largă de aplicații. Acestea fac posibilă integrarea lui în dispozitive mobile, cu resurse hardware mai slabe care sugerează o gamă foarte interesantă de aplicații:
- Extragerea automată a textului și scrisului de mână din documente scanate sau fotografiate;
- Procesarea facturilor și documentelor oficiale;
- Procesarea automată a documentelor de arhivă și extragerea scrisului de mână în format digital;
- Analiza și categorizarea documentelor.
Pe măsură ce tehnologia evoluează, putem aștepta îmbunătățiri continue ale performanței și eficienței, precum și noi caracteristici care vor extinde și mai mult capacitățile acestui instrument remarcabil. Pentru dezvoltatorii și organizațiile care caută o soluție robustă de procesare a imaginilor și OCR, Llama 3.2 Vision reprezintă o opțiune demnă de luat în considerare, oferind un echilibru excelent între performanță, flexibilitate și ușurință în utilizare.