Domeniul inteligenței artificiale a făcut un alt salt semnificativ înainte odată cu introducerea Phi 3.5-vision, un model LLM multimodal de ultimă oră dezvoltat de Microsoft.

1. Introducere

Acest model ușor, dar puternic, reprezintă o nouă frontieră în învățarea automată, combinând capabilități avansate de procesare a limbajului natural cu înțelegerea sofisticată a imaginilor. Phi 3.5-vision furnizat de Microsoft se remarcă prin capacitatea sa de a gestiona atât textul, cât și intrările vizuale cu o eficiență remarcabilă, făcându-l un instrument versatil pentru o gamă largă de aplicații în peisajul digital din ce în ce mai vizual de astăzi.

Ceea ce diferențiază Phi 3.5-vision este echilibrul său impresionant între performanță și eficiența resurselor. Cu o lungime a contextului de 128.000 de tokeni și o arhitectură optimizată atât pentru procesarea unei singure imagini, cât și a mai multor imagini, acest model deschide noi posibilități atât pentru dezvoltatori, cât și pentru cercetători. De la înțelegerea generală a imaginii și recunoașterea optică a caracterelor până la sarcini complexe, cum ar fi interpretarea diagramelor și rezumarea video, Phi 3.5-vision demonstrează capabilități care au fost cândva domeniul de modele mult mai mari, care consumau mai multe resurse. Pe măsură ce aprofundăm acest articol, vom explora caracteristicile cheie, aplicațiile practice și exemplele de lucru care prezintă adevăratul potențial al acestui model inovator de inteligență artificială.

2. Caracteristici Phi 3.5-vision

2.1. Capabilități

Phi 3.5-vision se remarcă prin versatilitatea și eficiența în procesarea informațiilor atât textuale, cât și vizuale. Capacitățile sale se extind într-o gamă largă de sarcini, făcându-l un instrument puternic pentru diverse aplicații.

2.2. Specificații tehnice

Lungimea contextului: 128.000 de tokeni
Performanță eficientă în medii cu resurse limitate
Procesarea multimodală a textului și imaginilor

2.3. Posibilități de utilizare

2.3.1. Procesare vizuală

Înțelegerea și analiza generală a imaginii
Compararea imaginilor multiple și detectarea relațiilor
Rezumarea clipurilor video (relege) și extragerea cadrelor cheie

2.3.2. Extragerea textului și a datelor

Recunoaștere optică avansată a caracterelor (OCR)
Interpretarea diagramelor și a tabelelor și extragerea datelor
Analiza aspectului documentului și recunoașterea structurii

2.3.3.Integrare multimodală

Generarea și manipularea text-to-image
Subtitrare și generare de descrieri
Răspunsuri vizuale la întrebări și raționament

2.4. Îmbunătățiri față de modelele anterioare

Phi-3.5-vision reprezintă un progres semnificativ față de modelelel sale anterioare, oferind performanțe îmbunătățite și aplicabilitate mai largă, menținând în același timp o dimensiune relativ compactă.

Capacități superioare multi-cadre respectiv capacitatea de a gestiona, procesa sau afișa în mod eficient mai multe cadre de date sau imagini simultan. Acest lucru este util în special în gestionarea animațiilor, videoclipurilor sau setărilor cu mai multe camere.
Tehnici avansate de rezumare video

Performanță și eficiență superioare față de alte modele LLM din aceeași clasă

Măsuri de siguranță privind utilizarea non etică îmbunătățite.

Versatilitate sporită care include utilizarea într-o gamă mai largă de aplicații în diverse domenii.

3. Testare

Modelul Phi 3.5-vision poate fi instalat și local, având o dimensiune de aproximativ 6 GB.

Librăriile necesare pentru rularea modelului sunt:

flash_attn==2.5.8
numpy==1,24,4
Pernă==10.3.0
Cereri==2.31.0
lanternă==2.3.0
torchvision==0,18,0
transformatoare==4,43,0
accelerare==0,30,0

Phi 3.5 acceptă mai multe tipuri de instrucțiuni, dar recomandarea este să folosiți:

<|user|>\n<|image_1|>\n{prompt}<|end|>\n<|assistant|>\n

pentru instrucțiuni simple, și:

<|user|>\n<|image_1|>\n{prompt_1}<|end|>\n<|assistant|>\n{response_1}
<|end|>\n<|user|>\n{prompt_2}<|end|>\n<|assistant|>\n

pentru instrucțiuni care implică mai multe sarcini.

3.1. Exemplu de cod

Am analizat mai multe imagini și am folosit următorul exemplu de cod, în care am schimbat doar numele imaginii:

import torch
import os

os.environ["KMP_DUPLICATE_LIB_OK"]="TRUE"
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
)

from huggingface_hub import login


hug_token = "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"
login(token = hug_token)
device = "cuda"

tokenizer = AutoTokenizer.from_pretrained("CausalLM/miniG",trust_remote_code=True, token=hug_token)

query = """Write an article about the development of home-use robots, from the novels od Isaac Asimov from the middle of 20th century to cheap humanoid robots of the year 2024.

Thmes to explore:
- how can robots help people in household activities
- how can robots help the lone people
- what are the risks of using robots

Genre:
Article

Tone:
Useful informations
"""
inputs = tokenizer.apply_chat_template([{"role": "user", "content": query}],
                                       add_generation_prompt=True,
                                       tokenize=True,
                                       return_tensors="pt",
                                       return_dict=True
                                       )

inputs = inputs.to(device)
model = AutoModelForCausalLM.from_pretrained(
    "CausalLM/miniG",
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=True,
    trust_remote_code=True
).to(device).eval()

gen_kwargs = {"max_length": 2500, "do_sample": True, "top_k": 1}
with torch.no_grad():
    outputs = model.generate(**inputs, **gen_kwargs)
    outputs = outputs[:, inputs['input_ids'].shape[1]:]
    print(tokenizer.decode(outputs[0], skip_special_tokens=True))

3.2. Descrierea imaginilor cu Phi 3.5-vision

Prima imagine este dintr-un restaurant:

iar modelul a descris-o în felul următor:

The image shows four raw lamb chops with bones, arranged in a row on a blue surface. In the background, there are various bottles, possibly containing liquor or condiments.

Următoarele imagini conțin oameni care interacționează pe stradă:

Această imagine ste descriesa de Phi 3.5 astfel:

The image shows three individuals walking on a city street. The person in the foreground is a woman in a red dress, the middle person is a man in a blue plaid shirt, and the person in the background is a woman in a blue top. They are all facing away from the camera, and the street is lined with buildings and there are other pedestrians in the background.

Iar următoarea imagine:

este descrisă corect:

The image shows a man and a woman sitting on a bench in a park. The man is wearing a white shirt and the woman is in a white dress. They are holding hands, and there is another woman standing behind them. The setting is outdoors with trees and a bench in the background.

3.3. Identificare text

Hai să vedem cum răspunde Phi 3.5 la recunoașterea de text:

Textul din imagine este identificat corect:

The image shows a plain white background with a block of text in a simple, sans-serif font. The text is a poetic statement that reads 'It was the best of times, it was the worst of times, it was the age of wisdom, it was the age of foolishness...'. The text is centered and appears to be in black color. There are no other discernible features or objects in the image.

3.4. Extragere text din imagine

Vom testa în continuare dacă modelul Phi 3.5-vision poate extrage anumite informații de tip text dintr-o imagine. Pentru aceasta vom folosi ca exemplu un extras dintr-o ziar de modă:

Pentru această analiză am schimbat instrucțiunile în:

# Prepare the input
messages = [
    {"role": "user", "content": "<|image_1|>  This image is from a fashion magazine article Please analyze the content of this page, including:1. The titles and subtitles. 2. The url addresses. Please be as detailed as possible in your analysis.",}
]

Răspunsul modelului este:

The image is a layout of a fashion magazine article from the year 2024, titled "The Art of Dressing" with the subtitle "Expressing Identity Through Personal Style". The article is divided into three sections: "Fashion and Self-Perception", "Fashion and Social Change", and "Mental Impact of Clothing Choices". Each section is accompanied by a black and white photograph of a person in various poses, showcasing different styles of dress. The website address "WWW.REALLYGREATSITE.COM" is also visible.

Modelul a identificat corect adresa url prezentă în imagine și principalelel titluri și subtitluri.

Pentru a evita orice confuzie, i-am cerut să dea un răspuns structurat sub formă json:

```json

{

  "titles": [

    "The Art of Dressing",

    "Expressing Identity Through Personal Style",

    "How: Fashion Choices Reflect and Influence Individuality and Culture",

    "Fashion and Self-Perception",

    "Fashion and Social Change",

    "Mental Impact of Clothing Choices"

  ],

  "url": "WWW.REALLYGREATSITE.COM"

}

```

După cum se vede, Phi 3.5-vision a extras toate titulurile și subtitlurile și adresa url din imagine.

4. Evaluări

În testul MMBench (Multimodal Benchmark)) Phi 3.5-vision a obținut un impresionant scor de 81.9 de puncte care îl situează în fața altor modele consacrate precum Gemini 1.5 Flash, GPT 4o sau Claude 3.5 Sonet.

Totuși trebuie ținut cont că modelele cu care a fost comparat nu pot fi instalate local și dimensiunea acestora este mult superioară lui Phi 3.5.

5. Concluzii

Phi 3.5-vision este un model LLM cu capacități de computer vision extraordinare în comparație cu dimensiunile sale reduse și cerințele hardware pentru a fi folosit local.

Acest model AI poate fi utilizat în aplicații curente de extragere și interpretare a informațiilor din imagini, la o viteză mare și cost redus.

Se deschid noi posibilități în domeniul roboticii și al automatizări hardware sau în aplicații multi LLM care au nevoie de capacitate avansată de analiză video.

What are You Looking for?

Phi 3.5-vision