SmolLM este un model AI de doar 1.7 miliarde de parametri care ocupă aproximativ 1GB și poate fi utilizat pe dispozitivele proprii împreună cu un server OLLAMA.
Folosirea modelelor AI local ridică numeroase probleme legate de capacitățile tehnice ale utilizatorilor, dar și de tipul de cuantizare și antenare a modelor care să permită reducerea dimensiunilor, dar și păstrarea unei complexități înalte.
Avantajele utilizării modelelor locale sunt date de securizarea datelor care tranzitează prin model, toate prelucările datelor fiind făcute pe dispozitivele aflate sub controlul utilizatorilor.
Marii furnizori de modele LLM încearcă să producă și variante mici atunci cănd lansează modele noi: astfel avem seria Phi (de la Microsoft) sau Qwen2 small (Alibaba).
Noul model AI SmolLM 1.7B dovedește în teste performanțe remarcabile pentru dimensiunile sale:
Modelul a fost antrenat pe setul de date Cosmopedia V1 și V2 care conține peste 30 de milioane de cărți, bloguri și articole generate de Mixtral-8x7B, deci vorbim evident de date sintetice.
Pentru a păstra acuratețea datelor, Mixtral-8x7B a generat dezolvoltări ale unor informații reale, dar pe baza unor indicații primite de la dezvolatori. Un exemplu de date este următorul:
Au fost folosite și tehnici de încrucișare a modelelor (Mixtral -8x7B, LLama3-70B și Qwen1.5-72B) și tehnici de îmbunătățire și creare a unor instrucțiuni complexe.
Testarea modelului SmolLM
Pentru testare am folosit un server Ollama instalat local și extensia chrome Chat with ollama.
Am ales să adresăm modelului mai multe întrebări pentru a studia capacitatea lui de înțelegere și profunzimea răspunsurilor. Țineți minte: vorbim de un model de doar 1GB!
Pentru început o întrebare filosofică grea și complexă pentru care modelul pare a fi pregătit. El structurează răspunsul în definiție, tipuri de zeități, caracteristici și relația cu oamenii care divinizează zeii.
În plus amintește și de ale teme corelate precum răul în lume, misticismul sau alte concepte filosofice.
A doua temă dată este să descrie o zi obișnuită din Barcelona.
Este evident că modelul a înțeles subiectul și ne povestește despre mai multe puncte de atracție din orașul Barcelona -plaja, celebra Rambla și chiar ne îndeamnă să vizităm 2 cafenele din orașul vechi.
Cu a treia întrebare încercăm să stabilm dacă modelul poate fi de folos în activitățile gospodărești: l-am rugat să ne dea rețeta pentru salata Caesar.
În final am testat și capacitatea de creativitate, rugându-l să compună versurile unui cântecel pentru copii având ca tema fluturii:
Aparent modelul este fan Bruno Mars, dar până la urma rezultatul pare a fi excelent.
Pentru dimensiunea lui, SmolLM este absolut uluitor. Nu îi voi cere mai multe pentru e clar că are o capacitate limitată, dar cu siguranță poate fi inclus pe dispozitive casnice precum Raspberry Pi pentru a fi suport pentru aplicații de tip smart home.