Site icon Ai-Romania – informații din domeniul inteligenței artificiale

Imaginile generate de AI: o comparație între Flux 1.1, Stable Diffusion 3.5 Large și Janus 1.3B

Imaginile generate de AI: o comparație între Flux 1.1, Stable Diffusion 3.5 Large și Janus 1.3B

Imaginile generate de AI: o comparație între Flux 1.1, Stable Diffusion 3.5 Large și Janus 1.3B

În era digitală actuală, imaginile generate de AI: au devenit un domeniu fascinant și în continuă evoluție. Trei modele extraordinare – Flux 1.1, Stable Diffusion 3.5 Large și Janus 1 .3B au atras atenția comunității tech prin capacitățile lor remarcabile. Să explorăm în detaliu cum funcționează aceste sisteme și ce le face unice.

1. Cum funcționează imaginile generate de AI?

Înainte de a analiza modelele specifice, este esențial să înțelegem procesul fundamental prin care AI-ul generează imagini.

În articolele precedente am analizat comportamentul modelelor generative de tip text, precum Llama 3.2 sau Qwen 2.5. Deși poate ne imaginăm că și modelele generative vizuale funcționează la fel, totuși sunt câteva diferențe semnificative.

Imaginile generate de AI au la bază de obicei așa numitele modele de tip diffusion.

Aceste modele folosesc așa numita difuzie directă și difuzie inversată.

În prima fază – în difuzia directă, modelul întroduce zgomot peste o imagine cu care se antrenează transformând-o încet într-o formă din care nu se mai distinge nimic (similar cu adăugarea unui strop de cerneală într-un pahar cu apă, cerneală care se amestecă în timp cu apa din pahar).

În pasul doi, al difuziei indirecte modelul încearcă să refacă imaginea pornind de un zgomot absolut.

Modelul se antrenează adăugând zgomot imaginilor în mai mulți pași, iar apoi încearcă să prezică cât de mult zgomot a fost adăugat pentru a permite refacerea imagininii inițiale.

Modelele AI de aces tip implică și alți pași cheie:

Encodarea Textului

    Procesul de prezicere a zgomotului

      Rafinarea Imaginii

        2. Flux 1.1: o adevărată revoluție pentru imaginile generate de AI

        Flux 1.1 reprezintă un salt important în domeniul generării de imagini AI, aducând mai multe inovații semnificative.

        Modelul poate fi folosit prin platforma Replicate, HuggingFace sau direct și gratuit pe calculatorul personal.

        Flux 1.1 folosește o arhitectură neurologică avansată care permite o mai bună înțelegere a contextului și instrucțiunilor date de utilizator. Un promp mai bun duce automat la îmbunătățirea detaliilor fine și texturilor și senzației de realism.

        Pe lângă aceste puncte tari, Flux 1.1 aduce și un sistem superior de înțelegere a relațiilor spațiale între elemente unei imagini, precum și a fizicii care stă în spatele obiectelor, contribuind și mai mult la generarea unor scene plauzibile.

        Flux 1.1 se remarcă printr-o calitate excepțională a detaliilor de prim plan, în special a generării personajelor umane, precum și prin păstrarea consistenței atunci când este nevoie de generarea unor scene complexe.

        Flux 1.1 vine cu unul din cei mai buni timpi de generare a imaginilor prin modele AI de pe piață

        3. Stable Diffusion 3.5 Large: perfecționarea unei tehnologii uluitoare

        Stable Diffusion este un alt model de inteligență artificială care poate genera imagini din text. Este unul dintre cele mai populare instrumente AI pentru crearea de artă digitală.

        La baza sa, Stable Diffusion este un model de difuzie latentă. În loc să lucreze direct cu imaginile în dimensiunea lor completă, sistemul comprimă mai întâi imaginea într-un spațiu latent mult mai mic, reducând astfel dramatic timpul și resursele necesare pentru procesare.

        Procesul poate fi împărțit în câțiva pași cheie:

        Comprimarea în spațiul latent

        Procesarea textului

        Procesul de difuzie

        Decodificarea finală

        Un aspect important este parametrul CFG (Classifier-Free Guidance), care controlează cât de strict urmează modelul prompt-ul text. O valoare mai mare înseamnă că imaginea va urma mai fidel descrierea, dar poate produce rezultate mai puțin naturale.

        Stable Diffusion 3.5 Large poate fi folosit prin platforma Replicate, HuggingFace sau descărcat direct pe calculator.

        Stable Diffusion poate funcționa în mai multe moduri:

        Stable Diffusion 3.5 Large aduce îmbunătățiri semnificative față de versiunile anterioare, printr-o îmbunătățire a scalabilității arhitecturii, o procesare mai eficientă a prompturilor complexe și mai ales un sistem mai avansat de control al stitlului și compoziției scenelor generate.

        3. Janus 1.3B: o nouă perspectivă în generarea de imagini

        Al treilea model AI prin care se pot genera imagini despre care vorbim în acest articol este Janus 1.3B care se bazează pe o arhitectură de învățare profundă (deep learning) autoregresivă unificată, care reprezintă o abordare radical nouă în domeniul multimodal.

        Janus 1.3B poate fi testat pe platforma HuggingFace.

        În loc să utilizeze encodere separate pentru text și imagini, Janus 1.3B decuplează encodingul vizual în căi independente, dar le integrează într-o singură arhitectură de transformator. Acest design inovator oferă două beneficii majore:

        1. Flexibilitate îmbunătățită: permite modelului să se adapteze mai ușor la diverse sarcini, fie că este vorba de generarea de imagini din text, de înțelegerea imaginilor sau de sarcini complexe care implică ambele.
        2. Performanță îmbunătățită: prin evitarea compromisurilor între diferitele sarcini vizuale, Janus 1.3B atinge rezultate superioare în generarea de imagini din text, comparativ cu abordările tradiționale care folosesc un singur encoder vizual.

        Procesul de generare a imaginilor din text

        Pentru a genera o imagine dintr-un text dat, Janus 1.3B parcurge următorii pași:

        Preprocesarea textului: textul de intrare este prelucrat pentru a fi compatibil cu formatul de intrare al modelului. Acest pas poate include tokenizarea, conversia în reprezentări numerice și normalizarea.

        Encoding multimodal: textul preprocesat este apoi procesat de către componenta de encoding multimodal a modelului. Aici, textul este transformat într-o reprezentare care poate fi utilizată de arhitectura de transformator pentru a genera o imagine corespunzătoare.

        Generarea imaginii: arhitectura de transformator, alimentată cu reprezentarea multimodal a textului, generează imaginea. Acest proces autoregresiv construiește imaginea, pixel cu pixel, sau prin alte metode de generare a imaginilor, în funcție de specificațiile modelului.

        Janus 1.3B permite procesarea paralelă a sarcinilor și o înțelegere avansată a contextului semnatic al prompturilor.

        Unul din punctele tari ale modelului este generarea unor expresii faciale ale personajelor cu mult mai multe elemente apropiate de realitate.

        5. Comparație între modele

        Toate cele trei modele sunt extrem de competitive iar imaginile generate de AI sunt extrem de aproape de realitate. Evident fiecare model are plusuri și minusuri.

        Vom face câteva teste și vom urmări imaginile generate de fiecare model pentru același prompt.

        Pentru început vom dori generarea unei imagini în gen desen cu un raton vesel:

        Generate a captivating cinematic image of a cute, curious raccoon in a bustling urban park during
        sunset. The scene should be set with warm, orange hues painting the sky, casting a soft glow on
        the park's surroundings. The raccoon should be depicted as if it's rummaging through a trash can,
        its black mask and bushy ringed tail adding to its charm. The background should include a variety
        of urban elements such as benches, trees, and a playground. The image should be of high quality,
        with detailed textures and realistic lighting effects.

        Flux 1.1 a generat o imagine ultra realistă, cu detalii fascinante: fundalul blurat cu soarele care apune, textura animalului cu toate firele de păr vizibile și expresia facială incredibilă.

        Stable Diffusion 3.5 Large a adus și mai multe elemente originale în imagine. Pornind de la contextul în care apare ratonul în scenă, modelul a introdus gunoaie pe jos, dar a păstrat efectul artistic de fundal blurat cu personaje care se plimbă prin parc.

        Janus 1.3B a generat imaginea cea mai rapidă, dar ratonul nu mai are un aspect realist, ci mai curând de desen animat, deși fundalul a fost generat destul de bine.

        Pentru al doilea test vom încerca generarea unor imagini de tip portret, în stil renascentist cu elemente din perioada respectivă.

        Vom folosi următorul prompt:

        Flux 1.1 generează o imagine mai mult asemănătoare cu o pictură decât cu o fotografie. Sunt remarcabile detaliile costumului purtat de personaj și elementele de fundal ale imaginii.

        Stable Diffusion 3.5 Large generează un personaj mult mai extravagant, îmbrăcat în armură, dar și elemente imperiale precum coloane din fundal sau roba purpurie cu detalii aurite.

        Janus 1.3B a lăsat orice urmă de realism deoparte. Imaginea pare mai mult o ilustrată a unei cărți de aventuri, iar personajul și fundalul par mai mult din secolul al 19-lea decât din secolele renașterii.

        Ultimul test de azi urmărește obținerea imaginii unui oraș futurist în stilul elementelor filmului science-fiction Blare Runner:

        Generate a captivating cinematic image of a futuristic city, with elements of cyberpunk, set in a
        world reminiscent of the Blade Runner movie. The scene should be set during a heavy downpour, with
        rain pouring down on neon-lit streets and towering skyscrapers. The cityscape should include
        elements such as flying cars, holographic billboards, and futuristic architecture. The image
        should be of high quality, with detailed textures and realistic lighting effects, creating a sense
        of immersion in the cyberpunk world.

        Flux 1.1 generează o imagine conformă cu instrucțiunile date, dar cu unele inadvertențe evidente: mașinile circulă pe ambele sensuri unele spre celelalte. Totuși scena conține toate elemente cerute:

        Stable Diffusion 3.5 Large generează o imagine asemănătoare cu posterul unui film SF din anii 1980:

        În fine, Janus 1.3B generează o imagine care seamănă mai mult cu o pictură în ulei:

        Am urmărit comportamentul modelelor în funcție de calitate, viteză și versatilitate.

        Calitatea imaginilor

        Viteza de procesare

        Versatilitate

        În opinia noastră câștigă detașat Flux 1.1 care a generat imaginile cele mai apropiate de ce ne-am dorit.

        6. Concluzii

        Imaginile generate de AI sunt din ce în ce mai utilizate în mediul pentru că se pot genera extrem de ușor, sunt din ce în ce mai ieftine, calitatea crește și devin din ce în ce mai greu de distins de imaginile reale.

        Gama de utilizare este diversă:

        Desigur, creatorii tradiționali se împotrivesc tehnologiei generative, dar până la urmă imaginile generate de AI pot fi asimilate unor noi oportunități ca de fiecare dată când apar noi tehnologii. Să nu uităm că toate imaginile au la bază factorul uman, care stabilește promptul/instrucțiunile și care modifică constant imaginile până ajunge la rezultatul dorit.

        Fiecare dintre modele AI prezentat aduce contribuții valoroase în domeniul generării de imagini AI:

        Alegerea modelului potrivit depinde de cerințele specifice ale proiectului, considerând factori precum:

        Pe măsură ce tehnologia continuă să evolueze, putem aștepta îmbunătățiri semnificative în toate aspectele generării de imagini AI, de la calitate și viteză până la ușurința în utilizare și controlul asupra rezultatelor finale.

        Exit mobile version