Google onthult Lumiere generatieve AI om realistischere afbeeldingen en video's van tekst te maken

Google onthult Lumiere - het nieuwste op het gebied van generatieve AI dat realistische videoclips maakt van tekst. (Bron: Google Research)

Google heeft Lumiere onthuld - het nieuwste op het gebied van realistische tekst-naar-beeld en tekst-naar-video generatie met behulp van machine learning. Een belangrijke innovatie is de mogelijkheid om realistische bewegingen te maken, zoals lopen, waar de huidige generatieve AI's moeite mee hebben. De software doet dit door alle videoframes in één keer te maken in plaats van keyframes en training te gebruiken om te leren hoe bewegende objecten eruit moeten zien.

David Chien (vertaald door Ninh Duy), Gepubliceerd 31-01-2024 🇺🇸 🇩🇪 ...

Google heeft Lumiere onthuld, het neusje van de zalm op het gebied van realistische tekst-naar-beeld en video generatieve AI. De software verbetert de beweging aanzienlijk door gebruik te maken van een nieuwe benadering voor het genereren van videoframes, waarbij alle frames in één keer worden gemaakt om bewegingsfouten te beperken.

Generatieve beeld-AI creëert afbeeldingen uit tekst. Een sleutel die dit mogelijk maakt, is de enorme hoeveelheid online afbeeldingen en video's die beschikbaar zijn voor training. Een andere is de ontwikkeling van methoden om alle woorden in een taal met elkaar te associëren via vectoren. Daarom kan AI begrijpen als een paar woorden, of in een zin, "ik ben" waarschijnlijker is dan "ik eenzijdig". AI die afbeeldingen maakt, zoals Stable Diffusion, associeert woorden met afbeeldingen van objecten. Dergelijke AI begrijpt dat de woorden "koninklijke residentie" nauwer verbonden zijn met een afbeelding van een "kasteel" dan met een afbeelding van een "huis".

Generatieve video-AI breidt beeld-AI uit om video's van tekst te maken. Lumiere-deelnemers maken eerst keyframes en vervolgens de frames ertussen. Dit is alsof een meesteranimator het begin- en eindbeeld van een basketbalshot tekent en vervolgens een assistent de beelden ertussenin laat tekenen. Het probleem is dat er vaak bewegingsfouten optreden omdat de beelden ertussen niet correct worden getekend, dus Lumiere omzeilt dit door alle videoframes te maken zonder keyframes. Lumiere is ook getraind om te weten hoe bewegende objecten eruit zien op verschillende beeldformaten, dus de video's zien er superieur uit.

Technisch gezien maakt Lumiere gebruik van diffusion probabilistic modellen om beelden te genereren, gekoppeld aan een Space-Time U-Net, een U-net architectuur met temporele up- en downscaling plus aandachtsblokken toegevoegd aan de gebruikelijke beeldresolutieschaling. Tijdelijk omlaag schalen gelijktijdig met resolutie vermindert de werklast aanzienlijk, terwijl omhoog schalen in combinatie met een tijdsbewust ruimtelijk superresolutiemodel de uitvoer met hoge resolutie genereert. Toch is beeldframesegmentatie nodig vanwege geheugenbeperkingen, dus wordt Multidiffusion gebruikt over overlappende framegrenzen om temporele bewegingsartefacten te beperken.

Lumiere kan worden gekoppeld met andere AI om een breder scala aan uitvoer te creëren. Dit omvat:

Cinemagraphs - één deel van een afbeelding wordt geanimeerd
Inpainting - een object in een video wordt vervangen door een ander object
Gestileerde generatie - het uiterlijk wordt opnieuw gecreëerd in een andere kunststijl
Image-to-video - een gewenst beeld wordt geanimeerd
Video-to-video - video's worden opnieuw gemaakt in een andere kunststijl

De videolengte is beperkt tot 5 seconden, terwijl er geen mogelijkheid is om video-overgangen en meerdere camerastandpunten te maken. Lezers die willen experimenteren met generatieve AI op hun desktopcomputers moeten upgraden naar een krachtige videokaart(zoals deze bij Amazon) voor de beste prestaties tijdens het trainen.