Notebookcheck Logo

Google onthult Lumiere generatieve AI om realistischere afbeeldingen en video's van tekst te maken

Google onthult Lumiere - het nieuwste op het gebied van generatieve AI dat realistische videoclips maakt van tekst. (Bron: Google Research)
Google onthult Lumiere - het nieuwste op het gebied van generatieve AI dat realistische videoclips maakt van tekst. (Bron: Google Research)
Google heeft Lumiere onthuld - het nieuwste op het gebied van realistische tekst-naar-beeld en tekst-naar-video generatie met behulp van machine learning. Een belangrijke innovatie is de mogelijkheid om realistische bewegingen te maken, zoals lopen, waar de huidige generatieve AI's moeite mee hebben. De software doet dit door alle videoframes in één keer te maken in plaats van keyframes en training te gebruiken om te leren hoe bewegende objecten eruit moeten zien.

Google heeft Lumiere onthuld, het neusje van de zalm op het gebied van realistische tekst-naar-beeld en video generatieve AI. De software verbetert de beweging aanzienlijk door gebruik te maken van een nieuwe benadering voor het genereren van videoframes, waarbij alle frames in één keer worden gemaakt om bewegingsfouten te beperken.

Generatieve beeld-AI creëert afbeeldingen uit tekst. Een sleutel die dit mogelijk maakt, is de enorme hoeveelheid online afbeeldingen en video's die beschikbaar zijn voor training. Een andere is de ontwikkeling van methoden om alle woorden in een taal met elkaar te associëren via vectoren. Daarom kan AI begrijpen als een paar woorden, of in een zin, "ik ben" waarschijnlijker is dan "ik eenzijdig". AI die afbeeldingen maakt, zoals Stable Diffusion, associeert woorden met afbeeldingen van objecten. Dergelijke AI begrijpt dat de woorden "koninklijke residentie" nauwer verbonden zijn met een afbeelding van een "kasteel" dan met een afbeelding van een "huis".

Generatieve video-AI breidt beeld-AI uit om video's van tekst te maken. Lumiere-deelnemers maken eerst keyframes en vervolgens de frames ertussen. Dit is alsof een meesteranimator het begin- en eindbeeld van een basketbalshot tekent en vervolgens een assistent de beelden ertussenin laat tekenen. Het probleem is dat er vaak bewegingsfouten optreden omdat de beelden ertussen niet correct worden getekend, dus Lumiere omzeilt dit door alle videoframes te maken zonder keyframes. Lumiere is ook getraind om te weten hoe bewegende objecten eruit zien op verschillende beeldformaten, dus de video's zien er superieur uit.

Technisch gezien maakt Lumiere gebruik van diffusion probabilistic modellen om beelden te genereren, gekoppeld aan een Space-Time U-Net, een U-net architectuur met temporele up- en downscaling plus aandachtsblokken toegevoegd aan de gebruikelijke beeldresolutieschaling. Tijdelijk omlaag schalen gelijktijdig met resolutie vermindert de werklast aanzienlijk, terwijl omhoog schalen in combinatie met een tijdsbewust ruimtelijk superresolutiemodel de uitvoer met hoge resolutie genereert. Toch is beeldframesegmentatie nodig vanwege geheugenbeperkingen, dus wordt Multidiffusion gebruikt over overlappende framegrenzen om temporele bewegingsartefacten te beperken.

Lumiere kan worden gekoppeld met andere AI om een breder scala aan uitvoer te creëren. Dit omvat:

  • Cinemagraphs - één deel van een afbeelding wordt geanimeerd
  • Inpainting - een object in een video wordt vervangen door een ander object
  • Gestileerde generatie - het uiterlijk wordt opnieuw gecreëerd in een andere kunststijl
  • Image-to-video - een gewenst beeld wordt geanimeerd
  • Video-to-video - video's worden opnieuw gemaakt in een andere kunststijl

De videolengte is beperkt tot 5 seconden, terwijl er geen mogelijkheid is om video-overgangen en meerdere camerastandpunten te maken. Lezers die willen experimenteren met generatieve AI op hun desktopcomputers moeten upgraden naar een krachtige videokaart(zoals deze bij Amazon) voor de beste prestaties tijdens het trainen.

Lumiere kan afbeeldingen en video's maken van tekst, gestileerd om bij een andere kunst te passen, en zelfs objecten vervangen. (Bron: Google Research)
Lumiere kan afbeeldingen en video's maken van tekst, gestileerd om bij een andere kunst te passen, en zelfs objecten vervangen. (Bron: Google Research)
Lumiere kan een deel van een afbeelding animeren en de output kan eenvoudig in andere AI worden ingevoerd. (Bron: Google Research)
Lumiere kan een deel van een afbeelding animeren en de output kan eenvoudig in andere AI worden ingevoerd. (Bron: Google Research)
Please share our article, every link counts!
> Overzichten en testrapporten over laptops en mobieltjes > Nieuws > Nieuws Archief > Nieuws archieven 2024 01 > Google onthult Lumiere generatieve AI om realistischere afbeeldingen en video's van tekst te maken
David Chien, 2024-01-31 (Update: 2024-01-31)