Maak 30 keer sneller AI-afbeeldingen: Dall-E 3 en Stable Diffusion achtergelaten

30 keer sneller, maar ook goed: DMD. (Afbeelding: github/tianweiy)

Een team van het MIT heeft de meerfasenprocessen van bekende AI-afbeeldingsgeneratoren verkort. Dit verkort niet alleen de tijd die nodig is om de voltooide afbeelding te produceren. De benodigde rekenkracht en het stroomverbruik worden in hetzelfde tempo verminderd.

Mario Petzold (vertaald door Ninh Duy), Gepubliceerd 25-03-2024 🇺🇸 🇩🇪 ...

AI Science

De magie van Dall-E of Stabiele Verspreiding zou nu wel bekend moeten zijn. Uit een korte beschrijving van de scène, de inhoud en misschien één of twee opmerkingen ontstaat een min of meer realistisch beeld. Gelukkig is dit meestal te herkennen als een door AI gegenereerd werk, maar het dient ook zijn doel: ik hoef geen hond op een surfplank te zetten of een vos in een astronautenpak. De gewenste afbeelding is slechts een paar klikken verwijderd.

Op de achtergrond is het echter een rekenintensief proces dat bestaat uit talloze iteraties, constante herhalingen van het algoritme om uiteindelijk bij de gewenste afbeelding uit te komen. Onderzoekers van het MIT zijn er echter in geslaagd om deze talrijke tussenstappen achterwege te laten. In plaats daarvan wordt de beschreven scène na precies één stap gecreëerd.

Hierdoor is het mogelijk om een vergelijkbaar resultaat te bereiken terwijl de benodigde rekenkracht of wachttijden aanzienlijk worden verminderd. Tegelijkertijd is er minder stroom nodig om het systeem genaamd "Distribution Matching Distillation (DMD)" aan te drijven.

Om het figuurlijker uit te drukken: de beelden die voor training worden gebruikt, worden opgesplitst in grovere gebieden. Dit bepaalt de beeldcompositie bij benadering, afhankelijk van het onderwerp. Bovendien wordt de waarschijnlijkheid van verschillende beeldelementen geanalyseerd om uiteindelijk een coherente scène te verkrijgen.

Uiteindelijk wordt de gedetailleerde informatie en de complexiteit gereduceerd, zodat de beeldgenerator gewoon sneller wordt. In plaats van 2 tot 3 seconden per afbeelding, neemt dezelfde hardware ongeveer 100 milliseconden - een dertigste - in beslag.

Als u de afbeeldingen goed bekijkt, is de vermindering in detail duidelijk zichtbaar. Achtergronden zijn enigszins wazig en beeldelementen kunnen herhaald worden. De motieven zien er in sommige gevallen nog steeds aanzienlijk beter uit en zijn nog steeds gemakkelijker te herkennen als een algemeen werk van kunstmatige intelligentie, of in ieder geval kunstmatig. Nog een positief effect.

Naast de vossenastronaut kunt u hier nog veel meer voorbeelden van het DMD-model vinden.