Bilder mit Text erstellen: Die besten KI-Bildgeneratoren

18. April 2024
Aus Text Bild generieren ist mit Hilfe künstlicher Intelligenz sehr einfach
Aus Text Bild generieren ist mit Hilfe künstlicher Intelligenz sehr einfach

KI-Bildgeneratoren haben in den letzten zwei Jahren einen Sturm ausgelöst. Wenn du in den sozialen Medien unterwegs bist, die Hauptnachrichtensendungen schaust oder eine Zeitschrift liest, sind KI-generierte Bilder nicht mehr zu übersehen. Mit einem Text Bilder erstellen ist Kinderleicht, und so nutzen bereits viele Blogs und Redaktionen die Technik. Sie sind allgegenwärtig, und es ist leicht zu erkennen, warum: Die Werkzeuge, die man braucht, um sie zu erstellen, sind gut und für die Öffentlichkeit zugänglich. Wenn du mitmachen oder deine Arbeitsabläufe um KI-Funktionen erweitern willst, werden dir die Apps auf dieser Liste das bieten, wonach du suchst.

Mit Texten Bilder erstellen – begann es

Ich schreibe schon seit Google Deep Dream im Jahr 2015 über KI-Bildgeneratoren. Das ist ungefähr so lange, wie jeder außerhalb eines Informatiklabors über diese Tools nachgedacht hat, und ich bin wirklich begeistert, wie weit sie gekommen sind.

Ich werde versuchen, die heiklen Diskussionen über den künstlerischen Wert, die Frage, ob diese Tools Künstler/innen ersetzen oder ergänzen, und die Verletzung von Urheberrechten an Trainingsdaten zu vermeiden, zumindest soweit ich das kann. Stattdessen möchte ich mich auf die Tatsache konzentrieren, dass diese KI-Bildgeneratoren jetzt faszinierende Ergebnisse aus einer Vielzahl von Textvorgaben erzeugen können.

Es lohnt sich, sich ein paar Stunden Zeit zu nehmen, um mit einer dieser Text-zu-Bild-KI-Apps zu spielen – und sei es nur, um sie aus einer technischen Perspektive zu betrachten. Ob du sie magst oder nicht, du wirst in den kommenden Monaten und Jahren wahrscheinlich noch viel mehr von ihren Ergebnissen sehen.

Wie funktionieren die KI-Bildgeneratoren?

All diese KI-Bildgeneratoren nehmen eine Textvorgabe und verwandeln sie – so gut sie können – in ein passendes Bild. Das eröffnet einige wilde Möglichkeiten, denn deine Eingabeaufforderung kann alles sein, von „einem impressionistischen Ölgemälde eines kanadischen Mannes, der auf einem Elch durch einen Ahornwald reitet“ bis hin zu „einem Gemälde im Stil von Vermeer, das einen großen, flauschigen irischen Wolfshund zeigt, der ein Bier in einem traditionellen Pub genießt“ oder „ein Foto von einem Esel auf dem Mond“.

Im Ernst: Die einzigen wirklichen Grenzen sind deine Vorstellungskraft, die Fähigkeit des KI-Bildgenerators, deinen Prompt zu verstehen, und alle Inhaltsfilter, die eingerichtet wurden, um Plagiate, Urheberrechtsverletzungen und schlechte Schauspieler zu verhindern, die das Internet mit KI-generierter Gewalt oder anderen NSFW-Inhalten überfluten. (Der Vermeer-Prompt hat früher zuverlässig funktioniert, aber einige Bildgeneratoren blockieren ihn jetzt, weil er einen namentlich genannten Künstler verwendet).

Sie arbeiten fast alle auf die selbe Weise

Die meisten KI-Bildgeneratoren arbeiten auf ziemlich ähnliche Weise. Millionen oder Milliarden von Bild-Text-Paaren werden verwendet, um ein neuronales Netzwerk (ein sehr ausgefallener Computeralgorithmus, der dem menschlichen Gehirn nachempfunden ist) darauf zu trainieren, was die Dinge sind. Indem es nahezu unzählige Bilder verarbeitet, lernt es, was Hunde, die Farbe Rot, Vermeers und alles andere sind. Wenn das geschafft ist, hast du eine KI, die fast jede Eingabeaufforderung interpretieren kann – auch wenn es eine gewisse Kunst ist, die Dinge so einzurichten, dass sie das genau tun kann.

Ideogram. Ein Tool zum erstellen von Bildern mit Text
Ideogram. Ein Tool zum erstellen von Bildern mit Text

Der nächste Schritt ist das eigentliche Rendern des von der KI erzeugten Bildes. Die neueste Generation von KI-Bildgeneratoren nutzt dafür einen Prozess namens Diffusion. Sie beginnen mit einem zufälligen Rauschfeld und bearbeiten es dann in mehreren Schritten so, dass es ihrer Interpretation der Aufforderung entspricht. Das ist so, als ob du in einen wolkenverhangenen Himmel schaust, eine Wolke findest, die wie ein Hund aussieht, und dann mit den Fingern schnippen kannst, um sie immer hundeähnlicher zu machen.

Die besten Text zu Bild Generatoren

Bevor wir eintauchen: Ich will nichts überbewerten. Was diese Text-zu-Bild-Generatoren können, ist sehr beeindruckend, aber sie werden dich wahrscheinlich nicht davor bewahren, jemals wieder ein Produktfotoshooting machen zu müssen. Wenn du nur ein paar ausgefallene oder einzigartige Bilder brauchst, können sie wirklich helfen. Wenn du aber etwas ganz Spezielles suchst, solltest du lieber einen Fotografen engagieren – oder genau das Bild lizenzieren, das du brauchst.

Auch die Erstellung eines Header-Bildes für einen Blogbeitrag kann viel mehr Zeit in Anspruch nehmen als die Suche nach einem Header-Bild für deinen Blog auf einer Stockfoto-Website. Sicher, es wird nicht so individuell sein, aber das Model hat wahrscheinlich zehn Finger.

Fotorealistisches Bild mit Ideogram erstellt
Fotorealistisches Bild mit Ideogram erstellt

Es gibt einen Grund dafür, dass KI-Bildgeneratoren in den letzten zwei Jahren unglaublich populär geworden sind: Davor waren sie ziemlich schlecht. Die Technologie, die ihnen zugrunde liegt, war unglaublich cool und beeindruckend, zumindest für Forscher/innen, aber die Bilder, die sie erzeugen konnten, waren nicht überzeugend. Selbst der ursprüngliche DALL-E war eher eine lustige Neuheit als eine weltbewegende Offenbarung, als er 2021 auf den Markt kam.

Da es sich um eine so junge Entwicklung handelt, die viel Rechenleistung erfordert, gibt es keine große Auswahl an großartigen KI-Bilderzeugern. Es gibt nur die drei großen Namen – DALL-E 3, Midjourney und Stable Diffusion – sowie Modelle von KI-Powerhouses wie Google, Meta, Adobe und NVIDIA.

Bilder mit Text erstellen – die Besten Tools

DALL-E 3

Der beste KI-Bildgenerator für einfache Bedienung

DALL-E 3 Vorteile:

  • Unglaublich einfach zu bedienen
  • Im Lieferumfang von ChatGPT Plus enthalten, du bekommst also viel KI für dein Geld

DALL-E 3 Nachteile:

  • Die ChatGPT-Kontrollen sind manchmal nicht ganz einfach
  • $20/Monat ist teuer, wenn du kein GPT dazu haben willst

DALL-E 3 ist wohl der größte Name unter den KI-Bildgeneratoren – und das aus gutem Grund. Sein Vorgänger, DALL-E 2, war der erste KI-gestützte Bildgenerator, der gut genug war, um interessante Bilder zu erstellen, und der so weit verbreitet war, dass er viral ging.

DALL-E 2 ist zwar immer noch über die Web-App und die API verfügbar, aber DALL-E 3, das du über ChatGPT oder den AI Copilot von Microsoft Bing nutzen kannst, ist eine deutliche Verbesserung. Bei jeder Eingabeaufforderung liefert sie interessantere, realistischere und konsistentere Ergebnisse. Früher hatte man das Gefühl, dass OpenAI hinter seinen Konkurrenten bei den KI-Bildgeneratoren zurückfällt, aber DALL-E 3 hat sie wieder ins Rennen gebracht.

Das Wichtigste ist, dass DALL-E 3 lächerlich einfach zu benutzen ist. Du sagst ChatGPT oder Bing, was du sehen willst, und innerhalb weniger Augenblicke hast du zwei bis vier KI-generierte Varianten zur Auswahl. Die KI nutzt das Sprachverständnis von GPT-4, um deine Eingabeaufforderungen zu erweitern, so dass jedes Ergebnis anders ist und du jederzeit nach mehr fragen kannst.

Midjourney

Midjourney Vorteile:

  • Produziert konstant die besten KI-generierten Bilder
  • Die Community ist eine großartige Möglichkeit, sich inspirieren zu lassen

Midjourney Nachteile:

  • Kann nur über Discord genutzt werden, was etwas seltsam ist
  • Bilder, die du erstellst, sind standardmäßig öffentlich
  • Kostenlose Testversionen sind derzeit nicht möglich

Midjourney liefert durchweg die besten Ergebnisse von allen Bildgeneratoren auf dieser Liste. Die Bilder, die es erzeugt, wirken stimmiger, mit besseren Texturen und Farben – und insgesamt sind die Ergebnisse einfach interessanter und optisch ansprechender. Vor allem Menschen und reale Objekte sehen lebensechter und natürlicher aus als bei anderen KI-Bildgeneratoren, zumindest ohne viel Aufforderung, und die neuesten Versionen können sogar die Hände einigermaßen richtig darstellen. Es ist bezeichnend, dass er der erste KI-Bildgenerator war, der einen Kunstwettbewerb gewonnen hat.

Stable Diffusion

Stable Diffusion Pros:

  • DreamStudio (die Web-App von Stable Diffusion) ist der einzige große KI-Bildgenerator, der noch kostenlose Credits anbietet.
  • Die App ist unglaublich anpassbar und erschwinglich ; super leistungsfähig mit allgemein großartigen Ergebnissen

Stable Diffusion Nachteile:

  • Die Lernkurve ist länger als bei einigen anderen KI-Generatoren
  • Die Bearbeitungswerkzeuge in DreamStudio sind nicht sehr intuitiv

Im Gegensatz zu DALL-E und Midjourney ist Stable Diffusion Open Source. Das bedeutet, dass jeder, der über die nötigen technischen Kenntnisse verfügt, es herunterladen und lokal auf seinem eigenen Computer ausführen kann. Das bedeutet auch, dass du das Modell für bestimmte Zwecke trainieren und feinabstimmen kannst. Fast alle Dienste, die KI nutzen, um künstlerische Porträts, historische Porträts, architektonische Renderings und alles andere zu erstellen, verwenden Stable Diffusion auf diese Weise. Wenn du das Zeug dazu hast und etwas Tolles mit KI entwickeln willst, ist Stable Diffusion die beste Möglichkeit, das jetzt zu tun. Es gibt sogar eine API und einen Dienst namens Clipdrop, der das Ganze in eine Reihe von Tools aufteilt.

Ideogram.ai

Ideogram Vorteile:

  • Bis zu 25  Bilder pro Tag können kostenlos erstellt werden
  • Eine Community kann Bilder bewerten und liken
  • Viele verschiedene Bildformate

Nachteile:

  • Hochauflösende Bilder nur gegen Geld
  • Manchmal noch Fehlerbehaftet. So haben manche Menschen 3 Arme oder 4 Ohren

Ideogram ist ideal für Anfänger. Einfach den Text oben in das Suchfeld eingeben und die gewünschte Bildart ( Foto, Illustration, Graffiti usw.) wählen. Generierte Bilder können mit Ideogram.ai remixt und neu erstellt werden. Das ist hilfreich wenn einem das Bild gefällt, man aber mehr Auswahl haben, oder Fehler korrigieren möchte. Generell hilft es, das Bild so detailiert wie möglich zu beschreiben.