Was ist DALL·E 2?

DALL·E 2 ist ein Programm für künstliche Intelligenz, das Bilder aus Textbeschreibungen erstellt, das am Donnerstag von OpenAI, einem Forschungsunternehmen, enthüllt wurde.

Es verwendet eine 12-Milliarden-Parameter-Trainingsversion des GPT-3-Transformermodells, um die Eingaben in natürlicher Sprache zu interpretieren und entsprechende Bilder zu erzeugen. Wenn es beispielsweise mit dem Satz „ein Schwarz-Weiß-Foto eines kleinen Hundes“ versehen wurde, erzeugte es ein korrekt gerendertes Schwarz-Weiß-Bild eines Chihuahua.

Das System ist nicht perfekt – es erzeugt manchmal Bilder, die schwer zu interpretieren sind oder völlig daneben liegen. Wenn Sie beispielsweise aufgefordert wurden, ein Bild von „einer Person, die mit einem Einrad auf einem Drahtseil über einen Vulkan fährt“, zu erstellen, wurde ein (meiner Meinung nach schönes, aber völlig unabhängiges) Bild eines Sonnenuntergangs über Wasser mit einer kleinen Figur im Vordergrund erstellt .

Dennoch sind die Ergebnisse beeindruckend, und OpenAI sagt, dass DALL·E 2 „das erste KI-Modell ist, das Bilder aus Textbeschreibungen generiert, die mit der Qualität professioneller menschlicher Künstler mithalten können“.

Das System wurde mit einem Datensatz von Text-Bild-Paaren trainiert, der aus etwa 1,3 Millionen Bildern und Bildunterschriften aus dem Internet besteht, die von OpenAI gekratzt und kuratiert wurden. Die Trainingsdaten wurden dann zur Feinabstimmung des GPT-3-Modells verwendet, sodass es Bilder aus Textbeschreibungen generieren konnte.

Laut OpenAI kann das System „hochwertige“ Bilder aus einer Vielzahl von Textbeschreibungen generieren, einschließlich solcher, die abstrakt, konkret oder sogar poetisch sind.

Neben dem Chihuahua-Beispiel sind weitere Beispiele für Bilder, die von DALL·E 2 produziert wurden, ein korrekt gerendertes Porträt von Adolf Hitler, ein Bild eines Drachen aus Gemüse und ein Bild der Mona Lisa aus Toast.

Das System ist auch in der Lage, Bilder von Dingen zu erzeugen, die nicht existieren, wie etwa ein „Floof“ (ein erfundenes Tier) oder eine „Tulpa“ (eine Gedankenform).

Insgesamt sind die Ergebnisse beeindruckend, und OpenAI sagt, dass das System „neue Möglichkeiten zur Generierung von Bildern aus Textbeschreibungen eröffnet“.

VON E 2 Das CLIP-System wandelt Textinformationen in visuelle Informationen um. Dies ist ein Encoder-Decoder-Paradigma, was bedeutet, dass eingegebener Text zuerst in Maschineneingabe umgewandelt, dann vom System verarbeitet und schließlich an den Decoder weitergeleitet wird, der die codierten Daten in ein Bild umwandelt.

none

Was ist DALL·E 2?

Dies ist die neueste Generation von DALL·E, einem generativen Sprachmodell, das Phrasen verwendet, um völlig neue visuelle Effekte zu erzeugen. Der DALL E 2 ist ein riesiges 3,5-V-Modell, wenn auch nicht so massiv wie der GPT-3. Interessanterweise ist es auch leichter als sein Vorgänger (12B). In Bezug auf Beschreibungsausrichtung und Fotorealismus ist DALL·E 2 trotz seiner größeren Größe um 70 % besser als DALL·E 2.

DALL.E 2- Erklärung für Anfänger mit Beispielen

Insbesondere ist DALL·E 2 ein hierarchisches bedingtes Text-Bild-Synthesemodell, das Deep Learning für die Verarbeitung natürlicher Sprache mit Computer Vision für die Bilderzeugung kombiniert. Sein Ziel ist es, zwei Modelle zu trainieren, und das Trainingsset besteht aus gepaarten Bildern und Beschreibungen. Das erste ist ein a priori, das, wenn man einen geschriebenen Titel hat, trainiert werden kann, eine CLIP-Bildeinbettung zu erzeugen. Wir haben dann einen Decoder, der beim Einbetten eines CLIP-Bildes (und ggf. einer Beschriftung) ein trainiertes Bild erzeugen kann.

DALLE 2 wird mit Hunderten von Millionen Fotos mit Bildunterschriften aus dem Internet trainiert, und einige dieser Bilder werden entfernt und neu gemischt, um zu ändern, was das Modell lernt. Es ruft mehrere Bildoptionen ab CLIP-Anhänge und dann verwenden Decoder gehen Sie durch jeden von ihnen. Es erstellt dann eine interessante Mischung aus all diesen Informationen, wenn die Eingabe des Benutzers gegeben ist.

Beispiel DALL IST 2

none

Lassen Sie uns ein kleines Spiel spielen, um DALL·E zu verstehen. Lassen Sie es uns in die nächsten drei Schritte unterteilen.

Stellen Sie sich Regenbögen, Wolken und Einhörner vor, die am blauen Himmel fliegen. Stellen Sie sich vor, wie ein Bild in Ihrer Vorstellung aussehen könnte. Menschen kommen dem perfekten Analogon eines eingebetteten Bildes am nächsten, und das Bild, das Ihnen gerade in den Sinn gekommen ist, ist ein perfektes Beispiel dafür. Über das Endprodukt können Sie nur raten, aber Sie haben eine gute Vorstellung davon, was enthalten sein sollte. Das A-priori-Modell führt den Leser von den Wörtern in einem Satz zu einer Szene in seiner Vorstellung.
Jetzt können Sie mit dem Zeichnen beginnen. Was unCLIP macht, ist Ihr mentales Bild in eine echte Skizze umzuwandeln. Jetzt können Sie einen anderen Charakter aus derselben Beschreibung mit denselben grundlegenden Statistiken, aber mit einem völlig neuen visuellen Stil genau nachbilden. DALL·E 2 kann auch einzigartige Bilder aus einem auf diese Weise eingebetteten vorhandenen Bild generieren.
Achten Sie auf die Skizze, die Sie gemacht haben. Das passiert, wenn man die Beschreibung „ein Einhorn mitten in den Wolken und ein Regenbogen erhebt sich gegen den Himmel“ skizziert. Untersuchen Sie nun das Bild und den Text, um festzustellen, was das andere am besten darstellt (Sonne, Haus, Baum usw.) und was das Thema, den Stil, die Farben usw. am besten darstellt. Was CLIP tut, ist die Codierung von Merkmalen. Texte und Bilder.

Nachdem wir nun wissen, was DALL-E ist, wollen wir zum nächsten Abschnitt übergehen und seine Funktionen verstehen.

Spitze: So erstellen Sie realistische Bilder mit dem DALL-E-2 AI-Dienst

Verfügt über DALL E 2

Unten sind die Spezifikationen von DALL·E 2.

Variationen
Färbung
Textunterschiede

Lassen Sie uns im Detail darüber sprechen.

wie man Visitenkarten in Word 2010 macht

1] Variationen

DALL·E 2 geht über die einfache Übersetzung eines Satzes in ein Bild hinaus. OpenAI kann mit dem generativen Prozess experimentieren und dank robuster CLIP-Einbettungen unterschiedliche Ergebnisse für eine bestimmte Signatur erzeugen. Was CLIP in seinem „Geist“ „sieht“, ist, was es aus der Eingabe als wichtig erachtet (bleibt für alle Bilder gleich) und was ersetzt werden kann (was sich für verschiedene Bilder ändert). Wann immer möglich, behält DALL·E 2 sowohl „sinnvolle Informationen ... als auch ästhetische Aspekte“ bei.

2] Färbung

DALL·E 2 kann vorhandene Fotos mit automatischer Füllung ändern. Im folgenden Beispiel ist das linke Bild das Originalbild, und auf dem mittleren und dem rechten Foto ist das Element an unterschiedlichen Stellen gezeichnet. DALL·E 2 passt ein zusätzliches Element an den Bildstil an. Es aktualisiert auch Texturen und Reflexionen, um das neue Element widerzuspiegeln.

Lesen : Was können Sie mit ChatGPT tun

3] Textunterschiede

DALL·E 2 konvertiert Bilder anhand von Textunterschieden. DALL·E 2 verfügt außerdem über erweiterte Interpolationsfunktionen, mit denen Sie Objekte modifizieren können. Ein Twitter-Nutzer konnte sein iPhone „unmordenisieren“. twitter.com es prüfen.

Wenn Ihnen diese Funktionen gefallen, müssen Sie nur zu gehen openai.com und dann anmelden. Sie können ein neues Konto erstellen oder Ihre vorhandenen Microsoft- oder Google-Konten verwenden, um sich anzumelden. Sobald Sie dies getan haben, erhalten Sie einige kostenlose Credits. Wenn Sie mehr möchten, müssen Sie dafür bezahlen.

Dies sind einige der Funktionen von DALL·E 2, es hat viele großartige Anwendungsfälle, es wird jedoch immer empfohlen, sich nicht zu sehr auf KI-Tools zu verlassen. Schließlich sind sie nichts anderes als Werkzeuge, die verwendet werden, um die Arbeit zu erledigen, sie können niemals die emotionale Intelligenz einer Person ersetzen.

Lesen Sie auch: Die besten Deepfake-Apps, -Software und -Websites.

Was ist DALL·E 2? Erklärung für Anfänger mit Beispielen

Was ist DALL·E 2?

Was ist DALL·E 2?

DALL.E 2- Erklärung für Anfänger mit Beispielen

Beispiel DALL IST 2

Verfügt über DALL E 2

1] Variationen

2] Färbung

3] Textunterschiede