Der neue Textgenerator GPT-3 (Generative Pre-trained Transformer) kann im Stile Shakespeares oder Fontanes Texte schreiben, Programmcodes erstellen und Fremdsprachen sowie Rechtsparagrafen übersetzen. Schafft die Methode anstatt der „unedlen“ eindimensionalen Kopie nun die „edle“ multioptionale Schöpfung? Ist es der KI-Stein der Weisen oder bricht am Ende die Methode wie die Brücke am Tay zusammen, weil sie unter den 175 Milliarden maschinellen Lernparametern keinen Passenden findet? Der australische Philosoph, David Chalmers, sagt „es ist eine der interessantesten und wichtigsten KI-Methoden, die jemals entwickelt wurden“.
Die grundlegende Technik der statistischen Sprachmodellierung dient der automatischen Gewinnung von Wissen über sprachliche Strukturen, wie beispielsweise Wortfolgewahrscheinlichkeiten, syntaktische Beziehungen und Dialogverlauf. Während ältere Modelle jedoch nur auf sehr wenige Worte zurückgreifen können, um das nächste Wort vorherzusagen, bezieht GPT-3 mehrere Absätze mit ein: Bis zu 2.048 so genannte „Token“ (das können Wörter oder Teile von einem Code sein) berücksichtigt die KI-Methode bei ihrer Prognose. Über 570 Gigabyte an Text benutzten die Entwickler für ihr Training, das entspricht rund einer Billion Wörter aus dem Internet, darunter Foreneinträge, Blogbeiträge und Leitartikel. Das ist viel, aber für einen Roman reicht es nicht. Auch wenn Filter angekündigt wurden, bleibt das Problem rassistischer oder sexistischer Vorlagen, in der Fachsprache „Bias“ (vom Englischen für Verzerrung, Neigung oder Tendenz abgeleitet) genannt.
Das autoregressive Sprachmodell verwendet Deep Learning, um „menschliche“ Texte zu erstellen. Es ist das Sprachvorhersagemodell der dritten Generation von OpenAI, einem Forschungslabor für künstliche Intelligenz. Hinter OpenAI stehen Geldgeber, wie die Tech-Milliardäre Elon Musk (Tesla), Peter Thiel (Co-Founder von Paypal) und Reid Hoffman (Mitbegründer von LinkedIn). Zudem stellte Microsoft im vergangenen Jahr eine Milliarde Dollar zur Verfügung. Ist es geschicktes Marketing, wenn die sonst vor Hybris strotzenden Techis bei der Präsentation des Originalpapiers am 28. Mai 2020 vor den möglichen Gefahren von GPT-3 warnten und weitere Forschung forderten, um das Risiko zu minimieren?
Bisherige Ansätze, wie der Textgenerator BERT von Google, sind auf sogenanntes Fine-Tuning angewiesen. Dabei muss die KI-Methode nach dem Basistraining an die jeweiligen Anforderungen, etwa einer Übersetzung, mit aufgabenspezifischen Datensätzen angepasst werden. Bei GPT-3 fällt dieser aufwändige Prozess oft weg. Da die Trainingsdaten von GPT-3 sehr umfassend waren, ist für bestimmte Sprachaufgaben keine weitere Schulung erforderlich.
OpenAI bietet jetzt eine API für den Zugriff auf GPT-3 für die kommerzielle Nutzung an. Es handelt sich hierbei um eine universelle Schnittstelle, mit der Benutzer praktisch jede Aufgabe in englischer Sprache ausprobieren können. Spezifisches KI-Know-How und kostenintensive IT-Infrastruktur werden nicht mehr zwingend benötigt. Die Betaversion ist derzeit für ausgewählte User zugänglich. Seitdem sorgen Videos, Screenshots und Berichte in den sozialen Netzwerken für einen Hype.
„Künstlichen Intelligenzen sollte man nicht vorschnell menschliche Eigenschaften zugestehen. Aber KI-Methoden werden viele Bereiche verändern. Daran besteht kein Zweifel.“ – Bernd Zipper
In wenigen klaren Sätzen fasst die Methode zusammen, was hinter beliebig verklausulierten, juristischen Paragrafen steckt. Solche Beispiele lassen annehmen, dass das Modell schlussfolgern könnte oder gar die Bedeutung von Sprache verstünde. Das wiederum wären Hinweise auf eine Intelligenz, wie sie dem Menschen zugeschrieben wird. Aber wie nahe kommt GPT-3 diesem Ideal wirklich? Ist die Sprach-KI vielseitig wie das menschliche Gehirn, nur viel schneller? „Die Fähigkeiten von GPT-3 sind sehr beeindruckend, aber angesichts der Größe des Modells auch nicht überraschend“, sagte Sina Zarrieß, Professorin für Maschinelles Lernen und Sprachtechnologie an der Universität Jena. Es gibt aber auch Einschränkungen. „Wer sich die durchaus authentisch wirkenden Texte genau anschaut, merkt, dass hinter der Fassade oft kein wirklicher Sinn steckt“, wird Zarrieß weiter zitiert. Immer wieder findet das Modell auch abwegige und falsche Lösungen für Aufgaben, die Menschen keine Probleme bereiten würden. Schwer tut sich GPT-3 zudem mit absurden Fragen wie: „Schmilzt ein Eiswürfel, wenn ich ihn in den Kühlschrank stelle?“ Das Gleiche gilt für Fragen des inhaltlichen Verständnisses, beispielsweise, ob aus einer Aussage notwendigerweise eine andere folgt.
Statistische Modelle basieren auf reiner Wahrscheinlichkeitsrechnung. Die Methode hat daher keine Möglichkeit zu verstehen oder zu interpretieren, was sie gelernt hat. Wenn also GPT-3 plötzlich Programmiersprachen zu beherrschen scheint, liegt das schlicht daran, dass es einen Code gesehen und dessen Muster gespeichert hat. Wobei es eben schon einen gewissen Charme hat, wenn man an die Gestaltung einer Webseite denkt und der Befehl „erstelle einen Button in der Farbe der Feuerwehr“ einen roten Knopf kreiert.
In der Betrachtung wurde aber auch deutlich, dass die Forschung zu KI-gestützten Textgeneratoren immer noch einen weiten Weg vor sich hat. Vermutlich lautet die Antwort auf die Frage nach dem Sinn des Lebens immer noch 42, zumindest wenn GPT-3 „Per Anhalter durch die Galaxis“ des britischen Schriftstellers Douglas Adams gespeichert hat.
Mit den Anwendungsbeispielen für unsere Branche beschäftige ich mich im zweiten, noch folgenden Teil.
