Das Paper On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?1 hat kürzlich in der KI-Szene für Furore gesorgt. Es führte im Dezember letzten Jahres zum Bruch zwischen Google und der Ethik-Forscherin Timnit Gebru, die eine leitende Position im KI-Ethik-Team des Konzerns innehatte2. Google wollte Gebru offenbar untersagen, bei dem Artikel als Autorin aufzutreten. Als sie im Gegenzug Bedingungen für ihren Verbleib bei Google aufstellte, kündigte ihr der Konzern.
Der Fall sorgte für eine Welle der Entrüstung. Mehr als 2.600 Mitarbeitende von Google unterzeichneten in Solidarität mit Gebru einen Protestbrief3. Mittlerweile ist das Paper von Emily Bender und Timnit Gebru et. al. veröffentlicht, wobei von den ursprünglich sieben Autoren drei Ihren Namen nicht nennen durften, da ihre Arbeitgeber es untersagt hatten. Die Auseinandersetzung mit dem Paper als wissenschaftlicher Beitrag ist in vollem Gange. Die folgenden Ausführungen beschränken sich auf eine grobe Zusammenfassung der Inhalte vor dem Hintergrund der Frage: Was ist ein stochastischer Papagei?
Die Probleme großer Sprachmodelle
Das Papageien-Paper thematisiert Risiken, die von dem Trend zu immer größeren Sprachmodellen (engl. language model, kurz: LM) im Bereich Natural Language Processing (NLP) ausgehen. Als Sprachmodell wird dabei ein System verstanden, das auf die Vorhersage von Zeichenketten trainiert wurde. Für Google ist das deshalb so brisant, weil der Konzern bei der Analyse von Suchanfragen ein solches Sprachmodell einsetzt4. Ende 2019 war das BERT-Modell von Google für über 70 Sprachen der Suchmaschine ausgerollt.
Weitere aktuelle Sprachmodelle dieser Art sind GPT-35 von der Forschungsorganisation OpenAI und Switch-C6, das ebenfalls von Google stammt. Im Wesentlichen geht der Artikel auf drei Problemfelder mit solchen Sprachmodellen ein, die mit großen Textmengen aus dem Internet trainiert werden:
- Umweltrisiken: Das Training immer größerer Sprachmodelle geht mit einem steigenden Energieverbrauch einher. Die Autorinnen zitieren unter anderem eine Studie, die den CO2-Ausstoß eines großen Modells in der Trainingsphase auf 248 Tonnen schätzt. Ein Mensch ist jährlich im Durchschnitt für 5 Tonnen verantwortlich.
- Risiken durch Defizite der Trainingsdaten: Je mehr Daten in ein Modell einfließen, desto schwieriger wird die Qualitätskontrolle dieser Daten. In die Modelle schleichen sich Stereotypen und Vorurteile ein, die zu systematischen Benachteiligungen von Minderheiten führen können.
- Risiken durch ein fehlendes Verständnis für die Bedeutung der Inhalte: Mit Hilfe von Sprachmodellen lassen sich zwar zusammenhängende, stimmig wirkende Texte generieren. Die Verfahren dahinter verfügen aber über kein richtiges Sprachverständnis. Die Bedeutung der Texte spielt bei der Konstruktion keine Rolle:
Furthermore, the tendency of human interlocutors to impute meaning where there is none can mislead both NLP researchers and the general public into taking synthetic text as meaningful.1
Hochelaborierte nachplappernde Systeme
Ausgehend von diesen Problemfeldern entwickeln die Autorinnen nun die Analogie des stochastischen Papageis. Sie leiten den Begriff folgendermaßen her:
an LM is a system for haphazardly stitching together sequences of linguistic forms it has observed in its vast training data, according to probabilistic information about how they combine, but without any reference to meaning: a stochastic parrot
Der stochastische Papagei ist damit ein Bild, das gleichzeitig die textgenerierenden Systeme entmystifiziert und auf den technischen Unterbau dieser Systeme eingeht. Sprachmodelle sind schließlich lediglich darauf trainiert, Vorhersagen zu treffen. Welches Zeichen bzw. welches Wort folgt auf das Vorherige in bestimmten Kontexten? Hier entscheiden Wahrscheinlichkeiten, welche Wortfolgen letztendlich zusammenkommen. Deshalb ist der Papagei stochastisch.
Der Vergleich dieser Systeme mit Papageien verdeutlicht hingegen den Umstand, dass Sprachmodelle gewissermaßen nur das replizieren, was sie von den Trainingsdaten gelernt haben. Sie plappern nach, was ihnen eingetrichtert wurde, ohne sich näher mit dem Sinn dahinter auseinanderzusetzen - auch wenn der Output außerordentlich elaboriert und überzeugend wirkt. Das Sprachmodell versteht nicht, was es tut. Ihm ist es völlig egal, ob die generierten Inhalte wahr oder falsch sind, ob sie Minderheiten diskriminieren oder ob sie gewollt oder ungewollt das Weltbild einer extremistischen Organisation propagieren.
Eingebaute Vorurteile
Welchen Schaden stochastische Papageien anrichten können, führen die Autorinnen mit einer Reihe von Beispielen ausführlich aus. Zusammengefasst besteht vor allem die Gefahr, dass solche Systeme bestehende Vorurteile sowie rassistische und sexistische Weltanschauungen reproduzieren und verstärken. Dieses Problem wiegt besonders schwer, wenn generierte Texte wiederum als Trainingsdaten für die nächste Generation von Sprachmodellen herangezogen werden.
Eine weitere akute Gefahr ist der gezielte Einsatz solcher Systeme für die Verbreitung von Verschwörungstheorien. Mit wenig Aufwand lassen sich riesige Mengen an zweifelhaftem Content produzieren, der anschließend über Social Bots verbreitet werden kann. Dieser potenzielle Mißbrauch von NLP-Systemen ist allerdings ein generelles Problem, das nicht nur Sprachmodelle in den aktuellen Ausprägungen betrifft. Die Gefahr geht von allen textgenerierenden Systemen aus, die so überzeugend funktionieren, dass ein Mensch nicht mehr erkennen kann, ob der Text von einem Menschen geschrieben oder einer Maschine generiert wurde.
Fazit
In einer Welt, in der die computervermittelte Kommunikation immer weiter zunimmt, entfalten Systeme wie Sprachmodelle eine große Macht. Es ist eine beunruhigende Aussicht, nicht mehr unterscheiden zu können, ob das, was wir lesen, sehen und hören, von einem Menschen oder einer Maschine stammt - und ob wir gerade mit einem Bot sprechen oder mit einer Person.
Fest steht, dass wir in den kommenden Jahren nicht nur die Chancen, sondern auch die Missbrauchsmöglichkeiten solcher Technologien genau untersuchen müssen, die zu dieser Situation führen können. Dazu gehört einerseits die Auseinandersetzung mit regulatorischen Gegenmaßnahmen wie beispielsweise einer Kennzeichnungspflicht für algorithmisch erstellte Inhalte. Andererseits geht es aber auch darum, eine kritische Sprache zu entwickeln, die Schritt hält mit den rasant fortschreitenden technischen Entwicklungen, und es erst ermöglicht, Risiken angemessen zu adressieren.
Hier leistet die Analogie des stochastischen Papageis einen wichtigen Beitrag. Das Bild mag provokant sein und für einige Wissenschaftler überzogen wirken. Es hat aber bereits eine breite Diskussion angestoßen und viele Menschen auf die Risiken großer Sprachmodelle aufmerksam gemacht - nicht nur wegen der medienwirksamen Umstände der Veröffentlichung des Papers.
-
http://faculty.washington.edu/ebender/papers/Stochastic_Parrots.pdf ↩ ↩2
-
https://twitter.com/timnitGebru/status/1334341991795142667 ↩
-
https://googlewalkout.medium.com/standing-with-dr-timnit-gebru-isupporttimnit-believeblackwomen-6dadc300d382 ↩
-
https://www.blog.google/products/search/search-language-understanding-bert/ ↩