Das Paper On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?1 hat kürzlich in der KI-Szene für Furore gesorgt. Es führte im Dezember letzten Jahres zum Bruch zwischen Google und der Ethik-Forscherin Timnit Gebru, die eine leitende Position im KI-Ethik-Team des Konzerns innehatte2. Google wollte Gebru offenbar untersagen, bei dem Artikel als Autorin aufzutreten. Als sie im Gegenzug Bedingungen für ihren Verbleib bei Google aufstellte, kündigte ihr der Konzern.

Der Fall sorgte für eine Welle der Entrüstung. Mehr als 2.600 Mitarbeitende von Google unterzeichneten in Solidarität mit Gebru einen Protestbrief3. Mittlerweile ist das Paper von Emily Bender und Timnit Gebru et. al. veröffentlicht, wobei von den ursprünglich sieben Autoren drei Ihren Namen nicht nennen durften, da ihre Arbeitgeber es untersagt hatten. Die Auseinander­setzung mit dem Paper als wissenschaftlicher Beitrag ist in vollem Gange. Die folgenden Ausführungen beschränken sich auf eine grobe Zusammenfassung der Inhalte vor dem Hintergrund der Frage: Was ist ein stochastischer Papagei?

Die Probleme großer Sprachmodelle

Das Papageien-Paper thematisiert Risiken, die von dem Trend zu immer größeren Sprachmodellen (engl. language model, kurz: LM) im Bereich Natural Language Processing (NLP) ausgehen. Als Sprachmodell wird dabei ein System verstanden, das auf die Vorhersage von Zeichen­ketten trainiert wurde. Für Google ist das deshalb so brisant, weil der Konzern bei der Analyse von Suchanfragen ein solches Sprachmodell einsetzt4. Ende 2019 war das BERT-Modell von Google für über 70 Sprachen der Suchmaschine ausgerollt.

Weitere aktuelle Sprachmodelle dieser Art sind GPT-35 von der Forschungs­organisation OpenAI und Switch-C6, das ebenfalls von Google stammt. Im Wesentlichen geht der Artikel auf drei Problem­felder mit solchen Sprachmodellen ein, die mit großen Textmengen aus dem Internet trainiert werden:

  1. Umweltrisiken: Das Training immer größerer Sprachmodelle geht mit einem steigenden Energie­verbrauch einher. Die Autorinnen zitieren unter anderem eine Studie, die den CO2-Ausstoß eines großen Modells in der Trainingsphase auf 248 Tonnen schätzt. Ein Mensch ist jährlich im Durchschnitt für 5 Tonnen verantwortlich.
  2. Risiken durch Defizite der Trainingsdaten: Je mehr Daten in ein Modell einfließen, desto schwieriger wird die Qualitäts­kontrolle dieser Daten. In die Modelle schleichen sich Stereotypen und Vorurteile ein, die zu systematischen Benach­teiligungen von Minderheiten führen können.
  3. Risiken durch ein fehlendes Verständnis für die Bedeutung der Inhalte: Mit Hilfe von Sprachmodellen lassen sich zwar zusammen­hängende, stimmig wirkende Texte generieren. Die Verfahren dahinter verfügen aber über kein richtiges Sprach­verständnis. Die Bedeutung der Texte spielt bei der Konstruktion keine Rolle:

    Furthermore, the tendency of human interlocutors to impute meaning where there is none can mislead both NLP researchers and the general public into taking synthetic text as meaningful.1

Hochelaborierte nachplappernde Systeme

Ausgehend von diesen Problem­feldern entwickeln die Autorinnen nun die Analogie des stochastischen Papageis. Sie leiten den Begriff folgendermaßen her:

an LM is a system for haphazardly stitching together sequences of linguistic forms it has observed in its vast training data, according to probabilistic information about how they combine, but without any reference to meaning: a stochastic parrot

Der stochastische Papagei ist damit ein Bild, das gleichzeitig die text­generierenden Systeme entmystifiziert und auf den technischen Unterbau dieser Systeme eingeht. Sprachmodelle sind schließlich lediglich darauf trainiert, Vorhersagen zu treffen. Welches Zeichen bzw. welches Wort folgt auf das Vorherige in bestimmten Kontexten? Hier entscheiden Wahrscheinlichkeiten, welche Wortfolgen letztendlich zusammenkommen. Deshalb ist der Papagei stochastisch.

Der Vergleich dieser Systeme mit Papageien verdeutlicht hingegen den Umstand, dass Sprachmodelle gewissermaßen nur das replizieren, was sie von den Trainings­daten gelernt haben. Sie plappern nach, was ihnen eingetrichtert wurde, ohne sich näher mit dem Sinn dahinter auseinander­zusetzen - auch wenn der Output außerordentlich elaboriert und überzeugend wirkt. Das Sprachmodell versteht nicht, was es tut. Ihm ist es völlig egal, ob die generierten Inhalte wahr oder falsch sind, ob sie Minder­heiten diskriminieren oder ob sie gewollt oder ungewollt das Weltbild einer extremistischen Organisation propagieren.

Eingebaute Vorurteile

Welchen Schaden stochastische Papageien anrichten können, führen die Autorinnen mit einer Reihe von Beispielen ausführlich aus. Zusammengefasst besteht vor allem die Gefahr, dass solche Systeme bestehende Vorurteile sowie rassistische und sexistische Welt­anschauungen reproduzieren und verstärken. Dieses Problem wiegt besonders schwer, wenn generierte Texte wiederum als Trainings­daten für die nächste Generation von Sprachmodellen herangezogen werden.

Eine weitere akute Gefahr ist der gezielte Einsatz solcher Systeme für die Verbreitung von Verschwörungs­theorien. Mit wenig Aufwand lassen sich riesige Mengen an zweifelhaftem Content produzieren, der anschließend über Social Bots verbreitet werden kann. Dieser potenzielle Mißbrauch von NLP-Systemen ist allerdings ein generelles Problem, das nicht nur Sprachmodelle in den aktuellen Ausprägungen betrifft. Die Gefahr geht von allen text­generierenden Systemen aus, die so überzeugend funktionieren, dass ein Mensch nicht mehr erkennen kann, ob der Text von einem Menschen geschrieben oder einer Maschine generiert wurde.

Fazit

In einer Welt, in der die computer­vermittelte Kommunikation immer weiter zunimmt, entfalten Systeme wie Sprachmodelle eine große Macht. Es ist eine beunruhigende Aussicht, nicht mehr unterscheiden zu können, ob das, was wir lesen, sehen und hören, von einem Menschen oder einer Maschine stammt - und ob wir gerade mit einem Bot sprechen oder mit einer Person.

Fest steht, dass wir in den kommenden Jahren nicht nur die Chancen, sondern auch die Missbrauchs­möglichkeiten solcher Technologien genau untersuchen müssen, die zu dieser Situation führen können. Dazu gehört einerseits die Auseinander­setzung mit regulatorischen Gegen­maßnahmen wie beispielsweise einer Kennzeichnungs­pflicht für algorithmisch erstellte Inhalte. Andererseits geht es aber auch darum, eine kritische Sprache zu entwickeln, die Schritt hält mit den rasant fort­schreitenden technischen Entwicklungen, und es erst ermöglicht, Risiken angemessen zu adressieren.

Hier leistet die Analogie des stochastischen Papageis einen wichtigen Beitrag. Das Bild mag provokant sein und für einige Wissenschaftler überzogen wirken. Es hat aber bereits eine breite Diskussion angestoßen und viele Menschen auf die Risiken großer Sprachmodelle aufmerksam gemacht - nicht nur wegen der medienwirksamen Umstände der Veröffentlichung des Papers.