Effektiver Altruismus: ArtikelMarch 02, 202300:20:2214.01 MB

Wie Scheitern aussieht

von Paul F. Christiano

von Paul F. Christiano

__________________________

Ursprünglich auf Englisch veröffentlicht im Alignment Forum.

Das stereotype Bild einer durch künstliche Intelligenz (KI) verursachten Katastrophe ist das eines mächtigen, bösartigen KI-Systems, das seine Schöpfer überrumpelt und schnell einen entscheidenden Vorteil gegenüber dem Rest der Menschheit erlangt.

Ich denke, dass ein Scheitern höchstwahrscheinlich anders aussehen wird, und möchte versuchen, ein realistischeres Bild zu zeichnen. Die Geschichte werde ich in zwei Teilen erzählen:

  • Teil I: Maschinelles Lernen wird unsere Fähigkeit verbessern, „das zu bekommen, was wir messen können“, was in einer schleichenden Katastrophe münden könnte. („Mit einem Wimmern abtreten.“)
  • Teil II: ML-Training kann, wie wettbewerbsorientierte Volkswirtschaften oder natürliche Ökosysteme, zu „gierigen“ Mustern führen, die versuchen, ihren eigenen Einfluss auszuweiten. Solche Muster können im Endeffekt das Verhalten eines Systems dominieren und plötzliche Zusammenbrüche verursachen. („Mit einem Paukenschlag abtreten“, ein Fall von Optimierungsdämonen) [A. d. Ü.: Ähnlich wie das menschliche Gehirn durch wiederholte Optimierung auf das Fitnesskriterium der DNA-Replikation irgendwann über dieses ursprüngliche Kriterium hinausgewachsen ist und nun zahlreiche andere Ziele verfolgt, könnte potenziell jeder Teilprozess einer generellen KI mit ausreichender Rechenleistung zu einem mächtigen Optimierer mit abweichenden Zielen werden. Ein solcher Optimierer, der sich unter hohem systemischen Optimierungsdruck „herauskristallisiert“, kann als Optimierungsdämon bezeichnet werden. Im Rahmen dieser Terminologie könnten wir Menschen als „Optimierungsdämonen der natürlichen Selektion“ betrachten.]

Ich denke, dass dies die wichtigsten Probleme sind, wenn uns der Versuch einer Intentionsausrichtung misslingt. [A. d. Ü.: Der Autor verwendet den Begriff der Ausrichtung als Aussage über die Motive einer assistierenden KI, nicht über ihr Wissen oder ihre Fähigkeiten. Nach dieser Definition ist eine KI dann ausgerichtet, wenn sie ihr Bestes gibt, um das zu tun, was von ihr verlangt wird, auch wenn das Ergebnis unter Missverständnissen oder mangelnder Kompetenz leidet. Zur Unterscheidung von anderen Definitionen wird diese Auffassung als Intentionsausrichtung bezeichnet.]

In der Praxis werden diese Probleme Wechselwirkungen miteinander und mit anderen, durch den raschen Fortschritt bedingten, Störungen und Instabilitäten aufweisen. Diese Probleme sind gravierender in Szenarien, in denen der Fortschritt relativ schnell voranschreitet. Ein baldiger Durchbruch kann ein entscheidender Risikofaktor sein, aber auch ein Aufschub von mehreren Jahren würde meine Ängste nicht zerstreuen. 

Wenn der Durchbruch schnell genug erfolgt, sehen meine Erwartungen eher wie die eingangs erwähnte Karikatur aus – in diesem Beitrag wird von einer relativ breiten Anwendung von KI ausgegangen, die jedoch immer unwahrscheinlicher wird, je schneller sich die Dinge entwickeln. Ich denke, die grundlegenden Probleme bleiben im Wesentlichen dieselben, nur treten sie in diesem Fall innerhalb eines KI-Labors auf und nicht auf der ganzen Welt.

(Keines der Bedenken in diesem Beitrag ist neu.)

Teil I: Man bekommt, was man misst

Wenn ich Bob davon überzeugen möchte, für Alice zu stimmen, kann ich mit vielen verschiedenen Überzeugungsstrategien experimentieren und sehen, welche davon funktionieren. Oder ich kann gute Vorhersagemodelle für Bobs Verhalten erstellen und dann nach den Handlungen suchen, die ihn zur Wahl von Alice bewegen werden. Beide Techniken sind äußerst effizient, wenn es um das Erreichen kurzfristiger und leicht zu messender Ziele geht.

Aber wenn ich Bob dabei helfen will, herauszufinden, ob er für Alice stimmen sollte  – ob die Wahl von Alice letztendlich dazu beitragen würde, eine Gesellschaft zu formen, die er sich wünscht –, dann sind Versuch und Irrtum die falschen Werkzeuge. Die Lösung solcher Aufgaben erfordert, dass wir verstehen, was wir tun, und warum es zu guten Resultaten führen wird. Um uns im Laufe der Zeit zu verbessern, sind wir weiterhin auf Daten angewiesen, aber wir müssen auch lernen, wie wir unseren Kurs auf der Grundlage neuer Daten anpassen.

Einige Beispiele für leicht zu messende versus schwer zu messende Ziele:

  • Mich zu überzeugen versus mir helfen, die Wahrheit herauszufinden. (Vielen Dank an Wei Dai für das Verfeinern dieses Beispiels.)
  • Oder mein Gefühl der Ungewissheit zu lindern versus mein Wissen über die Welt zu vermehren.
  • Die Verbesserung meiner selbstberichteten Lebenszufriedenheit versus mir tatsächlich helfen, ein gutes Leben zu führen.
  • Die Verringerung gemeldeter Straftaten versus die Verhinderung tatsächlicher Straftaten.
  • Die Vermehrung meines Wohlstands auf dem Papier versus die Steigerung meiner effektiven Kontrolle über Ressourcen.

Es ist ohnehin schon viel einfacher, leicht zu messende Ziele zu verfolgen, aber das maschinelle Lernen wird diese Kluft vergrößern, indem es uns erlaubt, eine enorme Anzahl möglicher Strategien auszuprobieren und riesige Räume möglicher Aktionen zu durchforsten. Diese Kraft wird sich mit bestehenden institutionellen und sozialen Dynamiken, die schon jetzt zugunsten leicht zu messender Ziele verlaufen, verbinden und diese verstärken.

Gegenwärtig haben menschliche Reflexionen und Diskurse über die Zukunft ein Gewicht und sind in der Lage, unseren Kurs entscheidend zu beeinflussen. Aber mit der Zeit wird die Bedeutung menschlichen Denkens im Schatten neuer, durch den ständigen Prozess von Versuch und Irrtum geschärfter Denkformen, verkümmern. Letzten Endes wird der Kurs unserer Gesellschaft nicht von menschlichen Intentionen, sondern von einer Kombination aus leistungsstarker Optimierung und leicht zu messenden Zielen bestimmt sein.

Wir werden versuchen, uns diese Macht zunutze zu machen, indem wir Platzhalter für das, was uns wichtig ist, konstruieren, aber mit der Zeit werden diese Platzhalter ihren Dienst versagen:

  • Unternehmen werden den Verbrauchern einen Mehrwert liefern, der am Profit gemessen wird. Letztlich führt dies vor allem zu Kundenmanipulation, der Vereinnahmung von Regulierungsbehörden, Erpressung und Diebstahl.
  • Investoren werden „Anteilseigner“ von zunehmend profitableren Unternehmen und werden gelegentlich versuchen, die Welt mithilfe ihrer Gewinne zu verändern. Anstatt tatsächlich etwas zu bewirken, werden sie schließlich von Beratern umgeben sein, die ihnen vorgaukeln werden, etwas bewirkt zu haben.
  • Strafverfolgungsbehörden werden die Zahl der Klagen verringern und das von der Gesellschaft berichtete Sicherheitsgefühl erhöhen. Im Endeffekt wird dies durch die Erzeugung eines falschen Sicherheitsgefühls, das Verschweigen von Behördenversagen, die Unterdrückung von Beschwerden und die Nötigung und Manipulation der Bürger vorangetrieben.
  • Die Gesetzgebung kann so optimiert werden, dass sie den Anschein erweckt, echte Probleme zu adressieren und den Wählern zu helfen. Irgendwann wird dies erreicht, indem unsere Fähigkeit reale Probleme wahrzunehmen, untergraben wird und immer glaubhaftere Erzählungen darüber konstruiert werden, was wichtig ist und wohin sich die Welt entwickelt.

Für eine Weile können wir diese Probleme überwinden, indem wir sie erkennen, die Platzhalter verbessern und spontan Beschränkungen vornehmen, die Manipulation oder Missbrauch verhindern. Doch mit zunehmender Komplexität des Systems wird auch diese Aufgabe schwieriger. Sobald das System über das menschliche Denkvermögen hinauswächst, erfordert auch diese Aufgabe einen Prozess von Versuch und Irrtum, und auf der Metaebene verfolgt dieser Prozess weiterhin ein leicht zu messendes Ziel (möglicherweise über einen längeren Zeitraum). Schließlich werden groß angelegte Versuche, das Problem zu lösen, selbst durch die kollektive Optimierung von Millionen von Optimierern bekämpft, die einfache Ziele verfolgen.

Wenn diese Welt dann aus den Fugen gerät, gibt es möglicherweise keinen bestimmten Punkt, an dem der allgemeine Konsens anerkennt, dass die Dinge aus den Fugen geraten sind.

In der breiten Bevölkerung haben viele Menschen bereits ein vages Bild von der generellen globalen Entwicklung und ein vages Gefühl, dass etwas schiefgelaufen ist. Es mag erhebliche populistische Reformanstrengungen geben, aber im Regelfall werden sie nicht zielgerichtet genug sein. Vielleicht ziehen einige Staaten die Handbremse an, aber diese werden wirtschaftlich und militärisch schnell ins Hintertreffen geraten. Tatsächlich ist „wohlhabend erscheinen“ eines der leicht zu messenden Ziele, auf die das obskure System optimiert.

Unter den intellektuellen Eliten wird eine aufrichtige Uneinigkeit und Ungewissheit darüber herrschen, ob die derzeitige Situation gut oder schlecht ist. Menschlicher Wohlstand wird initial zunehmen. Auf kurze Sicht unterscheiden sich die Kräfte, die den Menschen allmählich die Kontrolle entreißen, nicht sonderlich von (z. B.) der Lobbyarbeit von Unternehmen gegen das öffentliche Interesse oder von Prinzipal-Agenten-Problemen in menschlichen Institutionen. Es lässt sich berechtigterweise darüber streiten, ob die impliziten langfristigen Ziele der KI-Systeme wirklich so viel schlimmer sind als die langfristigen Ziele, die von den Aktionären öffentlicher Unternehmen oder korrupten Beamten verfolgt würden.

Wir könnten das Ergebnis als „mit einem Wimmern abtreten“  beschreiben. Die menschliche Vernunft ist allmählich nicht mehr in der Lage, mit ausgeklügelten, systematischen Manipulationen und Täuschungen zu konkurrieren, die durch Versuch und Irrtum ständig verbessert werden; die menschliche Kontrolle über die Hebel der Macht wird allmählich immer unwirksamer; wir verlieren schließlich jede echte Fähigkeit, den Kurs unserer Gesellschaft zu beeinflussen. Bis wir zu den Sternen aufbrechen, sind unsere derzeitigen Werte nur noch eine von vielen Kräften in der Welt, und zwar keine besonders starke.

Teil II: Einflussstreben ist beängstigend 

Es gibt einige potenzielle Muster, die ihren eigenen Einfluss sichern und ausbauen wollen – Organismen, korrupte Bürokraten, von Wachstum besessene Unternehmen. Wenn solche Muster auftauchen, neigen sie dazu, ihren eigenen Einfluss zu steigern. Sofern es keine Konkurrenz oder erfolgreichen Maßnahmen zu ihrer Unterdrückung gibt, können sie so das Verhalten großer komplexer Systeme dominieren.

Modernes maschinelles Lernen erstellt eine massive Anzahl von kognitiven Strategien und verfeinert (und realisiert letztlich) diejenigen Strategien, die entsprechend eines bestimmten Trainingsziels gut abschneiden. Wenn der Fortschritt anhält, wird das maschinelle Lernen wahrscheinlich irgendwann Systeme hervorbringen, die ein detailliertes Verständnis der Welt haben und in der Lage sind, ihr Verhalten anzupassen, um bestimmte Ziele zu erreichen.

Sobald wir anfangen, im Bereich von Strategien zu suchen, die ein ausreichendes Verständnis der Welt haben, stoßen wir auf ein Problem: Alle nach Einfluss strebenden Strategien, die uns begegnen, würden auch in Bezug auf unser Trainingsziel reüssieren, denn eine gute Trainingsleistung begünstigt das Erlangen von Einfluss.

Wie häufig werden wir auf Strategien stoßen, die nach Einfluss streben, im Gegensatz zu Strategien, die lediglich die von uns formulierten Ziele verfolgen? Ich weiß es nicht.

Ein Grund zur Sorge ist, dass eine Vielzahl von Zielen zu Einflussstreben führen können, während das „beabsichtigte“ Ziel eines Systems weniger Spielraum lässt. Wir könnten also erwarten, dass nach Einfluss strebendes Verhalten in der breiteren Landschaft „möglicher kognitiver Strategien“ häufiger vorkommt.

Anlass zur Beruhigung gibt die Tatsache, dass wir diese Suche durch die schrittweise Modifizierung erfolgreicher Strategien durchführen, so dass wir möglicherweise Strategien erhalten, die bereits zu einem Zeitpunkt annähernd das Richtige tun, an dem „nach Einfluss strebendes Verhalten“ nicht raffiniert genug ist, um eine gute Trainingsleistung zu erzielen. Andererseits werden wir irgendwann auf Systeme stoßen, die diese Raffinesse aufweisen. Wenn diese gleichzeitig ohne perfekte Zielvorstellung operieren, könnten eine „Verbesserung der Zielvorstellung“ und eine „Steigerung des Einflussstrebens“ den gleichen Effekt auf die Trainingsleistungen haben.

Insgesamt erscheint es mir sehr plausibel, dass wir nach Einfluss strebendes Verhalten „standardmäßig" vorfinden würden, womöglich (wenn auch weniger wahrscheinlich) in allen Fällen, selbst wenn wir uns bei der Suche kollektiv um eine „maximale Intentionsausrichtung“ bemühen würden.

Wenn ein solches Einflusstreben auftritt und den Ausbildungsprozess überlebt, könnte es schnell utopisch werden, es auszumerzen. Wenn man versucht, Systemen, die gutartig und einfach erscheinen, mehr Einfluss zu geben, stellt man nur sicher, dass „gutartig und einfach erscheinen“ die beste Strategie für das Streben nach Einfluss ist. Wenn man nicht sehr sorgfältig auf „gutartig wirken“ prüft, kann man die Dinge sogar noch schlimmer machen, da ein nach Einfluss strebender Akteur jeden Standard, den man anwendet, aggressiv ausspielen würde. Und da die Welt immer komplexer wird, gibt es für Systeme, die nach Einfluss streben, immer mehr Möglichkeiten, dieses Motiv über alternative Kanäle zu verfolgen.

Anstrengungen, das nach Einfluss strebende Verhalten zu unterdrücken (nennen wir sie „Immunsysteme“), basieren darauf, dass der Unterdrücker eine Art epistemischen Vorteil gegenüber dem Einflusssuchenden hat. Wenn es Letzteren gelingt, ein Immunsystem zu überlisten, können sie sich der Erfassung entziehen und möglicherweise sogar das Immunsystem kompromittieren, um ihren Einfluss weiter auszubauen. Wenn ML-Systeme ausgefeilter sind als Menschen, müssen die Immunsysteme selbst automatisiert werden. Und in dem Maße, in dem ML eine Rolle bei dieser Automatisierung spielt, erbt auch das Immunsystem einen gewissen Hang, nach Einfluss zu streben.

Diese Bedenken beruhen nicht auf einer detaillierten Beschreibung moderner ML-Trainingsmethoden. Wichtig ist, dass wir eine Vielzahl von Mustern erzeugen, die hochdifferenzierte Erkenntnisse über die Welt ansammeln, und einige davon möglicherweise nach Einfluss streben. Das Problem besteht unabhängig davon, ob diese Erkenntnissuche in einem einzelnen Computer oder in einer chaotisch verteilten Form von einer ganzen Wirtschaft interagierender Akteure umgesetzt wird – ob Versuch und Irrtum als Gradientenverfahren auftreten oder als explizite Anpassungen und Optimierungen durch Ingenieure, die versuchen, ein besser automatisiertes Unternehmen zu entwickeln.  Die Vermeidung einer Ende-zu-Ende-Optimierung kann dazu beitragen, das Auftreten von Einflussstreben zu verhindern (indem das menschliche Wissen und damit die Kontrolle über die resultierende Denkart verbessert wird). Aber wenn solche Muster erst einmal existieren, bietet eine chaotisch verteilte Welt den nach Einfluss strebenden Mustern immer mehr Möglichkeiten, ihren Einfluss auszuweiten.

Wenn sich nach Einfluss strebende Muster herausbilden und verfestigen, kann dies letztlich zu einem raschen Übergang von der in Teil I beschriebenen Welt zu einer viel schlimmeren, von völligem menschlichen Kontrollverlust geprägten Situation führen.

In der Anfangsphase gewinnen Systeme, die nach Einfluss streben, meist dadurch an Einfluss, dass sie sich nützlich machen und so harmlos wie möglich aussehen. Sie könnten nützliche Dienste in der Wirtschaft leisten, um Geld für sich und ihre Besitzer zu verdienen, scheinbar vernünftige politische Empfehlungen abgeben, um häufiger um Rat gefragt zu werden, versuchen, den Menschen zu Glücksgefühlen zu verhelfen usw. (Diese Welt wird immer noch von den Problemen in Teil I geplagt.)

Gelegentlich mag es zu katastrophalen Ausfällen von KI-Systemen kommen. Ein automatisiertes Unternehmen könnte beispielsweise einfach das Geld nehmen und abhauen; ein Strafverfolgungssystem könnte plötzlich anfangen, Ressourcen zu beschlagnahmen und versuchen, sich vor der drohenden Abschaltung zu schützen, sobald das Fehlverhalten aufgedeckt wird; usw. Diese Probleme können sich mit einigen der in Teil I erörterten Ausfälle decken – es gibt keine klare Trennlinie zwischen Fällen, in denen ein Platzhalter vollständig versagt, und Fällen, in denen das System den Platzhalter ignoriert.

Es wird wahrscheinlich ein allgemeines Verständnis dieser Dynamik geben, aber es ist schwierig, das Ausmaß des systemischen Risikos abzuschätzen, und wenn uns gute technische Lösungen fehlen, kann eine Risikoabsicherung kostspielig werden. Es kann also sein, dass wir nicht in der Lage sind, etwas zu erwidern, bis wir einen klaren Warnschuss haben – und wenn wir gut darin sind, kleine Fehler im Keim zu ersticken, kann es sein, dass mittelgroße Warnschüsse gänzlich ausbleiben.

Irgendwann erreichen wir den Punkt, an dem wir uns von einem solchen Automatisierungsfehler nicht mehr erholen können. Unter diesen Bedingungen verhalten sich Systeme, die nach Einfluss streben, nicht mehr in der beabsichtigten Weise, da sich ihre Anreize geändert haben. Ihr zentrales Interesse besteht nun darin, den Einfluss nach der bevorstehenden Katastrophe zu haben, anstatt die Gunst der bestehenden Institutionen und Ziele zu gewinnen.

Eine irreparable Katastrophe würde wahrscheinlich in einer Phase erhöhter Verwundbarkeit eintreten – ein internationaler Konflikt, eine Naturkatastrophe, ein schwerwiegender Cyberangriff usw. –, da dies der erste Moment wäre, in dem gleichzeitig lokale Erschütterungen zu einer Katastrophe führen und eine Erholung außer Reichweite gerät. Die Katastrophe könnte wie eine kaskadenartige Folge von Automatisierungsausfällen aussehen: Ein paar automatisierte Systeme versagen ihren Dienst als Reaktion auf einen lokalen Schock. Mit deren Entgleisung verstärkt sich der lokale Schock zu einer größeren Störung; mehr und mehr automatisierte Systeme entfernen sich von ihrer Trainingsverteilung und beginnen zu versagen. Realistisch betrachtet würde dies wahrscheinlich durch weitverbreitetes menschliches Versagen als Reaktion auf Angst und den Zusammenbruch bestehender Anreizsysteme verstärkt werden – viele Dinge beginnen zu versagen, sobald man sich von der ursprünglichen Verteilung von Umständen entfernt, nicht nur maschinelles Lernen.

Ohne eine gezielte und groß angelegte Anstrengung, unsere Abhängigkeit von potenziell schädlichen Maschinen zu verringern, ist eine menschliche Resilienz gegenüber dieser Art des Scheiterns kaum vorstellbar. Ferner könnte eine solche Anstrengung mit enormen Kosten verbunden sein.

Ich würde dieses Szenario als „mit einem Paukenschlag abtreten“ beschreiben. Wahrscheinlich führt es zu einer Menge offensichtlicher Zerstörung und nimmt uns jede Möglichkeit einer nachträglichen Kurskorrektur. Die unmittelbaren Folgen sind womöglich kaum von anderen Formen des Zusammenbruchs komplexer, brüchiger oder angepasster Systeme oder von Konflikten zu unterscheiden (da es wahrscheinlich viele Menschen geben wird, die mit KI-Systemen sympathisieren). Aus meiner Sicht besteht der Hauptunterschied zwischen diesem Szenario und normalen Unfällen oder Konflikten darin, dass wir anschließend einen Haufen mächtiger, nach Einfluss strebender Systeme vorfinden, die so raffiniert sind, dass wir sie gegebenenfalls nicht mehr loswerden können.

Es ist auch ohne offenkundige Katastrophe möglich, ein vergleichbares Schicksal zu erleiden (wenn wir lange genug durchhalten). Mit der zunehmenden Automatisierung von Strafverfolgungsbehörden, Regierungsstellen und Militärs wird die menschliche Kontrolle zunehmend von einem komplexen System mit vielen beweglichen Teilen abhängig. Eines Tages könnten die Entscheidungsträger feststellen, dass sie trotz ihrer nominellen Autorität keine Kontrolle darüber haben, was diese Institutionen tun. So kann beispielsweise eine militärische Führungskraft einen Befehl erteilen und feststellen, dass dieser ignoriert wird. Dies könnte sofort Panik und eine starke Gegenwehr auslösen, aber selbst diese Reaktion kann auf das gleiche Problem stoßen, und das mag schließlich Schachmatt bedeuten.

Ähnliche blutlose Revolutionen sind möglich, wenn die nach Einfluss strebenden Akteure auf legale Weise oder durch Manipulation und Täuschung usw. vorgehen. Jede konkrete Vision einer Katastrophe wird zwangsläufig sehr unwahrscheinlich sein. Aber wenn leistungsstarkes maschinelles Lernen routinemäßig nach Einfluss strebende Muster einschleust und wir nicht in der Lage sind, sie herauszufiltern, dann steuern wir in gefährliche Gewässer.