Gefangenendilemma

Aus HaGalil Lexikon

Wechseln zu: Navigation, Suche

Das Gefangenendilemma ist ein Paradoxon, das zentraler Bestandteil der Spieltheorie ist. Bei dem Dilemma handelt es sich um ein klassisches „Zwei-Personen-Nicht-Nullsummen-Spiel”, das in den 1950er Jahren von zwei Mitarbeitern der RAND Corporation formuliert wurde. Merrill Flood und Melvin Dresher beschrieben ein soziales Dilemma als Zwei-Personen-Spiel, das zeigt, wie individuell rationale Entscheidungen zu kollektiv schlechteren Ergebnissen führen können. Die Bezeichnung „Gefangenendilemma“ stammt von Albert William Tucker von der Universität Princeton.

Inhaltsverzeichnis

Beschreibung der Situation

Zwei Gefangene werden verdächtigt, gemeinsam eine Straftat begangen zu haben. Die Höchststrafe für das Verbrechen beträgt fünf Jahre. Beiden Gefangenen wird nun ein Handel angeboten, worüber auch beide informiert sind. Wenn einer gesteht und somit seinen Partner mitbelastet, kommt er ohne Strafe davon – der andere muss die vollen fünf Jahre absitzen. Entscheiden sich beide zu schweigen, bleiben nur Indizienbeweise, die aber ausreichen, um beide für zwei Jahre einzusperren. Gestehen aber beide die Tat, erwartet jeden eine Gefängnisstrafe von vier Jahren. Nun werden die Gefangenen unabhängig voneinander befragt. Weder vor noch während der Befragung haben die beiden die Möglichkeit, sich untereinander abzusprechen.

Paradox kann dieses Dilemma genannt werden, da die individuell vernünftigste Entscheidung der Gefangenen (gestehen) und die kollektiv vernünftigste Entscheidung (schweigen) auseinanderfallen. Eine eindeutige verbindliche Handlungsanweisung kann nicht ohne Weiteres angegeben werden.

In einer Auszahlungsmatrix eingetragen, ergibt sich folgendes Bild:

B schweigt (kooperiert mit A) B gesteht (verrät A)
A schweigt (kooperiert mit B) A: −2 / B: −2 A: −5 / B: 0
A gesteht (verrät B) A: 0 / B: −5 A: −4 / B: −4
Ergebnisse (hier)
0 temptation” – Belohnung für einseitigen Verrat (Freiheit)
-2 reward” – Belohnung für Kooperation von A und B (nur zwei Jahre Strafe)
-4 punishment” – Bestrafung für gegenseitigen Verrat (vier Jahre Strafe)
-5 sucker's payoff” – Bestrafung für Vertrauen, das Vertrauen wurde einseitig durch den Partner gebrochen (fünf Jahre Strafe)

In allgemeiner Form ergibt sich folgende Auszahlungsmatrix:

B kooperiert B defektiert
A kooperiert R / R S / T
A defektiert T / S P / P

mit T > R > P > S.

Die Auszahlung eines Spieler hängt somit nicht nur von der eigenen, sondern auch von der Entscheidung des Komplizen ab (Interdependenz des Verhaltens).

Individuell scheint es für beide vorteilhafter zu sein, auszusagen. Der Gefangene denkt sich: Falls der andere gesteht, reduziere ich mit meiner Aussage meine Strafe von fünf auf vier Jahre; falls er aber schweigt, dann kann ich mit meiner Aussage meine Strafe von zwei Jahren auf Null reduzieren! Also sollte ich auf jeden Fall gestehen! Diese Entscheidung zur Aussage hängt nicht vom Verhalten des anderen ab, und es ist anscheinend immer vorteilhafter zu gestehen. Eine solche Strategie, die ungeachtet der gegnerischen gewählt wird, wird in der Spieltheorie als dominante Strategie bezeichnet.

Würden beide Gefangene schweigen, dann müsste jeder nur zwei Jahre ins Gefängnis. Der Verlust für beide zusammen beträgt so vier Jahre und jede andere Kombination aus Gestehen und Schweigen führt zu einem höheren Verlust.

Die Spielanlage verhindert aber die Verständigung zwischen den Gefangenen und provoziert so einen einseitigen Verrat, durch den der Verräter das für ihn individuell bessere Resultat „Freispruch“ (falls der Mitgefangene schweigt) oder vier statt fünf Jahre (falls der Mitgefangene gesteht) zu erreichen hofft. Versuchen dies aber beide Gefangenen, so verschlimmern sie – auch individuell – ihre Lage, da sie nun je vier Jahre statt der zwei Jahre Gefängnis erhalten.

In diesem Auseinanderfallen der möglichen Strategien besteht das Dilemma der Gefangenen. Die vermeintlich rationale, schrittweise Analyse der Situation verleitet beide Gefangenen dazu zu gestehen, was zu einem schlechten Resultat führt (suboptimale Allokation). Das bessere Resultat wäre durch gemeinsame Kooperation erreichbar, die aber anfällig für einen Vertrauensbruch ist. Die rationalen Spieler treffen sich in einem Punkt, der in diesem Fall als pareto-ineffizientes Nash-Gleichgewicht bezeichnet wird.

Schuld und Unschuld

Im Gefangenendilemma spielt die Frage von tatsächlicher Schuld oder Unschuld für das Resultat keine Rolle. Das wirkt sich so aus, dass auch der Unschuldige besser wegkommt, wenn er gesteht – in dem Fall etwas, das er nicht getan hat. Da moralische Bedenken und die Hoffnung auf Erweis der Unschuld den Unschuldigen davon abhalten, zu gestehen, was er nicht getan hat, muss er dann oft die schlechtere Stellung einnehmen, die sich aus dem Nichtgeständnis ergibt. Wenn die Strafe für Nichtgestehen sehr hoch ist, gestehen auch viele Unschuldige alles. Das Dilemma kommt insbesondere bei Schauprozessen zum Tragen.

Vertrauen

Das Dilemma beruht besonders darauf, dass kein Teilnehmer weiß, wie sich der andere Teilnehmer verhalten wird. Die optimale Strategie für beide zusammen wäre, wenn beide Mitspieler einander vertrauen und miteinander kooperieren. Das Vertrauen kann auf zweierlei Art erzielt werden: Zum einen durch – nach den ursprünglichen Spielregeln nicht erlaubte – Kommunikation und entsprechende Vertrauensbeweise, zum anderen durch Strafe im Falle des Vertrauensbruches.

Der Ökonom und Spieletheoretiker Thomas Schelling geht in seinem Werk The Strategy of Conflict (deutsch: Die Strategie des Konflikts) auf solche Probleme unter den Bedingungen des Kalten Krieges ein (Gleichgewicht des Schreckens). Die Bestrafung für einseitigen Vertrauensbruch wäre so groß gewesen, dass er sich nicht lohnte. Beim wiederholten Spiel des Gefangenendilemmas beruhen die meisten Strategien darauf, dass man Informationen aus vorhergehenden Schritten verwendet. Wenn der andere in einem Schritt kooperiert, vertraut die erfolgreiche Strategie Tit for Tat darauf, dass er es weiterhin tut, und gibt ihrerseits einen Vertrauensbeweis. Im entgegengesetzten Fall bestraft sie, um zu verhindern, dass sie ausgenutzt wird.

Spielweisen

Einmaliges Spiel

Gemäß der klassischen Analyse des Spiels ist im nur einmal gespielten Gefangenendilemma die einzig rationale Strategie für einen am eigenen Wohl interessierten Spieler, zu gestehen und den Mitgefangenen damit zu verraten. Denn durch seine Entscheidung kann er das Verhalten des Mitspielers nicht beeinflussen, und unabhängig von der Entscheidung des Mitspielers stellt er sich immer besser, wenn er selbst nicht mit dem Mitgefangenen kooperiert. Diese Analyse setzt voraus, dass die Spieler nur einmal aufeinander treffen, und ihre Entscheidungen keinen Einfluss auf spätere Interaktionen haben können. Da es sich um ein echtes Dilemma handelt, folgt aus dieser Analyse aber keine eindeutige Handlungsanweisung (präskriptive Aussage) für reale Interaktionen, die einem Gefangenendilemma entsprechen. Im einmaligen, um nicht zu sagen alles entscheidenden Spiel, muss jedoch darauf hingewiesen werden, dass es egal ist, ob sich beide Parteien zuvor absprechen. Die Situation nach einem evtl. geführten Gespräch bleibt gleich!

Mehrmaliges (endliches) Spiel

Die Situation ändert sich, wenn das Spiel mehrere Runden gespielt wird (sog. iterierte Spiele). Diese Variation ermöglicht den Spielern, die Entscheidungen des Gegners in den vorherigen Runden mit in die Entscheidung, ob in der jeweils nächsten Runde kooperiert oder defektiert wird, einzubeziehen. Vertrauensbruch kann somit im nächsten oder einem späteren Spiel geahndet werden (Vergeltung), Kooperation kann belohnt werden.

Die Anzahl der Runden darf den Spielern allerdings nicht mitgeteilt werden, sondern muss diesen unbekannt sein. Andernfalls könnte es sich für eigentlich kooperierende Spieler lohnen, in der letzten Runde zu verraten, weil dafür eine Vergeltung nicht mehr möglich ist. Somit wird aber die vorletzte Runde zur letzten, in welcher effektiv eine Entscheidung zu fällen ist, worauf sich wieder dieselbe Situation ergibt. Durch Induktion folgt, dass das einzig rationale Verhalten eines Spielers (Strategie) in diesem Fall die ständige Defektion ist<ref>Robert Axelrod, The Evolution of Co-operation, 1984, S. 10</ref>. In der Praxis wird dieses theoretisch rationale Verhalten jedoch nicht immer beobachtet<ref>Martin J. Osborne, Arial Rubinstein: A Course in Game Theory. MIT Press, 1994, S. 135</ref>.

Beim mehrmaligen Spiel wird die Auszahlungsmatrix in der Regel so gestaltet, dass zusätzlich zur allgemein gültigen Ungleichung $T > R > P > S$ außerdem $2R > T+S gilt, was in der Beispiel-Auszahlungsmatrix aus der Einleitung erfüllt ist: (2*(-2) > 0 + (-5)). Im entgegengesetzten Fall könnten sich zwei Spieler sonst durch abwechselndes ausbeuten und ausgebeutet werden einen Vorteil gegenüber kooperierenden Spielern verschaffen.

Zur Interpretation der Ergebnisse eines Spiels werden bei endlichen Spielen die Auszahlungen der einzelnen Runden zu einer Gesamtauszahlung zusammengefasst, welche dann den Erfolg eines Spielers in einem Spiel wiedergibt. Hierfür werden die Auszahlungen der einzelnen Runden üblicherweise ungewichtet aufaddiert.

Unendliches Spiel

Das Spiel wiederholt sich, ohne dass den Spielern bekannt ist, wann die letzte Runde stattfindet. Befinden sich die Spieler in diesem Dilemma, dann kann eine Nicht-Kooperation im darauf folgenden Spiel geahndet werden. Nicht zu kooperieren zahlt sich also nicht (zwangsläufig) aus, da man bei Defektion (direkt) im zweiten Spiel bestraft würde, während Kooperation (dauerhaft) belohnt wird. Tit-for-tat („wie du mir, so ich dir“) bedeutet Bestrafung für Defektion in der nächsten Periode. Man spricht in dem Fall von kalkulativem Vertrauen.

Der amerikanische Politologe Robert Axelrod veranstaltete zum mehrmaligen Gefangenendilemma zu Beginn der 1980er Jahre ein Computerturnier, in dem er Computerprogramme mit verschiedenen Strategien gegeneinander antreten ließ. Die insgesamt erfolgreichste Strategie und gleichzeitig eine der einfachsten war besagte Tit-for-tat-Strategie, entwickelt von Anatol Rapoport. Sie kooperiert im ersten Schritt (freundliche Strategie) und den folgenden und „verzichtet auf den Verrat”, solange der andere ebenfalls kooperiert. Versucht der andere, sich einen Vorteil zu verschaffen („Verrat”), tut sie dies beim nächsten Mal ebenfalls (sie lässt sich nicht ausbeuten), kooperiert aber sofort wieder, wenn der andere kooperiert (sie ist nicht nachtragend).

Evolutionsdynamische Turniere

Eine Weiterentwicklung des Spiels über mehrere Runden ist das Spielen über mehrere Generationen. Sind alle Strategien in mehreren Runden gegeneinander und gegen sich selbst angetreten, werden die erzielten Resultate für jede Strategie zusammengezählt. Für einen nächsten Durchgang ersetzen die erfolgreichen Strategien die weniger erfolgreichen. Die erfolgreichste Strategie ist in der nächsten Generation am häufigsten vertreten. Auch diese Turnier-Variante wurde von Axelrod durchgeführt.

Strategien, die zum Verraten tendierten, erzielten hier zu Beginn relativ gute Resultate – solange sie auf andere Strategien stießen, die tendenziell eher kooperierten, also sich ausnutzen ließen. Sind verräterische Strategien aber erfolgreich, so werden kooperative von Generation zu Generation seltener – die verräterischen Strategien entziehen sich in ihrem Gelingen selbst der Erfolgsgrundlage. Treffen aber zwei Verräter-Strategien zusammen, so erzielen sie schlechtere Resultate als zwei kooperierende Strategien. Verräter-Strategien können nur durch Ausbeutung von Mitspielern wachsen. Kooperierende Strategien wachsen dagegen am besten, wenn sie aufeinander stoßen. Eine Minderheit von miteinander kooperierenden Strategien wie z. B. Tit-for-tat kann sich so sogar in einer Mehrheit von verräterischen Strategien behaupten und sogar zur Mehrheit anwachsen. Solche Strategien, die sich über Generationen hin etablieren können und auch gegen Invasionen durch andere Strategien resistent sind, nennt man evolutionär stabile Strategien.

Tit-for-tat konnte erst 2004 von einer neuartigen Strategie der Universität Southampton geschlagen werden, welche sich bei gegenseitigem Aufeinandertreffen nach einem Initial-Austausch in eine Ausbeuter- bzw. eine Opferrolle begibt, um dem Ausbeuter so eine Spitzenposition zu ermöglichen (master-and-servant). Nötig dazu ist aber eine gewisse kritische Mindestgröße, d. h. master-and-servant kann sich nicht aus einer kleinen Anfangspopulation etablieren. Da die Spielpartner über ihr anfängliches Spielverhalten codiert kommunizieren, besteht der Einwand, dass die Master-and-servant-Strategie die Spielregeln verletzt, wonach die Spielpartner isoliert voneinander befragt werden. Die Strategie erinnert an Insektenvölker, in denen Arbeiterinnen auf Fortpflanzung gänzlich verzichten und ihre Arbeitskraft für das Wohlergehen der fruchtbaren Königin aufwenden.

Notwendige Bedingungen für das Ausbreiten von kooperativen Strategien sind: a) dass mehrere Runden gespielt werden, b) sich die Spieler von Runde zu Runde einander wiedererkennen können, um nötigenfalls Vergeltung zu üben, und c) dass nicht bekannt ist, wann sich die Spieler zum letzten Mal begegnen.

Sequentielle Entscheidung

Die Variante des Gefangenendilemma, bei der die Spieler nacheinander entscheiden, stellt die Spieler in eine asymmetrische Position. Eine solche Situation ergibt sich beispielsweise bei der Ausführung von bei Ebay zustande gekommenen Geschäften. Zunächst muss der Käufer entscheiden, ob er kooperieren, d.h. den Kaufbetrag an den Verkäufer überweisen möchte. Anschließend entscheidet der Verkäufer, ob er die Ware versendet. Trivialerweise wird der Verkäufer in keinem Fall die Ware versenden, wenn der Käufer den Kaufbetrag nicht überweist.

(Anmerkung zum Verständnis: Im Folgenden steht nicht die rationale Entscheidungsfindung im Sinne einer optimalen Strategie, sondern eine emotionale Motivation im Fokus.) Der Käufer befindet sich also in einer Situation der „Angst“, dass der Verkäufer die Ware nicht versenden könnte, auch wenn er – der Käufer – den Kaufpreis überweist. Ist das Geld beim Verkäufer eingegangen, gibt es für diesen die Versuchung („Gier“), die Ware dennoch nicht zu versenden. Angst und Gier können als Emotionen in diesem Fall den beiden Spielern also getrennt zugeordnet werden, während bei der üblichen, zeitgleichen Entscheidungsfindung beide Spieler gleichermaßen beide Emotionen empfinden bzw. empfinden können.

Dieser Unterschied macht die Analyse des Einflusses der Sozialen Identität (vereinfacht: „Wir-Gefühl“) möglich. Die traditionelle Hypothese ist, dass ein vorhandenes Wir-Gefühl die Tendenz zur Kooperation generell verstärkt. Yamagishi und Kiyonari<ref>T. Yamagishi and T. Kiyonari. The Group as the Container of Generalized Reciprocity.’ Social Psychology Quarterly 63: 116–32 2000</ref>. stellten jedoch die These auf, dass ein Einfluss eines Wir-Gefühls zwar existiert, im Falle des sequentiellen Gefangenendilemmas jedoch ein viel stärkerer Effekt der reziproken Kooperation das Vorhandensein oder Nicht-Vorhandensein eines Wir-Gefühls unerheblich macht: Der Käufer motiviert den Verkäufer durch seine eigene Kooperation ebenfalls zur Kooperation. Simpson<ref>Brent Simpson. Social Identity and Cooperation in Social Dilemmas. Rationality and Society 2006; 18; 443 DOI:10.1177/1043463106066381</ref> konnte jedoch zeigen, dass die Belege, die Yamagishi und Kiyonari für ihre These anführen, ebenfalls mit der Annahme verträglich sind, dass ein vorhandenes „Wir-Gefühl“ die Spieler zwar dazu bringt der Gier nicht nachzugeben, die Angst, der andere könne nicht kooperieren, jedoch weiterhin ein entscheidender Einfluss bleibt. Ein solcher Sachverhalt wäre insbesondere dazu geeignet, dass bei den Minimal-group-Experimenten von Tajfel<ref>H. Tajfel. Experiments in intergroup discrimination. Scientific American, November 1970, 223, 96-102</ref> nicht beobachtet wurde, dass die Spieler den Gewinn ihrer eigenen Gruppe, sondern den Gewinnunterschied zur anderen Gruppe zu maximieren und den Unterschied innerhalb der eigenen Gruppe zu minimieren trachteten: Geht man einmal davon aus, dass zwei Spieler eines Gefangenendilemmas sich in irgendeiner Weise beide als Teil einer Gruppe fühlen und die Gruppenzugehörigkeit im Moment des Spiels salient ist, muss man annehmen, dass die beiden Spieler zum einen eine möglichst gleiche Verteilung zum anderen eine möglichst geringe Summe an Strafen (bzw. möglichst hohe Summe an Belohnung) anstreben. Nimmt ein Spieler an, der andere kooperiere (er also durch Gier von der Kooperation abgehalten werden kann), so können beide Ziele durch Kooperation (Differenz: R-R < T-S; und Summe: 2R > T+S) erreicht werden, nimmt der Spieler jedoch an, der andere kooperiere nicht (Angst vor Ausnutzung), so werden beide Ziele mit unterschiedlichen Strategien erreicht (Differenz schlägt Nicht-Kooperation vor: P-P < T-S; aber Summe schlägt Kooperation vor: 2P < T+S).

Strategien

Einige ausgewählte Strategien

Für das über mehrere Runden gespielte Gefangenendilemma gibt es viele verschiedene Strategien. Für einige Strategien haben sich Namen eingebürgert (Übersetzung in Klammern):

  • tit-for-tat (wie du mir, so ich dir): Kooperiert in der ersten Runde und kopiert in den nächsten Runden den vorherigen Spielzug des Spielpartners. Diese Strategie ist prinzipiell kooperationswillig, übt aber bei Verrat Vergeltung. Bei erneuter Kooperation des Mitspielers ist sie nicht nachtragend, sondern reagiert ihrerseits mit Kooperation.
Im Endlosspiel (englisch: Single Shot) erhält der tit-for-tat-Spieler (TFT) die Auszahlung
- gegen einen ewigen Kooperateur (K): <math> TFT/K = \frac {a} {1-delta} </math> (dieselbe Auszahlung erhält der Kooperateur)
- gegen eínen anderen tit-for-tat-Spieler: <math> TFT/TFT = \frac {a} {1-delta} </math>
- gegen einen Defekteur: <math> TFT/D = \frac {c} {1-delta} </math> + d − c
  • mistrust (Misstrauen): Verrät in der ersten Runde und kopiert in den nächsten Runden (wie tit-for-tat) den vorherigen Spielzug des Spielpartners. Ist nicht von sich aus kooperationswillig.
  • spite (Groll): Kooperiert solange, bis der Mitspieler zum ersten mal verrät. Verrät danach immer. Kooperiert bis zum ersten Vertrauensmissbrauch. Sehr nachtragend.
  • punisher (Bestrafer): Kooperiert bis zur ersten Abweichung. Dann ist er so lange feindlich, bis der Gewinn des Mitspielers aus seinem Abweichen aufgebraucht wurde. Dann kooperiert er wieder bis zum nächsten Abweichen von der kooperativen Lösung. Diese Strategie ist optimal bei kooperationswilligen Spielern, die Fehler begehen, also irrtümlich einen konfrontativen Zug machen. Bei wenigen Wiederholungen oder zu großen Unterschieden in der Ergebnismatrix kann es jedoch vorkommen, dass ein Verlust durch einen Fehler des Gegners nicht mehr ausgeglichen werden kann. Diese Spiele heißen unheilbar.
  • pavlov: Kooperiert in der ersten Runde und verrät, falls der vorherige Zug des Mitspielers anders als der eigene war. Kooperiert, wenn in der Vorrunde beide Spieler kooperierten oder beide verrieten. Dies führt zu einem Wechsel des Verhaltens, wenn der Gewinn der Vorrunde klein war, aber zum Beibehalten des Verhaltens, wenn der Gewinn groß war.
  • gradual (allmählich): Kooperiert solange, bis der Mitspieler zum ersten mal verrät. Verrät darauf einmal und kooperiert zweimal. Verrät der Mitspieler nach dieser Sequenz nochmals, Verrät die graduale Strategie zweimal und kooperiert zweimal. Verrät der Mitspieler danach nochmals, verrät sie dreimal und kooperiert zweimal. Diese Strategie kooperiert grundsätzlich, bestraft aber jeden Ausbeutungsversuch zunehmend unversöhnlicher.
  • prober (Sondierer): spielt die ersten drei Züge kooperieren, verraten, verraten und verrät fortan, wenn der Gegner im zweiten und dritten Zug kooperiert hat, spielt sonst tit-for-tat. Testet, ob sich der Mitspieler ohne Vergeltung ausnehmen lässt. Nimmt nicht-vergeltende Mitspieler aus. Passt sich bei Vergeltung aber an.
  • master-and-servant („Herr und Knecht” oder auch „Southampton-Strategie”): Hierbei handelt es sich um ein Paar von Strategien. Die „Master”-Strategie, welche nur in Turnieren Sinn ergibt, basiert darauf, dass eine weitere Strategie (die sogenannte „Slave”-Strategie) am Turnier teilnimmt, welche die spezielle Eigenschaft hat, dass sie vom Master ausgebeutet werden kann. Dazu spielen Master und Slave in den ersten Runden eine Art Erkennungssequenz. Erkennen sich Master und Slave, kooperiert der Slave fortan, während der Master gegen diesen fortan defektiert. Falls der Master gegen eine andere Strategie spielt und damit die Erkennung fehl schlägt, spielt der Master nach der Erkennungssequenz eine Ausweichstrategie (z.B. tit-for-tat). Der Effekt dieses Strategiepaares ist, dass der Master durch die einseitige Defektion gegen den Slave in einem Turnier meist besser abschneidet als alle anderen Spieler im Turnier. Der Slave hingegen erhält somit eine schlechtere Punktzahl. Durch das mehrfache Einsenden der Slave-Strategie kann dessen Gewicht in einem Turnier noch verstärkt werden.
  • always defect (immer abtrünnig werden): Verrät immer, egal was der Spielpartner tut.
Gegen einen ewigen Kooperateur (K) erhält der Defekteur (D): <math> D/K = \frac {b} {1-delta} </math>
Gegen einen anderen ewigen Defekteur erhält der Defekteur <math> D/D = \frac {c} {1-delta} </math>
  • always cooperate (kooperiere immer): Kooperiert immer, egal was der Spielpartner tut.
Gegen einen anderen ewigen Koopereteur (K) erhält er: <math> K/K = \frac {a} {1-delta} </math>
Gegen einen ewigen Defekteur (D) erhält er: <math> K/D = \frac {d} {1-delta} </math>
  • random (Zufall): Verrät oder kooperiert aufgrund eines 50:50-Zufallsentscheids.
  • per kind (periodisch und freundlich): Spielt periodisch die Folge kooperieren/kooperieren/verraten. Diese Strategie versucht, den Mitspieler durch zweimaliges Kooperieren in Sicherheit zu wiegen, um ihn dann einmal auszunehmen.
  • per nasty (periodisch und unfreundlich): Spielt periodisch die Folge verraten/verraten/kooperieren.
  • go by majority (Entscheide gemäß Mehrheit): Kooperiert in der ersten Runde und spielt dann den meistbenutzten Zug des Mitspielers. Bei Unentschieden wird kooperiert.
  • tit-for-two-tat (gutmütigeres tit-for-tat): Kooperiert in der ersten Runde. Hat der Mitspieler zuletzt kooperiert, wird auch kooperiert. Hat aber der Mitspieler zuletzt verraten, wird mit gleicher Wahrscheinlichkeit kooperiert oder verraten. Diese tit-for-tat-Variation kann sehr erfolgreich Kolonien bilden, auch wenn durch „Missverständnisse“ (Sabotage oder schlechte Kommunikation) die Geschäftsbeziehung hin und wieder gestört wird. Normale tit-for-tat-Agenten können durch eine Störung in einen Zyklus geraten, in dem immer abwechselnd einer kooperiert und der andere verrät. Dieser Zyklus wird nur durch eine weitere Störung durchbrochen.
gegen einen ewigen Defekteur erhält der tit-for-two-tat-Spieler (TFTT) die Auszahlung: <math> TFTT/D = \frac {c} {1-delta} </math> + d + (delta)²d − c − (delta)²c
gegen einen ewigen Kooperateur (K) einen tit-for-tat-Spieler oder einen anderen tit-for-two-tat-Spieler, erhält er die Auszahlung: <math> = \frac {a} {1-delta} </math>

Optimale Strategie

Die einfache, aber sehr wirkungsvolle und langfristig erfolgreiche Strategie tit-for-tat weist den Schönheitsfehler auf, dass sich beide Spieler in einer dauerhaften Konfrontation blockieren können, wenn nach gewisser Zeit beide Spieler diese Strategie langfristig wählen, was Vendetta (italienisch: Blutrache) genannt wird.

Abhilfe kann dadurch geschaffen werden, dass nach zufälliger, das heißt für den Gegner nicht abschätzbarer Anzahl von Wiederholungen spontan einseitig Kooperation gespielt wird, um den Kreislauf der Konfrontation zu durchbrechen („Verzeihen“). Dadurch wird langfristig das beste Ergebnis für beide Seiten erreicht.

Geht man von zwei Tit-for-tat-Spielern aus, die von Zeit zu Zeit Fehler machen, also die Kooperation in der Vorrunde als Defektion fehldeuten, so wird dieses „Verzeihen“ (Kooperation als Antwort auf Defektion) umso notwendiger, je größer die Fehlerquote ist, und das für eine gegebene Fehlerquote optimale Ergebnis resultiert bei höherer Fehlerquote auch bei höherer Verzeihensquote, zumindest solange die Fehlerquote nicht so hoch ist, dass die eigentlich gespielte Tit-for-tat-Strategie nicht mehr zu erkennen ist.

Beispiele

Aus Politik und Wirtschaft

Das Gefangenendilemma lässt sich auf viele Sachverhalte in der Praxis übertragen. Vereinbaren beispielsweise zwei Länder eine Rüstungskontrolle, so wird es immer individuell besser sein, heimlich doch aufzurüsten. Keines der Länder hält sich an sein Versprechen und beide sind durch die Aufrüstung schlechter gestellt (höheres Gefahrenpotential, höhere ökonomische Kosten), allerdings besser, als wenn nur der jeweils andere aufrüstete (Gefahr einer Aggression durch den anderen).

Ein anderes Beispiel bezieht sich auf Absprachen in Kartellen oder Oligopolen: Zwei Unternehmen vereinbaren eine Outputquote (zum Beispiel bei der Ölförderung), aber individuell lohnt es sich, die eigene Quote gegenüber der vereinbarten zu erhöhen. Beide Unternehmen werden mehr produzieren. Das Kartell platzt. Die Unternehmen im Oligopol sind aufgrund der erhöhten Produktion gezwungen, die Preise zu senken, wodurch sich ihr Monopolgewinn schmälert.

Auch in der Wirtschaft finden sich Beispiele für das Gefangenendilemma. Konkurrieren mehrere Firmen auf einem Markt, erhöhen sich die Werbeausgaben immer weiter, da jeder die anderen ein wenig übertreffen möchte. Diese Theorie konnte 1971 in den USA bestätigt werden, als ein Gesetz zum Werbeverbot für Zigaretten im Fernsehen verabschiedet wurde. Es gab kaum Proteste aus den Reihen der Zigarettenhersteller. Das Gefangenendilemma, in das die Zigarettenindustrie geraten war, wurde durch dieses Gesetz gelöst.

Ein weiteres Beispiel ist ein Handlungsreisender, der seine Kunden bei Vorkasse (gegebenenfalls ungedeckte Schecks) mit guter Ware (kleinerer Profit, aber langfristig sicher) oder gar keiner Ware (hoher kurzzeitiger Profit) beliefern kann. Händler mit schlechtem Ruf verschwinden in solchen Szenarien vom Markt, da keiner mit ihnen Geschäfte macht, und sie ihre Fixkosten nicht decken können. Hier führt „tit-for-tat” zu einem Markt mit wenig „Betrug”. Ein bekanntes Beispiel nach diesem Muster ist die Funktionsweise des eBay-Bewertungsschemas: Händler, die trotz erhaltener Bezahlung die vereinbarte Ware nicht liefern, erhalten schlechte Bewertungen und verschwinden so vom Markt.

Beachtenswert ist das Anbieterdilemma, das zu einer Beeinflussung der Preise für angebotene Güter führt. Zwar profitieren Anbieter bei Vorliegen des Dilemmas nicht, jedoch kann sich die Wohlfahrt einer Volkswirtschaft insgesamt erhöhen, da der Nachfrager durch niedrige Preise profitiert. Durch staatlichen Eingriff in Form von Wettbewerbspolitik wird ein Anbieterdilemma häufig künstlich generiert, indem beispielsweise Absprachen zwischen Anbietern untersagt werden. Somit sorgen Institutionen für mehr Wettbewerb, um den Verbraucher zu schützen.

Auch die Versteigerung der UMTS-Lizenzen in Deutschland dient als Beispiel. Es wurden zwölf Frequenzblöcke für UMTS versteigert, die entweder als 2er- oder 3er-Paket erworben werden konnten. Die sieben Bieter, E-Plus-Hutchison, Mannesmann, T-Mobile, Group 3G, debitel, mobilcom und VIAG, nahmen an der Versteigerung im August 2000 teil. Beachtenswert ist auch, dass – wie im theoretischen Original – Absprachen unter den Spielern, also der Mobilfunkanbieter, unterbunden wurden. Nach dem Ausscheiden von debitel nach der 126. Runde am 11. August 2000 waren zwölf Lizenzen für sechs Mobilfunkanbieter vorhanden, also zwei für jeden. Die Summe aller Lizenzen hat zu diesem Zeitpunkt 57,6 Mrd. DM betragen. Durch das Spekulieren der Mobilfunkanbieter auf ein Ausscheiden eines weiteren Anbieters und der Möglichkeit, drei Lizenzen zu erwerben, ging die Bieterschlacht jedoch weiter. In der 173. Runde, am 17. August 2000, gingen je zwei Lizenzen an die sechs verbliebenen Mobilfunkanbieter – ein Ergebnis also, das auch schon in der 127. Runde hätte erreicht werden können. Die Summe, die die Mobilfunkanbieter für alle Lizenzen zahlten, lag nun bei 98,8 Mrd. DM.

Aus der Kriminalistik

Die sogenannte „Omertà” (Schweig oder stirb!) der Mafia versucht das Schweigen (Kooperieren) dadurch sicherzustellen, dass ein Verstoß mit besonders drastischen Sanktionen bedroht wird. Damit wird die Kooperation gefestigt, während gleichzeitig ein einseitiges Geständnis durch extremen Verlust demotiviert wird. Dies wäre eine Internalisierung eines negativen externen Effektes („negativ” in rein spieltheoretischem Sinn). Omertà versucht die Spieler zu gegenseitigem Vertrauen anzuhalten, kann aber das grundsätzliche Dilemma nicht auflösen. Als Gegenmittel kann die Justiz z. B. eine neue Identität und Straffreiheit für Verräter ins Spiel bringen, um das Vertrauen der Komplizen zu untergraben (Kronzeugenregelung). Eine einfache (wenngleich in Deutschland unzulässige vgl. § 136a StPO) Verhörstrategie der Polizei kann darin bestehen, den Verdächtigten zu verunsichern, indem behauptet wird, der Komplize hätte bereits gestanden.

Einfluss auf die Wohlfahrt

Inwiefern das Gefangenendilemma die soziale Wohlfahrt verbessert oder verschlechtert, hängt vom betrachteten Sachverhalt ab. Im Fall eines Kartells oder Oligopols führt das Gefangenendilemma zu einer Verbesserung der Situation. Das „Marktversagen” durch ein verringertes Angebot kann behoben werden. Betrachtet man allerdings die Waffenaufrüstung von Staaten oder die Werbeausgaben von Firmen, dann führt das Gefangenendilemma zu einer schlechteren Wohlfahrt, da lediglich Kosten geschaffen werden, die zu keinem neuen Nutzen führen.

Karl Homann geht in seiner Konzeption einer Wirtschaftsethik davon aus, dass es Aufgabe der Staaten bzw. des Gesetzgebers sei, in der Gestaltung der Rahmenordnung darauf hinzuwirken, dass erwünschte Dilemmasituationen aufrechterhalten werden und dass unerwünschte Dilemmasituationen durch die Schaffung bzw. Veränderung von Institutionen überwunden werden. So können beispielsweise gesetzliche Mindeststandards bei der Sicherung von Konsumentenrechten (z.B. AGB-Gesetz) ein Misstrauen dem Verkäufer gegenüber (unerwünschte Dilemmasituation) ausräumen und so zu mehr Handel führen; gleichzeitig ist die Konkurrenz zwischen den jeweiligen Verkäufern und den jeweiligen Käufern als erwünschte Dilemmasituation aufrechtzuerhalten.

Beschreibung der Verhaltensoptionen

Ob die beiden Möglichkeiten sich zu verhalten sinnvollerweise als Vertrauen/Verrat, Kooperation/Verweigerung oder Altruismus/Egoismus beschrieben werden, hängt unter anderem von der genauen Form der Auszahlungsmatrix ab. Ersetzt man im Vergleich zu obiger Matrix -2 durch 2, 0 durch 3, -5 durch 0 und -4 durch 1, liegt beispielsweise eine Altruismus/Egoismus Interpretation näher: Beide Spieler beginnen mit einem Gut. Ein Spieler kann auf sein Gut verzichten (Altruismus). Der Mitspieler erhielte dafür zwei (!) Güter. Behält er sein Gut (Egoismus), erfolgt keine Bestrafung oder ähnliches. Er kann das Spiel bei einem altruistischen Mitspieler mit drei Gütern abschließen, ansonsten behält er sein eines Gut.

Siehe auch

Literatur

  • Anatol Rapoport, Albert M. Chammah: Prisoner's dilemma: a study in conflict and cooperation. University of Michigan Press, 1965
  • Robert Axelrod: Die Evolution der Kooperation. Oldenbourg Verlag, 2000, ISBN 3-48-653995-7
  • Eggebrecht, Winfried; Manhart, Klaus: Fatale Logik: Egoismus oder Kooperation in der Computersimulation, c't 6/1991

Referenzen

<references/>

Weblinks

Vorlage:Lesenswert

ar:معضلة السجينين bg:Дилема на затворника ca:Dilema del presoner cs:Vězňovo dilema en:Prisoner's dilemma eo:Prizonula Dilemo es:Dilema del prisionero fi:Vangin dilemma fr:Dilemme du prisonnier he:דילמת האסיר hu:Fogolydilemma io:Karcerano-dilemo it:Dilemma del prigioniero ja:囚人のジレンマ ko:죄수의 딜레마 lt:Kalinio dilema nl:Prisoner's dilemma pl:Dylemat więźnia pt:Dilema do prisioneiro ro:Dilema prizonierului ru:Дилемма заключённого sl:Zapornikova dilema sv:Fångarnas dilemma uk:Дилема в'язня vi:Song đề tù nhân zh:囚徒困境

Persönliche Werkzeuge