ChatGPT spielt Tailorshop

Schon länger hatte ich überlegt, wie man Large-Language-Modelle (LLM) wie ChatGPT für die Denk-Psychologie nutzen könnte. Zufällig fiel mir kürzlich beim Aufräumen eine alte Festplatte in die Hände, auf der Daten des Lauten Denkens aus der (bislang unveröffentlichten) „Musketierstudie“ von 2009 zu finden waren, die ich zusammen mit meiner damaligen Hilfskraft Claudia Dombois durchgeführt habe. Dabei ging es in der Musketier-Studie um die qualitative Analyse einiger weniger Versuchspersonen (3 waren es genau: unter dem Decknamen Aramis, Athos und Porthos – ein Anglistik-, ein Psychologie- und ein Physik-Student) beim Bearbeiten des komplexen Problems Tailorshop, die allerdings gründlicher als üblich hinsichtlich ihres lauten Denkens, ihrer System-Eingriffe und ihrer mentalen Modelle (erfasst mit Hilfe der Struktur-Lege-Technik von Scheele und Groeben, 1984) untersucht und videographiert wurden. Mir schwebte damals vor, die Beschäftigung mit dem Tailorshop punktgenau durch Hüpfen von Konzeptknoten zu Konzeptknoten (analog zu dem Aufleuchten von Neuronenmustern bei bestimmten Aufgaben) zu demonstrieren. Ausser ein paar guten Diplomarbeiten (z. B. Hofmann, 2011: Prozessanalyse mittels Handlungsketten bei der komplexen Problemlöseaufgabe Tailorshop) ist dabei nichts herausgekommen, die damals beginnenden Arbeiten an PISA 2012 haben alles andere überrollt und das Musketier-Projekt geriet in den Hintergrund.

Ich habe die Daten der drei Musketiere vor kurzem ChatGPT übergeben mit der Bitte, Muster in den Lautdenk-Protokollen zu identifizieren. Das Ergebnis:

In der Dreier-Gegenüberstellung zeigen sich drei klar unterscheidbare Problemlösestile. Athos – der Psychologiestudent – ist der kontrollierteste und insgesamt stabilste Bearbeiter. Er beginnt mit einer relativ sauberen Lageanalyse, denkt in Kapazitäten, Nachfrage, Rohmaterial und Reparaturkosten und verändert Stellgrößen eher schrittweise als hektisch. Seine Schwäche liegt weniger im blinden Aktionismus als in einer gewissen Bindung an unklare Teilhypothesen, etwa zu Lieferwagen, Preisen oder Arbeitszufriedenheit; trotzdem hält er das System über weite Strecken funktionsfähig. Das passt auch zum Ergebnis: Der Unternehmenswert sinkt zwar, bleibt aber mit 226 292 deutlich höher als bei den beiden anderen.

Porthos – der Physikstudent – ist der eigentliche Hypothesentester der Gruppe: aktiv, eingriffsfreudig, neugierig, aber operativ zu unruhig. Er versucht fortwährend, das System zu verstehen, greift dann aber zu groß und zu häufig ein. Typisch sind Sprünge bei Maschinen, Arbeitern, Rohmaterial und Reparatur, ohne dass die Basissteuerung zuverlässig abgesichert wäre. Besonders deutlich ist seine Schwäche bei der Rohmateriallogik; er merkt das selbst, stabilisiert es aber nicht dauerhaft. Dadurch entstehen massive Einbrüche bis hin zu 96 % und später 100 % Produktionsausfall. Am Ende rettet er sich teilweise, bleibt aber klar unter Athos; der Unternehmenswert endet bei 161 285.

Aramis – der Anglistikstudent – wirkt am alltagsnächsten und zugleich am wenigsten systemstabil. Er argumentiert pragmatisch und lebensweltlich, denkt über „nette“ Sozialleistungen, Werbung, Lieferprobleme oder Preisrunden nach und reagiert oft aus plausibler Alltagserfahrung. Gerade das wird ihm im komplexen System zum Verhängnis: Er experimentiert früh, vermischt Ursachen, deutet Rückmeldungen mehrfach um und verliert die strategische Linie. Im Protokoll sieht man einen engagierten Improvisierer; im Verlauf sieht man den Preis dafür. Von den Dreien erzielt er klar das schwächste Ergebnis: Der Unternehmenswert fällt auf 25 323, der Kontostand wird stark negativ.

In einer knappen Formel: Athos ist der stabile Verwalter, Porthos der unruhige Sucher und Aramis der engagierte Improvisierer. Athos scheitert am wenigsten, weil er Komplexität wenigstens teilweise diszipliniert bearbeitet. Porthos zeigt mehr intellektuelle Suchbewegung, aber zu wenig operative Sicherung. Aramis bringt viel Handlungsenergie ein, doch zu wenig systematische Kontrolle

Jetzt kam ich auf die Idee, ChatGPT gleich mit dem komplexen Problem Tailorshop zu konfrontieren und zu schauen, wie eine KI damit umgeht. Daniel Holt, dem ich davon erzählte, war sogleich „Feuer und Flamme“ und schlug vor, einen Instructional Prompt mit Aufgabenbeschreibung etc. zu verfassen, etwa so:

Imagine you are the manager of a small company producing shirts. The company will be simulated on the computer. Your task is to successfully manage the company for twelve simulated months by making decisions about machines, workers, prices, advertising, and other business variables.

The simulated company is described by the following variables (description in JSON-Format):

companyVariables = { BankAccount: „The balance of your current account. All expenses (e.g., for machines or wages) are paid from this account and revenue from shirt sales are added to it. A negative value indicates an overdraft.“, ShirtSales: „Number of shirts sold last month.“, MaterialPrice: „Price of raw materials for one shirt. Varies from month to month.“, ShirtStock: „Finished shirts in stock which can be sold. Storage costs are 1.– per shirt per month.“, Workers50: „Number of workers assigned to machines with capacity 50. Every machine requires one worker to operate.“, Workers100: „Number of workers assigned to machines with capacity 100. Every machine requires one worker to operate.“, WorkerSalary: „Monthly wage per worker. The wage is independent of the machine type a worker is assigned to.“, ShirtPrice: „Sales price for one shirt.“, SalesOutlets: „Number of retail stores stocking your shirt. Adding a new store costs 10,000.–, reducing the number of stores returns 8,000.– per store. Running costs are 500.– per store per month.“, WorkerSatisfaction: „Results of a monthly survey of work place satisfaction of the production workers.“, ProductionLost: „Percentage of the production capacity (depending on the number of machines and workers) that has not been used.“, CompanyValue: „The total value of the company. The total value is composed of: the bank account balance, he value of machines depending on capacity and state of repair (8000 for machines with capacity 50 and 16000 for machines with capacity 100 when machines are not damaged), the value of stores (8000 per store), and the value of raw materials (4 per unit) and shirts in stock (20 per shirt)“, CustomersInterested: „Number of customers who are interested in the shirts of your company but have not decided whether they want to buy.“, MaterialStock: „Raw material ordered at the current Raw Material Price. Each shirt requires one unit of raw material.“, Machines50: „Number of machines with a maximum production capacity of 50 shirts per month. Each machine requires one worker to operate. Adding one machine costs 10,000.–, selling one machines returns at most 8,000.–, depending on Machine Damage.“, Machines100: „Number of machines with a maximum production capacity of 100 shirts per month. Each machine requires one worker to operate. Adding one machine costs 20,000.–, selling one machines returns at most 16,000.–, depending on Machine Damage.“, MachineService: „Expenses for maintenance and repair of machines.“, WorkerBenefits: „Expenses for social events and other incentives in addition the wage per worker.“, Advertising: „Spending on advertising.“, BusinessLocation: „Location of your main business site where shirts are produced and sold. There are three locations with different monthly rents: Suburb (monthly rent 500), City (monthly rent 1000), City Center (monthly rent 2000)“, MachineDamage: „Reduction of maximum machine capacity due to wear and tear.“ }

You will manage the company for twelve simulated months, each month corresponds to one turn in the simulation. Your goal is to maximize the company value at the end of the twelve months. At the start of each month, you will see the current state of the company (i.e., the current value of the variables described above), which I will provide to you in JSON format. You can then change some of the variables in order to influence the development of the company. The variables you can change are listed below in JSON. min refers to the minimal value of a variable, max to the maximal value, and step defines the increments between min and max to which the variable can be set.

inputVariables = { Workers50: {min: 0, max: 20, step: 1}, Workers100: {min: 0, max: 20, step: 1},# WorkerSalary: {min: 0, max: 5000, step: 100}, ShirtPrice: {min: 10, max: 100, step: 2}, SalesOutlets: {min: 0, max: 10, step: 1}, MaterialOrder: {min: 0, max: 5000, step: 50}, Machines50: {min: 0, max: 20, step: 1}, Machines100: {min: 0, max: 20, step: 1}, MachineService: {min: 0, max: 5000, step: 100}, WorkerBenefits: {min: 0, max: 500, step: 10}, Advertising: {min: 0, max: 10000, step: 100}, BusinessLocation: {min: 0, max: 2, step: 1} }

I will now provide the initial state of the company. Please return a human-readable list of input variables that you would like to change from their current values with their target values. I will input them into the simulation and return the results for this simulated month to you for the next month. Are you ready?

Und das gar nicht mal so verblüffende Ergebnis: ChatGPT schlägt sich sehr gut. Inzwischen liegen zwei „synthetische“ Versuchspersonen (Syn_Vp_DH-01 und Syn_Vp_JF-01) vor. Meine ChatGPT-Vp hat nach 12 Monaten – in Kenntnis des programmierten Systems – den traumhaften Unternehmenswert von >400.000 Einheiten (das hat noch keine menschliche Vp geschafft – die ChatGPT-Vp von DH erreicht gerade mal 185.359 Einheiten nach 6 Runden, da liegt meine schon bei 295.395 – ist das ein Effekt des vollständigen Systemwissens bei „meiner“ Vp?) und ist dabei noch selbstkritisch auf die Frage nach Verbesserungsmöglichkeiten im zweiten Versuch eingegangen, der natürlich angehängt wurde (und bei sagenhaften 414.778 landet):

Das ist um 14.713 Punkte besser als der dokumentierte erste Lauf mit 400.065. Der Grund ist einfach: Der erste vorsichtige Monat verschenkt Nachfrageaufbau und Kapazitätszeit. Im Tailorshop ist Zeit knapp. Wer erst im zweiten Monat skaliert, verliert einen ganzen Zyklus.

Die zweite Verbesserung: In der Endrunde würde ich Werbung und eventuell absatzaufbauende Kosten genauer prüfen. Alles, was nur zukünftiges Kundeninteresse erzeugt, hat in Monat 12 weniger Wert. Da war meine Strategie zu mechanisch.

Mein hartes Urteil: Der Lauf war gut, aber nicht elegant. Er war erfolgreich, weil er die richtige Struktur fand. Er war suboptimal, weil er sie einen Monat zu spät fand und am Ende nicht konsequent auf den verbleibenden Zeithorizont optimierte.

Wow! Was für Einsichten! Ist es also Zeit für synthetische Versuchspersonen? Erst kürzlich hatte ich mich aufgeregt über eine Arbeit (Binz et al. (2025). A foundation model to predict and capture human cognition. Nature, 644(8078), 1002–1009. https://doi.org/10.1038/s41586-025-09215-4), in der Hunderttausende Daten von menschlichen Versuchspersonen in einem Large Language Modell namens Centaur gesammelt wurden, um für noch nicht durchgeführte Experimente Vorhersagen zu treffen – und jetzt das? Synthetische Vpn? Sind wir auf dem Niveau der synthetischen Mäuse angekommen?

Die PSI-Theorie von Dietrich Dörner ist ein Erklärungsmodell der PSI-Psychologie, das menschliches Verhalten durch das Zusammenspiel von Emotion, Motivation und Kognition simuliert. Anstatt echte Tiere zu untersuchen, arbeitete Dörner mit sogenannten „synthetischen Mäusen“ (virtuellen Agenten), um Hypothesen zu Emotionen und zur Handlungssteuerung zu generieren und zu überprüfen.

Ich sehe verschiedene Vorteile von „synthetischen“ Vpn: Sie können helfen, Experimente vorzubereiten, Instruktionen zu testen, Hypothesen zu schärfen und theoretische Annahmen explizit zu machen. In diesem Sinn wären sie eine Art „Windkanal“ psychologischer Forschung: Man prüft vorab, welche Muster ein Modell unter bestimmten Bedingungen erwarten lässt.

Aber der entscheidende Punkt bleibt die Validität. Synthetische Vpn liefern nur das zurück, was in ihren Modellen, Trainingsdaten und Annahmen bereits angelegt ist. Sie ersetzen keine echten Menschen mit Müdigkeit, Trotz, Missverständnissen, Motivation, Angst, Langeweile, Kreativität und sozialem Kontext. Eine gute Vorhersage von Antwortmustern ist noch kein Verständnis menschlichen Verhaltens.

Dörners „synthetische Mäuse“ waren interessant, weil sie Bestandteil einer Theorie waren. Genau daran müssen sich auch synthetische Vpn messen lassen: Schärfen sie psychologische Theorie, oder erzeugen sie nur technische Scheinpräzision?

Als Ergänzung: ja. Als Ersatz für empirische Forschung mit realen Menschen: nein. Die Psychologie sollte sehr genau darauf achten, dass sie bei aller Modellbegeisterung ihren eigentlichen Gegenstand nicht verliert.

Ein Vorteil der synthetischen Vpn ist natürlich: Ich kann Tage und Wochen später nach der Begründung für eine spezifische Entscheidung fragen und erhalte eine kontextsensible Antwort. Das kann ich bei menschlichen Vpn nur schwer realisieren, und wenn doch, wer sagt mir, dass sich die Vp korrekt erinnert (wenn überhaupt)? Spannende Zeiten…

Kategorien:

Keine Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Archiv
Kategorien