Alice-System lernt Spielregeln aus Interaktion allein, ohne Labels
Ein KI-Agent hat gerade gelernt, ausführbare Weltmodelle eines absichtlich falsch beschrifteten Puzzlespiels zu konstruieren — ohne Regelbeschreibungen, Belohnungen oder vertrauenswürdige Sprache zum Anlehnen. Das ist kein Benchmark-Trick; es ist ein direkter Angriff auf die grundlegende Fragilität von LLM-basierter Planung.
Erklaerung
Die meisten KI-Planungssysteme schummeln ein wenig: Sie verlassen sich auf die Namen von Dingen, um zu erraten, wie sich diese Dinge verhalten. Nennt man eine Wand „Wand", und das Modell weiß bereits zur Hälfte, dass sie Bewegung blockiert. Entfernt man das — benennt man jede Regel und Eigenschaft mit zufälligen, unverwandten Wörtern um — und die meisten Systeme brechen zusammen.
Genau diese Falle wird durch „Baba in Wonderland" gestellt, eine modifizierte Version des Puzzlespiels Baba Is You, bei der die Simulatorlogik erhalten bleibt, aber alle aussagekräftigen Labels durch Unsinn ersetzt werden. Es ist ein sauberer Test dafür, ob ein System tatsächlich Dynamiken lernt oder nur Muster in Vokabular erkennt.
Alice, das in diesem Paper vorgestellte System, ist so konstruiert, dass es diese Falle übersteht. Es funktioniert in einer geschlossenen Schleife: einen Kandidaten-Regelupdate vorschlagen, ihn gegen vergangene und neue Übergänge testen, und jeden Widerspruch nicht als Fehler, sondern als Information behandeln. Wenn eine neue Regel einen frischen Übergang erklärt, aber einen alten bricht, liest Alice diesen Konflikt als Beweis dafür, dass zwei unterschiedliche Dynamiken zusammengefasst wurden. Sie teilt sie dann in separate Hypotheseklassen auf und lenkt zukünftige Exploration auf Übergänge, die im aktuellen Modell unterrepräsentiert sind.
Das Ergebnis ist ein Agent, der sein internes Programm der Welt durch Interaktionsevidenz allein schrittweise verfeinert — kein Belohnungssignal, keine Regelbeschreibungen, keine semantischen Abkürzungen.
Experimente auf Baba in Wonderland zeigen, dass Alice Baselines bei der Wiederherstellung korrekter ausführbarer Weltmodelle unter vorheriger Fehlausrichtung erheblich übertrifft. Ablationen bestätigen, dass sowohl die konfliktbasierte Klassenverfeinerung als auch die klassengesteuerte Explorationsstrategie tragend sind — keine allein reicht aus.
Warum jetzt darauf achten? Ausführbare Weltmodelle — Programme, die ein Agent ausführen, inspizieren und für die Planung nutzen kann — werden zunehmend als fehlende Schicht zwischen rohem LLM-Reasoning und zuverlässigem autonomem Verhalten angesehen. Alices Ansatz deutet darauf hin, dass der Weg zu robusten Modellen durch strukturierte Widersprüche führt, nicht durch bessere Priors. Beobachten Sie, ob dies über Grid-World-Puzzles hinaus auf Umgebungen mit kontinuierlichen oder stochastischen Dynamiken übertragen wird.
Das Kernproblem, das Alice adressiert, ist Prior-Fehlausrichtung bei Online-Weltmodell-Induktion: Die lexikalischen Priors des Agenten (z. B. was ein Token namens „push" impliziert) sind aktiv irreführend, daher wird jedes System, das Dynamiken aus Oberflächensemantik bootstrapped, systematisch falsche Überganggesetze induzieren. Baba in Wonderland operationalisiert dies, indem es den vollständigen Baba Is You-Simulator erhält, während es Rule-Property-Labels permutiert — eine chirurgische Intervention, die semantisches Lecken von echtem Dynamik-Lernen isoliert.
Alices Mechanismus ist eine geschlossene Hypothesen-Verfeinerungsmaschine. Die Schlüsseleinsicht ist, Preservation-Konflikte — Fälle, in denen ein Kandidaten-Update einen neuen Übergang erklärt, aber zuvor erklärte invalidiert — als strukturelles Signal statt Rauschen zu behandeln. Dies ist eine Form von Online-Diskriminierung: Konflikte offenbaren, dass das aktuelle Programm zwei oder mehr unterschiedliche zustandsabhängige Dynamiken unter einer einzigen Regel vermischt hat. Alice reagiert, indem sie die vermischte Klasse in feinere Hypotheseklassen aufteilt, jede gepaart mit kompakten, klassengestratifizierten Gegenbeispielen, die zukünftige Update-Kandidaten einschränken.
Die Explorationseite ist gleichermaßen absichtsvoll. Statt gleichmäßiger oder neugier-getriebener Frontier-Sampling bevorzugt Alice Übergänge, die neuartig und unterrepräsentiert relativ zur Abdeckung des aktuellen Programms sind — eine gezielte Strategie, um die Evidenz zu finden, die am ehesten verbleibende Mehrdeutigkeiten auflöst. Dies erinnert an Active Learning's Version-Space-Reduktion, online angewendet ohne einen festen Hypothesenraum.
Die Evaluierung erfolgt auf einer einzelnen Domäne (Baba in Wonderland), was sowohl eine Stärke (saubere Ground Truth, reproduzierbar) als auch eine Limitation (Grid-World, diskret, deterministisch) ist. Die Ablationsstruktur ist glaubwürdig: Das Entfernen von Klassenverfeinerung und klassengesteuerte Exploration unabhängig verschlechtert die Leistung, was die Aussage unterstützt, dass beide Komponenten notwendig sind.
Offene Fragen, die das Paper auf dem Tisch lässt: Wie skaliert Alice, wenn der Hypothesenraum groß ist oder die Dynamiken stochastisch sind? Bleibt der Konflikt-Erkennungsmechanismus nachvollziehbar, wenn die Programm-Komplexität wächst? Und kritisch — bedeutet „erheblich verbessert" vollständige Regelwiederherstellung oder nur bessere Teilabdeckung? Die Zusammenfassung quantifiziert die Lücke nicht, was für die Bewertung, wie nah dies an einem einsetzbaren Planungs-Substrat ist, wichtig ist.
Der zu beobachtende Falsifizierer: Wenn Alices Gewinne auf Domänen mit kontinuierlichen Zustandsräumen oder verrauschten Übergängen verschwinden, könnte der Ansatz grundlegend an die saubere diskrete Struktur von regelbasierten Puzzlespielen gebunden sein.
Reality Meter
Warum dieser Score?
Trust Layer Score-Basis
Detaillierte Evidenz-Aufschluesselung folgt. Bis dahin: die Score-Basis ergibt sich aus den unten verlinkten Quellen und dem Reality-Meter weiter oben.
- 1 Quelle hinterlegt
- Trust 90/100 im Schnitt
- Trust 90/100
Zeithorizont
Community-Einschaetzung
Glossar
- Prior-Fehlausrichtung
- Eine Situation, in der die vortrainierten Annahmen eines KI-Systems (z.B. die Bedeutung von Wörtern) nicht mit der tatsächlichen Funktionsweise der Umgebung übereinstimmen und daher zu systematischen Fehlern beim Lernen führen.
- Weltmodell-Induktion
- Der Prozess, bei dem ein KI-System aus Beobachtungen ein internes Modell der Regeln und Gesetzmäßigkeiten einer Umgebung aufbaut, um deren Verhalten vorherzusagen.
- Preservation-Konflikte
- Situationen, in denen eine neue Regel einen neuen Übergang erklären kann, aber gleichzeitig zuvor korrekt erklärte Übergänge ungültig macht – ein Signal dafür, dass das aktuelle Modell zu grob ist.
- Version-Space-Reduktion
- Eine Lernstrategie, bei der durch gezielt gewählte Beispiele die Menge möglicher korrekter Hypothesen schrittweise verkleinert wird, bis die richtige Lösung gefunden ist.
- Hypothesenraum
- Die Gesamtheit aller möglichen Regeln oder Modelle, die ein Lernalgorithmus in Betracht zieht, um die beobachteten Daten zu erklären.
- stochastisch
- Prozesse oder Systeme, die Zufälligkeit enthalten und nicht vollständig vorhersehbar sind, im Gegensatz zu deterministischen Systemen mit festen Regeln.
Wie siehst du das?
Deine Einschaetzung gewichtet kuenftige Themen.
Deine Stimme fliesst in Topic-Weights, Community-Kompass und kuenftige Priorisierung ein. Community-Kompass ansehen
Quellen
Optional Vorhersage abgeben Optional: Wenn du willst, gib deine Vorhersage zur Kernfrage ab.
Prediction
Wird Alice oder ein direkter Nachfolger Lernen von ausführbaren Weltmodellen durch konfliktbasierte Verfeinerung in einer kontinuierlichen oder stochastischen Umgebung innerhalb von 18 Monaten demonstrieren?