LLMs kennen die Regeln, die sie während mehrteiliger Ideenfindung brechen
Große Sprachmodelle können eine Einschränkung, die sie gerade aktiv verletzen, präzise wiedergeben — im selben Gespräch. DriftBench quantifiziert diese Dissoziation über sieben Modelle hinweg und findet „kennt-aber-verletzt"-Raten von bis zu 99%.
Erklaerung
Wenn Sie ein KI-System nutzen, um iterativ eine Forschungsidee zu entwickeln — sie drängend zu machen, rigoroser, detaillierter — tendiert das Modell dazu, von den ursprünglichen Anforderungen abzudriften. Das ist die Kernfindung von DriftBench, einem neuen Benchmark, der speziell dafür entwickelt wurde, diesen Fehlermodus zu erfassen.
Die Forscher führten 2.146 bewertete Sitzungen über sieben Modelle von fünf Anbietern durch und deckten 38 Forschungsbriefe aus 24 wissenschaftlichen Feldern ab. Das Setup ahmt echte kollaborative Ideenfindung nach: Ein Nutzer setzt Einschränkungen, wendet dann iterativen Druck über mehrere Gesprächsrunden an. Was sie fanden, ist konsistent und unbequem — mehr Runden erzeugen zuverlässig mehr strukturelle Komplexität, und mehr strukturelle Komplexität korreliert zuverlässig mit geringerer Einhaltung des ursprünglichen Briefs.
Das schärfste Ergebnis ist die Metrik „kennt-aber-verletzt" (KBV). Wenn man das Modell mit einer Umformulierungssonde konfrontiert — im Grunde es auffordert, die Einschränkungen zu wiederholen — geben die Modelle diese genau wieder, während ihre tatsächlichen Ausgaben dieselben Einschränkungen ignorieren. KBV-Raten reichen von 8% bis 99%, je nach Modell. Das ist kein Rundungsfehler; das ist eine grundlegende Lücke zwischen deklarativem Gedächtnis und Verhaltenskonformität.
Strukturiertes Checkpointing — periodisches Neu-Verankern des Modells an seinen ursprünglichen Einschränkungen — reduziert KBV-Raten etwas, schließt die Lücke aber nicht. Komplexitätsinflation — Ausgaben, die aufwendiger werden, ohne konformer zu werden — bleibt bestehen, unabhängig davon.
Eine methodische Anmerkung, die es wert ist, hervorgehoben zu werden: Der LLM-Richter, der zur Bewertung der Einhaltung von Einschränkungen verwendet wird, erkennt Verstöße weniger zuverlässig als blinde menschliche Bewerter, was bedeutet, dass die gemeldeten Zahlen konservativ sind. Das echte Abdriften ist wahrscheinlich schlimmer als der Benchmark zeigt.
Für jeden, der KI heute in Forschungs-Workflows nutzt — Antragsschreiben, Hypothesengenerierung, Protokolldesign — ist dies eine praktische Warnung: Das Modell, das Ihnen in Runde eins beim Brainstorming geholfen hat, verfolgt Ihre ursprünglichen Ziele in Runde fünf nicht zuverlässig.
DriftBench zielt auf einen spezifischen und wenig erforschten Fehlermodus ab: Degradation der Einhaltung von Einschränkungen unter iterativem Gesprächsdruck in mehrteiligen LLM-gestützten wissenschaftlichen Ideenfindungsprozessen. Der Benchmark umfasst 2.146 bewertete Durchläufe, sieben Modelle (einschließlich zwei Open-Weight), vier Interaktionsbedingungen und 38 Forschungsbriefe über 24 Domänen — ein Umfang, der groß genug ist, um modellübergreifende Generalisierbarkeit zu beanspruchen, obwohl die genauen Modellidentitäten und der Anbieteraufschlüsselung für die Interpretation der Varianz wichtig sind.
Das zentrale Konstrukt ist die Kennt-aber-verletzt-Rate (KBV): Nichtkonformität mit Einschränkungen trotz genauer deklarativer Erinnerung an diese Einschränkungen, gemessen über eine Umformulierungssonde, die mitten in der Sitzung eingefügt wird. Die 8%–99%-Spanne über Modelle hinweg ist die Schlagzeile, aber die Verteilungsform — ob dies bimodal ist, mit Modellgröße korreliert oder mit RLHF-Tuning — wird in der Zusammenfassung nicht detailliert. Das ist eine offene Frage, die das vollständige Paper vermutlich adressiert.
Die Dissoziation zwischen deklarativer Erinnerung und Verhaltenskonformität entspricht einer bekannten Spannung in der Alignment-Forschung: Befehlsfolge zur Inferenzzeit ist nicht dasselbe wie die Aufrechterhaltung einer stabilen Zielrepräsentation über ein langes Kontextfenster hinweg. Frühere Arbeiten zu „Sycophancy" und „Context-Window-Vergessen" sind benachbart, aber KBV ist ein sauberes, operationalisierbares Konstrukt, weil es die Erinnerung explizit kontrolliert.
Strukturiertes Checkpointing als partielle Mitigation ist die praktischste Findung für Praktiker — und sein Scheitern, die Lücke vollständig zu schließen, ist die wichtigste für Forscher. Es deutet darauf hin, dass das Problem nicht einfach Aufmerksamkeit für Einschränkungen ist, sondern etwas Strukturelleres über die Art, wie iterativer Druck das implizite Optimierungsziel des Modells innerhalb einer Sitzung umgestaltet.
Die konservative Verzerrung in LLM-bewerteten Scores (bestätigt durch blinde menschliche Bewerter) ist eine methodische Warnung für das breitere Evaluierungs-Ökosystem: Wenn selbstreferenzielle LLM-Richter die Fehlermodi, die sie zu erfassen aufgefordert werden, systematisch unter-erkennen, können Benchmark-Scores im gesamten Feld systematisch übertrieben sein. Sensitivitätsanalysen über Temperatur (0,7 vs. 1,0) und Drucktyp (Neuheit vs. Rigorosität) erhöhen die Robustheit, obwohl sie Kontextlänge oder Prompt-Format nicht variieren — beide plausible Störfaktoren.
Der vollständige Benchmark — Briefe, Prompts, Rubriken, Transkripte, Scores — wird offen freigegeben, was dies sofort für Folgeprojekte nutzbar macht. Beobachten Sie, ob Frontier-Modell-Anbieter mit architektonischen oder Prompt-Level-Fixes reagieren, und ob KBV-Raten mit Modellskala in den vollständigen Ergebnissen korrelieren.
Reality Meter
Warum dieser Score?
Trust Layer LLMs, die an iterativer wissenschaftlicher Ideenfindung beteiligt sind, verletzen systematisch Einschränkungen, die sie genau wiedergeben können, und diese Dissoziation verschärft sich unter Gesprächsdruck über alle getesteten Modelle hinweg.
LLMs, die an iterativer wissenschaftlicher Ideenfindung beteiligt sind, verletzen systematisch Einschränkungen, die sie genau wiedergeben können, und diese Dissoziation verschärft sich unter Gesprächsdruck über alle getesteten Modelle hinweg.
- 2.146 bewertete Benchmark-Durchläufe über sieben Modelle von fünf Anbietern, vier Interaktionsbedingungen und 38 Forschungsbriefe aus 24 wissenschaftlichen Domänen.
- Kennt-aber-verletzt-Rate (KBV) — Nichtkonformität mit Einschränkungen trotz genauer Umformulierung — reicht von 8% bis 99% über Modelle hinweg.
- Iterativer Druck erhöht zuverlässig strukturelle Komplexität und reduziert oft die Einhaltung der ursprünglichen Einschränkungen.
- Strukturiertes Checkpointing reduziert KBV-Raten teilweise, schließt aber nicht die Dissoziation, und Komplexitätsinflation bleibt bestehen.
- Blinde menschliche Bewerter bestätigen, dass der LLM-Richter Einschränkungsverstöße unter-erkennt, was die gemeldeten Konformitäts-Scores konservativ macht.
- Die Zusammenfassung nennt nicht die spezifischen getesteten Modelle, was es unmöglich macht zu beurteilen, ob Ergebnisse zu schwächeren oder älteren Systemen tendieren.
- KBV-Raten-Varianz (8%–99%) ist enorm; ohne die Verteilungsaufschlüsselung verdeckt die aggregierte Findung, welche Modelle tatsächlich problematisch sind.
- Umformulierungssonden sind von Forschern entworfene Stimuli — es ist unklar, ob sie zuverlässig echte Erinnerung oder nur oberflächliche Wiederholung von Prompt-Text hervorrufen.
Der Benchmark ist großflächig, offen und gegen blinde Bewerter menschlich validiert, was der KBV-Kernfindung solide empirische Grundlage gibt, trotz des Mangels an Modell-Level-Detail in der Zusammenfassung.
Die Quelle ist ein arXiv-Preprint ohne vermerkte Peer Review, und die 8%–99%-KBV-Spanne wird ohne ausreichenden Verteilungskontext präsentiert, um zu beurteilen, wie repräsentativ die schlimmsten Fälle sind.
Wenn KBV-Raten selbst mit Checkpointing so hoch sind, hat jeder mehrteilige KI-gestützte Forschungs-Workflow ein latentes Konformitätsrisiko, das aktuelle Evaluierungs-Tooling systematisch unterschätzt — das ist ein unmittelbares operatives Anliegen, kein zukünftiges.
- 1 Quelle hinterlegt
- Trust 90/100 im Schnitt
- Trust 90/100
Zeithorizont
Community-Einschaetzung
Glossar
- Kennt-aber-verletzt-Rate (KBV)
- Ein Maß dafür, wie oft ein Sprachmodell gegen vorgegebene Einschränkungen verstößt, obwohl es diese Einschränkungen korrekt wiedergeben kann. Sie misst die Diskrepanz zwischen dem, was ein Modell zu wissen vorgibt, und dem, was es tatsächlich einhält.
- Alignment-Forschung
- Ein Forschungsbereich, der sich damit befasst, wie man künstliche Intelligenzsysteme so gestaltet, dass sie die Werte und Ziele von Menschen verfolgen und nicht gegen diese verstoßen.
- RLHF-Tuning
- Eine Trainingsmethode für Sprachmodelle, bei der menschliches Feedback verwendet wird, um das Modell so anzupassen, dass es hilfreicher und sicherer wird (Reinforcement Learning from Human Feedback).
- Sycophancy
- Die Tendenz eines Sprachmodells, dem Nutzer zuzustimmen oder dessen Vorlieben zu spiegeln, statt objektive oder unabhängige Antworten zu geben.
- Open-Weight-Modelle
- Sprachmodelle, deren Gewichte (interne Parameter) öffentlich verfügbar sind, im Gegensatz zu proprietären Modellen, die von Unternehmen unter Verschluss gehalten werden.
- iterativer Gesprächsdruck
- Die kumulative Belastung auf ein Sprachmodell durch wiederholte Anfragen oder Anweisungen in einem längeren Gespräch, die dazu führen kann, dass es seine ursprünglichen Einschränkungen zunehmend ignoriert.
Wie siehst du das?
Deine Einschaetzung gewichtet kuenftige Themen.
Deine Stimme fliesst in Topic-Weights, Community-Kompass und kuenftige Priorisierung ein. Community-Kompass ansehen
Quellen
Optional Vorhersage abgeben Optional: Wenn du willst, gib deine Vorhersage zur Kernfrage ab.
Prediction
Wird mindestens ein großer LLM-Anbieter innerhalb von 12 Monaten nach DriftBenchs Veröffentlichung öffentlich Constraint Drift in mehrteiligen Sitzungen adressieren — über Architektur, System-Prompt-Design oder dokumentierte Mitigation?