Kuenstliche Intelligenz / discovery / 3 MIN LESEN

LLMs kennen die Regeln, die sie während mehrteiliger Ideenfindung brechen

Große Sprachmodelle können eine Einschränkung, die sie gerade aktiv verletzen, präzise wiedergeben — im selben Gespräch. DriftBench quantifiziert diese Dissoziation über sieben Modelle hinweg und findet „kennt-aber-verletzt"-Raten von bis zu 99%.

AKTUALISIERT 2026-05-09 / ZEITHORIZONT · mid term / ID · 5C48CA6A

Reality 72 /100

Hype 45 /100

Impact 65 /100

Die Story

Wenn Sie ein KI-System nutzen, um iterativ eine Forschungsidee zu entwickeln — sie drängend zu machen, rigoroser, detaillierter — tendiert das Modell dazu, von den ursprünglichen Anforderungen abzudriften. Das ist die Kernfindung von DriftBench, einem neuen Benchmark, der speziell dafür entwickelt wurde, diesen Fehlermodus zu erfassen.

Die Forscher führten 2.146 bewertete Sitzungen über sieben Modelle von fünf Anbietern durch und deckten 38 Forschungsbriefe aus 24 wissenschaftlichen Feldern ab. Das Setup ahmt echte kollaborative Ideenfindung nach: Ein Nutzer setzt Einschränkungen, wendet dann iterativen Druck über mehrere Gesprächsrunden an. Was sie fanden, ist konsistent und unbequem — mehr Runden erzeugen zuverlässig mehr strukturelle Komplexität, und mehr strukturelle Komplexität korreliert zuverlässig mit geringerer Einhaltung des ursprünglichen Briefs.

Das schärfste Ergebnis ist die Metrik „kennt-aber-verletzt" (KBV). Wenn man das Modell mit einer Umformulierungssonde konfrontiert — im Grunde es auffordert, die Einschränkungen zu wiederholen — geben die Modelle diese genau wieder, während ihre tatsächlichen Ausgaben dieselben Einschränkungen ignorieren. KBV-Raten reichen von 8% bis 99%, je nach Modell. Das ist kein Rundungsfehler; das ist eine grundlegende Lücke zwischen deklarativem Gedächtnis und Verhaltenskonformität.

Strukturiertes Checkpointing — periodisches Neu-Verankern des Modells an seinen ursprünglichen Einschränkungen — reduziert KBV-Raten etwas, schließt die Lücke aber nicht. Komplexitätsinflation — Ausgaben, die aufwendiger werden, ohne konformer zu werden — bleibt bestehen, unabhängig davon.

Eine methodische Anmerkung, die es wert ist, hervorgehoben zu werden: Der LLM-Richter, der zur Bewertung der Einhaltung von Einschränkungen verwendet wird, erkennt Verstöße weniger zuverlässig als blinde menschliche Bewerter, was bedeutet, dass die gemeldeten Zahlen konservativ sind. Das echte Abdriften ist wahrscheinlich schlimmer als der Benchmark zeigt.

Für jeden, der KI heute in Forschungs-Workflows nutzt — Antragsschreiben, Hypothesengenerierung, Protokolldesign — ist dies eine praktische Warnung: Das Modell, das Ihnen in Runde eins beim Brainstorming geholfen hat, verfolgt Ihre ursprünglichen Ziele in Runde fünf nicht zuverlässig.

Reality Meter

Kuenstliche Intelligenz Zeithorizont · mid term

Reality Score 72 / 100

Hype-Risiko 45 / 100

Impact 65 / 100

Quellen-Qualitaet 75 / 100

Community-Confidence 50 / 100

Warum dieser Score?

Trust Layer LLMs, die an iterativer wissenschaftlicher Ideenfindung beteiligt sind, verletzen systematisch Einschränkungen, die sie genau wiedergeben können, und diese Dissoziation verschärft sich unter Gesprächsdruck über alle getesteten Modelle hinweg.

Hauptaussage

LLMs, die an iterativer wissenschaftlicher Ideenfindung beteiligt sind, verletzen systematisch Einschränkungen, die sie genau wiedergeben können, und diese Dissoziation verschärft sich unter Gesprächsdruck über alle getesteten Modelle hinweg.

Evidenz

2.146 bewertete Benchmark-Durchläufe über sieben Modelle von fünf Anbietern, vier Interaktionsbedingungen und 38 Forschungsbriefe aus 24 wissenschaftlichen Domänen.
Kennt-aber-verletzt-Rate (KBV) — Nichtkonformität mit Einschränkungen trotz genauer Umformulierung — reicht von 8% bis 99% über Modelle hinweg.
Iterativer Druck erhöht zuverlässig strukturelle Komplexität und reduziert oft die Einhaltung der ursprünglichen Einschränkungen.
Strukturiertes Checkpointing reduziert KBV-Raten teilweise, schließt aber nicht die Dissoziation, und Komplexitätsinflation bleibt bestehen.
Blinde menschliche Bewerter bestätigen, dass der LLM-Richter Einschränkungsverstöße unter-erkennt, was die gemeldeten Konformitäts-Scores konservativ macht.

Skepsis

Die Zusammenfassung nennt nicht die spezifischen getesteten Modelle, was es unmöglich macht zu beurteilen, ob Ergebnisse zu schwächeren oder älteren Systemen tendieren.
KBV-Raten-Varianz (8%–99%) ist enorm; ohne die Verteilungsaufschlüsselung verdeckt die aggregierte Findung, welche Modelle tatsächlich problematisch sind.
Umformulierungssonden sind von Forschern entworfene Stimuli — es ist unklar, ob sie zuverlässig echte Erinnerung oder nur oberflächliche Wiederholung von Prompt-Text hervorrufen.

Score-Begruendung

Reality 72

Der Benchmark ist großflächig, offen und gegen blinde Bewerter menschlich validiert, was der KBV-Kernfindung solide empirische Grundlage gibt, trotz des Mangels an Modell-Level-Detail in der Zusammenfassung.

Hype 45

Die Quelle ist ein arXiv-Preprint ohne vermerkte Peer Review, und die 8%–99%-KBV-Spanne wird ohne ausreichenden Verteilungskontext präsentiert, um zu beurteilen, wie repräsentativ die schlimmsten Fälle sind.

Impact 65

Wenn KBV-Raten selbst mit Checkpointing so hoch sind, hat jeder mehrteilige KI-gestützte Forschungs-Workflow ein latentes Konformitätsrisiko, das aktuelle Evaluierungs-Tooling systematisch unterschätzt — das ist ein unmittelbares operatives Anliegen, kein zukünftiges.

Source-Receipts

1 Quelle hinterlegt
Trust 90/100 im Schnitt
Trust 90/100

Zeithorizont

Erwartet in mid term

Community-Einschaetzung

Community-Live-AggregatIdle

Reality (Artikel)72/ 100

Hype45/ 100

Impact65/ 100

Confidence50/ 100

Prediction Ja0%noch keine

Prediction-Stimmen0∑

Glossar

Kennt-aber-verletzt-Rate (KBV): Ein Maß dafür, wie oft ein Sprachmodell gegen vorgegebene Einschränkungen verstößt, obwohl es diese Einschränkungen korrekt wiedergeben kann. Sie misst die Diskrepanz zwischen dem, was ein Modell zu wissen vorgibt, und dem, was es tatsächlich einhält.
Alignment-Forschung: Ein Forschungsbereich, der sich damit befasst, wie man künstliche Intelligenzsysteme so gestaltet, dass sie die Werte und Ziele von Menschen verfolgen und nicht gegen diese verstoßen.
RLHF-Tuning: Eine Trainingsmethode für Sprachmodelle, bei der menschliches Feedback verwendet wird, um das Modell so anzupassen, dass es hilfreicher und sicherer wird (Reinforcement Learning from Human Feedback).
Sycophancy: Die Tendenz eines Sprachmodells, dem Nutzer zuzustimmen oder dessen Vorlieben zu spiegeln, statt objektive oder unabhängige Antworten zu geben.
Open-Weight-Modelle: Sprachmodelle, deren Gewichte (interne Parameter) öffentlich verfügbar sind, im Gegensatz zu proprietären Modellen, die von Unternehmen unter Verschluss gehalten werden.
iterativer Gesprächsdruck: Die kumulative Belastung auf ein Sprachmodell durch wiederholte Anfragen oder Anweisungen in einem längeren Gespräch, die dazu führen kann, dass es seine ursprünglichen Einschränkungen zunehmend ignoriert.

Deine Stimme

Wie siehst du das?

Deine Einschaetzung gewichtet kuenftige Themen.

Schnellbewertung

Weitere Bewertung

Sterne (1–5)

Wie real ist das? Reality Ø 72

Mehr oder weniger davon?

Deine Stimme fliesst in Topic-Weights, Community-Kompass und kuenftige Priorisierung ein. Community-Kompass ansehen

Quellen

Tier 1 Models Recall What They Violate: Constraint Adherence in Multi-Turn LLM Ideation arxiv.org 90

Optional Vorhersage abgeben Optional: Wenn du willst, gib deine Vorhersage zur Kernfrage ab.

Prediction

Wird mindestens ein großer LLM-Anbieter innerhalb von 12 Monaten nach DriftBenchs Veröffentlichung öffentlich Constraint Drift in mehrteiligen Sitzungen adressieren — über Architektur, System-Prompt-Design oder dokumentierte Mitigation?

Die Story

Reality Meter

Warum dieser Score?

Zeithorizont

Community-Einschaetzung

Glossar

Wie siehst du das?

Quellen

Prediction

Verwandte Briefings

Menschlicher Müll schreibt Erdrocks Aufzeichnungen buchstäblich um

Deuterium-Kern besteht Symmetrie-Test — Standardmodell hält stand

GLP-1-Adipositas-Medikamente könnten männliche Fertilitätsmarker wiederherstellen

Miniaturisierte Fourier-Pixel erreichen vollständige bidirektionale optische Wellenfrontkontrolle