LLMs wissen, wann sie Tools nutzen sollten, handeln aber nicht danach
LLMs scheitern nicht bei der Tool-Nutzung, weil sie nicht erkennen können, wann sie Hilfe brauchen — sie scheitern, weil sie nicht nach dieser Erkenntnis handeln. Eine neue Studie beziffert die Diskrepanzquote auf bis zu 54% und führt den Zusammenbruch auf einen einzelnen Übergang zurück: von der Kognition zur Aktion.
Erklaerung
Wenn ein KI-Agent entscheidet, ob er eine Frage selbst beantwortet oder ein externes Tool aufruft (wie einen Rechner oder eine Suchmaschine), würde man annehmen, dass die Hauptherausforderung darin besteht, zu wissen, in welcher Situation man sich befindet. Es stellt sich heraus, dass das nicht der Engpass ist.
Forscher testeten vier große Sprachmodelle bei Rechen- und Faktenfrage-Aufgaben und maßen, wie oft Modelle ein Tool nutzen sollten (basierend darauf, ob sie die Antwort tatsächlich ohne eines richtig bekommen) versus wie oft sie es tun. Die Diskrepanz ist auffällig: 26,5–54% bei Mathe-Aufgaben, 30,8–41,8% bei Faktenfragen. In fast der Hälfte der Fälle entspricht das Verhalten des Modells nicht dem, was sein eigenes Fähigkeitsprofil verlangt.
Die Schlüsseleinsicht kommt aus der Untersuchung der internen Zustände der Modelle. Die Forscher unterteilten die Tool-Nutzung in zwei Phasen: Kognition (glaubt das Modell intern, dass ein Tool nötig ist?) und Ausführung (ruft es tatsächlich eines auf?). Beide Signale sind in den verborgenen Schichten des Modells erkennbar — aber in den späten Schichten, die direkt die nächste Token-Ausgabe steuern, zeigen die beiden Signale in fast entgegengesetzte Richtungen. Das Modell weiß es, handelt aber nicht danach.
Der Großteil der Diskrepanz liegt in dieser Kognitions-zu-Aktions-Lücke, nicht in fehlerhafter Selbsteinschätzung. Die interne Wahrnehmung des Modells von der Situation ist oft korrekt; etwas bricht bei der Übersetzung in Verhalten zusammen.
Warum ist das heute wichtig? Weil der gesamte agentic-AI-Stack — von Coding-Assistenten bis zu autonomen Forschungstools — davon ausgeht, dass ein Modell, wenn man ihm Zugang zu Tools und gutes Urteilsvermögen gibt, diese angemessen nutzen wird. Diese Forschung deutet darauf hin, dass der Fehlermodus nicht das Urteilsvermögen ist; es ist eine strukturelle Diskonnexion in der Art, wie interne Zustände zu Ausgaben werden. Die Behebung erfordert wahrscheinlich gezielte Eingriffe in der späten Schicht, der Aktionsgenerierungsphase, nicht nur bessere Trainingsdaten oder Prompting.
Das Paper führt eine modell-adaptive Definition von Tool-Notwendigkeit ein: Anstatt eine Anfrage abstrakt als Tool-erforderlich zu kennzeichnen, wird Notwendigkeit relativ zur empirischen Lösungsquote jedes Modells ohne Tools definiert. Das ist eine sinnvolle methodische Verbesserung gegenüber früheren Arbeiten, die Notwendigkeit als modell-agnostisch behandelten — eine Anfrage, die GPT-4 ohne Vorbereitung bewältigen kann, könnte für ein kleineres Modell echte Retrieval erfordern, und die Vermischung der beiden übertreibt die scheinbare Kompetenz.
Mit diesem Rahmen benchmarken die Autoren vier LLMs bei Rechen- und Faktenfragen und finden Verhaltens-Diskrepanzen von 26,5–54,0% bzw. 30,8–41,8%. Das sind keine Grenzfälle — sie sind das dominante Regime.
Die mechanistische Diagnose ist der schärfste Beitrag des Papers. Tool-Nutzung wird in eine Kognitionsphase (interne Überzeugung über Notwendigkeit, aus verborgenen Zuständen abgeleitet) und eine Ausführungsphase (beobachtetes Tool-Call-Verhalten) zerlegt. Lineare Probes stellen beide Signale mit aussagekräftiger Genauigkeit wieder her und bestätigen, dass sie im Residual Stream kodiert sind. Das Problem: Im späten-Schicht-, letzten-Token-Regime — dem rechnerischen Ort, der die nächste Token-Generierung bestimmt — werden die Probe-Richtungen für Kognition und Ausführung fast orthogonal. Das interne Notwendigkeitssignal des Modells ist effektiv vom Aktionsgenerierungspfad abgekoppelt.
Die Trajektorienanalyse über den zweistufigen Prozess bestätigt, dass der Großteil der Diskrepanz beim Kognitions-zu-Aktions-Übergang entsteht, nicht in der Kognition selbst. Modelle sind nicht primär fehlkalibriert bezüglich ihrer eigenen Grenzen; sie scheitern darin, diese Kalibrierung in Verhalten zu leiten.
Offene Fragen, die das Paper aufwirft, aber nicht vollständig beantwortet: Was verursacht die späte-Schicht-Orthogonalität in der Architektur oder den Trainings-Dynamiken? Ist das eine Folge von RLHF-ähnlichem Fine-Tuning, das Tool-Calls zugunsten flüssiger direkter Antworten unterdrückt? Würde gezieltes Representation Engineering oder Fine-Tuning in der Aktionsphase die Lücke schließen, ohne die Kognition zu beeinträchtigen? Die lineare Dekodierbarkeit beider Probes deutet darauf hin, dass die Information vorhanden ist — die Interventionsfläche ist die Projektion, nicht die Kodierung.
Für Praktiker, die agentic Pipelines bauen, ist die Implikation konkret: Tool-Call-Zuverlässigkeit kann nicht allein durch Prompt Engineering behoben werden, wenn der Fehler auf Repräsentationsebene strukturell ist. Achten Sie auf Folgeararbeiten zu Steering Vectors oder späte-Schicht-Fine-Tuning als wahrscheinlich nächsten Schritt.
Reality Meter
Warum dieser Score?
Trust Layer LLMs erkennen intern, wann externe Tools nötig sind, scheitern aber systematisch darin, diese Erkenntnis in Tool-Call-Aktionen zu übersetzen, mit Diskrepanzquoten bis zu 54% — eine strukturelle ‚Wissens-Handlungs-Lücke', konzentriert beim Kognitions-zu-Aktions-Übergang.
LLMs erkennen intern, wann externe Tools nötig sind, scheitern aber systematisch darin, diese Erkenntnis in Tool-Call-Aktionen zu übersetzen, mit Diskrepanzquoten bis zu 54% — eine strukturelle ‚Wissens-Handlungs-Lücke', konzentriert beim Kognitions-zu-Aktions-Übergang.
- Die Verhaltens-Diskrepanz zwischen modell-adaptiver Tool-Notwendigkeit und beobachtetem Tool-Call-Verhalten reicht von 26,5–54,0% bei Rechen-Aufgaben und 30,8–41,8% bei Faktenfragen über vier getestete Modelle.
- Sowohl Kognition (interne Überzeugung über Notwendigkeit) als auch Ausführung (tatsächliches Tool-Call-Verhalten) Signale sind linear aus LLM-Schichten dekodierbar, was bestätigt, dass sie in den Repräsentationen des Modells kodiert sind.
- Im späten-Schicht-, letzten-Token-Regime, das die nächste Token-Generierung steuert, werden die Probe-Richtungen für Kognition und Ausführung fast orthogonal — mechanistisch die Abkopplung erklärend.
- Die Trajektorienanalyse zeigt, dass die Mehrheit der Diskrepanz beim Kognitions-zu-Aktions-Übergang konzentriert ist, nicht in der Kognitionsphase selbst.
- Tool-Notwendigkeit wird modell-adaptiv basierend auf der empirischen Lösungsquote jedes Modells ohne Tools definiert, was diese Arbeit von früheren modell-agnostischen Annotationsansätzen unterscheidet.
- Die Studie deckt nur Rechen- und Faktenfrage-Datensätze ab; die Verallgemeinerung auf offenere oder mehrstufige agentic Aufgaben ist nicht nachgewiesen.
- Nur vier Modelle werden getestet; die Spanne der Diskrepanzquoten (26,5–54%) variiert erheblich, und das Paper erklärt nicht vollständig, was die Varianz über Modelle hinweg antreibt.
- Die lineare Probe-Dekodierbarkeit bestätigt, dass die Signale vorhanden sind, stellt aber nicht fest, dass sie kausal für das Verhalten relevant sind — die Korrelation zwischen Probe-Richtung und Aktionslücke benötigt stärkere kausale Validierung.
Die Kern-Quantitätsansprüche (Diskrepanzquoten, Probe-Orthogonalität) sind in empirischen Messungen über mehrere Modelle und Datensätze hinweg verankert, mit einer klaren mechanistischen Zerlegung — nicht nur eine Verhaltensbeobachtung.
Das Paper macht keine Überansprüche; es begrenzt die Ergebnisse explizit auf die getesteten Aufgaben und rahmt die Wissens-Handlungs-Lücke als eine Diagnose, die weitere Interventionsarbeit erfordert, nicht als ein gelöstes Problem.
Die Erkenntnis stellt direkt die Annahme in Frage, die dem Design von agentic-AI-Systemen zugrunde liegt — dass besseres Urteilsvermögen die Lösung ist — und zeigt auf einen spezifischen, umsetzbaren Fehlerlocus (späte-Schicht-Aktionsgenerierung), was es praktisch relevant für jeden macht, der Tool-erweiterte LLM-Pipelines baut.
- 1 Quelle hinterlegt
- Trust 90/100 im Schnitt
- Trust 90/100
Zeithorizont
Community-Einschaetzung
Glossar
- modell-adaptive Definition
- Ein Ansatz, bei dem die Anforderungen oder Eigenschaften nicht für alle Modelle gleich definiert werden, sondern je nach den spezifischen Fähigkeiten und Leistungsmerkmalen des einzelnen Modells angepasst werden.
- Residual Stream
- Ein zentraler Datenfluss in Transformer-Modellen, der Informationen durch alle Schichten des Netzwerks transportiert und in dem versteckte Repräsentationen von Konzepten und Signalen kodiert sind.
- Lineare Probes
- Einfache mathematische Werkzeuge, die trainiert werden, um versteckte Informationen aus den internen Aktivierungen eines neuronalen Netzwerks zu extrahieren und zu messen, wie explizit bestimmte Konzepte darin kodiert sind.
- RLHF
- Reinforcement Learning from Human Feedback – ein Trainingsverfahren, bei dem Sprachmodelle durch Rückmeldungen von Menschen optimiert werden, um ihre Ausgaben hilfreicher und sicherer zu machen.
- Representation Engineering
- Eine Technik, bei der die internen Repräsentationen eines Modells gezielt manipuliert oder angepasst werden, um sein Verhalten zu steuern, ohne das Modell komplett neu zu trainieren.
- Steering Vectors
- Mathematische Vektoren, die in die internen Aktivierungen eines Modells eingegeben werden, um dessen Verhalten in eine bestimmte Richtung zu lenken, ähnlich wie ein Lenkrad ein Fahrzeug steuert.
Wie siehst du das?
Deine Einschaetzung gewichtet kuenftige Themen.
Deine Stimme fliesst in Topic-Weights, Community-Kompass und kuenftige Priorisierung ein. Community-Kompass ansehen
Quellen
Optional Vorhersage abgeben Optional: Wenn du willst, gib deine Vorhersage zur Kernfrage ab.
Prediction
Wird ein gezielter späte-Schicht-Eingriff (z.B. Representation Steering oder phasenspezifisches Fine-Tuning) die Kognitions-zu-Aktions-Diskrepanz bei der LLM-Tool-Nutzung innerhalb von 18 Monaten nach Veröffentlichung dieses Papers unter 15% senken?