Kuenstliche Intelligenz / reality check / 3 MIN LESEN
GPT-5: Was die Benchmarks wirklich zeigen
Marketing redet von 90%, unabhaengige Tests sehen 62%. Wir trennen Beweis von Behauptung.
Reality 62 /100
Hype 78 /100
Impact 70 /100
Erklaerung
Die naechste Generation grosser Sprachmodelle wird hoch gehandelt. Tests zeigen schoenere Ergebnisse als der Alltag liefert. Dieser Artikel ordnet die Zahlen ein.
Auf MMLU-Pro kommt GPT-5 in unabhaengigen Replikationen auf 62% statt der angegebenen 90%. Der Gap entsteht durch Daten-Kontamination und ueber-optimierte System-Prompts. Fuer Software-Engineering bleibt die Verbesserung gegenueber GPT-4o reell, aber inkrementell.
Reality Meter
Kuenstliche Intelligenz Zeithorizont · now
Reality Score 62 / 100
Hype-Risiko 78 / 100
Impact 70 / 100
Quellen-Qualitaet 80 / 100
Community-Confidence 55 / 100
Zeithorizont
Erwartet in now
Community-Einschaetzung
Community-Live-AggregatIdle
Reality (Artikel)62
Hype78
Impact70
Confidence55
Prediction Ja0%
Prediction-Stimmen0
Glossar
- MMLU-Pro
- Erweiterter Multi-Task-Benchmark fuer Sprachmodelle.
- Daten-Kontamination
- Trainingsdaten enthalten bereits den Test.
Quellen
Prediction
Wird GPT-5 in 12 Monaten 90% der angegebenen Benchmarks erreichen?