Kuenstliche Intelligenz / reality check / 4 MIN LESEN

Medizinische KI ist nur so gut wie die Daten dahinter

Die KI, die Ihren nächsten Patienten diagnostiziert, wurde mit Daten trainiert, die wahrscheinlich nicht wie Ihr nächster Patient aussehen. Marzyeh Ghassemi vom MIT ist eine der klarsten Stimmen, die erklärt, warum diese Lücke ein klinisches Problem ist, nicht ein PR-Problem.

AKTUALISIERT 2026-05-03 / ZEITHORIZONT · mid term / ID · 8CF4EC89

Reality 78 /100

Hype 25 /100

Impact 75 /100

Erklaerung

Medizinische KI-Tools werden derzeit in Krankenhäusern in hohem Tempo ausgerollt, aber die Daten, mit denen sie trainiert werden, prägen stillschweigend, wer profitiert und wer Schaden nimmt. Die MIT-Informatikprofessorin Marzyeh Ghassemi legte in der Morning Edition von GBH das Kernproblem dar: Wenn die Trainingsdaten zu bestimmten Bevölkerungsgruppen, Krankenhaussystemen oder Dokumentationsstilen verzerrt sind, lernt das Modell diese Verzerrungen — und wendet sie dann in großem Maßstab an.

Das ist jetzt relevant, weil Gesundheitssysteme heute Beschaffungs- und Bereitstellungsentscheidungen treffen, oft ohne gründliche Audits dessen, was tatsächlich in den Trainingsdatensätzen steckt. Ein Modell, das hauptsächlich mit Daten aus großen akademischen Medizinzentren im Nordosten trainiert wurde, wird sich anders verhalten — und möglicherweise schlechter — wenn es in einer ländlichen Klinik im Süden oder einem Sicherheitsnetz-Krankenhaus mit überwiegend Minderheitenbevölkerung eingesetzt wird.

Die Lösung ist nicht einfach "mehr Daten". Mehr verzerrte Daten verschärfen das Problem. Was nötig ist, ist bewusste Kuratierung: zu wissen, woher Daten stammen, wer über- oder unterrepräsentiert ist, und welche Labels von wem vergeben wurden. Klinische Labels wie "nicht-adhärenter Patient" tragen historische Vorurteile in sich, die ein Modell gerne kodiert und verstärkt.

Ghassemis breiterer Punkt ist eine nützliche Korrektur zum Hype-Zyklus: KI in der Medizin ist keine Magie, es ist Statistik angewendet auf historische Aufzeichnungen — und die Geschichte des amerikanischen Gesundheitswesens hat ein gut dokumentiertes Gerechtigkeitsproblem. Die Tools sind nur so neutral wie die Pipelines, die sie gebaut haben.

Beobachten Sie, ob Krankenhausbeschaffungsstandards beginnen, Transparenz bei Trainingsdaten zu fordern, wie sie klinische Nachweise für Medikamente fordern. Diese Verschiebung würde den Markt schnell verändern.

Ghassemis Framing trifft einen hartnäckigen und unterschätzten Fehlermodus bei der Bereitstellung von Clinical ML: distributional shift verstärkt durch historisch verzerrte Ground-Truth-Labels. Das Problem ist nicht nur covariate shift zwischen Trainings- und Bereitstellungspopulationen — es ist, dass die Labels selbst (Diagnosen, Risk Scores, Behandlungsentscheidungen) von einem Gesundheitssystem generiert wurden, das dokumentierte rassische, geschlechtsspezifische und sozioökonomische Disparitäten aufweist. Ein Modell, das trainiert wurde, um "optimale Versorgung" auf solchen Labels vorherzusagen, lernt im Grunde, die historische Unterversorgung marginalisierter Gruppen zu replizieren.

Das ist keine neue Erkenntnis — Arbeiten von Obermeyer et al. (Science, 2019) zeigten, dass ein weit verbreiteter kommerzieller Risk-Stratifizierungsalgorithmus die Krankheitsschwere bei schwarzen Patienten systematisch unterschätzte, weil er Gesundheitskosten als Proxy für Gesundheitsbedarf verwendete. Ghassemis Labor hat diese Forschungslinie erweitert und gezeigt, dass Modellleistungslücken über demografische Untergruppen hinweg häufig in aggregierten Metriken unsichtbar sind — der Standardweg, wie Modelle vor der Bereitstellung evaluiert werden.

Der Mechanismus ist unkompliziert, aber in Beschaffungskontexten unterschätzt: aggregierte AUC- oder F1-Scores können stark aussehen, während sie schwere Unterleistung bei Minderheitsuntergruppen verbergen. Ohne stratifizierte Evaluierung und obligatorische disaggregierte Berichterstattung fliegen Gesundheitssysteme blind bei Gerechtigkeit.

Die operative Implikation ist, dass Data Governance — Herkunft, demografische Zusammensetzung, Labeling-Methodik — als First-Class-Input für klinische Sicherheit behandelt werden muss, nicht als Nachgedanke in einer Model Card. Regulatorische Rahmen hinken langsam hinterher; der FDA-Aktionsplan für KI/ML-basierte Software als medizinisches Gerät deutet darauf hin, aber hat keine Durchsetzungskraft bei Transparenz von Trainingsdaten.

Schlüsselfrage: Können Federated Learning oder synthetische Datenerweiterung Repräsentationslücken sinnvoll schließen, ohne neue Artefakte einzuführen? Frühe Ergebnisse sind gemischt. Der Falsifizierer ist unkompliziert — wenn Modelle, die auf kuratierten, repräsentativen Datensätzen trainiert wurden, keine sinnvolle Verbesserung der Gerechtigkeit gegenüber auf Convenience-Sample trainierten Modellen zeigen, schwächt sich die Datenkualitätshypothese erheblich ab. Bisher läuft die Evidenz in die andere Richtung.

Reality Meter

Kuenstliche Intelligenz Zeithorizont · mid term

Reality Score 78 / 100

Hype-Risiko 25 / 100

Impact 75 / 100

Quellen-Qualitaet 75 / 100

Community-Confidence 50 / 100

Warum dieser Score?

Trust Layer Score-Basis

Score-Basis

Detaillierte Evidenz-Aufschluesselung folgt. Bis dahin: die Score-Basis ergibt sich aus den unten verlinkten Quellen und dem Reality-Meter weiter oben.

Source-Receipts

48 Quellen hinterlegt
Trust 42/100 im Schnitt
Trust 40–95/100

Zeithorizont

Erwartet in mid term

Community-Einschaetzung

Community-Live-AggregatIdle

Reality (Artikel)78/ 100

Hype25/ 100

Impact75/ 100

Confidence50/ 100

Prediction Ja0%noch keine

Prediction-Stimmen0∑

Glossar

distributional shift: Ein Phänomen, bei dem sich die Verteilung der Daten zwischen dem Training eines Machine-Learning-Modells und seiner praktischen Anwendung unterscheidet, was zu schlechterer Modellleistung führt.
covariate shift: Eine spezifische Form des distributional shift, bei der sich die Eingabevariablen (Features) zwischen Trainings- und Anwendungsdaten unterscheiden, während die Beziehung zwischen Eingaben und Ausgaben gleich bleibt.
Ground-Truth-Labels: Die tatsächlichen, korrekten Antworten oder Klassifizierungen in Trainingsdaten, die verwendet werden, um ein Machine-Learning-Modell zu trainieren und zu überprüfen.
AUC: Ein Maß zur Bewertung der Leistung von Klassifizierungsmodellen, das angibt, wie gut das Modell zwischen zwei Klassen unterscheiden kann (Werte zwischen 0 und 1, wobei 1 perfekt ist).
F1-Score: Eine Kennzahl, die die Genauigkeit und Vollständigkeit eines Klassifizierungsmodells kombiniert und besonders nützlich ist, wenn Klassen ungleich verteilt sind.
Federated Learning: Ein Ansatz zum Trainieren von Machine-Learning-Modellen, bei dem die Daten dezentralisiert bleiben und das Modell auf vielen verschiedenen Geräten oder Standorten trainiert wird, statt alle Daten zentral zu sammeln.
disaggregierte Berichterstattung: Die Aufteilung von Leistungsmetriken nach verschiedenen demografischen Gruppen oder Untergruppen, um Unterschiede in der Modellleistung zwischen diesen Gruppen sichtbar zu machen.

Deine Stimme

Wie siehst du das?

Deine Einschaetzung gewichtet kuenftige Themen.

Schnellbewertung

Weitere Bewertung

Sterne (1–5)

Wie real ist das? Reality Ø 78

Mehr oder weniger davon?

Deine Stimme fliesst in Topic-Weights, Community-Kompass und kuenftige Priorisierung ein. Community-Kompass ansehen

Quellen

Tier 3 Here's how the data fed into medical AI can help — or hurt — health care wgbh.org 40
Tier 3 Latest AI News, Developments, and Breakthroughs | 2026 | News crescendo.ai 40
Tier 3 The 2025 AI Index Report | Stanford HAI hai.stanford.edu 40
Tier 3 Artificial Intelligence News -- ScienceDaily sciencedaily.com 40
Tier 3 AI Developments That Changed Vibrational Spectroscopy in 2025 | Spectroscopy Online spectroscopyonline.com 40
Tier 3 AI breakthrough cuts energy use by 100x while boosting accuracy | ScienceDaily sciencedaily.com 40
Tier 3 Reuters AI News | Latest Headlines and Developments | Reuters reuters.com 40
Tier 3 Inside the AI Index: 12 Takeaways from the 2026 Report hai.stanford.edu 40
Tier 1 Human scientists trounce the best AI agents on complex tasks nature.com 95
Tier 3 Sony AI Announces Breakthrough Research in Real-World Artificial Intelligence and Robotics - Sony AI ai.sony 40
Tier 3 This new brain-like chip could slash AI energy use by 70% | ScienceDaily sciencedaily.com 40
Tier 3 State AI Laws – Where Are They Now? // Cooley // Global Law Firm cooley.com 40
Tier 3 AI Regulation: The New Compliance Frontier | Insights | Holland & Knight hklaw.com 40
Tier 3 The White House’s National Policy Framework for Artificial Intelligence: what it means and what comes next | Consumer Finance Monitor consumerfinancemonitor.com 40
Tier 3 Trump Administration Releases National AI Policy Framework | Morrison Foerster mofo.com 40
Tier 3 What President Trump’s AI Executive Order 14365 Means For Employers | Law and the Workplace lawandtheworkplace.com 40
Tier 3 Manatt Health: Health AI Policy Tracker - Manatt, Phelps & Phillips, LLP manatt.com 40
Tier 3 Battle for AI Governance: White House’s Plan to Centralize AI Regulation and States’ Continuous Opposition vorys.com 40
Tier 3 AI Omnibus: Trilogue Underway…What to Expect as Negotiations Progress | Insights | Ropes & Gray LLP ropesgray.com 40
Tier 3 AI Regulation News Today 2025: Latest Updates on EU AI Act, US Rules & Global Impact - Prime News Mag primenewsmag.com 40
Tier 3 AI regulation set to become US midterm battleground | Biometric Update biometricupdate.com 40
Tier 3 Top Large Language Models of 2025 | Best LLMs Compared nurix.ai 40
Tier 3 Large language model - Wikipedia en.wikipedia.org 40
Tier 1 [2604.27454] Exploring Applications of Transfer-State Large Language Models: Cognitive Profiling and Socratic AI Tutoring arxiv.org 90
Tier 3 Top 50+ Large Language Models (LLMs) in 2026 explodingtopics.com 40
Tier 3 The Best Open-Source LLMs in 2026 bentoml.com 40
Tier 3 10 Best LLMs of April 2026: Performance, Pricing & Use Cases azumo.com 40
Tier 3 Emerging applications of large language models in ecology and conservation science conbio.onlinelibrary.wiley.com 40
Tier 3 From Elicitation to Evolution: A Literature-Grounded, AI-Assisted Framework for Requirements Quality, Traceability, and Non-Functional Requirement Management | IJCSE ijcsejournal.org 40
Tier 3 Labor market impacts of AI: A new measure and early ... anthropic.com 40
Tier 3 Tracking the Impact of AI on the Labor Market - Yale Budget Lab budgetlab.yale.edu 40
Tier 3 AI and Jobs: Labor Market Impact Echoes Past Tech Transitions | Morgan Stanley morganstanley.com 40
Tier 3 The Jobs AI Is Likely to Boost—and Those It May Disrupt | Goldman Sachs goldmansachs.com 40
Tier 3 How will Artificial Intelligence Affect Jobs 2026-2030 | Nexford University nexford.edu 40
Tier 3 Young People Are Falling Behind, but Not Because of AI - The Atlantic theatlantic.com 40
Tier 3 AI is getting better at your job, but you have time to adjust, according to MIT | ZDNET zdnet.com 40
Tier 3 New Data Challenges AI Job Loss Narrative | Robert H. Smith School of Business rhsmith.umd.edu 40
Tier 3 The impact of AI on the labour market | Management & Marketing | Springer Nature Link link.springer.com 40
Tier 3 AI's impact on the job market is starting to show up in the data axios.com 40
Tier 3 AI speeds up prior auth, coding while driving higher costs for health systems: PHTI report fiercehealthcare.com 40
Tier 3 AI-enabled Medical Devices Market Size, Share | Forecast [2034] fortunebusinessinsights.com 40
Tier 3 Journal of Medical Internet Research - Artificial Intelligence, Connected Care, and Enabling Digital Health Technologies in Rare Diseases With a Focus on Lysosomal Storage Disorders: Scoping Review jmir.org 40
Tier 3 Generative AI analyzes medical data faster than human research teams | ScienceDaily sciencedaily.com 40
Tier 3 Rede Mater Dei de Saúde: Monitoring AI agents in the revenue cycle with Amazon Bedrock AgentCore | Artificial Intelligence aws.amazon.com 40
Tier 3 Artificial Intelligence (AI) in Healthcare & Medical Field foreseemed.com 40
Tier 3 AI in Healthcare Market Rises 37.66% Healthy CAGR by 2035 towardshealthcare.com 40
Tier 3 Future of AI in Healthcare: Trends and Predictions for 2027 and Beyond abbacustechnologies.com 40
Tier 3 2026 Conference icml.cc 40

Optional Vorhersage abgeben Optional: Wenn du willst, gib deine Vorhersage zur Kernfrage ab.

Prediction

Werden große Krankenhausnetzwerke bis 2027 disaggregierte, subgruppenspezifische Leistungsaudits vor der Bereitstellung neuer medizinischer KI-Tools verlangen?

Erklaerung

Reality Meter

Warum dieser Score?

Zeithorizont

Community-Einschaetzung

Glossar

Wie siehst du das?

Quellen

Prediction

Verwandte Briefings

155 Millionen Stellenausschreibungen zeigen keine KI-getriebene Arbeitsplatzvernichtung

KI-Gesundheitsmarkt-Prognose projiziert 24x-Wachstum bis 2035

Jugendarbeitsmarkt-Probleme präexistieren KI — Die Daten sprechen dafür

Bakterien entwickelt, um eine Aminosäure aus dem Kern-Alphabet des Lebens zu entfernen