KI in Führungsentscheidungen: Warum Plausibilität keine Evidenz ist

Veröffentlicht am: 2. Januar 20264,8 Minuten Lesezeit

Plausibel klingt gut. Tragfähig ist etwas anderes.

Wie Führung im KI-Alltag Evidenz und Urteilskraft schützt.

„Die KI sagt, wir sparen 18 Prozent.“

Der Satz fällt in einem Meeting, in dem alle zu wenig Zeit haben. Er ist konkret, folienfähig und er hat sofort Wirkung. Er schafft Anschlussfähigkeit. Man kann ihn weiterreichen, in eine Präsentation schreiben, als Ergebnis markieren. Ein kurzer Moment von Erleichterung.

Genau darin liegt das Risiko. Nicht, weil KI „lügt“, sondern weil Teams unter Druck schnell schließen müssen. Nicht die KI erzeugt Gewissheit. Wir tun es als Gruppe. Klarheit fühlt sich gut an. Zahlen klingen nach Objektivität. Und ein sauber formulierter Output wirkt schnell wie „Wissen“, selbst dann, wenn noch niemand geprüft hat, worauf er sich eigentlich stützt.

Ich halte in solchen Momenten kurz inne und frage mich, ob wir gerade zu schnell einen Urteil geschlossen haben. Dabei schaue ich auf zwei Ebenen: auf den Inhalt: „stimmt das?“ und auf die Wirkung im System: „was macht diese Zahl gerade mit unserem Denken und Entscheiden?“.

Denn bevor „18 Prozent“ eine Entscheidung trägt, braucht es eine saubere Übersetzung. Im Gespräch vermischen wir nämlich oft drei Dinge, die man gut auseinanderziehen kann.

Drei Ebenen, die im KI Alltag oft vermischt werden

Es gibt Daten: das Rohmaterial. Messwerte, Beobachtungen, Zahlen. Sie haben Herkunft, Auswahl und Messlogik.
Es gibt Evidenz: das ist der Moment, in dem Daten eine Behauptung wirklich tragen. Nicht als Gefühl, sondern als Begründung mit Kontext, Unsicherheit und einer plausiblen Gegenhypothese.
Und es gibt Wissen: Bedeutung aus den gewonnenen Informationen. Auf dieser basiert die Entscheidung, was man daraus macht inklusive Nebenfolgen, Risiken und der Frage, wofür man Verantwortung übernimmt.

Wenn Plausibilität zur falschen Grundlage wird

Wenn das Schließen zu schnell geht, passiert etwas Typisches: Eine plausible Antwort rutscht in die Rolle einer tragfähigen Grundlage. Gerade bei generativer KI ist das riskant, weil Outputs sehr überzeugend klingen können und dennoch faktisch falsch, erfunden oder in der Begründung irreführend sein können. In der Forschung werden z.B. Halluzinationen als zentrale Zuverlässigkeitshürde beschrieben, die plausibel klingende jedoch falsche Ausgaben liefern.

Zurück zur Zahl. Wenn wir die „18 Prozent“ einen Moment länger anssehen, merken wir sofort, wie viel offen ist:

18 Prozent wovon? Kosten, Durchlaufzeit, FTE, Fehlerquote? Brutto oder netto?
18 Prozent über welchen Zeitraum? Ein Quartal, ein Jahr, dauerhaft?
18 Prozent unter welchen Annahmen? Qualität gleich, Compliance-Aufwand eingerechnet, Prozess stabil?
18 Prozent auf welcher Datenbasis? Interne Ist-Daten, Benchmarks, Schätzungen – und welche Version?

Vier Prüfsteine für KI-Ergebnisse in Führungsentscheidungen

Diese Fragen sind nicht pedantisch. Sie sind die Schwelle zwischen „klingt gut“ und „hält stand“. Bevor ein KI-Output eine Entscheidung „übernimmt“, empfehle ich folgende Punkte zu prüfen:

  1. Was genau wird behauptet? (In eingenen Worten beschreiben)
  2. Welche Daten, Quellen und Annahmen tragen das konkret? (Welche Version? Welche Lücke?)
  3. Was wäre eine plausible Alternative und was spricht dagegen?
  4. Was kostet es uns, wenn wir hier falsch liegen? (Risiko, Nebenfolgen, Reversibilität)

Der systemische Blick: Was Zahlen im Team auslösen

Hier kommt nämlich der systemische Dreh: Während diese Fragen gestellt werden, wird nicht nur die Zahl geprüft. Es wird auch geprüft, was die Zahl im System auslöst. Schließt sie Diskussion? Erzeugt sie Scheinsicherheit? Verengt sie Optionen? Oder hilft sie wirklich, ein Problem zu klären?

Zwei Effekte sind bei der Arbeit mit KI-Ergebnissen besonders relevant:

  • Sprachliche Qualität erzeugt Vertrauen. In Studien konnte gezeigt werden, dass KI-generierte Texte sehr überzeugend sein können. Mit wenig menschlicher Kuratierung können sie im Schnitt ähnlich oder sogar stärker wirken als Vergleichstexte (Goldstein et al., 2024).
  • Erklärungen wirken wie Verständnis. Eine peer-reviewte CHI-Studie von Danry et al. (2025) zeigt, dass irreführende KI-Erklärungen Überzeugungen teils stärker beeinflussen können als ehrliche Erklärungen gerade weil sie logisch klingen.

Das ist keine Panikmache. Es ist ein Hinweis darauf, warum „klingt plausibel“ als Kriterium nicht mehr reicht.

Kontext ist Führungsarbeit

Ein Modell kann Muster sehen. Es kann aber nicht für Dich abwägen, was diese Muster im System bedeuten.

Eine Kündigungswelle zum Beispiel ist im Datensatz eine Quote. Im Team ist sie möglicherweise ein Signal für Überlastung, Vertrauensbruch, stille Konflikte, gefährdete Zusammenarbeit. Daten liefern uns das Signal. Die Bedeutung entsteht im Kontext.

Und genau deshalb ist psychologische Sicherheit kein „Soft-Thema“, sondern eine Bedingung dafür, dass Evidenz überhaupt entstehen kann. Nur wenn Menschen Unsicherheit, Gegenhypothesen und Risiken ohne Statusverlust aussprechen dürfen, wird aus Daten wirklich Evidenz statt nur ein schöner Output. Edmondson & Bransby (2023) fassen die Befundlage in einem Open-Access-Review zusammen.

Was Führungskräfte mitnehmen können

  1. Plausibel ist ein Anfang. Tragfähig ist eine Leistung.
  2. KI ist stark im Ideenraum, im Entscheidungsraum braucht es Begründungsregeln.
  3. Evidenz entsteht im Gespräch: Definitionen klären, Annahmen sichtbar machen, Unsicherheit benennen, Nebenfolgen mitdenken.
  4. Systemisch führen heißt auch: beobachten, wie „Zahlen“ Kommunikation öffnen oder schließen und den Prozess so gestalten, dass Urteilskraft nicht abgegeben wird.

Wenn Du im nächsten Meeting bei „18 Prozent“ nur diese 4 Punkte beachten, gewinnst Du bereits viel. Mehr Tragfähigkeit.

Literatur (Auswahl): 

  • Goldstein, J. A. et al. (2024). How persuasive is AI-generated propaganda? PNAS Nexus.
  • Danry, V. et al. (2025). Deceptive Explanations by Large Language Models… CHI / ACM.
  • Huang, L. et al. (2025). A Survey on Hallucination in Large Language Models. ACM.
  • Edmondson, A. C., & Bransby, D. P. (2023). Psychological Safety Comes of Age. Annual Review of Organizational Psychology and Organizational Behavior.
  • Reeves, M., Moldoveanu, M., & Job, A. (2024). The Irreplaceable Value of Human Decision-Making in the Age of AI. Harvard Business Review.

Autorin: Eugenia Schmitt, Senior Beraterin

In der Neuorientierung bestimmen Sie die Richtung!

Wir bringen Sie in Bewegung.