KI-Datenqualität: Solide Datengrundlagen für eine erfolgreiche KI

Mit Insights von

Raffaele De Piano
Principal Data Architect at Zühlke

KI-Proof-of-Concepts wirken zunächst oft überzeugend, bis sie schließlich auf reale Daten treffen. Als Folge treten Inkonsistenzen, fehlende Zugriffsrechte, versteckte Fehler und ein Vertrauensverlust mit negativen Folgen für den Rollout auf.

Wenn Ihre KI-Initiativen auf dem Weg in die Praxis ins Stocken geraten, liegt die Ursache oft woanders, als vermutet. Viele suchen die Schuld beim Modell, dem Anbieter oder der mangelnden internen Akzeptanz. Doch in Wirklichkeit ist es oft die Datenbasis, die nicht robust genug für den Einsatz in der Praxis ist.

Deshalb ist die Datenqualität ein unverzichtbarer Erfolgsfaktor, um Fehler durch KI zu verhindern und eine sichere Skalierung zu gewährleisten.

Ist die Datenqualität unzureichend, zeigen sich die Auswirkungen schnell: falsche Ergebnisse, auf verzerrten Daten beruhende Entscheidungen, Sicherheitsrisiken, unerwartete Compliance-Probleme und ein Vertrauensverlust, der eine ansonsten vielversprechende KI-Initiative zum Stillstand bringen kann.

Der vorliegende Artikel beleuchtet genau diese Herausforderung.

Dieser Beitrag ist Teil unserer Serie „Jetzt Mehrwert mit KI schaffen“ zu den drei zentralen Herausforderungen bei der Skalierung von KI-Initiativen. Hier finden Sie das gesamte Framework.

Die Auswirkungen von Datenqualität auf KI-Initiativen

Mit Datenqualität ist die Genauigkeit, Vollständigkeit, Konsistenz, Zuverlässigkeit und Relevanz von Daten gemeint. Sie hat einen direkten Einfluss auf die Entscheidungsfindung und die Ergebnisse einer KI.

Minderwertige Daten beeinträchtigen die Entscheidungsfindung auf allen Ebenen, was sich auf alles auswirken kann, von strategischen Entscheidungen bis hin zur Interaktion mit Kund:innen. Gleichzeitig zählt eine unzureichende Datenqualität zu den Hauptursachen für das Scheitern von GenAI-Projekten.

Das Prinzip „Garbage in, garbage out“ trifft beim Aufbau von KI-Systemen in besonderem Maße zu. Denn selbst wenn Unternehmen mit GenAI- und RAG-Anwendungen erste Erfolge erzielen können, wird schnell deutlich, dass Datenzugang und Datenqualität entscheidend sind, um funktionierende Prototypen in skalierbare, marktreife Lösungen zu überführen.

Wenn Daten eine schlechte Qualität aufweisen, sieht sich ein Unternehmen schnell mit altbekannten Risiken konfrontiert:

falsche aber glaubwürdig wirkende Ergebnisse auf der Grundlage unvollständiger oder veralteter Informationen
verzerrte Ergebnisse aufgrund nicht repräsentativer Daten
operative Störungen im Betriebsablauf, wenn automatisierte Entscheidungen auf inkonsistenten Datenquellen beruhen
Risiken in den Bereichen Regulierung und Compliance, wenn Nutzungsrechte, die Herkunft oder die Verantwortlichkeiten unklar sind

Die Bedeutung einer guten KI-Datenqualität

Wenn ein Modell mit schlechten oder irrelevanten Daten trainiert wird, sind enttäuschende Ergebnisse nahezu vorprogrammiert. Daten pauschal als „gut“ oder „schlecht“ zu bewerten, greift jedoch ebenfalls zu kurz. Denn Tatsache ist: Um Datenqualität wirklich zu verstehen, braucht es eine stärkere Differenzierung.

Entscheidend ist daher immer die Betrachtung des konkreten Problems, das es zu lösen gilt. Eine Datenquelle kann für ein KI-Modell hervorragend geeignet sein, für ein anderes aber ungeeignet. Deshalb ist es so wichtig, für jede Aufgabe die am besten geeigneten Daten auszuwählen.

Um Risiken zu minimieren und sich tatsächlich zu einem KI-gestützten Unternehmen zu entwickeln, müssen Unternehmen die Erfassung von Daten in den Mittelpunkt stellen. Diese sollten nicht nur präzise und aktuell, sondern auch unmittelbar relevant für die jeweilige zu lösende Aufgabe sein. Dabei ist es irrelevant, ob es sich um eine Versicherungsgesellschaft handelt, die die Risikoprüfung und Schadenbearbeitung optimieren möchte, oder um ein Einzelhandelsunternehmen, das bessere Entscheidungen in Echtzeit treffen will.

Kurz gesagt zeichnet sich eine „gute“ Datenqualität für KI durch folgende Merkmale aus:

Relevanz für den Anwendungsfall
Genauigkeit und Zuverlässigkeit
Vollständigkeit und angemessene Konsistenz für das jeweilige Risikoniveau
angemessene Aktualität zur Unterstützung realer Betriebsabläufe
sichere Speicherung und geregelter Zugriff
Erfüllung regulatorischer und organisatorischer Anforderungen
teamübergreifende Nachvollziehbarkeit

KI-Tools können lernen, Datenanomalien zu erkennen und potenzielle zukünftige Qualitätsprobleme vorherzusagen, bevor daraus größere Fehler entstehen.

Ein Framework zur Sicherung der Datenqualität für KI-Initiativen

Wir beobachten aktuell, dass viele unserer Kund:innen sich deutlich stärker auf eine solidere Datenqualität fokussieren und immer mehr Unternehmen erkennen, dass die Qualität von Daten eine Grundvoraussetzung für erfolgreiche KI-Initiativen darstellt.

Damit Daten tatsächlich KI-fähig werden, ist ein methodisches Vorgehen mit einer Konzentration auf die folgenden drei zentralen Bereiche notwendig: Alignment, Validierung und Governance.

Ausrichtung, Governance und Validierung sind entscheidende Komponenten, um Ihre Daten „KI-fähig“ zu machen.

1. Alignment: Sicherstellen, dass die Daten zum Anwendungsfall passen

Bevor ein System in den produktiven Einsatz überführt wird, sollten sich die Verantwortlichen darüber im Klaren sein, auf welche Daten es angewiesen ist – und warum.

Folgende Fragestellungen sind dabei relevant:

Welche Datenquellen nutzt das System tatsächlich?
Dürfen diese Daten für diesen Zweck und in dieser Region verwendet werden?
Sind Definitionen und Semantik teamübergreifend einheitlich?
Spiegeln die Daten die realen Bedingungen wider, mit denen sich das System später konfrontiert sieht?
Unterstützen die Daten das eigentliche unternehmerische Ziel oder nur die Demo?

Genau an diesem Punkt tragen viele Projekte bereits versteckte Risiken in sich. Ein Modell mag in einer begrenzten Umgebung durchaus effektiv wirken. Doch sobald die reale Datenlandschaft zum Vorschein kommt – namentlich fragmentierte Systeme, widersprüchliche Definitionen und unklare Berechtigungen – beginnt die Verlässlichkeit der gesamten Initiative zu bröckeln.

Alignment bedeutet, diese Risiken frühzeitig zu erkennen und zu vermeiden.

2. Validierung: Zuverlässigkeit prüfen, bevor Nutzer:innen Fehler entdecken

Sobald die Daten auf den Anwendungsfall abgestimmt sind, müssen sie kontinuierlich validiert werden.

Dafür reicht eine einmalige Qualitätsprüfung vor der Implementierung nicht aus. Validierung bedeutet, zu verstehen, was für den jeweiligen Workflow und die gegebenen Rahmenbedingungen „gut genug“ ist, und die Daten dann konsequent auf fehlende Einträge, veraltete Werte, Duplikate, Anomalien und Abweichungen zu prüfen.

Eine Validierung sollte unter anderem Antworten auf die folgenden Fragen liefern:

Sind die Daten systemübergreifend konsistent?
Sind zentrale Datenfelder im Verhältnis zum jeweiligen Risikoniveau vollständig genug?
Gibt es Anomalien, die auf eine nachlassende Datenqualität hindeuten?
Gibt es klar definierte Schwellenwerte dafür, ab wann Daten nicht mehr zuverlässig genug sind?
Ist eindeutig geregelt, wer handelt, wenn diese Schwellenwerte überschritten werden?

Eine Automatisierung kann dabei erheblich unterstützen. Sie hilft, Anomalien früher sichtbar zu machen, Muster zu erkennen, die Menschen übersehen könnten, und das Monitoring effizienter zu gestalten. Automatisierung ersetzt jedoch nicht das eigene Urteilsvermögen. Validierung funktioniert nur dann zuverlässig, wenn klar definiert ist, woran gemessen wird und wer im Problemfall verantwortlich ist.

3. Governance: Langfristige Vertrauenswürdigkeit von Daten erhalten

Eine hohe Datenqualität bleibt nicht dauerhaft von selbst bestehen. Datenquellen verändern sich, Definitionen entwickeln sich weiter und Zugriffsrechte werden kontinuierlich angepasst. Gleichzeitig entstehen neue Anwendungsfälle, Teams verändern sich und Modelle werden fortlaufend aktualisiert. Ohne eine wirksame Governance verschlechtert sich die Datenbasis oft schleichend, bis die Leistungsfähigkeit nachlässt, Vertrauen verloren geht oder ein konkreter Vorfall das Unternehmen zum Handeln zwingt.

Deshalb ist Governance essenziell.

In der Praxis sollte sie unter anderem folgende Aspekte abdecken:

klare Zuständigkeiten und Verantwortlichkeiten
Nachvollziehbarkeit der Herkunft der Daten und wie sie sich verändern
Versionskontrollen für wichtige Datenbestände
Einhaltung interner Richtlinien und externer Regulatorien
Prüf- und Freigabeprozesse für den Fall, dass sich die Nutzung, die Struktur oder die Bedeutung der Daten ändern

Genau hier wird auch die Verbindung zu vertrauenswürdiger KI deutlich. Kein KI-Governance-Framework kann Daten absichern, die niemand erklären kann. Wenn Unternehmen sichere, auditierbare und skalierbare KI-Systeme aufbauen möchten, müssen die zugrunde liegenden Daten geeignet, zulässig und nachvollziehbar sein.

Relevante Fragen für die Unternehmensleitung vor der Skalierung

Bevor eine KI-Initiative freigegeben oder weiter ausgebaut wird, sollten Führungskräfte fünf zentrale Fragen klar beantworten können:

Wissen wir genau, auf welche Datenquellen das System angewiesen ist?
Sind wir berechtigt, diese Daten für diesen Zweck, in diesem Markt und unter diesen Bedingungen zu verwenden?
Wie repräsentativ sind die Daten für die Personen, Szenarien und Sonderfälle, mit denen das System in der Praxis konfrontiert wird?
Wer trägt die Verantwortung für die Datenqualität, ihre Überwachung und falls Veränderungen auftreten?
Wie schnell können wir ein Problem bis zur ursprünglichen Datenquelle, einer Modifikation, einer Berechtigungsregel oder einem Änderungsereignis zurückverfolgen?

Diese Fragen tragen dazu bei, KI-Initiativen auf einem belastbaren und nachhaltigen Datenfundament aufzubauen.

Eine Datengrundlage für zuverlässige, praxistaugliche KI schaffen

Hochwertige Daten sind die Grundlage erfolgreicher KI-Initiativen und stellen sicher, dass sich Prototypen zu skalierbaren, zuverlässigen und wirkungsvollen Lösungen entwickeln.

Dennoch überstürzen viele Unternehmen diesen Schritt oder unterschätzen seine Bedeutung, bis Probleme auftreten.

Um das Potenzial von KI nachhaltig auszuschöpfen, sollten Unternehmen

Von Anfang an auf Datenqualität setzen. Genaue, vollständige und konsistente Datensätze sind unerlässlich.
In Governance und Unternehmenskultur investieren. Ein belastbares Framework sorgt dafür, dass eine hohe Datenqualität organisationsweit zur Selbstverständlichkeit wird.
Die richtigen Tools und Methoden nutzen. Eine KI-gestützte Automatisierung kann Effizienz und Zuverlässigkeit steigern, muss jedoch immer mit klaren Verantwortlichkeiten kombiniert werden.

Wenn Sie verstehen möchten, wie robust die Datenbasis Ihres Unternehmens für KI heute tatsächlich ist, kann Zühlke Sie dabei unterstützen, den aktuellen Reifegrad Ihrer Organisation zu bewerten und gezielt jene Bereiche zu identifizieren, in denen Verbesserungen bei KI-Daten-Governance, Validierung und Risikomanagement den größten Mehrwert schaffen.

Erfahren Sie, wie Sie starke Grundlagen in skalierbare Transformation umwandeln

In unserem Projekt mit dem Flughafen Zürich zeigen wir, wie Daten, Plattformen und operative Bereitschaft die Voraussetzungen für langfristige Wirkung geschaffen haben.

Case study lesen

Wenn eine andere Herausforderung Ihr eigentlicher Engpass ist

Starke Grundlagen sind nur ein Teil der Geschichte

Wenn Ihre Organisation noch immer fragt, wo der geschäftliche Impact bleibt, erfahren Sie, wie KI im gesamten Unternehmen messbaren Wert schafft.

DIESES THEMA ENTDECKEN

Three colleagues collaborating around a table in an office; a woman with curly hair smiles while listening to a seated colleague who is gesturing, while a third colleague looks on, with a laptop and drinks visible, conveying a positive team interaction.

Bereitschaft allein schafft noch kein Vertrauen

Wenn die größere Herausforderung darin besteht, Vertrauen, Kontrolle und Nachvollziehbarkeit rund um KI aufzubauen, erfahren Sie, wie Governance langfristigen Erfolg unterstützt.