Bausteine für eine Strategien zur Datenvalidierung
12.05.2025
Eine Datenvalidierungs-Strategie verknüpft wirtschaftliche Ziele mit den dazu passenden technischen Mitteln. Das passiert vor dem Hintergrund einer Prozess- und IT-Landschaft, die bestimmte Vorgehensweisen begünstigt oder hemmt. Ziele, wie die Vermeidung von Produktionsausfällen aufgrund fehlerhafter Dokumente, lassen sich relativ einfach bestimmten. Die Auswahl der passenden Mittel ist dagegen oft schwieriger, denn diese haben sowohl organisatorische als auch technische Implikationen. Um Ihnen die Strategiebildung zu erleichtern, stellen wir Ihnen die Eigenheiten verschiedener Ansätze zur Datenvalidierung vor.
Prüfung einzelner Dokumente oder aggregierter Daten?
Fangen wir dazu mit den Begriffen an: Ein einzelnes Dokument ist beispielsweise eine
E-Rechnung. Unter aggregierten Daten verstehen wir dagegen eine Struktur, in der viele Informationen oder Dokumente gesammelt abgelegt wurden. Das könnten beispielsweise Daten in einem Data Warehouse sein. Faktoren für den Vergleich sind zum einen die Reaktionszeit zwischen dem Versand der Daten und dem Empfang des Prüfreports. Zum anderen sollten Sie den Aufwand bedenken, den es erfordert, um Muster in den Fehlerbildern erkennbar zu machen.

Im Bereich der Reaktionszeit haben Einzeldokumentprüfungen die Nase vorn. Wenn der Datensender innerhalb von einer bis zwei Minuten Feedback erhält, kann er in den meisten Fällen sein Dokument noch korrigieren, so dass die Supply Chain nicht beeinträchtigt wird. Voraussetzung ist zum einen, dass es einen definierten
Korrekturprozess gibt, an dem er sich orientieren kann. Zum anderen muss der Datensender auch Personal bereithalten, welches im Fehlerfall unmittelbar tätig wird. Bei der Prüfung aggregierter Daten wird dagegen während der Zeit, in der die Dokumente zur späteren Prüfung gesammelt werden, kein Feedback versandt. Das kann in Just-in-time- oder Just-in-sequence-Prozessen zu lange dauern.
Bei der Darstellung von Mustern in den Fehlerbildern sind dagegen Prüfungen auf aggregierte Daten im Vorteil. Wenn tausende Dateien einzeln geprüft werden und einige hundert Dokumente fehlerhaft sind, entstehen auch entsprechend viele Prüf-Reports. Damit diese ihre Empfänger nicht überwältigen, muss ein Aggregationsmechanismus für die Darstellung der Ergebnisse implementiert werden. Dies erfordert häufig ein separates Projekt und damit mehr Aufwand im Vergleich zu einer Validierung bereits aggregierter Daten.
Einzeldokumentprüfungen haben also dort ihre Stärken, wo vielfältige potenzielle Fehlerquellen in zeitkritischen Prozessen abgeprüft werden müssen. Prüfungen von aggregierten Daten sind dagegen besonders dort empfehlenswert, wo Sie nur einen bestimmten, nicht zeitkritischen Aspekt eines Dokumententyps über die Gesamtheit der Datensender hinweg prüfen wollen. Beispielsweise, welche Partner besonders häufig in Auftragsbestätigungen keine Kontaktdaten für Nachfragen angeben.
Auch hier existieren eine Reihe von Vergleichsfaktoren, die Sie in Form von Leitfragen bei der Entwicklung Ihrer Datenvalidierungs-Strategie formulieren können:
- Sollen Fehlerursachen bekämpft werden oder genügt es, ihre Symptome zu bearbeiten?
- Sind die Personen, die das Feedback erhalten, mit dem Datenformat vertraut, in dem die Fehler dargestellt werden?
- Wie vorteilhaft ist es, nur eine einzige Prüfschnittstelle pro Dokumentenart zu benötigen?
- Wie problematisch ist es, wenn vor dem Zeitpunkt der Validierung einzelne Dokumente durch andere Personen oder Applikationen korrigiert wurden, so dass sie nicht mehr als ursprünglich fehlerhaft zu erkennen sind?
- An welchem Zeitpunkt im Datenstrom stehen Ihnen alle Informationen zur Verfügung, die Sie für die Validierung benötigen?
Belege im Originalformat zu prüfen, hat den Vorteil, dass Sie den Prüf-Report dem ursprünglichen Datensender übermitteln können. Damit gehen Sie die Ursachen von Fehlern an und nicht ihre Symptome. Datensender werden besonders komplexe Fehlerbilder leichter beheben können, wenn sie anhand ihres eigenen Dokuments eine Gegenüberstellung von Ist und Soll erhalten. Umgekehrt wird es Datensendern schwerer fallen, Fehler zu korrigieren, wenn Sie anhand des Zielformats erklärt werden. Wenn die Fehler aber sowieso auf Ihrer Seite korrigiert werden, kann es sinnvoll sein, Dokumente gleich im Zielformat zu prüfen. Das ist besonders dann interessant, wenn Sie keinen Einfluss auf die Datensender ausüben und somit keine Verbesserungen auf deren Seite erwarten können. Besonders bei verbreiteten Zielformaten, wie CSV, JSON oder XML, reduzieren Sie zudem die Einarbeitungszeit für neue Mitarbeiter und erhöhen damit die Effizienz der Korrekturprozesse.
Prüfschnittstellen sind keine statischen Konstrukte. Mit neuen Anforderungen der Fachbereiche werden neue Prüfungen notwendig oder bestehende müssen angepasst werden. Da Validierungen im Zielformat meist mit deutlich weniger Prüfschnittstellen auskommen als Prüfungen auf unterschiedliche Quellformate, haben Sie den Vorteil, dass solche Anpassungen weniger Aufwand erfordern und weniger fehleranfällig sind. Überdies können Sie leichter Fehler identifizieren, die ein Datensender über unterschiedliche Datenformate hinweg macht. Wie gravierend dieser Faktor sich auswirkt, hängt mit der Zahl der Quellformate zusammen.
Bei schweren Strukturfehlern kann die Konvertierung eines Dokuments aber auch scheitern. Ist das der Fall, wird es in dieser Form an späterer Stelle nicht verfügbar und damit nicht prüfbar sein. Wird es im Laufe des Geschäftsprozesses händisch korrigiert, fällt im schlechtesten Fall nicht einmal auf, dass es einen Fehler in den Ursprungsdaten gab. Dieses Problem vermeiden Sie, wenn Sie Dokumente im Originalformat prüfen. Wenn solche Probleme dagegen nahezu nie auftreten, ist dieser Faktor vernachlässigbar. In manchen Prüf-Szenarien kommen zudem erst nach dem Konvertierungsprozesses prüfungsrelevante Daten hinzu und werden in das Zielformat integriert. Ist das der Fall, ist eine Prüfung im Originalformat nicht möglich.

Prüfungen im Originalformat sollten Sie dann bevorzugen, wenn die ursprünglichen Datensender im Fehlerfall Korrekturen vornehmen und alle Fehler mit langfristiger Wirkung selbst beheben sollen. In der Regel werden das externe Datensender sein. Ein einheitliches Zielformat zu validieren, ist dagegen dann attraktiv, wenn entweder eine andere Partei als der Datensender Korrekturen vornimmt oder das Format dem Datensender ebenfalls bekannt ist. In solchen Fällen bietet sich Ihnen der Effizienz-Vorteil weniger Prüfschnittstellen, Sie können aber trotzdem davon ausgehen, dass der Datensender in der Lage ist, das Feedback zu verstehen. Das gilt vor allem für Datenströme innerhalb eines Unternehmens. Die übrigen Faktoren können einen zusätzlichen Ausschlag zugunsten einer der beiden Herangehensweisen geben, sollten aber in der Regel kein entscheidendes Gewicht besitzen.
Das Ziel bestimmt den Weg!
Sie sehen, alle Herangehensweisen bieten Vor- und Nachteile. Die ideale Validierungsstrategie ist die, die mit dem geringsten Aufwand Ihre Ziele im höchsten Ausmaß umsetzt. Um sie zu ermitteln, sollten Sie sich zunächst ein klares Bild machen: Welche Ziele möchten Sie erreichen? Welche Mittel sind dafür geeignet? Und welche Umstände haben Einfluss auf das Ergebnis? Sie müssen diesen Weg aber nicht allein gehen. In Datenqualitäts-Projekten beraten wir Sie gerne bei der Entwicklung der passenden Validierungsstrategie.