Daten
Qualität von Daten
Die Qualität von Daten ist von der Anwendung, was die Daten verarbeiten soll, abhängig. Datenfehler, fehlende Werte etc. sind das Aushängeschild von schlechter Qualität solche Daten.
Erfassung von Daten
Die Erfassung von Daten kann aufgrund der Qualität unterschiedlicher Datenquellen beeinflusst werden. Ebenfalls hat die Speicherung und Verwaltung von Daten einen großen Einfluss auf die Qualität der Daten.
Qualitätskriterien für Daten
Vollständigkeit
Ein Datensatz ist vollständig , wenn alle Attribute gültige Werte enthalten . Die Vollständigkeit wird in Prozent angegeben .
Beispiel: Ein vollständiger Datensatz für eine Person muss folgende Daten enthalten : ID , Vorname , Nachname , Geburtsdatum.
Korrektheit
Die Daten müssen mit der Realität übereinstimmen . Die Korrektheit wird in Prozent angegeben.
Bespiel: Das Geburtsdatum einiger Personen enthält den Wert 01.01.1900.
Eindeutigkeit
Jeder Datensatz muss eindeutig sein. Die Korrektheit wird in Prozent angegeben.
Beispiel: Zwei Datensätze von Personen weisen bis die gleichen Werte auf. Allerdings ist das Geburtsdatum in diesem Fall nicht eindeutig zu interpretieren.
Konsistenz
Die Konsistenz eines Datensatzes darf in sich und zu anderen Datensätzen keine Widersprüche aufweisen. Die Konsistenz wird in Prozent angegeben.
Beispiel: In einem Datensatz über verkaufte Artikel wird neben der Anzahl der Artikel und dem Preis pro Artikel auch noch der Gesamtbetrag gespeichert.
Aktualität
Die Aktualität alle Werte der Datensätze müssen jeweils den aktuellen Zustand der Realität abbilden. Die Aktualität wird in Prozent angegeben.
Beispiel: Es werden die Daten von 50 Personen in der Datenbank gespeichert . Da Personen im Laufe der Zeit umziehen oder heiraten, verlieren auch die gespeicherten Daten an Aktualität.
Genauigkeit
Die Genauigkeit der Daten müssen in der jeweils geforderten Exaktheit vorliegen. Die Genauigkeit wird in Prozent angegeben.
Beispiel: Die Messdaten einer Maschine sollen immer mit zwei Nachkommastellen abgespeichert werden. Zwei von 100 Messdaten weichen von dieser Regel ab . Die Genauigkeit beträgt in diesem Fall 98 %.
Redundanzfreiheit
Keine Informationen darf mehrfach vorhanden sein. Die Redundanzfreiheit wird in Prozent angegeben.
Beispiel: Aus diverse Datenquellen wurden vorgehaltene Kundendaten zusammengeführt. Einige Kundennummer kommen doppelt vor. Damit sind diese Datensätze nicht redundanzfrei. .
Einheitlichkeit
Die Werte eines Datenbestandes müssen strukturiert und einheitlich sein. Die Einheitlichkeit wird in Prozent angegeben.
Beispiel: Das Datum ist immer im Format der ISO 8601 abzulegen ( YYYY-MM-DD ).
Analyse der Daten (Data Profiling)
*Hier wird versucht , Fehler und Widersprüche in den Datenbeständen zu erkennen . Dies können z . B . inkonsistente oder fehlerhafte Daten sein . Aus den Ergebnissen dieser Analyse werden die weiteren Maßnahmen zur anschließenden Bereinigung der Daten abgeleitet .
Bereinigung der Daten (Data Cleaning)
*In dieser Phase werden die bei der Analyse erkannten Fehler und Widersprüche beseitigt . Dabei kommen unterschiedliche Verfahren und Algorithmen zur Anwendung . Beispiele für die Datenbereinigung sind beispielsweise die Beseitigung von Dubletten oder die Vervollständigung von Datensätzen.
Monitoring der Daten (Data Monitoring)
*Nachdem durch die Bereinigung der Daten eine gewisse Datenqualität erreicht wurde , wird nach einer gewissen Zeit durch ein Monitoring diese erneut überprüft . Dadurch lässt sich die Qualität der Datenbestände über größere Zeiträume bewahren . Fehlt dagegen ein Monitoring der Daten , sinkt die erreichte Qualität mit der Zeit kontinuierlich ab ( siehe auch Datenalterung ). Deswegen muss das Monitoring in regelmäßigen Abständen wiederholt werden .