You are on page 1of 1

Problems von zwei Attributen unterschiedlichen Namens, die Modellbezug und der Datenschemata abhängen.

Nach der
jedoch die selbe Eigenschaft beschreiben, werden Metadaten Data Transformation wurden die Daten soweit transformiert,
herangezogen. Diese sind in Datenbanken zusätzlich gespei- dass sie für die verwendeten Data Mining Algorithmen in
chert, um Fehler in der Schemaintegration zu vermeiden. geeigneter Form bereit liegen und einfach gehandhabt werden
Insgesamt ist die Datenintegration jedoch ein Schritt der können.
ähnlich wie die Datenvorbereitung funktioniert und daher
VII. DATA R EDUCTION
ebenfalls größtenteils manuell erbracht wird. Algorithmen sind
dabei unterstützend, indem sie Datensätze nach Inkonsistenz Wie bereits oben erläutert ist es sehr zeit- und ressourcen-
und Redundanz untersuchen. Anschließend liegt ein großer aufwändig, komplexe Analysealgorithmen auf großen Daten-
korrekter Datensatz vor. Allerdings können die Data Mining mengen anzuwenden. Daher ist es sehr wichtig, die Dimension
Algorithmen nicht mit allen Einheiten umgehen. Dazu müssen und die Anzahl der Datenobjekte zu reduzieren. Wie auch bei
die Daten transformiert werden. der Data Transformation besteht hier das Grundprinzip, den
Datensatz zwar zu reduzieren, dabei jedoch möglichst keine
VI. DATA T RANSFORMATION Abstriche in Integrität und Qualität machen zum müssen. Für
Bei der Data Transformation werden die Daten in eine die Reduzierung der Daten bestehen verschiedene Ansätze:
für das Data Mining geeignete Form gebracht. Dabei werden
besonders folgende Aspekte betrachtet (nach [3]): A. Reduzierung der Dimension
Hier werden nicht oder kaum relevante Attribute und red-
A. Normalisierung undante Attribute erkannt und entfernt. Der Einfluss eines
Je nach dem, welche Genauigkeit und Größenordnung der Attributs auf andere Attribute kann algorithmisch festgestellt
Werte eines Attributs benötigt wird, werden die Werte der werden, in Datenbanken beispielsweise durch die Ermittlung
Daten unterschiedlich normalisiert. Dies bedeutet, sie in einen funktionaler Abhängigkeiten. Hat ein Attribut keinen oder
kleineren Wertebereich zu skalieren, wie zum Beispiel -1.0 bis wenig Einfluss auf andere Attribute so kann es eliminiert
1.0. Auch kategorische Werte können in Zahlen transformiert werden.
werden. Hierbei ist zu beachten, dass eine etwaige Ordnung
wie zum Beispiel “sehr gut“ >“gut“ >“schlecht“ auch bei B. Reduzierung der Entitätenanzahl
der Transformation nicht verloren geht. Die Aussagekraft der Die Vielfalt der Werte eines bestimmten Attributs kann
Daten muss möglichst beibehalten werden. durch eine Annäherung durch Modelle ersetzt werden. Fol-
gen die Werte mathematischen Gesetzmäßigkeiten, so müssen
B. Smoothing lediglich die Modelle gespeichert und verwendet werden. Bei-
Auch bei der Data Transformation können fehlerhafte Werte spiele für Modelle sind zunächst mathematische Funktionen
durch Clustering oder Regression wie beim Data Cleaning (lineare Modelle, log-lineare Modelle, etc.) aber auch Cluster
entfernt werden. oder Histogramme.
C. Aggregation C. Datenkomprimierung
Analog dazu, dass bei der Normalisierung die Genauigkeit Um die Größe des Datensets zu reduzieren können die
der Werte reduziert wird, können auch mehrere Werte zu enthaltenen Werte zudem komprimiert werden.
einem zusammengefasst werden. Falls beispielsweise nur der
durchschnittliche Jahresumsatz von Bedeutung für die Daten- D. Diskretisierung und Konzepthierarchien
analyse ist, so können die Tagesumsätze aggregiert werden. Vielfältige Werte können auch durch Wertebereiche oder
Hier ist es wie bei der Normalisierung wichtig, dass auf die höhere konzeptuelle Entitäten ersetzt werden (siehe Kapitel 6).
Anwendung des Datensatzes Bezug genommen wird, um nicht So wird Data Mining auf verschiedenen Abstraktionsebenen
nötige Informationen zu verlieren. ermöglicht.
Die Reduktion des Datenumfangs ist ein entscheidender
D. Generalisierung Schritt des Data Preprocessings, da hier einerseits Effizienz
Die Konzepte hinter einzelnen Entitäten und ihren gewonnen wird und zudem auch die Aussagekraft der Daten
Attributen können ebenfalls zusammengefasst werden, falls verbessert werden kann. Nach den oben erläuterten Prozessen
es das jeweilige Projekt zulässt. So könnte bei Kunden anstatt im Bereich des Data Cleanings, der Data Integration, Nor-
eines numerischen Werts “Alter“ lediglich zwischen “jung“, malisation und Reduction steht ein wesentlich kompakterer
“erwachsen“ und “senior“ unterschieden werden. So kann Datensatz zur Verfügung der ein schnelleres und genaueres
sogar die Aussagekraft eines Datensatzes gesteigert werden, Arbeiten mit den Daten ermöglicht.
falls zwischen Kunden im Alter von 33 und 35 Jahren
tatsächlich kein bedeutender Unterschied besteht.

Die Normalisierung und das Smoothing sind Methoden


die zum großen Teil automatisiert ablaufen können,
während Aggregation und Generalisierung sehr stark vom

You might also like