ATA Eduction

Problems von zwei Attributen unterschiedlichen Namens, die Modellbezug und der Datenschemata abhängen.
Nach der
jedoch die selbe Eigenschaft beschreiben, werden Metadaten Data Transformation wurden die Daten soweit transformiert,
herangezogen. Diese sind in Datenbanken zusätzlich gespei- dass sie für die verwendeten Data Mining Algorithmen in
chert, um Fehler in der Schemaintegration zu vermeiden. geeigneter Form bereit liegen und einfach gehandhabt werden
Insgesamt ist die Datenintegration jedoch ein Schritt der können.
ähnlich wie die Datenvorbereitung funktioniert und daher
VII. DATA R EDUCTION
ebenfalls größtenteils manuell erbracht wird. Algorithmen sind
dabei unterstützend, indem sie Datensätze nach Inkonsistenz Wie bereits oben erläutert ist es sehr zeit- und ressourcen-
und Redundanz untersuchen. Anschließend liegt ein großer aufwändig, komplexe Analysealgorithmen auf großen Daten-
korrekter Datensatz vor. Allerdings können die Data Mining mengen anzuwenden. Daher ist es sehr wichtig, die Dimension
Algorithmen nicht mit allen Einheiten umgehen. Dazu müssen und die Anzahl der Datenobjekte zu reduzieren. Wie auch bei
die Daten transformiert werden. der Data Transformation besteht hier das Grundprinzip, den
Datensatz zwar zu reduzieren, dabei jedoch möglichst keine
VI. DATA T RANSFORMATION Abstriche in Integrität und Qualität machen zum müssen. Für
Bei der Data Transformation werden die Daten in eine die Reduzierung der Daten bestehen verschiedene Ansätze:
für das Data Mining geeignete Form gebracht. Dabei werden
besonders folgende Aspekte betrachtet (nach [3]): A. Reduzierung der Dimension
Hier werden nicht oder kaum relevante Attribute und red-
A. Normalisierung undante Attribute erkannt und entfernt. Der Einfluss eines
Je nach dem, welche Genauigkeit und Größenordnung der Attributs auf andere Attribute kann algorithmisch festgestellt
Werte eines Attributs benötigt wird, werden die Werte der werden, in Datenbanken beispielsweise durch die Ermittlung
Daten unterschiedlich normalisiert. Dies bedeutet, sie in einen funktionaler Abhängigkeiten. Hat ein Attribut keinen oder
kleineren Wertebereich zu skalieren, wie zum Beispiel -1.0 bis wenig Einfluss auf andere Attribute so kann es eliminiert
1.0. Auch kategorische Werte können in Zahlen transformiert werden.
werden. Hierbei ist zu beachten, dass eine etwaige Ordnung
wie zum Beispiel “sehr gut“ >“gut“ >“schlecht“ auch bei B. Reduzierung der Entitätenanzahl
der Transformation nicht verloren geht. Die Aussagekraft der Die Vielfalt der Werte eines bestimmten Attributs kann
Daten muss möglichst beibehalten werden. durch eine Annäherung durch Modelle ersetzt werden. Fol-
gen die Werte mathematischen Gesetzmäßigkeiten, so müssen
B. Smoothing lediglich die Modelle gespeichert und verwendet werden. Bei-
Auch bei der Data Transformation können fehlerhafte Werte spiele für Modelle sind zunächst mathematische Funktionen
durch Clustering oder Regression wie beim Data Cleaning (lineare Modelle, log-lineare Modelle, etc.) aber auch Cluster
entfernt werden. oder Histogramme.
C. Aggregation C. Datenkomprimierung
Analog dazu, dass bei der Normalisierung die Genauigkeit Um die Größe des Datensets zu reduzieren können die
der Werte reduziert wird, können auch mehrere Werte zu enthaltenen Werte zudem komprimiert werden.
einem zusammengefasst werden. Falls beispielsweise nur der
durchschnittliche Jahresumsatz von Bedeutung für die Daten- D. Diskretisierung und Konzepthierarchien
analyse ist, so können die Tagesumsätze aggregiert werden. Vielfältige Werte können auch durch Wertebereiche oder
Hier ist es wie bei der Normalisierung wichtig, dass auf die höhere konzeptuelle Entitäten ersetzt werden (siehe Kapitel 6).
Anwendung des Datensatzes Bezug genommen wird, um nicht So wird Data Mining auf verschiedenen Abstraktionsebenen
nötige Informationen zu verlieren. ermöglicht.
Die Reduktion des Datenumfangs ist ein entscheidender
D. Generalisierung Schritt des Data Preprocessings, da hier einerseits Effizienz
Die Konzepte hinter einzelnen Entitäten und ihren gewonnen wird und zudem auch die Aussagekraft der Daten
Attributen können ebenfalls zusammengefasst werden, falls verbessert werden kann. Nach den oben erläuterten Prozessen
es das jeweilige Projekt zulässt. So könnte bei Kunden anstatt im Bereich des Data Cleanings, der Data Integration, Nor-
eines numerischen Werts “Alter“ lediglich zwischen “jung“, malisation und Reduction steht ein wesentlich kompakterer
“erwachsen“ und “senior“ unterschieden werden. So kann Datensatz zur Verfügung der ein schnelleres und genaueres
sogar die Aussagekraft eines Datensatzes gesteigert werden, Arbeiten mit den Daten ermöglicht.
falls zwischen Kunden im Alter von 33 und 35 Jahren
tatsächlich kein bedeutender Unterschied besteht.
Die Normalisierung und das Smoothing sind Methoden

die zum großen Teil automatisiert ablaufen können,
während Aggregation und Generalisierung sehr stark vom

ATA Eduction

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

ATA Eduction

Uploaded by

Copyright:

Available Formats

Problems von zwei Attributen unterschiedlichen Namens, die Modellbezug und der Datenschemata abhängen.

Die Normalisierung und das Smoothing sind Methoden

You might also like