Professional Documents
Culture Documents
Άσκηση 1 - Λύση
Άσκηση 1 - Λύση
Το αρχείο SampleData_Ebola.csv περιέχει δεδομένα από την κρούσματα του φονικού ιού
Ebola σε μερικές χώρες της Αφρικής. Ζητούνται να εφαρμοστούν διαδικασίες καθαρίσματος
και μετασχηματισμού δεδομένων με στόχο να αναδειχθεί η διάδοση του ιού στις
αφρικάνικές χώρες.
Όταν ολοκληρωθεί το
φόρτωμα των δεδομένων το
εργαλείο προσφέρει μια
προεπισκόπηση.
Ο χαρακτήρας ? σημαίνει
mi s sing va lue (πεδίο χωρίς
τιμή)
Από την επιλογή Sta tistics
μπορούμε να πάρουμε μια
εποπτική εικόνα.
Διαπιστώνουμε τα επόμενα
α) Τα πεδία Da te και Da y
μάλλον προκαλούν πλεονασμό
β) Υπάρχουν εγγραφές σχετικά
με τις περιπτώσεις (Ca s es) και
τους Θανάτους (Deaths)
γ) Υπάρχουν πολλές
περιπτώσεις με mi ssing va lues
δ) Υπάρχουν χώρες εκτός
αφρικής.
Για το συγκεκριμένο
παράδειγμα λαμβάνουμε τις
επόμενες αποφάσεις
α) Θα διατηρήσουμε την Da te
και θα διαγράψουμε την Da y
β) Θα πρέπει να
δημιουργήσουμε δυο
διαφορετικά σύνολα, ένα για
τις περιπτώσεις (ca s es) και ένα
για τους θανάτους (deaths)
γ) Τα mi s sing values θα τα
μετατρέψω σε μηδεν για να
μπορώ να εκτελέσω πράξεις
δ) Χώρες εκτός Αφρικής θα τις
διαγράψω.
3
Με dra g a nd drop φορτώνω τα
διαθέσιμα δεδομένα και
εμφανίζει τον opera tor
Retri eve
Εισάγουμε τον τελεστή Sel ect
Attri butes για να φτιάξουμε τα
σχετικά υποσύνολα
δεδομένων και να
αφαιρέσουμε τις στήλες που
δεν θέλουμε (αποφάσεις α και
δ).
4 Επιλέγω να αποθηκεύσω τα
αποτελέσματα κάθε
διαδρομής σε διαφορετικό
σύνολο δεδομένων (ca s es,
dea ths) στο repository ώστε να
είναι διαθέσιμα για άλλες
διαδικασίες και να
αξιοποιηθούν.
2 Η στήλη Da te περιέχει
την ημερομηνία που
έγιναν οι μετρήσεις.
Σκοπός μου είναι αντί
για μια ημερομηνία να
έχω την εβδομάδα του
έτους, υποθέτοντας ότι
θα είναι ένας αριθμός
από το 1 εως το 52.
3 Εισάγω τον Da te to
Numeri cal τελεστή και
ρυθμίζω τις επόμενες
παραμέτρους
4 O τελεστής Aggrega te
λειτουργεί όπως το
Group by.. ha ving count
της SQL. Εν συντομία το
SQL που θέλουμε είναι:
SELECT Da te_week,
s um(Cases_Guinea),
s um(Cases_Liberia),
s um(Cases_Mali),
s um(Cases_Nigeria),
s um(Cases_Senegal),
s um(Cases_SierraLeone)
FROM Ta bl e
GROUP BY Da te_week,
Ca s es_Guinea,
Ca s es_Liberia,
Ca s es_Mali,
Ca s es_Nigeria,
Ca s es_Senegal,
Ca s es_SierraLeone
Στο a ggregation
επιλέγουμε τις στήλες
που θα αθροίσουμε,
επομένως φτιάχουμε την
λίστα με τις στήλες και
δίπλα σε κάθε στήλη
ορίζουμε την αθροιστική
συνάρτηση s um
(υπάρχουν και άλλες
διαθέσιμες αλλά αυτή
την στιγμή δεν μας
κάνουν).
Για το Group a ttributes
επιλέγουμε μόνο την
Da te_week που έχει
δημιουργηθεί από τον
προηγούμενο operator.
Κατά συνέπεια το
διάγραμμα δεν είναι
σωστό και θα πρέπει οι
παρατηρήσεις που είναι
εντός του 2015 να
μετακινηθούν δεξιά του
διαγράμματος.
6 Τοποθετούμε τον
opera tor Ma p για να
αλλάξουμε τις τιμές του
πεδίου Da ta _Week
σύμφωνα με τον
μετασχηματισμό 153
και 254.
Οι παλαιές τιμές
αναφέρονται στην
ημερομηνία Ja n 2, 2015
και Ja n 5, 2015 οι οποίες
έχουν week_number 1
και 2 αντίστοιχα.
Με τις νέες τιμές
μετακινούνται στο τέλος
της λίστας των
εβδομάδων που ξεκινάει
από τον αριθμό 12 (μέσα
Μαρτίου 2014).
7 Οπτικοποιούμε το
αποτέλεσμα για να
βεβαιωθούμε.
Συνδέουμε την
διαδικασία με την έξοδο
8
Αποθηκεύουμε το
αποτέλεσμα του
συνόλου δεδομένων σε
νέο σημείο
9 Αποθηκεύομυε την
διαδικασία με ένα νέο
όνομα
(1_Aggrega te_at_week_l
evel ) στο repository που
έχουμε ξεκινήσει και
εργαζόμαστε
(myna me_ebola)
Σε αυτό το σημείο στο repository υπάρχουν 4 διαφορετικά σύνολα δεδομένων και δυο
διαδικασίες. Με την ίδια λογική μπορεί να αναπτυχθεί μια νέα διαδικασία για την
δημιουργία του data set SampleData_Ebola_deaths_aggregated