You are on page 1of 1

Business Analytics Using Python

Data C lean ing


O b je ct iv e s
Un d e rst an d an d l e a r n h ow t o c l ean dat a in a dat a f ra m e .

D at a se ts
pati en t - dat a . c sv

A s si g nm e nt s
Pr o vi d e P yth on c od e u sin g Pan da s / R Co d e u sin g DP L YR t o r ea d th e
ab ov e f i l e an d ca r r y ou t e x e rci s e a s p e r P r ep ar ati on & R ep o rtin g
s ec ti on s. Y ou ma y i n sta l l an y oth e r pa c kag e s a s ma y b e r e qu ir e d .

D at a P re p a r at i on :
1. Pr o vi d e N ew C ol u m n B MI - Valu e (B od y Ma ss In d e x) u s in g t h e gi v en
f or mu l a
BMI = W ei g h t ( K Gs) / H e igh t 2 (M et e r s)
2. Pr o vi d e N ew C o l u mn B MI - La b el ba s ed on B MI - Valu e a s p e r f oll o w s
Un d e rw ei gh t L es s Th an 18 .5 0
N or mal 18. 50 t o < 25 .00
O v er w ei g h t 25. 00 to < 3 0.0 0
Ob e s e 30. 00 An d Ab o v e
3. Re vi e w th e D ata s et F o r E r r o rs In D ata . P r o vid e s olu ti on t o r e cti fy
th e e r r or .
4. Re vi e w th e Dat as e t Fo r Mi ss in g Dat a. P r o vid e s olu ti on t o r e cti fy th e
sa m e.
5. Co n v e rt th e H eal th G ra d e o f th e r e c o rd s as p e r f ol lo w s
1 G o od
2 N or mal
3 P oo r
6. Co n v e rt th e In su r eS tatu s o f th e r e c o rd s a s p e r f oll o ws
A 1
B 2
C 3

Re po rt i n g :
1. Di spl a y t op 10 r e co r ds ba s ed on B MI - V al u e .
2. Di spl a y b ott om 1 0 r e c o rd s b a s ed on BM I - Val u e.
3. Pr o vi d e f r equ en cy / c ou n t s o f
G en d e r > R ac e
4. Pr o vi d e ma x , mi n an d a v e rag e val u e s for BM I - Va lu e s as per
f ol l ow i n g
Rac e > G en d e r .
5. Di spl a y Al l R e c o rd s f or a ll p e opl e wh o a r e d ead .
6. Di spl a y Al l R e c o rd s f or “ Hi span ic F em al e s”
7. Pr o vi d e 7 sa mpl e r e c o rd s f r om th e Da ta s et . Us e s e ed(7 07)

06-DataCleaning-PatientData.docx Page: 1/1

You might also like