You are on page 1of 32

Analiza zachorowania na cukrzycę w indiańskim

plemieniu Pima
Paulina Napierała
album 229985
12 kwietnia 2017

Spis treści
1 Opis zagadnienia i problemu 2

2 Opis danych 2

3 Opis eksperymentów/analiz 3

4 Analiza opisowa 4
4.1 Zmienna diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
4.2 Zmienna pregnant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
4.2.1 Wskaźniki sumaryczne . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
4.2.2 Wykresy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4.3 Zmienna glucose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4.3.1 Wskaźniki sumaryczne . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4.3.2 Wykresy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4.4 Zmienna mass . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
4.4.1 Wskaźniki sumaryczne . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
4.4.2 Wykresy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4.5 Zmienna age . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4.5.1 Wskaźniki sumaryczne . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
4.5.2 Wykresy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
4.6 Zmienna pedigree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4.6.1 Wskaźniki sumaryczne . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4.6.2 Wykresy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.7 Rozrzut dla par zmiennych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

5 Analiza opisowa z podziałem na grupy 14


5.1 Liczba ciąż a cukrzyca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
5.1.1 Wskaźniki opisowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
5.1.2 Wykresy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
5.2 Poziom glukozy a cukrzyca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
5.2.1 Wskaźniki opisowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
5.2.2 Wykresy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5.3 Ciśnienie rozkurczowe a cukrzyca . . . . . . . . . . . . . . . . . . . . . . . . . . 19

1
5.3.1 Wskaźniki opisowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
5.3.2 Wykresy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
5.4 Wskaźnik BMI a cukrzyca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.4.1 Wskaźniki opisowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.4.2 Wykresy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.5 Relacje genetyczne a cukrzyca . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
5.5.1 Wskaźniki opisowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
5.5.2 Wykresy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
5.6 Wiek a cukrzyca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.6.1 Wskaźniki opisowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.6.2 Wykresy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5.7 Rozrzut w grupie chorych i w grupie zdrowych . . . . . . . . . . . . . . . . . . . 29

6 Wnioski 32

1 Opis zagadnienia i problemu


Cukrzyca w przeciągu ostatnich parudziesięciu lat stała się jedną z najpowszechniejszych chorób
świata. Charakteryzuje ją podwyższony poziom stężenia glukozy we krwi, który spowodowany
jest małą ilością insuliny w organiźmie. Insulina to hormon wytwarzany przez komórki beta
wysp trzustkowych. Cukrzycę dzielimy na:

• typu 1 - jest to cukrzyca pierwotna i insulinozależna, ponieważ organizm nie wytwarza


insuliny, gdyż uszkodzene są komórki β, które niszczy nasz własny układ odpornościowy.

• typu 2 - jest to cukrzyca dojrzała i insulinoniezależna. Stanowi 80% przypadków. Tu


wydzielanie i działanie insuliny jest zaburzone, a chorzy zwykle mają insulinooporność,
czyli nie są wrażliwi na działanie insuliny. Ten typ może być uwarunkowany genetycznie,
ale główną przyczyną zachorowania jest nieprawidłowy tryb życia.

Wyjątkowo podatną grupą na zachorowanie na cukrzycę są Indianie Pima z Ameryki Północ-


nej. Szacuje się, że choruje aż 50% ich populacji. Występuje u nich także najwyższy na świecie
odesetek ludzi otyłych w populacji. W dawnych czasach, gdy Pima żyli jeszcze z myślistwa i
zbieractwa, problemu nie było. Przyzwyczajeni byli oni do długich okresów głodu, przed czym
organizm zabezpieczał się odkładaniem tkanki tłuszczowej. Wraz z rozwojem cywilizacji, wspar-
ciem ze strony rządu USA i ułatwioną dostępnością żywności wolny i oszczędny metabolizm
przestał być potrzebny. Teraz, gdy żywności jest pod dostatkiem, jej nadmierne spożywanie
prowadzi do otyłości. Zbyt duża ilość tkanki tłuszczowej powoduje podniesione ciśnienie krwi
i cukrzycę typu 2. Co ciekawe meksykańscy Pima, dalej żyjący ubogo i mający trudne życie w
górach Sierra Madre, nie mają problemu z cukrzycą.
W poniższej pracy przeanalizowano zachorowalność na cukrzycę wśród plemienia Pima oraz jej
wpływ na zdrowie.

2 Opis danych
Skorzystano z dostępnych danych PimaIndiansDiabetes pakietu mlbench. Dane te dotyczą
badań nad cukrzycą u indianek Pima, które mają conajmniej 21 lat. Zawierają dane:

• ilość ciąż (pregnant)

2
• wartość testu doustnego obciążenia glukozą (glucose)

• wartość ciśnienia rozkurczowego (pressure)

• grubość fałdy skórnej (triceps)

• stężenie insuliny po 2h (insulin)

• indeks masy do wzrost BMI (mass)

• funkcja zależna od występowania cukrzycy w rodzinie (pedigree)

• wiek (age)

• czy pacjent jest chory na cukrzycę, czy nie (diabetes)

Dane zawierają 768 rekordów i 9 zmiennych, z których osiem (pregnant, glucose, pressure,
triceps, insulin, mass, pedigree, age) to zmienne ilościowe (numeric) i jedna (diabetes) to
zmienna jakościowa (factor). Wszystkie cechy mogą mieć wpływ na występowanie cukrzycy, co
zostanie zbadane. W powyższych danych jest jednak bardzo duża ilość brakujących obserwacji.
Są one zapisane jako ”0”. Wiadomo, że są to dane brakujące, ponieważ zmienne takie jak
pressure, glucose, triceps, insulin i mass nie mogą przyjmować wartości ”0” dla osób
żywych. Z tego powodu, by zera nie zaburzały analizy danych i wyników zamieniono je na NA :

library(mlbench)
data(PimaIndiansDiabetes)
PimaIndiansDiabetes$glucose[PimaIndiansDiabetes$glucose == 0] <- NA
PimaIndiansDiabetes$pressure[PimaIndiansDiabetes$pressure == 0] <- NA
PimaIndiansDiabetes$triceps[PimaIndiansDiabetes$triceps == 0] <- NA
PimaIndiansDiabetes$insulin[PimaIndiansDiabetes$insulin == 0] <- NA
PimaIndiansDiabetes$mass[PimaIndiansDiabetes$mass == 0] <- NA

Zmienną grupującą będzie zmienna diabetes, która ma dwie grupy: pos i neg, co odpo-
wiada odpowiednio temu, że badany ma cukrzycę lub że nie ma cukrzycy. W raporcie zawarte
są wnioski z analizy wszystkich zmiennych oprócz triceps oraz insulin, ponieważ te dwie
zmienne mają najwięcej informacji brakujących, co przedstawione jest poniżej. Zmniejszona
liczba wartości może spowodować nierzetelność wniosków, dlatego odrzuciłam je.

Liczba.brakujących.danych.w.zmiennej.triceps Liczba.brakujących.danych.w.zmiennej.insulin
227 374

Tabela 1: Ilość brakujących obserwacji w triceps i insulin

3 Opis eksperymentów/analiz
W poniższej analizie pragnę znaleźć odpowiedzi na następujące pytania:

• jak dana zmienna wpływa na zachorowalność na cukrzycę?

• czy analiza danych pokrywa się z informacjami naukowymi?

3
• kto najbardziej narażony jest na zachorowanie?
W analizie danych badano miary położenia, rozproszenia, symetrii i spłaszczenia dla poszcze-
gólnych zmiennych. Dane przedstawiono również na wykresach: histogramach, wykresach pu-
dełkowych oraz słupkowych. Badano również współczynniki korelacji i rozrzuty.

4 Analiza opisowa
Do analizy stworzono własne funkcje, które wypisują podstawowe wskaźniki sumaryczne.

library(e1071) #biblioteki do mody


library(dprep)
miara.pol<-function(x){ #funkcja obliczająca miary położenia i dominantę
wynik<-c(mean(x,na.rm=TRUE),min(x,na.rm=TRUE),
quantile(x,.25,na.rm=TRUE),median(x,na.rm=TRUE),
quantile(x,.75,na.rm=TRUE),max(x,na.rm=TRUE),
(moda(x,na.rm=TRUE)))
if (length(moda(x,na.rm=TRUE))==1){
names(wynik)<-c("średnia arytmetyczna","min","I kwantyl","mediana",
"III kwantyl","max","moda")}
else {
names(wynik)<-c("średnia arytmetyczna","min","I kwantyl","mediana",
"III kwantyl","max","moda1","moda2")}
return(wynik)
}

miara.rozp<-function(x){ #funkcja obliczająca miary rozproszenia


wynik<-c(var(x,na.rm=TRUE),sd(x,na.rm=TRUE),(sd(x,na.rm=TRUE)*100)
/mean(x,na.rm=TRUE),IQR(x,na.rm=TRUE))
names(wynik)<-c("wariancja","odchylenie standardowe","wsp. zmienności","IQR")
return(wynik)
}

miara.asym<-function(x){ #funkcja obliczająca miarę asymetrii


wynik<-c(skewness(x,na.rm=TRUE))
names(wynik)<-c("skośność")
return(wynik)
}

miara.spl<-function(x){ #funkcja obliczająca miarę spłaszczenia


wynik<-c(kurtosis(x,na.rm=TRUE))
names(wynik)<-c("kurtoza")
return(wynik)
}

4
4.1 Zmienna diabetes
Zmienna diabetes mówi, czy badany ma cukrzycę, czy nie. Z danych wynika, że w badaniu
wzięło udział 268 osób z cukrzycą i 500 osób bez cukrzycy, czyli łącznie 768 osób.

A neg 500
A pos 268

Tabela 2: Ilość chorych i zdrowych

Liczba chorych i zdrowych


100 200 300 400 500
ilosc

neg pos

stan pacjenta

Rysunek 1: Wykres słupkowy zmiennej diabetes

W całej poniższej analizie ustalono, że osoby z cukrzycą będą zaznaczane kolorem czerwo-
nym, a osoby zdrowe niebieskim. Z powyższego wykresu wynika, że osób zdrowych jest 65.1%,
a chorych 34.9%, co daje znaczącą różnicę, która może wpłynąć na dalsze badania.

4.2 Zmienna pregnant


Zmienna pregnant informuje o ilości ciąż badanej osoby.

4.2.1 Wskaźniki sumaryczne


1. Miary położenia

średnia.arytmetyczna min I.kwantyl mediana III.kwantyl max moda


3.85 0.00 1.00 3.00 6.00 17.00 1.00

Tabela 3: Miary położenie zmiennej pregnant

5
2. Miary rozproszenia

wariancja odchylenie.standardowe wsp..zmienności IQR


11.35 3.37 87.63 5.00

Tabela 4: Miary rozproszenia zmiennej pregnant

3. Miary asymetrii

skośność
0.90

Tabela 5: Miary asymetrii zmiennej pregnant

4. Miary spłaszczenia

kurtoza
0.14

Tabela 6: Miary spłaszczenia zmiennej pregnant

4.2.2 Wykresy
15
200

Liczba ciaz

10
Ilosc

100

5
50
0

0 5 10 15

Ciaza Ciaza

Rysunek 2: Wykres słupkowy i boxplot zmiennej pregnant

Zmienna pregnant przyjmuje wartości z przedziału [0,17]. Średnia ilość ciąż to w przybliżeniu 4,
jednak najczęśniej kobieta była w ciąży tylko 1 raz, co pokazuje dominanta. Wartości są bardzo

6
zróżnicowane, o czym świadczy wysoki współczynnik zmienności. Współczynnik skośności jest
większy od 0, więc rozkład jest prawostronny. Kurtoza również jest większa od 0, więc rozkład
jest leptokurtyczny. Obrazuje to histogram, a także wykres pudełkowy, ponieważ odległość
mediany od maksimum jest znacząco większa od odległości mediany do minimum. Są również
3 wartości odstające.

4.3 Zmienna glucose


Wartości zmiennej glucose to wyniki testu doustnego obciążenia glukozą po 2 godzinach.

4.3.1 Wskaźniki sumaryczne


1. Miary położenia

średnia.arytmetyczna min I.kwantyl mediana III.kwantyl max moda1 moda2


121.69 44.00 99.00 117.00 141.00 199.00 100.00 99.00

Tabela 7: Miary położenie zmiennej glucose

2. Miary rozproszenia

wariancja odchylenie.standardowe wsp..zmienności IQR


932.43 30.54 25.09 42.00

Tabela 8: Miary rozproszenia zmiennej glucose

3. Miary asymetrii

skośność
0.53

Tabela 9: Miary asymetrii zmiennej glucose

4. Miary spłaszczenia

kurtoza
-0.29

Tabela 10: Miary spłaszczenia zmiennej glucose

4.3.2 Wykresy

7
200
80 100

Poziom glukozy

150
60
Ilosc

100
40
20

50
0

50 150

Glukoza Glukoza

Rysunek 3: Histogram i boxplot zmiennej glucose

Zmienna glucose przyjmuje wartości z przedziału [44,199]. Średnia arytmetyczna przyjmuje


inną wartość niż mediana, co znaczy, że rozkład nie jest symetryczny. Najczęściej przyjmowane
wartości to 100 i 99. Wariancja jest bardzo duża, co oznacza się wartości są bardzo rozproszone
wokół średniej. Współczynnik zmienności mówi jednak, że zmienna jest średniozróżnicowana.
Na dużą wariancję mogą mieć wpływ bardzo wysokie wartości zmiennej. Patrząc na wartości
skośności i kurtozy, rozkład jest prawostronny i spłaszczony.

4.4 Zmienna mass


Zmienna mass przyjmuje wartości wskaźnika BMI, czyli ilorazu masy ciała do kwadratu wzrostu.

4.4.1 Wskaźniki sumaryczne


1. Miary położenia

średnia.arytmetyczna min I.kwantyl mediana III.kwantyl max moda


32.46 18.20 27.50 32.30 36.60 67.10 32.00

Tabela 11: Miary położenie zmiennej mass

2. Miary rozproszenia

wariancja odchylenie.standardowe wsp..zmienności IQR


47.96 6.92 21.34 9.10

Tabela 12: Miary rozproszenia zmiennej mass

8
3. Miary asymetrii

skośność
0.59

Tabela 13: Miary asymetrii zmiennej mass

4. Miary spłaszczenia

kurtoza
0.84

Tabela 14: Miary spłaszczenia zmiennej mass

4.4.2 Wykresy
80

60
Wartosc BMI
60

50
Ilosc

40
40

30
20

20
0

20 40 60

BMI BMI

Rysunek 4: Histogram i boxplot zmiennej mass

Zmienna mass przyjmuje wartości z przedziału [18.2,67.1]. Najczęściej przyjmowana war-


tość to 32 i jest ona zbliżona do średniej arytmetycznej. Tak jak poprzednio, wariancja
jest duża, a współczynnik zmienności średni, więc zmienna jest średniozróżnicowana z
obserwacjami odstającymi o dużej wartości. Rozkład jest prawostronny i leptokurtyczny.

4.5 Zmienna age


Zmienna age to wiek badanej osoby.

9
4.5.1 Wskaźniki sumaryczne
1. Miary położenia

średnia.arytmetyczna min I.kwantyl mediana III.kwantyl max moda


33.24 21.00 24.00 29.00 41.00 81.00 22.00

Tabela 15: Miary położenie zmiennej age

2. Miary rozproszenia

wariancja odchylenie.standardowe wsp..zmienności IQR


138.30 11.76 35.38 17.00

Tabela 16: Miary rozproszenia zmiennej age

3. Miary asymetrii

skośność
1.13

Tabela 17: Miary asymetrii zmiennej age

4. Miary spłaszczenia

kurtoza
0.62

Tabela 18: Miary spłaszczenia zmiennej age

4.5.2 Wykresy

10
20 30 40 50 60 70 80
200

Wartosc wieku
Ilosc

50 100
0

20 40 60 80

Wiek Wiek

Rysunek 5: Histogram i boxplot zmiennej wiek

Zmienna age przyjmuje wartości z przedziału [21,81], a najczęstszą jest 22. Moda i wykresy
świadczą o tym, że badanie przeprowadzono głównie wśród osób młodych. Rozkład jest prawo-
stronny i leptokurtyczny.

4.6 Zmienna pedigree


Zmienna pedigree to wartość funkcji relacji dziedziczenia. Wskazuje, czy wcześniej w rodzinie
wystąpiła choroba.

4.6.1 Wskaźniki sumaryczne


1. Miary położenia

średnia.arytmetyczna min I.kwantyl mediana III.kwantyl max moda1 moda2


0.47 0.08 0.24 0.37 0.63 2.42 0.26 0.25

Tabela 19: Miary położenie zmiennej pedigree

2. Miary rozproszenia

wariancja odchylenie.standardowe wsp..zmienności IQR


0.11 0.33 70.22 0.38

Tabela 20: Miary rozproszenia zmiennej pedigree

3. Miary asymetrii

11
skośność
1.91

Tabela 21: Miary asymetrii zmiennej pedigree

4. Miary spłaszczenia

kurtoza
5.53

Tabela 22: Miary spłaszczenia zmiennej pedigree

4.6.2 Wykresy

2.5
Wartosc funkcji pedigree
150

2.0
1.5
100
Ilosc

1.0
50

0.5
0.0
0

0.0 1.0 2.0

Pedigree Pedigree

Rysunek 6: Histogram i boxplot zmiennej pedigree

Zmienna pedigree przyjmuje wartości z przedziału [0.08,2.42]. Najczęściej występują wartości


0.25 i 0.26. Współczynnik zmienności jest duży, czyli zmienna ma dużą zmienność. Widać, że
zmienna ma bardzo dużo obserwacji odstających. Rozkład jest prawostronny, leptokurtyczny.

4.7 Rozrzut dla par zmiennych

12
age

pedigree 0.085

mass 0.1588 0.0698 [−1,−0.5]


(−0.5,0]
(0,0.5]
pressure 0.3044 −0.016 0.3
(0.5,1]

glucose 0.21 0.2095 0.1402 0.3436

pregnant 0.1983 0.2134 −0.0253 0.0076 0.6796

Rysunek 7: Współczynniki korelacji dla par zmiennych

Powyższe współczynniki korelacji nie przyjmują wartości -1,0 lub 1, co znaczy że wśród danych
nie ma zmiennych parami całkowicie zależych oraz całkowicie niezależnych. Każda ma na siebie
choć minimalny wpływ. Trzeba jednak zauważyć, że na przykład sama dodatnia wartość współ-
czynnika korelacji nie może być interpretowana jako mówiąca o dodatniej zależności zmiennych,
ponieważ nie wiemy, czy zależność jest monotoniczna. Z tego powodu trzeba popatrzeć na ma-
cierz wykresów rozrzutu.

13
Macierz wykresów rozrzutu
50 150 20 50 20 50 80

15
pregnant

0
200

glucose
50

pressure

40
60

mass
20

0.0 2.0
pedigree
70

age
20

0 10 40 100 0.0 1.5

Rysunek 8: Macierz wykresów rozrzutu dla par zmiennych

Wszystkie wykresy nie przyjmują ustalonego kształtu, np. liniowego, paraboli, lecz są raczej
rozproszone. Oznacza to, że między większością zmiennych występuje niewielka korelacja, co
potwierdzają ich współczynniki korelacji bliskie zeru. Danych jest bardzo dużo, co dodatkowo
utrudnia odczyt wykresów.

5 Analiza opisowa z podziałem na grupy


5.1 Liczba ciąż a cukrzyca
5.1.1 Wskaźniki opisowe
1. Miary położenia

średnia.arytmetyczna min I.kwantyl mediana III.kwantyl max moda


4.87 0.00 1.75 4.00 8.00 17.00 0.00

Tabela 23: Miary położenie zmiennej pregnant dla chorych

średnia.arytmetyczna min I.kwantyl mediana III.kwantyl max moda


3.30 0.00 1.00 2.00 5.00 13.00 1.00

Tabela 24: Miary położenie zmiennej pregnant dla zdrowych

2. Miary rozproszenia

14
wariancja odchylenie.standardowe wsp..zmienności IQR
14.00 3.74 76.89 6.25

Tabela 25: Miary rozproszenia zmiennej pregnant dla chorych

wariancja odchylenie.standardowe wsp..zmienności IQR


9.10 3.02 91.49 4.00

Tabela 26: Miary rozproszenia zmiennej pregnant dla zdrowych

3. Miary asymetrii

skośność
0.50

Tabela 27: Miary asymetrii zmiennej pregnant dla chorych

skośność
1.11

Tabela 28: Miary asymetrii zmiennej pregnant dla zdrowych

4. Miary spłaszczenia

kurtoza
-0.47

Tabela 29: Miary położenie zmiennej pregnant dla chorych

kurtoza
0.65

Tabela 30: Miary położenie zmiennej pregnant dla zdrowych

Dla chorych rozkład jest spłaszczony, a dla zdrowych leptokurtyczny, jednak oba są pra-
wostronne. Wszystkie miary są większe dla chorych.

5.1.2 Wykresy

15
Ilosc ciaz a cukrzyca

100

diabetes
Count

neg
pos
50

0
0 1 2 3 4 5 6 7 8 9 10111213141517
Pregnant

Rysunek 9: Wykres słupkowy zmiennej pregnant w zależności od diabetes

Ilosc ciaz a cukrzyca

15
pregnant

10 diabetes
neg
pos

0
neg pos
diabetes

Rysunek 10: Wykresy pudełkowe zmiennej pregnant w zależności od diabetes

Kobiety z większą ilością dzieci, statystycznie częściej chorują na cukrzycę, jednak rozrzut jest
bardzo duży. Naukowo wygląda to tak, że każda ciąża jest dla kobiety zagrożeniem zachoro-

16
wania na cukrzycę ciążową, która przeważnie po urodzeniu dziecka mija. Jednak jest również
prawdopodobieństwo, że powróci ona w postaci cukrzycy typu I lub II. Stąd im większa liczba
ciąż, tym więcej kobiet chorujących na cukrzycę. Biorąc pod uwagę fakt, że badanych kobiet
zdrowych było więcej niż chorych, a i tak wraz ze wzrostem urodzeń kobiet chorych jest więcej
niż zdrowych, można stwierdzić, że jest to znaczący czynnik wpływający na zachorowanie.
5.2 Poziom glukozy a cukrzyca
5.2.1 Wskaźniki opisowe
1. Miary położenia

średnia.arytmetyczna min I.kwantyl mediana III.kwantyl max moda


142.32 78.00 119.00 140.00 167.00 199.00 125.00

Tabela 31: Miary położenie zmiennej glucose dla chorych

średnia.arytmetyczna min I.kwantyl mediana III.kwantyl max moda


110.64 44.00 93.00 107.00 125.00 197.00 99.00

Tabela 32: Miary położenie zmiennej glucose dla zdrowych

2. Miary rozproszenia

wariancja odchylenie.standardowe wsp..zmienności IQR


876.11 29.60 20.80 48.00

Tabela 33: Miary rozproszenia zmiennej glucose dla chorych

wariancja odchylenie.standardowe wsp..zmienności IQR


613.90 24.78 22.39 32.00

Tabela 34: Miary rozproszenia zmiennej glucose dla zdrowych

3. Miary asymetrii

skośność
0.09

Tabela 35: Miary asymetrii zmiennej glucose dla chorych

skośność
0.65

Tabela 36: Miary asymetrii zmiennej glucose dla zdrowych

4. Miary spłaszczenia

17
kurtoza
-0.98

Tabela 37: Miary położenie zmiennej glucose dla chorych

kurtoza
0.63

Tabela 38: Miary położenie zmiennej glucose dla zdrowych

Ponownie dla chorych rozkład jest spłaszczony, a dla zdrowych leptokurtyczny, oba pra-
wostronne oraz dla chorych wartości są wyższe.

5.2.2 Wykresy

Poziom glukozy a cukrzyca


60

40
diabetes
Count

neg
pos
20

0
50 100 150 200
glucose

Rysunek 11: Histogramy zmiennej glucose w zależności od diabetes

18
Poziom glukozy a cukrzyca
200

150
glucose

diabetes
neg
pos
100

50

neg pos
diabetes

Rysunek 12: Wykresy pudełkowe zmiennej glucose w zależności od diabetes

Wartości to wyniki testu doustnego obciążenia glukozą po 2 godzinach. Według Polskiego To-
warzystwa Diabetologicznego prawidłowe stężenie glukozy w krwi u zdrowego człowieka w 120
minucie wynosi poniżej 120mg/dl. Zakres 120-199mg/dl wskazuje na nieprawidłową tolerancję
glukozy, a już powyżej 200mg/dl świadczy o cukrzycy. Patrząc na histogram, możemy stwier-
dzić, że jest to prawda. Większość badanych chorych na cukrzycę miało wysoki poziom glukozy
we krwi (wyższy od 120mg/dl). Mediana poziomu glukozy dla osób chorych jest wyższa niż
dla osób zdrowych. Jednak poziom glukozy dla osób zdrowych ma parę wartości odstających,
zarówno bardzo wysokich, jak i jedną bardzo niską. Pomimo tego osoby są zdrowe. Może to
świadczyć o błędnie przeprowadzonym teście obciążenia glukozą. Wystarczy, że osoba badana
nie będzie na czczo lub będzie silnie zestresowana, ponieważ czynniki te chwilowo podnoszą
poziom glukozy we krwi.
5.3 Ciśnienie rozkurczowe a cukrzyca
5.3.1 Wskaźniki opisowe
1. Miary położenia

średnia.arytmetyczna min I.kwantyl mediana III.kwantyl max moda


75.32 30.00 68.00 74.50 84.00 114.00 70.00

Tabela 39: Miary położenie zmiennej pressure dla chorych

średnia.arytmetyczna min I.kwantyl mediana III.kwantyl max moda


70.88 24.00 62.00 70.00 78.00 122.00 74.00

Tabela 40: Miary położenie zmiennej pressure dla zdrowych

19
2. Miary rozproszenia

wariancja odchylenie.standardowe wsp..zmienności IQR


151.29 12.30 16.33 16.00

Tabela 41: Miary rozproszenia zmiennej pressure dla chorych

wariancja odchylenie.standardowe wsp..zmienności IQR


147.90 12.16 17.16 16.00

Tabela 42: Miary rozproszenia zmiennej pressure dla zdrowych

3. Miary asymetrii

skośność
0.08

Tabela 43: Miary asymetrii zmiennej pressure dla chorych

skośność
0.16

Tabela 44: Miary asymetrii zmiennej pressure dla zdrowych

4. Miary spłaszczenia

kurtoza
0.95

Tabela 45: Miary położenie zmiennej pressure dla chorych

kurtoza
0.96

Tabela 46: Miary położenie zmiennej pressure dla zdrowych

Miary obu grup są do siebie zbliżone, oba rozkłady są prawostronne i leptokurtyczne, a


współczynnik zmienności jest na podobnym poziomie. Może to świadczyć, że nie ma zależ-
ności między ciśnieniem rozkurczowym a cukrzycą. W obu grupach średnie arytmetyczne
zbliżone są do mediany, co oznacza, że rozkłady są prawie symetryczne.

5.3.2 Wykresy

20
Cisnienie rozkurczowe a cukrzyca

60

40
diabetes
Count

neg
pos

20

0
25 50 75 100 125
pressure

Rysunek 13: Histogramy zmiennej pressure w zależności od diabetes

Cisnienie rozkurczowe a cukrzyca


125

100
pressure

diabetes
75 neg
pos

50

25
neg pos
diabetes

Rysunek 14: Wykresy pudełkowe zmiennej pressure w zależności od diabetes

Według zaleceń Polskiego Towarzystwa Diabetologicznego wartość docelowa ciśnienia rozkur-


czowego u cukrzyków to 80-85mm Hg. Nadciśnienie rozpoznaje się, gdy ciśnienie rozkurczowe

21
wynosi ponad 90mm Hg. Według znalezionych informacji wysokie ciśnienie rozkurczowe nie za-
wsze towarzyszy cukrzycy i występuje w zaledwie 5% przypadkach po 10 latach zachorowania.
W analizowanych danych u osób chorych mediana ciśnienia rozkurczowego wynosi 75mm Hg,
co jest dobrym wynikiem. Wyniki i dla chorych i dla zdrowych mają bardzo podobny rozrzut.
W obu przypadkach występują także obserwacje odstające. Wszystko to może wskazywać, że
poziom ciśnienia rozkurczowego niekoniecznie wskazuje na cukrzycę.
5.4 Wskaźnik BMI a cukrzyca
5.4.1 Wskaźniki opisowe
1. Miary położenia

średnia.arytmetyczna min I.kwantyl mediana III.kwantyl max moda


35.41 22.90 30.90 34.30 38.92 67.10 32.90

Tabela 47: Miary położenie zmiennej mass dla chorych

średnia.arytmetyczna min I.kwantyl mediana III.kwantyl max moda


30.86 18.20 25.60 30.10 35.30 57.30 32.00

Tabela 48: Miary położenie zmiennej mass dla zdrowych

2. Miary rozproszenia

wariancja odchylenie.standardowe wsp..zmienności IQR


43.76 6.61 18.68 8.02

Tabela 49: Miary rozproszenia zmiennej mass dla chorych

wariancja odchylenie.standardowe wsp..zmienności IQR


43.04 6.56 21.26 9.70

Tabela 50: Miary rozproszenia zmiennej mass dla zdrowych

3. Miary asymetrii

skośność
1.01

Tabela 51: Miary asymetrii zmiennej mass dla chorych

skośność
0.47

Tabela 52: Miary asymetrii zmiennej mass dla zdrowych

22
4. Miary spłaszczenia

kurtoza
1.96

Tabela 53: Miary położenie zmiennej mass dla chorych

kurtoza
-0.03

Tabela 54: Miary położenie zmiennej mass dla zdrowych

Miary położenia mają większe wartości dla grupy chorych. W obu grupach średnie aryt-
metyczne zbliżone są do mediany, co oznacza, że rozkłady są prawie symetryczne.

5.4.2 Wykresy

Wskaznik BMI a cukrzyca

40

diabetes
Count

neg
pos
20

0
20 30 40 50 60 70
bmi

Rysunek 15: Histogramy zmiennej bmi w zależności od diabetes

23
BMI a cukrzyca

60

50
diabetes
mass

neg
40 pos

30

20

neg pos
diabetes

Rysunek 16: Wykresy pudełkowe zmiennej bmi w zależności od diabetes

Wskaźnik BMI mówi o stosunku masy ciała do kwadratu wzrostu. Idealne BMI zawiera się
w przedziale [18.5,25), a powyżej 25 wskazuje na nadwagę i otyłość. Średnia wartość BMI i
w grupie chorych i w grupie zdrowych mówi, że osoby badane cierpią na otyłość, przy czym
w grupie chorych na cukrzycę wskaźnik ten jest większy (około 34). Najbardziej narażone na
zachorowanie są osoby z figurą ciała typu jabłko, gdzie tkanka tłuszczowa odkłada się w okolicy
brzucha. Nie mamy informacji, jaki typ budowy mają badane osoby. Być może osoby zdrowe
mają inny typ, dlatego nie zachorowały pomimo swojej otyłości. Również nie mamy informacji
o wzroście danej osoby, a od niego w dużej mierze zależy BMI.
5.5 Relacje genetyczne a cukrzyca
5.5.1 Wskaźniki opisowe
1. Miary położenia

średnia.arytmetyczna min I.kwantyl mediana III.kwantyl max moda


0.55 0.09 0.26 0.45 0.73 2.42 0.25

Tabela 55: Miary położenie zmiennej pedigree dla chorych

średnia.arytmetyczna min I.kwantyl mediana III.kwantyl max moda


0.43 0.08 0.23 0.34 0.56 2.33 0.21

Tabela 56: Miary położenie zmiennej pedigree dla zdrowych

2. Miary rozproszenia

24
wariancja odchylenie.standardowe wsp..zmienności IQR
0.14 0.37 67.64 0.47

Tabela 57: Miary rozproszenia zmiennej pedigree dla chorych

wariancja odchylenie.standardowe wsp..zmienności IQR


0.09 0.30 69.60 0.33

Tabela 58: Miary rozproszenia zmiennej pedigree dla zdrowych

3. Miary asymetrii

skośność
1.70

Tabela 59: Miary asymetrii zmiennej pedigree dla chorych

skośność
1.99

Tabela 60: Miary asymetrii zmiennej pedigree dla zdrowych

4. Miary spłaszczenia

kurtoza
4.40

Tabela 61: Miary położenie zmiennej pedigree dla chorych

kurtoza
6.01

Tabela 62: Miary położenie zmiennej pedigree dla zdrowych

Rozkłady obu grup są prawostronne i leptokurtyczne.

5.5.2 Wykresy

25
Relacje genetyczne a cukrzyca

75

diabetes
Count

50 neg
pos

25

0
0.0 0.5 1.0 1.5 2.0 2.5
pedigree

Rysunek 17: Histogramy zmiennej pedigree w zależności od diabetes

Relacje genetyczne a cukrzyca


2.5

2.0
pedigree

1.5 diabetes
neg
pos
1.0

0.5

0.0
neg pos
diabetes

Rysunek 18: Wykresy pudełkowe zmiennej pedigree w zależności od diabetes

Opierając się na informacjach znalezionych w artykule Nowe kryteria diagnostyczne cukrzycy


ciążowej a przebieg ciąży, stan noworodków i rozwój zaburzeń metabolicznych u badanych pa-

26
cjentek, jeśli matka chorowała na cukrzycę, to istnieje prawdopodobieństwo, że dziecko również
zachoruje. Wtedy wartości funkcji pedigree powinny być większe. Jednak w grupie osób zdro-
wych jest dużo wysokich wartości odstających i mediany obu grup są zbliżone, co niekoniecznie
potwierdza, że relacje genetyczne mają istotny wpływ na zachorowanie. Według informacji na-
ukowych w sytuacji gdy jedno z rodziców jest cukrzykiem, ryzyko rozwoju cukrzycy u dziecka
wynosi około 5% w przypadku choroby ojca i 2,5%, gdy choruje matka. O funkcji pedigree
nie ma praktycznie żadnych informacji, co również wskazuje, że nie jest najlepszą zmienną
wpływającą na cukrzycę.
5.6 Wiek a cukrzyca
5.6.1 Wskaźniki opisowe
1. Miary położenia

średnia.arytmetyczna min I.kwantyl mediana III.kwantyl max moda


37.07 21.00 28.00 36.00 44.00 70.00 25.00

Tabela 63: Miary położenie zmiennej age dla chorych

średnia.arytmetyczna min I.kwantyl mediana III.kwantyl max moda


31.19 21.00 23.00 27.00 37.00 81.00 22.00

Tabela 64: Miary położenie zmiennej age dla zdrowych

2. Miary rozproszenia

wariancja odchylenie.standardowe wsp..zmienności IQR


120.30 10.97 29.59 16.00

Tabela 65: Miary rozproszenia zmiennej age dla chorych

wariancja odchylenie.standardowe wsp..zmienności IQR


136.13 11.67 37.41 14.00

Tabela 66: Miary rozproszenia zmiennej age dla zdrowych

3. Miary asymetrii

skośność
0.58

Tabela 67: Miary asymetrii zmiennej age dla chorych

skośność
1.56

Tabela 68: Miary asymetrii zmiennej age dla zdrowych

27
4. Miary spłaszczenia

kurtoza
-0.38

Tabela 69: Miary położenie zmiennej age dla chorych

kurtoza
1.91

Tabela 70: Miary położenie zmiennej age dla zdrowych

Średnia arytmetyczna i mediana dla chorych jest wyższa, co oznacza, że chorują osoby
starsze. Rozkład dla chorych jest spłaszczony, a dla zdrowych leptokurtyczny.

5.6.2 Wykresy

Wiek a cukrzyca

75

diabetes
Count

50 neg
pos

25

0
20 40 60 80
age

Rysunek 19: Histogramy zmiennej age w zależności od diabetes

28
Wiek a cukrzyca
80

60
diabetes
age

neg
pos

40

20
neg pos
diabetes

Rysunek 20: Wykresy pudełkowe zmiennej age w zależności od diabetes

Wraz z wiekiem ryzyko zachorowania na cukrzycę rośnie, co można zauważyć na wykresie


pudełkowym. Mediana wieku dla cukrzyków wynosi około 37 lat, a dla zdrowych około 28.
Jednak nie mamy informacji, w jakim wieku choroba się rozpoczęła. Dodatkowo widać, że
głównymi badanymi osobami byli ludzie młodzi z przedziału 21-30 lat, u których choroba mogła
się jeszcze nie rozwinąć. Ludzi chorych między 35 rokiem życia a 65 jest więcej niż zdrowych.
Co ciekawe, ludzi po 65 roku życia jest więcej zdrowych niż chorych, ale ze względu na już
starszy wiek mogą to być osoby, które przez większość życia nie uległy konsumpcjonizmowi, o
czym świadczą liczne wysokie wartości odstające.
5.7 Rozrzut w grupie chorych i w grupie zdrowych

29
age

pedigree −0.0531

mass 0.1625 −0.1764 [−1,−0.5]


(−0.5,0]
(0,0.5]
pressure 0.1941 −0.0765 0.2707
(0.5,1]

glucose 0.0926 −0.0266 −0.0275 0.1894

pregnant 0.0186 0.1765 −0.1857 −0.0598 0.6049

Rysunek 21: Macierz współczynników korelacji w grupie chorych

Macierz wykresów rozrzutu w grupie chorych


80 160 30 50 20 40 60
15

pregnant
0
200

glucose
80

pressure
40

mass
30

0.5 2.5

pedigree
20 50

age

0 10 40 80 0.5 2.0

Rysunek 22: Macierz rozrzutu w grupie chorych

30
age

pedigree 0.0649

mass 0.0749 0.0584 [−1,−0.5]


(−0.5,0]
(0,0.5]
pressure 0.3067 −0.0462 0.2419
(0.5,1]

glucose 0.1575 0.152 0.0921 0.2123

pregnant 0.1352 0.1736 −0.0438 −0.038 0.7005

Rysunek 23: Macierz współczynników korelacji w grupie zdrowych

Macierz wykresów rozrzutu w grupie zdrowych


60 140 20 40 20 50 80
8

pregnant
0
60 180

glucose

pressure
40
20 50

mass
0.0 2.0

pedigree
70

age
20

0 6 12 40 80 0.0 1.5

Rysunek 24: Macierz rozrzutu w grupie chorych

Analizując powyższe współczynniki korelacji i macierz rozrzutów w grupie chorych i zdrowych,


można wnioskować, że między parami zmiennych występuje bardzo mała korelacja, ponieważ

31
współczynniki mieszczą się w przedziale (-0.5,0) i (0,0.5). Tylko zależność wiek-ilość ciąż w
obu grupach jest większa od 0.5. Można się tego jednak spodziewać, ponieważ jasnym jest,
że im starsza osoba, tym posiada ona więcej dzieci. W grupach chorych i zdrowych znakiem
współczynnika korelacji różnią się pary mass-glucose, pedigree-glucose, mass-age, pedigree-age.
Te w grupie chorych mają znak ujemny. Patrząc na macierze rozrzutów w obu grupach nie
można dostrzec liniowości, punkty są porozrzucane.

6 Wnioski
Rozpoczynając od analizy poszczególnych zmiennych można zauważyć, że żadna z nich nie jest
symetryczna, a ich zmienność jest w większości przypadków na wysokim poziomie. Wynika to
z tego, że badano grupę o bardzo dużym przedziale wiekowym, a dla każdego wieku charak-
terystyczne są inne przypadłości, co powodowało czasem obserwacje odstające. Nie wykazano
również konkretnej korelacji lub braku korelacji między zmiennymi.
Dochodzę także do wniosków, że informacje naukowe dotyczące cukrzycy i jej objawów
zgadzają się z badanymi danymi. Jednak sporą część osób badanych stanowili ludzie w wieku
młodym 21-30 lat, którzy na cukrzycę jeszcze nie chorują, ale nie wykluczone, że w przyszłości
będą ją mieli. Stąd zaburzenia w analizowaniu danych i obserwacje odstające. Aby analiza była
rzetelniejsza powinna być badana ta sama ilość osób z każdego przedziału wiekowego. Wtedy
łatwiej byłoby zauważyć pewne tendencje.
Jednakże można stwierdzić, że najbardziej charakterystyczną cechą cukrzycy, co wynika z
analizy, jest zbyt wysoki poziom glukozy we krwi po dwóch godzinach od testu krzywej cu-
krowej. Nie jest to dziwne, ponieważ tym właśnie ta choroba się objawia. Na zachorowalność
ma również wpływ zbyt wysoki wskaźnik BMI, większa ilość ciąż, czy bycie w średnim wie-
ku. Można także zaprognozować, że niektóre z badanych osób w młodym wieku w niedługim
czasie zachorują, ponieważ mają parametry charakterystyczne dla cukrzycy. Praktycznie żad-
nych informacji nie dostarcza zmienna pedigree, czyli wpływ relacji genetycznych na cukrzycę.
Widać, że większość osób chorych miało wyniki podobne do osób zdrowych, co może świad-
czyć o tym, że cukrzyca rzadko jest dziedziczona. Również podwyższone ciśnienie rozkurczowe
nie jest zmienną charakterystyczną dla cukrzycy, ponieważ najwięcej chorych osób miało ten
parametr na dobrym poziomie. Nie należy jednak zapominać, że choroby to rzecz bardzo in-
dywidualna i niektórzy nie muszą mieć wszystkich objawów, tak samo, jak osoba z cechami
charakterystycznymi cukrzycy nie musi być chora.
Niewątpliwie jednak wśród 768 Indian Pima, 268 chorych, czyli 34,9%, to wynik bardzo duży.
Dla porównania w Polsce choruje niecałe 5% społeczeństwa. Oznacza to, że szczególnie oni mają
tendencje i są narażeni na zachorowanie. Również zgadza się fakt, że w ich populacji występuje
największy na świecie odsetek ludzi otyłych, ponieważ w analizie na podstawie wykresów i
wskaźników sumarycznych łatwo dostrzec, że nawet osoby nie chorujące mają zbyt wysokie
BMI.

Literatura
[1] Polskie Towarzystwo Diabetologiczne, Zalecenia kliniczne dotyczące postępowania u chorych
na cukrzycę 2014, Via Medica, 2014.
[2] Iwona Towpik, Nowe kryteria diagnostyczne cukrzycy ciążowej a przebieg ciąży, stan nowo-
rodków i rozwój zaburzeń metabolicznych u badanych pacjentek, http://www.wbc.poznan.
pl/Content/304352/index.pdf, 2013.

32