You are on page 1of 15

Krótki przewodnik po Statystyce i SPSS

Jarosław Domalewski

Podstawowe operacje na danych i zmiennych w SPSS

Niniejsza część przewodnika po statystyce i SPSS ma na celu zaznajomienie użytkownika z


podstawowymi operacjami przydatnymi w pracy na całych zbiorach danych oraz możliwymi
przekształceniami zmiennych.

Filtrowanie danych

Czasami zachodzi konieczność wyboru spośród wszystkich obserwacji zawartych w zbiorze danych
jedynie ich części charakteryzującej się określonymi wartościami w zakresie jednej lub kilku zmiennych.
Na przykład spośród danych ogólnopolskich chcemy poddać analizie obserwacje pochodzące z
jednego, wybranego województwa lub przedmiotem naszego zainteresowania są dane odnoszące się
wyłącznie do kobiet. Możliwe jest uszczegóławianie wyboru poprzez wyselekcjonowanie do analiz
danych pochodzących od kobiet w wieku powyżej 45 roku życia i zamieszkałych na wsi.

Procedura umożliwiająca filtrowanie obserwacji znajduje się w zakładce DANE pod nazwą WYBIERZ
OBSERWACJE. Po jej uruchomieniu pojawia się okno.

Domyślnie zaznaczona jest opcja Wszystkie obserwacje, która umożliwia wyłączenie filtrów i analizę
wszystkich obserwacji w zbiorze. Kolejna z opcji Jeśli spełniony jest warunek pozwala użytkownikowi
zdefiniowanie warunku do wyboru obserwacji. Jej zaznaczenie aktywuje przycisk Jeżeli…, po kliknięciu
którego uruchamia się nowe okno umożliwiające określenie warunku wyboru obserwacji.

1
Krótki przewodnik po Statystyce i SPSS
Jarosław Domalewski

W analizowanym zbiorze znajdują się dane ogólnopolskie. Naszym celem jest wybór obserwacji
odnoszących się do respondentów zamieszkałych w województwie dolnośląskim i warmińsko-
mazurskim. W pierwszej kolejności musimy sprawdzić w jaki sposób zostały zakodowane dane
dotyczące województwa. Zaznaczenie zmiennej województwo i kliknięcie prawym przyciskiem myszy
wywołuje okno kontekstowe zawierające dostęp do podstawowych informacji o zmiennej (Informacja
o zmiennej), którego uruchomienie otwiera kolejne okno.

Rozwijając listę dowiadujemy się, że danym z województwa dolnośląskiego został przypisany kod 2, a
z warmińsko-mazurskiego 28. Po zamknięciu okna z informacją o zmiennej możemy przystąpić do
zdefiniowania warunku wyboru obserwacji (filtra).

2
Krótki przewodnik po Statystyce i SPSS
Jarosław Domalewski

W naszym przykładzie warunek ma postać v2 = 2 | v2 = 28, gdzie v2 to nazwa zmiennej województwo,


a „|” oznacza operator logiczny lub. Kliknięcie Dalej zatwierdza określony warunek wyboru obserwacji,
co jest widoczne w oknie Wybierz obserwacje.

3
Krótki przewodnik po Statystyce i SPSS
Jarosław Domalewski

Akceptacja OK włącza filtr. W Edytorze danych w obszarze danych można zauważyć, że w przypadku
obserwacji z innych niż wybrane województw numery obserwacji są przekreślone, co jest
równoznaczne z ich odfiltrowaniem, zgodnie z domyślnie zaznaczonym i przez nas zaakceptowanym
wynikiem wyboru obserwacji.

Istnieje możliwość skopiowania wybranych obserwacji do nowego zbioru danych, jak również trwałego
usunięcia niewybranych obserwacji, co jednak jest najmniej polecane.

Uruchomienie procedury wybierz obserwacje skutkuje wprowadzeniem do bazy nowej zmiennej


filtrującej, zawierającej zdefiniowany warunek. Zmienna ta znajduje się na końcu listy zmiennych.

Po jej zapisaniu możliwe jest wykorzystanie zdefiniowanego przez nas warunku wyboru obserwacji w
przyszłości bez konieczności jego ponownego wpisywania. Wystarczy wprowadzić zmienną filtrującą
do pola Użyj zmiennej filtrującej.

Jak już wspomniano warunki wyboru obserwacji można dowolnie rozbudowywać. Załóżmy, że naszym
celem jest analiza danych z wybranych już dwu województw (dolnośląskiego i warmińsko-
mazurskiego), ale jednocześnie odnoszących się do kobiet (zmienna płeć v337, kod 2 – kobieta),
mieszkających na wsi (zmienna wielkość miejscowości wskazanej w próbie jako miejsce zamieszkania
v411, kod 1 – wieś). W tym przypadku warunek wyboru obserwacji wyglądałby następująco (& -
operator logiczny „i”):

(v2 = 2 I v2 = 28) & v337 = 2 & v411 = 1

Więcej informacji o funkcji Wybierz obserwacje można znaleźć:

https://www.ibm.com/support/knowledgecenter/pl/SSLVMB_25.0.0/statistics_mainhelp_ddita/spss/
base/idh_sele.html

Podział na podzbiory

Czasami istnieje konieczność analizy zbiorów danych wyróżnionych ze względu na wartości danej
zmiennej. Na przykład naszym celem jest przeprowadzenie szeregu analiz oddzielnie dla kobiet i
mężczyzn. Zmienną grupującą jest w tym przykładzie płeć, na podstawie której zostaną wyróżnione
dwa podzbiory. Procedura jest dostępna w zakładce DANE, funkcja PODZIEL NA PODZBIORY:

4
Krótki przewodnik po Statystyce i SPSS
Jarosław Domalewski

Domyślnie zaznaczona jest opcja Analizuj wszystkie obserwacje, nie twórz grup, która wyłącza podział
na podzbiory. Wybór opcji Porównaj grupy skutkuje wyświetlaniem zgrupowanych tabel z wynikami w
postaci umożliwiającej ich porównywanie. Opcja Przedstaw wyniki w podziale na grupy powoduje
wyświetlanie całych procedur (z wszystkimi tabelami wynikowymi) oddzielnie dla każdej z
wyróżnionych podgrup. Maksymalnie można wykorzystać osiem zmiennych grupujących.

W analizowanym przykładzie zmienną grupującą będzie płeć.

Wybrano opcję Porównaj grupy. W tym przypadku wszystkie tabele właściwe dla danej analizy będą
zestawione, umożliwiając tym samym porównywanie wyników.

5
Krótki przewodnik po Statystyce i SPSS
Jarosław Domalewski

Przekształcenia zmiennych

Analizując dane w SPSS często stajemy przed koniecznością przekształcania istniejących w zbiorze
zmiennych. Owe przekształcenia mogą mieć różną postać. Najprostsza to rekodowanie istniejącej
zmiennej polegające na zmianie liczby jej wartości. Na przykład celem naszych analiz może być
porównywanie różnorodnych charakterystyk badanych z uwzględnieniem dawnego podziału
rozbiorowego kraju. Problem polega na tym, że jedyną zmienną obrazującą zróżnicowanie regionalne
są województwa. Na bazie tej zmiennej może zostać opracowana nowa zmienna regiony obrazująca w
przybliżeniu dawne podziały rozbiorowe.

Istnieje również możliwość bardziej złożonych przekształceń zmiennych, polegających na utworzeniu


nowej zmiennej w oparciu o wartości dwóch lub większej ilości zmiennych bazowych (istniejących w
analizowanym zbiorze danych). Poniżej przedstawione zostaną oba sposoby przekształcania
zmiennych.

6
Krótki przewodnik po Statystyce i SPSS
Jarosław Domalewski

Rekodowanie zmiennych

W analizowanym zbiorze danych znajduje się zmienna v326 (P89. Jakie jest P. wykształcenie?). Zmienna
ta zawiera dwanaście kategorii poziomu wykształcenia. Z perspektywy analiz jest mało funkcjonalna ze
względu na dużą liczbę kategorii, a przede wszystkim znaczące zróżnicowania w ich liczebności (np.
wykształcenie gimnazjalne – 1,1%, zasadnicze zawodowe – 21,9%). W związku z tym podjęto decyzję o
ograniczeniu liczby kategorii poziomu wykształcenia badanych do czterech.

podstawowe

zawodowe

średnie

wyższe

Na podstawie zmiennej v326 utworzona zostanie nowa zmienna edu, która będzie przyjmowała cztery
wartości – od wykształcenia podstawowego, poprzez zawodowe, średnie aż do wyższego. W tym celu
zostanie wykorzystana procedura rekodowania. W SPSS dostępne są dwa rodzaje rekodowania:

- na te same zmienne – rekodowana jest zmienna źródłowa, co oznacza bezpowrotną utratę


jej pierwotnej wersji;

- na inne zmienne – na bazie zmiennej źródłowej utworzona zostaje nowa zmienna wynikowa;
jest to rozwiązanie zdecydowanie bardziej korzystne i polecane.

Procedura jest dostępna w zakładce PRZEKSZTAŁCENIA, następnie REKODUJ NA INNE ZMIENNE.

7
Krótki przewodnik po Statystyce i SPSS
Jarosław Domalewski

Po odnalezieniu na liście interesującej nas zmiennej v326 przenosimy ją do środkowego okna.


Następnie w polu ‘zmienna wynikowa’ wpisujemy nazwę (edu) i etykietę (poziom wykształcenia) nowej
zmiennej, która zostanie utworzona na bazie zmiennej v326, po czym klikamy na przycisk Zmień. W
efekcie w środkowym oknie zamiast znaku zapytania po strzałce pojawi się nazwa nowej zmiennej
‘edu’. W kolejnym kroku musimy zdefiniować wartości źródłowe i wynikowe obu zmiennych. W tym
celu należy kliknąć na przycisk.

Uruchamia się kolejne okno podzielone na dwie części. W lewej połowie definiujemy wartości zmiennej
źródłowej, w naszym przypadku jest to zmienna v326. Możemy zdefiniować pojedynczą wartość,
wskazać na systemowe bądź zdefiniowane wartości braków danych, które zostaną przekształcone na
inne wartości w zmiennej wynikowej, określić zakres wartości źródłowych, wskazać wartość, która wraz
z mniejszymi wartościami zostanie zrekodowana lub odwrotnie, wreszcie rekodować wszystkie
wartości zmiennej źródłowej na jedną wartość zmiennej wynikowej.

8
Krótki przewodnik po Statystyce i SPSS
Jarosław Domalewski

W analizowanym przykładzie w polu właściwym dla zmiennej źródłowej zawsze będziemy definiować
zakres. Przyjęliśmy, że kategorie od 1 (wykształcenie niepełne podstawowe) do 3 (wykształcenie
gimnazjalne) zmiennej v326 zostaną zrekodowane na wartość 1 (wykształcenie podstawowe) w
zmiennej edu. Po wpisaniu właściwych wartości musimy je zatwierdzić klikając na Dodaj. Następnie
wpisujemy kolejny zakres wartości źródłowych (4 i 5) oraz wartość wynikową 2. Kroki te powtarzamy
aż do zdefiniowania wszystkich zakresów zmiennej źródłowej i wartości zmiennej wynikowej. Całość
zatwierdzamy przyciskiem Dalej, a w oknie Rekoduj na inne zmienne przyciskiem Ok.

9
Krótki przewodnik po Statystyce i SPSS
Jarosław Domalewski

Należy wspomnieć, że istnieje możliwość utworzeniu duplikatu zmiennej źródłowej (wybieramy


‘Wszystkie pozostałe wartości’ i ‘Kopiuj wartości źródłowe’), jak również przekształcenia wartości
źródłowych w systemowe braki danych (puste komórki) w zmiennej wynikowej.

W naszym zbiorze danych pojawia się nowa zmienna edu, dla której musimy jeszcze określić etykiety
wartości.

Prostym sposobem na sprawdzenie poprawności przeprowadzonego rekodowania jest opracowanie


tabeli krzyżowej obu zmiennych – źródłowej i wynikowej, dostępnej w zakładce ANALIZA, następnie
OPIS STATYSTYCZNY, TABELE KRZYŻOWE. W oknie Zmienne w wierszach umieszczamy zmienną
źródłową v326, zmienne w kolumnach – edu. Liczebności pojawiają się w komórkach zgodnie z
przyjętym przez nas sposobem rekodowania.

W sytuacji, gdy mamy większą ilość zmiennych źródłowych, które przyjmują takie same wartości
(zostały zakodowany w taki sam sposób) i na ich podstawie chcemy utworzyć taką samą liczbę
przekształconych zmiennych wynikowych, można wszystkie te zmienne rekodować jednocześnie,
oczywiście przypisując każdej ze zmiennych źródłowych inną zmienną wynikową.

10
Krótki przewodnik po Statystyce i SPSS
Jarosław Domalewski

Rozpatrzmy jeszcze jeden przykład, gdzie dodatkowo zostanie wykorzystana dostępna w procedurze
Rekoduj na inne zmienne (również na te same) funkcja rekodowania warunkowego. W analizowanym
zbiorze danych znajduje się zmienna v338 W którym roku się Pan(i) urodził(a)? Badanie zostało
przeprowadzone w roku 2007. Naszym celem jest utworzenie nowej zmiennej wiek_kat przyjmującej
trzy wartości:

1. Młodzi (ur. w latach 1972-1989)


2. Dorośli (ur. w latach 1942-1971)
3. Dojrzali (ur. w latach 1908-1941)

Przy czym nowa zmienna wiek_kat w założeniu ma być opracowana wyłącznie dla kobiet.

W tym przypadku wykorzystano ‘zakres wartości, od najmniejszej do podanej’ i ‘zakres wartości, od


podanej do największej’. Po zatwierdzeniu wprowadzonych kryteriów rekodowania w głównym oknie
procedury Rekoduj na inne zmienne klikamy na Jeżeli. Domyślnie zaznaczona jest opcja ‘Uwzględnij

11
Krótki przewodnik po Statystyce i SPSS
Jarosław Domalewski

wszystkie obserwacje’, zaznaczamy ‘Uwzględnij jeśli obserwacja spełnia warunek’ i wpisujemy nasz
warunek (w zmiennej płeć v337 wartość 2 była przypisana kobietom).

Całość zatwierdzamy przyciskiem Dalej i Ok w oknie Rekoduj na inne zmienne. W efekcie powstała
nowa zmienna obrazująca strukturę wieku kobiet. Systemowe braki danych dotyczą w tym przypadku
mężczyzn.

Kategorie wieku (kobiety)


Procent Procent
Częstość Procent ważnych skumulowany
Ważne 1 młodzi 6927 17,8 29,4 29,4
2 dorośli 11668 30,0 49,5 78,9
3 dojrzali 4984 12,8 21,1 100,0
Ogółem 23579 60,7 100,0
Braki danych Systemowe braki danych 15287 39,3
Ogółem 38866 100,0

Obliczanie wartości zmiennej

Czasami stajemy przed koniecznością opracowania nowej zmiennej na podstawie zmiennej istniejącej
w zbiorze danych, której postać jest jednak na tyle problemowa, że wykorzystanie procedury
rekodowania okazuje się kłopotliwe. Innym razem naszym celem może być opracowanie wskaźnika
zjawiska wielowymiarowego (np. satysfakcji z życia) mierzonego za pomocą kilku wskaźników

12
Krótki przewodnik po Statystyce i SPSS
Jarosław Domalewski

(satysfakcji z dochodów, rodziny, dzieci, wykształcenia, pracy itd.). W obu tych przypadkach mamy
możliwość wykorzystania procedury OBLICZ WARTOŚCI dostępnej w zakładce PRZEKSZTAŁCENIA.

Powyżej rozpatrywano przykład, w którym opracowano na bazie istniejącej w zbiorze danych zmiennej
v337 Rok urodzenia nowej zmiennej kat-wiek Kategorie wieku. Naszym celem jest jednak opracowanie
nowej zmiennej, w której zamiast roku urodzeniu będzie podany wiek respondenta w latach (zmienna
wiek). Wykorzystamy tu wspomnianą procedurę OBLICZ WARTOŚCI. Wiedząc, że badanie zostało
przeprowadzone w 2007 w łatwy sposób, dysponując rokiem urodzenia badanych, możemy obliczyć
ich wiek.

Efektem przeprowadzonej procedury jest nowa zmienna zawierająca wiek badanych w latach.
Podobnie jak w przypadku procedury Rekoduj na inne/te same zmienne istnieje możliwość obliczenia
wartości nowej zmiennej warunkowo (opcja Jeżeli).

Innym zastosowaniem procedury Oblicz wartości jest możliwość opracowania nowej zmiennej na bazie
kilku innych zmiennych. W analizowanym zbiorze danych zawartych jest jedenaście zmiennych
obrazujących zadowolenie badanych w różnych wymiarach życia (zmienne v12-v22). Przyjmijmy, że
naszym celem jest opracowanie wskaźnika ogólnego zadowolenia z życia (zmienna satysfakcja),
którego wartość będzie stanowić suma odpowiedzi na wszystkie jedenaście pytań (każde z nich
przyjmowało wartości od 1 – bardzo zadowolony, do 5 – bardzo niezadowolony).

13
Krótki przewodnik po Statystyce i SPSS
Jarosław Domalewski

Nowopowstała zmienna przyjmuje wartości od 11 (respondenci zadowoleni z życia we wszystkich


jedenastu wymiarach) do 55 (bardzo niezadowoleni z życia).

Zliczanie wystąpień

Innym sposobem opracowania wskaźnika zmiennej wielowymiarowej jest procedura ZLICZ


WYSTĄPIENIA. Przyjmijmy, że naszym celem jest opracowanie nowej zmiennej na podstawie jedenastu
zmiennych obrazujących zadowolenie z życia w poszczególnych wymiarach (zadowolenie). Zmienna ta
zostanie opracowana w taki sposób, że będą zliczane jedynie te odpowiedzi, które świadczą o „raczej”
bądź „zdecydowanym” zadowoleniu z życia. Wynikiem przeprowadzonej procedury będzie nowa
zmienna przyjmująca wartości od 0 (brak wskazania na ‘raczej’ lub ‘zdecydowane’ zadowolenie z życia)
do 11 (we wszystkich jedenastu wymiarach oceny zadowolenia z życia respondent wskazał na ‘raczej’
lub ‘zdecydowane’ zadowolenie). Zatem wszystkie odpowiedzi ‘zdecydowanie niezadowolony’, ‘raczej
niezadowolony’, ‘średnio zadowolony’ nie będą zliczane do wartości wskaźnika sumarycznego.
Przypomnijmy, że zmienne dotyczące zadowolenia z życia zostały zakodowane w taki sposób, że
wartość 1 była przypisana kategorii ‘zdecydowanie zadowolony’, wartość 2 ‘raczej zadowolony’ itd.

Analizowaną procedurę uruchamiamy poprzez zakładkę PRZEKSZTAŁCENIA dalej ZLICZ WYSTĄPIENIA.


W pierwszej kolejności należy zdefiniować nazwę zmiennej wynikowej oraz jej etykietę. Następnie
wybieramy wszystkie jedenaście zmiennych obrazujących poziom zadowolenia z życia w różnych
wymiarach.

14
Krótki przewodnik po Statystyce i SPSS
Jarosław Domalewski

W kolejnym kroku definiujemy zliczane wartości. Podobnie, jak w przypadku wcześniej omówionych
procedurach, także i tu istnieje możliwość zliczania wartości warunkowo (opcja Jeżeli).

W oknie Zlicz wartości w obrębie obserwacji. Wartość zliczana określamy wartość zliczanych
obserwacji, w tym przypadku od 1 do 2 (zdecydowanie i raczej zadowoleni). Całość zatwierdzamy Dalej
i Ok w głównym oknie procedury, której efektem jest utworzenie nowej zmiennej, odzwierciedlającej
w inny niż wcześniej rozpatrywany sposób, stopień satysfakcji z życia.

15

You might also like