Professional Documents
Culture Documents
Jarosław Domalewski
Filtrowanie danych
Czasami zachodzi konieczność wyboru spośród wszystkich obserwacji zawartych w zbiorze danych
jedynie ich części charakteryzującej się określonymi wartościami w zakresie jednej lub kilku zmiennych.
Na przykład spośród danych ogólnopolskich chcemy poddać analizie obserwacje pochodzące z
jednego, wybranego województwa lub przedmiotem naszego zainteresowania są dane odnoszące się
wyłącznie do kobiet. Możliwe jest uszczegóławianie wyboru poprzez wyselekcjonowanie do analiz
danych pochodzących od kobiet w wieku powyżej 45 roku życia i zamieszkałych na wsi.
Procedura umożliwiająca filtrowanie obserwacji znajduje się w zakładce DANE pod nazwą WYBIERZ
OBSERWACJE. Po jej uruchomieniu pojawia się okno.
Domyślnie zaznaczona jest opcja Wszystkie obserwacje, która umożliwia wyłączenie filtrów i analizę
wszystkich obserwacji w zbiorze. Kolejna z opcji Jeśli spełniony jest warunek pozwala użytkownikowi
zdefiniowanie warunku do wyboru obserwacji. Jej zaznaczenie aktywuje przycisk Jeżeli…, po kliknięciu
którego uruchamia się nowe okno umożliwiające określenie warunku wyboru obserwacji.
1
Krótki przewodnik po Statystyce i SPSS
Jarosław Domalewski
W analizowanym zbiorze znajdują się dane ogólnopolskie. Naszym celem jest wybór obserwacji
odnoszących się do respondentów zamieszkałych w województwie dolnośląskim i warmińsko-
mazurskim. W pierwszej kolejności musimy sprawdzić w jaki sposób zostały zakodowane dane
dotyczące województwa. Zaznaczenie zmiennej województwo i kliknięcie prawym przyciskiem myszy
wywołuje okno kontekstowe zawierające dostęp do podstawowych informacji o zmiennej (Informacja
o zmiennej), którego uruchomienie otwiera kolejne okno.
Rozwijając listę dowiadujemy się, że danym z województwa dolnośląskiego został przypisany kod 2, a
z warmińsko-mazurskiego 28. Po zamknięciu okna z informacją o zmiennej możemy przystąpić do
zdefiniowania warunku wyboru obserwacji (filtra).
2
Krótki przewodnik po Statystyce i SPSS
Jarosław Domalewski
3
Krótki przewodnik po Statystyce i SPSS
Jarosław Domalewski
Akceptacja OK włącza filtr. W Edytorze danych w obszarze danych można zauważyć, że w przypadku
obserwacji z innych niż wybrane województw numery obserwacji są przekreślone, co jest
równoznaczne z ich odfiltrowaniem, zgodnie z domyślnie zaznaczonym i przez nas zaakceptowanym
wynikiem wyboru obserwacji.
Istnieje możliwość skopiowania wybranych obserwacji do nowego zbioru danych, jak również trwałego
usunięcia niewybranych obserwacji, co jednak jest najmniej polecane.
Po jej zapisaniu możliwe jest wykorzystanie zdefiniowanego przez nas warunku wyboru obserwacji w
przyszłości bez konieczności jego ponownego wpisywania. Wystarczy wprowadzić zmienną filtrującą
do pola Użyj zmiennej filtrującej.
Jak już wspomniano warunki wyboru obserwacji można dowolnie rozbudowywać. Załóżmy, że naszym
celem jest analiza danych z wybranych już dwu województw (dolnośląskiego i warmińsko-
mazurskiego), ale jednocześnie odnoszących się do kobiet (zmienna płeć v337, kod 2 – kobieta),
mieszkających na wsi (zmienna wielkość miejscowości wskazanej w próbie jako miejsce zamieszkania
v411, kod 1 – wieś). W tym przypadku warunek wyboru obserwacji wyglądałby następująco (& -
operator logiczny „i”):
https://www.ibm.com/support/knowledgecenter/pl/SSLVMB_25.0.0/statistics_mainhelp_ddita/spss/
base/idh_sele.html
Podział na podzbiory
Czasami istnieje konieczność analizy zbiorów danych wyróżnionych ze względu na wartości danej
zmiennej. Na przykład naszym celem jest przeprowadzenie szeregu analiz oddzielnie dla kobiet i
mężczyzn. Zmienną grupującą jest w tym przykładzie płeć, na podstawie której zostaną wyróżnione
dwa podzbiory. Procedura jest dostępna w zakładce DANE, funkcja PODZIEL NA PODZBIORY:
4
Krótki przewodnik po Statystyce i SPSS
Jarosław Domalewski
Domyślnie zaznaczona jest opcja Analizuj wszystkie obserwacje, nie twórz grup, która wyłącza podział
na podzbiory. Wybór opcji Porównaj grupy skutkuje wyświetlaniem zgrupowanych tabel z wynikami w
postaci umożliwiającej ich porównywanie. Opcja Przedstaw wyniki w podziale na grupy powoduje
wyświetlanie całych procedur (z wszystkimi tabelami wynikowymi) oddzielnie dla każdej z
wyróżnionych podgrup. Maksymalnie można wykorzystać osiem zmiennych grupujących.
Wybrano opcję Porównaj grupy. W tym przypadku wszystkie tabele właściwe dla danej analizy będą
zestawione, umożliwiając tym samym porównywanie wyników.
5
Krótki przewodnik po Statystyce i SPSS
Jarosław Domalewski
Przekształcenia zmiennych
Analizując dane w SPSS często stajemy przed koniecznością przekształcania istniejących w zbiorze
zmiennych. Owe przekształcenia mogą mieć różną postać. Najprostsza to rekodowanie istniejącej
zmiennej polegające na zmianie liczby jej wartości. Na przykład celem naszych analiz może być
porównywanie różnorodnych charakterystyk badanych z uwzględnieniem dawnego podziału
rozbiorowego kraju. Problem polega na tym, że jedyną zmienną obrazującą zróżnicowanie regionalne
są województwa. Na bazie tej zmiennej może zostać opracowana nowa zmienna regiony obrazująca w
przybliżeniu dawne podziały rozbiorowe.
6
Krótki przewodnik po Statystyce i SPSS
Jarosław Domalewski
Rekodowanie zmiennych
W analizowanym zbiorze danych znajduje się zmienna v326 (P89. Jakie jest P. wykształcenie?). Zmienna
ta zawiera dwanaście kategorii poziomu wykształcenia. Z perspektywy analiz jest mało funkcjonalna ze
względu na dużą liczbę kategorii, a przede wszystkim znaczące zróżnicowania w ich liczebności (np.
wykształcenie gimnazjalne – 1,1%, zasadnicze zawodowe – 21,9%). W związku z tym podjęto decyzję o
ograniczeniu liczby kategorii poziomu wykształcenia badanych do czterech.
podstawowe
zawodowe
średnie
wyższe
Na podstawie zmiennej v326 utworzona zostanie nowa zmienna edu, która będzie przyjmowała cztery
wartości – od wykształcenia podstawowego, poprzez zawodowe, średnie aż do wyższego. W tym celu
zostanie wykorzystana procedura rekodowania. W SPSS dostępne są dwa rodzaje rekodowania:
- na inne zmienne – na bazie zmiennej źródłowej utworzona zostaje nowa zmienna wynikowa;
jest to rozwiązanie zdecydowanie bardziej korzystne i polecane.
7
Krótki przewodnik po Statystyce i SPSS
Jarosław Domalewski
Uruchamia się kolejne okno podzielone na dwie części. W lewej połowie definiujemy wartości zmiennej
źródłowej, w naszym przypadku jest to zmienna v326. Możemy zdefiniować pojedynczą wartość,
wskazać na systemowe bądź zdefiniowane wartości braków danych, które zostaną przekształcone na
inne wartości w zmiennej wynikowej, określić zakres wartości źródłowych, wskazać wartość, która wraz
z mniejszymi wartościami zostanie zrekodowana lub odwrotnie, wreszcie rekodować wszystkie
wartości zmiennej źródłowej na jedną wartość zmiennej wynikowej.
8
Krótki przewodnik po Statystyce i SPSS
Jarosław Domalewski
W analizowanym przykładzie w polu właściwym dla zmiennej źródłowej zawsze będziemy definiować
zakres. Przyjęliśmy, że kategorie od 1 (wykształcenie niepełne podstawowe) do 3 (wykształcenie
gimnazjalne) zmiennej v326 zostaną zrekodowane na wartość 1 (wykształcenie podstawowe) w
zmiennej edu. Po wpisaniu właściwych wartości musimy je zatwierdzić klikając na Dodaj. Następnie
wpisujemy kolejny zakres wartości źródłowych (4 i 5) oraz wartość wynikową 2. Kroki te powtarzamy
aż do zdefiniowania wszystkich zakresów zmiennej źródłowej i wartości zmiennej wynikowej. Całość
zatwierdzamy przyciskiem Dalej, a w oknie Rekoduj na inne zmienne przyciskiem Ok.
9
Krótki przewodnik po Statystyce i SPSS
Jarosław Domalewski
W naszym zbiorze danych pojawia się nowa zmienna edu, dla której musimy jeszcze określić etykiety
wartości.
W sytuacji, gdy mamy większą ilość zmiennych źródłowych, które przyjmują takie same wartości
(zostały zakodowany w taki sam sposób) i na ich podstawie chcemy utworzyć taką samą liczbę
przekształconych zmiennych wynikowych, można wszystkie te zmienne rekodować jednocześnie,
oczywiście przypisując każdej ze zmiennych źródłowych inną zmienną wynikową.
10
Krótki przewodnik po Statystyce i SPSS
Jarosław Domalewski
Rozpatrzmy jeszcze jeden przykład, gdzie dodatkowo zostanie wykorzystana dostępna w procedurze
Rekoduj na inne zmienne (również na te same) funkcja rekodowania warunkowego. W analizowanym
zbiorze danych znajduje się zmienna v338 W którym roku się Pan(i) urodził(a)? Badanie zostało
przeprowadzone w roku 2007. Naszym celem jest utworzenie nowej zmiennej wiek_kat przyjmującej
trzy wartości:
Przy czym nowa zmienna wiek_kat w założeniu ma być opracowana wyłącznie dla kobiet.
11
Krótki przewodnik po Statystyce i SPSS
Jarosław Domalewski
wszystkie obserwacje’, zaznaczamy ‘Uwzględnij jeśli obserwacja spełnia warunek’ i wpisujemy nasz
warunek (w zmiennej płeć v337 wartość 2 była przypisana kobietom).
Całość zatwierdzamy przyciskiem Dalej i Ok w oknie Rekoduj na inne zmienne. W efekcie powstała
nowa zmienna obrazująca strukturę wieku kobiet. Systemowe braki danych dotyczą w tym przypadku
mężczyzn.
Czasami stajemy przed koniecznością opracowania nowej zmiennej na podstawie zmiennej istniejącej
w zbiorze danych, której postać jest jednak na tyle problemowa, że wykorzystanie procedury
rekodowania okazuje się kłopotliwe. Innym razem naszym celem może być opracowanie wskaźnika
zjawiska wielowymiarowego (np. satysfakcji z życia) mierzonego za pomocą kilku wskaźników
12
Krótki przewodnik po Statystyce i SPSS
Jarosław Domalewski
(satysfakcji z dochodów, rodziny, dzieci, wykształcenia, pracy itd.). W obu tych przypadkach mamy
możliwość wykorzystania procedury OBLICZ WARTOŚCI dostępnej w zakładce PRZEKSZTAŁCENIA.
Powyżej rozpatrywano przykład, w którym opracowano na bazie istniejącej w zbiorze danych zmiennej
v337 Rok urodzenia nowej zmiennej kat-wiek Kategorie wieku. Naszym celem jest jednak opracowanie
nowej zmiennej, w której zamiast roku urodzeniu będzie podany wiek respondenta w latach (zmienna
wiek). Wykorzystamy tu wspomnianą procedurę OBLICZ WARTOŚCI. Wiedząc, że badanie zostało
przeprowadzone w 2007 w łatwy sposób, dysponując rokiem urodzenia badanych, możemy obliczyć
ich wiek.
Efektem przeprowadzonej procedury jest nowa zmienna zawierająca wiek badanych w latach.
Podobnie jak w przypadku procedury Rekoduj na inne/te same zmienne istnieje możliwość obliczenia
wartości nowej zmiennej warunkowo (opcja Jeżeli).
Innym zastosowaniem procedury Oblicz wartości jest możliwość opracowania nowej zmiennej na bazie
kilku innych zmiennych. W analizowanym zbiorze danych zawartych jest jedenaście zmiennych
obrazujących zadowolenie badanych w różnych wymiarach życia (zmienne v12-v22). Przyjmijmy, że
naszym celem jest opracowanie wskaźnika ogólnego zadowolenia z życia (zmienna satysfakcja),
którego wartość będzie stanowić suma odpowiedzi na wszystkie jedenaście pytań (każde z nich
przyjmowało wartości od 1 – bardzo zadowolony, do 5 – bardzo niezadowolony).
13
Krótki przewodnik po Statystyce i SPSS
Jarosław Domalewski
Zliczanie wystąpień
14
Krótki przewodnik po Statystyce i SPSS
Jarosław Domalewski
W kolejnym kroku definiujemy zliczane wartości. Podobnie, jak w przypadku wcześniej omówionych
procedurach, także i tu istnieje możliwość zliczania wartości warunkowo (opcja Jeżeli).
W oknie Zlicz wartości w obrębie obserwacji. Wartość zliczana określamy wartość zliczanych
obserwacji, w tym przypadku od 1 do 2 (zdecydowanie i raczej zadowoleni). Całość zatwierdzamy Dalej
i Ok w głównym oknie procedury, której efektem jest utworzenie nowej zmiennej, odzwierciedlającej
w inny niż wcześniej rozpatrywany sposób, stopień satysfakcji z życia.
15