You are on page 1of 75

JAK KORZYSTAĆ Z SPSS

praktyczna analiza danych ilościowych mgr Jacek Bieliński Collegium Civitas

Podstawy obsługi SPSS
• • • • • • Interfejs programu SPSS Deklarowanie zmiennych Wprowadzanie danych Zapisywanie i wczytywanie zbioru danych Operacje na zmiennych Podstawowe obliczenia statystyczne (rozkład częstości, statystyki opisowe, tabele)

Interfejs programu SPSS
Czyli, jak TO wygląda

. wartości jaki mogą one przyjmować itp.Podgląd zmiennych Tu deklarujemy zmienne. zmieniamy ich parametry.

Wybierz jednostki statystyczne Drukowanie Cofnij i ponów Zmienne i ich parametry Podziel zbiór danych Grupowanie zmiennych Pasek ikon: dostęp do najczęściej używanych funkcji programu Ostatnio używane procedury Zapisywanie pliku Otwieranie pliku Szukaj Włącz wagę dla obliczeń Wstaw zmienne Wstaw jednostki statystyczne Wyświetl etykiety Idź do jednostki statystycznej .

wklej itp Wyświetlanie/ukrywanie elementów interfejsu Analizy statystyczne Przekształcenia danych Operacje na plikach Otwieranie. zapisywanie itp.Wykresy Operacje edycyjne Operacje na zbiorze danych Kopiuj. .

Zakładka dane: przełącza do trybu edycji zbioru danych. deklarowanie nowych zmiennych. dostęp do każdej jednostki statystycznej i wartości zmiennych Zakładka zmienne: tryb edycji zmiennych. edycja parametrów zmiennych w zbiorze .

Deklarowanie zmiennych .

Deklarowanie zmiennych • • • • • • • Nazwa zmiennej Typ zmiennej (numeryczna. czy tekstowa) „Wielkość” zmiennej Etykieta zmiennej (opis) Zdeklarowane wartości zmiennej Wartości oznaczone jako „brak danych” Poziom pomiaru zmiennej .

.Nazwa zmiennej • nazwa zmiennej powinna odzwierciedlać faktycznie reprezentowaną przez daną zmienną cechę • niektóre (starsze) wersje SPSS ograniczają długość nazwy zmiennej do 8 znaków. co wymusza stosowanie nazw skrótowych.

które przyjmują wartości będące ciągiem znaków nie możliwe jest wykonywanie większości obliczeń statystycznych. • Często ciągi znaków wykorzystuje się dla pytań otwartych .Typ zmiennej (numeryczna/tekstowa) • Typ zmiennej określa czy wartości zmiennej są liczbami. czy ciągiem znaków. • Na zmiennych.

„Wielkość” (szerokość) zmiennej • Dla zmiennych przyjmujących wartości numeryczne (liczby) określa ilość cyfr i miejsc po przecinku • Dla zmiennych przyjmujących wartości będące ciągami znaków (tekst) określa długość (liczbę znaków) ciągu znaków .

• dzięki temu możemy łatwiej zorientować się do jakiej cechy dana zmienna się odnosi. • Etykiety zmiennych są wyświetlane przy wynikach obliczeń .Etykieta zmiennej • Jest to skrótowy opis zmiennej.

zmienna „PLEC” zawierająca informację o płci respondenta przyjmuje wartości „1” dla kobiet i „2” dla mężczyzn. można konkretnym kodom (liczbom) przypisać etykiety (co dany kod oznacza) • Np. Dzięki etykietom kodów łatwo dowiemy się co oznaczają wartości zmiennej numerycznej .Zadeklarowane wartości (etykiety kodów zmiennej) • Gdy zmienna przyjmuje wartości numeryczne.

aby jakieś wartości zmiennej były uwzględniane przy obliczeniach statystycznych. Możemy to uzyskać oznaczając te wartości jako „brak danych” .Braki Danych • Czasem nie chcemy.

wyznanie. poziom wykształcenia. dochód miesięczny (istnieje PUNKT ZEROWY. miejsce urodzenia. iloraz-stosunek ilościowy zmiennych) . wyniki testów IQ (o ile bardziej) • i ilorazowy np. kolor oczu (różnice) • Poziom porządkowy np.Poziom pomiaru zmiennej • Poziom nominalny np. płeć. wielkość miejsca zamieszkania (bardziej/mniej) • Poziom interwałowy np. wzrost w metrach.

porządkowych i nominalnych • Zmienne interwałowe posiadają wszystkie cechy zmiennych porządkowych i nominalnych • Zmienne porządkowe posiadają wszystkie cechy zmiennych nominalnych .Poziomu pomiaru • Zmienne ilorazowe posiadają wszystkie cechy zmiennych interwałowych.

. czy pali papierosy. ile papierosów dziennie pali. jakiej marki papierosy pali.Deklarowanie zmiennych • Utworzymy zmienne opisujące następujące cechy: płeć.

Najpierw nadajemy jej nazwę wpisując w kolumnie ‘Name’ odpowiedni tekst i naciskamy Enter. .Pierwsza zmienna określa płeć respondenta.

Zmienna będzie przyjmować wartości ‘1’ i ‘2’ są to liczby całkowite więc nie potrzebujemy miejsc dziesiętnych. W pole ‘Decimal Places’ wpisujemy ‘0’ . Będzie ona przyjmować wartości liczbowe.Wybieramy typ numeryczny 0 Określamy typ zmiennej.

Określamy etykietę zmiennej wpisując w kolumnie ‘Label’ odpowiedni tekst .

czyli opisujemy wartości przyjmowane przez zmienną Najpierw klikamy ‘add’ i podobnie definiujemy etykietę dla wartości ‘2’ – mężczyzna. Tu wpisujemy etykietę dla wartości ‘1’ .Tu wpisujemy wartość dla której określamy etykietą 1 kobieta Klikamy OK Określamy etykiety kodów.

Pozostaje określić jeszcze poziom pomiaru. Zmienna ‘plec’ ma charakter nominalny

Deklarowanie zmiennych
• Zmienna ‘pali’ – etykieta: czy pali papierosy – Wartości: ‘1’ – tak; ‘2’ – nie; Zmienna ‘marka’ – Etykieta: jakiej marki papierosy pali – Wartości: ‘1’ – Extra mocne; ‘2’ – Fajrant; ‘3’-Wiarus; ‘4’-Stołeczne; ‘5’-różne; ‘6’-odmowa odpowiedzi; ‘7’-nie dotyczy – Brak danych: 6; 7; – Etykieta: ile papierosów dziennie pali – Brak danych: 0

• Zmienna ‘ilepali’

Wprowadzanie danych

Data View • Jest to tryb pracy. w którym mamy bezpośredni dostęp zbioru danych • Możemy wprowadzać dane i je edytować .

respondentów). Numer kolejnej jednostki statystycznej znajduje się w nagłówku wiersza W kolumnach znajdują się zadeklarowane zmienne. Nazwa każdej zmiennej znajduje się w nagłówku kolumny .Wiersze reprezentują kolejne jednostki statystyczne (np.

Pozwala włączyć/wyłączyć wyświetlanie etykiet wartości zmiennych .Ikona wyświetlania etykiet kodów.

Zapisywanie/wczytywanie zbioru danych • Zapisywanie i wczytywanie zbioru danych możemy wykonać używając ikon lub menu • Ikony zapisywania i wczytywania zbioru danych • Z menu wybieramy: File Save lub File Open Data .

Mieszkańców) •Rekodowanie Umożliwia przekodowanie lub pogrupowanie wartości zmiennej w zbiorze. •Obliczanie wartości zmiennej Często podczas prowadzenia analiz musimy obliczyć wartość nowej zmiennej bazując na danych istniejących w zbiorze danych. kobiety z wyższym wykształceniem. Np.Operacje na zmiennych •Wybór jednostek statystycznych Pozwala wybrać do dalszych analiz tylko takie jednostki statystyczne. wartości zmiennej określające liczbę lat respondenta możemy pogrupować w kategorie wiekowe. . mieszkające w miastach powyżej 500tys. wyznaczyć ilość lat respondenta znając rok urodzenia. Np. które spełniają określone warunki (np.

Wybór jednostek statystycznych .

.Wybierz wszystkie jednostki Wybierz te jednostki stat. które spełniają określony warunek Wybierz losową próbkę jednostek Lista zmiennych w zbiorze .

który spełniać mają wybrane jednostki .V44<=5 | (v47=5 & v48=3) Lista zmiennych w zbiorze Kalkulator. pozwala na wprowadzanie operatorów logicznych i arytmetycznych do warunku Pole gdzie zapisujemy warunek.

odejmowanie / dzielenie * mnożenie ** potęgowanie ~ negacja (nie jest tak.Podstawowe operatory logiczne i arytmetyczne: + dodawanie . że) = równość ~= nie równa się < mniejsze niż > większe niż <= mniejsze lub równe niż >= większe lub równe niż & koniunkcja logiczna ‘i’ | alternatywa ‘lub’ ( ) .

Rekodowanie .

Zmienne poddane przekształceniu Lista zmiennych w pliku Tym przyciskiem dodajemy zmienne do przekształcenia Tu określamy nazwę i etykietę dla zmiennej wynikowej Szczegółowe określenie parametrów przekształcenia .

Nazwa i etykieta nowej zmiennej Przekształcenie: Wartości zmiennej ‘marka’ zostaną przekodowane W wartości zmiennej ‘gr_marka’ .

Wartości źródłowe Wartości wynikowe .

Konkretna wartość zmiennej źródłowej Systemowe i zadeklarowane braki danych Zakres wartości od .do Zakres wartości od najmniejszej do Zakres wartości od – do wartości największej Wszystkie pozostałe wartości .

Systemowy brak danych zmiennej wynikowej Dodaje przekształcenie do listy Zmienia utworzone przekształcenie Zmienia utworzone przekształcenie Nowa wartość zmiennej wynikowej Przepisuje wartość zmiennej źródłowej do zmiennej wynikowej .

Obliczanie wartości zmiennej .

Zmienna wynikowa Lista zmiennych w pliku Wyrażenie algebraiczne Jego wynik zostanie przypisany zmiennej wynikowej .

Podstawowe obliczenia statystyczne • • • • • • • Rozkład częstości zmiennej Miary tendencji centralnej Miary dyspersji rozkładu Kurtoza i skośność Statystyki opisowe Tabele Krzyżowe Korelacje .

Rozkład częstości zmiennej • Częstości są najprostszą i najczęściej wykonywaną procedurą w programie SPSS. • Dzięki tej procedurze możemy sprawdzić jak wygląda procentowy rozkład wartości zmiennej (odpowiedzi). jaki odsetek osób pali papierosy? • Analyze Descriptive Statistics Frequencies… . Np.

.

które możemy wybrać do analizy .Dodatkowe statystyki Tym przyciskiem dodajemy zmienne do analizy Lista zmiennych wybranych do analizy Lista zmiennych w pliku.

Miary tendencji centralnej Miary dyspersji rozkładu Kurtoza i skośność rozkładu .

Otuput: tu wyświetlane są wyniki wszystkich procedur statystycznych Outline: jest to spis wyników wykonanych procedur .

Dodatkowe statystyki wybrane przez użytkownika Rozkład częstości zmiennej .

które dzielą ją na określone części pod względem liczby jednostek. drugi kwartyl 50% do 50% (mediana). która w danym rozkładzie występuje najczęściej • Kwantyle wartości cechy badanej zbiorowości. trzeci kwartyl 75% do 25% – Decyle dzielą zbiorowość na 10 części – Percentyle dzielą zbiorowość na 100 cześci . – Kwartyle – pierwszy kwartyl 25% do 75%.Miary tendencji centralnej • Średnia suma wartości zmiennej wszystkich jednostek badanej zbiorowości podzielona przez liczbę tych jednostek • Dominanta (modalna) wartość zmiennej.

s= • ∑ (x − X ) i 2 N Wariancja średnia arytmetyczna z kwadratów odchyleń poszczególnych wartości od średniej arytmetycznej całej zbiorowości.Miary dyspersji rozkładu • Odchylenie standardowe o ile wszystkie jednostki danej zbiorowości różnią się średnio ze względu na wartość zmiennej od średniej arytmetycznej tej zmiennej. Im zbiorowość jest bardziej zróżnicowana tym większa jest wartość wariancji 2 i 2 s ∑ (x − X ) = N .

• Kurtoza miara koncentracji rozkładu zmiennej w porównaniu do rozkładu normalnego. wartość < 0 dla asymetrii lewostronnej.Kurtoza i skośność • Współczynnik asymetrii rozkładu przyjmuje wartość ‘0’ dla rozkładu symetrycznego. Wartość >0 koncentracja większa od rozkładu normalnego. wartość <0 koncentracja mniejsza od rozkładu normalnego . wartość > 0 dla asymetrii prawostronnej.

Kurtoza i skośność Skośność Rozkład symetryczny Asymetria prawostronna Asymetria lewostronna Kurtoza Rozkład normalny Rozkład platykurtyczny Rozkład leptokurtyczny .

• Analyze Descriptive Statistics Descriptive… .Statystyki opisowe • Statystyki opisowe (średnia. wariancja. odchylenie std.. współczynnik skośności rozkładu itp.. kurtoza.) możemy obliczyć niezależnie od rozkładu częstości miennej.

.

Tu wybieramy statystyki .

wariancja. max itp Kurtoza i skośność .Średnia Odchylenie standardowe. min.

określić jaki odsetek osób palących pali papierosy marki ‘Stołeczne’ • Analyze Descriptive Statistics Crosstabs… .Tabele krzyżowe • Tabele krzyżowe to tabele zawierające rozkład częstości wielu zmiennych. Dzięki nim możemy np.

.

Zmienne w wierszach Zmienne w kolumnach Zmienne warstwując Lista zmiennych w zbiorze danych `zawartość komórek tabeli krzyżowej .

procenty w kolumnach.Procenty w wierszach. procenty w całym zbiorze .

0% 6.8% 100.5% 50.0% 12.8% Total 8 100.0% 12.0% 50.5% 60.5% ró¿ne 1 12.3% 2 12.0% 100.5% 50.3% 1 12.0% 50.0% 12.5% 5 31.3% 50.0% 12.5% 25.0% 66.0% 18.0% 100.5% 33.5% 4 25.5% 100.3% 1 12.5% 3 18.0% 25.5% 2 25.0% 18.0% 16 100.8% 2 25.0% 50.0% Odsetek kobiet palących określone marki papierosów .3% 2 12.5% p³eæ kobieta mê¿czyzna Total Count % within p³eæ % within jakiej marki papierosy pali % of Total Count % within p³eæ % within jakiej marki papierosy pali % of Total Count % within p³eæ % within jakiej marki papierosy pali % of Total Extra mocne 1 12.0% 8 100.0% 6.p³eæ * jakiej marki papierosy pali Crosstabulation jakiej marki papierosy pali Fajrant Wiarus Sto³eczne 3 2 1 37.3% 2 25.0% 50.0% 12.7% 12.0% 50.5% 50.0% 40.0% 31.0% 6.0% 12.5% 100.3% 6.0% 100.0% 6.3% 100.0% 50.

5% 100.0% 50.8% 2 25.0% 6.0% 50.0% 50.0% 25.0% 100.5% 50.0% 12.p³eæ * jakiej marki papierosy pali Crosstabulation jakiej marki papierosy pali Fajrant Wiarus Sto³eczne 3 2 1 37.5% 60.3% Odsetek kobiet palących Fajranty Odsetek mężczyzn palących Fajranty .5% ró¿ne 1 12.0% 6.5% 2 25.0% 100.5% 4 25.3% 50.0% + = 100.0% 12.0% 50.5% 3 18.3% 2 12.8% Total 8 100.7% 12.0% 50.5% 33.5% 50.0% 12.0% 31.3% 1 12.0% 18.0% 66.0% 100.0% 12.5% p³eæ kobieta mê¿czyzna Total Count % within p³eæ % within jakiej marki papierosy pali % of Total Count % within p³eæ % within jakiej marki papierosy pali % of Total Count % within p³eæ % within jakiej marki papierosy pali % of Total Extra mocne 1 12.3% 2 25.3% 2 12.0% 50.8% 100.0% 8 100.0% 18.5% 5 31.0% 16 100.3% 1 12.0% 6.3% 6.0% 6.5% 100.0% 40.0% 12.5% 25.5% 50.0% 12.

Związkiem prostoliniowym nazywamy taką zależność. • Współczynnik korelacji kolejnościowej Spearmana. . stały przyrost drugiej zmiennej. Służy do opisu korelacji zmiennych. gdy mają one charakter jakościowy i istnieje możliwość uporządkowania obserwacji empirycznych w określonej kolejności.Korelacje • Współczynnik korelacji liniowej Pearsona. średnio. Mierzy siłę związku prostoliniowego między dwiema zmiennymi. w której jednostkowym przyrostom jednej zmiennej towarzyszy.

Korelacje • Współczynniki korelacji przyjmują wartości od -1 do +1 • -1 maksymalna korelacja ujemna (im więcej jednej cechy tym mniej drugiej) • +1 maksymalna korelacja pozytywna (im więcej jednej cechy tym więcej drugiej) • 0 brak związku korelacyjnego między zmiennymi .

000 300 1 **.926** .000 300 300 1 Russia . Korelacja jest istotna na poziomie 0.926** .Korelacje China China Korelacja Pearsona Istotność (dwustronna) N Russia Korelacja Pearsona Istotność (dwustronna) N 300 .01 .

.

Współczynnik korelacji. który chcemy policzyć Lista zmiennych w zbiorze danych Lista zmiennych wybranych do analizy .

przy poziomie istotności co najwyżej 0. że korelacja jest istotna statystycznie. że istnieje związek między zmiennymi. gdy jest ona prawdziwa (błąd I rodzaju). • W przypadku korelacji w teście istotności sprawdzamy hipotezę.05 . • Przyjmuje się.Poziom istotności • Poziom istotności to prawdopodobieństwo odrzucenia testowanej hipotezy.

Yi =β0 + β1X1i+ β2X2i+ ….. +βpXpi 95% przedział ufności Prosta regresji .

926 Współczynniki standaryzowane Beta t 22.779 42.825 . The standardized coefficients or betas are an attempt to make the regression coefficients more comparable.124 . Zmienna zależna: China Often the independent variables are measures in different units.000 . Predyktory: (Stała).926a R-kwadrat .25481 Model 1 R .Model . Russia b.637 Błąd standardowy .857 a. Zmienna zależna: China .000 a.015 . Współczynnikia Współczynniki niestandaryzowane Model 1 (Stała) Russia B 2.857 Błąd standardowy oszacowania .325 Istotność .Podsumowanieb Skorygowane R-kwadrat .

Wykorzystanie programu SPSS w analizie danych CBOS .

CBOS marzec 2005 • Jaki odsetek respondentów deklaruje udział w wyborach prezydenckich? • Na kogo głosowałoby najwięcej badanych osób? • Jaki odsetek respondentów deklaruje udział w wyborach parlamentarnych? • Na którą partię głosowałoby najwięcej badanych osób? .

miesięczne dochody netto na 1 osobę w gospodarstwie domowym). poziom wykształcenia. .CBOS marzec 2005 • Jakie jest średnie zaufanie do osób publicznych? • Jaki jest stosunek respondentów do Partii Demokratycznej? • Jaki jest rozkład cech społecznodemograficznych przebadanej populacji? (płeć. wiek.

poziomem wykształcenia i wielkością miejsca zamieszkania? .CBOS marzec 2005 • Jaki jest rozkład poziomu wykształcenia w populacji przebadanych kobiet i populacji przebadanych mężczyzn? • Jakie są cechy społ. rokiem urodzenia.-demog. osób zamierzających głosować na poszczególnych kandydatów do fotela prezydenckiego? • Czy istnieje związek między zainteresowaniem polityką.