You are on page 1of 79

Manual de Amostragem e de

Introduo ao SPSS

Manual Amostragem e de Introduo ao SPSS

Ficha Tcnica
Autor:
-----------Resumo biogrfico:
-----------Ttulo do manual:
Manual de Amostragem e de Introduo ao SPSS

Ms e Ano de elaborao:
Novembro de 2008

ndice
Pg.
Estruturao dos captulos

Introduo

Captulo 1 Amostragem

Objectivos

Palavras-chave

Contedo temtico
1.1. Noes de amostragem

1.2. Mtodos de amostragem

10

1.3. Seleco das unidades amostrais

11

1.4. Margens de erro e intervalos de confiana

12

Avaliao

15

Bibliografia

15

Captulo 2 Introduo ao SPSS

16

Objectivos

16

Palavras-chave

16

Contedo temtico
2.1. Editor de dados do SPSS

17

2.2. Output do SPSS

18

2.3. Menus SPSS

19

2.4. Criao de bases de dados

22

2.5. Tratamento Preliminar de dados

22

2.5.1. Transformao algbrica de variveis

23

2.5.2. Transformao lgica de variveis

28

2.5.3. Inverso da escala de uma varivel

29

2.5.4. Variveis de contagem de ocorrncias

30

2.6. Seleco de casos

31

Avaliao

35

Referncias

36

Pg.
Captulo 3 Estatstica aplicada com SPSS

37

Objectivos

37

Palavras-chave

37

Contedo temtico
3.1. Anlise de dados univariada

38

3.1.1. Frequncias

38

3.1.2. Estatsticas descritivas e grficos de perfil

41

3.1.3. Testes de aderncia (para 1 amostra)

44

3.1.3.1. (Qui-quadrado)

44

3.1.3.2. Kolmogorov-Smirnov

45

3.1.3.3 Teste t de Student

46

3.2. Anlise de dados bivariada

47

3.2.1. Cruzamentos e teste de independncia (Qui-quadrado)

47

3.2.2. Testes no paramtricos procedimento Non Parametric Tests

50

3.2.2.1. Duas amostras independentes (Mann-Whitney e Kolmogorov-Smirnov)

50

3.2.2.2. K amostras independentes (Kruskal-Wallis)

52

3.2.3. Testes no paramtricos procedimento Compare Means

54

3.2.3.1. Duas amostras emparelhadas (t de Student amostras emparelhadas)

54

3.2.3.2. Duas amostras independentes (t de Student de independncia)

55

3.2.3.3. k amostras independentes (Anlise de Varincia Simples Paramtrica ANOVA)

56

3.2.4. Correlao linear simples


3.3. Modelos de previso

59
61

3.3.1. Anlise de Regresso Simples

61

3.3.2. Anlise de Regresso Mltipla

63

3.4. Anlise de dados multivariada

66

3.4.1. Anlise das Componentes Principais

66

3.4.2. Anlise de Clusters

71

3.4.2.1. Anlise hierrquica de Clusters

72

3.4.2.2. Anlise no hierrquica de Clusters mtodo de optimizao (K-Means)

76

3.4.3. Articulao entre a Anlise das Componentes Principais r a Anlise de


Clusters

76

Avaliao

79

Bibliografia

79

Anexo 1: Testes de inferncia estatstica mais utilizados em Anlise bivariada

80

Anexo 2: European Social Survey (round 1 - 2002) - Questionrio adaptado

83

Estruturao dos captulos


Em cada captulo ou contedo temtico, o(a) aluno(a) visualizar uma estrutura que apresentar
as seguintes subdivises, a saber:
Objectivo(s) especfico(s), no qual cada participante conhecer a proposta
de aprendizagem a ser alcanada no final dessa mesma (sub)temtica e que
servir de referncia para a auto-avaliao;

Objectivos

Palavras-chave, que pela sua relevncia para a temtica e como realce da


ateno do(a) aluno(a) para determinada designao ou conceito, que ter a
sua definio e explicitao, no final do captulo, no espao reservado em
Glossrio.

Palavras

Contedo programtico, onde se procurar desenvolver, de modo claro,


objectivo e com rigor tcnico, a (sub)temtica em apreo, referenciando-se
os elementos de substncia, julgados mais significativos e de interesse para
a aprendizagem do(a) aluno(a).

Contedo

Avaliao. Neste espao ser indicada a forma de avaliao do captulo e


includa a respectiva ficha de exerccio.

Avaliao

Referncias. Nesta subdiviso poder-se- encontrar uma lista de elementos


bibliogrficos referentes: s citaes efectuadas ao longo do texto; s obras
consultadas pelo autor, i. , livros, artigos, monografias, trabalhos
acadmicos, endereos electrnicos, etc., que podero ajudar no trabalho
de pesquisa ou de aprofundamento de saberes de cada aluno(a).

Referncias

Introduo
O Manual de Amostragem e Introduo ao SPSS tem como objectivo principal orientar os alunos
na utilizao do SPSS, constituindo-se simultaneamente como um guio da matria leccionada e
de uma ficha tcnica para realizao dos exerccios propostos no mbito do da cadeira de
Informtica Aplicada.
Pretende-se, deste modo, disponibilizar aos alunos um guio que lhes permita acompanhar a
sequncia dos pontos do programa e as respectivas aulas. Nesse sentido, este manual no
dispensa a necessidade de se tirar apontamentos nas aulas, nem a leitura e consulta de outra
bibliografia, que permitir o aprofundamento dos temas, na medida em que aqui se situam
apenas os principais tpicos e as balizas das matrias abordadas.
Procurou-se por isso apresentar o contedo dos vrios pontos de uma forma clara, simples e
sinttica, de maneira a que o essencial seja captado neste manual, podendo ser aprofundado a
partir das referncias indicadas.
De acordo com o programa, este manual divide-se em trs captulos, que esto obviamente
relacionados intimamente:
-

O primeiro pretende fornecer aos alunos elementos que lhes permitam construir uma
amostra representativa e proceder seleco aleatria das unidades amostrais.

O segundo tem como objectivo familiarizar os formandos com o SPSS, permitindo-lhes


criar, importar e manipular bases de dados, bem como proceder ao tratamento preliminar
dos dados, recodificar variveis e construir novas variveis a partir das variveis
originais.

O terceiro tem como objectivo dotar os formandos de competncias tcnicas e estatsticas


que lhes permitam proceder anlise de dados univariada, bivariada e multrivariada,
com SPSS.

Captulo

Captulo 1 Amostragem

No final deste captulo os alunos devero ser capazes de:


1. seleccionar os tipos de amostra mais adequados a cada contexto;
2. calcular a dimenso da amostra e a margem de erro;
3. seleccionar as unidades amostrais.

Objectivos

Palavras

Amostra
Erro amostral
Unidades amostrais

1.1. Noes de amostragem


Contedo

Em Estatstica1, amostra o conjunto de elementos extrados de um conjunto


maior, chamado Populao. um conjunto constitudo de indivduos (famlias ou outras
organizaes), acontecimentos ou outros objectos de estudo que o investigador pretende descrever
ou para os quais pretende generalizar as suas concluses ou resultados.
Principais razes para se trabalhar com uma amostra:
-

A populao infinita, ou considerada como tal, no podendo portanto ser analisada


na ntegra;
Custo excessivo do processo de recolha e tratamento dos dados, como resultado da
grande dimenso da populao ou da complexidade do processo de caracterizao de
todos os elementos da populao;
Tempo excessivo do processo de recolha e tratamento dos dados, conduzindo
obteno de informao desactualizada;
As populaes so dinmicas, de onde resulta que os elementos ou objectos da
populao esto em constante renovao, de onde resulta a impossibilidade de
analisar todos os elementos desta populao;

Se a constituio da amostra obedecer a determinadas condies, a anlise das caractersticas da


amostra pode servir para se fazerem inferncias sobre a populao.
Nota: A dimenso da amostra significativamente inferior dimenso da populao, de forma a
justificar a constituio da amostra. A amostragem , por sua vez, um conjunto de
procedimentos atravs dos quais se selecciona uma amostra de uma populao. Pode-se
dividir as tcnicas de amostragem em vrio tipos:
-

Amostragem probabilstica - procedimento em que todos os elementos da populao


tm uma probabilidade conhecida e superior a zero de integrar a amostra;
Amostragem no probabilstica:
Amostragem intencional - amostragem no probabilstica subordinada a objectivos
especficos do investigador;
Amostragem no intencional - amostragem no probabilstica regida por critrios de
convenincia e/ou de disponibilidade dos inquiridos.

Amostra (estatstica) . In Infopdia [Em linha]. Porto: Porto Editora, 2003-2008. [Consult. 2008-01-15]. Disponvel na www:
<URL: http://www.infopedia.pt/$amostra-(estatistica)>.

Questes pr
prvias ao processo de amostragem
de natureza quantitativa
1. Definio clara dos
objectivos do estudo

O que se pretende saber/conhecer


melhor/compreender

2. Quem dever ser


entrevistado

Populao alvo* e populao a


inquirir

3. Quantos devero ser


entrevistados

Dimenso da amostra

4. Como sero
seleccionados

Mtodo de seleco da amostra


(escolha das unidades amostrais)

*Designa-se por populao alvo a totalidade dos elementos sobre os quais se deseja obter determinado tipo
de informao
7

Representa
Representao de uma Amostra*
Universo Hipottico
(praticamente infinito)

Universo ou Populao, N
(finito)

Amostra, n
(unidades de observao)

Unidades que poderiam ser


observadas

Conjunto de unidades existentes s


quais se aplica a teoria

* in: Bravo, Sierra: Tcnicas de Investigacin Social, Madrid, Editorial Paraninfo, 1989

Desenvolvimento de um plano amostral*


Populao alvo
Populao a inquirir

Processo amostral
Dimenso da amostra

Mtodo de recolha
de dados

Amostra final

* in: Reis, Melo, Andrade e Calapez: Estatstica aplicada, vol. 2, Lisboa, Slabo, 1999

1.2. Mtodos amostrais

Mtodos de selec
seleco da amostra*

Mtodos probabilsticos
(amostragem casual)

Mtodos no
probabilsticos
(amostragem dirigida)

Amostragem aleatria simples


Amostragem sistemtica
Amostragem estratificada
Amostragem por clusters
Amostragem multi-etapas
Amostragem multifsica
Amostragem por convenincia
Amostragem intencional
Amostragem snowball
Amostragem sequencial
Amostragem por quotas

* in: Reis, Melo, Andrade e Calapez: Estatstica aplicada, vol. 2, Lisboa, Slabo, 1999

10

10

1.3. Seleco das unidades amostrais

Mtodos de selec
cont)*
seleco da amostra (cont)
Mtodos probabilsticos - amostragem aleatria
Aleatria simples

Cada elemento da populao tem a mesma probabilidade de ser


seleccionado

Casual
sistemtica

Clculo do rcio K=N/n; seleco aleatria do primeiro elemento


da populao e sequencial dos restantes

Estratificada
Clusters

Separao dos elementos da populao em estratos e seleco


aleatria dos elementos dentro de cada estrato
A populao encontra-se dividida em clusters que so
seleccionados aleatoriamente, constituindo as unidades amostrais

Multi-etapas

Idntico ao anterior mas em que as unidades amostrais so


seleccionadas aleatoriamente dentro de cada cluster

Multi-fsica

Numa 1 fase recolhem-se dados sobre determinadas


caractersticas dos respondentes (comportamentos e frequncia de
consumos, variveis demogrficas, etc.) e da sua disponibilidade
para responder novamente a um inqurito. ento retirada desta
fase uma sub-amostra que ser inquirida na 2 fase.
11

* in: Reis, Melo, Andrade e Calapez: Estatstica aplicada, vol. 2, Lisboa, Slabo, 1999

Amostra estratificada*

Amostra (10% da populao)

Universo

rea

Centro

Sul

Outros

(Braga e
Porto)

Norte

(Coimbra,
Aveiro e
Leiria)

(Lisboa,
Setbal e
Santarm)

(Restantes
distritos)

Total

Produto A

180

160

310

200

850

Produto B

150

70

230

50

500

Produto C

1260

550

700

190

2700

Sector

Produto D

1070

610

600

170

2450

Total

2 660

1390

1840

610

6500

(Braga e
Porto)

Norte

(Coimbra,
Aveiro e
Leiria)

(Lisboa,
Setbal e
Santarm)

(Restantes
distritos)

Total

18

16

31

20

85

rea
Sector

Produto A

Centro

Sul

Outros

Produto B

15

23

50

Produto C

126

55

70

19

270

Produto D

107

61

60

17

245

Total

266

139

184

61

650

* Adaptado de: Reis, Melo, Andrade e Calapez: Estatstica aplicada, vol. 2, Lisboa, Slabo, 1999

12

11

Mtodos de selec
cont)*
seleco da amostra (cont)
Mtodos no probabilsticos - amostragem dirigida
Amostragem por A amostra seleccionada em funo da disponibilidade e
acessibilidade dos elementos que constituem a populao alvo
convenincia
Amostragem
intencional

A escolha dos elementos a incluir na amostra baseia-se na opinio


de uma ou mais pessoas que conhecem muito bem as
caractersticas especficas da populao em estudo, que se
pretende analisar

Amostragem
snowball

Numa 1 fase os inquiridos so escolhidos aleatoriamente, sendo,


numa segunda fase, os inquiridos adicionais escolhidos com base
na informao dos primeiros

Amostragem
sequencial

Semelhante ao mtodo multi-fsico. A realizao da fase seguinte


s decidida depois de analisados os resultados da fase anterior.

Amostragem por
quotas

Equivalente amostragem aleatria estratificada. As propores


dos vrios sub-grupos reflectem a sua distribuio dentro da
populao. Cada entrevistador dispe das caractersticas que os
entrevistados devero satisfazer, terminando as entrevistas
quando as quotas estiverem preenchidas.

* in: Reis, Melo, Andrade e Calapez: Estatstica aplicada, vol. 2, Lisboa, Slabo, 1999

13

1.4. Erro amostral


Determina
Determinao da margem de erro em fun
funo do n
n de elementos*

in: Bravo, Sierra: Tcnicas de Investigacin Social, Madrid, Editorial Paraninfo, 1989

14

12

Determinao n de elementos em funo da margem de erro *

in: Bravo, Sierra: Tcnicas de Investigacin Social, Madrid, Editorial Paraninfo, 1989

15

Determinao n de elementos em funo da margem de erro e da


dimenso da populao *

16

in: Bravo, Sierra: Tcnicas de Investigacin Social, Madrid, Editorial Paraninfo, 1989

13

A avaliao deste captulo consiste num exerccio escrito, de resposta s


seguintes questes

Avaliao

Exerccio de avaliao:
1) Depois de se identificar os dados que devero ser recolhidos e o instrumento (questionrio
estruturado, por exemplo) a utilizar para essa recolha, o passo seguinte consiste em definir um
processo de amostragem adequado ao tipo de dados e ao instrumento de anlise2
Diga, sucintamente em que consistem os seguintes mtodos de mostragem:
- Amostra aleatria simples;
- Amostra Estratificada;
- Amostra por quotas.
2) O problema da Inferncia Indutiva , do ponto de vista da Estatstica, encarado da seguinte
forma: a finalidade da investigao descobrir algo sobre determinada populao ou universo.3
Comente a frase e diga quais os procedimentos para seleccionar as unidades amostrais (sujeitos)
numa amostra estratificada.

L
Referncias

2
3

Bravo, R. S. (1988), Tcnicas de investigacin social, 5 ed.


corregida e ampliada, Madrid, Paraninfo (Seco 1).
Reis, E., P. Melo; R. Andrade e T. Calapez (1999) Estatstica
Aplicada volume 2, Lisboa, Slabo, 3 edio revista.
Vicente, P.; E. Reis; F. Ferro (2002), Sondagens-A amostragem
como factor decisivo de qualidade, Lisboa, Edies Slabo.

Reis, E., P. Melo; R. Andrade e T. Calapez (1999) Estatstica Aplicada volume 2, Lisboa, Slabo, 3 edio revista.
Idem.

14

Captulo

Captulo 2 Introduo ao SPSS

O objectivo geral deste captulo o de familiarizar os alunos com o SPSS,


nomeadamente no que se refere:

Objectivos

Janelas e menus;
Criao e manipulao de bases de dados;
Tratamento preliminar dos dados.

Varivel
Nvel de medida

Palavras

15

2.1. Editor de dados do SPSS

O package estatstico SPSS para Windows um poderoso sistema de anlises


estatsticas e manuseamento de dados, em que a utilizao mais frequente, para a
maioria das anlises a efectuar, se resume seleco das respectivas opes em
menus e caixas de dilogo

Contedo

O editor de dados do SPSS (Data Editor) composto por duas janelas


sobrepostas: Data View e Variable View. A funo da primeira Data View a de introduzir os
dados e da segunda - Variable View criar a estrutura da base de dados.
Muda-se de uma para outra clicando no respectivo separador.
O Data Editor do SPSS um programa do tipo de folha de clculo que permite facilmente criar ou
editar ficheiros de dados. Abre automaticamente quando se entra no SPSS.
O seu aspecto o seguinte:
Janela Data View:

16

Janela Variable View:

2.2. Output do SPSS (Output Viewer)


nesta janela que so apresentados todos os resultados estatsticos. Abre automaticamente sempre
que um determinado procedimento gera resultados. possvel editar as tabelas e grficos
produzidos, clicando duas vezes com a tecla esquerda do rato e modificar a sua aparncia.
Janela Output Viewer:

17

2.3. Menus do SPSS


Os menus das janelas principais Data Editor e Outpur Viewer - so idnticos e tm o seguinte
aspecto visual:

Principais funcionalidades dos menus

File

Criar, abrir, ler, exportar, gravar e imprimir


ficheiros.

Edit

Configurao/parametrizao do SPSS
(Options), inserir novas variveis e novos casos.

18

View

Activar/desactivar barras de comandos, fontes,


grelha, barra de status e mostrar etiquetas
(labels) definidas.

Data

Alterao global dos dados;


Ordenar a base;
Juntar ficheiros (Merge Files);
Dividir a anlise por grupos (Split File);
Criar subconjuntos de casos para anlise (Select
Cases);
Activar ponderadores (Weight Cases).

Transform

Criar novas variveis com base nas variveis


originais;
Recodificar variveis.

19

Analyse

Procedimentos de anlise estatstica.

Graphs

Criar grficos.

Utilities

Informao sobre as variveis.

Window

Comuta entre janelas;


Minimizar janelas

Help

Ajuda em linha;
Tutorial.

20

2.4. Criao de bases de dados


As bases de dados so criadas na janela Variable View, devendo a estrutura das variveis obedecer
s seguintes regras:

- Mximo 64 caracteres (verses anteriores 13, apenas 8);


- Deve comear por uma letra; os restantes caracteres podem ser letras
(maisculas ou minsculas so iguais), algarismos, ou os smbolos @, #, _, $.
- No se podem usar espaos em branco, nem os seguintes caracteres: !, ?, , , *,
Name
+, -, %, vrgula, ponto e vrgula, \, /, >, <
- Evitar terminar o nome com o caracter _ (underscore);
- Evitar usar caracteres acentuados ou com til.
Por defeito numrico, pode alterar-se para outro tipo, por exemplo carcter
Type
(string), data, etc
N de caracteres do campo. Por defeito, 8. Pode ser aumentado no caso das
Width
variveis string, at 255.
Decimals Define o nmero da casas decimais.
Etiquetas dos nomes (name) das variveis. Admite o mximo de 128 caraecteres.
Label
Etiquetas dos valores (cdigos) das variveis nominais ou ordinais.
Values
Define os cdigos das respostas no vlidas (no sabe, no responde, no tem que
Missing
responder) que sero excludas da anlise.
Columns Largura da coluna de introduo de dados. Por defeito, 8.
Permite alinhar os dados esquerda, centro ou direita.
Align
Measures Define o nvel de medida das variveis: nominal, ordinal ou scale.

A introduo dos dados processa-se na janela Variable View aps ter sido criada a estrutura da
base.

2.5. Tratamento Preliminar de dados


Nota: A base de dados que vamos utilizar um extracto da base de dados do European Social
Survey (round 1)4 com os resultados da aplicao do questionrio em Portugal (ficheiro
ESS-Portugal 2002 (base1).sav).
2.5.1. Transformao algbrica de variveis

Exemplo 1: Recodificao de variveis


Pretende-se criar duas novas variveis: a varivel idade a partir da varivel f3 (data de
nascimento) e recodific-la, criando uma nova varivel - idade2 - com 4 escales: at 30 anos; 31
50 anos; 50 65 anos e > 65 anos.
a) Criao da varivel idade:

A base de dados original est disponvel em http://www.europeansocialsurvey.org/.

21

A varivel idade acrescentou-se base de dados. Vamos agora proceder sua recodificao,
criando uma nova varivel idade2 com 4 escales5:

A varivel idade2 acrescentar-se- base e dever ser completada com a alterao do nvel de
medida (scale para ordinal) e a definio dos respectivos value labels.
O resultado ser o seguinte:

Idade

Valid

At 30 anos
31 - 50 anos
51 - 65 anos
> 65 anos
Total

Frequency
341
505
315
350
1511

Percent
22.6
33.4
20.8
23.2
100.0

Valid Percent
22.6
33.4
20.8
23.2
100.0

Cumulative
Percent
22.6
56.0
76.8
100.0

Nota: na recodificao de variveis recomendvel manter as variveis originais e criar novas variveis recodificadas,
escolhendo para o efeito a opo Into diferent variable.

22

b) Recodificao da varivel escolaridade:


Pretende-se recodificar a varivel escolaridade (f7) criando uma nova varivel (escol) com 3
escales: at 9 anos; 10 12 anos e > 12 anos.

A varivel escol acrescentar-se- base e dever ser completada com a alterao do nvel de
medida (scale para ordinal) e a definio dos respectivos value labels.
O resultado ser o seguinte:

Escolaridade

Valid

At 9 anos
10 - 12 anos
> 12 anos
NR
Total

Frequency
1046
251
212
2
1511

Percent
Valid Percent
69.2
69.2
16.6
16.6
14.0
14.0
.1
.1
100.0
100.0

Cumulative
Percent
69.2
85.8
99.9
100.0

23

c) Recodificao da varivel autoposicionamento poltico:


Pretende-se recodificar a varivel autoposicionamento poltico (b28) criando uma nova varivel
(b28r) com 3 escales: esquerda; centro e direita.

A varivel b28r acrescentar-se- base e dever ser completada com a alterao do nvel de
medida (scale para ordinal) e a definio dos respectivos value labels.
O resultado ser o seguinte:

Autoposicionamento poltico

Valid

Missing
Total

Esquerda
Centro
Direita
Total
System

Frequency
296
620
294
1211
304
1515

Percent
Valid Percent
19.6
24.5
41.0
51.2
19.4
24.3
79.9
100.0
20.1
100.0

Cumulative
Percent
24.5
75.7
100.0

24

Exemplo 2: criao de ndices sintticos


Pretende-se criar dois ndices sintticos: Confiana social (variveis a8, a9 e a10) e Confiana
institucional (variveis b7, b8, b9 e b10).

As 2 variveis acrescentaram-se base6:

Os resultados so os seguintes:

Descriptive Statistics
ndice sinttico de Confiana social
ndice sinttico de Confiana institucional
Valid N (listwise)

N
1480
1338
1319

Minimum
.0
.0

Maximum
10.0
9.3

Mean
Std. Deviation
4.316
1.7469
4.097
1.7603

Nota: tratando-se de variveis rcio, devero ter casas decimais (1 ou 2).

25

2.5.2. Transformao lgica de variveis


Exemplo: pretende-se criar uma varivel - sexid - atravs da transformao lgica das variveis f2
e idade2, com 4 categorias: homens at 30 anos, homens com mais de 30 anos,
mulheres at 30 anos e mulheres com mais de 30 anos.

Nota: repetir o comando para as restantes categorias, cujas expresses numricas so as seguintes:
Categoria 2: f2 = 1 & idade2 > 2
Categoria 3: f2 = 2 & idade2 = 3
Categoria 4: f2 = 2 & idade2 > 4
A varivel sexid acrescentar-se- base e dever ser completada com a alterao do nvel de
medida (scale para ordinal) e a definio dos respectivos label e value labels.
O resultado o seguinte:
Sexo e Idade

Valid

Homens at 30 anos
Homens com mais de 30 anos
Mulheres at 30 anos
Mulheres com mais de 30 anos
Total

Frequency
158
472
183
698
1511

Percent
Valid Percent
10.5
10.5
31.2
31.2
12.1
12.1
46.2
46.2
100.0
100.0

Cumulative
Percent
10.5
41.7
53.8
100.0

26

2.5.3. Inverso da escala de uma varivel


Exemplo: pretende-se criar uma nova varivel (ib1) com a inverso da escala da varivel interesse
pela poltica (b1) de modo a que 1 corresponda a nenhum interesse e 4 a muito
interesse:

O resultado o seguinte:

b1
Qual o seu interesse pela poltica

Valid

Missing

Muito interesse
Algum interesse
Pouco interesse
Nenhum interesse
Total
Recusa
No sabe
Total

Total

Frequency
117
456
441
489
1503
6
2
8
1511

Percent
7.7
30.2
29.2
32.4
99.5
.4
.1
.5
100.0

Valid Percent
7.8
30.3
29.3
32.5
100.0

Cumulative
Percent
7.8
38.1
67.5
100.0

ib1
Qual o seu interesse pela poltica

Valid

Missing

Total

Nenhum interesse
Pouco interesse
Algum interesse
Muito interesse
Total
No sabe
Recusa
Total

Frequency
489
441
456
117
1503
2
6
8
1511

Percent
32.4
29.2
30.2
7.7
99.5
.1
.4
.5
100.0

Valid Percent
32.5
29.3
30.3
7.8
100.0

Cumulative
Percent
32.5
61.9
92.2
100.0

27

2.5.4. Variveis de contagem de ocorrncias


Exemplo: pretende-se criar uma varivel partciv que traduza o ndice de participao cvica,
que integre (conte) apenas os inquiridos que responderam sim (1) s questes b15 a
b24.

A varivel partciv acrescentar-se- base.


O resultado o seguinte:

ndice sinttico de Participao cvica

Valid

0
1
2
3
4
5
6
7
9
10
Total

Frequency
1174
145
85
39
30
16
9
11
1
1
1511

Percent
Valid Percent
77.7
77.7
9.6
9.6
5.6
5.6
2.6
2.6
2.0
2.0
1.1
1.1
.6
.6
.7
.7
.1
.1
.1
.1
100.0
100.0

Cumulative
Percent
77.7
87.3
92.9
95.5
97.5
98.5
99.1
99.9
99.9
100.0

A interpretao a seguinte: 77,7% (1174) inquiridos no assinalaram nenhum indicador, 9,6%


(145) assinalaram apenas 1, 5,6% (85) assinalaram 2, etc.

28

2.6. Seleco de casos


Exemplo 1: seleco de uma sub-amostra
Pretende-se seleccionar (filtrar) apenas os inquiridos da regio de Lisboa e Vale do Tejo
(regiao=3).

Na base de dados (Data View) os registos no seleccionados (filtrados) aparecem tracejados,


mantendo-se assim at que se anule a seleco (filtro). A barra de status informa que a base est
filtrada:

Nota muito importante: no esquecer de desactivar o filtro quando no for necessrio:

29

Exemplo 2: Seleco de uma amostra aleatria simples


Pretende-se seleccionar uma amostra de 5% dos casos, aproximadamente:

Na base de dados (Data View) os registos no seleccionados (filtrados) aparecem tracejados,


mantendo-se assim at que se anule a seleco (filtro). A barra de status informa que a base est
filtrada:
Nota muito importante: no esquecer de desactivar o filtro quando no for necessrio:
Exemplo 3: Separar a anlise por grupos
Pretende-se separar a anlise pelas 4 categorias (sub-amostras) da varivel sexid (sexo e idade).
possvel obter os resultados na mesma tabela, seleccionando a opo Compare groups ou em
tabelas diferentes, com a opo Output by groups:

No primeiro caso, os resultados so os seguintes:


Descriptive Statistics
Sexo e Idade
Homens at 30 anos

Homens com mais


de 30 anos

Mulheres at 30
anos

Mulheres com mais


de 30 anos

ndice sinttico de Confiana social


ndice sinttico de Confiana institucional
Valid N (listwise)
ndice sinttico de Confiana social
ndice sinttico de Confiana institucional
Valid N (listwise)
ndice sinttico de Confiana social
ndice sinttico de Confiana institucional
Valid N (listwise)
ndice sinttico de Confiana social
ndice sinttico de Confiana institucional
Valid N (listwise)

N
156
147
145
456
440
430
182
168

Minimum
1.0
.0

Maximum
9.0
8.5

Mean
4.859
4.248

Std. Deviation
1.4670
1.7428

.0
.0

10.0
9.3

4.259
4.066

1.8100
1.8441

.0
.0

9.3
8.0

4.604
4.116

1.6277
1.6234

.0
.0

10.0
9.3

4.153
4.075

1.7629
1.7401

167
686
583
577

30

No segundo caso seriam produzidas 4 tabelas, uma por cada categoria da varivel colocada em
split:
Descriptive Statisticsa
N
ndice sinttico de
Confiana social
ndice sinttico de
Confiana institucional
Valid N (listwise)

Minimum

Maximum

Mean

Std. Deviation

156

1.0

9.0

4.859

1.4670

147

.0

8.5

4.248

1.7428

145

a. Sexo e Idade = Homens at 30 anos

Descriptive Statisticsa
N
ndice sinttico de
Confiana social
ndice sinttico de
Confiana institucional
Valid N (listwise)

Minimum

Maximum

Mean

Std. Deviation

456

.0

10.0

4.259

1.8100

440

.0

9.3

4.066

1.8441

430

a. Sexo e Idade = Homens com mais de 30 anos


Descriptive Statisticsa
N
ndice sinttico de
Confiana social
ndice sinttico de
Confiana institucional
Valid N (listwise)

Minimum

Maximum

Mean

Std. Deviation

182

.0

9.3

4.604

1.6277

168

.0

8.0

4.116

1.6234

167

a. Sexo e Idade = Mulheres at 30 anos


Descriptive Statisticsa
N
ndice sinttico de
Confiana social
ndice sinttico de
Confiana institucional
Valid N (listwise)

Minimum

Maximum

Mean

Std. Deviation

686

.0

10.0

4.153

1.7629

583

.0

9.3

4.075

1.7401

577

a. Sexo e Idade = Mulheres com mais de 30 anos

31

Avaliao deste mdulo consiste em criar uma base de dados para o excerto do
seguinte questionrio:

Avaliao

Pereira, A. (1999), SPSS-Guia Prtico de Utilizao, Anlise de


Dados para Cincias Sociais e Psicologia, Lisboa, Edies Slabo, 6
Referncias
edio revista e corrigida.
- Vinacua, B. V. (2002), Anlisis Estadstico con SPSS para Windows. Volumen I.
Estadstica bsica, Madrid, McGraw-Hill, 2 edicin.

32

Captulo

Captulo 3 Estatstica aplicada com SPSS

O objectivo geral deste captulo o de proceder anlise estatstica de dados, nomeadamente:


o Anlise univariada frequncias e distribuies;
o Anlise bivariada Cruzamentos, testes de hipteses e inferncia
estatstica;
o Anlise multivariada:
Previso - Regresso linear simples e mltipla;
Detectar dimenses latentes - Anlise das componentes
principais;
Segmentao: Anlise de Clusters

Objectivos
Palavras


Contedo

Frequncias
Cruzamentos
Testes de hipteses
Inferncia estatstica
Margem de erro
Intervalo de confiana
Significncia estatstica

3.1. Anlise de dados univariada


3.1. 1. Frequncias
a) Utilizando o comando Frequencies7
Variveis de caracterizao social:

Nota: as tabelas geradas pelo procedimento Frequencies so em formato rascunho destinando-se apenas ao
controlo e validao da base de dados, com o objectivo de eliminar erros de introduo de dados.

33

Os resultados so os seguintes:
Sexo

Valid

Masculino
Feminino
Total

Frequency
630
881
1511

Percent
41.7
58.3
100.0

Valid Percent
41.7
58.3
100.0

Cumulative
Percent
41.7
100.0

Idade

Valid

At 30 anos
31 - 50 anos
51 - 65 anos
> 65 anos
Total

Frequency
341
505
315
350
1511

Percent
22.6
33.4
20.8
23.2
100.0

Valid Percent
22.6
33.4
20.8
23.2
100.0

Cumulative
Percent
22.6
56.0
76.8
100.0

Anos de escolaridade concludos

Valid

Missing
Total

At 9 anos
10 - 12 anos
> 12 anos
Total
NR

Frequency
1046
251
212
1509
2
1511

Percent
69.2
16.6
14.0
99.9
.1
100.0

Valid Percent
69.3
16.6
14.0
100.0

Cumulative
Percent
69.3
86.0
100.0

b) Utilizando o comando Tables

34

Os resultados so os seguintes8:
N
Sexo

Idade

Anos de
escolaridade
concludos

Masculino
Feminino
Total
At 30 anos
31 - 50 anos
51 - 65 anos
> 65 anos
Total
At 9 anos
10 - 12 anos
> 12 anos
NR
Total

630
881
1511
341
505
315
350
1511
1046
251
212
2
1511

%
41.7
58.3
100.0
22.6
33.4
20.8
23.2
100.0
69.2
16.6
14.0
.1
100.0

c) Quadro de frequncias (%) dos indicadores das questes d18 a d24

Nota: o quadro foi modificado no respectivo editor, a que se acede clicando duas vezes sobre o mesmo.

35

O resultado o seguinte:

As pessoas que vm viver e trabalhar para c fazem


com que os salrios baixem
As pessoas que vm viver e trabalhar para c, em
regra, prejudicam mais as expectativas econmicas
dos pobres do que dos ricos
As pessoas que vm viver e trabalhar para c
ajudam a preencher lugares em que h falta de
trabalhadores
Se as pessoas que vieram viver e trabalhar para c
estiverem desempregadas por muito tempo deviam
ser obrigadas a ir embora
As pessoas que vieram viver para c devem ter os
mesmos direitos do que todas as outras pessoas
As pessoas que vieram viver para c cometerem um
crime grave, devem ser obrigadas a ir embora
As pessoas que vieram viver para c cometerem
qualquer crime, devem ser obrigadas a ir embora

Nem
concorda

Concorda
totalmente

Concorda

11.7

41.3

15.1

25.4

6.5

100.0

14.1

46.1

19.4

16.2

4.3

100.0

13.7

53.7

16.7

12.3

3.6

100.0

14.3

42.3

22.1

16.2

5.2

100.0

25.9

54.0

12.5

6.0

1.6

100.0

43.3

40.1

9.3

6.2

1.0

100.0

26.6

38.5

19.0

13.2

2.7

100.0

Discorda

Discorda
totalmente

Total

36

3.1. 2. Estatsticas descritivas e grfico de perfil


Nota muito importante: A anlise estatstica, excepto nos quadros de frequncias,
deve incidir apenas nas respostas vlidas. Assim, antes de efectuar qualquer anlise
estatstica, torna-se necessrio definir e activar os respectivos missing values (no
responde/no sabe/no se aplica) na coluna missing da base de dados.
a) Utilizando o comando Descriptives9
Indicadores das questes d10 a d17:

Os resultados so os seguintes:
Descriptive Statistics
Ter qualificaes profissionais de que o pas precisa
Querer adaptar-se ao mesmo modo de vida do pas
Ser rico
Ter familiares prximos a viver c
Ter boas qualificaes acadmicas
Saber falar a lngua oficial do pas
Ter formao crist
Ser branco
Valid N (listwise)

N
1448
1449
1447
1454
1416
1466
1440
1451
1330

Minimum
0
0
0
0
0
0
0
0

Maximum
10
10
10
10
10
10
10
10

Mean
Std. Deviation
7.46
2.241
7.11
2.442
6.81
2.807
6.48
2.425
6.06
2.536
6.05
2.633
3.79
2.971
2.85
2.874

Nota: as tabelas geradas pelo procedimento Descriptives so em formato rascunho destinando-se apenas ao
controlo e validao da base de dados, com o objectivo de eliminar erros de introduo de dados.

37

b) Utilizando o comando Tables

Os resultados so os seguintes:
Mdia
Ter boas qualificaes acadmicas
Ter familiares prximos a viver c
Saber falar a lngua oficial do pas
Ter formao crist
Ser branco
Ser rico
Ter qualificaes profissionais de que o pas precisa
Querer adaptar-se ao mesmo modo de vida do pas

6.1
6.5
6.1
3.8
2.8
6.8
7.5
7.1

Desvio-padro
2.5
2.4
2.6
3.0
2.9
2.8
2.2
2.4

38

c)

Grfico de perfil10:

7.1
Querer adaptar-se ao mesmo modo de vida do pas
7.5
Ter qualificaes profissionais de que o pas precisa
6.8
Ser rico
2.8
Ser branco
3.8
Ter formao crist
6.1
Saber falar a lngua oficial do pas
6.5
Ter familiares prximos a viver c
6.1
Ter boas qualificaes acadmicas
0.0

1.0

Nenhuma importncia

10

2.0

3.0

4.0

5.0

6.0

7.0

8.0

9.0

10.0

Muita importncia

Para obter um grfico interactivo de linhas, o procedimento o seguinte: Graph/Interactive/Line, seleccionam-se


todas as variveis em simultneo pressionando a tecla Ctrl e arrastam-se para horizontal.
O grfico do exemplo foi editado e transformado, tendo-se alterado a escala para o formato real e a cor da linha e
acrescentado as etiquetas (valores e mnimo e mximo), a grelha e a linha de referncia.

39

3.1.3. Testes de aderncia (para 1 amostra)


3.1.3.1. 2 (Qui-quadrado)
Exemplo 1: Pretende-se testar se a classe social (classe2) tem uma distribuio uniforme11 no
universo.
Como a varivel nominal, o procedimento consiste em realizar o teste de aderncia
do 2 (All categories equal):

O resultado o seguinte:
Classes sociais (ACM) prprio
Observed N Expected N
Empresrios, dirigentes
e profissionais liberais
Profissionais tcnicos e
de enquadramento
Trabalhadores
independentes
Empregados executantes
Operrios
Total

Residual

175

256.6

-81.6

191

256.6

-65.6

81

256.6

-175.6

413
423
1283

256.6
256.6

156.4
166.4

Test Statistics

Chi-Squarea
df
Asymp. Sig.

Classes
sociais (ACM)
prprio
366.123
4
.000

a. 0 cells (.0%) have expected frequencies less than


5. The minimum expected cell frequency is 256.6.

Interpretao: A varivel classe social no segue uma distribuio uniforme no universo


(2(4)=366,123; p=0,000).

11

Testando se as frequncias observadas so iguais s frequncias esperadas.

40

3.1.3.2. Kolmogorov-Smirnov
Exemplo: Pretende-se testar se o interesse pela poltica (ib1) segue uma distribuio normal ou
uniforme no universo.
Como a varivel ordinal, o procedimento consiste em realizar o teste de aderncia
de Kolmogorov-Smirnov para as duas distribuies:

O resultado o seguinte:
One-Sample Kolmogorov-Smirnov Test

N
Normal Parameters a,b
Most Extreme
Differences

Mean
Std. Deviation
Absolute
Positive
Negative

Kolmogorov-Smirnov Z
Asymp. Sig. (2-tailed)
a. Test distribution is Normal.
b. Calculated from data.

Qual o seu
interesse
pela poltica
1503
2.13
.961
.206
.206
-.198
8.001
.000

One-Sample Kolmogorov-Smirnov Test 2

N
Uniform Parameters a,b
Most Extreme
Differences

Minimum
Maximum
Absolute
Positive
Negative

Kolmogorov-Smirnov Z
Asymp. Sig. (2-tailed)

Qual o seu
interesse
pela poltica
1503
1
4
.325
.325
-.078
12.613
.000

a. Test distribution is Uniform.


b. Calculated from data.

Interpretao: A varivel interesse pela poltica no segue uma distribuio normal


(K-S=8,001; p=0,000) nem uniforme (K-S=12,613; p=0,000) no universo.

41

3.1.3.3 Teste t de Student


Exemplo: Pretende-se testar se a confiana social adere mdia que corresponde ao centro da
escala (5)12 dos indicadores que compem a varivel (confsoc).
Como a varivel quantitativa, o procedimento consiste em realizar o teste t de
aderncia (One-Sample T-Test), comparando se a mdia observada difere
significativamente de 5:

O resultado o seguinte:
One-Sample Statistics
N
ndice sinttico de
Confiana social

Mean

1480

Std. Deviation

Std. Error
Mean

1.7469

.0454

4.316

One-Sample Test
Test Value = 5

t
ndice sinttico de
Confiana social

-15.073

df
1479

Sig. (2-tailed)

Mean
Difference

.000

-.684

95% Confidence
Interval of the Difference
Lower
Upper
-.774

-.595

Interpretao: A mdia observada 4,3, diferindo significativamente da mdia de referncia


(t(1479)= -15,073; p=0,000).

12

A escala de medida dos indicadores de confiana social varia entre 0=nenhuma e 10=toda.

42

3.2. Anlise de dados bivariada

3.2.1. Cruzamentos e teste de independncia 2 (Qui-quadrado)


Exemplo 1: Pretende-se saber se h relao entre o sexo e o facto de ter comprado produtos por
razes de ordem poltica, tica ou ambiental.
O procedimento consiste em cruzar as variveis sexo (f2) e (b22) e solicitar o teste
de independncia do 2*.
a) Utilizando o comando Crosstabs

O resultado o seguinte:
Sexo * Comprou produtos por razes de ordem poltica,
tica ou ambiental Crosstabulation
% within Sexo

Sexo

Comprou produtos por


razes de ordem
poltica, tica ou
ambiental
Sim
No
7.2%
92.8%
7.7%
92.3%
7.5%
92.5%

Masculino
Feminino

Total

Total
100.0%
100.0%
100.0%

Chi-Square Tests

Pearson Chi-Square
Continuity Correction
Likelihood Ratio
Fisher's Exact Test
Linear-by-Linear
Association
N of Valid Cases

Value
.121b
.062
.122

1
1
1

Asymp. Sig.
(2-sided)
.728
.804
.727

.728

df

Exact Sig.
(2-sided)

.766
.121

Exact Sig.
(1-sided)

.404

1495

a. Computed only for a 2x2 table


b. 0 cells (.0%) have expected count less than 5. The minimum expected count is
46.75.

Interpretao: As mulheres compram ligeiramente mais que os homens mas as diferenas no


so estatisticamente significativas (2 (1)=0,121; p>0,05).
*

Para a seleco dos testes estatsticos, ver o Anexo 1.

43

b) Utilizando o comando Tables

O resultado o seguinte:

Sexo

Masculino
Feminino
Total

Comprou produtos por razes de


ordem poltica, tica ou ambiental
Sim
No
Total
7.2
92.8
100.0
7.7
92.3
100.0
7.5
92.5
100.0

Pearson Chi-Square Tests

Sexo

Chi-square
df
Sig.

Comprou
produtos por
razes de
ordem
poltica, tica
ou ambiental
.121
1
.728

Results are based on nonempty rows and


columns in each innermost subtable.

44

3.2.2. Testes no paramtricos (procedimento Non Parametric Tests)


3.2.2.1. Duas amostras independentes
(Mann-Whitney e Kolmogorov-Smirnov)
Exemplo 1: Pretende-se testar se h relao entre o sexo (f2) e o interesse pela poltica (ib1).
O procedimento consiste na realizao do teste no paramtrico para 2 amostras
independentes (Mann-Whitney)13.

O resultado o seguinte:
Test Statisticsa
Ranks
Qual o seu interesse
pela poltica

Sexo
Masculino
Feminino
Total

N
628
875
1503

Mean Rank
815.82
706.19

Sum of Ranks
512336.00
617920.00

Qual o seu
interesse
pela poltica
Mann-Whitney U
234670.000
Wilcoxon W
617920.000
Z
-5.058
Asymp. Sig. (2-tailed)
.000
a. Grouping Variable: Sexo

Interpretao: a mdia das ordenaes (Mean Rank) superior nos homens. Ou seja, os homens
referem que tm mais interesse pela poltica do que as mulheres. As diferenas so
estatisticamente significativas (M-W=234670; p=0,000).

13

Consultar o Anexo 1.

45

Exemplo 2: Pretende-se testar se h relao entre o sexo (f2) e o grau de escolaridade (escol).
O procedimento consiste na em fazer o cruzamento entre as 2 variveis e realizar do
teste no paramtrico para duas amostras independentes (Kolmogorov-Smirnov)14.

14

Consultar o Anexo 1.

46

O resultado o seguinte:
Anos de escolaridade concludos
10 - 12
At 9 anos
> 12 anos
Total
Masculino
67.9
18.9
13.2
100.0
Feminino
70.3
15.0
14.7
100.0
Total
69.3
16.6
14.0
100.0

Sexo

Test Statisticsa
Most Extreme
Differences

Absolute
Positive
Negative

Kolmogorov-Smirnov Z
Asymp. Sig. (2-tailed)

Escolaridade
.025
.025
-.014
.476
.977

a. Grouping Variable: Sexo

Interpretao: Tanto no grau de escolaridade intermdio como no superior, verifica-se que h


mais homens do que mulheres, observando-se o inverso no grau de escolaridade mais baixo. No
entanto, as diferenas no so estatisticamente significativas (K-S=0,476; p>0,05).
3.2.2.2. K amostras independentes (Kruskal-Wallis)
Exemplo: Pretende-se testar se h relao entre a idade (idade2) e o interesse pela poltica (ib1).
O procedimento consiste na realizao do teste no paramtrico para k amostras
independentes (Kruskal-Wallis)15.

O resultado o seguinte:

15

Consultar o Anexo 1.

47

Idade

At 30 anos
31 - 50 anos
51 - 65 anos
> 65 anos
Total

Nenhum
interesse
27.4
28.0
30.7
45.8
32.5

Qual o seu interesse pela poltica


Pouco
Algum
Muito
interesse
interesse
interesse
33.6
31.9
7.1
28.8
32.9
10.3
30.4
29.7
9.3
25.1
25.6
3.5
29.3
30.3
7.8

Total
100.0
100.0
100.0
100.0
100.0

Test Statisticsa,b

Ranks
Qual o seu interesse
pela poltica

Idade
At 30 anos
31 - 50 anos
51 - 65 anos
> 65 anos
Total

N
339
504
313
347
1503

Mean Rank
777.35
803.46
768.74
637.38

Qual o seu
interesse
pela poltica
Chi-Square
36.088
df
3
Asymp. Sig.
.000
a. Kruskal Wallis Test
b. Grouping Variable: Idade

Interpretao: A mdia das ordenaes (Mean Rank) mais elevada nos que tm entre 31 e 50 anos,
sendo este escalo, por conseguinte, que refere ter mais interesse pela poltica, enquanto os mais
velhos so os que revelam menos interesse. As diferenas so estatisticamente significativas (K-W
(3)=36,088; p=0,000).

48

3.2.3. Testes paramtricos (procedimento Compare Means)


3.2.3.1. Duas amostras emparelhadas (t de Student para amostras
emparelhadas)
Exemplo: Pretende-se testar se a mdia da confiana social (confsoc) idntica, ou no, mdia
da confiana institucional (confinst).
O procedimento consiste na realizao do teste paramtrico para duas amostras
emparelhadas (Paired-Samples T-Test)16.

O resultado o seguinte:
Paired Samples Statistics
Mean
Pair 1

ndice sinttico de
Confiana social
ndice sinttico de
Confiana institucional

Std. Error
Mean

Std. Deviation

4.313

1319

1.7165

.0473

4.087

1319

1.7606

.0485

Paired Samples Correlations


N
Pair 1

ndice sinttico de
Confiana social &
ndice sinttico de
Confiana institucional

Correlation
1319

Sig.

.310

.000

Paired Samples Test


Paired Differences

Mean
Pair 1

ndice sinttico de
Confiana social ndice sinttico de
Confiana institucional

.225

Std. Deviation

Std. Error
Mean

2.0428

.0562

95%
Confidence
Interval of the
Difference
Lower
Upper
.115

.336

t
4.009

df
1318

Sig. (2-tailed)
.000

Interpretao: A mdia da confiana social (4,313) ligeiramente superior mdia da confiana


institucional (4,087). A correlao entre as duas variveis mdia fraca (0,310) e estatisticamente
significativa (p=0,000), sendo igualmente estatisticamente significativa a diferena entre as duas
mdias (t (1318)=4,009; p=0,000).

16

Consultar o Anexo 1.

49

3.2.3.2. Duas amostras independentes


(t de Student de independncia)
Exemplo: Pretende-se testar se h relao entre o sexo (f2) e a confiana social (confsoc).
O procedimento consiste na realizao do teste paramtrico para duas amostras
independentes (Independent-Samples T-Test)17.

O resultado o seguinte:
Group Statistics

ndice sinttico de
Confiana social

Sexo
Masculino
Feminino

N
612
868

Mean
Std. Deviation
4.412
1.7476
4.248
1.7442

Std. Error
Mean
.0706
.0592

Independent Samples Test


Levene's Test
for Equality of
Variances

ndice sinttico de
Confiana social

Equal variances assumed


Equal variances not
assumed

F
.182

Sig.
.669

t-test for Equality of Means

t
1.781
1.780

df
Sig. (2-tailed)
1478
.075
1313.926

.075

Mean
Difference
.164

Std. Error
Difference
.0921

.164

.0922

95%
Confidence
Interval of the
Difference
Lower Upper
-.0167 .3448
-.0167

.3449

Interpretao: Os homens (4,412) revelam mais confiana social que as mulheres (4,248) 18 ,
embora a diferena no seja estatisticamente significativa, (t (1480)=1,808; p> 0,05).

17
18

Consultar o Anexo 1.
O ndice de confiana social varia entre 0=nenhuma confiana e 10=toda a confiana.

50

3.2.3.3. k amostras independentes (Anlise de Varincia Simples Paramtrica ANOVA)

Exemplo: Pretende-se testar se h relao entre a idade (idade2) e a confiana social (confsoc).
O procedimento consiste na realizao da Anlise de Varincia Simples Paramtrica
(One-way Anova)19.

O resultado o seguinte:
Descriptives
ndice sinttico de Confiana social

N
At 30 anos
31 - 50 anos
51 - 65 anos
> 65 anos
Total

338
497
312
333
1480

Mean
Std. Deviation
4.722
1.5585
4.058
1.6747
4.068
1.8340
4.519
1.8500
4.316
1.7469

Std. Error
.0848
.0751
.1038
.1014
.0454

95% Confidence Interval for


Mean
Lower Bound Upper Bound
4.555
4.889
3.911
4.206
3.864
4.273
4.319
4.718
4.226
4.405

Minimum
.0
.0
.0
.0
.0

Maximum
9.3
9.3
10.0
10.0
10.0

Test of Homogeneity of Variances


ndice sinttico de Confiana social
Levene
Statistic
4.050

df1
3

df2
1476

Sig.
.007

ANOVA
ndice sinttico de Confiana social

Between Groups
Within Groups
Total

19

Sum of
Squares
121.466
4391.954
4513.420

df
3
1476
1479

Mean Square
40.489
2.976

F
13.607

Sig.
.000

Consultar o Anexo 1.

51

Interpretao: So os mais novos (4,722), seguidos dos mais velhos (4,519) que mais confiam.
Os escales intermdios 31-50 anos (4,058) e 51-65 anos ( (4,068) confiam um pouco menos. As
diferenas so estatisticamente significativas (F (3)=13,787; p=0,000).
Nota: sendo as diferenas estatisticamente significativas, importa saber quais os grupos que
diferem uns dos outros. Para o efeito realiza-se um teste posteriori (Post Hoc). O SPSS
disponibiliza vrios testes para este fim, sendo os mais utilizados, o teste de Scheffe20, no caso de
as varincias serem iguais, e o teste Games-Howell no caso de serem diferentes.
Neste caso, uma vez que se rejeita a hiptese de as varincias serem iguais (p=0,007), vamos
solicitar o teste Games-Howell:

O resultado o seguinte:
Multiple Comparisons
Dependent Variable: ndice sinttico de Confiana social
Games-Howell

(I) Idade
At 30 anos

31 - 50 anos

51 - 65 anos

> 65 anos

(J) Idade
At 30 anos
31 - 50 anos
51 - 65 anos
> 65 anos
At 30 anos
31 - 50 anos
51 - 65 anos
> 65 anos
At 30 anos
31 - 50 anos
51 - 65 anos
> 65 anos
At 30 anos
31 - 50 anos
51 - 65 anos
> 65 anos

Mean
Difference (I-J)

Std. Error

Sig.

95% Confidence Interval


Lower Bound Upper Bound

.664*
.654*
.203
-.664*

.1133
.1340
.1321
.1133

.000
.000
.415
.000

.372
.308
-.137
-.955

.955
.999
.544
-.372

-.010
-.460*
-.654*
.010

.1282
.1262
.1340
.1282

1.000
.002
.000
1.000

-.340
-.785
-.999
-.320

.320
-.135
-.308
.340

-.450*
-.203
.460*
.450*

.1451
.1321
.1262
.1451

.011
.415
.002
.011

-.824
-.544
.135
.076

-.076
.137
.785
.824

*. The mean difference is significant at the .05 level.

20

Que tambm o mais conservador,

52

Interpretao: os grupos que diferem estatisticamente entre si esto assinalados com um *. O


quadro seguinte sintetiza as diferenas significativas entre os quatro escales etrios
At 30 anos
At 30 anos
31-50 anos
51-65 anos
> 65 anos

31-50 anos
X

51-65 anos
X

X
X

> 65 anos
X
X

3.2.4. Correlao linear simples


A correlao linear simples permite obter uma medida (coeficiente de correlao r de Pearson)
atravs da qual se determina a fora ou intensidade de uma associao linear entre duas ou mais
variveis quantitativas ou tratadas como tal (escalas tipo Likert).
O coeficiente de correlao varia entre 1 e 121 e deve ser interpretado da seguinte forma:
0: ausncia de correlao;
+/- ]0 0,25]: correlao muito fraca;
+/- ]0,25 0,40] correlao fraca;
+/- ]0,40 0,60] correlao mdia;
+/- ]0,60 0,75] correlao mdia forte;
+/- ]0,75 0,90] correlao forte;
+/- ]0,90 1[
correlao muito forte;
+/- 1
correlao perfeita
Exemplo: Correlao entre as variveis satisfao com a vida (b29), com a economia (b30), com o
Governo (b31), com a democracia (b32), com a educao (b33) e com os servios de
sade (b34):

21

O sinal significa uma correlao negativa e a ausncia de sinal uma correlao positiva.

53

O resultado o seguinte:
Correlations
Satisfao
com a vida
em geral
Satisfao com a
vida em geral
Economia

Governo

Democracia

Educao

Servios de Sade

Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N

.339**
.000
1441
.280**
.000
1413
.348**
.000
1371
.205**
.000
1429
.195**
.000
1489

Economia

.578**
.000
1392
.403**
.000
1353
.361**
.000
1389
.396**
.000
1440

Governo

.507**
.000
1339
.289**
.000
1367
.340**
.000
1412

Democracia

.300**
.000
1338
.294**
.000
1370

Educao

Servios
de Sade

.537**
.000
1433

**. Correlation is significant at the 0.01 level (2-tailed).

Interpretao: as correlaes so positivas e significativas entre todas as variveis ; (p=0,000),


sendo a menor entre a satisfao com a vida e com a educao (0,209e a maior entre a satisfao
com o Governo e com a economia (0,577

54

3.3. Modelos de previso


3.3.1. Anlise de Regresso Simples
A regresso linear, como referem Bryman e Cramer, um poderoso instrumento para resumir a
natureza da associao entre variveis e para fazer previses acerca dos valores da varivel
dependente.22
Na regresso linear simples, o objectivo sintetizar a associao entre duas variveis
(independente e dependente), produzindo uma linha (recta de regresso) que se aproxime dos
dados recolhidos. Ou seja, prever Y (varivel dependente) a partir de X (varivel independente).
Exemplo: pretende-se saber em que medida que a confiana social (confsoc) varivel
independente explica a confiana institucional (confinst) varivel dependente.
O procedimento consiste na realizao da Anlise de regresso linear simples entre as
duas variveis:

22

Alan Bryman e Duncan Cramer, op.cit.: 212

55

O resultado o seguinte:
Model Summary
Model
1

R
.310a

R Square
.096

Adjusted
R Square
.095

Std. Error of
the Estimate
1.6746

a. Predictors: (Constant), ndice sinttico de Confiana


social
ANOVAb
Model
1

Regression
Residual
Total

Sum of
Squares
392.354
3693.263
4085.617

df
1
1317
1318

Mean Square
392.354
2.804

F
139.912

Sig.
.000a

a. Predictors: (Constant), ndice sinttico de Confiana social


b. Dependent Variable: ndice sinttico de Confiana institucional

Coefficients a

Model
1

(Constant)
ndice sinttico de
Confiana social

Unstandardized
Coefficients
B
Std. Error
2.716
.125
.318

Standardized
Coefficients
Beta

.027

.310

t
21.778

Sig.
.000

11.828

.000

a. Dependent Variable: ndice sinttico de Confiana institucional

Interpretao: A correlao entre as variveis fraca (R=0,310) e o coeficiente de determinao


muito fraco (R2=0,096)23. Ou seja, apenas 9,6% da variao da confiana institucional varivel
dependente explicada pela variao da confiana social varivel independente.
O teste F (quadro Anova) d-nos informao sobre a adequabilidade do modelo, testando a
hiptese do coeficiente de determinao R2 ser 0 na populao. Neste caso (F (1)=141,178;
p=0,000), rejeita-se a hiptese de isso acontecer.
Os testes t (no quadro dos Coefficients), testam a nulidade dos coeficientes. No primeiro caso
(t=115,605; p=0,000) testa a probabilidade de a constante (recta de regresso na origem) ser 0, e
no segundo caso testa a probabilidade do coeficiente de regresso ser 0.
A recta da regresso24, neste caso, a seguinte: Confiana institucional = 2,716 + 0,318 confiana
social.

23

O coeficiente de determinao quantifica a percentagem de variao da varivel dependentes que explicada pela
variao da varivel independente.
24
A equao simplificada da recta da regresso a seguinte: Yi = 0 + 1 Xi, em que Yi a varivel dependente, 0 a
ordenada na origem, 1 o coeficiente de regresso e Xi a varivel independente.

56

3.3.2. Anlise de Regresso Mltipla


A regresso, como referem Bryman e Cramer, um poderoso instrumento para resumir a
natureza da associao entre variveis e para fazer previses acerca dos valores da varivel
dependente.25
No nosso exemplo vamos usar a anlise de regresso mltipla em concreto a linear para
modelar a relao entre as variveis independentes e a varivel dependente26.
Exemplo: com base nos dados do ESS, pretende-se saber se os nveis de satisfao com o estado
da Economia portuguesa (b30), com a forma como o Governo tem governado (b31),
com a qualidade da Democracia (b32), com o estado da Educao (b33) e com os
Servios de Sade (b33) so, ou no, predictores da satisfao com a vida em geral
(b29):
Varivel dependente
Variveis independentes
(b30, b31, b32, b33 e b34)

Mtodo: Stepwise
(Neste mtodo entram no modelo
apenas as variveis independentes
com significncia estatstica, por
ordem de importncia.)
Nota: habitual usar-se o mtodo
ENTER quando se pretende
testar um modelo e o mtodo
Stepwise
em
contextos
exploratrios, como o caso.

Procedimentos seleccionados:

Informao sobre a significncia


estatstica da mudana de R2;
Informao sobre
multicolinearidade;
Intervalo de confiana para cada
um dos coeficientes de regresso

Resultado:
25
26

Bryman, A. e D. Cramer, Anlise de Dados em Ciencias Sociais, Oeiras, Celta, 2003.


Quando se associa s variveis o estatuto de independentes e dependente pretende-se analisar mais do que a
associao entre elas (entenda-se variao conjunta), descrever e explicar uma relao de dependencia que dever
ser tericamente fundamentada.

57

Variables Entered/Removed
Model
1
2

Variables
Entered

Variables
Removed

Democracia

Economia

Method
Stepwise (Criteria: Probability-of-F-to-enter
<= .050, Probability-of-F-to-remove >= .100).
Stepwise (Criteria: Probability-of-F-to-enter
<= .050, Probability-of-F-to-remove >= .100).

Variveis que
entraram nos
modelos

a. Dependent Variable: Satisfao com a vida em geral


ANOVAc
Model
1

Regression
Residual
Total
Regression
Residual
Total

Sum of
Squares
760.940
5610.899
6371.839
1051.123
5320.716
6371.839

df
1
1289
1290
2
1288
1290

Mean Square
760.940
4.353

F
174.812

Sig.
.000a

525.562
4.131

127.224

.000b

a. Predictors: (Constant), Democracia


b. Predictors: (Constant), Democracia, Economia
c. Dependent Variable: Satisfao com a vida em geral

O objectivo do teste F
verificar se a varivel
independente influencia a
varivel dependente no
universo. O que equivale a
detectar se o modelo
ajustado ou no
significativo.
Permite inferir sobre a
adequabilidade do modelo
linear para explicar a relao
entre as duas variveis.

Model Summary
Change Statistics
Model
1
2

R
.346a
.406b

R Square
.119
.165

Adjusted
R Square
.119
.164

Std. Error of
the Estimate
2.086
2.032

R Square
Change
.119
.046

F Change
174.812
70.245

df1
1
1

df2
1289
1288

Sig. F Change
.000
.000

a. Predictors: (Constant), Democracia


b. Predictors: (Constant), Democracia, Economia

Coeficiente de correlao
mltipla em mdulo

% de variao da satisfao
com a vida em geral explicada
pelas variveis independentes
que entraram no modelo
Nota: Em modelos com mas do que 1
varivel independente deve interprtarse o R2 ajustado

Contributo das variveis


independentes para a
mudana verificada no R2;

Teste F e
respectiva
significncia
estatstica

Coefficientsa

Model
1

(Constant)
Democracia
Economia
(Constant)
Democracia
Economia

Unstandardized
Coefficients
B
Std. Error
4.221
.133
.350
.026
3.841
.254
.276

.137
.028
.033

Standardized
Coefficients
Beta
.346

t
31.764
13.222

Sig.
.000
.000

.251
.234

28.013
9.002
8.381

.000
.000
.000

95% Confidence Interval for


B
Lower Bound Upper Bound
3.960
4.481
.298
.402
3.572
.199
.212

4.110
.309
.341

Collinearity
Statistics
Tolerance
VIF
1.000

1.000

.835
.835

1.197
1.197

a. Dependent Variable: Satisfao com a vida em geral

Coeficientes de regresso standardizados e no


standardizados que permitem escrever a equao da
recta:
Satisfao com a vida = 3,841 + 0,254 satisfao com a
democracia + 0,276 satisfao com a economia.

Quando a tolerncia baixa, a correlao


mltipla elevada e existe a possibilidade de
multicolinearidade. Com estes valores, a
probabilidade de isso acontecer baixa.
Varia entre [0, 1] e quanto mais perto de 0 maior
ser a multicolinearidade entre certa varivel
independente e as outras variveis independentes.

58

3.4. Anlise de dados multivariada


3.4.1. Anlise das Componentes Principais
A Anlise das Componentes Principais um dos mtodos de reduo de dados mais comum no
marketing e em pesquisas de mercado. uma tcnica de anlise exploratria multivariada que
transforma um conjunto de variveis correlacionadas entre si num conjunto menor de variveis
independentes, combinaes lineares das variveis originais, designadas por componentes
principais27. No essencial, o seu objectivo identificar novas variveis, em nmero menor que o
conjunto inicial, mas sem perda significativa da informao contida neste conjunto28.
No nosso exemplo, pretendemos identificar as componentes principais latentes nos 8
indicadores relativos s atitudes face imigrao (d10 + d11 + d12 + d13 + d14 + d15 + d16 +
d17).
Vamos comear por solicitar uma ACP com a extraco das componentes por defeito (critrio de
Kaiser: valor prprio das componentes a 1).

27
28

Seleco das
variveis;

Kaiser-Meyer-Olkin: quantifica
o nvel de intercorrelaes entre
as variveis;
Testa a hiptese de a matriz de
correlaes na populao ser a
matriz identidade.

Moroco, J. Anlise Estatstica com utilizao do SPSS, Lisboa, Slabo, 2003: 231.
Reis, E., Anlise factorial das componentes principais: um mtodo de reduzir sem perder informao, Lisboa
Giesta/Iscte, 1990.

59

Critrio de Kaiser de
extraco das componentes
que o SPSS usa por defeito.
So
extradas
as
componentes com valores
prprias superiores a 1.
Cada componente deve
contribuir para a varincia,
como se de uma varivel de
input se tratasse.

Rotao das componentes e


respectiva matriz.
Nota: tem o objectivo de ajudar a
interpretar as componentes

Ordena a matriz rodada por ordem


decrescente da contribuio de
cada varivel para a componente;

Adequabilidade da ACP:

KMO and Bartlett's Test


Kaiser-Meyer-Olkin Measure of Sampling
Adequacy.
Bartlett's Test of
Sphericity

Approx. Chi-Square
df
Sig.

KMO
1 0,9

Qualidade da ACP
Muito boa

0,8 0,9

Boa

.812

0,7 0,8

Mdia

3474.721
28
.000

0,6 0,7

Razovel

0,5 0,6

>0,5

Inaceitvel

De acordo com os resultados da estatstica KMO (0,812) e do teste de esfericidade de Bartlett


(p=0,000), a adequabilidade da ACP boa.

60

Total Variance Explained

Component
1
2
3
4
5
6
7
8

Total
3.518
1.283
.978
.539
.493
.419
.391
.377

Initial Eigenvalues
% of Variance Cumulative %
43.975
43.975
16.043
60.018
12.230
72.248
6.739
78.987
6.165
85.153
5.244
90.396
4.885
95.282
4.718
100.000

Extraction Sums of Squared Loadings


Total % of Variance Cumulative %
3.518
43.975
43.975
1.283
16.043
60.018

Rotation Sums of Squared Loadings


Total % of Variance Cumulative %
3.007
37.587
37.587
1.795
22.432
60.018

Extraction Method: Principal Component Analysis.

Como podemos observar, por defeito foram extradas duas componentes, que explicam cerca de
60% da varincia total.
Verificando-se que a terceira componente tem uma valor prprio prximo de 1 (0,984) e que
aumenta a varincia explicada em 12,3%, vamos forar a sua extraco e gravar as trs
componentes extradas como novas variveis:

Cria novas variveis compostas pelos


scores factoriais das componentes
extradas.

Os resultados so os seguintes:
Descriptive Statistics
Mean
Ter boas qualificaes acadmicas
6.11
Ter familiares prximos a viver c
6.44
Saber falar a lngua oficial do pas
6.01
Ter formao crist
3.77
Ser branco
2.82
Ser rico
6.77
Ter qualificaes profissionais de que o pas precisa 7.45
Querer adaptar-se ao mesmo modo de vida do pas
7.07

Std.
Analysis
Deviation
N
2.527
1330
2.407
1330
2.615
1330
2.906
1330
2.825
1330
2.812
1330
2.247
1330
2.448
1330

KMO and Bartlett's Test


Kaiser-Meyer-Olkin Measure of Sampling
Adequacy.
Bartlett's Test of
Sphericity

Approx. Chi-Square
df
Sig.

.812
3474.721
28
.000

61

Communalities
Ter boas qualificaes acadmicas
Ter familiares prximos a viver c
Saber falar a lngua oficial do pas
Ter formao crist
Ser branco
Ser rico
Ter qualificaes profissionais de que o pas precisa
Querer adaptar-se ao mesmo modo de vida do pas

Initial Extraction
1.000
.590
1.000
.788
1.000
.719
1.000
.756
1.000
.786
1.000
.722
1.000
.749
1.000
.669

Extraction Method: Principal Component Analysis.

As Comunalidades representam a
proporo de varincia da varivel
explicada pelas componentes.
Variveis com comunalidades
reduzidas (0,3 ou inferior) so
pouco explicadas pelas
componentes e contribuem pouco
para a sua definio.

Total Variance Explained

Component
1
2
3
4
5
6
7
8

Initial Eigenvalues
Total % of Variance Cumulative %
3.518
43.975
43.975
1.283
16.043
60.018
.978
12.230
72.248
.539
6.739
78.987
.493
6.165
85.153
.419
5.244
90.396
.391
4.885
95.282
.377
4.718
100.000

Extraction Sums of Squared Loadings


Total % of Variance Cumulative %
3.518
43.975
43.975
1.283
16.043
60.018
.978
12.230
72.248

Rotation Sums of Squared Loadings


Total % of Variance Cumulative %
2.152
26.898
26.898
1.951
24.389
51.287
1.677
20.961
72.248

Extraction Method: Principal Component Analysis.

Rotated Component Matrixa

Ter qualificaes profissionais de que o pas precisa


Querer adaptar-se ao mesmo modo de vida do pas
Ser rico
Ter familiares prximos a viver c
Saber falar a lngua oficial do pas
Ter boas qualificaes acadmicas
Ser branco
Ter formao crist

Component
1
2
.361
.785
.244
.775
-.014
.771
.110
.880
.260
.741
.487
.587
.124
.011
.094
.305

3
-.053
.089
.358
.047
.319
.090
.878
.809

Extraction Method: Principal Component Analysis.


Rotation Method: Varimax with Kaiser Normalization.
a. Rotation converged in 4 iterations.

Foram extradas 3 componentes (factores), que explicam 72,25% da varincia total.


A matriz rodada29 ajuda-nos a identificar e a designar as componentes:
Componente 1: recursos profissionais e econmicos;
Componente 2: facilidades de integrao;
Componente 3: caractersticas raciais e religiosas.
Caracterizao social das trs Componentes Principais

29

O SPSS utiliza vrias formas de rotao, sendo a mais usada a rotao Varimax, de modo a permitir uma mais fcil
interpretao dos factores, pois torna os loadings elevados ainda mais elevados e os loadings baixos ainda mais
baixos. Para a interpretao das componentes consideram-se os loadings mais correlacionados com as mesmas.
Em geral, consideram-se bons os loadings maiores ou iguais a 0,5, por serem pelo menos responsveis por 25% da
varincia. (cfr. Pestana e Gageiro, Anlise de Dados para as Cincias Sociais A complementaridade do SPSS,
Lisboa, Slabo, 3 edio, 2003: 504.

62

0,05

0,00

mdia

mdia

0,20

0,00

-0,05
-0,20

Recursos profissionais e econmicos


Facilidades de integrao
Caractersticas raciais e religiosas
Sexo
Masculino
Feminino

Recursos profissionais e econmicos


Facilidades de integrao
Caractersticas raciais e religiosas
Idade
At 30 anos
31 - 50 anos
51 - 65 anos
> 65 anos

0,10

0,00

mdia

mdia

0,10

-0,10

0,00

-0,20

-0,30
-0,10

-0,40

Recursos profissionais e econmicos


Facilidades de integrao
Caractersticas raciais e religiosas
Escolaridade
At 9 anos
10 - 12 anos
> 12 anos

Recursos profissionais e econmicos


Facilidades de integrao
Caractersticas raciais e religiosas

Autoposicionamento poltico
Esquerda
Centro
Direita

Anlise de Clusters
De acordo com Moroco, 30 a anlise de Clusters uma tcnica multivariada que no possui
slidos fundamentos tericos e que procura agrupar objectos mais ou menos homogneos segundo
critrios mais ou menos heursticos.
A classificao dos sujeitos em cada um dos clusters , regra geral, mais rigorosa nos mtodos
no-hierrquicos do que nos hierrquicos, podendo a validade das solues obtidas com os
mtodos hierrquicos segundo Elizabeth Reis tornar-se bastante limitada. Alguns autores
propem, por isso, a utilizao de mtodos no-hierrquicos de optimizao que permitam a
partio dos indivduos num nmero pr definido de grupos.
A questo de determinao do nmero de grupos pr definido , no entanto, um dos principais
problemas a resolver numa anlise de clusters. Uma forma simples a anlise do Dendrograma
30

Cfr. Reis, Elizabeth, A Anlise de Clusters e as Aplicaes s Cncias Empresariais: Uma Viso Crtica da Teoria
dos Grupos Estratgicos, in Elizabeth Reis e Manuel Alberto M. Ferreira (eds.) Temas em Mtodos Quantitativos
1, Lisboa, Slabo, 2000: 206-238 e Moroco, Joo, Anlise Estatstica com utilizao do SPSS, Lisboa, Slabo,
2003

63

que, no entanto, s est disponvel no mtodo hierrquico, resumindo-se a sua utilidade apenas em
amostras de pequena dimenso. Quando no esse o caso, ou se se pretende usar um mtodo nohierrquico, poder-se- utilizar primeiro um mtodo hierrquico aglomerativo para determinao
do nmero de grupos e depois utilizar um mtodo no-hierrquico para optimizar a soluo
encontrada.
Uma forma de obviar limitao do dendrograma na determinao do nmero de grupos,
proceder representao grfica dos coeficientes de aglomerao mais elevados31, que denotam,
por conseguinte, maiores distncias, onde a escolha ptima do nmero de grupos coincidir com
uma marcada horizontalidade da curva32.
3.4.2.1. Anlise hierrquica de Clusters (Hierarquical Cluster)
Exemplo: pretende-se seleccionar e criar clusters com base nos 8 indicadores relativos s atitudes
face imigrao (d10 + d11 + d12 + d13 + d14 + d15 + d16 + d17)

Seleco das variveis;


Para obter os coeficientes de
aglomerao
Desactivar Plots, pois o
Dendrograma seria demasiado
extenso para poder ser
interpretado.

Escolha do Mtodo
Betwen-groups linkage (Distncia mdia entre grupos): a
distncia do 1 cluster aos restantes objectos a mdia das
distncias de cada um dos elementos que constituem o
cluster a cada um dos restantes objectos.
Melhor performance com dados com grande disperso;
Influenciado por outliers;
Tendncia para produzir clusters com varincias
homogneas.
Within-groups linkage: Este mtodo semelhante
Distncia mdia entre grupos mas os clusters so unidos
de modo a que a variabilidade dentro dos grupos seja
mnima.
Nearest Neighbor (Vizinho mais prximo): a distncia do
1 cluster aos restantes objectos, a menor das distncias
de cada um dos elementos que constituem o cluster a cada
um dos restantes objectos.
Tendncia para formar clusters alongados;
Menos influenciado por outliers;
Furthest Neighbor (Vizinho mais distante): a distncia do
1 cluster aos restantes objectos, a maior das distncias
de cada um dos elementos que constituem o cluster a cada
um dos restantes objectos.
Menos influenciado por outliers;

31

Estes coeficientes so o valor numrico para o qual vrios indivduos ou grupos se unem para formarem um novo
grupo e so disponibilizados pelo SPSS no mtodo hierrquico (Aglomeration Schedule).
32
Reis, op.cit.

64

Centroid clustering: a distncia entre dois grupos a


diferena entre as suas mdias para todas as variveis.
Pior performance com dados com grande disperso
Menos influenciado por outliers;
Median clustering (Distncia mediana): A distncia entre
dois objectos a mediana das distncias de cada um dos
elementos que constituem o cluster a cada um dos restantes
objectos.

Wards method: optimiza a varincia mnima dentro dos


grupos, agrupando os objectos que provoquem um
aumento mnimo da soma dos quadrados dos erros.
Boa performance com dados com grande disperso;
Influenciado por outliers
Tendncia para produzir clusters com dimenso
semelhante.

Escolhemos o Wards method, pois, sendo um


dos mtodos mais usado, tem tendncia para
constituir grupos com dimenses idnticas.
Para a identificao do n de clusters, vamos representar graficamente (em Excel) as diferenas
entre os 30 coeficientes de aglomerao com valor mais elevado, produzidos pelo SPSS
(Agglomeration schedule).

65

Optamos por uma soluo de 4 clusters.33


Deveremos agora repetir os procedimentos anteriores no SPSS, desactivar Statistics34 e solicitar a
opo Save, assinalando o n de clusters que pretendemos:

A varivel CLU4-1 (primeira soluo com 4 clusters) acrescentou-se base de dados, tendo sido
completada com os respectivos label.

O n de elementos em cada cluster o seguinte:


CLU4_1 Clusters d10 a d17 (Ward Method)

Valid

Missing
Total

Cluster 1
Cluster 2
Cluster 3
Cluster 4
Total
System

Frequency
498
299
423
110
1330
181
1511

Percent
Valid Percent
33.0
37.4
19.8
22.5
28.0
31.8
7.3
8.3
88.0
100.0
12.0
100.0

Cumulative
Percent
37.4
59.9
91.7
100.0

33

Pois so os que apresentam maior distncia entre si. No entanto, seria sempre possvel ensaiar solues com mais
clusters. No essencial, mais clusters significam mais homogeneidade entre os seus elementos e menos clusters
menos homogeneidade.
34
Uma vez que j no necessitamos dos coeficientes de aglomerao.

66

3.4.2.2. Anlise no-hierrquica de Clusters - Mtodo de optimizao


(K-Means Cluster)

Exemplo: pretende-se seleccionar e criar clusters com base nos 8 indicadores relativos s atitudes
face imigrao (d10 + d11 + d12 + d13 + d14 + d15 + d16 + d17)
1. Seleco das
variveis;
2. Indicao do n de
Clusters
pretendidos (vamos
indicar 4, de acordo
com o processo
anterior)

3. Criao de uma
nova varivel que
regista a pertena
de cada observao
ao cluster
respectivo

A varivel QCL_1 (primeira soluo com 4 clusters) acrescentou-se base de dados, tendo sido
completada com os respectivos label.

O resultado o seguinte:
QCL_1 Clusters d10 a d17 (K-Means)

Valid

Missing
Total

Cluster 1
Cluster 2
Cluster 3
Cluster 4
Total
System

Frequency
334
459
324
213
1330
181
1511

Percent
Valid Percent
22.1
25.1
30.4
34.5
21.4
24.4
14.1
16.0
88.0
100.0
12.0
100.0

Cumulative
Percent
25.1
59.6
84.0
100.0

67

3.4.3. Articulao entre a Anlise das Componentes Principais e a


Anlise de Clusters
Para este exemplo interessa saber, no entanto, que a anlise de clusters uma tcnica
multivariada que no possui slidos fundamentos tericos e que procura agrupar objectos mais ou
menos homogneos segundo critrios mais ou menos heursticos 35.
Exemplo: Pretende-se criar trs clusters (grupos homogneos) com base nas trs componentes
principais obtidas no exerccio anterior.
Trata-se de um mtodo de classificao (classifica indivduos), cujo procedimento, que vai ser
descrito detalhadamente no captulo 5, o seguinte:
a) Criao dos clusters

Acrescentou-se base de dados uma nova varivel com 3 categorias, que designmos de Cluster 1,
Cluster 2 e Cluster 3, que agrupa os indivduos com valores semelhantes nas trs Componentes36

35
36

Moroco, J. Anlise Estatstica com utilizao do SPSS, Lisboa, Slabo, 2003.


Nota: como se torna evidente, os valores so mais ou menos semelhantes quantos mais ou menos clusters criarmos.
Ou seja, mais clusters significa mais homogeneidade entre os clusters.

68

O n de elementos em cada cluster o seguinte:


Clusters Fac1_1+Fac1_2+Fac1_3 (Ward Method)

Valid

Missing
Total

Cluster 1
Cluster 2
Cluster 3
Total
System

Frequency
480
624
226
1330
181
1511

Percent
Valid Percent
31.8
36.1
41.3
46.9
15.0
17.0
88.0
100.0
12.0
100.0

Cumulative
Percent
36.1
83.0
100.0

b) Caracterizao dos clusters segundo as variveis de input

1.00

(Mdias)

0.50

0.00

-0.50

-1.00

Cluster 1
Cluster 2
Cluster 3

-1.50

Recursos profissionais e econmicos


Facilidades de integrao
Caractersticas raciais e religiosas

Interpretao:
Cluster 1: d importncia abaixo da mdia aos recursos profissionais e econmicos e s
caractersticas raciais e religiosas e acima da mdia s facilidades de integrao;
Cluster 2: d importncia acima da mdia aos recursos profissionais e econmicos e s
caractersticas raciais e religiosas e mdia s facilidades de integrao;
Cluster 3: d importncia mdia aos recursos profissionais e econmicos e abaixo da
mdia s facilidades de integrao e s caractersticas raciais e religiosas.

69

c) Caracterizao social dos clusters

Masculino
Feminino
Total
At 30 anos
31 - 50 anos
51 - 65 anos
Idade
> 65 anos
Total
At 9 anos
Anos de
10 - 12 anos
escolaridade
> 12 anos
concludos
Total
Esquerda
Autoposicionamento Centro
poltico
Direita
Total
Sexo

Cluster 1
N
%
211
44.0
269
56.0
480 100.0
148
30.8
179
37.3
88
18.3
65
13.5
480 100.0
272
56.7
100
20.8
108
22.5
480 100.0
111
27.3
211
52.0
84
20.7
406 100.0

Cluster 2
N
%
252
40.4
372
59.6
624 100.0
117
18.8
197
31.6
147
23.6
163
26.1
624 100.0
470
75.4
102
16.4
51
8.2
623 100.0
117
22.5
265
50.9
139
26.7
521 100.0

Cluster 3
N
%
106
46.9
120
53.1
226 100.0
51
22.6
93
41.2
44
19.5
38
16.8
226 100.0
150
66.4
39
17.3
37
16.4
226 100.0
47
27.6
89
52.4
34
20.0
170 100.0

Total
N
%
569
42.8
761
57.2
1330 100.0
316
23.8
469
35.3
279
21.0
266
20.0
1330 100.0
892
67.1
241
18.1
196
14.7
1329 100.0
275
25.1
565
51.5
257
23.4
1097 100.0

d) Distribuio dos indivduos pelos clusters, segundo caractersticas sciodemogrficas

Masculino
Feminino
Total
At 30 anos
31 - 50 anos
51 - 65 anos
Idade
> 65 anos
Total
At 9 anos
Anos de
10 - 12 anos
escolaridade
> 12 anos
concludos
Total
Esquerda
Autoposicionamento Centro
poltico
Direita
Total
Sexo

Cluster 1
N
%
211
37.1
269
35.3
480
36.1
148
46.8
179
38.2
88
31.5
65
24.4
480
36.1
272
30.5
100
41.5
108
55.1
480
36.1
111
40.4
211
37.3
84
32.7
406
37.0

Cluster 2
N
%
252
44.3
372
48.9
624
46.9
117
37.0
197
42.0
147
52.7
163
61.3
624
46.9
470
52.7
102
42.3
51
26.0
623
46.9
117
42.5
265
46.9
139
54.1
521
47.5

Cluster 3
N
%
106
18.6
120
15.8
226
17.0
51
16.1
93
19.8
44
15.8
38
14.3
226
17.0
150
16.8
39
16.2
37
18.9
226
17.0
47
17.1
89
15.8
34
13.2
170
15.5

Total
N
%
569 100.0
761 100.0
1330 100.0
316 100.0
469 100.0
279 100.0
266 100.0
1330 100.0
892 100.0
241 100.0
196 100.0
1329 100.0
275 100.0
565 100.0
257 100.0
1097 100.0

70

A avaliao deste captulo consiste na avaliao da participao


nas aulas e da realizao dos exerccios que compem o seu
contedo.

Avaliao

Aranaz, M. F. (2001), SPSS para Windows. Anlise Estadstico,


Madrid, McGraw-Hill.
Bryman, A. e D. Cramer (2003), Anlise de Dados em Cincias
Sociais Introduo s Tcnicas Utilizando o SPSS para
Windows, Lisboa, Celta (3 edio).
Referncias
Moroco, J. (2003) Anlise Estatstica com utilizao do SPSS,
Lisboa, Edies Slabo, 3 edio.
Pereira, A. (1999), SPSS-Guia Prtico de Utilizao, Anlise de Dados para Cincias
Sociais e Psicologia, Lisboa, Edies Slabo, 6 edio revista e corrigida.
Pestana, M. H. e J. N. Gageiro (2000), Anlise de Dados para as Cincias Sociais A
Complementaridade do SPSS, Lisboa, Slabo, 2 edio revista e aumentada.
Rada, Vidal Daz (2002), Tcnicas de Anlise Multivariante para Investigacin Social
e Comercial, Madrid, RA-MA.
Reis, E., Anlise factorial das componentes principais: um mtodo de reduzir sem
perder informao, Lisboa Giesta/Iscte, 1990.
Vaus, D (2004), Analysing Social Science Data, London, Sage Publications.
Vinacua, B. V. (2002), Anlisis Estadstico con SPSS para Windows. Volumen I.
Estadstica bsica, Madrid, McGraw-Hill, 2 edicin.
Vinacua, B. V. e J. C. M Canas (2002), Anlisis Estadstico con SPSS para Windows.
Volumen II. Estadstica multivariante, Madrid, McGraw-Hill, 2 edicin.

71

ANEXO 1

Testes de inferncia estatstica mais utilizados


em
Anlise de dados bivariada

72

74

ANEXO 2

European Social Survey


(round 1 - 2002)

Questionrio adaptado

http://www.europeansocialsurvey.org/

76

77

78

79