11  12 

Breves Considerações sobre SPSS 

Escola Superior de Educação Profª. Raquel Vieira

raquelsav@gmail.com

1  ESETN: Estatística /Tratamento Estatístico                                                             Profª. Raquel Vieira 

ÍNDICE
1. APRESENTAÇÃO SUCINTA DO AMBIENTE SPSS  1.1.  1.2.  1.3.  1.4.  PRINCIPAIS MENUS E JANELAS  SPSS PARA ORGANIZAR DADOS  EXPLORAÇÃO DE VARIÁVEIS  A APRESENTAÇÃO GRÁFICA DE DADOS E O TIPO DE VARIÁVEL  3  3  5  10  11  15 22  22  25  26  27  27  29  36 

2. MEDIDAS DE LOCALIZAÇÃO DE TENDÊNCIA CENTRAL REVISÃO DE CONCEITOS E APLICAÇÃO A SPSS 3. ASSOCIAÇÃO E CORRELAÇÃO  3.1.  DIAGRAMA DE DISPERSÃO  3.2.  COVARIÂNCIA E CORRELAÇÃO  3.2.1. COEFICIENTE DE CORRELAÇÃO LINEAR DE PEARSON  3.2.2. COEFICIENTE DE CORRELAÇÃO ORDINAL DE SPEARMAN  3.2.3. COEFICIENTE DE CORRELAÇÃO BISSERIAL POR PONTOS  3.3.  ASSOCIAÇÃO: TABELAS DE CONTINGÊNCIA E COEFICIENTE DE ASSOCIAÇÃO  4. TESTES PARAMÉTRICOS E NÃO PARAMÉTRICOS 

2  ESETN: Estatística /Tratamento Estatístico                                                             Profª. Raquel Vieira 

1. Apresentação sucinta do Ambiente SPSS
O SPSS (Statistical Package for Social Sciences) é um software de análise estatística e tratamento de dados vocacionado para as Ciências Sociais que permite, entre muitas outras possibilidades, a manipulação, transformação e criação de tabelas e gráficos que resumam a informação obtida. Mas as suas potencialidades vão mais além do que a simples análise descritiva de um conjunto de dados. É também possível realizar, com este software, procedimentos mais avançados que vão desde a Inferência Estatística, teste de hipóteses e estatísticas multivariadas para dados qualitativos e quantitativos.

1.1. Principais menus e janelas
Tal como em outros programas, podemos encontrar na parte superior um conjunto de comandos que permitem a execução de várias operações (File, Edit, View, Data, Transform, Analyze, Graphs, Utilities, Window e Help). Embora quando de se abre um novo documento de SPSS, a aparência possa ser muito semelhante ao programa Excel, no que se refere à organização em linhas e colunas, a forma de funcionamento apresenta diferenças estruturais. De facto, cada uma das células resulta do cruzamento de várias colunas onde devem constar as variáveis em estudo (Ex. Peso, sexo, idade, etc.) e várias linhas, sendo cada uma destas respeitante a cada um dos sujeitos ou participantes.

3  ESETN: Estatística /Tratamento Estatístico                                                             Profª. Raquel Vieira 

 A Janela de resultados (Output Viewer) – Onde todos os resultados. o SPSS apresenta outro tipo de interfaces. Raquel Vieira  . todos os aspectos relativos a cada uma das variáveis.Janela de Variáveis . Cada coluna representa uma variável e cada linha é um registo. destacamos:  A janela de edição (SPSS Data Editor) que se subdivide em duas janelas: .(Data View): Ao abrir o SPSS é a primeira janela que é visualizada e consiste numa matriz (linhas/colunas) onde vão ser inseridos (ou alterados) os dados. caso ou observação. 4  ESETN: Estatística /Tratamento Estatístico                                                             Profª. sob a forma de tabelas ou gráficos são exibidos. barras de ferramentas e de estado e caixas de diálogo que tornam mais acessível o seu manuseamento.Além dos Menus.Janela de dados . . tais como: janelas. No que se refere a janelas. ou se modificam.(Variable View): O SPSS tem uma janela de vista de variáveis onde se definem. O conteúdo pode ser editado e gravado em ficheiro.

Restricted Numeric: número inteiro com zeros à esquerda  Label: etiqueta que.outros fomatos para valores monetários .Date. por exemplo. Para isso. Grau de satisfação ser 1 para muito baixo.alfanuméricas . antecipadamente sejam identificadas e classificadas as variáveis em questão. deve ser seleccionada a Janela das Variáveis (Variable View) onde deverão ser preenchidas. Raquel Vieira  .Scientific notation .1.                                                          1 Mesmo quando as variáveis são qualitativas é possível escolher numeric para que se possam realizar posteriormente análises estatísticas com este tipo de variáveis. SPSS para organizar dados 1º PASSO: INTRODUÇÃO E DEFINIÇÃO DE VARIÁVEIS A introdução de dados pressupõe que. no Output dos resultados.String.   5  ESETN: Estatística /Tratamento Estatístico                                                             Profª. Por exemplo. 2 para moderado e 3 para muito alto.data-város formatos .Dot.Numeric .mais usada para posteriormente identificar casos em 1 apresentação gráfica de resultados.2.DolLar-para moeda dólar .com vírgulas a separar os milhares .  Type: Determina-se o tipo de variável em uso: . queremos que saia. . nas diferentes colunas as dimensões para a caracterização das variáveis em estudo:  Name: Define-se o nome da variável.Com ponto separador nos milhares .Custom Currency.Comma . ou seja para variáveis Nominais e Ordinais.numéricas .numéricos com notação científica .

Target: variável depente . A fórmula matemática correspondente será: massa muscular final = 1.Partition: será usada para a partição de dados em duas amostras separadas . mediante uma expressão matemática.Split: permite a compatibilidade (nos dois sentidos) com o PASW Modeler (programa que permite a descoberta de padrões). e se necessário também seleccionar casos a analisar.Permite definir/alterar o alinhamento da coluna. A EXPLORAÇÃO DE ALGUMAS FERRAMENTAS:  O Menu Transform O SPSS possui um conjunto de ferramentas que permitem transformar as variáveis.  Measure – Permite definir o tipo de variável: .Input : variável independente . mesmo que os valores sejam numéricos). a criação de uma nova variável partindo da anterior. Raquel Vieira  . escrevemos o nome da nova variável MMfinal" na caixa de texto e em Target Variable a expressão numérica 1. assim. Por exemplo: Um determinado suplemento alimentar faz aumentar a massa muscular em 5%.Os valores em falta.Both: ambas .Permite calcular valores. Note-se que os valores de uma variável.mesmo sendo numéricos.  Role – Permite definir o papel que a variável poderá tonar na análise dos dados: .05*MMinicial (Variável anterior) 6  ESETN: Estatística /Tratamento Estatístico                                                             Profª.Scale se são quantitativas .especificados como missing values pelo utilizador são excluídos do tratamento estatístico dos dados e são tratados como um caso especial. alterar os valores a uma variável ou até criar novas variáveis a partir de outras.atribui etiquetas aos valores da variável  Missing values .Nominal e Ordinal se são variáveis qualitativas (ambas tratadas como categóricas nos procedimentos de tabelas e gráficos. usando Compute Variable.  Align . Value Labels.None: sem papel assumido .Permite definir/alterar o tamanho da coluna.05* massa muscular inicial o SPSS permite.  Columns . Compute.

por exemplo classimc. 7  ESETN: Estatística /Tratamento Estatístico                                                             Profª.99 .excesso de peso 30 a 35. Por exemplo: Depois de inserirmos a variável peso.peso baixo 20 a 24.obesidade a partir de 36 .99 .99 . Por exemplo se temos uma variável que necessitamos agrupar por classes. Raquel Vieira  . sendo útil para conseguir categorizar variáveis ou para agrupar ou transformar valores nominais em numéricos. podemos ter necessidade de a codificar em intervalos pela classificação de IMC: até 19.peso normal 25 a 29.obesidade mórbida Acedemos ao menu Transform – Recode – Into different Variables e criamos o nome da nova variável. Recode – Este comando permite codificar valores de uma variável em novos valores.99 .Clicamos OK. incluindo um nome mais completo em Label.

99 . no entanto.peso baixo 2-> 20 a 24.99 . Rank Cases.excesso de peso 4-> 30 a 35.obesidade 5-> a partir de 36 .cria scores .peso normal 3-> 25 a 29. Por exemplo: 1-> até 19. Automatic Recode – Converte as categorias de uma variável Nominal ou Ordinal em valores numéricos e automaticamente cria rótulos para os valores. ordens. Raquel Vieira  .Value podemos atribuir a cada um dos valores uma etiqueta: AINDA OUTRAS FERRAMENTAS NO MENU TRANSFORM Count. 8  ESETN: Estatística /Tratamento Estatístico                                                             Profª.Seleccionamos Old and New Values e atribuímos um código a cada uma das classes.obesidade mórbida Depois de criada a nova variável. para os casos de acordo com os valores de uma variável .Comando que permite criar uma variável que faz a contagem de determinado caso numa variável.99 . o Recode é mais usado porque permite controlar as categorias e atribuição de rótulos. no modo Variable View.99 .

aleatoriamente (Random Sample of cases) . Por exemplo: seleccionar todos os casos em que a idade seja inferior ou igual a 30 anos: 9  ESETN: Estatística /Tratamento Estatístico                                                             Profª. Raquel Vieira  . tendo em consideração esses valores. num intervalo (time or case range).  Split Files – permite dividir ficheiros de dados em função de categorias de uma variável categórica. O Menu Data No menu data estão alguns dos comandos directamente relacionados com os dados.  Merge files.Permite escolher um subconjunto de observações para se fazer várias análises.Ordena os casos de acordo com uma variável. dos quais podemos destacar alguns procedimentos.Transpõe linhas para colunas o que significa que as variáveis passam a ser casos e as observações variáveis.permite acrescentar valores (casos ou variáveis) de outro ficheiro de dados do SPSS. dependendo de um critério introduzido (if condition is satisfied).  Select Cases. Por exemplo: feminino e masculino. Neste exemplo os dados estão ordenados a partir da variável peso:  Transpose. por enquanto: Sort Cases. Útil quando é necessário compara resultados para dois grupos distintos.

em primeiro lugar. pois esta definição é determinante na saída dos dados. Valores nulos. esta poderá representar tantos casos como os que estarão definidos pela variável definida para pesar os valores (weight).  Ordinal (Ordinal): dados classificados por categorias ordenadas  Intervalar (Scale): dados expressos numa escala numérica com origem arbitrária  Razão (Scale): dados expressos numa escala numérica com origem fixa Note-se que.estatística descritiva .3. omissos ou negativos serão excluídos. Weight Cases. dois tipos de estatísticas: a que pretende descrever os dados amostrais . 10  ESETN: Estatística /Tratamento Estatístico                                                             Profª. antes de mais. Exploração de variáveis Numa análise estatística há a distinguir. há necessidade de categorizar variáveis contínuas. aprofundar a definição das variáveis. Raquel Vieira  .Apresenta os valores “pesados”por uma variável . Sabemos que existem os seguintes tipos de variáveis:  Nominal (Nominal): dados classificados por categorias não ordenadas. por vezes. A exploração de variáveis em qualquer um dos contexto remete-nos ao menu Analize  Menu Analyze e a estatística descritiva Mostrar as potencialidades deste menu exige. 1. Ou seja em vez de cada linha representar uma observação. Os valores dessa variável devem indicar o número de observações que verificam conjuntamente as categorias das outras variáveis.e a que pretende extrapolar esses resultados para a população – estatística inferencial.

A apresentação Gráfica de dados e o tipo de variável Variável Nominal Uma forma simples de apresentar as variáveis nominais é recorrendo a uma tabela de frequências (frequências absolutas e relativas) ou em gráfico (de barras. Raquel Vieira  . onde podem ser escolhidas diversas opções. circular).4.1. 11  ESETN: Estatística /Tratamento Estatístico                                                             Profª. Estas obtêm-se no menu Analyze.

é semelhante ao descrito anteriormente para as variáveis nominais. geralmente.Variável Ordinal A informação sumária das variáveis. no entanto não se pode alterar a ordem das categorias uma vez que estas têm uma ordem própria. Raquel Vieira  . 12  ESETN: Estatística /Tratamento Estatístico                                                             Profª.

Uma opção que permite uma visualização dos dados melhor que a obtida com um gráfico de barras é o histograma. que assumam vários valores. normalmente. muito útil. Gráfico de Caule-e-folhas O diagrama de caule-e-folha (stem and leaf) consiste numa representação gráfica que apresentar os dados separando em cada dado quantitativo os algarismos de maior ordem (caule) dos de menor ordem (folhas). pois grande parte dos valores terão frequência muito baixa. O histograma é semelhante ao gráfico de barras com a diferença que cada barra representa a frequência de valores num intervalo ou classe (de valores). Mas para variáveis discretas. Da mesma forma um gráfico de barras para dados contínuos seria composto por uma série de pequenas barras. A tabela de frequências será uma lista de valores que torna a informação a extrair da variável muito complexa.Variável Contínua e Discreta Para descrever variáveis discretas que assumam poucos valores ainda é possível usar uma tabela de frequências e/ou gráficos de barras. Raquel Vieira  . → Esta tabela tem a particularidade de permitir ao observador uma percepção do aspecto global dos dados sem perda de informação contida na colecção de dados inicial. Por isso as barras são representadas todas juntas. ou para variáveis contínuas uma tabela de frequências não é. Cada intervalo de valores tem a continuação no intervalo da barra seguinte. Para construir um gráfico de caule-e-flores deve proceder aos seguintes passos: Descritive Statistics -> Explore e escolher a variável que pretender e seleccionar Plots -> Stem-and-leaf 13  ESETN: Estatística /Tratamento Estatístico                                                             Profª.

 Raquel Vieira  .Obtendo o seguinte Output: 14  ESETN: Estatística /Tratamento Estatístico                                                             Profª.

dado que a soma dos desvios de todas as observações em relação à média é zero. x1. yi é o ponto médio da classe i (representante da classe). x3. Como medida de localização. sendo objectivamente afectada pelos valores extremos.. a mediana é mais resistente do que a média. É muitas vezes designada de centro de gravidade da distribuição e depende do valor de todas a observações. Raquel Vieira  . A mediana é o valor que a divide ao meio. Chama-se média. ao valor obtido por . • Se n é par – a mediana é a semi-soma dos dois elementos médios. A média aritmética é o valor único que equilibra a distribuição. x2.2..  Mediana Indica o valor central das observações. O valor que obtemos para a média deixa de ser exacto. 2) Quando os dados estão agrupados em classes. x3... 50% dos elementos da amostra são menores ou iguais à mediana e os outros 50% são maiores ou iguais. . pois não é tão sensível aos dados. passando a ser uma aproximação. depois de ordenadas. x2. isto é. e representa-se por .. • A média é o centro nas distribuições normais DESVANTAGEM DA MÉDIA: A média é muito sensível a valores muito grandes ou muito pequenos.. xn são os valores médios da classe com k =número de classes. é por isso uma medida sensível e pouco resistente. Depois de ordenada a amostra: • Se n é ímpar – a mediana é o elemento médio. 15  ESETN: Estatística /Tratamento Estatístico                                                             Profª. Fi=frequência absoluta classe i. xn os n valores de uma variável quantitativa. Medidas de localização de tendência central Revisão de Conceitos e aplicação a SPSS  Média aritmética 1) Seja x1.

Existem conjuntos de dados que não apresentam moda. com igual número de observações. Q1 Q2 Q3 x1   mediana  xn   Q1. n – dimensão da população F – frequência acumulada da classe anterior à classe mediana. porque nenhum valor se repete maior número de vezes. isto é. pelo menos. 3º quartil é o valor da variável tal que o número de observações para valores inferiores a Q3 é 75%. c – amplitude da classe mediana. e existem conjuntos de dados com duas ou mais modas. respectivamente. Se os dados estão agrupados em classes de igual amplitude. Sejam x1 e xn. a classe de maior 16  ESETN: Estatística /Tratamento Estatístico                                                             Profª. Moda É o valor mais frequente da distribuição ou o valor que mais observações apresenta no conjunto de dados. substituindo respectivamente por e (e os valores na fórmula têm de ser adaptados ao intervalo correspondente ao quartil). As fórmulas de cálculo do Q1 e do Q3 são idênticas à da mediana. o que significa que 50% das observações estão abaixo de Q2 e. e o nº de observações superiores é 25%. 50% estão acima de Q2.Mediana a partir de dados agrupados: A fórmula empírica para o cálculo da mediana é: Sendo: l – limite inferior da classe. f – frequência da classe mediana  Quantil A designação de quantil encontra-se associada à ideia de que os quantis dividem a distribuição de frequências em quantidades iguais. e o nº de observações é superior a 75%. Raquel Vieira  . Q2 e Q3 representam os quartis da distribuição: • • • • 1º quartil é o valor da variável tal que o número de observações para valores inferiores a Q1 é 25%. 2º quartil coincide com a mediana. Os quantis podem ser: • Quartis – divide a distribuição de frequências em 4 partes iguais. • Decis – divide a distribuição de frequências em 10 partes iguais • Percentis – divide a distribuição de frequências em 100 partes iguais. o menor e o maior valor da variável considerando o conjunto ordenado.

Podemos resumir em três casos as diferentes curvas que se podem obter:  enviesada para a esquerda (assimétrica negativa)  simétrica  enviesada para a direita (assimétrica positiva) 17  ESETN: Estatística /Tratamento Estatístico                                                             Profª. A moda pode considerar-se o ponto médio da classe modal. a mediana e a moda. quando temos uma representação através de um polígono de frequências. Não é afectada por valores extremos Mas apresenta uma clara desvantagem: Não pode ser definida com rigor  Medidas de Assimetria e Curtose . a classe modal é aquela que corresponde ao rectângulo com maior altura do histograma.Assimetria Este método consiste na comparação das três medidas de tendência central: a média.frequência chama-se classe modal. o conhecimento de uma única medida pouco adianta para a compreensão do fenómeno. Raquel Vieira  . imaginemos que limávamos as arestas do polígono de frequências de modo a obter uma linha curva em vez de uma linha quebrada. Na maioria dos estudos. Vejamos que relação existe entre estas três medidas. A moda tem algumas vantagens como medida de estatística descritiva: • • É fácil de calcular e interpretar. Quando as amplitudes são variáveis. Para ser mais acessível esta leitura.

 Raquel Vieira  .Achatamento ou Curtose As medidas de curtose dão-nos uma indicação da intensidade das frequências na vizinhança dos valores centrais. Como referência ao grau de achatamento podemos ter: Distribuição Leptocúrtica Distribuição Mesocúrtica Distribuição Platicúrtica 18  ESETN: Estatística /Tratamento Estatístico                                                             Profª.De um modo geral: Curva simétrica Curva assimétrica positiva Curva assimétrica negativa .

Para obter as medidas descritivas. basta explorar o menu Analyse: Analyse -> Descritive Statistics. a distribuição é leptocúrtica. 19  ESETN: Estatística /Tratamento Estatístico                                                             Profª.263 a distribuição é mesocúrtica. a distribuição é platicúrtica. Raquel Vieira  .Para medir o grau de curtose pode ser utilizada a seguinte medida: Grau de Curtose Sendo Q1 e Q3 o primeiro e terceiro quartis e P90 e P10 o 90º e 10º percentis. • • • Se K = 0.263 Se K > 0.263 Se K < 0.

Desenhar uma régua graduada e assinalar os pontos anteriormente assinalados. Se o construíssemos manualmente deveríamos seguir os seguintes passos: 1. Da construção deste diagrama depende a determinação das seguintes medidas:  Mediana  Quartis  Distância entre quartis  Valores extremos Este diagrama. seguindo a distribuição ao lado. é uma das representações gráficas mais utilizadas na prática uma vez que é fácil de construir e evidencia uma quantidade de informação dos dados. Determinar máximo e mínimos 2. assimetria. curtose e os outliers. 4. Partindo do exemplo dos pesos dos alunos de uma turma em que o peso máximo é 100 kg e o mínimo é 55. Raquel Vieira  . Turkey (1977) desenvolveu uma técnica denominada caixa e bigodes (blox plot) que nos fornece uma indicação clara dos valores extremos. em suma. da mesma forma que o histograma e o diagrama de caule e folhas informa como os valores estão distribuídos. Diagrama de caixa de bigodes Há situações para as quais a avaliação dos extremos é fundamental. obtemos a seguinte estatística descritiva e respectivo Diagrama de caixa e bigodes: 20  ESETN: Estatística /Tratamento Estatístico                                                             Profª. como já referimos anteriormente. Determinar os quartis 3. também denominado por diagrama de extremos e quartis. Construir a caixa de bigodes. medidas de localização. Este diagrama tanto pode ser apresentado na forma horizontal como vertical.

21  ESETN: Estatística /Tratamento Estatístico                                                             Profª. dos valores que diferem significativamente do conjunto. maior é a concentração da distribuição de frequências (menor dispersão) para. Relativamente à interpretação a dar à caixa de bigodes.  Se Q2-Q1 > Q3-Q2 a distribuição é aproximadamente assimétrica negativa. ou seja.  Se Q2-Q1 = Q3-Q2 a distribuição é aproximadamente simétrica.  Se Q2-Q1 < Q3-Q2 a distribuição é aproximadamente assimétrica positiva. São determinadas distâncias. é feita com recurso a um critério de distância. com referencia ao Q1 e Q3. permitindo o cálculo das chamadas barreiras internas e externas (superior e inferior).Máximo  Q3  Mediana  Q1  Mínimo  No SPSS podemos obtê-la em: A identificação dos outliers. é de referir:  Quanto mais pequena for a caixa. Este critério permite identificar e classificar se esses valores diferem muito do restante conjunto de dados. pelo menos 50% das observações. Raquel Vieira  .

uma das grandes vantagens na utilização do SPSS consiste na potencialidade comparar o comportamento de várias variáveis entre si. analisando portanto a sua variação conjunta. ordenadamente as duas variáveis: 22  ESETN: Estatística /Tratamento Estatístico                                                             Profª. recorre-se ao conceito de correlação. Se assumir valores positivos.5 4. isoladamente uma prova de causalidade entre as mesmas. mais forte é a associação entre as variáveis.0 12. Ou seja.0 2. caso se pretenda estudar a relação existente entre duas variáveis de natureza quantitativa ou qualitativa medida em escala ordinal.0 1.0 15. 2. i= 1.0 2.0 14.0 14.. variam no sentido inverso. Existem vários coeficiente de correlação.0 16.0 15.yi).0 15.1. é usual designar-se a relação entre elas por associação. e distinguir em que situações devemos usar os coeficientes de correlação respectivos. no entanto. este consiste na representação das observações (xi. que variam em absoluto entre 0 e 1. A análise de correlação linear entre duas variáveis X e Y tem por objectivo quantificar a intensidade da relação linear existente entre elas.5 Média de horas de estudo 2.5 2.5 3. as variáveis evoluem no mesmo sentido..5 Podemos construir uma tabela que relacione. . 3.0 13. Neste capítulo iremos estudar os aspectos essenciais acerca de Associação de variáveis.0 3. a correlação mede o grau de associação linear entre variáveis. A disposição das observações neste gráfico pode alertar para a existência de possíveis relações entre as duas variáveis bem como a existência de eventual valores aberrantes (outliers).0 3. n num referencial cartesiano.3. enquanto se assumirem valores negativos. Quando as variáveis são de natureza qualitativa e estão medidas através de uma escala nominal. .0 4. Assim.0 2. Consideremos os seguintes dados acerca das médias de curso e da média horas de estudo respectivas: Média curso 14. Quanto mais próximo de 1.0 17. Diagrama de Dispersão Na representação de uma amostra de n observações de duas variáveis X e Y utiliza-se muitas vezes um diagrama de dispersão. Associação e Correlação No capítulo anterior vimos como caracterizar dados descrevendo uma variável.5 12. Raquel Vieira  .0 16.0 1. Note-se que a correlação mede apenas o grau de associação entre variáveis não constituindo.0 2.0 14.

facilmente concluir. neste exemplo.E obtemos No entanto. Podemos afirmar. e nos permite. que à medida que aumentam as médias de curso aumenta o número médio de horas de estudo. o diagrama de dispersão é uma das representações gráficas mais adequadas para analisar graficamente a relação entre estas duas variáveis. Raquel Vieira  . nesta situação que existe uma relação 23  ESETN: Estatística /Tratamento Estatístico                                                             Profª.

este tipo de diagrama não nos permite quantificar a intensidade desta relação. já que a valores elevados de média estão. 24  ESETN: Estatística /Tratamento Estatístico                                                             Profª. em média.positiva entre as duas variáveis. No entanto. Raquel Vieira  . associados valores elevados de média de horas de estudo.

para duas variáveis quantitativas X e Y. e vice-versa. em média. predominam os produtos dos desvios negativos em relação aos positivos e. Raquel Vieira  . por consequência. Uma primeira medida de correlação linear é denominada por covariância e é definida pela média dos produtos dos desvios em relação à média. quando uma variável aumenta a outra também diminui. Assim. a covariância entres elas é definida por: sxy = 1 n ∑ xi − x yi − y n i =1 ( )( ) Pode fazer-se uma interpretação simples da expressão da covariância a partir do respectivo diagrama de dispersão. as variáveis variam em média no mesmo sentido. Assim. predominam os produtos dos desvios positivos em relação aos negativos e. quando uma variável aumenta a outra também aumenta.3.2. e quando uma variável diminui a outra também diminui.  Se o sinal for positivo. O seu sinal depende do quadrante em que o para ordenado se encontra no sistema de eixos cartesianos. em média. 25  ESETN: Estatística /Tratamento Estatístico                                                             Profª. Covariância e Correlação Detectada uma possível relação linear entre as variáveis coloca-se a questão de quantificar a intensidade dessa relação através de medidas adequadas. ou seja. Assim. Como podemos observar na seguinte tabela: Quadrantes 1º Quadrante ( x − x) i ( y − y) i ( x − x )( y − y) i i + 2º Quadrante + + 3º Quadrante + - 4º Quadrante - + + - - O sinal da covariância indica se a relação entre X e Y é positiva ou negativa. os desvios tendem a ser ambos positivos ou ambos negativos (Q1 e Q3).  Se o sinal for negativo. por consequência. em média. os desvios tendem a ter sinais contrários (Q2 e Q4).

1] e não depende das unidades de medida das variáveis e que se calcula fazendo: rx. pois dá-nos pouca informação relativamente à intensidade de correlação existente entre as variáveis.1.y = 0 A variável não apresenta relação linear. A correlação linear entre as variáveis é negativa perfeita. Atendendo a que a precisão de qualquer medida é inversamente proporcional à amplitude do intervalo onde a mesma toma valores.2. e assume valores no conjunto dos números reais. A correlação linear entre as variáveis é negativa. por isso. 0 < rx. Assim a informação contida na covariância é essencialmente sobre o sinal e não sobre a sua intensidade.y = -1 Os pontos estão inscritos numa recta de declive negativo.y menor é a variabilidade dos pontos em torno da recta. -1 < rx. Raquel Vieira  . Coeficiente de Correlação Linear de Pearson  Na avaliação do grau de correlação entre duas variáveis. Quanto mais próximo de -1 for o valor de rx. Os pontos estão inscritos numa recta de declive negativo. Quanto mais próximo de 1 for o valor de rx. Quando a covariância é nula. 26  ESETN: Estatística /Tratamento Estatístico                                                             Profª.y < 0 rx. a covariancia apresenta desde logo dois inconvenientes: depende das unidades de medida das variáveis. Surge assim a necessidade de criar um coeficiente de correlação linear que damos o nome de Pearson. 3. podemos concluir que a covariância é uma medida pouco precisa. A correlação linear entre as variáveis é positiva.y menor é a variabilidade dos pontos em torno da recta. a magnitude dos desvios positivos e negativos é igual e. que assume valores no intervalo [-1. y = sxy sx sy = 1 n ∑ x − x yi − y n i =1 i 1 n ∑ x −x n i =1 i ( )( ) ) 2 ( ) 2 1 n ∑ y −y n i =1 i ( Em função do sinal e do valor absoluto deste coeficiente pode concluir-se sobre a direcção e a intensidade da relação existente entre duas variáveis quantitativas Coeficiente de correlação Conclusões Diagrama de dispersão rx.y < 1 Os pontos estão inscritos numa recta de declive positivo. não existe relação linear entre as variáveis.

Este coeficiente recorre às ordens de observações em detrimento dos seus valores observados. e é definido da seguinte forma: rx. em x. e calcula-se da seguinte forma: rx. Raquel Vieira  . e  n p é o número de casos de categoria (x=1)  n o número toral de casos 27  ESETN: Estatística /Tratamento Estatístico                                                             Profª.y = 1 Os pontos estão inscritos numa recta de declive positivo. O coeficiente de correlação de Spearman mede a intensidade da relação existente entre duas variáveis medidas numa escala pelo menos ordinal. 3.2. que mede a intensidade da relação entre variáveis ordinais.3.rx. y = 1 −  6∑ d 2 n n −1 n ( i =1 2 ) em que di = o(xi ) − o(yi ) e o(xi ) é a ordem da observação xi na amostra  o(yi ) é a ordem da observação yi na amostra  n é o número total de observações Este coeficiente assume valor:  1 quando as observações tiverem exactamente a mesma ordem.  -1 quando tiverem ordem inversa  0 quando as ordens se dispuserem de uma forma aleatória uma relativamente à outra. y = em que  y p − yq sy pq p= np n Proporção de casos com 1. entre as ordens de observação.2. A correlação linear entre as variáveis é positiva perfeita.   3. Coeficiente de Correlação Ordinal de Spearman  Quando se pretende analisar a correlação entre duas variáveis medidas em escala ordinal deve recorrer-se ao Coeficiente de Correlação Ordinal de Spearman. O coeficiente de correlação de Spearman pode ser encarado como um caso particular do coeficiente de correlação de Pearson.2. Coeficiente de Correlação Bisserial por pontos  O Coeficiente de Correlação Bisserial por pontos mede a intensidade da relação existente entre uma variável quantitativa y e uma variável qualitativa dicotómica x.

 -1 quando tiverem ordem inversa  0 quando as ordens se dispuserem de uma forma aleatória uma relativamente à outra. basta fazer:        28  ESETN: Estatística /Tratamento Estatístico                                                             Profª. assume os valores:  1 quando as observações tiverem exactamente a mesma ordem. Raquel Vieira  . na variável Y.   Para obter estes coeficientes no SPSS. uma correlação positiva entre Y e a característica medida como 0 em Y. rbp < 0 → y p < yq existe uma correlação negativa entre Y e a característica medida como 1 em Y. ou. de todos os casos a que correspondem 0’s em X sy  desvio padrão dos valores de Y. Este coeficiente. de todos os casos a que correspondem 1’s em X yq  média. em x. Interpretação:   rbp > 0 → y p > yq existe uma correlação positiva entre Y e a característica medida como 1 em Y. q= nq n Proporção de casos com 0. e  n p é o número de casos de categoria (x=0)  n o número toral de casos     y média aritmética de todos os valores de Y y p  média. na variável Y. à semelhança do coeficiente de correlação de Spearman.

 medida numa escala entre  0 e 20.  2‐Suficiente. Associação: Tabelas de Contingência e Coeficiente de Associação Quando se pretende estudar a associação existente entre duas variáveis medidas em escala nominal ou ordinal. e o seu cálculo é baseado numa tabela de contingência do tipo:                B  A  1  2  Totais    1  a  c  a + c  2  b  d  b + d  Totais  a + b  c + d   a+b+c+d=n  29  ESETN: Estatística /Tratamento Estatístico                                                             Profª.      Coeficiente  de  correlação  Linear de   Pearson  Ordinal de   Spearman  Bisserial  Variáveis  Quantitativa  X  Quantitativa  Ordinal  X  Ordinal  (pelo menos)  Quantitativa  X  Qualitativa  dicotómica  Exemplos  Associação entre o número de horas de trabalho  dedicado e a nota obtida. 3‐Bom.3.  Associação de uma nota medida pela Escala (1‐Mau. E o Bisserial é idêntico a calcular coeficiente  correlação de Pearson. Raquel Vieira  . O coeficiente de associação φ permite quantificar a associação existente entre duas variáveis dicotómicas. D)  Associação entre o número de horas que um grupo  demora a executar certa tarefa e o género   3. C. recorre-se aos conceitos de tabela de contingência (ou de dupla entrada) e de coeficiente de associação. B. mas pode  facilmente ser obtido a partir do Bisserial. 4‐Muito Bom) e a nota num  trabalho medido pela escala (A.NOTA: O Coeficiente Bisserial por pontos não se calcula directamente no SPSS.

 os quadros superiores têm uma maior tendência em afirmar que as regras de  segurança são cumpridas.526. B1): O coeficiente de associação φ é dado por:  ad − bc   Φ= ( a + b )( c + d )( a + c )(b + d ) A interpretação deste coeficiente é feita da seguinte forma:    coeficiente de associação φ Conclusões  -1 < φ < 1  Existe uma associação entre A e B nas  φ > 0  modalidades concordantes  Não existe associação entre as variáveis  φ = 0  A e B  Existe associação entre A e B nas  φ<0  modalidades discordantes    Exemplo:  No Ministério da Educação foram inquiridos 500 indivíduos dos quadros  técnicos superiores e 700 dos quadros técnicos sobre as normas de  segurança dos respectivos locais de trabalho. B2) e por  modalidades discordantes (A1. já que só  pode assumir dois valores diferentes (Cumpridas ou não cumpridas)   Quadros: variável dicotómica (Superiores ou técnicos)  Por se tratarem de duas variáveis nominais e dicotómicas. Raquel Vieira  .   30  ESETN: Estatística /Tratamento Estatístico                                                             Profª. B2)/(A2. ou  seja.  As variáveis são:   Opinião sobre normas de segurança: variável dicotómica. B1) / (A2.   Φ= ( 350 + 150 ) (125 + 575 ) ( 350 + 125 ) (150 + 575 ) 350 × 575 − 150 × 125 = 0. o que significa que existe uma relação  positiva entre a opinião e as normas de segurança e a categoria profissional.Designam‐se por modalidades concordantes (A1. para medir a  intensidade da relação entre elas vamos utilizar o coeficiente de associação. A opinião dos inquiridos  encontra‐se resumida na seguinte tabela:    Opinião  São  Não são  Totais  cumpridas  cumpridas  Quadros  350  150  500  Superiores  Quadros  125  575  700   Técnicos  Totais  475  725  1200  Pretende‐se saber como se relacionam e qual a intensidade da relação entre  a duas variáveis consideradas. 526   O valor do coeficiente de associação é 0.

  Usando o SPSS:  1. Raquel Vieira  . Inserir as variáveis e caracterizá‐las convenientemente:    NOTA: para quadros e opinião deve usar a opção Values  para indicar as  possibilidades das variáveis.  31  ESETN: Estatística /Tratamento Estatístico                                                             Profª.

           Obter o coeficiente de Associação através dos seguintes passos:              32  ESETN: Estatística /Tratamento Estatístico                                                             Profª. Especificar que a variável freqobs  caracteriza as frequências observadas:    3. Raquel Vieira  .  2.

  Obtemos assim:          33  ESETN: Estatística /Tratamento Estatístico                                                             Profª. Raquel Vieira  .  4.

 o valor obtido anteriomente. obter uma interpretação mais aprofunda.    Podemos.    Confirmando assim. 0. Raquel Vieira  . seleccionando em  Crosstabs ‐> Cells      34  ESETN: Estatística /Tratamento Estatístico                                                             Profª.526 (Phi). ainda.

  35  ESETN: Estatística /Tratamento Estatístico                                                             Profª. 500 (41.   Dos 500 elementos de quadros superiores 350 (70%) afirmam que as  normas de segurança são cumpridas e 150 (30%) afirmam que não são  cumpridas. 1200.   Do total dos elementos. 1200.9%) são de quadros técnicos e  afirmam que as normas de segurança não são cumpridas.   Do total das elementos.7%) são de quadros superiores. 575 (47.7%) são dos quadros superiores e os restantes 125  (26.3%) são de quadros técnicos.Para obter:     Podemos retirar algumas conclusões desta tabela:   Dos 475 elementos que afirmaram que as normas de segurança são  cumpridas. Raquel Vieira  . 350 (73.

São muitos os estudos de investigação que recorrem a esta estratégia e torna-se necessário aprofundar técnicas de tratamento e análise dos dados obtidos. podem usar-se os testes de bondade ou qualidade de ajustamento das amostras a funções de distribuição de probabilidades. McNemar) ou de valores centrais (Mann-Whitney. Geralmente utilizam-se quando as variáveis envolvidas são tipicamente qualitativas (nominais ou ordinais) ou. Os testes incidem explicitamente sobre um parâmetro de uma ou mais populações (por exemplo. o teste de KolmogorovSmirnov.                                                          2 Estes testes (por exemplo testes t‐student e ANOVA) não serão objecto de estudo desta  disciplina. Os testes não paramétricos não estão condicionados por qualquer distribuição de probabilidades dos dados em análise. a distribuição da estatística de teste do teste t-Student para comparar as médias de duas amostras pressupõe que as amostras foram retiradas de uma população que se distribui segundo uma função de probabilidades Normal. a questão da aleatoriedade da amostra é fundamental. ou sobre a variância). tais como o teste do qui-quadrado. se encontram afastadas da normalidade e/ou amostras pequenas. Preferencialmente. Contudo. e não em valores absolutos. sendo que estes últimos se baseiam em ordenações. Kruskal-Wallis e Friedman). Wilcoxon. Etc. não são tão potentes como os paramétricos. A distribuição de probabilidades da estatística de teste pressupõe uma forma particular das distribuições populacionais de onde as amostras foram recolhidas. quando estas condições não estão reunidas. Raquel Vieira  . Por exemplo. são utilizados métodos paramétricos . Testes paramétricos e não paramétricos Uma ferramenta de extrema utilidade em estatísticas são os testes de hipóteses. a fim de se decidir pela utilização de um teste paramétrico ou por um teste não paramétrico. e quando estão 2 reunidas diversas condições (ver quadro abaixo). no entanto. Alguns dos testes não paramétricos baseiam-se em probabilidades ou em frequências (Binomial. ou não. Independentemente do teste utilizado ser. no caso de variáveis quantitativas. Qui-quadrado. paramétrico. teste de Shapiro-Wilk. a opção encontrada é a utilização de testes não paramétricos.4.  36  ESETN: Estatística /Tratamento Estatístico                                                             Profª. e além disso pressupõe também que as variâncias das duas amostras são homogéneas. sobre a média ou valor esperado. Para verificar a forma de distribuição das populações.

Lisboa. A. Folha de Apoio . Análise de dados com SPSS: Primeiros passos (2ªed. (2006). F.. Estatística Aplicada Às Ciências e Tecnologias da Saúde. F.pt/leies/pacgi/Folhaapoio1. A. Aveiro: Universidade de Aveiro [Acessível em http://www2. (2007).). L.ua.Iniciação ao SPSS. Martinez. (2006). SPSS Guia Prático de Utilização: Análise de dados para ciências sociais e psicologia. & Oliveira. Pereira. Lisboa: Escolar Editora. Martins.dce. & Ferreira. Lisboa: Lidel..F. Sousa.). Raquel Vieira  .pdf] Cunha. J. (2008). (6ª Ed. R. Referências Bibliográficas  Bessa. I. M. R. G. Edições Sílabo 37  ESETN: Estatística /Tratamento Estatístico                                                             Profª.

Sign up to vote on this title
UsefulNot useful