You are on page 1of 54

Introducao

Prepara cao da base de dados


Tabelas de frequencias
Representa cao graca
Reducao dos dados
Apresenta cao e
resumo dos dados
Estatstica
Engenharias
2012/2013
Rui Santos e Helena Ribeiro
Escola Superior de Tecnologia e Gest ao
Instituto Politecnico de Leiria
Estatstica Apresenta cao e resumo dos dados 1/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Estatstica
Noc oes basicas
Estatstica e a ciencia que se ocupa da obten cao de
informacao (amostragem, planeamento de experiencias), seu
tratamento inicial (... estatstica descritiva e an alise
exploratoria de dados), com a nalidade de, atraves de
resultados probabilsticos adequados, inferir de uma
amostra para a popula cao (decis ao sobre hip oteses,
estimacao de par ametros, ...) e eventualmente mesmo
prever a evolu cao futura de um fen omeno (previsao).
In Introdu c ao `a Probabilidade e `a Estatstica
Fundacao Calouste Gulbenkian
Pestana, D. e Velosa, S. (2010)
Estatstica Apresenta cao e resumo dos dados 2/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Estatstica
Noc oes basicas
Estatstica Descritiva: Recolha, apresenta cao, an alise e
interpretacao de dados.
Tabelas de frequencias.
Representa cao gr aca.
Redu cao dos dados.
Estatstica Indutiva ou inferencia estatstica:
tecnicas que permitem, a partir da informa cao contida na
amostra, tirar conclusoes sobre caractersticas
desconhecidas da populacao.
Estima cao pontual e por intervalos (intervalos de conanca).
Testes de hip oteses (parametricos e nao parametricos).
Estatstica Apresenta cao e resumo dos dados 3/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Estatstica
Noc oes basicas
Populacao: conjunto de unidades individuais, que podem ser
pessoas ou resultados experimentais, com uma ou mais
caractersticas comuns, que se pretendem estudar.
Indivduo ou unidade estatstica: unidade sobre a qual se
realizam as observa coes (cada elemento da populacao).
Amostra: corresponde ao subconjunto da populacao que e
observado. Com a sua analise pretende-se tirar conclus oes sobre
a populacao da qual foi recolhida.
Variaveis ou atributos: caractersticas em estudo (idade,
genero, peso, altura, nvel de escolaridade).
Modalidades ou categorias: possveis resultados para cada
atributo (que devem ser exaustivas e incompatveis).
Estatstica Apresenta cao e resumo dos dados 4/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Estatstica
Noc oes basicas
As variaveis ou atributos de uma populacao podem ser
qualitativas ou quantitativas.
Variaveis qualitativas ou categoricas: est ao
relacionadas com uma qualidade, logo nao s ao suscetveis de
medida (sao nao mensuraveis), mas unicamente de
classicacao entre v arias possveis modalidades.
Variaveis quantitativas: e possvel atribuir uma medida
e apresentam-se com diferentes intensidades ou valores
(caractersticas mensuraveis).
Estatstica Apresenta cao e resumo dos dados 5/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Estatstica
Noc oes basicas
Variavel qualitativa ou categ orica
Nominal: nao se pode estabelecer uma rela cao de ordem
entre as categorias. Os dados consistem em nomes ou
r otulos.
Exemplo: o genero (feminino ou masculino), estado de uma
doenca (infetado ou nao infetado), cor preferida...
Estas variaveis podem ser codicadas por n umeros, todavia
e indiferente a ordem dos n umeros atribudos.
Ordinal: pode-se estabelecer uma rela cao de ordem entre
as categorias, mas a distancia entre esses n umeros nao tem
sentido.
Exemplo: o grau de satisfa c ao relativamente a um servi co
pode ser codicado por insatisfeito (1), pouco satisfeito (2),
satisfeito (3) ou muito satisfeito (4).
Estatstica Apresenta cao e resumo dos dados 6/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Estatstica
Noc oes basicas
Variavel Quantitativa
Discreta: pode assumir um n umero nito ou uma
innidade numeravel de valores.
Exemplo: n umero de elementos de um agregado familiar,
n umero de pessoas em la numa caixa de um
supermercado.
Contnua: pode assumir qualquer valor de um
determinado intervalo de n umeros reais (nao numeravel).
Exemplo: peso de um indivduo, tempo que um corredor
demora a percorrer a maratona, temperatura corporal,
tempo de vida de um indivduo, press ao sangunea, ndice
de massa corporal.
Nota Nem sempre e pacca a distincao entre discretas e
contnuas (no nao e necessario efetuar esta distincao).
Estatstica Apresenta cao e resumo dos dados 7/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Estatstica
Noc oes basicas
Ferramentas da Estatstica Descritiva:
Tabelas de frequencias: tabelas que apresentam a
distribuicao de cada variavel, isto e, quais os valores ou
modalidades que a variavel assume, assim como a frequencia
com que assume cada um desses valores/modalidades.
Gracos: permitem uma melhor visualiza cao dos dados e,
por conseguinte, facilitam a interpreta cao das
caractersticas de cada variavel e/ou da rela cao entre duas
ou mais variaveis.
Medidas de Estatstica Descritiva: permitem
sumariar/resumir a informacao contida nos dados atraves
do calculo numerico de medidas amostrais.
Estatstica Apresenta cao e resumo dos dados 8/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Introducao ao R com recurso ao R-Commander
Prepara cao da base de dados
DataActive data set. . .
DataManage variables in active data set. . .
Instala cao do software no site
http://www.r-project.org/
Instala cao do package R-Commander utilizando a linha
de comandos
install.packages(Rcmdr, dependencies=TRUE)
ou, na barra de menus, clicando em
Packages Install package(s)Rcmdr
Abrir o package R-Commander escrevendo
library(Rcmdr)
ou, na barra de menus, clicando em
Packages Load package...Rcmdr
Estatstica Apresenta cao e resumo dos dados 9/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Introducao ao R com recurso ao R-Commander
Prepara cao da base de dados
DataActive data set. . .
DataManage variables in active data set. . .
O R-Commander
Estatstica Apresenta cao e resumo dos dados 10/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Introducao ao R com recurso ao R-Commander
Prepara cao da base de dados
DataActive data set. . .
DataManage variables in active data set. . .
O R-Commander esta dividido em:
Script Window [janela superior] onde aparecem escritos
todos os comandos usados (quando se utiliza os menus),
podendo igualmente ser utilizado para escrever comandos
de programa cao em ;
Output Window [segunda janela] onde todos os outputs
aparecem (respostas aos comandos solicitados);
Messages [janela inferior] exibe as mensagens de erro,
avisos e algumas informa coes.
Estatstica Apresenta cao e resumo dos dados 11/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Introducao ao R com recurso ao R-Commander
Prepara cao da base de dados
DataActive data set. . .
DataManage variables in active data set. . .
Abrir uma nova base de dados para inser cao de dados:
Data New data set. . .
Abrir uma base de dados ja existente do (cheiro do
tipo xxx.RData):
Data Load data set. . .
Importar uma base de dados com outro formato, tal como
Excel, SPSS, SAS, Minitab, STATA:
Data Import data. . .
Exemplo Import data from text file, clipboard, or URL
BodyTemperature.txt (disponvel em
http://extras.springer.com utilizando o ISBN:
978 1 4614 1301 1)
Estatstica Apresenta cao e resumo dos dados 12/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Introducao ao R com recurso ao R-Commander
Prepara cao da base de dados
DataActive data set. . .
DataManage variables in active data set. . .
Abrir bases de dados disponveis num package:
Data Data in package. . .
Exemplo Base de dados Pima.tr do package MASS:
npreg n umero de gestacoes (gravidezes)
glu concentracao de glicose no plasma observado num teste oral
de tolerancia `a glicose
bp pressao arterial diastolica (mmHg milmetros de merc urio)
skin espessura das dobras cut aneas triciptal (mm)
bmi ndice de massa corporal [(peso em kg)/(altura em m)
2
]
ped tendencia a ter diabetes (funcao de pedigree)
age idade em anos
type estado da doen ca (Yes para diabeticos e No para nao
diabeticos)
Nota H a informa cao disponvel acerca das variaveis e dos
indivduos observados em Help on selected data set.
Estatstica Apresenta cao e resumo dos dados 13/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Introducao ao R com recurso ao R-Commander
Prepara cao da base de dados
DataActive data set. . .
DataManage variables in active data set. . .
Exemplo Base de dados birthwt.tr do package MASS:
low indicador de nascimentos com menos de 2.5 kg
age idade da mae em anos
lwt peso da mae em libras (1 libras 453.59 gr) no ultimo
perodo menstrual
race ra ca da mae (1 = branca, 2 = negra, 3 = outra)
smoke indicador de tabagismo durante a gravidez
ptl n umero de partos prematuros anteriores
ht historia de hipertensao
ui presen ca de irritabilidade uterina
ftv n umero de consultas medicas durante o primeiro trimestre
bwt peso do bebe em gramas.
Estatstica Apresenta cao e resumo dos dados 14/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Introducao ao R com recurso ao R-Commander
Prepara cao da base de dados
DataActive data set. . .
DataManage variables in active data set. . .
Os menus visveis do R-Commander:
Data set: para alterar a base de dados ativa (quando mais
do que uma base de dados foi aberta).
Edit data set: para abrir o editor de dados, a m de
inserir novos dados na base de dados ativa.
View data set: para exibir a base de dados ativa.
Model: s o esta ativa quando um modelo esta a ser aplicado
(sera utilizada na regressao linear).
Nota: A base de dados deve estar fechada (quer o editor quer o
viewer) sempre que se pretenda efetuar altera coes `a base
de dados.
Estatstica Apresenta cao e resumo dos dados 15/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Introducao ao R com recurso ao R-Commander
Prepara cao da base de dados
DataActive data set. . .
DataManage variables in active data set. . .
DataActive data set. . .
Alterar a base de dados ativa (quando mais do que uma
base de dados esta aberta)
Select active data set
Apresentar o nome de todas as variaveis na base de dados
ativa
Variables in active data set
Escolher uma variavel que identique (atribua um nome) a
cada indivduo da base de dados (usualmente uma variavel
sem valores repetidos nem valores em falta)
Set case names
Criar uma base de dados que e um subconjunto da base de
dados ativa (e.g. reduzir a base de dados aos indivduos do
sexo masculino)
Subset active data set
Estatstica Apresenta cao e resumo dos dados 16/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Introducao ao R com recurso ao R-Commander
Prepara cao da base de dados
DataActive data set. . .
DataManage variables in active data set. . .
Para denir um subconjunto da base de dados recorre-se a
operadores l ogicos
Operador Descricao
< menor que
<= menor ou igual a
> maior que
>= maior ou igual a
= = exatamente igual a
! = diferente de
!x negacao de x
x | y x ou y
x & y x e y
Estatstica Apresenta cao e resumo dos dados 17/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Introducao ao R com recurso ao R-Commander
Prepara cao da base de dados
DataActive data set. . .
DataManage variables in active data set. . .
DataActive data set. . .
Criar uma nova base de dados onde os atuais indivduos
s ao agrupados atraves de uma variavel qualitativa (cada
grupo passa a ser um indivduo na nova base de dados) e as
novas variaveis correspondem a alguma medida (media,
soma ou outra) das variaveis iniciais.
Aggregate variables in active data set
Retirar um indivduo da base de dados (apagar uma linha)
Remove row(s) from active data set
Juntar duas variaveis na mesma coluna (se a base de dados
tiver a mesma variavel para grupos diferentes em colunas
distintas, podemos juntar tudo na mesma variavel (coluna)
sendo criada uma nova variavel a identicar o grupo)
Stack variables in active data set
Estatstica Apresenta cao e resumo dos dados 18/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Introducao ao R com recurso ao R-Commander
Prepara cao da base de dados
DataActive data set. . .
DataManage variables in active data set. . .
DataActive data set. . .
Retirar da base de dados todos os indivduos com valores
em falta (apagar linhas onde falte pelo menos um valor)
Remove case with missing data
Gravar a base de dados ativa no formato RData
(xxx.RData)
Save active data set
Gravar a base de dados ativa noutro formato, tal como
xxx.txt
Export active data set
Estatstica Apresenta cao e resumo dos dados 19/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Introducao ao R com recurso ao R-Commander
Prepara cao da base de dados
DataActive data set. . .
DataManage variables in active data set. . .
DataManage variables in active data set. . .
Recodicar uma variavel
Recode variables
Exemplo Considere uma variavel Genero que assume as modalidades
feminino e masculino. Para criar a variavel Genero2 que
assume o valor 1 se Genero for feminino e o valor 2 se
Genero for masculino, na instru cao Enter recode
directives pode ser utilizada a instru cao:
Feminino = 1
Masculino = 2
Nota O texto deve ser escrito entre aspas (nos valores numericos
nao se utilizam aspas).
Nota No lado esquerdo da igualdade aparece o valor na antiga
variavel (Genero) e no lado direito o valor a assumir na
nova variavel (Genero2).
Estatstica Apresenta cao e resumo dos dados 20/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Introducao ao R com recurso ao R-Commander
Prepara cao da base de dados
DataActive data set. . .
DataManage variables in active data set. . .
Exemplo Para criar a variavel V2 que sera igual a Mau se V1 25,
igual a Suficiente se 25 <V1< 50, igual a Bom se
50 V1 75 e igual a Muito bom se V1> 75, na instru cao
Enter recode directives pode ser utilizado:
lo:25 = Mau
50:75 = Bom
25:50 = Suficiente
75:hi = Muito bom
Nota Para representar intervalos entre a e b (i.e. o intervalo real
[a, b]) utilizar a : b, onde lo representa lower (valor mais
baixo) e hi higher (valor mais elevado) de V1.
Nota Cada valor e codicado de acordo com a primeira
instru cao, e.g. o valor 25 vai ser classicado como Mau e
o valor 50 como Bom.
Estatstica Apresenta cao e resumo dos dados 21/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Introducao ao R com recurso ao R-Commander
Prepara cao da base de dados
DataActive data set. . .
DataManage variables in active data set. . .
DataManage variables in active data set. . .
Criar uma nova variavel que e funcao de outras variaveis ja
existentes na base de dados, e.g. para determinar o ndice
de massa corporal (IMC) quando o peso e a altura estao
disponveis:
Compute new variable
e inserir a formula
IMC =
peso em kg
(altura em m)
2
.
Criar uma nova variavel ObsNumber que ir a numerar os
indivduos (acrescenta uma coluna com 1, 2, . . . , n, onde `a
i-esima observa cao e associado o n umero i)
Add observation number to data set
Estatstica Apresenta cao e resumo dos dados 22/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Introducao ao R com recurso ao R-Commander
Prepara cao da base de dados
DataActive data set. . .
DataManage variables in active data set. . .
DataManage variables in active data set. . .
Criar uma nova variavel Z.v1 que corresponde `a variavel
v1 padronizada (ou estandardizada), i.e. Z.v1 corresponde
`a variavel v1 onde a cada observa cao foi subtrada a media
de v1 e dividida pelo seu desvio padr ao, de forma a Z.v1
ter media nula e desvio padr ao igual a 1
Standardize variables
Transformar variaveis numericas em fatores (requerido, por
exemplo, para construir tabelas de frequencias ou
representar alguns gr acos)
Convert numeric variables to factors
Agrupar os dados de uma variavel em classes (mais
informa coes podem ser consultadas na sec cao das Tabelas
de frequencias nestes slides)
Bin numerical variables
Estatstica Apresenta cao e resumo dos dados 23/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Introducao ao R com recurso ao R-Commander
Prepara cao da base de dados
DataActive data set. . .
DataManage variables in active data set. . .
DataManage variables in active data set. . .
Ordenar/reordenar as variaveis ordinais (caso contrario as
categorias aparecem por ordem alfabetica)
Reorder factor levels
Alterar o nome de uma variavel
Rename variables
Retirar uma variavel da base de dados (apagar uma coluna)
Delete variables from data set
Estatstica Apresenta cao e resumo dos dados 24/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Seja
x
1
, x
2
, . . . , x
n
um conjunto de dados ou observa coes da variavel X, que
constituem uma amostra de dimens ao n.
Todavia, ha valores que podem ser repetidos (observa coes iguais
x
i
= x
j
). Deste modo, seja
x

1
, x

2
, . . . , x

p
os p valores diferentes que foram observados da variavel X,
ordenados do menor para o maior valor, i.e.
x

1
< x

2
< . . . < x

p
.
Estatstica Apresenta cao e resumo dos dados 25/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Uma tabela de frequencias resume a informa cao contida
na amostra.

E uma tabela onde guram os valores de, pelo
menos, um destes tipos de frequencias:
frequencia absoluta n
i
n umero de vezes que o valor x

i
e
observado.
frequencia relativa f
i
propor cao de vezes que o valor x

i
e observado (f
i
=
n
i
n
).
frequencia absoluta acumulada N
i
n umero de vezes
que um valor menor ou igual a x

i
e observado
(N
i
=

i
j=1
n
j
e N
p
= n).
frequencia relativa acumulada F
i
propor cao de vezes
que um valor menor ou igual a x

i
e observado
(F
i
=

i
j=1
f
j
e F
p
= 1).
Estatstica Apresenta cao e resumo dos dados 26/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Tabelas de frequencias
Variavel Frequencias Frequencias Frequencias Frequencias
absolutas absolutas relativas relativas
ordinarias acumuladas ordinarias acumuladas
x n
i
N
i
f
i
F
i
x

1
n
1
N
1
= n
1
f
1
F
1
= f
1
x

2
n
2
N
2
= n
1
+ n
2
f
2
F
2
= f
1
+ f
2

x

i
n
i
N
i
= n
1
+ + n
i
f
i
F
i
= f
1
+ + f
i

x

p
n
p
N
p
= n f
n
F
p
= 1
Soma n 1
Nota Para variaveis qualitativas nominais as frequencias
acumuladas nao tem qualquer sentido (uma vez que as
caractersticas nao tem uma ordem).
Estatstica Apresenta cao e resumo dos dados 27/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
: StatisticsSummariesFrequency distributions. . .
Este comando s o funciona com variaveis qualitativas (para se
poder utilizar numa variavel numerica tem de se converter
previamente a variavel em fatores)
Exemplo A variavel type (estado da doen ca: diabetico ou nao
diabetico) na base de dados Pima.tr
> .Table # counts for type
No Yes
132 68
> round(100*.Table/sum(.Table), 2) #percentages for type
No Yes
66 34
Nota: O apresenta as frequencias relativas em percentagem (e
nao como uma propor cao).
Estatstica Apresenta cao e resumo dos dados 28/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
: StatisticsSummariesFrequency distributions. . .
Exemplo Variavel npreg (n umero de gestacoes) da BD Pima.tr
(depois de converter esta variavel em fatores)
> .Table # counts for npreg factor
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
28 45 30 19 16 11 10 12 9 7 3 1 6 1 2
> round(100*.Table/sum(.Table), 2) # percentages for
npreg factor
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
14.0 22.5 15.0 9.5 8.0 5.5 5.0 6.0 4.5 3.5 1.5 0.5 3.0 0.5 1.0
Estatstica Apresenta cao e resumo dos dados 29/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Construir uma tabela de frequencias quando a
variavel assume um elevado n umero de categorias
Determinar a amplitude da amostra:
R = max{x
i
} min{x
i
}.
Determinar o n umero de classes k a considerar:
k e o menor inteiro tal que 2
k
n (regra de Sturges).
Determinar as classes de forma a terem todas a mesma
amplitude (e a sua uni ao conter todas as observa coes da
amostra). Deste modo, a amplitude de cada classe sera
dada aproximadamente por
R
k
.
: DataManage variables in active data setBin
numerical variable. . .
StatisticsSummariesFrequency distributions. . .
Estatstica Apresenta cao e resumo dos dados 30/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Exemplo Variavel glu (concentra cao de glucose no plasma) na base
de dados Pima.tr, depois de agrupada em 8 classes
(criando, desta forma, a variavel glu bin)
n = 200 entao k = 8 (2
7
= 128 < n e 2
8
= 256 n).
recorrendo ao comando Bin numerical variable com 8
classes:
> .Table # counts for glu bin
(55.9,73.8] (73.8,91.7] (91.7,110] (110,128] . . . (181,199]
5 21 49 44 . . . 13
> round(100*.Table/sum(.Table), 2) # percentages for glu bin
(55.9,73.8] (73.8,91.7] (91.7,110] (110,128] . . . (181,199]
2.5 10.5 24.5 22.0 . . . 6.5
Estatstica Apresenta cao e resumo dos dados 31/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Nota: Tambem pode ser utilizado o comando recode para agrupar
em classes a variavel glu (com resultados an alogos).
n = 200 entao k = 8 (2
7
= 128 < n e 2
8
= 256 n).
min{x
i
} = 56, max{x
i
} = 199, entao R = 143
Amplitude de cada classe dada por
R
k
=
143
8
= 17.875 18.
Ao arredondar por excesso criou-se algum espaco extra
(nao pode ser utilizada a aproximacao por defeito, pois
depois cariam observa coes de fora).
> .Table # counts for glu bin2
(55,73] (73,91] (91,109] (109,127] . . . (181,199]
5 21 49 44 . . . 13
> round(100*.Table/sum(.Table), 2) # percentages for glu bin2
(55,73] (73,91] (91,109] (109,127] . . . (181,199]
2.5 10.5 24.5 22.0 . . . 6.5
Estatstica Apresenta cao e resumo dos dados 32/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Diagrama de barras Bar
Diagrama Circular Pie
Histograma Histogram
Graphs
Color palette. . .
Index plot. . .
Histogram. . .
Stem-and-leaf display. . .
Boxplot. . .
Quantile-comparison plot. . .
Scatterplot. . .
Scatterplot matrix. . .
Line graph. . .
XY conditioning plot. . .
Plot of means. . .
Strip chart. . .
Bar graph. . .
Pie chart. . .
Estatstica Apresenta cao e resumo dos dados 33/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Diagrama de barras Bar
Diagrama Circular Pie
Histograma Histogram
Este gr aco e adequado para variaveis qualitativas e
quantitativas discretas (se assumirem poucos valores
distintos).
No Yes
type
F
r
e
q
u
e
n
c
y
0
2
0
4
0
6
0
8
0
1
0
0
1
2
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
npreg2
F
r
e
q
u
e
n
c
y
0
1
0
2
0
3
0
4
0
Estatstica Apresenta cao e resumo dos dados 34/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Diagrama de barras Bar
Diagrama Circular Pie
Histograma Histogram
Este gr aco e adequado para variaveis qualitativas e
quantitativas discretas (se assumirem poucos valores
distintos).
Type Gender
No
Yes
F
M
Estatstica Apresenta cao e resumo dos dados 35/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Diagrama de barras Bar
Diagrama Circular Pie
Histograma Histogram
Este gr aco e adequado para variaveis quantitativas (se
assumirem um n umero elevado de valores distintos).
O histograma e um diagrama de areas, no qual a area de
cada ret angulo e proporcional `a frequencia por unidade de
amplitude da correspondente classe.
bmi glu
Pima.tr$bmi
f
r
e
q
u
e
n
c
y
15 20 25 30 35 40 45 50
0
1
0
2
0
3
0
4
0
5
0
6
0
Pima.tr$glu
f
r
e
q
u
e
n
c
y
50 100 150 200
0
1
0
2
0
3
0
4
0
Estatstica Apresenta cao e resumo dos dados 36/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Diagrama de barras Bar
Diagrama Circular Pie
Histograma Histogram
ped diabetes (fun cao pedigree)
Pima.tr$ped
f
r
e
q
u
e
n
c
y
0.0 0.5 1.0 1.5 2.0
0
2
0
4
0
6
0
8
0
Pima.tr$ped
f
r
e
q
u
e
n
c
y
0.0 0.5 1.0 1.5 2.0 2.5 3.0
0
.
0
0
.
5
1
.
0
1
.
5
2
.
0
2
.
5
Hist(Pima.tr$ped, scale=frequency, breaks=Sturges,
col=darkgray); [automatic by Rcommander]
Hist(Pima.tr$ped, scale=frequency,
breaks=c(0,0.1,0.2,0.3,0.4,0.5,0.75,1,1.5,2,3), col=blue)
Estatstica Apresenta cao e resumo dos dados 37/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Diagrama de barras Bar
Diagrama Circular Pie
Histograma Histogram
O n umero de classes utilizado e fundamental para se obter
um bom histograma!
Pima.tr$ped
f
r
e
q
u
e
n
c
y
0.0 0.5 1.0 1.5 2.0 2.5 3.0
0
2
4
6
8
1
0
1
2
Pima.tr$ped
f
r
e
q
u
e
n
c
y
0.0 0.5 1.0 1.5 2.0 2.5 3.0
0
1
2
3
4
Pima.tr$ped
f
r
e
q
u
e
n
c
y
0.0 0.5 1.0 1.5 2.0 2.5 3.0
0
2
0
4
0
6
0
8
0
Pima.tr$ped
f
r
e
q
u
e
n
c
y
0.0 0.5 1.0 1.5 2.0 2.5
0
2
0
4
0
6
0
8
0
Pima.tr$ped
f
r
e
q
u
e
n
c
y
0.0 0.5 1.0 1.5 2.0 2.5 3.0
0
2
0
4
0
6
0
8
0
1
0
0
1
2
0
Pima.tr$ped
f
r
e
q
u
e
n
c
y
0.0 0.5 1.0 1.5 2.0 2.5 3.0
0
5
0
1
0
0
1
5
0
Estatstica Apresenta cao e resumo dos dados 38/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Medidas de tendencia central
Medidas de tendencia nao central
Medidas de dispersao
Outliers
Medidas de assimetria
Medidas de Estatstica Descritiva: resumem a informa cao
da amostra atraves de alguns resultados numericos que
caracterizam os dados.
: Statistics Summaries Active data set
: Statistics Summaries Numerical summaries. . .
Medidas de localizacao
Medidas de tendencia central
Medidas de tendencia nao central
Medidas de dispersao
Medidas de assimetria
Estatstica Apresenta cao e resumo dos dados 39/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Medidas de tendencia central
Medidas de tendencia nao central
Medidas de dispersao
Outliers
Medidas de assimetria
Medidas de tendencia central representam uma
estimativa do centro dos dados. Existem tres medidas de
tendencia central: media, moda e mediana.
Media da amostra (mean): x =
1
n

n
i=1
x
i

corresponde ao valor em torno do qual estao localizadas as
observa coes.
Moda (mode): M
o
corresponde ao valor mais frequente.
Nota 1 A moda e a unica medida que pode ser determinada em
variaveis qualitativas.
Nota 2 Um conjunto de dados pode ter mais do que uma moda.
Nota 3 Quando a variavel e agrupada em classe determina-se a
classe modal, que corresponde `a classe com maior
frequencia por unidade de amplitude.
Estatstica Apresenta cao e resumo dos dados 40/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Medidas de tendencia central
Medidas de tendencia nao central
Medidas de dispersao
Outliers
Medidas de assimetria
Mediana (median): M
e
valor que divide as observa coes
em duas partes iguais, isto e, M
e
e denido de forma a ter
metade das observa coes menores ou iguais a M
e
e metade
das observa coes maiores ou iguais a M
e
.
Deste modo, dene-se este valor pela sua posicao na
sucess ao ordenada das observa coes
x
(1)
x
(2)
. . . x
(n)
.
Se n e mpar ent ao M
e
= x
(
n+1
2
)
.
Se n e par ent ao M
e
=
x
(
n
2
)
+x
(
n
2
+1
)
2
.
Estatstica Apresenta cao e resumo dos dados 41/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Medidas de tendencia central
Medidas de tendencia nao central
Medidas de dispersao
Outliers
Medidas de assimetria
Mnimo (minimum): menor valor observado,
x
(1)
= min{x
i
}.
Maximo (maximum): maior valor observado,
x
(n)
= max{x
i
}.
Quartis (quartiles): q
r
, r = 1, 2, 3 valores que dividem
os dados, depois de ordenados, em quatro partes iguais (em
termos de n umero ou % de observa coes).
Se (rn)/4 N ent ao q
r
=
x
(rn/4)
+x
(rn/4+1)
2
.
Se (rn)/4 / N ent ao q
r
= x
(m)
,
onde m designa o menor inteiro maior que rn/4.
25%
..
25%
..
25%
..
25%
..
min{x
i
}
q
1
q
2
Me
q
3
max{x
i
}
Estatstica Apresenta cao e resumo dos dados 42/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Medidas de tendencia central
Medidas de tendencia nao central
Medidas de dispersao
Outliers
Medidas de assimetria
Quantil (quantiles) de ordem q, 0 q 1, e o valor Q
q
que divide os dados em duas partes, tal que `a esquerda de
Q
q
esta no m aximo uma propor cao q dos dados e `a direita
no m aximo uma propor cao 1 q.
Percentis (percentiles), P
p
, com 0 p 100: o mesmo
que um quantil mas em que a propor cao e dada em
percentagem, i.e. Q
q
= P
100q
(o quantil q corresponde ao
percentil p = 100q), e
q
1
= Q
0.25
= P
25
.
M
e
= q
2
= Q
0.50
= P
50
.
q
3
= Q
0.75
= P
75
.
Estatstica Apresenta cao e resumo dos dados 43/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Medidas de tendencia central
Medidas de tendencia nao central
Medidas de dispersao
Outliers
Medidas de assimetria
Diagrama de extremos e quartis (Boxplot):
representa cao do mnimo, dos tres quartis e do m aximo de
uma amostra (se nao existirem outliers, caso contrario
consultar sec cao Outliers nestes slides).
2
0
3
0
4
0
5
0
6
0
a
g
e
2
0
2
5
3
0
3
5
4
0
4
5
b
m
i
6
0
8
0
1
0
0
1
2
0
1
4
0
1
6
0
1
8
0
2
0
0
g
lu
Estatstica Apresenta cao e resumo dos dados 44/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Medidas de tendencia central
Medidas de tendencia nao central
Medidas de dispersao
Outliers
Medidas de assimetria
No Yes
2
0
2
5
3
0
3
5
4
0
4
5
type
b
m
i
Estatstica Apresenta cao e resumo dos dados 45/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Medidas de tendencia central
Medidas de tendencia nao central
Medidas de dispersao
Outliers
Medidas de assimetria
Como medir a variabilidade dos dados?
Amplitude (range): R diferen ca entre a maior e a
menor das observa coes,
R = max{x
i
} min{x
i
} = x
(n)
x
(1)
.
Amplitude inter-quartis: I
q
diferen ca entre q
3
e q
1
(3.
o
e 1.
o
quartis),
I
q
= q
3
q
1
.
Estatstica Apresenta cao e resumo dos dados 46/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Medidas de tendencia central
Medidas de tendencia nao central
Medidas de dispersao
Outliers
Medidas de assimetria
Desvio medio absoluto (Mean absolute deviation):
DMA media do valor absoluto da diferen ca entre cada
valor e a media,
DMA =
1
n
n

i=1
|x
i
x| .
Variancia amostral (variance): s
2
soma dos
quadrados dos desvios das observa coes, relativamente `a sua
media, dividida pelo n umero de observa coes menos um,
s
2
=
1
n 1
n

i=1
(x
i
x)
2
.
Nota A unidade de medida da variancia e o quadrado da unidade
de medida dos dados se forem dados monetarios, em e,
entao a variancia e medida em e
2
! Para resolver este
problema e utilizado o desvio padr ao.
Estatstica Apresenta cao e resumo dos dados 47/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Medidas de tendencia central
Medidas de tendencia nao central
Medidas de dispersao
Outliers
Medidas de assimetria
Desvio padrao (standard deviation): s raiz quadrada
da variancia
s =

s
2
=

_
1
n 1
n

i=1
(x
i
x)
2
.
Nota O desvio padr ao tem a mesma unidade de medida que os
dados.
Coeciente de variacao (coecient of variation):
CV e uma medida de dispersao normalizada
(denominada igualmente por desvio padr ao relativo). Esta
medida e util para comparar a dispersao de dois ou mais
conjuntos de dados (com os valores todos positivos),
nomeadamente quando tem medias muito distintas ou
utilizam unidades de medida diferentes,
CV =
s
x
.
Estatstica Apresenta cao e resumo dos dados 48/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Medidas de tendencia central
Medidas de tendencia nao central
Medidas de dispersao
Outliers
Medidas de assimetria
Outlier Se alguma observa cao car fora do intervalo
[q
1
1.5I
q
, q
3
+ 1.5I
q
]
e denominada por outlier. Se (ainda) a observa cao pertencer a
[q
1
3I
q
, q
1
1.5I
q
[ ]q
3
+ 1.5I
q
, q
3
+ 3I
q
]
entao sera um outlier moderado. Caso contrario a observa cao
pertencera a
], q
1
3I
q
[ ]q
3
+ 3I
q
, +[
e sera um outlier severo.
outliers
severos
..
outliers
moderados
..
observaes
Normais
..
outliers
moderados
..
outliers
severos
..
q
1
3I
q
q
1
1.5I
q
q
1
q
3
q
3
+ 1.5I
q
q
3
+ 3I
q
Estatstica Apresenta cao e resumo dos dados 49/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Medidas de tendencia central
Medidas de tendencia nao central
Medidas de dispersao
Outliers
Medidas de assimetria
Diagrama de extremos e quartis com outliers
4
0
5
0
6
0
7
0
8
0
9
0
1
0
0
1
1
0
b
p
11
58
60
111
190
0
2
4
6
8
1
0
1
2
1
4
n
p
r
e
g
187 188
0
.
0
0
.
5
1
.
0
1
.
5
2
.
0
p
e
d10
11
48
50
104
Estatstica Apresenta cao e resumo dos dados 50/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Medidas de tendencia central
Medidas de tendencia nao central
Medidas de dispersao
Outliers
Medidas de assimetria
No Yes
2
0
3
0
4
0
5
0
6
0
type
a
g
e
9
80
132
116
36
106
163
151
64 101
Estatstica Apresenta cao e resumo dos dados 51/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Medidas de tendencia central
Medidas de tendencia nao central
Medidas de dispersao
Outliers
Medidas de assimetria
Medidas de assimetria (skewness): caracterizam a forma da
distribui cao dos dados em torno da media.
Tipos de assimetria nas distribuic oes unimodais
Distribui cao Distribui cao Distribui cao
assimetrica simetrica assimetrica
positiva negativa
M
o
< M
e
< x M
o
= M
e
= x x < M
e
< M
o
Estatstica Apresenta cao e resumo dos dados 52/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Medidas de tendencia central
Medidas de tendencia nao central
Medidas de dispersao
Outliers
Medidas de assimetria
Determinacao do tipo de assimetria pela forma do
histograma
Distribui cao Distribui cao Distribui cao
assimetrica simetrica assimetrica
positiva negativa
Enviesada `a esquerda Enviesada `a direita
Estatstica Apresenta cao e resumo dos dados 53/54
Introducao
Prepara cao da base de dados
Tabelas de frequencias
Representa cao graca
Reducao dos dados
Medidas de tendencia central
Medidas de tendencia nao central
Medidas de dispersao
Outliers
Medidas de assimetria
Coeciente de assimetria (skewness)
Type 1
g
1
=
m
3
_
(m
3
2
)
, onde m
k
=

n
i=1
(x
i
x)
k
n
.
Type 2
g
2
= g
1
_
n(n 1)
n 2
.
Type 3
g
3
=
m
3
s
3
= g
1
_
n 1
n
_3
2
.
Tipo de assimetria:
Distribui cao assimetrica negativa se g
i
< 0;
Distribui cao simetrica se g
i
= 0 (quase simetrica se g
i
0);
Distribui cao assimetrica positiva se g
i
> 0.
Estatstica Apresenta cao e resumo dos dados 54/54