Laborat´
orio de Ciˆ
encias - Aula 3
Departamento de Estat´ıstica
Universidade Federal de Juiz de Fora
Introdu¸c˜
ao
Suponha que dispomos de um conjunto de dados, por exemplo, n´umero de gols (ou n´umero de impedimentos, chutes a gol, passes errados, faltas cometidas) por equipe, por partida, para todos os jogos de um campeonato de futebol entre 2004 e 2013
Pretendemos responder algumas quest˜oes, tais como:
Introdu¸c˜
ao
Qu˜ao incomum ´e um jogador que n˜ao chuta bolas ao gol ou n˜ao comete faltas em um jogo de futebol?
Com que frequˆencia uma equipe consegue fazer mais do que 1, 2 ou 3 gols?
Dados
Um (ou mais) conjunto de valores, num´ericos ou n˜ao Os dados resultam da observa¸c˜ao de uma vari´avel ou mais vari´aveis simultaneamente
Vari´
avel
Vari´avel ´e uma caracter´ıstica qualquer de uma pessoa, elemento, fenˆomeno ou evento
O valor de uma vari´avel pode mudar Exemplos:
N´umero de acertos por jogo Cor dos olhos
Altura
Descrever e Explorar os Dados
O que fazemos com as observa¸c˜oes que coletamos?
Resumo dos Dados com Estat´ıstica Descritiva
Algumas T´
ecnicas Estat´ısticas
Uma das formas de organizar e resumir a informa¸c˜ao contida em dados observados ´e atrav´es da tabela de frequˆencias (distribui¸c˜ao de frequˆencias) e gr´aficos
T´ecnicas que ajudam na visualiza¸c˜ao das caracter´ısticas dos dados
Algumas T´
ecnicas Estat´ısticas
As t´ecnicas estat´ısticas diferem em fun¸c˜ao do tipo de vari´avel que est´a sendo analisada
Vari´aveis
Qualitativas Quantitativas
Sexo Idade
Etnia Peso
Estado Civil Distˆancia Gravidade de Doen¸ca Sal´ario
Tipos de Vari´
aveis
Qualitativa Nominal Sexo Tipo de instrumento Ordinal Escolaridade Condi¸c˜ao ambiental QuantitativaDiscreta N´umero de filhos N´umero de medi¸c˜oes Cont´ınua Altura
Dados Qualitativos
Como organizar os dados qualitativos? Tabela de frequˆencias
Gr´afico de barras ou de pizza
Grau de Instru¸c˜
ao dos Funcion´
arios da Empresa
Funcion´ario Instru¸c˜ao Funcion´ario Instru¸c˜ao
1 Fundamental 11 M´edio 2 M´edio 12 M´edio 3 M´edio 13 Superior 4 Superior 14 Superior 5 M´edio 15 Fundamental 6 M´edio 16 M´edio 7 Fundamental 17 Superior 8 Fundamental 18 Superior 9 M´edio 19 Superior 10 M´edio 20 M´edio
Observa¸c˜
oes
Vari´avel de interesse: grau de instru¸c˜ao
Classifica¸c˜ao da vari´avel: vari´avel qualitativa ordinal Poss´ıveis valores: fundamental, m´edio ou superior N´umero pequeno de valores distintos
Frequˆ
encias
n: tamanho da amostra (n´umero de observa¸c˜oes)
fi: frequˆencia absoluta da categoria i (n´umero de observa¸c˜oes
que pertencem `a categoria i ) fri =
fi
n: frequˆencia relativa da categoria i fri%= fri × 100%: porcentagem da categoria i
Tabela de Distribui¸c˜
ao de Frequˆ
encias
Instru¸c˜ao Frequˆencia Frequˆencia Porcentagem Absoluta (fi) Relativa (fri) (fri%)
Fundamental 4 0,20 20
M´edio 10 0,50 50
Superior 6 0,30 30
Total 20 1,00 100
N˜ao temos perda de informa¸c˜ao a respeito dos dados originais
Tabela de Distribui¸c˜
ao de Frequˆ
encias
Instru¸c˜ao Frequˆencia Frequˆencia Porcentagem Absoluta (fi) Relativa (fri) (fri%)
Fundamental 4 0,20 20
M´edio 10 0,50 50
Superior 6 0,30 30
Total 20 1,00 100
Gr´
afico de barras: Grau de Instru¸c˜
ao dos Funcion´
arios da
Empresa
Gr´
afico de barras: Grau de Instru¸c˜
ao dos Funcion´
arios da
Empresa
Gr´
afico de pizza (ou setor): Grau de Instru¸c˜
ao dos
Funcion´
arios da Empresa
Importante
Na compara¸c˜ao da distribui¸c˜ao de frequˆencias de uma vari´avel entre dois ou mais grupos de tamanhos (n´umero de
observa¸c˜oes) diferentes, devemos usar as porcentagens (frequˆencias relativas) na constru¸c˜ao do gr´afico de barras Deve-se, tamb´em usar a mesma escala em todos os gr´aficos de barra
Outro Exemplo - Vari´
avel Qualitativa Nominal
Distribui¸c˜ao de frequˆencias do sexo dos rec´em-nascidos em um hospital
Sexo Frequˆencia Frequˆencia Porcentagem Absoluta (fi) Relativa (fri) (fri%)
M 207 0,4539 45,39
F 249 0,5461 54,61
Total 456 1,0000 100,00
Gr´
afico de barras: Sexo dos Rec´
em-Nascidos em um
Hospital
Gr´
afico de setor: Sexo dos Rec´
em-Nascidos em um
Hospital
Resumo
Gr´afico de barras: ´util para a compara¸c˜ao entre categorias Gr´afico de pizza: ´util na representa¸c˜ao de uma parcela com rela¸c˜ao ao todo
Dados Quantitativos
Como organizar dados quantitativos?
Tabela de frequˆencias Histograma
Dados Quantitativos
Como organizar dados quantitativos? Tabela de frequˆencias
N´
umero de Filhos dos Funcion´
arios da Empresa
Funcion´ario No de Filhos Funcion´ario No de Filhos
1 2 11 1 2 2 12 4 3 1 13 2 4 0 14 3 5 1 15 0 6 3 16 5 7 2 17 2 8 2 18 3 9 2 19 4 10 3 20 3 24 / 50
N´
umero de Filhos dos Funcion´
arios da Empresa
Vari´avel de interesse: n´umero de filhos
Classifica¸c˜ao da vari´avel: vari´avel quantitativa discreta Poss´ıveis valores: 0, 1, 2, 3, 4 e 5
Distribui¸c˜
ao de Frequˆ
encias da Vari´
avel N´
umero de Filhos
N´umero de Frequˆencia Frequˆencia Porcentagem Filhos Absoluta (fi) Relativa (fri) (fri%)
0 2 0,10 10 1 3 0,15 15 2 7 0,35 35 3 5 0,25 25 4 2 0,10 10 5 1 0,05 5 Total 20 1,00 100 26 / 50
Observa¸c˜
oes
N˜ao temos perda de informa¸c˜ao dos dados originais
Percebemos que as fam´ılias mais frequentes s˜ao as de 2 e 3 filhos, com 35% e 25% dos resultados, respectivamente. Ainda 10% das fam´ılias n˜ao tem filhos ou tem 4 filhos e, al´em disso, s˜ao mais comuns que as fam´ılias com 5 filhos
Distribui¸c˜
ao de Frequˆ
encias da Vari´
avel N´
umero de Filhos
Resultados de Testes de QI
Sujeito Pontua¸c˜ao Sujeito Pontua¸c˜ao
1 102 11 117 2 93 12 93 3 93 13 89 4 107 14 92 5 90 15 76 6 78 16 82 7 109 · · · · 8 85 98 103 9 100 99 110 10 86 100 100
Observa¸c˜
oes
Vari´avel de interesse: Pontua¸c˜ao de QI
Classifica¸c˜ao da vari´avel: vari´avel quantitativa cont´ınua Poss´ıveis valores: 102; 93; 107; · · ·
Muitos valores distintos
Observa¸c˜
oes
Solu¸c˜ao: agrupar os valores em classes (intervalos) para montar a distribui¸c˜ao de frequˆencias
Quantas classes consideramos?
Distribui¸c˜
ao de Frequˆ
encias para Vari´
aveis Cont´ınuas
Encontre o menor e o maior valor das observa¸c˜oes:
Valor m´ınimo: 67 Valor m´aximo: 138
Amplitude (R): Valor m´aximo - Valor m´ınimo = 138 - 67 = 71
Determina¸c˜
ao de Classes para Vari´
aveis Cont´ınuas
Determinar o n´umero de classes k
k =√n = 10 (no m´aximo 10 classes)
Determinar o tamanho das classes h
h = R k =
71
Determina¸c˜
ao de Classes para Vari´
aveis Cont´ınuas
Primeira classe: [60; 70) Segunda classe: [70; 80) Terceira classe: [80; 90) E assim por diante
Determina¸c˜
ao de Classes para Vari´
aveis Cont´ınuas
Classes [60; 70) [70; 80) [80; 90) [90; 100) [100; 110) [110; 120) [120; 130) [130; 140) Nota¸c˜ao [a; b)a: limite inferior da classe b: limite superior da classe
Determina¸c˜
ao de Classes para Vari´
aveis Cont´ınuas
Frequˆencias absolutas de cada classe
Frequˆencias relativas de cada classe
Porcentagem de cada classe
Classes [60; 70) [70; 80) [80; 90) [90; 100) [100; 110) [110; 120) [120; 130) [130; 140) 36 / 50
Distribui¸c˜
ao de Frequˆ
encias da Vari´
avel Pontua¸c˜
ao de QI
Classes Frequˆencia Frequˆencia Porcentagem Absoluta (fi) Relativa (fri) (fri%) [60; 70) 1 0,01 1 [70; 80) 5 0,05 5 [80; 90) 23 0,23 23 [90; 100) 30 0,30 30 [100; 110) 20 0,20 20 [110; 120) 11 0,11 11 [120; 130) 7 0,07 7 [130; 140) 3 0,03 3
Distribui¸c˜
ao de Frequˆ
encias da Vari´
avel Pontua¸c˜
ao de QI
Observa¸c˜
oes
Para o caso de termos dados discretos com muitos valores distintos ´e usual fazer o agrupamento dos dados em classes Por exemplo, quando lidamos com n´umero de casos de uma doen¸ca, n´umero de acidentes etc.
Aspectos Gerais da Distribui¸c˜
ao de Frequˆ
encias
Ao estudarmos a distribui¸c˜ao de frequˆencias de uma vari´avel quantitativa, devemos verificar basicamente trˆes caracter´ısticas: 1. Posi¸c˜ao central
2. Variabilidade 3. Forma
Aspectos Gerais da Distribui¸c˜
ao de Frequˆ
encias
O histograma permite a visualiza¸c˜ao destas caracter´ısticas da distribui¸c˜ao de frequˆencias, como veremos a seguir
Al´em disso, elas podem ser quantificadas atrav´es de medidas resumo como, por exemplo, a variˆancia
Posi¸c˜
ao Central
A posi¸c˜ao central da distribui¸c˜ao de frequˆencias de uma vari´avel ´e caracterizada pelo valor (ou faixa de valores) t´ıpico da vari´avel
O valor ou classe de maior frequˆencia ´e chamado moda No histograma, esta classe corresponde `aquela com a barra mais alta
Distribui¸c˜
ao de Frequˆ
encias
Unimodal: apenas uma moda Bimodal: duas modas
Multimodal: v´arias modas
Amodal: todos os valores s˜ao igualmente frequentes
Forma
A distribui¸c˜ao de uma vari´avel pode ter v´arias formas, mas existem duas que s˜ao b´asicas:
Sim´etrica Assim´etrica
Distribui¸c˜
ao Sim´
etrica
Quando uma distribui¸c˜ao ´e sim´etrica em torno de um valor (o mais frequente), significa que as observa¸c˜oes est˜ao igualmente
distribu´ıdas em torno desse valor (i.e., metade acima e metade abaixo).
Exemplos - Forma
Exerc´ıcio
Vari´avel qualitativa - Instrumento de medi¸c˜ao do comprimento do objeto
Exerc´ıcio
Vari´avel quantitativa - Peso do indiv´ıduo Distribui¸c˜ao de frequˆencia e gr´afico