Centro Federal de Educa¸c˜ao Tecnol´ogica Celso Suckow da Fonseca – CEFET/RJ Disciplina: Estat´ıstica
Prof. Anna Regina Corbo
CAP´ITULO 1: Introdu¸c˜ao `a Estat´ıstica
1 Modelos Matem´ aticos
Para muitos fenˆomenos de interesse geral s˜ao constru´ıdos modelos matem´aticos, sempre com base na premissa:
CAUSA =⇒ EFEITO
Estes modelos podem ser divididos pelo seu tipo de natureza:
Determin´ıstica: sem incerteza.
Probabil´ıstica: com incerteza.
1.1 Modelos Determin´ısticos
Se o experimento ´e realizado sempre sob as mesmas condi¸c˜oes, os resultados ser˜ao sempre os mesmos.
Exemplo: Circuito El´etricoi= V R
1.2 Modelos Probabil´ısticos
As condi¸c˜oes do experimento definem o comportamento do resultado, isto ´e, mesmo reali- zando o experimento sob as mesmas condi¸c˜oes os resultados ser˜ao diferentes.
Exemplo 1: Tr´afego Telefˆonico
Quantos cabos s˜ao necess´arios para garantir que todas as liga¸c˜oes entre os terminais A e B sejam efetuadas?
Se n= 200⇒100% das liga¸c˜oes ser˜ao completadas;
Se n200⇒99% ou 95% das liga¸c˜oes ser˜ao completadas, o que ´e aceit´avel.
2 Estat´ıstica Descritiva
O objetivo ´e descrever dados atrav´es de gr´aficos, tabelas, medidas num´ericas etc.
2.1 Conceitos B´asicos
Popula¸c˜ao: cole¸c˜ao de todos os elementos cujas caracter´ısticas desejamos estudar.
Amostra: subconjunto de elementos cujas caracter´ısticas ser˜ao medidas.
Exemplo 2: Popula¸c˜ao: Eleitores do RJ
Amostra: 650 eleitores
Caracter´ıstica (ou Vari´avel): percentual que pretende votar no candidatoX.
2.2 Tipos de vari´aveis
As vari´aveis s˜ao as caracter´ısticas que podem ser observadas (ou medidas) em cada elemento da popula¸c˜ao, sob as mesmas condi¸c˜oes.
1. Vari´avel Quantitativa: quando os poss´ıveis resultados para a vari´avel s˜ao n´umeros, numa certa escala. Por exemplo: idade, tempo de servi¸co, altura, peso, comprimento etc.
2. Vari´avel Qualitativa: quando os poss´ıveis resultados para a vari´avel s˜ao atributos, qualidades ou uma certa categoria. Por exemplo: sexo, faixa et´aria, estado civil, escolaridade etc.
2.3 T´ecnicas de descri¸c˜ao gr´afica
Para descrever graficamente um conjunto de dados ´e necess´ario verificar a frequˆencia dos valores existentes na vari´avel.
Frequˆencia fi ´e o n´umero de vezes que um valor i foi observado em uma vari´avel. ´E f´acil perceber que
k
X
i=1
fi =n
onde k ´e o n´umero de diferentes valores existentes na vari´avel den amostras.
Frequˆencia relativa pi ´e a propor¸c˜ao de um dado valori numa vari´avel, ou seja,
pi = fi
n =⇒
k
X
i=1
pi =
k
X
i=1
fi n = 1 Exemplo 3: Candidatos `a p´os-gradua¸c˜ao
Tabela de Frequˆencias
fi pi Engenheiros 38 0,281 Economistas 30 0,222 Administradores 35 0,259 Contadores 32 0,238
TOTAL 135 1,000
Histograma
Exemplo 4: Diˆametro de pe¸cas produzidas por uma m´aquina, em mil´ımetros.
21,5 21,4 21,8 21,5 21,6 21,7 21,6 21,4 21,2 21,7 21,3 21,5 21,7 21,4 21,4 21,5 21,9 21,6 21,3 21,5 21,4 21,5 21,6 21,9 21,5
Exerc´ıcio: Construir a Tabela de frequˆencias com fi, pi e as frequˆencias acumuladas Fi, Pi e seu respectivo histograma.
Distribui¸c˜ao dos dados em Classes de Frequˆencia
O n´umero m´aximo para a quantidade de classes de frequˆencia ´e √
n. Deste modo, para o exemplo 2, podemos ter:
Logo, amplitude h do intervalo : 0,2.
2.4 Medidas Num´ericas
2.4.1 Medidas de Posi¸c˜ao
Servem para localizar a distribui¸c˜ao de frequˆencias de uma vari´avel.
a) M´edia x¯
Sejaxi, onde i= 1,2,3,· · · , n, o conjunto de dados. A m´edia aritm´etica ¯x´e dada por:
¯ x=
n
X
i=1
xi n
Se os dados estiverem dispostos numa tabela de frequˆencias com k linhas, ent˜ao
¯ x=
k
X
i=1
xi·fi
n (1)
Se os dados estiverem distribu´ıdos em classes de frequˆencia, definimos a m´edia substi- tuindo xi em (1) pelo ponto m´edio de cada classe.
A m´edia ´e uma medida pouco robusta com rela¸c˜ao a erros de media¸c˜ao, no entanto ´e muito pr´atica em sua utiliza¸c˜ao.
Exemplo 5: C´alculo da m´edia
Classes fi xi xifi Fi
39,5 ` 44,5 3 42 126 3 44,5 ` 49,5 8 47 376 11 49,5 ` 54,5 16 52 832 27 54,5 ` 59,5 12 57 689 39 59,5 ` 64,5 7 62 434 46 64,5 ` 69,5 3 67 201 49 69,5 ` 74,5 1 72 72 50
Total 50 2725
¯ x=
Pk
i=1xi·fi
n = 2725
50 = 54,5X
b) Mediana Md
E uma estat´ıstica de ordem, que determina centralidade.´
Considere a amostra x1, x2,· · · , xn. Ordenamos a amostra de tal modo que x(1) →menor elemento;
x(2) →segundo menor elemento;
...
x(n)→ maior elemento;
A mediana ´e a amostra do meio e ´e definida matematicamente por:
Md=
x(n+12 ) , se n ´e ´ımpar x(n2) +x(n2 + 1)
2 , se n ´e par Exemplo 6: xi ={2,3,7,5,5,9,4}
x(1) = 2; x(2) = 3;x(3) = 4; x(4) = 5;x(5) = 5; x(6) = 7; x(7) = 9.
Md=x(7+12 ) =x(4) = 5X
A mediana caracteriza melhor que a m´edia o centro de um conjunto de dados pois n˜ao considera, em seu c´alculo, valores extremos.
c) Moda Mo
E a observa¸c˜´ ao mais frequente, indicando a regi˜ao das “m´aximas frequˆencias”.
2.4.2 Medidas de Dispers˜ao
Complemento das medidas de posi¸c˜ao: indicam o quanto os dados est˜ao espalhados em torno da regi˜ao central. Indica a varia¸c˜ao dos dados.
a) Variˆancia s2
s2 = Pn
i=1(xi−x)¯ 2 n−1
Se os dados estiverem dispostos numa tabela de frequˆencias, ent˜ao:
s2 = Pn
i=1(xi−x)¯ 2·fi n−1 Exemplo 7: xi ={15,12,10,17,16}
xi xi−x¯ (xi−x)¯ 2
15 1 1
12 -2 4
10 -4 16
17 3 9
16 2 4
Total 34
¯
x= 14; n = 5.
s2 = Pn
i=1(xi−x)¯ 2 n−1 = 34
4 = 8,5X b) Desvio-padr˜ao s
s=√ s2
Ou seja, o desvio-padr˜ao ´e a raiz quadrada da variˆancia. Serve para expressar a varia¸c˜ao dos dados na mesma unidade da vari´avel em quest˜ao. Observe que o desvio-padr˜ao n˜ao ´e uma medida de erro e sim uma medida da dispers˜ao espacial dos dados ao redor da m´edia.
c) Coeficiente de Varia¸c˜ao Cv
E uma medida de varia¸c˜´ ao adimensional (percentual).
Cv = s
¯
x = desvio-padr˜ao m´edia Exemplo 8: No exemplo anterior
¯ x= 14
s2 = 8,5→s≈2,91
Cv = s
¯
x = 2,91
14 = 0,208 = 20,8%X
2.5 Ramos-e-folhas
Quando a quantidade de dados n˜ao for muito grande (digamos at´e uma centena de ob- serva¸c˜oes), podemos construir, com relativa facilidade, um diagrama de ramos-e-folhas, o qual fornece a forma da distribui¸c˜ao de frequˆencias e ainda preserva a magnitude aproxi- mada dos valores.
Num ramos-e-folhas os dados ficam ordenados crescentemente, o que facilita a obten¸c˜ao de algumas medidas descritivas.
Exemplo 9: Idade dos alunos de uma turma de hidrogin´astica 57 76 92 89
72 66 90 87 54 67 69 95 59 68 73 95
Diagrama de Ramos-e-folhas correspondente:
Exemplo 10: Popula¸c˜ao residente no Norte Fluminense 6512 21083
3682 28339 18084 9612 13804 33245
2.6 Quartil
Tanto a m´edia como o desvio-padr˜ao podem n˜ao ser medidas adequadas para representar um conjunto de dados pois: 1) s˜ao afetados, de forma exagerada, por valores extremos; 2) apenas com estes dois valores n˜ao temos id´eia da simetria ou assimetria da distribui¸c˜ao dos dados.
Para contornar esses fatos, outras medidas tem de ser consideradas, como por exemplo, os quartis.
Na estat´ıstica descritiva, umquartil ´e qualquer um dos trˆes valores que divide o conjunto ordenado de dados em quatro partes iguais, e assim cada parte representa 14 da amostra ou popula¸c˜ao.
Assim, no caso duma amostra ordenada, temos:
Primeiro quartil Q1 (quartil inferior): ´e o valor limita superiormente os 25% iniciais da amostra ordenada.
Segundo quartil Q2 (mediana): ´e o valor at´e ao qual se encontra 50% da amostra ordenada.
Terceiro quartil Q3 (quartil superior): valor a partir do qual se encontram 25% dos valores mais elevados.
A diferen¸ca entre os quartis superior e inferior chama-se amplitude inter-quartil.
2.7 Diagrama Box-Plot
O diagrama de caixa, ou Box-Plot, ´e uma ferramenta gr´afica para representar a varia¸c˜ao de dados observados de uma vari´avel num´erica por meio de quartis. De modo geral, o diagrama identifica onde est˜ao localizados 50% dos valores mais prov´aveis, a mediana e os valores extremos.
Os limites da caixa do diagrama s˜ao definidos atrav´es de limite inferior (LI) e limite superior (LS) de acordo com as seguintes representa¸c˜oes matem´aticas:
LI =Q1−c·AIQ LS =Q3 +c·AIQ onde AIQ=Q3−Q1 ´e a amplitude interquartil e c= 1,5.
Qualquer dado n˜ao incluso entre os limites da caixa deve ser plotado como um outlier com um ponto ou uma estrela.
2.8 Defini¸c˜ao de S´erie Temporal
E uma sequˆ´ encia de observa¸c˜oes feitas ao longo do tempo. A ordem estas observa¸c˜oes ´e fundamental e, em geral, as observa¸c˜oes vizinhas s˜ao dependentes. Apresentam uma s´erie de caracter´ısticas gr´aficas pr´oprias com tendencia, ciclo e sazonalidade.
Exemplo 11: Ind´ustria de cerveja