Medidas de tendência central
Ou: “afinal de contas, que valor você
recomenda???”
O problema da estimativa
O problema da estimativa
•
Dados: 4.80, 2.65, 3.76, 1.54, 1.29, 0.32, ...
AFINAL DE CONTAS: QUAL O RESULTADO FINAL?
Como sintetizar a informação???
O problema da estimativa
RESPOSTA MAIS COMUM:
“Põe a média”...
NOTA DO ENEM
•
VIDE arquivo ENEM SP.xls
•
1865 escolas
–
602 particulares
–
1264 públicas
•
Urbanas/Rurais; EMR/EJA
»
EMR = Ensino Médio Regular
Qual o melhor?
10 bins 30 bins
50 bins 70 bins
Melhor relação informação:ruído
10 bins 30 bins
50 bins 70 bins
Como analisar isso?
Como analisar isso?
•
Qual é a nota média? Média = 49.45
•
Perguntas:
–
Isso é representativo?
–
Há mais informação
O problema da tendência central e a
dispersão dos dados
Qualquer conjunto de medidas e/ou dados tem duas
importantes características principais: o VALOR CENTRAL, ou TÍPICO, e a DISPERSÃO em torno deste valor central. Isto é mostrado a direita nos histogramas hipotéticos
Dispersão ampla
Dispersão estreita
Um pouco de notação
Podemos percorrer um longo caminho com um pouco de notação. Suponha que estejamos fazendo uma série de observações... n delas para ser mais exato... Nesse caso, escrevemos:
Como o valor que observamos. Assim, n é o número total de dados, e x4
(digamos) é o quarto dado desta série. Um ARRAY (ou VETOR) de dados é uma tabela de dados assim:
Leia como um”, “x-dois”...
Um pequeno conjunto com n = 5 dados nos mostrará como as coisas funcionam. Suponha, por exemplo, que nós perguntemos à cinco pessoas quantas horas de TV elas assistem por semana... E conseguimos o seguinte ARRAY:
Então...
Qual é o “centro” desses dados? Na verdade, há
diferentes formas de medir o “centro”. Vejamos agora um deles:
Média
O valor MÈDIO (no inglês, MEAN ou AVERAGE) é
representado por que é obtido da seguinte forma:
Um pouco de notação
Temos uma forma resumida para isso: Usando a letra Grega maiúscula SIGMA para a SOMA:
Leia isso como “a soma de xi, com i
indo de 1 até n” Para a soma
Diga isso dez vezes e você não vai mais se esquecer...
Agora sim isso está parecendo uma aula de estatística.
No caso do peso dos estudantes da
aula passada...
Achando a média em um histograma
Σ = 100 nascidos vivos no total
Achando a média em um histograma
Σ = 100 nascidos vivos no total
Mediana
É um outro tipo de centro da distribuição: o ponto médio dos dados, como a faixa do meio de uma estrada
Para encontrar a mediana, arranja-se os dados em ordem, do maior para o menor. A mediana é o do meio. Se o número de pontos é par...
Para o peso dos 92 estudantes...
Quando usar uma e outra???
Mediana: insensível a “outliers”, ou valores extremos não típicos comparados ao resto dos dados.
MODA
•
É o valor que mais ocorre
•
Exemplo:
–
Dados os números 3, 4, 5, 7, 7, 7, 9, 9
•
A moda é...
–
Dados os números 1, 2, 3, 4, 5
•
A moda é...
–
Dados os números 1, 2, 2, 3, 4, 4, 5
•
A moda é...
MODA
•
Válida mesmo para dados não qualitativos!
ENEM – só prova objetiva
Distribuição bi-modal. O que
significa?
Medidas de dispersão
Se todos estudantes pesassem 145 libras, nosso histograma seria assim;
Medidas de dispersão
Mas se alguns fossem muito leves, e outros muito pesados...
Medidas de dispersão
Mas se alguns fossem muito leves, e outros muito pesados...
•
AMPLITUDE: Máximo - Mínimo
Assim como a posição do centro, há
várias formas de medir a dispersão...
Assim como a posição do centro, há
várias formas de medir a dispersão...
•
DISTÂNCIA
INTER-QUARTIL:
Idéia: dividir os dados em 4 grupos iguais, e ver quão
longe os grupos extremos estão
RECEITA
1. Colocar os dados em
ordem numéricao
2. Dividir os dados em 2
grupos de dados “altos” e
“baixos”, separados pela
mediana (se a mediana for
um dos dados, inclua ela
em ambos os grupos);
3. Encontre a mediana do
grupo de dados menores;
este é chamado de “1º
quartil”
4. A mediana do grupo maior
é o “3º quartil”.
Exemplo: o peso dos estudantes (ainda!)
John Tukey inventou um outro tipo de modo de mostrar a IQR, o chamado gráfico de “Box and Whyskers”. Os boxes acabam nos quartis Q1 e Q3, com a mediana dentro do box
Gráficos Boxes
and Whyskers
Diferença entre a mediana dos estudantes pesados, e a mediana dos estudantes dos estudantes leves
Se um ponto está a mais que 1.5 IQR do final do box, ele é um OUTLIER. Outliers são
desenhados individualmente
Gráficos Boxes and Whyskers
Finalmente, estendedemos os “Whyskers” para fora, até o último ponto que não é outlier
(dentro de 1.5 IQR dos quartis)