DE
MATEMÁTICA
ENSINO MÉDIO-VERSÃO0.2
AUTORES
BRUNO VIANNA
EDUARDO WAGNER
EZEQUIEL CHEQUES
FABIO SIMAS
FLÁVIA LANDIM
GLADSON ANTUNES
HUMBERTO BORTOLOSSI
LHAYLLA CRISSAFF
MARCOS PAULO ARAÚJO
MICHEL CAMBRAINHA
NEI ROCHA
VANESSA MATOS
REVISÃOCYDARA RIPOLL
LETÍCIA RANGEL
Instituto de Matemática Pura e Aplicada Rio de Janeiro
PATROCÍNIO
15DE ABRIL DE2019
1 Medidas de Posição e Dispersão 1
1.1 Explorando: Medidas de Posição . . . 1
1.2 Organizando as ideias: Medidas de posição. . . 8
1.3 Praticando o assunto . . . 19
1.4 Explorando: Medidas de dispersão . . . 23
1.5 Organizando as ideias: Medidas de dispersão . . . 25
1.6 Praticando o assunto . . . 33
1.7 Explorando: Avaliação da magnitude da variância . . . 36
1.8 Organizando as ideias: Coeficiente de variação . . . 37
1.9 Praticando o assunto . . . 38
1.10 Para saber mais . . . 40
1.11 Exercícios . . . 46
Medidas de Posição e Dispersão
1.1 Explorando: Medidas de Posição
As medidas resumo (de posição e de dispersão) correspondem a uma síntese do conjunto de dados observados e ao passo preliminar para fazer uma inferência estatística, ou seja, a partir das informações obtidas na amos-tra, expandir nossas conclusões para a população. Como as distribuições podem apresentar formas variadas é importante conhecer diferentes tipos de medidas resumo, tanto de posição como de dispersão, para usar medidas apropriadas em cada caso.
Entre características importantes de conjuntos de dados quantitativos destacam-se
a) um valor representativo ou médio do conjunto: pertence ao intervalo delimitado pelos valores extremos do conjunto (mínimo e máximo);
b) dispersão: uma medida de quanto os valores variam no conjunto; c) forma da distribuição: simétrica, assimétrica, multimodal, etc;
d) valores atípicos: valores que destoam em relação a grande maioria dos dados no conjunto.
Ao longo deste capítulo veremos como as medidas que serão estudadas nos ajudam a revelar estas caracterís-ticas do conjunto de dados.
1.1.1 Atividade: Notas de Artes
Ao final de um trimestre, um professor de Artes registrou as seguintes notas de seus 35 alunos, listadas no quadro a seguir, em ordem crescente.
0,8 2,0 2,0 2,5 2,5 3,5 4,5 5,0 5,4 5,5 5,5 5,5 6,0 6,0 6,0 6,0 6,3 6,5 6,8 6,8 7,0 7,0 7,0 7,0 7,3 7,3 7,5 7,5 7,5 7,5 7,8 8,0 8,0 8,0 8,0
Este professor verificou que a média da turma foi aproximadamente 5,93 (soma das notas S = 207,5). Como a participação da turma foi muito boa ao longo do trimestre, o professor resolveu dar uma bonificação na nota de cada aluno desta turma, pensando em duas possibilidades:
a) acrescentar um ponto para cada aluno da turma; b) aumentar em 20% a nota de cada aluno da turma.
Na figura a seguir veja um histograma das notas sem a bonificação, em que os intervalos de classe considerados foram [0, 2[, [2, 4[, [4, 6[, [6, 8]. Os números entre parênteses correspondem às frequências absolutas.
Figura 1.1: Histograma das notas de Artes sem bonificação
Os dois histogramas a seguir correspondem às notas, após usar cada uma das duas possibilidades consideradas pelo professor, mantendo, em cada um, quatro intervalos de classe.
Figura 1.2: Histogramas das notas de Artes com bonificação
a) Qual dos dois histogramas manteve a mesma forma em relação ao histograma das notas sem a bonifica-ção?
b) Qual dos dois histogramas teve a sua forma alterada após a bonificação?
c) Considerando a figura fig-histogramas-notas-com-bonificacoes, identifique qual deles corresponde ao acréscimo de 1,0 ponto e qual deles corresponde ao aumento de 20%.
d) Dada a informação inicial de que a média da turma foi 5,93, de quanto será a média se o professor acrescentar um ponto a cada aluno? E se ele aumentar em 20% a nota de cada aluno?
e) Se você fosse um aluno desta turma, que possibilidade de bonificação você escolheria? Por quê?
RESPOSTA
a) Analisando os dois histogramas, percebe-se que o segundo mantém as mesmas frequências com um deslocamento dos intervalos em uma unidade. Logo, o segundo histograma mantém a mesma forma em relação ao original, tendo sido deslocado para à direita em uma unidade.
b) Analisando os dois histogramas, percebe-se que o primeiro apresenta uma alteração de forma com intervalos mais largos e distribuição de frequências diferente. Assim, o primeiro tem sua forma diferente em relação ao original.
c) Com o acréscimo de 1 ponto a cada nota, a nota maior que é 8,0 passa a ser 9,0; já com o aumento de 20% sobre a nota de cada um, a nota maior passa a ser 9,6. Portanto, analisando os dois histogramas dados, conclui-se que o primeiro corresponde ao aumento de 20% na nota de cada um e, o segundo, ao acréscimo de 1 ponto na nota de cada um.
d) Observe que se todos os alunos tiverem o acréscimo de 1 ponto, a soma total das notas será acres-cida de 35 pontos (pois são 35 alunos). Ao dividir o total por 35, perceba que a nova média será alterada exatamente pelo acréscimo de 1 ponto, passando a ser 6,93. Já no caso do aumento de 20% sobre a nota de cada aluno, teremos que a nova soma total de notas será dada pela soma original acrescida de 20% tal que a média será dada por S+0,2·S35 =1,2·S35 = 1, 2×
S 35 |{z} ≈5,9média original = 1, 2×5, 93 ≈ 7, 12, em que S = 207,5.
e) Não há uma resposta certa para este item. Se cada aluno olhar o seu ponto de vista particular, para alguns será melhor ganhar um ponto e para outros será melhor ter um aumento de 20%
sobre a nota. Mais especificamente, para quem tiver obtido nota 5,0 será indiferente; para quem tiver obtido nota inferior a 5,0 será melhor ganhar um ponto e, para os restantes, será melhor o acréscimo de 20% sobre a nota.
1.1.2 Atividade: A maratona
A maratona é uma prova de atletismo que consiste em correr uma distância de 42,195 km. Pelas suas caracte-rísticas, este tipo de prova é realizada nas ruas de uma grande cidade ou na estrada. As principais cidades do mundo realizam um destes eventos anualmente, recebendo milhares de atletas profissionais e amadores que encaram o desafio e almejam finalizar a corrida ou melhorar o próprio tempo do passado.
Uma das mais famosas é a Maratona da Cidade de Nova Iorque, nos Estados Unidos. Com mais de 50.000 participantes cada ano, é um dos principais eventos do atletismo mundial, junto com as maratonas de Chicago, Londres, Boston, Berlim e Tóquio.
Figura 1.3: Corredores participando da Maratona de Nova York,Wikipedia
Os resultados do evento são divididos nas categorias de homens e mulheres, além disso, no evento participam cadeirantes e pessoas usando triciclos de mão (handcycle), categorias cujos resultados são premiados e publica-dos separadamente. Qual das categorias você acha que terá os melhores resultapublica-dos na maratona? Em quanto tempo você acha que uma pessoa percorre os 42 km? O que você acha ser mais rápido: correr em cadeira de rodas ou em triciclo de mão?
de Nova York do ano 2017, dados disponíveis nosite oficial da competição.
Tabela 1.1: 100 melhores tempos de finalização da Maratona de Nova Iorque 2017 para mulheres (hora:minuto:segundo)
+0 +10 +20 +30 +40 +50 +60 +70 +80 +90 1 2:26:53 2:32:01 2:42:52 2:49:44 2:53:59 2:56:58 2:58:35 2:59:36 3:01:24 3:03:43 2 2:27:54 2:32:09 2:44:26 2:49:59 2:54:42 2:57:05 2:58:36 2:59:41 3:01:26 3:03:46 3 2:28:08 2:33:18 2:44:48 2:50:04 2:54:52 2:57:10 2:58:50 2:59:43 3:01:28 3:04:02 4 2:29:36 2:34:10 2:45:20 2:50:05 2:55:04 2:57:40 2:58:52 2:59:46 3:01:44 3:04:04 5 2:29:39 2:34:23 2:45:52 2:51:11 2:55:25 2:57:49 2:58:56 2:59:51 3:02:09 3:04:17 6 2:29:39 2:36:38 2:46:45 2:53:01 2:55:34 2:57:49 2:59:01 2:59:56 3:02:15 3:04:26 7 2:29:41 2:37:22 2:47:04 2:53:02 2:55:36 2:57:50 2:59:03 3:00:02 3:02:39 3:04:42 8 2:29:56 2:37:33 2:47:30 2:53:02 2:55:39 2:58:08 2:59:10 3:00:05 3:02:41 3:04:49 9 2:31:21 2:39:01 2:47:35 2:53:19 2:56:47 2:58:23 2:59:16 3:00:49 3:02:56 3:04:58 10 2:31:44 2:40:09 2:49:37 2:53:38 2:56:57 2:58:26 2:59:23 3:01:18 3:03:32 3:05:09 Observe que os tempos já estão ordenados do menor para o maior. Por exemplo, para identificar o tempo da quadragésima sétima chegada, basta tomar a interseção da linha 7 com a coluna +40 para obter o tempo 2:55:36.
PARA REFLETIR
• Como você calcularia a média de valores em horas, minutos e segundos como os da tabela? • Como você construiria um histograma com estes dados? Como você definiria os limites dos
intervalos? (Consulte a ativ-construcao-histograma do capítulo A Natureza da Estatística em caso de dúvida.)
• Qual o maior tempo em que uma corredora deveria completar a maratona para ficar entre as 25 primeiras? E entre as 50 primeiras?
Tabela 1.2: 100 melhores tempos de finalização da Maratona de Nova Iorque 2017 para mulheres (em horas)
+0 +10 +20 +30 +40 +50 +60 +70 +80 +90 1 2,448 2,534 2,714 2,829 2,900 2,949 2,976 2,993 3,023 3,061 2 2,465 2,536 2,741 2,833 2,912 2,951 2,977 2,995 3,024 3,063 3 2,469 2,555 2,747 2,834 2,914 2,953 2,981 2,995 3,024 3,067 4 2,493 2,569 2,756 2,835 2,918 2,961 2,981 2,996 3,028 3,068 5 2,494 2,573 2,764 2,853 2,924 2,964 2,982 2,998 3,036 3,071 6 2,494 2,611 2,779 2,884 2,926 2,964 2,984 2,999 3,037 3,073 7 2,495 2,623 2,784 2,884 2,927 2,964 2,984 3,000 3,044 3,077 8 2,499 2,626 2,792 2,884 2,928 2,969 2,986 3,000 3,044 3,080 9 2,523 2,650 2,793 2,889 2,946 2,973 2,988 3,013 3,048 3,083 10 2,529 2,669 2,827 2,894 2,949 2,974 2,990 3,021 3,059 3,085
a) Construa um histograma destes dados, completando a tabela a seguir, que indica os intervalos de classe. Que características da distribuição dos 100 melhores tempos para mulheres podem ser destacadas, analisando-se o histograma construído?
Tabela 1.3: Guia para a contagem de frequências dos intervalos Intervalo Frequência [2,448 ; 2,512[ [2,512 ; 2,576[ [2,576 ; 2,639[ [2,639 ; 2,703[ [2,703 ; 2,767[ [2,767 ; 2,831[ [2,831 ; 2,895[ [2,895 ; 2,958[ [2,958 ; 3,022[ [3,022 ; 3,085]
Figura 1.4: Eixos para a criação do histograma
b) Calcule o tempo médio dos 100 melhores tempos das corredoras, sabendo que a soma dos tempos foi 286,978 horas. Localize o valor encontrado no eixo horizontal do histograma. Em que posição ficaria uma corredora cujo tempo no qual completou a maratona é igual ao tempo médio calculado neste item? c) Trace linhas verticais no histograma no tempo que separa os primeiros 25 lugares, no tempo que separa
os primeiros 50 e no tempo que separa os últimos 25 lugares. As marcações dos tempos de posições 25, 50 e 75 neste conjunto de 100 observações são chamadas de quartis da distribuição, este conceito será formalizado adiante.
d) Considerando as marcações realizadas no item anterior, determine aproximadamente as medidas das áreas no histograma correspondentes aos seguintes intervalos
(a) posição 1 até a posição 25; (b) posição 25 até a posição 50; (c) posição 50 até a posição 75; (d) posição 75 até a posição 100; e compare-as.
e) Calcule os comprimentos dos intervalos de tempo considerados no item anterior e compare-os. f) O valor obtido para o tempo médio coincide com alguma das outras marcas feitas no histograma? g) Observe que o tempo médio e o tempo da posição 50 são diferentes. Você poderia explicar por que eles
RESPOSTA
a) A tabela com as frequências por intervalo e o histograma ficam de seguinte forma: Tabela 1.4: Guia para o cálculo de frequências do histograma
Intervalo Frequência [2,448 ; 2,512[ 8 [2,512 ; 2,576[ 7 [2,576 ; 2,639[ 3 [2,639 ; 2,703[ 2 [2,703 ; 2,767[ 5 [2,767 ; 2,831[ 6 [2,831 ; 2,895[ 9 [2,895 ; 2,958[ 13 [2,958 ; 3,022[ 27 [3,022 ; 3,085[ 20
Figura 1.5: Histograma dos tempos da categoria de mulheres na Maratona de NY
b) O tempo médio das primeiras 100 corredoras é de 2,8698 horas, isto é 2:52:11. Uma corredora com esse tempo teria ficado na 36a. posição.
c) Para ficar entre os primeiros 25 lugares, uma corredora teria que terminar a corrida em até 2:45:52 (2,764 horas).
Já para ficar nas primeiras 50, precisaria terminar o percurso em 2:56:57 (2,949 horas) ou menos. Finalmente, para ficar entre as primeiras 75, seu tempo teria que ser menor ou igual a 2:59:51 (2,998 horas).
Figura 1.6: Histograma dos tempos da categoria de mulheres na Maratona de NY mostrando os quartis, a mediana e a média
d) Neste item deve-se observar que as marcações indicadas dividem o conjunto de dados em quatro in-tervalos de frequências absolutas iguais a 25, pois são 100 valores observados. Como o histograma é uma representação da distribuição de frequências, espera-se que as áreas correspondentes a cada um destes limites, sejam aproximadamente iguais a 1/4 da área total do histograma que é dada por 6,364 (para obter este valor soma-se os produtos dos comprimentos dos intervalos pela frequência dos intervalos=áreas dos retângulos). Se formos calcular diretamente da figura tais áreas, serão necessárias algumas aproximações, pois os tempos 25, 50 e 75 não são extremos dos intervalos considerados. Por esta razão é possível obter pequenas diferenças em relação ao valor esperado, a saber, 6, 364/4 ≈ 1,59.
e) Os comprimentos dos intervalos são dados por:
Intervalo comprimento t1 a t25 0,316 t25 a t50 0,185 t50 a t75 0,049 t75 a t100 0,087
Lembre-se que se o histograma for construído considerando os intervalos acima, deve-se trabalhar com a escala de densidade de frequência (absoluta ou relativa: razão da frequência pelo comprimento do in-tervalo), pois os comprimentos dos intervalos são diferentes. No histograma construído nesta atividade, usou-se a escala da frequência absoluta, pois os intervalos considerados têm comprimentos iguais.
f) Não coincide.
g) Tem-se que o tempo médio foi 2,8698 e tempo da posição 50 foi 2,949 e, portanto, são diferentes. Adiante vamos trabalhar a razão desta diferença neste conjunto. Mas, observando a forma do his-tograma podemos perceber uma grande concentração de valores mais à direita e que o hishis-tograma é alongado à esquerda. Distribuições com esta aparência são ditas ter uma forma assimétrica à esquerda o que faz com que a média seja um valor puxado para baixo
1.2 Organizando as ideias: Medidas de posição
Medidas de Posição, como o próprio termo indica, visam a resumir um conjunto de dados em geral numa única medida em algum lugar geométrico entre os extremos observados do conjunto (mínimo e máximo). Isso só é possível se nossas observações são de natureza quantitativa, pois, como vimos no capítulo “A Natureza da Es-tatística”, as variáveis qualitativas estão no domínio da frequência apenas, ou seja, só podemos contar quantas observações ocorrem em cada categoria da variável qualitativa, mas não podemos operar matematicamente com as categorias em si. As principais medidas de posição usadas na Estatística são a média aritmética, a
mediana, a moda e os quartis da distribuição. Outras medidas de posição existem, mas não são tão usuais. Definiremos a seguir as principais medidas que buscam de alguma forma resumir a informação do conjunto. Para definir várias das medidas a serem trabalhadas neste capítulo vamos adotar a seguinte notação. Sejam x1, x2, ··· , xnos n valores observados de uma variável quantitativa tal que
x1é o primeiro valor observado; x2é o segundo valor observado; e, em geral, xié o i-ésimo valor observado, i = 1,2,··· , n.
A letra maiúscula sigma (Σ) é usada para denotar somatório, simplificando algumas fórmulas. Por exemplo, seja f (i) uma função definida emN, então
n X i=1 f (i) = f (1) + f (2) + ··· + f (n). Assim, n X i=1 xi é uma representação de x1+ x2+ · · · + xne n X i=1 x2i é uma representação de x21+ x22+ · · · + x2n.
Os valores do conjunto não estão necessariamente ordenados do menor para o maior:
x1correponde ao primeiro valor observado no conjunto e não ao menor deles. Portanto, introduziremos também uma notação para representar os dados ordenados.
Sejam x(1) o menor valor do conjunto {x1, x2, ..., xn}; x(2), o segundo menor valor do conjunto {x1, x2, ..., xn}; e assim sucessivamente até
x(n), o maior valor do conjunto {x1, x2, ..., xn}.
Desse modo, x(1)≤ x(2)≤ · · · ≤ x(n)são os valores ordenados do conjunto {x1, x2, ..., xn}. Por exemplo, para o conjunto de observações {2, 3, 1, 5, 2}, temos
x1= 2, x2= 3, x3= 1, x4= 5, x5= 2, e x(1)= 1, x(2)= 2, x(3)= 2, x(4)= 3, x(5)= 5.
1.2.1 Média
Considere um conjunto contendo n valores de uma variável quantitativa representado por {x1, x2, ··· , xn}. A média aritmética deste conjunto é definida como o valor ¯x que pode substituir todas as observações sem alterar a característica da soma aritmética dos valores, isto é, x1+ x2+ · · · + xn= ¯x + ¯x + · · · + ¯x. Assim, temos x1+ x2+ · · · + xn= n ¯x, e, consequentemente,média= ¯x =x1+x2+···+xn n=1n
n X i=1
xi.
Se todos os valores de um conjunto com n valores fossem iguais a k, usando a definição de média, teríamos
média= ¯x =n · kn = k.
Esta é justamente a ideia por trás da definição de qualquer média: uma medida que de alguma forma repre-senta o conjunto de dados, segundo uma formulação, e se situa entre os extremos das observações. É claro que, em geral, haverá valores diferentes no conjunto e, neste caso, a média será um valor pertencente ao intervalo de variação dos valores neste conjunto e não necessariamente, um valor que tenha sido observado.
Por exemplo, considerando os dados daAtividade: Notas de Artes: antes da bonificação, vimos que ao todo são 35 notas variando de 0,8 até 8,0 e, a média resultante, foi 5,93. Observe que 5,93, a média da turma, é um
valor entre 0,8 (menor nota da turma) e 8,0 (maior nota da turma), porém não se observou nas notas de Artes desta turma a nota 5,93.
Cabe ressaltar que, se os dados são apresentados em tabelas de frequência, indicando que o valor xiocorre ni vezes, i = 1,2,..., c no conjunto de dados, então naturalmente a média será calculada como
média= ¯x =n1·x1+n2·x2+···+nc·xc n1+ n2+ · · · nc | {z } =n ou, equivalentemente, média= ¯x = f1· x1+ f2· x2+ · · · + fc· xc= c X i=1
fi· xiem que fi= nni corresponde à frequência relativa do i -ésimo valor observado.
Você já calculou a média dos dados das duas primeiras atividades, a saber,Atividade: Notas de Artese Ativi-dade: A maratona. Identifique nos histogramas correspondentes a posição em que estas médias ficaram.
Média para dados agrupados
Quando os dados disponíveis estão agrupados em c intervalos de classe, não é possível calcular a soma total exata dos dados. Neste caso, usamos uma aproximação para o cálculo da média como mostra o exemplo a seguir.
Suponha que um coordenador tenha tido acesso apenas ao histograma das notas de Artes, sem conhecer as notas individualmente. Como este coordenador poderia calcular a média da turma, considerando as notas antes da bonificação?
Temos a seguinte distribuição de frequências das notas antes da bonificação:
Tabela 1.5: Distribuição de frequências das notas antes de bonifica-ção
intervalo frequência absoluta ponto médio do intervalo
[0,2[ 1 1,0
[2,4[ 5 3,0
[4,6[ 6 5,0
[6,8] 23 7,0
Apenas sabemos, por exemplo, que entre 2 e 4 existem cinco notas, mas não conhecemos as notas individual-mente. Portanto, a soma exata destas cinco notas não é conhecida. A estratégia é tomar o ponto médio desta classe, 3 =2+42 como a nota representativa das cinco observações, pois espera-se que os erros cometidos para mais e para menos sejam compensados na classe. Desse modo estimamos a soma das notas neste intervalo como 3 + 3 + 3 + 3 + 3 = 5 · 3 = 15.
Esse procedimento é adotado para todas as classes a fim de obter uma estimativa da soma total dos dados, a saber,
1 · 1 + 5 · 3 + 6 · 5 + 23 · 7 = 207
Logo, a média correspondente a este agrupamento, a ser considerada pelo coordenador é estimada por
média= ¯x =1×1+5×3+6×5+23×735 = 207
35 ≈ 5, 91
Observe que este agrupamento não incorreu em grande perda de informação, uma vez que a soma exata é 207,5 e, a estimada é 207. Consequentemente, a média estimada por este agrupamento (5,91) não se diferencia muito da média considerando os dados brutos (5,93).
Para facilitar vamos usar a notação a seguir.
Sejam ˜x1, ˜x2, . . . , ˜xc os pontos médios dos c intervalos de classe e, n1, n2, . . . , nc, as frequências absolutas dos c intervalos de classe, respectivamente. Lembre que o ponto médio de um intervalo de classe corresponde à média aritmética dos extremos do intervalo. Neste caso a média é calculada por
média= ¯x =n1· ˜x1+n2· ˜x2+···+nc· ˜xn n1+ n2+ · · · + nc | {z } =n =1n· c X i=1 ni· ˜xi
Denotando por fi=nni a frequência relativa do i-ésimo intervalo classe, temos
média= ¯x = f1· ˜x1+ f2· ˜x2+ · · · + fc· ˜xc= c X i=1
fi· ˜xi
Quando os dados estão agrupados em intervalos de classe, a média é calculada como uma média ponderada dos pontos médios das classes em que os pesos são dados pelas frequências absolutas (ou relativas) das classes.
Interpretação da média como ponto de equilíbrio no histograma
Observe o histograma das notas de Artes, com as notas dispostas ao longo do eixo horizontal. Suponha que cada ponto que compõe a nota corresponda a um peso de 1 kg tal que uma nota 5 corresponda a 5 kg. Neste caso, podemos perguntar onde se encontrará o ponto de equilíbrio (ou centro de massa) do histograma que representa a distribuição de frequências dos dados. É natural pensar na média como o ponto de equilíbiro, como mostra o histograma a seguir com destaque para a média. Veja adiante a seção sobre desvios da média para reforçar esta noção de ponto de equilíbrio.
Figura 1.7: Histograma com destaque para a média como ponto de equilíbrio
Se fossemos tentar equilibrar o histograma num ponto acima da média, considerando esta interpretação, o mesmo penderia para à esquerda, conforme ilustra a figura a seguir.
Figura 1.8: Histograma inclinado para à esquerda
Se fossemos tentar equilibrar o histograma num ponto abaixo da média, considerando esta interpretação, o mesmo penderia para à direita, conforme ilustra a figura a seguir.
Figura 1.9: Histograma inclinado para à direita
O exemplo anterior revela por que a média aritmética é também denotada como o primeiro momento das observações, no sentido de ser, como na Física, o centro de massa dos dados, isto é, o ponto de equilíbrio de forças dos dados observados.
Esse fato acarreta um mal condicionamento da média aritmética, já que valores atipicamente altos farão com que a média seja mais deslocada próxima a eles, se afastando assim da grande maioria dos valores observados. O mesmo se dá com valores atipicamente pequenos em relação à grande maioria, fazendo com que a média se afaste da maioria dos dados.
Vejamos os seguintes conjuntos de dados: D1= {1, 1, 4, 9, 10} e D2= {1, 1, 4, 9, 100}.
A média dos dados do conjunto D1é ¯x =255 = 5, que representa bem este conjunto, pois nele existem dois valores acima da média e três valores abaixo da média que não estão muito afastados do valor da média. No entanto, a média do conjunto D2é ¯x =1155 = 23, valor bem maior do que a maioria dos dados observados no conjunto D2. Isso mostra que em presença de dados atipicamente altos (baixos), deve-se tomar cuidado em escolher a média como medida de posição das observações coletadas. Uma medida robusta, isto é, pouco afetada para valores atípicos, deverá ser considerada em situações deste tipo. A mediana, que trataremos a seguir, é considerada uma medida robusta.
Desta discussão podemos concluir que deve-se ter cautela em resumir os dados com a média aritmética, se a distribuição destes dados, representada pelo histograma, apresenta forma muito assimétrica, como mostram as figuras a seguir.
Figura 1.11: Histograma de distribuição com assimetria à esquerda
Alguns textos usam os termos assimetria positiva para indicar assimetria à direita e assimetria negativa para indicar assimetria à esquerda.
1.2.2 Mediana
A mediana de um conjundo de valores numéricos é definida como o valor que ocupa a posição central depois de ordenar os dados.
Se o conjunto tem um número ímpar de elementos, por exemplo, 9, então a posição central será a de número 5, tal que há quatro valores antes e quatro depois. Se o conjunto tem um número par de elementos, por exemplo, 10, então há duas posições centrais, a saber as posições 5 e 6 tal que há quatro observações antes da posição 5 e quatro posições depois da posição 6. Neste caso, a mediana é dada pela média aritmética dos dois valores centrais.
Resumindo, se x(1), x(2), ..., x(n)são os valores ordenados do conjunto, a mediana será dada por
Mediana= ( x¡n+1 2 ¢, senfor ímpar 1 2[x(n2) + x( n 2+1)], senfor par.
Nas duas atividades iniciais podemos facilmente verificar quem são as medianas de notas de Artes sem bo-nificação, a saber, a nota da posição 18, considerando-as em ordem crescente; e a mediana dos 100 melhores tempos para completar a maratona de Nova Iorque/2017 entre as mulheres, a saber, a média aritmética dos tempos nas posições 50 e 51, pois os dados já foram apresentados em ordem crescente. Assim, a mediana das notas de Artes sem bonificação é dada por
x(18)= 6, 5, poisn = 35é ímpar, e neste caso mediana= x¡n+1 2 ¢ | {z }
observação na posição (n+1)/2 após ordenar os dados =
x¡36 2
¢= x(18) e, a mediana dos 100 melhores tempos entre as mulheres é dada por
x(50)+ x(51)
2 =
2, 949 + 2,949
Observe, neste último caso, que n é par e igual a 100 tal que a mediana é dada por observações nas posições n/2 e (n/2)+1 após ordenar os dados
z }| { x(n 2) + x( n 2+1) 2 = x(50)+ x(51) 2
Mediana para dados agrupados
Voltando à Atividade: Notas de Artes, suponha novamente que o coordenador tenha tido acesso apenas ao Histograma das notas de Artes sem bonificação, sem conhecê-las individualmente. Como ele poderia calcular a mediana da turma, considerando as notas antes da bonificação? Sabemos que a posição da mediana deve ser a posição central depois de ter as notas ordenadas. Na tabela de frequências observe que os intervalos já estão ordenados, mas apenas conhecemos a quantidade de notas que ocorreram em cada intervalo e não as notas individualmente. No entanto, é fácil, a partir da tabela, identificar em que intervalo estará a mediana, bastando para isso encontrar o intervalo que compreende a nota da posição 18. Aqui, vamos introduzir o conceito de frequência absoluta acumulada de um intervalo de classe que corresponde à soma da frequência absoluta do intervalo mais a soma acumulada das frequências absolutas de todos os intervalos anteriores. Veja a tabela a seguir, incluindo as frequências acumuladas.
Tabela 1.6: Notas de artes agrupadas e frequ~encia absoluta acu-mulada
intervalo frequência absoluta ponto médio do intervalo freq. absoluta acumulada
[0,2[ 1 1,0 1
[2,4[ 5 3,0 1+5=6
[4,6[ 6 5,0 6+6=12
[6,8[ 23 7,0 12+23=35
Observe que a nota da posição 18 está no último intervalo, pois até o intervalo anterior, ]4,6], acumularam-se apenas 12 das 35 notas.
Uma forma de estimar a mediana no caso em que não conhecemos as notas individualmente é tomar o ponto médio do intervalo de classe que compreende o valor da posição central. Neste caso, teríamos que a nota mediana seria 7,0, o ponto médio do intervalo de classe que contém a mediana (]6,8]). Comparando este valor com o valor da mediana obtido, usando-se as 35 notas individuais, percebe-se que o erro de aproximação é de apenas 0,5 ponto já que sabemos que a nota da posição 18 é 6,5.
Resumindo, quando dispomos dos dados apenas na forma agrupada, para obter uma aproximação da mediana, deve-se identificar o intervalo de classe que compreende o valor da posição central e, então, calcular o ponto médio desta classe como valor aproximado da mediana.
Existem outras formas de avaliar a mediana quando os dados estão agrupados e uma delas foi proposta no exercício 17 do capítulo A Natureza da Estatística.
Escolha entre a média e a mediana
Vimos que a média é uma medida de posição mal condicionada na presença de valores atípicos (muito afastados da maioria do dados) e de distribuições fortemente assimétricas. A mediana, por sua vez, é pouco afetada para valores extremos na distribuição, e por isso é dita ser uma medida robusta.
Por exemplo, considere os seguintes conjuntos de dados já ordenados: D1 = {1, 1, 4, 9, 10} e D2 = {1, 1, 4, 9, 10, 101}.
A média dos dados de D1é ¯x =255 = 5 e, amediana= x(3)= 4 , observando que os dados já estão ordenados. Tanto a média como a mediana deste conjunto são valores que representam bem o conjunto: observe que os demais valores no conjunto D1 não estão muito afastados dos valores da média e da mediana e, de forma equilibrada, alguns estão abaixo deles e outros, acima deles.
Por outro lado, a média dos dados de D2 é 1266 = 21 e mediana= x(3)=4+92 = 6, 5, o que nos mostra o mal condicionamento da média e a robustez da mediana na presença do valor atípico 101, incluído no conjunto de dados D1 no lugar do valo 10. Na presença do valor atípico (101), a média é muito afetada, mudando de 5 para 21, enquanto que a mediana é pouco afetada, mudando de 4 para 6,5. Observe que apenas um valor no conjunto D2está acima da média.
Em distribuições aproximadamente simétricas temos que a média e a mediana são valores próximos um do outro, esta é uma das razões que levam muitas pessoas a confundir estas duas medidas, achando que elas representam a mesma posição na distribuição dos dados qualquer que seja a situação. Mas, vimos que em distribuições com assimetria à direita, veja, por exemplo a figuraHistograma de distribuição com assimetria à direita, a média é maior do que a mediana e, em distribuições com assimetria à esquerda, veja por exemplo a figuraHistograma de distribuição com assimetria à esquerda, a média é menor do que a mediana.
1.2.3 Moda
A moda é a observação mais frequente de um conjunto de dados.
Caso não haja observação mais frequente, ou seja, todos os valores aparecem apenas uma única vez no conjunto de dados, a distribuição é dita amodal. Um conjunto é dito unimodal se houver apenas uma moda; bimodal se houver duas modas; ou multimodal se houver três ou mais modas no conjunto de dados coletados.
Vejamos exemplos das diversas situações possíveis. Considere os conjuntos de notas da prova de Matemática dos alunos de quatro turmas diferentes dadas pela tabela a seguir.
Tabela 1.7: Exemplos de diversas possibilidades quanto à moda
Turma Notas Moda Distribuição
I 2; 4; 6; 7; 8; 9; 10 Não existe Amodal
II 2; 4; 5 ;5; 8; 9; 10 5 Unimodal
III 2; 4; 5; 5; 8; 9; 9; 10 5 e 9 Bimodal IV 2; 2; 4; 5; 5; 8; 9; 9; 10 2; 5 e 9 Multimodal
O conceito de moda é adequado para conjuntos de dados qualitativos ou quantitativos discretos, pois quando os dados são quantitativos contínuos, potencialmente todas as observações são distintas entre si tal que rara-mente existirá um valor mais frequente e, mesmo quando um valor se repetir, não necessariarara-mente é por que ele corresponderá a uma moda. Neste último caso, o que fazemos é, agrupar os dados em intervalos de classe para identificar um intervalo de classe modal ou intervalos de classe modais, isto é, o(s) intervalo(s) de classe com maior frequência. Uma vez identificado(s) o(s) intervalo(s) de classe modal(ais), uma estimativa para a(s) moda(s) é dada pelo ponto médio do intervalo de classe modal correspondente.
A pergunta que surge naturalmente agora é: Quando a moda será preferível à média ou à mediana?
Se a distribuição for bem equilibrada, isto é, o histograma da distribuição é aproximadamente simétrico, e há uma única moda, então as três medidas-resumo (média, mediana e moda) são qualitativamente equivalen-tes. Nesse caso, em geral, preferiremos tomar a média como medida de posição, pois ela possui propriedades relevantes para a inferência estatística.
Figura 1.12: Histograma de distribuição aproximadamente simétrica
Se, no entanto, a distribuição é altamente assimétrica com valores atípicos e unimodal, então preferiremos, em geral, tomar a mediana como medida resumo, embora a moda também possa ser usada em certas situações neste caso.
Figura 1.13: Histograma de distribuição com assimetria à direita
Se, por outro lado, o histograma da distribuição é do tipo simétrico e bimodal como na representação esque-mática abaixo, então nem a média, nem a mediana são boas medidas de representação dos dados, pois estas se situariam no “vale” da distribuição em que há pouca incidência de valores. Assim, neste caso, preferiremos quase sempre as duas modas como medidas resumo.
Figura 1.14: Histograma de distribuição simétrica e bimodal
1.2.4 Quartis
Os quartis são os três valores que dividem a distribuição em quatro partes de frequências iguais.
O primeiro quartil (Q1) é o valor da distribuição em que abaixo dele há 25% da informação e acima dele há 75% da informação.
O segundo quartil (Q2) é precisamente a mediana da distribuição (o valor que divide a distribuição ao meio). Finalmente o terceiro quartil (Q3) é o valor da distribuição em que abaixo dele há 75% da informação e acima dele há 25% da informação.
Em resumo os quartis de uma distribuição de frequências ou conjunto de valores numéricos são as três medi-das que repartem os dados em quatro intervalos de frequências relativas iguais a 14= 0, 25 , pois se agrupar-mos os dados nos intervalos [x(1),Q1[, [Q1,mediana[, [mediana,Q3[e[Q3, x(n)], cada um deles terá 0,25 como frequência relativa.
Um método para a determinação dos quartis
Existem métodos diferentes para determinar os quartis de um conjunto {x1, x2, ··· , xn}de n observações. Um método simples será descrito a seguir.
TomeQ1 como o valor correspondente à posição n+14 depois de ordenar os dados.
TomeQ2 como a mediana do conjunto de dados, calculada pelo método apresentado para o cálculo da mediana. TomeQ3 como o valor correspondente à posição 3n+14 depois de ordenar os dados.
Se os resultados de n+14 e 3n+14 não forem números inteiros, arredonde-os para o inteiro mais próximo. Se a parte decimal do resultado destas operações for 0,5; calcule a média dos dois valores nas posições correspon-dentes. Por exemplo, suponha n = 21 tal que (21 + 1)/4 = 5,5. Assim, neste caso, para obter o primeiro quartil, calcule a média dos valores nas posições 5 e 6.
Vamos voltar aos dados daAtividade: Notas de Artes. Como n = 35, para o primeiro quartil tomaremos o valor da posição 35+14 = 9, a saber,Q1 = 5, já vimos que a mediana é 6,5 e, para o terceiro quartil tomaremos o valor da posição 3·35+14 = 26, 5. Como 26,5 é equidistante das posições 26 e 27, tomaremos o terceiro quartil como a média dos dois valores nestas duas posições, a saber,Q3 =7,3+7,52 = 7, 4. Logo, podemos dizer que os intervalos
[0,8 ; 5,4[, [5,4 ; 6,5[ ; [6,5 ; 7,4[ e [7,4 ; 8,0] compreendem, cada um, aproximadamente 25% das notas nesta turma. Observe que os comprimentos destes intervalos são diferentes, a saber, 4,6; 1,1; 0,9 e 0,6.
Vejamos agora como ficam estes intervalos para os dados daAtividade: A maratonareferentes aos 100 melho-res tempos da maratona para a categoria mulhemelho-res.
Como n = 100, para o primeiro quartil tomaremos o valor da posição100+14 = 25, 25 ≈ 25, a saber,Q1 = 2,764 h, já vimos que a mediana é 2,949 h e, para o terceiro quartil tomaremos o valor da posição 3·100+14 = 75, 25 ≈ 75, a saber,Q3 = 2,998 h. Logo, podemos dizer que os intervalos [2,448 ; 2,764[ , [2,764 ; 2,949[ ; [2,949 ; 2,998[ e [2,998 ; 3,085] compreendem, cada um, aproximadamente 25% dos 100 melhores tempos para completar a maratona entre as mulheres. Observe novamente que os comprimentos destes intervalos são diferentes, a saber, 0,316; 0,185; 0,049 e 0,087.
Para que servem os quartis da distribuição? Os quartis servem para
a) identificar valores atípicos da distribuição (se houver), também conhecidos como valores discrepantes ou outliers;
b) avaliar o grau de assimetria da distribuição empírica do conjunto de dados e
c) construir um gráfico alternativo ao histograma para representar dados quantitativos conhecido como boxplot ou gráfico-caixa.
Trabalharemos essas aplicações na seçãoPara saber maisdeste capítulo.
1.3 Praticando o assunto
1.3.1 Atividade: Categoria homens na maratona
Considere os dados da categoria Homens da Maratona da Cidade de Nova Iorque do ano 2017 apresentados na tabela a seguir, já convertidos para horas.
Tabela 1.8: 100 melhores tempos de finalização da Maratona de Nova Iorque 2017 para homens
+0 +10 +20 +30 +40 +50 +60 +70 +80 +90 1 2,181 2,258 2,457 2,500 2,526 2,551 2,573 2,602 2,616 2,631 2 2,182 2,311 2,461 2,501 2,528 2,552 2,575 2,606 2,621 2,631 3 2,192 2,341 2,469 2,502 2,53 2,554 2,577 2,608 2,621 2,631 4 2,198 2,358 2,471 2,507 2,531 2,555 2,578 2,610 2,622 2,634 5 2,200 2,377 2,472 2,508 2,531 2,557 2,588 2,610 2,623 2,635 6 2,211 2,379 2,474 2,514 2,533 2,562 2,588 2,612 2,625 2,635 7 2,213 2,394 2,478 2,518 2,542 2,563 2,591 2,613 2,626 2,636 8 2,223 2,398 2,487 2,520 2,546 2,568 2,592 2,613 2,627 2,636 9 2,233 2,426 2,495 2,523 2,548 2,571 2,595 2,613 2,628 2,639 10 2,249 2,453 2,496 2,524 2,549 2,573 2,597 2,614 2,629 2,639 A figura a seguir mostra um histograma destes dados, considerando-se 10 intervalos de classe.
Figura 1.15: Histograma dos resultados da categoria de Homens da Maratona da Cidade de Nova Iorque do ano 2017
a) Calcule a média dos 100 melhores tempos na categoria homens, babendo que a soma dos tempos é dada por 251,1617 horas.
b) Calcule a mediana dos 100 melhores tempos na categoria homens.
c) Identifique o intervalo de classe modal dos 100 melhores tempos na categoria homens. d) Determine os quartis dos 100 melhores tempos na categoria homens.
e) Localize no histograma a posição da média e dos quartis.
f) Compare com os resultados obtidos para a categoria homens com os obtidos para a categoria mulheres naAtividade: A maratona: completando a tabela a seguir.
Tabela 1.9: Tabela de medidasresumo para Mulheres e Homens -Maratona de Nova Iorque/2017
Mulheres Homens Mínimo Máximo Média Mediana Q1 Q3 PARA REFLETIR
• O que seria necessário considerar para poder comparar o histograma da categoria de Ho-mens com o das Mulheres? Observe que os limites dos intervalos são distintos, mas estão na mesma escala.
• Como poderiam ser utilizadas a mediana e os quartis para comparar duas distribuições de dados? Pense em alguma forma de comparar esse dados de forma visual e descreva-a.
RESPOSTA Tabela 1.10: Legenda Mulheres Homens Mínimo 2,448 2,181 Máximo 3,086 2,639 Média 2,8698 2,5116 Mediana 2,949 2,550 Q1 2,772 2,473 Q3 2,998 2,611
Figura 1.16: Histograma dos resultados da categoria de Homens da Maratona da Cidade de Nova York do ano 2017, com média, mediana, Q1 e Q3 indicados
1.3.2 Atividade: Comparação das diferentes categorias na maratona
Observe os histogramas a seguir referentes as quatro categorias da Maratona de Nova Iorque: mulheres, homens, cadeira de rodas e triciclo de mão.
Figura 1.17: Histogramas comparativos das quatro modalidades da maratona de Nova Iorque 2017 a) Compare as escalas utilizadas na construção destes histogramas, tanto no eixo horizontal, como no eixo
vertical. O que você observou?
b) Em qual categoria se encontra o atleta que completou a maratona no menor tempo? E no maior tempo? c) Você consegue estimar a média das primeiras duas categorias observando o gráfico? Você pensa que
serão muito distintas das outras categorias?
d) Observe a tabela a seguir e marque as médias no histograma. Comente sobre a posição da média em cada caso e sobre a simetria ou assimetria de cada distribuição de dados.
e) Observe que as médias não são muito diferentes, porém, as distribuições são muito diferentes. Se você co-nhecesse apenas a média, conseguiria imaginar esses histogramas? Qual é a distribuição mais dispersa, e a menos dispersa?
Tabela 1.11: Média das quatro categorias da maratona de Nova Ior-que 2017
Categoria Cadeira de rodas Triciclo de mão Mulheres (corrida) Homens (corrida)
Média 2,59 2,73 2,87 2,51
RESPOSTA
As perguntas tem o intuito de motivar uma discussão dos elementos necessários que tem que ser con-siderados para fazer histogramas que sejam comparáveis, introduzir de forma intuitiva o conceito de dispersão. As perguntas não tem uma resposta fechada, são mais uma guia para a discussão que o professor irá conduzir e serve como introdução à seçãoOrganizando as ideias: Medidas de dispersão.
1.4 Explorando: Medidas de dispersão
1.4.1 Atividade: Estratégia de Investimento
Para investir na bolsa de valores compramos ações de empresas por intermédio de uma corretora a um certo preço e depois de um período de tempo vendemos estas ações na expectativa de que seus preços tenham au-mentado. No entanto, também podemos perder com o investimento, caso o preço da ação diminua no período de investimento. Uma ação é a menor parte do capital de uma empresa. Veja na figura a seguir um esquema simplificado do investimento na bolsa de valores.
Figura 1.18: Esquema simplificado de Investimento na Bolsa de Valores
Suponha que você tenha a oportunidade de investir um capital, comprando ações de uma de duas Companhias A ou B e para escolher uma das duas, disponha de duas amostras de preços do valor destas ações (em reais) registrados no fechamento da bolsa de valores em dez sextas-feiras consecutivas. Veja na figura e na tabela a seguir a cotação das ações ao longo das últimas 10 semanas.
Figura 1.19: Gráficos de linha da cotação das ações
Tabela 1.12: Cotação das ações das empresas em reais (R$)
Semana A B 1 61 67 2 56 48 3 63 52 4 57 82 5 67 77 6 63 33 7 67 67 8 58 42 9 67 90 10 56 57 Total 615 615
a) Obtenha as médias das cotações das companhias A e B e compare-as.
b) Obtenha as medianas das cotações das companhias A e B e compare-as, lembrando que os dados da tabela estão apresentados na ordem temporal.
c) Obtenha as modas das cotações das companhias A e B e compare-as.
d) Analisando apenas as medidas de posição obtidas em (a), (b) e (c), pode-se dizer que as duas companhias diferem uma da outra? Por quê?
e) Um investimento que apresenta grandes ganhos e perdas pode ser chamado de alto risco, já investimen-tos cujos valores flutuam pouco são considerados de baixo risco. Se você é um investidor da bolsa de valores avesso ao risco, isto é, você gostaria de escolher o investimento com menores flutuações, em qual das companhias você investiria o seu dinheiro? Por quê?
RESPOSTA
a) Dado que são 10 observações em cada um dos conjuntos e que as somas das 10, resultam em 615, segue que a média das cotações na companhia A é R$ 61,50, que também é a média das cotações na companhia B.
b) Para obter as medianas é necessário antes ordenar os valores. Na tabela a seguir os valores das cotações foram ordenados para cada companhia.
Tabela 1.13: Cotação das ações das empresas A B 56 33 56 42 57 48 58 52 61 57 63 67 63 67 67 77 67 82 67 90
Como são 10 observações em cada conjunto e 10 é um número par, temos que a mediana será dada pela média das duas posições centrais, a saber, posições 5 e 6:Mediana=x(5)+x(6)
2 .
Na companhia A teremosMediana=61+632 = 62 reais e, na companhia B,Mediana=57+672 = 62 reais.
c) Na companhia A o valor mais frequente foi 67, ocorrendo 3 vezes. Na companhia B, o valor mais frequente foi 67, ocorrendo duas vezes. Logo, tanto em A como em B o valor da moda foi 67 reais. d) Não, pois tais medidas são idênticas nas duas companhias.
e) Analisando os gráficos de linha da figura 57, percebe-se que as cotações da companhia B flutuam mais do que as da companhia A e, portanto, como menor risco envolve menos flutuação, escolheria a companhia A. Observe que as amplitudes (diferença entre o maior e menor valores) observadas nas companhias A e B são 67−56 = 11 e 90−33 = 57, respectivamente, confirmando que na companhia
A a flutuação das cotações é menor.
1.5 Organizando as ideias: Medidas de dispersão
Pela atividade anterior, você deve ter notado que usar apenas medidas de posição para caracterizar uma distribuição não é suficiente. Nos dois conjuntos analisados, vimos que ambos apresentaram média, mediana e moda iguais. No entanto, vimos que um deles apresenta maiores flutuações de valores do que o outro. A ideia por trás de flutuação é a noção de dispersão.
Enquanto as medidas de posição procuram resumir o conjunto de dados em alguns valores situados entre dados coletados, as medidas de dispersão buscam avaliar quão dispersos são os dados coletados. Isso é de fun-damental importância, pois podemos ter dois conjuntos de dados com as mesmas medidas de posição, como na Atividade: Estratégia de Investimento, mas com dispersões diferentes, fazendo com que os valores qualitativos dessas medidas de posição sejam também diferentes.
Há uma piada irônica que conta que o Estatístico é o profissional que diz que uma pessoa, ao se sentar numa cadeira com duas placas de metal, uma aquecida a 100o C e outra resfriada a −40o C, estará em média confortável, pois temperatura média é de 30o C. Na verdade, um Estatístico jamais diria isso, pois ele não toma decisões apenas por uma medida de posição, mas leva em conta também a dispersão dos dados em torno de uma medida de posição. Uma cadeira com duas placas de metal, uma aquecida a 35o C e outra a 25o C, também tem temperatura média de 30oC, mas há menos dispersão da temperatura nessa cadeira que na outra. Assim, embora quantitativamente iguais, os dois valores de 30oC não são qualitativamente equivalentes. Há, portanto, que se avaliar a dispersão dos dados coletados, a fim de poder obter conclusões adequadas.
1.5.1 Amplitude amostral e distância entre quartis
Entre as medidas de dispersão mais simples, define-se a amplitude amostral (R) como a diferença entre o maior valor e menor valor observados. Usando a notação apresentada anteriormente, dado um conjunto com n observações, temos
Amplitude amostral=R= x(n)
|{z} maior valor do conjunto
− x(1)
|{z} menor valor do conjunto
Uma desvantagem desta medida é que ela considera apenas os dois extremos do conjunto. Ainda é possível que dois conjuntos, tendo mesmas média, moda e mediana, apresentem a mesma amplitude e, no entanto, eles tenham comportamentos diferentes. Considere o exemplo a seguir, supondo os seguintes conjuntos de notas de Matemática de duas turmas de reforço, cada uma com 10 alunos.
Notas da turma A= {1, 1, 1, 5, 5, 5, 5, 9, 9, 9} eNotas da turma B= {1, 3, 3, 5, 5, 5, 5, 7, 7, 9}
Verifique que para esses dois conjuntos tem-se média, moda, mediana e amplitude amostral iguais. No entanto, comparando os diagramas de pontos correspondentes a cada um deles, ilustrados na figura a seguir, é possível perceber diferenças quanto à dispersão das notas em torno da média 5,0 nos dois conjuntos.
Figura 1.20: Diagramas de pontos das notas nas turmas A e B
Neste caso, uma medida um pouco mais refinada, mas ainda sem considerar todos os valores no conjunto, é a distância entre quartis (DQ), definida como a diferença entre o terceiro e primeiro quartis da distribuição. Usando a notação apresentada anteriormente,
DQ=Q3 −Q1
No exemplo anterior, como cada conjunto tem 10 observações, podemos identificar o primeiro quartil como a nota na posição 11/4 = 2,75 ≈ 3 e, o terceiro quartil, como a nota na posição 31/4 = 7,75 ≈ 8.
Notas da turma A= {1, 1, 1 |{z} Q1=x(3) , 5, 5, 5, 5, Q3=x(8) z}|{ 9 , 9, 9}
Deste modo, temos para a turma A, DQ=9-1=8 e, para a turma B, usando o mesmo raciocínio, DQ=7-3=4, indicando que na turma B, considerando a distância entre quartis, temos menor dispersão, comparada à turma A, observação que pode ser verificada nos diagramas de pontos da figuraDiagramas de pontos das notas nas turmas A e B.
De fato, a distância entre quartis (DQ) também apresenta a desvantagem de somente considerar o primeiro e terceiro quartis, não considerando todas as observações do conjunto. A seguir, serão definidas medidas de dispersão que levam em conta todas as observações realizadas.
1.5.2 Desvios da Média
Considerando o conjunto {x1, x2, ··· , xn}com n observações, seja ¯x a média deste conjunto. Define-se como um desvio da média, a diferença entre uma observação e a média, a saber,
di= xi− ¯x, i = 1,2,··· n
Poderíamos pensar em usar os desvios da média para definir uma medida de dispersão dos dados em relação à média do conjunto, no entanto, a não ser que todos os valores sejam iguais, teremos valores acima da média e valores abaixo da média de tal modo que os desvios da média poderão apresentar sinais positivos ou negativos. Vimos que a média pode ser interpretada como o centro de massa (ponto de equilíbrio) dos dados e, esta propriedade pode ser descrita da seguinte forma: a soma dos desvios da média de qualquer conjunto de dados é sempre nula.
Por exemplo, considere os dados daAtividade: Estratégia de Investimento. Veja na figura a seguir a ilustra-ção dos desvios da média das duas companhias na qual a linha pontilhada representa a cotailustra-ção média da companhia e os segmentos em vermelho indicam o tamanho do desvio da média.
Figura 1.21: Desvios da média das cotações nas companhias A e B
O gráfico Desvios da média das cotações nas companhias A e B reforça a conclusão anterior, daAtividade: Estratégia de Investimento, de que as cotações da companhia A flutuam bem menos em torno da média do que as cotações da companhia B.
Em símbolos, a propriedade de que a soma dos desvios da média é sempre nula, pode ser traduzida em n X i=1 di= n X i=1
(xi− ¯x) = 0, qualquer que seja o conjunto {x1, x2, ··· , xn}, pois n X i=1 (xi− ¯x) = (x1− ¯x) + (x2− ¯x) + · · · + (xn− ¯x) =(x1+ x2+ · · · + xn) | {z } =n· ¯x −n · ¯x = 0, lembrando que ¯x =x1+x2+···+xn n .
Portanto, não será possível usar a soma dos desvios da média como medida de dispersão de um conjunto de dados, pois ela sempre resultará em zero. Isso se deve ao fato de que a soma em valor absoluto dos desvios
de sinal negativo é sempre igual a soma dos desvios de sinal positivo, uma consequência da propriedade da média como centro de massa. Uma forma de contornar esta situação, de modo a usar os desvios da média para definir uma medida de dispersão, é eliminar o sinal negativo dos desvios da média de tal forma que a soma nula destes desvios transformados ocorra apenas quando todos os dados são iguais, ou seja, quando qualquer medida de dispersão bem definida deve ser nula.
1.5.3 Desvio Médio Absoluto
Tomando todos os desvios da média em valor absoluto, observe que todos passarão a ser não-negativos tal que a soma resultante não será sempre nula. Assim, pode-se construir uma medida de dispersão em torno da média no conjunto de dados, considerando todas as observações chamada desvio médio absoluto (DM) que é definida como a média dos desvios da média tomados em valor absoluto.
DM=1 n· n X i=1 |xi− ¯x| =|x1− ¯x| + |x2− ¯x| + · · · + |xn− ¯x| n
Na tabela a seguir são apresentados os desvios da média em valor absoluto das cotações nas companhias A e B e, a respectiva soma.
Tabela 1.14: Desvios da média em valores absolutos para as compa-nhias A e B semana A B 1 0,5 5,5 2 5,5 13,5 3 1,5 9,5 4 4,5 20,5 5 5,5 15,5 6 1,5 28,5 7 5,5 5,5 8 3,5 19,5 9 5,5 28,5 10 5,5 4,5 soma 39,0 151,0
Logo, concluímos que o desvio médio absoluto na companhia A é DM= 3910= 3, 9 reais e, na companhia B, DM= 151
10 = 15, 1 reais, indicando que, de fato, a dispersão em torno da média na companhia B é cerca de 4 vezes maior do que na companhia A com relação ao desvio médio (15, 1/3, 9 ≈ 3,89).
Cálculo do desvio médio absoluto para dados agrupados
Se os dados estão agrupados em c intervalos de classe cujos pontos médios são dados por ˜x1, ˜x2, ··· , ˜xco desvio médio absoluto pode ser aproximado por
D M =1 n c X i=1 ni| ˜xi− ¯x| = c X i=1 fi| ˜xi− ¯x|
em que ni representa a frequência aboluta do i-ésimo intervalo de classe e, fi= nni representa a frequência relativa do i-ésimo intervalo de classe, i = 1,2,··· c.
1.5.4 Variância e Desvio Padrão
Uma outra forma de eliminar o sinal negativo dos desvios da média é elevar ao quadrado cada um deles, tornando-os não-negativos. A variância é definida como uma média dos desvios da média elevados ao quadrado.
variância=n1· n X i=1 (xi− ¯x)2= (x1− ¯x)2+ (x2− ¯x)2+ · · · + (xn− ¯x)2 n
Na tabela a seguir são apresentados os desvios da média elevados ao quadrado das cotações nas companhias A e B e, a respectiva soma.
Tabela 1.15: Desvios da média elevados ao quadrado para as com-panhias A e B semana A B 1 0,25 30,25 2 30,25 182,25 3 2,25 90,25 4 20,25 420,25 5 30,25 240,25 6 2,25 812,25 7 30,25 30,25 8 12,25 380,25 9 30,25 812,25 10 30,25 20,25 soma 188,5 3018,5
Logo, concluímos que a variância na companhia A é 188,510 = 18, 85reais2 e, na companhia B, 3018,510 = 301, 85reais2 , indicando que a dispersão em torno da média na companhia B é cerca de 16 vezes maior do que na companhia A com relação à variância (301, 85/18, 85 ≈ 16).
Expandindo a soma no numerador da fórmula da variância é possível concluir que n X i=1 (xi− ¯x)2= n X i=1 x2i− n · ¯x2
Lembre que (xi− ¯x)2= x2i− 2 · ¯x · xi+ ¯x2. Assim, n X i=1 (xi− ¯x)2= n X i=1 (x2i− 2 · ¯x · xi+ ¯x2) = (x21− 2 · ¯x · x1+ ¯x2) + (x22− 2 · ¯x · x2+ ¯x2) + ··· + (x2n− 2 · ¯x · xn+ ¯x2)
Como a soma é finita, podemos reunir os termos semelhantes, obtendo n X i=1 (xi− ¯x)2= (x21+ x22+ · · · x2n) −2 · ¯x · =n· ¯x z }| { (x1+ x2+ · · · + xn) | {z } =−2·n· ¯x2 +n · ¯x2= n X i=1 x2i− n · ¯x2
NaAtividade: Estratégia de Investimento, podemos verificar que na companhia A, ¯x = 61,5 e 10 X i=1
x2i= 38.011 tal que a variância em A pode ser calculada por
variância= 1
10· (38.011 − 10 · 61, 5
2) = 18,85reais2
¯x = 61,5 e 10 X i=1
x2i= 40.841 tal que a variância em B pode ser calculada por
variância= 1
10· (40.841 − 10 · 61, 5
2) = 301,85reais2
Vimos que o desvio médio absoluto da companhia B foi aproximadamente 4 vezes maior do que o da companhia A. Na comparação de variâncias, a variância da companhia B foi cerca de 16 vezes maior do que a da companhia A. Este grande aumento deve-se ao fato de que consideramos os desvios da média elevados ao quadrado no cálculo da variância. Observe que a unidade de medida na variância é o quadrado da unidade de medida das observações. Para retornar à escala de medida das observações, basta extrair a raiz quadrada da variância, levando a definição de desvio padrão, uma medida de dispersão em torno da média, na mesma unidade das observações.
desvio padrão=pvariância
No exemplo das cotações, podemos verificar que na companhia A,
desvio padrão=p18,85 ≈ 4,34reais
e, na companhia B,
desvio padrão=p301,85 ≈ 17,37reais
Verifique que o desvio padrão da companhia B é aproximadamente 4 vezes maior do que o da companhia A.
POR QUE O DESVIO PADRÃO É PREFERÍVEL AO DESVIO MÉDIO?
Você deve estar se perguntando por que se utiliza o desvio padrão na Estatística em detrimento do desvio médio, cujo cálculo é bem mais simples. A resposta é um tanto complexa para o nível em que estamos, mas ela está associada à necessidade na Estatística de se minimizar estruturas de maneira simples. O desvio médio faz uso da função modular f (x) = |x|, que não possui boas propriedades matemáticas para a minimização, por possuir na sua forma uma mudança abrupta em torno de x = 0, enquanto que a variância faz uso da função quadrática f (x) = x2, representando parábolas de vértice suave e cujas propriedades analíticas são bem conhecidas. Veja a figura a seguir.
Figura 1.22: Funções modular e quadrática com destaque para o comportamento em torno de x=0. Muitos problemas de estimação de posição de astros na Física são resolvidos por funções quadráticas por esse motivo, um legado deixado pelo matemático alemão Carl Friedrich Gauss (1777 - 1855) no chamado Método dos Mínimos Quadrados.
Figura 1.23: Carl Friedrich Gauss
Variância populacional e amostral, desvio padrão populacional e amostral
No capítulo A Natureza da Estatística foram definidos os termos parâmetro e estimador. Parâmetro é uma característica numérica da população, enquanto estimador é uma função dos dados da amostra (subconjunto da população), usada para estimar o parâmetro, na maioria das vezes desconhecido. Embora a demonstração do resultado a ser apresentado aqui esteja fora do escopo deste livro, ele precisa ser destacado para que você possa escolher a ferramenta correta para calcular uma variância ou desvio padrão quando estiver usando uma calculadora com funções estatísticas, algum aplicativo ou alguma planilha eletrônica.
Por exemplo, na planilha Excel, existem duas funções para calcular a variância, a saber, var.p(dados) para variância populacional e var.a(dados) para variância amostral. Também existem duas funções para calcular o desvio padrão: desvpad.p(dados) para desvio padrão populacional e desvpad.a(dados) para desvio padrão amostral. No GeoGebra, a função que calcula todas as medidas resumo, retorna as seguintes informações conforme a figura a seguir.
Figura 1.24: Medidas-resumo no GeoGebra
padrão populacional e s para representar desvio padrão amostral. Na verdade esta notação é muito usada nos textos de Estatística, incluindoσ2para a variância populacional e s2para a variância amostral. Em geral, na Estatística, usam-se letras gregas para representar parâmetros.
Mas afinal, qual é a diferença entre as duas expressões, o que elas representam?
Se temos uma amostra e não a população, em geral, calculamos estimativas dos parâmetros. De fato, a média calculada por ¯x = 1n
n X i=1
xi será uma estimativa da média populacional, em geral denotada pela letra gregaµ. Como já dito anteriormente, a média aritmética apresenta boas propriedades na teoria da Inferência Estatís-tica, tornando-a um bom estimador para a média populacional. No caso da variância, se estamos trabalhando com uma amostra, é possível verificar que, usando o denominador n em seu cálculo (lembre-se que é uma média dos desvios quadrados da média), este estimador tende a produzir resultados menores do que o valor da variância populacional. No entanto, também é possível mostrar que uma pequena correção, resolve este problema chamado de viés de estimação. A correção envolve simplesmente trocar o denominador n da fórmula da variância para o denominador n − 1. Assim, as expressões que deverão ser usadas quando o conjunto de dados sob estudo é uma amostra da população são dadas por
variância amostral= s2= 1 n − 1 n X i=1 (xi− ¯x)2
desvio padrão amostral=ps2= s
Na maioria das vezes trabalhamos com amostras. Assim, neste capítulo, salvo menção em contrário, estaremos sempre calculando a variância amostral (s2) e o desvio padrão amostral (s), mesmo que o termo “amostral” esteja omitido.
Se você estiver trabalhando com uma amostra e usar o denominador n para calcular a variância, isso impli-cará que você escolheu um estimador viesado, pois tende a produzir estimativas que são menores do que o verdadeiro valor da variância. Observe que se você estiver trabalhando com amostras muito grandes, essa diferença não será importante, pois haverá pouca diferença entre dividir por n ou por n − 1.
Expressões que deverão ser consideradas quando o conjunto de dados sob estudo refere-se à população com n elementos: variância populacional= σ2=1 n n X i=1 (xi− µ)2
desvio padrão populacional=pσ2= σ
Cálculo da variância amostral para dados agrupados
Sejam ˜x1, ˜x2, ··· , ˜xc os pontos médios dos c intervalos de classe considerados e n1, n2, ··· , nc as respectivas frequências absolutas. Então, temos
s2= 1 n − 1 c X i=1 ni( ˜xi− ¯x)2= 1 n − 1 Ã c X i=1 ni˜x2i− n ¯x2 !
em que ¯x é a média amostral. Se conhecemos apenas as frequências relativas do conjunto de dados, também podemos calcular a variância amostral por s2=
c X i=1 fi( ˜xi− ¯x)2= c X i=1 fi˜x2i− ¯x2. O desvio padrão amostral é, então, calculado por s =ps2.
1.6 Praticando o assunto
1.6.1 Atividade: Comparação de conjuntos de dados
Para realizar esta atividade será necessário coletar dois conjuntos de dados da mesma natureza, correspon-dentes a grupos distintos, os quais queremos comparar. Por exemplo:
• alturas de homens e mulheres;
• alturas de alunos de 1º e de 9º ano do Ensino Fundamental; • notas de disciplinas distintas;
• notas de turmas distintas na mesma disciplina;
• medições de produtos naturais: comprimento das folhas de vegetais (alface, rúcula, etc) comprados em lojas distintas, altura de árvores ou plantas similares locais da cidade distintos;
entre outros que podem ser escolhidos dependendo da região e dos recursos disponíveis na escola.
No seu caderno ou em uma planilha eletrônica, registre os dados coletados, como indicado no modelo de tabela a seguir, lembrando que quanto mais dados você coletar com os critérios definidos, os resultados do experimento terão maior chance de refletir a realidade.
Tabela 1.16: Exemplo de tabela considerando a altura como variável e duas turmas distintas como os grupos
Variável: altura em cm Turma A Turma B 155 165 168 159 .. . ...
Para calcular as medidas de posição e dispersão, utilize de forma cuidadosa as fórmulas apresentadas. De forma alternativa, você pode digitar os dados noAplicativo de medidas de posição e dispersão do Livro Aberto
e obter as medidas resumo dos dados.
Tabela 1.17: Registre os seus resultados
Grupo A Grupo B Nome da categoria Mínimo (x(1)) Máximo (x(n)) Média Q1 Mediana Q3 Amplitude amostral (R) Dist. entre quartis (DQ) Desvio médio absoluto (DM) Variância amostral (s2) Desvio padrão amostral (s)
Sugere-se a construção dos histogramas para comparar os dois grupos. Você pode usar o GeoGebra para esta construção.
a) Discuta as suas observações com a turma. Lembre-se de interpretar as medidas de dispersão e não apenas as de posição, que informação adicional oferecem?
b) Analisando os dois conjuntos de dados obtidos, que medida de posição você julga mais adequada para resumir a informação do conjunto? Por quê?
c) Os resultados que você obteve parecem refletir a realidade? Existe algum resultado científico que suporte estas observações? Consulte professores de outras áreas sobre suas conclusões.
1.6.2 Atividade: Aproximação para o valor do desvio padrão amostral
Nos conjuntos de dados, quando não há valores atípicos (valores muito altos ou muito baixos em relação à maior parte dos valores no conjunto), a maior parte dos valores se situará no intervalo centrado na média distando 2 desvios padrões à esquerda e à direita da média ([ ¯x − 2 · s, ¯x + 2 · s] ). A partir desta informação, pode-se obter uma fórmula empírica para estimar o valor do desvio padrão amostral s dada por
s ≈ x(n)−x(1)
z}|{ R 4 em que R é a amplitude amostral, x(n)=Maxe x(1)=Min.
a) Use esta fórmula para estimar o valor do desvio padrão amostral dos dados daAtividade: Notas de Artes e compare o valor obtido com o desvio padrão amostral s. Use os dados na figura a seguir, produzidos pelo GeoGebra.
Figura 1.25: Estatísticas resumo das Notas de Artes
b) Idem para estimar o valor do desvio padrão amostral dos dados daAtividade: A maratonae compare o valor obtido com o desvio padrão amostral s. Use os dados na figura a seguir, produzidos pelo GeoGebra.
c) Idem para estimar o valor de desvio padrão amostral dos dados daAtividade: Estratégia de Investimento. Use os dados na figura a seguir, produzidos pelo GeoGebra.
Figura 1.27: Estatísticas resumo das cotações das ação nas Companhias A e B.
RESPOSTA
a) Da figuraEstatísticas resumo das Notas de Artesvemos que s ≈ 1,96 e que R = 8 − 0,8 = 7,2. Pela fórmula apresentada temos s ≈7,24 = 1, 8.
Comparando o valor aproximado de s (1,8) com o valor calculado de s (1,96) vemos que a aproximação é um pouco menor do que o valor de s. O erro percentual cometido por esta aproximação corresponde a 8% do valor de s, pois |1,8−1,96|1,96 ≈ 0, 08.
b) Da figuraEstatísticas resumo dos 100 melhores tempos para mulheres - Maratona de Nova Ior-que/2017vemos que s ≈ 0,1866 e que R = 3,085 − 2,448 = 0,637. Pela fórmula apresentada temos s ≈0,6374 = 0, 15925.
Comparando o valor aproximado de s (0,15925) com o valor calculado de s (0,1866) vemos que a apro-ximação é um pouco menor do que o valor de s. O erro percentual cometido por esta aproapro-ximação corresponde a 15% do valor de s, pois |0,15925−0,1866|0,1866 ≈ 0, 15.
c) Da figura Estatísticas resumo das cotações das ação nas Companhias A e B.vemos que, para a companhia A, s ≈ 4,5765 e que R = 67 − 56 = 11. Pela fórmula apresentada temos s ≈114 = 2, 75. Comparando o valor aproximado de s (2,75) com o valor calculado de s (4,5765) vemos que a aproximação é menor do que o valor de s. O erro percentual cometido por esta aproximação corresponde a 40% do valor de s, pois |2,75−4,5765|4,5765 ≈ 0, 4.
Da figuraEstatísticas resumo das cotações das ação nas Companhias A e B.vemos que, para a companhia B, s ≈ 17,3738 e que R = 90 − 33 = 57. Pela fórmula apresentada temos s ≈574 = 14, 25.
Comparando o valor aproximado de s (14,25) com o valor calculado de s (17,3738) vemos que a aproxi-mação é menor do que o valor de s. O erro percentual cometido por esta aproxiaproxi-mação corresponde a 18% do valor de s, pois |14,25−17,3738|17,3738 ≈ 0, 18.
Atividade: Frequência de valores no intervalo centrado na média mais ou menos 2 desvios padrões
Para os conjuntos de dados considerados naAtividade: Aproximação para o valor do desvio padrão amostral, calcule a frequência absoluta de dados que estão no intervalo [ ¯x − 2 · s, ¯x + 2 · s] e comente sobre os resultados obtidos.
RESPOSTA
No caso dos dados daAtividade: Notas de Artestemos ¯x = 5,93 e s = 1,96 tal que os limites deste intervalo são, respectivamente, 2,01 e 9,85. Portanto, das 35 notas podemos ver que 32 observações caem dentro destes limites, ou equivalentemente, cerca de 91% das observações.
No caso dos dados da maratona-de-NY temos ¯x = 2,8697 e s = 0,1866 tal que os limites deste intervalo são, respectivamente, 2,4969 e 3,2429. Portanto, dos 100 tempos podemos ver que 93 caem dentro destes limites, ou equivalentemente, 93% dos tempos.
No caso dos dados da estrategia-de-investimento, para a companhia A, temos ¯x = 61,5 e s = 4,5765 tal que os limites deste intervalo são, aproximadamente, 52,3 e 70,7. Portanto, das 10 cotações podemos ver que todas caem dentro destes limites, ou equivalentemente, 100% das cotações.
No caso dos dados da estrategia-de-investimento, para a companhia B, temos ¯x = 61,5 e s = 18,3136 tal que os limites deste intervalo são, aproximadamente, 24,9 e 98,1. Portanto, das 10 cotações podemos ver que todas caem dentro destes limites, ou equivalentemente, 100% das cotações.
Comentário acerca destes resultados: verifica-se que para os quatro conjuntos aqui considerados, de fato, a maior parte dos dados (mais de 90%) situam-se entre os limites de uma média mais ou menos 2 desvios padrões.
1.6.3 Atividade: Avaliação empírica de frequência em torno da média
Usando um resultado da teoria das probabilidades, conhecido como Desigualdade de Tchebyshev, podemos dizer que a frequência relativa de dados no intervalo aberto ] ¯x − k · s; ¯x + k · s[ é no mínimo igual à razão k2k−12 em que k é um número maior do que 1.
Verifique a validade desta afirmação para os resultados da Atividade: Frequência de valores no intervalo centrado na média mais ou menos 2 desvios padrões.
RESPOSTA
Considerando k = 2 encontramos o valor mínimo de frequência relativa dado por 34= 0, 75 ou 75%. Para todos os conjuntos considerados, a frequência relativa foi bem superior à 75%: 91%, 93% e 100% nos dois últimos casos. A desigualdade de Tchebyshev é bastante útil se conhecemos apenas a média e o desvio padrão para avaliar este limite inferior de frequência relativa, mas cabe ressaltar que, quando conhecemos os dados, em geral encontraremos frequências relativamente maiores do que o limite inferior especificado pela desigualdade.
1.7 Explorando: Avaliação da magnitude da variância
1.7.1 Atividade: Inflação anual
A seguir são apresentados dados sobre as inflações anuais em dois países. Antes de trabalhar com os dados, vamos tentar explicar o que é inflação. De uma maneira bem simples, pode-se dizer que a inflação é o aumento contínuo nos preços de produtos e serviços. Esse aumento costuma ser avaliado de forma mensal, gerando os índices de inflação, que refletem a variação nos preços.
A inflação pode ser medida de várias formas. O índice oficial de inflação no Brasil é o IPCA (Índice de Preços ao Consumidor Amplo), que mede a variação mensal de preços de produtos considerando o consumo de famílias com renda mensal entre 1 e 40 salários mínimos. O IBGE (Instituto Brasileiro de Geografia e Estatística)