• Nenhum resultado encontrado

Distribuições bidimensionais

No documento Mat Aleph Professor (páginas 72-80)

Exercício 1(Pág. 179)

Representando os dados graficamente, através da nu - vem de pontos, vemos claramente que o nível da pro- teína aumenta com o tempo de gestação. Podemos traçar uma recta no gráfico, de modo que os pontos se encontrem próximos da recta e bem distribuídos para um lado e outro dela. Diz-se, então, que as variáveis estão positivamente correlacionadas. É, pois, de espe- rar que se consiga saber, através do tempo de gestação, qual é o nível provável de proteína no sangue.

Exercício 2(Pág. 180)

a.Desde 1992 até 2007, o número de pessoas apoia- das pelo Banco Alimentar aumentou. Esse aumento contra Fome foi de 60 445 – 15 000 = 45 445. A percentagem de aumento de pessoas apoiadas pelo Banco Alimentar Contra a Fome foi:

= 302,966, ou seja, houve um aumento de aproximadamente 303%.

b.O número de toneladas de produtos que entraram foi de 9441 – 202 = 9239. A percentagem de aumento foi = 4573,762, ou seja, houve um aumento de aproximadamente 4574% de toneladas de produ- tos que entraram no Banco Alimentar Contra a Fome.

c.Atendendo às duas respostas anteriores é de espe- rar que, em média, em 2007 tenha sido distribuída uma maior quantidade de produtos alimentares por pessoa do que em 1992, pois se houve, por um lado, um aumento de 303% de pessoas apoiadas, por outro lado houve um aumento de 4574% de toneladas de produtos que entraram no Banco Alimentar Contra a Fome.

√∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫

(ax1+ b – (a–x + b))2+ (ax2+ b – (a–x + b))2+ … + (axn+ b – (a–x + b))2

n

√∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫

(ax1+ a–x)2+ (ax2+ a–x)2+ … + (axn– a–x)2

n

√∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫

a2(x 1– –x)2+ a2(x2– –x)2+ … + a2(xn– –x)2 n

√∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫

(x1– –x)2+ (x2– –x)2+ … + (xn– –x)2 n = = = |a| (x1+ x2+ … + xn) n ax1+ b + ax2+ b + … + axn+ b n a(x1+ x2+ … + xn) + nb n (x1– –x)2+ (x2– –x)2+ … + (xn– –x)2 n

√∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫ ∫

9239 × 100 202 45 445 × 100 15 000 0 10 20 30 40

Tempo de gestação (semanas)

Nível de proteína 1,2 1 0,8 0,6 0,4 0,2 0

71

Tema 3 — Estatística | Aleph 10

d.Em média cada pessoa recebeu, em 1992,

= 0,013466, ou seja, cada pessoa recebeu cer ca de 13,5 kg, enquanto que, em 2007, cada pessoa recebeu = 0,1561915, ou seja, em média no ano de 2007, cada pessoa recebeu aproximadamente 156 kg.

Estes dados confirmam a resposta dada na alínea an terior.

e.O diagrama de dispersão que relaciona o número de ins ti tuições apoiadas e o número de pessoas apoia- das é:

Gráfico obtido na calculadora

Pode observar-se que, à medida que o número de instituições aumentou, também aumentou o número de pessoas apoiadas.

f.O gráfico que relaciona a evolução da entrada de pro- dutos alimentares, em toneladas, desde 1992:

Gráfico obtido com a calculadora

O gráfico anterior mostra que o número de toneladas de produtos alimentares angariadas pelo Banco Ali- mentar Contra a Fome tende a aumentar. Embora

essa tendência seja crescente, houve dois anos que contrariaram essa tendência; foram os anos de 2001 e 2004, em que o número de toneladas decresceu, relativamente aos anos anteriores.

Exercício 3(Pág. 181)

Para melhor compreendermos estes dados podemos fazer uma representação gráfica adequada, obtendo uma nuvem de pontos, em que representamos nas or- denadas a variável de interesse (distância atingida no salto em comprimento) e na abcissa a variável explica- tiva (peso do estudante).

Observamos que não há uma relação clara entre estas duas características. A nuvem de pontos encontra-se bastante dispersa. Diz-se então que as duas caracterís- ticas estão fracamente correlacionadas. Não é de espe- rar que o facto de sabermos o peso do aluno nos indique de algum modo a distância que ele vai saltar. Pode ser pesado e saltar bastante, como pode saltar pouco.

Exercício 4(Pág. 181)

Representando os dados graficamente, obtém-se:

Observamos que, quando a profundidade aumenta, a humidade diminui. Diz-se, neste caso, que as duas va- riáveis estão negativamente correlacionadas, pois va- riam em sentidos opostos.

0 500 1000 1500 Profundidade Humidade 140 120 100 80 60 40 20 0 40 50 60 70 Peso (kg) Salto (cm) 240 220 200 180 160 140 120 9441 60 445 202 15 000 1990 1992 1994 1996 1998 Ano Toneladas 10 000 9000 8000 7000 6000 5000 4000 3000 2000 1000 0 2000 2002 2004 2006 2008 0 50 100 150 200 Número de instituições

Número de pessoas apoiadas

70 000 60 000 50 000 40 000 30 000 20 000 10 000 0 250 300

Exercícios globais (Págs. 182-187)

1.Com correlação positiva temos os gráficos (A), (C) e (E); com correlação negativa temos os gráficos (B) e o (H). Sem correlação temos os gráficos (D), (F), (G) e (I).

2. a.

A recta de regressão que ajusta estes dados é: y = 22 704,18x – 40 432 690,99

b.A população masculina portuguesa, em 2010, será de aproximadamente y(2010) = 5 202 718, con- forme pode ser observado no ecrã:

3. a.

A recta de regressão que se ajusta a estes dados é y = 21 117,47x – 36 908 038,41

b. A população feminina portuguesa em 2010 será de aproximadamente y(2010) = 5 538 077, con- forme pode ser observado no ecrã:

4.

Pela análise do gráfico de dispersão, vemos que existe uma correlação negativa, com um coeficiente de correlação igual a –0,99. Temos, pois, uma forte correlação negativa.

5.Façamos os vários diagramas de dispersão e anali- semos os resultados:

Analisando este diagrama de dispersão, podemos dizer que não há qualquer tipo de correlação entre as variáveis calorias e gordura.

Analisando este diagrama de dispersão, podemos dizer que não há nenhum tipo de correlação entre as variáveis calorias e fibras.

Analisando este diagrama de dispersão, podemos dizer que há uma correlação positiva entre as variá- veis calorias e açúcar.

6.O centro de gravidade da distribuição de dados do problema anterior, considerando as calorias e o açú- car, é o ponto médio de cada conjunto de dados:

O centro de gravidade é o ponto (7; 112,4). O centro de gravidade pode ser observado nas figuras abaixo, sendo o ponto de intersecção das rectas horizontal e vertical. A partir daí podemos fazer uma estima- tiva para a recta de regressão sem ter de a calcular, bastando fazer uma estimativa para o declive. Os pontos (8, 120) e (10, 130) parecem ser pontos na di- recção da recta de regressão. Uma estimativa do de- clive pode ser então 5, mas, como é só um valor aproximado, outras estimativas são admissíveis.

73

Tema 3 — Estatística | Aleph 10

A calculadora indica-nos que a recta de regressão é a recta de equação y = 5,808x + 71,746. O declive é 5,808 e, como tal, a nossa estimativa não é nada má.

7.Por uma análise do tipo de dados em questão é de esperar que entre todas as colunas haja uma corre- lação positiva, numas mais forte do que noutras. Este facto pode ser comprovado pela sequência de dia- gramas de dispersão apresentados.

8.

O centro de gravidade desta distribuição é o ponto (4,5 ; 4) e a recta de regressão terá um declive ne- gativo.

Vejamos o diagrama de dispersão com a recta de re- gressão:

Daqui podemos confirmar o que acabamos de intuir, ou seja, o declive é, aproximadamente, igual a –1,53.

9. a.

A recta de regressão que se ajusta a estes dados é y = 0,0331x + 6,749.

b.O declive 0,0331 representa o aumento de longe- vidade por cada aumento de 1 dia na gestação. A ordenada na origem representa a longevidade mí- nima para uma gestação mínima.

c.Representação gráfica dos resíduos:

d.O elefante é claramente um outlier.

e.O resíduo correspondente ao elefante é 11,896, conforme pode ser observado no ecrã seguinte.

f.O animal com maior resíduo em valor absoluto é o elefante, conforme pode ser observado no ecrã:

O período de gestação do elefante é de uma enor- midade de 645 dias, quase dois anos, no que se dis- tingue de todos os outros considerados. Também vive 40 anos, o que é muito superior a todos os ou- tros. Não admira que tenha um período de gestação tão grande. Uma singularidade no reino animal!

g.Retirando a girafa, vamos obter o seguinte diagrama de dispersão e a recta de regressão nele sobreposta:

A recta de regressão que se ajusta a estes dados, sem a girafa, é y = 0,0365x + 6,393.

Comparando as duas rectas de regressão no mes mo gráfico podemos ver que são muito semelhantes:

h.Retirando o elefante, vamos obter o seguinte diagrama de dispersão e a recta de regressão nele sobreposta:

A recta de regressão que se ajusta a estes dados, sem o elefante, é y = 0,024x + 8,097.

Comparando as duas rectas de regressão no mes mo gráfico podemos ver que são muito diferentes.

Concluímos, destas duas alíneas, que a presença de um outlier provoca grandes alterações na recta de regressão.

10.Consideremos a tabela e o respectivo diagrama de dispersão:

Pela análise do diagrama de dispersão vemos que existe uma correlação positiva, o que elimina todos os valores negativos apresentados.

Uma análise mais cuidada permite-nos afirmar que a correlação é forte, logo só podemos pensar nos valores 0,77 e 0,99, mas este último não é possível, pois os pontos teriam que estar, praticamente, todos alinhados sobre uma recta. Assim, o valor que me- lhor serve para coeficiente de correlação é o 0,77. Confirmemos:

Temos, então, que o coeficiente de correlação é r = 0,7689 ou seja, aproximadamente 0,77.

Desafio D.1(Pág. 188)

O diagrama de dispersão correspondente aos dados é:

Regressão linear Regressão quadrática

Por observação, vemos que a regressão quadrática ajusta muito melhor à nuvem de pontos obtida.

75

Tema 3 — Estatística | Aleph 10

Averiguemos o que se passa com os resíduos:

Na Lista 5 temos os resíduos correspondentes à re- gressão linear e na Lista 6 os resíduos corresponden- tes à regressão quadrática. É visível que os valores da Lista 6 são muito inferiores aos da Lista 5, o que está de acordo com o facto de a regressão quadrática se ajustar melhor a este conjunto de dados.

Provas globais

Prova global N.o1(Pág. 192) 1. a.

b.Vamos ordenar as diferenças por ordem crescente e posteriormente calcular a mediana:

Como temos 7 dados a mediana estará na posição: = = 4. Assim, a mediana é zero.

c.Dado que a mediana é zero, isto significa que de um lado e de outro há igual quantidade de valores, de um dos lados negativos, do outro positivos; assim, ambas as estações tiveram o mesmo nú- mero de dias com mais audiências de uma em re- lação à outra.

2.Para resolver esta questão vamos recorrer à calcu- ladora gráfica. Começamos por introduzir todos os dados na Lista 1; de seguida, vamos elaborar um his- tograma que nos vai permitir contar o número de efectivos de cada valor que a variável assume; este é um processo rápido e que evita erros de contagem quando os dados são apresentados em bruto.

Vai ser preciso ajustar a janela de visualização para ver bem o histograma.

Vamos agora trabalhar o gráfico obtido para que este nos apresente os dados de que necessitamos. Veja- mos na sequência de ecrãs apresentados de seguida o que devemos fazer:

Com a tecla que nos permite percorrer o gráfico, po- demos observar os valores que a variável assume. No último ecrã apresentado vemos que, para um míni mo igual a três e inferior a quatro, temos cinco efectivos, o que, na prática e no presente contexto, sig nifica que existem cinco agregados familiares com três pessoas. Continuando a percorrer o gráfico, vamos obter os restantes valores que a variável assume, permitindo responder aos itens colocados nesta questão.

a.

Vemos, na Lista 2, os valores que a variável assume, e na Lista 3, a respectiva frequência absoluta. A tabela completa é a que se apresenta a seguir, onde na Lista 4 vemos a frequência relativa, obtida dividindo a Lista 3 por 40 (o número total de agre- gados familiares estudados).

3.aFeira 4.aFeira 5.aFeira 6.aFeira Sábado Domingo 2.aFeira RTP 1 27,8 25,3 24,7 25,3 23,2 22,6 25,7 SIC 24,1 24,7 25,9 25,3 26,7 30,1 24,6 Diferença 3,7 0,6 –1,2 0 –3,5 –7,5 1,1 7 + 1 2 8 2 Posição Diferença 1 2 3 4 5 6 7 –7,5 –3,5 –1,2 0 0,6 1,1 3,7

b.Vamos usar a calculadora para obter a média e a mediana. Obtemos os seguintes ecrãs:

Estamos, agora, em condições de dizer que a mé dia é 4,85 e a mediana 5. Quanto à moda, também é 5.

3.A amplitude interquartil, dado que é de quatro uni- dades nos dois diagramas apresentados.

4.Comecemos por introduzir os dados nas Listas 1 e 2 da calculadora gráfica. De seguida vamos obter a nuvem de pontos correspondente aos dados intro- duzidos, daí resultando o que pode ser observado nas imagens seguintes:

Usando, novamente, a calculadora, vamos adicionar a regressão linear a este gráfico.

A recta de regressão é, então,

y = 21,0457x – 41 229,6286. Agora, é só calcular:

Se a tendência se mantiver, em 2002 haverá cerca de 904 mortes enquanto que, em 2005, o número de mortes será de 968.

Prova global N.o2(Pág. 194)

1. a.Trata-se de uma sondagem, pois não estava en- vol vida a totalidade dos agregados domésticos portugueses.

b. i)Os agregados portugueses que apresentam ní- veis de posse de computador acima da média são apenas os que se situam em Lisboa e Vale do Tejo (44,7%).

ii)Os agregados portugueses que apresentam níveis de ligação à Internet acima da média são os que se situam em Lisboa e Vale do Tejo com 26,9% e na Região Autónoma dos Açores com 22,3%.

2. a.

b.Calculemos a média:

x = (0 × 3 + 1 × 18 + 2 × 45 + 3 × 43 + 4 × 20 + + 5 × 7 + 6 × 3 + 7 × 0 + 8 × 1) : 140

A moda é 2 e a mediana é 3 (calculada com a cal- culadora gráfica, conforme pode ser observado na figura abaixo, onde se pode também confirmar o valor obtido para a média).

3. O estudante A faz chamadas, em regra, mais longas que o estudante B, pois 75% das chamadas do estu- dante A duram mais de 2 minutos (120 s). Quanto ao estudante B, as chamadas por ele realizadas são, em regra, de duração inferior a 2 minutos; com efeito, 75% das chamadas são mais curtas do que 2 minu- tos; logo, quando comparadas com as chamadas efectuadas pelo estudante A, mais de 75% são mais curtas. Por outro lado, o estudante faz chamadas com uma duração parecida, pois a amplitude interquartil é de 110 – 50 = 60 s, enquanto o estudante A faz cha- madas com uma duração muito variada, pois, neste caso, a amplitude interquartil é de 350 – 120 = 230 s.

xi 0 1 2 3 4 5 fi 3 18 45 43 20 7 6 3 7 0 8 1 fr 0,211 0,129 0,322 0,307 0,143 0,050 0,021 0 0,007

77

Tema 3 — Estatística | Aleph 10

4.As duas variáveis estão muito relacionadas uma com a outra, pois à medida que uma aumenta, a outra, ge- ralmente, também aumenta da mesma maneira.

Prova global N.o3(Pág. 196)

1.A média e a mediana do número de alunos que con- seguiu entrar nas escolas de Medicina do país entre 1990 e 2000

(400 445 470 465 485 475 475 475 561 566 735), não incluindo a Medicina Dentária, foi de 505 (arre- dondamento de 504,72) e 475, respectivamente, con- forme pode ser observado nos resultados obtidos com a calculadora.

Os valores apresentados por estas medidas não po- derão ser considerados semelhantes, porque apre- sentam uma diferença de 30, muito superior à va ria- ção entre alguns anos consecutivos. Tal, deve-se ao facto de a distribuição não ser simétrica, mas tam- bém ao facto de haver um valor muito discrepante em relação aos outros, 735, e outros dois francamente maiores que os restantes (561 e 566). A mediana não é nada afectada por este facto e, assim, fornece uma melhor ideia geral da distribuição dos dados.

2. a.Usando uma calculadora gráfica, vamos obter:

Para a média obtemos o valor de 450 euros e para a mediana o valor de 300 euros A moda é 300.

b.O valor encontrado para a média não caracteriza de maneira nenhuma os vencimentos dos funcio- nários da empresa, pois 7 dos 8 funcionários au- ferem de um vencimento inferior à média. Com efeito, o salário de 1500 euros, apesar de respei- tar apenas a um funcionário, influencia enorme- mente o cálculo da média.

3.O Sérgio terá uma nota compreendida entre os 55% e os 70%. Tal pode ser observado no gráfico abaixo, onde a linha horizontal verde marca 50% (a mediana) e a linha horizontal vermelha marca 25% (1.oQuartil), da distribuição das notas.

4.Comecemos por calcular a soma dos pontos obtidos na corrida dos 100 m e do lançamento do peso.

Com uma calculadora gráfica, vamos construir a nuvem de pontos correspondente à soma obtida e ao total final de pontos, para encontrar a recta de re- gressão assim como o coeficiente de correlação.

O coeficiente de correlação entre a soma dos pontos dessas duas provas e o resultado final é de 0,62. Se usarmos a recta de regressão para prever o re- sultado final do atleta finlandês, este é de aproxima- damente 8239 pontos.

1. Erki Nool EST 2. Roman Sebrle CZE 3. Chris Huffins USA 4. Dean Macey GBR 5. Tom Pappas USA 6. Tomas Dvorak CZE 7. Frank Busemann GER 8. Attila Zsivoczky HUN 9. Stefan Schmid GER 10. Henrik Dag ard SWE

100 m 933 878 980 903 901 881 881 838 874 897 Peso 796 803 806 766 782 846 760 787 731 788 Soma (100 m + peso) 1729 1681 1786 1669 1683 1727 1641 1625 1605 1605 Total final 8641 8606 8595 8567 8425 8385 8351 8277 8206 8178 35 1 0,8 0,6 0,4 0,2 0 45 55 65 75 85 95

Prova global N.o4(Pág. 198)

1. a.Usando uma calculadora gráfica, colocamos os da dos na Lista 1 e calculamos as medidas estatísticas:

Podemos observar que a média é –x = 10 010,67 e a mediana med = 8312,5.

b.É a mediana, porque a média está muito influen- ciada pelo número de lojas existentes em Lisboa, Porto e Setúbal, valores que se afastam muito da realidade nacional.

c.Em alguns distritos isto verifica-se, mas não em todos, como é o caso de Aveiro, Santarém, Coim- bra, Évora e Portalegre.

2. a.Utilizando, uma vez mais, a calculadora, temos:

A média é –x = 105,65 km/h, a mediana é igual a 100 km/h e a moda é igual a 90 km/h.

b.A alteração introduzida só vai afectar a média, o que nos permite afirmar que a média é facilmente alterada com a substituição de um valor por outro diferente. Vejamos:

A média passou de 105,65 km/h para 110,87 km/h, enquanto que a mediana se manteve inalterada.

3. a.Pela análise do diagrama vemos que existem 12 alunos do sexo feminino e 17 do sexo masculino. Metade dos alunos do sexo feminino têm 50 ou mais anos, enquanto que mais de metade dos alu- nos do sexo masculino têm entre 11 e 37 anos.

b.A moda deste conjunto de dados é 64 anos.

c.A diferença prende-se com o facto de o Leonardo, após ter agrupado os dados em classes, usar a marca da classe para calcular a média, introdu- zindo, deste modo, um enviesamento nos cálcu- los que efectuou, o que por si só é suficiente para conduzir a valores discrepantes dos valores reais calculados pela Catarina.

4. a. Usando a seguinte janela de visualização:

obtemos a nuvem de pontos:

b.Podemos observar que, à medida que a idade au- menta, também aumenta a altura das crianças.

c. A altura prevista pela recta de regressão, para uma criança de 118 meses, é de 143,7 cm, confor - me pode ser observado abaixo:

No documento Mat Aleph Professor (páginas 72-80)

Documentos relacionados