• Nenhum resultado encontrado

texto7 2019 FisExp

N/A
N/A
Protected

Academic year: 2021

Share "texto7 2019 FisExp"

Copied!
27
0
0

Texto

(1)

Universidade Federal de Itajubá – UNIFEI

Instituto de Física & Química – IFQ

Universidade Aberta do Brasil – UAB

Curso de Licenciatura em Física – EaD

Textos Auxiliares para as disciplinas:

Física Experimental

Metodologia Científica

Prof. Gabriel Rodrigues Hickel

Baseado em material didático criado por

Prof. Agenor Pina da Silva & Profa. Mariza Grassi

Ano 2019

 Todos os direitos reservados à UNIFEI e UAB. O uso deste material para fins didáticos, não lucrativos, é permitido, desde que mantidos os créditos.

(2)

Conteúdo deste texto:

XXIV – Valores representativos de uma amostra ou população XXV – Análise da dispersão de dados estatísticos

XXVI – Medidas de Posição na distribuição

XXVII - Como escrever valores estatísticos na forma de medida XXVIII - Quadro resumo para medidas estatísticas

Referências Bibliográficas utilizadas neste texto Livros:

1 – Vuolo, J.H., Fundamentos da Teoria de Erros. Editora Edgard Blücher LTDA, 2a Edição, São Paulo, SP, 2000.

2 – Corradi, W.; Vieira, S.L.A.; Társia, R.D.; Balzuweit, K.; Fonseca, L.; Oliveira, W.S., Física Experimental. Editora da UFMG, Belo Horizonte, MG, 2008.

3 – Morettin, L.G., Estatística Básica – vol. I e II. Editora Makron Books, São Paulo, SP, 2004.

4 – Piacentini, J.J., Grandi, B.C.S., Hofmann, M.P., Lima, F.R.R. e Zimmermann, E., Introdução ao Laboratório de Física. Editora da UFSC, Florianópolis, 2a edição, SC, 2005.

(3)

XXIV – Valores representativos de uma amostra ou população

No módulo anterior analisamos a distribuição de dados através de uma tabela de frequências ou histograma, obtendo uma visão clara da mesma, mas não de forma resumida. Muitas vezes, quando efetuamos a estatística de uma amostra ou o censo de uma população, sentimos a necessidade de obter valores numéricos mais objetivos que sintetizam a informação contida nos dados, caracterizando os valores estatísticos da amostra ou parâmetros da população. Estes valores são chamados de valores representativos da amostra ou população. Eles são chamados assim porque representam a distribuição de dados de forma resumida através de alguns poucos valores numérico.

Os primeiros valores representativos que estudaremos são os valores de tendência central. Eles só podem ser calculados para dados numéricos. Como o nome mesmo já diz, estes valores numéricos indicam a tendência de concentração central da amostra ou população. Desta forma, só faz sentido falar em valor de tendência central, se a distribuição dos dados (histograma) realmente mostrar concentração em torno de algum valor. Existem os seguintes valores de tendência central:

• Ponto Médio

O ponto médio da amostra ou população é exatamente o ponto médio do intervalo de variação total, ou seja:

2 valor menor valor maior ++++ = = = = pm

O ponto médio é pouco utilizado como valor de tendência central, pois está sujeito à valores espúrios. Ele pode ser útil para uma avaliação rápida em laboratório e na análise de assimetrias.

• Moda

A moda é o valor mais frequente da amostra ou população. Ela é bastante utilizada para dados não numéricos ou dados com números inteiros. Em amostras de dados com números reais, geralmente não temos valores repetidos ou poucas repetições. Nestas situações é indicado utilizar como moda, o ponto médio da classe mais frequente.

Para dados não numéricos ou dados com números inteiros, podemos definir genericamente a moda M dos dados xi, com frequência de

ocorrência f (xi); como:

(4)

Para dados com números reais, podemos definir genericamente a moda M dos dados xi distribuídos nas classes Cj, com frequência de ocorrência f

(xi); como: 2 de inferior limite de superior limite C C

M ==== ++++ , tal que f

(((( ))))

C >>>> f

(((( ))))

Cj , para todo j.

• Mediana

A mediana m é o valor que divide a amostra ou população de N elementos

xi exatamente em duas partes iguais, ou seja:

m , tal que teremos N/2 elementos para xi <<<<m ou xi >>>>m

A mediana é uma medida bastante robusta de valor de tendência central da amostra ou população e particularmente mais fidedigna quando a distribuição de dados é levemente assimétrica. Para obter a mediana, deve-se colocar a amostra ou população em ordem crescente. Então, conforme a paridade do número N de dados, a mediana será:

m==== x((((N++++1)))) 2 se N é ímpar ; (((( )))) 2 1 2 2 ++++ ++++ = = = = xN x N m se N é par.

Por exemplo, vamos supor que a amostra tenha N = 15 elementos. Então, a mediana desta amostra será m==== x((((15++++1)))) 2 ==== x8, ou seja, o oitavo elemento em

ordem crescente. Suponha também que uma segunda amostra tenha 20 elementos. Assim, a mediana será o ponto médio entre o décimo e o décimo-primeiro elemento: (((( )))) 2 2 11 10 1 2 20 2 20 x x x x m==== ++++ ++++ ==== ++++

(5)

• Média Aritmética

A média aritmética ou simples é o valor de tendência central mais utilizado. Quando a amostra ou população tem uma distribuição relativamente simétrica, a média é sempre o melhor estimador da tendência central dos dados. A média aritmética µµµµ dos N dados xi é calculada da seguinte maneira:

N x N N i i

= = = = = = = = = = =

= somadetodososdados 1

µ

µµ

µ

• Média Ponderada

A média ponderada é semelhante à aritmética, mas neste caso cada elemento da população tem um peso estatístico diferente, ou seja, os elementos da amostra ou população não são iguais. Por exemplo, ao compor a renda média de uma população, precisamos estabelecer pesos na amostra, porque a concentração de renda pode ser grande. A média ponderada µµµµ p dos N

dados xi, com pesos estatísticos pi é calculada da seguinte maneira:

((((

))))

= = = = = = = = × × × × = == = = = = = N i i N i i i p p x pesos os todos de soma p 1 1 dados os todos de ponderada soma µ µµ µ

Mas qual valor de tendência central devemos utilizar? A média aritmética, a mediana ou a moda? Isto quem vai nos dizer é a distribuição dos dados. O uso de um ou outro valor de tendência central está vinculado ao grau de simetria da distribuição. Voltaremos a esta discussão mais para o final deste texto.

Exemplificando o cálculo de valores de tendência centrais

Vistos os valores de tendência central acima, vamos ver um exemplo bem simplificado de aplicação direta do cálculo dos mesmos, sem a preocupação de qual deles é o mais indicado. Seja uma pequena amostra de cinco valores de saltos em distância de um atleta:

(6)

⇒ Ponto Médio

Vemos que os extremos da amostra são 7,87m (menor valor) e 8,18m (maior valor). Então, o cálculo do ponto médio será:

025 , 8 2 87 , 7 18 , 8 2 valor menor valor maior = = = = + ++ + = == = + + + + = = = = pm m

Note que as operações com algarismos significativos (A.S.) continuam valendo, pois estamos tratando com medidas.

⇒ Moda

O cálculo da Moda é complicado neste caso, pois estamos tratando com dados reais (nenhum se repete) e a amostra é muito pequena (permite fazer apenas duas classes na tabela de freqüências). Colocando a amostra em ordem crescente:

7,87 m – 7,98 m – 8,05 m – 8,13 m – 8,18 m

verificamos que o intervalo total é (8,18 – 7,87) = 0,31 m. Como teremos apenas duas classes, o intervalo de cada uma delas será 0,31/2 = 0,155 m. Então, a tabela de frequências fica como indicado na Tabela 7.1:

Tabela 7.1 – Tabela de Frequências da amostra de saltos Classe Intervalo (m) Frequência

I 7,87 – 8,025 2

II 8,026 – 8,18 3

Na Tabela 7.1 fica claro que a classe mais frequente é a classe II. Então, a Moda é calculada como:

105 , 8 2 026 , 8 18 , 8 2 de inferior limite de superior limite = == = + + + + = == = + ++ + = == = C C M m

onde novamente observamos as operações com A.S. ⇒ Mediana

A amostra tem N = 5 dados (ímpar). Então, o valor da mediana será (considerando a amostra colocada em ordem crescente):

(((( 1)))) 2 ==== ((((5 1)))) 2 ==== (((( ))))6 2 ==== 3 ====8,05

= ==

= x ++++ x ++++ x x

(7)

ou seja, a mediana será um dado da própria amostra em ordem crescente, no caso o terceiro dado, pois ele divide a amostra em duas partes iguais: dois valores abaixo e dois valores acima dele.

⇒ Média Aritmética

Para o cálculo da média simples, devemos somar todos os dados e depois dividir pelo número total deles, mas sempre observando as operações com A.S.: 042 , 8 5 21 , 40 5 18 , 8 13 , 8 05 , 8 98 , 7 87 , 7 5 5 1 1 = == = = = = = + + + + + ++ + + + + + + + + + = == = = == = = == =

= = = = = = = = i i N i i x N x µ µ µ µ m

Note que os valores de tendência central, via de regra, apresentam diferenças entre si. As razões para isto estão vinculadas ao grau de simetria da amostra e aos erros destes valores (ambos serão discutidos mais para frente).

Para esta amostra de saltos, não faz sentido calcular a média ponderada, pois assumimos que todos os valores têm a mesma importância (mesmo peso estatístico).

Vamos exemplificar o cálculo de uma média ponderada. Suponha que a nota bimestral da disciplina de Física Experimental seja composta da seguinte maneira:

50% - prova bimestral; 25% - laboratório; 20% - trabalho de pesquisa; 5% - listas de exercícios.

O aluno “Fulano” obteve as seguintes notas: prova bimestral = 65; laboratório = 87; trabalho de pesquisa = 90; listas de exercícios = 58. Qual será a nota bimestral dele?

Observe que cada avaliação tem um peso estatístico diferente na composição da nota final. Então:

((((

))))

15 , 75 100 7515 % 5 % 20 % 25 % 50 % 5 58 % 20 90 % 25 87 % 50 65 1 1 = = = = = = = = + ++ + + + + + + + + + × ×× × + + + + × × × × + + + + × × × × + + + + × ×× × = = = = × ×× × = = = =

= = = = = = = = N i i N i i i p p x p µ µ µ µ

A seguir, exemplificamos o cálculo dos valores de tendência central para amostras maiores. Para tanto, utilizaremos as amostras que trabalhamos no

(8)

Texto 6 (módulo anterior). Primeiro, vamos calcular os valores de tendência central para a amostra de notas da primeira prova de Metodologia Científica, a qual repetimos abaixo:

3,7 – 4,2 – 4,6 – 4,6 – 4,7 – 4,8 – 4,8 – 5,1 – 5,1 – 5,5 – 5,6 – 5,8 – 6,2 – 6,5 – 6,5 – 6,5 – 6,7 – 6,8 – 6,9 – 6,9 – 7,0 – 7,1 – 7,1 – 7,3 – 7,4 – 7,5 – 7,5 – 7,7 – 7,8 – 8,0 – 8,0 – 8,2 – 8,3 – 8,4 – 8,4 – 8,6 – 8,6 – 8,7 – 8,7 – 8,8 – 8,9 – 8,9 – 9,0 – 9,0 – 9,2 – 9,5 – 9,8 – 9,9 – 10,0 – 10,0 Ponto Médio: 2 valor menor valor maior ++++ = == = pm6,85 2 7 , 13 2 7 , 3 0 , 10 = == = = = = = + + + + = = = = pm Moda:

Como os dados são números reais, a moda será o ponto médio da classe mais frequente (classe VI, conforme a Tabela 6.4 do Texto 6). Então:

66 , 8 2 1 , 9 21 , 8 = = = = + + + + = = = = M Mediana:

A amostra já está em ordem crescente, o que facilita a visualização do valor da mediana. Existem 50 notas, ou seja, N é par. Assim:

(((( )))) (((( )))) 45 , 7 2 5 , 7 4 , 7 2 2 2 26 25 1 2 50 2 50 1 2 2 = = = = + ++ + = = = = + + + + = = = = + + + + = == = + + + + = = = = x x ++++ x x ++++ x x m N N Média Aritmética: 296 , 7 50 8 , 364 dados os todos de soma 1 = = = = = = = = = = = = = = = =

= = = = N x N N i i µ µµ µ

Para esta amostra não faz sentido calcular a média ponderada, pois todos os dados têm o mesmo peso estatístico, ou seja, são iguais.

Vamos ver onde estão estes valores que calculamos em relação ao histograma da distribuição (Figura G-1). A Figura G-1 mostra a mesma distribuição da Figura F-1 (Texto 6), mas com os valores de tendência centrais indicados no histograma. Note que eles não são coincidentes, o que é comum de acontecer em distribuições de dados que não são simétricas.

(9)

Figura G-1 – Distribuição das notas da primeira prova de Metodologia Científica, com os valores de tendência central indicados.

Vamos aplicar no segundo exemplo, para a amostra de alturas de adultos do sexo masculino (com a frequência na Tabela 6.5 - Texto 6), a qual reproduzimos aqui: 1,58 – 1,64 – 1,66 – 1,69 – 1,70 – 1,71 – 1,72 – 1,72 – 1,72 – 1,73 – 1,73 – 1,74 – 1,74 – 1,75 – 1,75 – 1,76 – 1,76 – 1,76 – 1,77 – 1,77 – 1,77 – 1,78 – 1,78 – 1,79 – 1,80 – 1,83 – 1,85 – 1,87 – 1,90 – 1,91 Ponto Médio: 2 valor menor valor maior ++++ = == = pm1,74 2 49 , 3 2 91 , 1 58 , 1 = = = = = == = + + + + = = = = pm m Moda:

Como também são dados com números reais, a Moda é avaliada pelo ponto médio da classe mais freqüente (classe III, conforme a Tabela 6.5 - Texto 6). Então: 746 , 1 2 778 , 1 713 , 1 = = = = + ++ + = = = = M m

(10)

Mediana:

A amostra já está em ordem crescente, o que facilita o cálculo da mediana. Temos 30 alturas, ou seja, N é par. Assim:

(((( )))) (((( )))) 76 , 1 2 76 , 1 75 , 1 2 2 2 16 15 1 2 30 2 30 1 2 2 = = = = + ++ + = = = = + ++ + = == = + + + + = == = + + + + = = = = x x ++++ x x ++++ x x m N N m Média Aritmética: 756 , 1 30 68 , 52 dados os todos de soma 1 = = = = = = = = = = = = = = = =

= = = = N x N N i i µ µµ µ m

Para esta amostra também não faz sentido calcular a média ponderada, pois todos os dados têm o mesmo peso estatístico, ou seja, são iguais em importância.

Abaixo, os valores de tendência central calculados são indicados na distribuição da amostra, na forma de histograma (Figura G-2). Como esta distribuição é mais concentrada que a anterior, os valores coincidem mais entre si (o que sugere que ela seja simétrica).

Figura G-2 –

Distribuição das alturas de adultos do sexo masculino, com os valores de tendência central indicados. 2 4 15 5 4 Ponto Médio Moda Mediana Média Arit. 1.56 1.60 1.64 1.68 1.72 1.76 1.80 1.84 1.88 1.92 0 2 4 6 8 10 12 14 16 N ú m e ro d e P e s s o a s Altura (m)

(11)

XXV – Análise da dispersão de dados estatísticos

Ao longo dos textos 6 e 7, estamos sempre falando em dispersão de dados na discussão das distribuições que analisamos, bem como na discussão dos valores de tendência central. Mas o que significa dispersão no conceito de medidas estatísticas? A Figura G-3 mostra duas distribuições de dados (histogramas), referentes a duas amostras distintas de idades de alunos, cada qual com 201 elementos. As duas distribuições têm a mesma média; 13,0 anos. Você saberia dizer qual é a principal diferença entre elas?

7 8 9 10 11 12 13 14 15 16 17 18 0 10 20 30 40 50 60 70 F re q ü ê n c ia A b s o lu ta

Idade Média dos Alunos

7 8 9 10 11 12 13 14 15 16 17 18 0 10 20 30 40 50 60 70 F re q ü ê n c ia A b s o lu ta

Idade Média dos Alunos

Figura G-3 – Duas distribuições de dados com média de 13,0 anos.

A principal diferença entre estas duas distribuições é a dispersão. Os dados da primeira variam no intervalo aproximado de 8 a 17,5 anos. Na segunda, esta variação vai de 11,5 a 14,5 aproximadamente. A largura de cada classe do histograma é diferente, o que também reflete o fato de que a segunda distribuição tem dispersão menor.

Intuitivamente, sabemos o que é dispersão, bem como analisar quando um grupo de dados está mais disperso que outro. Na Figura G-4 fica evidente a diferença de dispersão entre dois grupos de dados:

Figura G-4 – A dispersão do conjunto de pontos da esquerda é maior que o conjunto de pontos da direita, que se encontra mais concentrado.

Entretanto, é necessário quantificar de alguma forma a dispersão de dados, de modo que a mesma possa ser avaliada objetivamente. Existem vários

(12)

valores representativos da dispersão de dados, mas os mais utilizados são:

• Sexto da Amplitude

A amplitude dos dados é a mesma coisa que o intervalo total de variação da amostra ou população. É uma medida de dispersão pouco utilizada, pois fornece mais a extensão do que a dispersão dos dados. De qualquer forma, pode servir como uma avaliação rápida da dispersão. O sexto da amplitude é calculado como: 6 menor valor -maior valor 6 / amplitude da sexto ==== A ==== • Desvio Médio

O desvio médio é calculado em relação à média aritmética. Ele é uma medida de dispersão que leva em conta todos os dados da amostra ou população. Das medidas de dispersão, é o menos sujeito à presença de dados espúrios. O desvio médio é calculado como:

N x d i

= = = = − − − − = = = = = = = = N 1 i médio desvio µ µ µ µ • Desvio Padrão

O desvio padrão é a medida de dispersão mais robusta, sobretudo quanto à distribuição da amostra é simétrica ou levemente assimétrica. Ele leva em conta o desvio quadrático médio em relação à média aritmética. Por isso, está mais sujeito à presença de dados espúrios. O desvio padrão é calculado como (para amostras com N < 100):

((((

))))

1 padrão desvio N 1 i 2 − −− − − −− − = == = = = = =

= == = N xi µµµµ σ σ σ σ

(13)

Para amostras com N ≥ 100:

((((

))))

N xi

= == = − −− − = == = = = = = N 1 i 2 padrão desvio µ µµ µ σ σ σ σ

Como no caso dos valores de tendência central, o uso deste ou aquele valor de dispersão estará vinculado ao grau de simetria da distribuição de dados. Para distribuições simétricas ou levemente assimétricas, utiliza-se o desvio padrão. Se a distribuição é assimétrica, é mais aconselhável utilizar o desvio médio.

Exemplificando o cálculo de valores de dispersão

Para exemplificar o uso dos valores de dispersão, vamos calculá-los para a pequena amostra de saltos em distância (ver página 105 deste texto) que utilizamos para calcular os valores de tendência centrais.

⇒ Sexto da Amplitude

Vemos que os extremos da amostra são 7,87m (menor valor) e 8,18m (maior valor). Então, o cálculo do sexto da amplitude será:

0517 , 0 6 7,87 -8,18 6 menor valor -maior valor 6 / amplitude da sexto = A=== ==== ==== ==== m

Note que, diferentemente do cálculo dos valores de tendência centrais, NO CÁLCULO DOS VALORES DE DISPERSÃO NÃO HÁ NECESSIDADE DE OBSERVAR AS OPERAÇÕES COM A.S. A razão para isto é que estes valores serão utilizados no cálculo dos erros dos valores centrais e estes erros, terão regras específicas de escrita.

⇒ Desvio Médio

O cálculo do desvio médio envolve o valor da média aritmética (µµµµ), o qual já calculamos previamente. Então, podemos calculá-lo como segue:

⇒ ⇒⇒ ⇒ − − − − = = = = − − − − = = = = = = = =

= == = = == = 5 042 , 8 médio desvio 5 1 i N 1 i i i x N x d µ µµ µ m 0944 , 0 5 472 , 0 5 138 , 0 088 , 0 012 , 0 062 , 0 172 , 0 5 042 , 8 18 , 8 042 , 8 13 , 8 042 , 8 03 , 8 042 , 8 98 , 7 042 , 8 87 , 7 = = = = = == = + ++ + + + + + + ++ + + + + + = == = ⇒ ⇒⇒ ⇒ − −− − + ++ + − − − − + ++ + − − − − + + + + − − − − + + + + − − − − = == = d d

(14)

⇒ Desvio Padrão

O cálculo do desvio padrão também envolve o valor da média aritmética (µµµµ), o qual já calculamos previamente. A amostra tem apenas cinco dados. Então, podemos calculá-lo como segue:

((((

))))

((((

))))

((((

))))

⇒ ⇒ ⇒ ⇒ − − − − = = = = − − − − − − − − = == = − − − − − − − − = == = = = = =

= = = = = == = = == = 4 042 , 8 1 5 042 , 8 1 padrão desvio 5 1 i 2 5 1 i 2 N 1 i 2 i i i x x N x µµµµ σ σσ σ

((((

))))

((((

))))

((((

))))

((((

))))

((((

))))

((((

))))

((((

))))

((((

))))

((((

))))

((((

))))

m 1228 , 0 01509 , 0 4 06036 , 0 4 138 , 0 088 , 0 012 , 0 062 , 0 172 , 0 4 042 , 8 18 , 8 042 , 8 13 , 8 042 , 8 03 , 8 042 , 8 98 , 7 042 , 8 87 , 7 2 2 2 2 2 2 2 2 2 2 = = = = = == = = = = = + + + + + + + + + ++ + + + + + = == = ⇒ ⇒ ⇒ ⇒ − − − − + + + + − − − − + + + + − − − − + ++ + − −− − + ++ + − −− − = == = σ σ σ σ σ σ σ σ

Os cálculos do desvio médio e do desvio padrão são bastante trabalhosos, sobretudo quando o número de elementos da amostra ou população, é grande. Por isso, é recomendável o uso de calculadoras e/ou programas de computador que façam estes cálculos de maneira automática, uma vez que as chances de erros de cálculos manuais são grandes. Assim, APRENDA A UTILIZAR O MODO ESTATÍSTICO DE SUA CALCULADORA E ALGUM PROGRAMA DE COMPUTADOR QUE FAÇA CÁLCULOS ESTATÍSTICOS.

Seguimos com mais exemplos do uso dos valores de dispersão. Vamos calculá-los para a amostra de notas da primeira prova de Metodologia Científica: Sexto da Amplitude 05 , 1 6 3 , 6 6 7 , 3 0 , 10 6 menor valor -maior valor 6 ==== ==== − − − − = = = = = == = A Desvio Médio

(já calculamos previamente a média aritmética, µµµµ ====7,296)

40432 , 1 50 216 , 70 50 296 , 7 50 1 i N 1 i = = = = = = = = − − − − = = = = − − − − = = = =

= == = = == = i i x N x d µ µ µ µ Desvio Padrão

(já calculamos previamente a média aritmética, µµµµ ====7,296)

((((

))))

((((

))))

69573 , 1 49 296 , 7 1 50 1 i 2 N 1 i 2 = = = = − − − − = = = = − − − − − − − − = = = =

= = = = = = = = i i x N x µµµµ σ σ σ σ

(15)

Para a amostra de alturas de adultos do sexo masculino: Sexto da Amplitude 055 , 0 6 33 , 0 6 58 , 1 91 , 1 6 menor valor -maior valor 6 ==== ==== − − − − = = = = = == = A m Desvio Médio

(já calculamos previamente a média aritmética, µµµµ ====1,756m)

05067 , 0 30 520 , 1 30 756 , 1 30 1 i N 1 i = = = = = = = = − − − − = = = = − − − − = = = =

= == = = == = i i x N x d µ µ µ µ m Desvio Padrão

(já calculamos previamente a média aritmética, µµµµ ====1,756m)

((((

))))

((((

))))

07089 , 0 29 756 , 1 1 30 1 i 2 N 1 i 2 = = = = − − − − = = = = − − − − − − − − = = = =

= = = = = = = = i i x N x µµµµ σ σ σ σ m

XXVI – Medidas de Posição na distribuição

Ao longo desta análise de medidas estatísticas (Textos 6 e 7) temos abordado a questão da simetria da distribuição de dados. Mas como podemos avaliar se uma distribuição é simétrica ou não? Visualmente, com o histograma, é possível avaliar casos extremos (quando a distribuição é muito simétrica ou muito assimétrica). Mas para qualquer situação, podemos utilizar os valores de tendência central e os valores de dispersão nesta avaliação. Além deles, existem medidas adicionais que auxiliam na análise das características da distribuição. São as chamadas medidas de posição. As mais utilizadas são:

• Escore

O escore indica quanto um determinado dado da amostra está afastado da média aritmética µµµµ em termos de desvios padrões σσσσ. O escore zi do

dado xi da amostra é fornecido por:

σ σ σ σ µ µ µ µ − −− − = == = i i x z

(16)

O escore é próprio de cada dado e pode ser negativo ou positivo. Escores negativos estão aquém da média, ao passo que escores positivos estão além dela. É uma medida muito útil para descarte de dados espúrios.

• Quartis

Semelhantes à mediana, os quartis são valores que separam as quartas partes dos dados da amostra ou população (de 1/4 em 1/4), quando ordenados de forma crescente. A análise dos quartis fornece uma boa indicação da simetria da distribuição, como veremos adiante nesta seção. São definidos como:

Q1, tal que teremos N/4 elementos para xi <<<<Q1 Q2, tal que teremos N/2 elementos para xi <<<<Q2 Q3, tal que teremos 3N/4 elementos para xi <<<<Q3

• Percentis

Definem os valores que separam a amostra ou população nas suas partes percentuais (10%, 20%, 30%,....,90%), uma vez que ela esteja ordenada de forma crescente. É bastante útil na separação de dados ou na análise da distribuição. Os valores dos percentis são definidos como:

P10, tal que teremos N/10 elementos (10%), para xi <<<<P10 P20, tal que teremos N/5 elementos (20%), para xi <<<<P20 P30, tal que teremos 3N/10 elementos (30%), para xi <<<<P30

...

P90, tal que teremos 9N/10 elementos (90%), para xi <<<<P90

Os valores das medidas de posição podem auxiliar na avaliação da qualidade dos dados, na separação de partes da amostra e na análise de simetria.

O escore é bastante útil para descartar dados espúrios (ruins). Definiremos como corte de qualidade limite para um dado, se o módulo de seu escore é menor ou igual a 3, ou seja:

(17)

Se zi ≤≤≤≤3, então o dado deverá ser considerado nos cálculos de valores estatísticos;

Se zi >>>>3, então o dado deverá ser descartado.

Os percentis são mais utilizados para separar dados de uma amostra, conforme algum valor de corte. Por exemplo, podemos querer saber qual a nota de corte da amostra de notas da primeira prova de Metodologia Científica, que separa os 10% melhores da turma. Ou então, qual a altura de corte que separa os 30% mais baixos da amostra de altura de adultos.

Já os quartis são essenciais na análise do grau de simetria1 da amostra. Se a distribuição de valores de uma amostra ou população é simétrica, então esperamos que (Q2 – Q1) deva ser aproximadamente igual a (Q3 – Q2). Assim, podemos utilizar os valores dos quartis para avaliar o fator ou grau de simetria da distribuição: 1 3 2 2 1 3 Q Q Q Q Q − − − − × ×× × − − − − + + + + = == = Φ Φ Φ Φ .

Para este fator temos que se ΦΦΦ = 0, a distribuição é simétrica. Quanto mais ΦΦ ΦΦΦ → 1, mais assimétrica a distribuição é. Nesta disciplina, adotaremos a avaliação2 indicada na Tabela 7.2:

Tabela 7.2 – Classificação da distribuição conforme o grau de simetria Grau ou fator de simetria (ΦΦΦΦ) Característica da distribuição

Entre 0 e 0,1 Simétrica

Entre 0,1 e 0,2 Levemente assimétrica

Maior que 0,2 Assimétrica

Vamos exemplificar algumas medidas de posição com a amostra de alturas de adultos do sexo masculino (pág. 109):

Escore

Qual o escore das alturas 1,70m e 1,87m que aparecem na amostra? Como vimos antes, a média aritmética desta amostra é 1,756m e o desvio padrão 0,07089m. então:

1

Existem maneiras mais eficientes de analisar o grau de simetria das distribuições de dados, mas que envolvem cálculos e análises mais sofisticadas. Isto fica para a disciplina de Probabilidade & Estatística.

2 A classificação de simetria e os valores do grau de simetria é um tanto arbitrária e pode variar bastante de autor

(18)

79 , 0 07089 , 0 756 , 1 70 , 1 5 5 ====−−−− − −− − = = = = − −− − = = = = σ σσ σ µ µµ µ x z 1,61 07089 , 0 756 , 1 87 , 1 28 28 ====++++ − − − − = = = = − − − − = = = = σ σ σ σ µ µ µ µ x z

Podemos interpretar estes valores da seguinte maneira: a altura de 1,70m está afastada aquém da média em 0,79 desvios padrões. Já a altura de 1,87m está afastada além da média em 1,61 desvios padrões. Quanto mais afastada da média, mais rara (ou menos característica) é esta altura.

Quartis

Para esta amostra temos 30 valores. Para encontrarmos os valores dos quartos das amostras temos que:

• a mediana (que já calculamos) ou segundo quartil divide a amostra em duas partes de 15 elementos;

• as metades de 15 elementos são por sua vez divididas na metade pelo oitavo (x8) e vigésimo-terceiro (x23) elementos, sendo estes os primeiro

e terceiro quartis, respectivamente. Assim;

Q1 = 1,72m; Q2 = 1,76m; Q3 = 1,78m

No caso da distribuição das alturas, temos que:

333 , 0 06 , 0 02 , 0 72 , 1 78 , 1 76 , 1 2 72 , 1 78 , 1 = = = = − −− − = = = = − − − − × × × × − − − − + + + + = = = = Φ ΦΦ Φ .

Ou seja, a distribuição de alturas é assimétrica, o que o histograma não sugere. Este é um bom exemplo de como a avaliação visual pode ser equivocada em classificar a característica da distribuição. Chegamos inclusive a achar que a distribuição seria simétrica, uma vez que os valores centrais eram próximos entre si.

Percentis

Vamos supor que queiramos conhecer o valor de altura que separa os 10% mais baixos da amostra de alturas de adultos do sexo masculino, bem como o valor que separa os 20% mais altos. A amostra tem 30 elementos, então, 10% equivale a 3 elementos e 20% equivale a 6 elementos.

Já que a amostra está colocada em ordem crescente, tudo é facilitado. O valor de altura que separa os 10% mais baixos da amostra é o ponto médio entre o terceiro e o quarto elemento:

(19)

68 , 1 2 69 , 1 66 , 1 2 10 P ==== x3 ++++x4 ==== ++++ ==== m

O valor de altura que separa os 20% mais altos será o ponto médio entre o vigésimo-quarto e o vigésimo-quinto elemento:

80 , 1 2 80 , 1 79 , 1 2 80 P ==== x24 ++++x25 ==== ++++ ==== m

Fixando os conceitos de medidas estatísticas com dois exemplos

Para fixar os conceitos que vimos no módulo anterior (Texto 6) e neste (Texto 7), vamos resolver dois exemplos:

1) A amostra abaixo é da massa corporal (em kg) de adultos do sexo masculino e contém 27 elementos, já dispostos em ordem crescente: 2)

58 – 63 – 67 – 69 – 72 – 74 – 75 – 77 – 79 – 81 – 82 – 82 – 83 – 84 – 85 – 85 – 86 – 86 – 87 – 88 – 89 – 90 – 93 – 95 – 99 – 103 – 115

Vamos construir a tabela de frequências:

Número de Classes = 27 ====5,19615 ⇒⇒⇒⇒ 5 classes. Intervalo de Variação = 115−−−−58====57kg.

Tamanho das classes = 11,4 5

57 = ==

= kg.

Tabela 7.3 – Tabela de Frequência da amostra de massas corporais Classe Intervalo (kg) Freq. Absoluta Freq. Relativa %

I 58 a 69,4 4 14,8

II 69,5 a 80,8 5 18,5

III 80,9 a 92,2 13 48,1

IV 92,3 a 103,6 4 14,8

V 103,7 a 115 1 3,7

(20)

Valores de Tendência Central: Ponto médio = 86,5 2 58 115 = == = + ++ + = = = = pm kg. Moda = 86,55 2 2 , 92 9 , 80 = = = = + + + + = = = = M kg. Mediana = m==== x14 ====84kg. Média aritmética = 83,22 27 2247 = == = = = = = µ µ µ µ kg. Medidas de Dispersão: Sexto da Amplitude = 9,5 6 57 6 / ==== ==== A kg. Desvio médio = 88074 , 8 27 78 , 239 27 22 , 83 27 1 = = = = = = = = − −− − = == =

= = = = i i x d kg. Desvio padrão =

((((

))))

21076 , 12 26 22 , 83 27 1 i 2 = == = − − − − = = = =

= == = i x σ σσ σ kg.

(21)

Exemplos de Medidas de Posição:

Quão raras são as massas corporais de 58 e 115 kg, extremos inferior e superior da amostra? Escore = 2,07 21076 , 12 22 , 83 58 1 1 ====−−−− − − − − = == = − − − − = == = σ σ σ σ µ µ µ µ x z

O escore desta massa é de -2,07 desvio padrões e portanto, está dentro da normalidade (escore > -3). Escore = 2,60 21076 , 12 22 , 83 115 27 27 ====++++ − − − − = = = = − −− − = = = = σ σ σ σ µ µ µ µ x z

O escore desta massa é de +2,60 desvio padrões e portanto, está dentro da normalidade (escore < 3).

Concluímos que não existem dados espúrios (ruins) na amostra. Calculando os quartis da amostra:

75 1==== x7 ====

Q kg; Q2==== x14 ====84kg; Q3==== x21 ====89kg. O fator de simetria da distribuição é:

286 , 0 75 89 84 2 75 89 = = = = − −− − × ×× × − − − − + ++ + = = = = Φ Φ Φ Φ

Concluímos que a amostra é assimétrica.

Para exemplificar um uso dos percentis, vamos supor a seguinte questão: Qual o valor que determina os 10% de maior massa da amostra?

Para uma amostra de 27 elementos, 10% equivale a 2,7 elementos. Como o número de elementos é inteiro, arredondamos o resultado, ou seja, 10% irá equivaler a 3 elementos. Assim, o P90 será calculado como o ponto médio entre o vigésimo-quarto e o vigésimo-quinto elementos:

0 , 97 2 99 95 2 90 P ==== x24 ++++x25 ==== ++++ ==== kg.

2) A amostra a seguir apresenta 32 medidas da aceleração da gravidade (em m/s2), executadas por estudantes em laboratório e já colocadas em ordem crescente:

(22)

9,64 – 9,68 – 9,71 – 9,72 – 9,75 – 9,75 – 9,76 – 9,76 – 9,76 – 9,76 – 9,77 – 9,77 – 9,77 – 9,78 – 9,78 – 9,78 – 9,78 – 9,79 – 9,79 – 9,80 – 9,80 – 9,80 – 9,81 – 9,81 – 9,82 – 9,83 – 9,83 – 9,85 – 9,86 – 9,87 – 9,91 – 9,96

Iniciando com a tabela de freqüências:

Número de Classes = 32 ====5,65865 ⇒⇒⇒⇒ 5 classes. Intervalo de Variação = 9,96−−−−9,64====0,32 m/s2. Tamanho das classes = 0,064

5 32 , 0 = == = m/s2 .

Tabela 7.4 – Tabela de Frequência da amostra de g

Classe Intervalo (m/s2) Freq. Absoluta Freq. Relativa %

I 9,64 a 9,704 2 6,2

II 9,705 a 9,768 8 25,0

III 9,769 a 9,832 17 53,1

IV 9,833 a 9,896 3 9,4

V 9,897 a 9,96 2 6,2

Segue o histograma correspondente:

Valores de Tendência Central:

Ponto médio = 9,800 2 96 , 9 64 , 9 = = = = + + + + = = = = pm m/s2 .

(23)

Moda = 9,8005 2 832 , 9 769 , 9 = = = = + + + + = = = = M m/s2. Mediana = 9,780 2 78 , 9 78 , 9 2 17 16 = == = + + + + = == = + + + + = = = = x x m m/s2. Média aritmética = 9,7891 32 25 , 313 = == = = = = = µ µ µ µ m/s2 . Medidas de Dispersão: Sexto da Amplitude = 0,05333 6 32 , 0 6 / ==== ==== A m/s2 . Desvio médio = 04338 , 0 32 1,38812 32 78906 , 9 32 1 = = = = = = = = − −− − = == =

= = = = i i x d m/s 2 . Desvio padrão =

((((

))))

06161 , 0 31 78906 , 9 32 1 i 2 = = = = − − − − = == =

= == = i x σ σσ σ m/s 2 .

Exemplos de Medidas de Posição:

Será que alguma medida foi mal feita (é espúria)?

Para o Escore ser maior que 3, em módulo, o afastamento do dado em relação à média aritmética deveria ser:

1848 , 0 7891 , 9 06161 , 0 3 7891 , 9 3==== −−−− ⇒⇒⇒⇒ −−−− ====±±±± ⋅⋅⋅⋅ ⇒⇒⇒⇒ ==== ±±±± ± ± ± ± x x x σ σ σ σ µ µµ µ

ou seja, o valor medido deveria ser menor que 9,6043 m/s2 ou maior que 9,9739 m/s2. Todos os valores da amostra estão dentro destes limites, de forma que podemos trabalhar com todas as medidas.

Calculando os quartis e o fator de simetria da amostra:

760 , 9 2 76 , 9 76 , 9 2 1==== x8 ++++ x9 ==== ++++ ==== Q m/s2; 780 , 9 2 78 , 9 78 , 9 2 2==== x16 ++++x17 ==== ++++ ==== Q m/s2; 815 , 9 2 82 , 9 81 , 9 2 3==== x24 ++++x25 ==== ++++ ==== Q m/s2.

(24)

273 , 0 76 , 9 815 , 9 78 , 9 2 76 , 9 815 , 9 = = = = − −− − × × × × − −− − + + + + = == = Φ Φ Φ Φ

Concluímos que a amostra é assimétrica.

XXVII - Como escrever valores estatísticos na forma de medida

Nossa visão de estatística básica está completa: sabemos como avaliar a distribuição dos dados (tabela de frequências e histograma) e como determinar valores centrais e de dispersão da distribuição, bem como caracterizar a distribuição e seus dados de forma quantitativa. Porém, não podemos perder o foco dos módulos 6 e 7 que é a medida estatística.

Supondo que iremos obter uma medida estatística qualquer, significa que faremos uma mesma medida simples “N” vezes. Todas elas serão obtidas da mesma maneira, com o mesmo método de medida e os mesmos instrumentos, sob as mesmas condições e com o mesmo observador. Em outras palavras, iremos construir uma amostra homogênea3 de dados, onde cada dado será uma medida simples.

Cada dado da amostra é uma medida simples, com valor, erro e unidade escrito corretamente, como já aprendemos nos módulos anteriores. Entretanto, para a medida estatística em si, somente os valores das medidas simples é que importarão. O erro individual de cada dado não entra diretamente no tratamento da medida estatística.

A primeira providência é ordenar os dados de forma crescente, para em seguida construir a tabela de frequências e o histograma. Verifique se o histograma indica concentração dos dados em torno de algum valor característico! Em outras palavras, o seu histograma deve indicar claramente um único pico em alguma classe, com classes inferiores e superiores tendo menor freqüência. Se isto não ocorrer (veja por exemplo, a Figura G-1 deste texto), significa que sua amostra não é capaz de indicar apenas um valor representativo da medida, o que invalida a medida estatística. Para amostras assim, não faz sentido calcular as medidas dois valores centrais e de dispersão.

Após a verificação no histograma, é necessário fazer a validação dos dados da amostra. Fazemos isto, verificando se nenhuma medida simples (dado) é espúria (ruim). Para tanto, o Escore de todos os dados deve ser tal que zi ≤≤≤≤3. Não precisa necessariamente calcular o Escore de todos os dados,

basta fazer para aqueles próximos aos extremos inferior e superior. Então,

3 Uma amostra homogênea é aquela em que todos os dados têm o mesmo peso estatístico. É possível fazer

(25)

calcule a média e o desvio padrão de toda a amostra e verifique o Escore do primeiro e do último dados em ordem crescente. Se o Escore de algum dado estiver fora da condição limite, exclua-o da amostra! É melhor trabalhar com uma amostra menor, porém confiável.

Validados os dados, o passo seguinte é definir quais valores de tendência central e de dispersão dos dados serão utilizados para caracterizar a medida. Para tanto, torna-se necessário calcular os quartis e o fator ou grau de simetria. A Tabela 7.5 mostra isto, conforme o grau de simetria da distribuição de dados:

Tabela 7.5 – Uso de Valores Estatísticos conforme a simetria Característica da Distribuição Valor de Tendência Central Valor de Dispersão

Simétrica Média Desvio Padrão

Levemente assimétrica Mediana Desvio Padrão

Assimétrica Moda Desvio Médio

O valor de tendência central será considerado em função do somatório de todas as medidas. Desta forma, o valor de tendência central deve ser escrito com o mesmo número de A.S. que tem o somatório de todos os dados. Já o valor de dispersão pode ser escrito com quantas casas decimais quiser, mas use pelo menos uma a mais do que o valor de tendência central possui.

Depois de todos os passos anteriores, finalmente escrevemos a medida estatística. A forma correta de escrever uma medida estatística qualquer (ME) é a seguinte:

ME = (valor central ±±±± erro estatístico) unidade

O erro estatístico, também conhecido como erro de medida estatística, depende do valor de dispersão e do número de dados da amostra ou população, como segue: erro estatístico =

((((

))))

N dispersão de valor × ×× × 3

O erro estatístico deve ser escrito até a última casa decimal da média. Desta forma, para os exemplos da massa corporal de adultos do sexo masculino e da aceleração da gravidade, teríamos como medidas finais os seguintes valores:

massa corporal típica de adultos masculinos = (86,55 ± 5,13) kg (distribuição é assimétrica, então utilizamos a moda e o desvio médio)

(26)

aceleração da gravidade = (9,8005 ± 0,0230) m/s2

(distribuição é assimétrica, então utilizamos a moda e o desvio médio) IMPORTANTE: diferente dos erros de medidas simples (primárias ou secundárias), as medidas estatísticas podem ter mais de um A.S. no erro, porque este erro é calculado de forma independente da medida em si, ou seja, depende de um modelo matemático que envolve a dispersão dos dados.

XXVIII - Quadro resumo para medidas estatísticas

O quadro a seguir fornece os passos para fazer uma medida estatística, detalhando cada passo e as fórmulas utilizadas. Ele resume o conhecimento adquirido nos Textos 6 e 7 e serve como referência para a execução de qualquer medida estatística.

Para finalizar, é importante comentar que os procedimentos aqui recomendados, com relação às medidas estatísticas, podem diferenciar de outros autores e referências. Na disciplina de Física Experimental, é obrigatório que os procedimentos sejam mais simplificados, em virtude da falta de conhecimento de cálculo avançado e de conceitos mais sofisticados de probabilidade e estatística.

(27)

Procedimento

Modo de Operação

1) Tomada dos dados Dados devem ser tomados com a mesma sistemática, resultando em uma amostra o mais homogênea possível. 2) Ordenamento da Amostra Ordenar a amostra de modo crescente (do menor para o maior valor).

3) Construção da Tabela de Frequências

Calcular número de classes ⇒ Calcular intervalo total ⇒

Tamanho das classes ⇒

N trunc nc ==== valor menor valor maior I ==== −−−− nc I x ==== ∆ ∆ ∆ ∆ 4) Construção do Histograma

Histograma deve ser fidedigno à Tabela de Frequências. Os eixos devem ter títulos. O eixo da frequência deve ser linear e começar do zero. O eixo das classes pode ser numérico ou não. As Classes devem ser indicadas. Os passos seguintes (5 a 8) só fazem sentido se o histograma apresentar uma concentração.

5) Validação dos Dados

Calcular média e desvio padrão ⇒ Calcular o escore dos dados e verificar

intervalo de validação. Excluir da amostra o que estiver fora do intervalo

de validação ⇒

((((

))))

1 1 2 1 − − − − − − − − = = = = = = = =

= == = = == = N x N x N i i N i i µµµµ σ σ σ σ µ µ µ µ 3 < < < < − −− − = = = = σ σσ σ µ µµ µ i i x z

6) Cálculo do Grau de Simetria e Valores Característicos

Calcular os quartis da distribuição e determinar o grau e classificação de simetria. Determinar o valor de tendência central e de dispersão característicos.

7) Calcular o erro estatístico Erro estatístico =

N dispersão de valor ) ( 3 ×××× 8) Escrever a medida estatística

Medida = (valor central ± erro estatístico) Podem ser necessários o uso de notação científica e unidade.

O valor central deve ser escrito com tantos A.S. quantos existirem no somatório das medidas.

O erro estatístico deve ser escrito até a última casa decimal do valor central utilizado.

Referências

Documentos relacionados

Apesar de o mercado acionário brasileiro ter se tornado mais importante para a economia brasileira, sobretudo entre o período de 2002 para 2005 (Tabela 3), sua repre- sentatividade

5.2 Importante, então, salientar que a Egrégia Comissão Disciplinar, por maioria, considerou pela aplicação de penalidade disciplinar em desfavor do supramencionado Chefe

No entanto, quando se eliminou o efeito da soja (TABELA 3), foi possível distinguir os efeitos da urease presentes no grão de soja sobre a conversão da uréia em amônia no bagaço

Diante das consequências provocadas pelas intempé- ries climáticas sobre a oferta de cana-de-açúcar para a indústria, a tendência natural é que a produção seja inferior

Cláudia Alexandra Gomes Martins Pinto ADMITIDO(A) Cláudia Sofia Barbosa da Costa Ribeiro ADMITIDO(A) Constança dos Santos Elias Pereira Graça ADMITIDO(A). Cristiana da Silva Aveiro

Geralmente, o espaço físico não é suficiente ou adequado para as atividades importante a serem desenvolvida pelas crianças dentro da sala de aula, como por

obediência, em grego hypakoe , e cinco vezes o verbo obedecer. A palavra é formada da palavra akoe , que significa audição, escuta, atenção, como em latim oboedire, obedecer,

Como irá trabalhar com JavaServer Faces voltado para um container compatível com a tecnologia Java EE 5, você deverá baixar a versão JSF 1.2, a utilizada nesse tutorial.. Ao baixar