Estatística Aplicada ao Serviço Social AULA 06. Estatística Descritiva - Medidas de dispersão. Universidade Federal da Paraíba

(1)

Universidade Federal da Paraíba Curso de Serviço Social - Turma 01

Estatística Aplicada

ao Serviço Social

Prof. Hemílio Fernandes Campos Coêlho Departamento de Estatística

Universidade Federal da Paraíba

AULA 06

Estatística Descritiva - Medidas de dispersão

(2)

Introdução

As medidas de posição apresentadas fornecem a informação dos dados apenas a nível pontual, sem ilustrar outros aspectos referentes à forma como os dados estão distribuídos na amostra. Exemplo: Sejam quatro conjuntos A, B, C e D com os seguintes valores: A: 7, 7, 7, 7, 7 B: 5, 6, 7, 8, 9 C: 4, 5, 7, 9, 10 D: 0, 5, 10, 10, 10 Note que XA= 7, XB= 7, XC = 7 e XD = 7

(3)

continuação

No exemplo, percebe-se que apesar de constituídos de valores diferentes, os grupos revelam uma mesma média aritmética. É possível notar que em cada grupo os valores se distribuem diferentemente em relação à média.

É preciso uma medida estatística complementar para melhor caracterizar cada conjunto apresentado.

As medidas estatísticas responsáveis pela variação ou dispersão dos valores de um conjunto são as medidas de dispersão ou de variabilidade, onde se destacam a amplitude total, a variância, o desvio padrão e o coeciente de variação. Em princípio, diremos que entre dois ou mais conjuntos de dados, o mais disperso (ou menos homogêneo) é aquele que tem a maior medida de dispersão.

(4)

continuação

As medidas de dispersão são úteis para avaliar o grau de variabilidade ou de dispersão dos valores de um conjunto. Essas medidas proporcionam um conhecimento mais completo sobre o fenômeno que se está analisando, permitindo

estabelecer comparações entre fenômenos de mesma natureza.

O objetivo maior será, portanto, construir medidas que avaliem a representatividade da média.

(5)

Amplitude Total

É a diferença entre o maior e o menor valor da série, ou seja,

AT = X_máx− X_mín

A amplitude é útil para nos dar uma ideia do campo de variação da série. Verica-se que a amplitude como medida de dispersão é limitada.

(6)

Desvio Médio

É denido como a média aritmética dos desvios absolutos e pode ser obtido através de

DM = n X i=1 Xi− X n ,

(7)

Variância

A variância de um conjunto de dados (amostra ou população) mede a variabilidade do conjunto em termos de desvios quadrados em relação à média aritmética do conjunto. É uma quantidade sempre não negativa e expressa em unidades quadradas do conjunto de dados, sendo de difícil interpretação.

(8)

continuação

A variância é denida como a soma dos quadrados dos desvios com relação à média, dividida pelo número de elementos (ou pelo número de elementos menos um, no caso amostral, como veremos). Ou seja, dada a amostra, temos que

S2= n X i=1 Xi− X 2 n − 1 = 1 n − 1 ( _n X i=1 X_i2 ! − nX2 ) ,

(9)

continuação

Observação Importante: A equação de S2 _{é utilizada quando}

nosso interesse não se restringe à descrição dos dados mas, partindo da amostra, visamos tirar inferências válidas para sua respectiva população.

(10)

Desvantagem de uso da Variância

Quando elevemos ao quadrado a diferença Xi− X, a unidade

de medida dos dados também ca elevada ao quadrado. Exemplo: se a unidade de medida dos dados for metros, a variância será expressa em metros quadrados.

Em alguns casos, a unidade de medida ao quadrado nem fará sentido.

Apesar de útil para descrever a variabilidade do conjunto de observações, o fato mencionado torna um pouco inviável a análise, dado que a unidade de medida ca elevada ao quadrado.

O interessante é ter uma medida que descreva a variabilidade das informações com a mesma eciência da variância, porém, que esteja na mesma escala em que estão os dados fornecidos. Esta medida se chama Desvio Padrão.

(11)

Desvio Padrão

É denido como a raiz quadrada positiva da variância e apresenta as mesmas propriedades desta, com a vantagem de ser expresso na mesma unidade dos dados. De fato, é a medida de dispersão mais utilizada. Dada a amostra, a expressão do desvio padrão é dada por

s = √

s2

(12)

Exemplo:

Sejam as notas de quatro alunos em cinco provas de estatística. Aluno Prova 1 Prova 2 Prova 3 Prova 4 Prova 5

Antônio 5 5 5 5 5

João 6 4 5 4 6

José 10 5 5 5 0

Pedro 10 10 5 0 0

(13)

continuação

Aluno P1 P2 P3 P4 P5 X AT DM Var D.P. Antônio 5 5 5 5 5 5 0 0 0 0 João 6 4 5 4 6 5 2 0.8 1 1 José 10 5 5 5 0 5 10 2 12.5 3.54 Pedro 10 10 5 0 0 5 10 4 25 5

O que observamos no cálculo das 4 medidas apresentadas até o momento: Que as notas de Antônio não variaram, as notas de João variaram menos que as de José e as notas de Pedro variaram mais do que as dos outros.

Note que o desvio padrão torna mais viável a comparação. Você pode falar da variação em relação à média a partir do desvio padrão

Casos como o de Antônio são muito difíceis de se encontrar na prática. A variabilidade faz com que essa diculdade seja considerada naturalmente.

(14)

EXEMPLO

Exemplo: Abaixo, temos uma amostra de 10 crianças de 5 anos de idade, com dados referentes a seus pesos (em Kg).

23, 0 20, 2 22, 0 19, 0 25, 0 28, 8 24, 0 21, 0 27, 0 21, 0

Temos que n = 10. O exercício será obter todas as medidas de dispersão apresentadas até o momento, e interpretá-las.

(15)

Coeciente de Variação de Pearson

É uma medida de dispersão relativa que serve para comparar dois ou mais conjuntos de dados, principalmente quando temos variáveis com unidades de de unidades de medida diferentes. Mede o grau de concentração dos dados em torno de sua média. É obtido através das expressões

CV = S X

Nas expressões acima temos que: X 6= 0 é a média aritmética da variável na amostra e s é o desvio-padrão amostral.

Pode-se denotar CV também em termos percentuais, bastando fazer CV × 100%.

(16)

Exemplo:

As alturas (em cm) de uma amostra de crianças de 8 anos foram medidas e destas foi concluído que a altura média era de 128 cm.

O desvio-padrão das alturas era de 12 cm.

O mesmo foi feito para uma amostra de crianças de 12 anos, onde a média obtida foi 158 cm e desvio-padrão igual a 14 cm.

(17)

continuação

GRUPO X s CV Crianças de 8 anos 128 12 CV = 12 128 ∼= 0, 093 Crianças de 12 anos 158 14 CV = 14 158 ∼= 0, 088

Embora, observando o desvio-padrão dos grupos, pareça que a altura de crianças de 12 anos tem maior variabilidade, observando o Coeciente de Variação de Pearson, vericamos que a altura de crianças de 8 anos varia mais que a altura de crianças de 12 anos.

(18)

Outro exemplo:

Considere a tabela de valores a seguir:

Valores X S CV (X)

1 - 2 - 3 2 1 0.5

100 - 200 - 300 200 100 0.5 Novamente:

O coeciente de variação mede o grau de concentração dos dados em torno de sua média.

Embora, observando o desvio-padrão dos grupos, pareça que o segundo grupo tem maior variabilidade, porém observando o Coeciente de Variação, vericamos que a não há diferença entre os grupos no que diz respeito à variabilidade.

(19)

Outro exemplo:

Imagine uma população composta por dez crianças recém-nascidas, da qual são conhecidos os pesos (em gramas) e os comprimentos (em centímetros): Recém-Nascido 1 2 3 4 5 6 7 8 9 10 Comprim. 52 48 45 49 51 54 47 50 46 51 Peso (Kg) 3300 3200 2950 3150 3350 3450 2900 3300 3150 3250 Temos que: Média de Comprimento: 49,3 cm Desvio-padrão de Comprimento: 2,83 cm Média de Peso: 3200g Desvio-padrão de Peso: 162,79g Coecientes de Variação: CVpeso = 0, 0574 CVcomprimento = 0, 0541

(20)

continuação

Conclusões: A comparação através dos coecientes de variação corrige a distorção causada pelas unidades de medidas diferentes, que sugeriam erroneamente que a variação de peso era maior. Com o cálculo do coeciente de variação, percebe-se que a variação de peso é maior que a de comprimento. Ou seja, os recém-nascidos são mais semelhantes em relação ao peso do que em relação ao comprimento.

(21)

Outro exemplo:

Considere as informações de IDH (x 100) para uma amostra de 20 municípios divididos em dois grupos de regiões:

IDH Região A 56 56 57 58 61 63 63 67 67 67 IDH Região B 33 42 48 52 57 67 67 77 82 90

Temos que:

Média de IDH da Região A: 61,5 Mediana do IDH da Região A: 62

Moda do IDH da Região A: 67 Média de IDH da Região B: 61,5 Mediana do IDH da Região B: 62

Moda do IDH da Região B: 67

Pergunta: Os grupos são iguais?

(22)

continuação

Região X S CV

A 61,5 4,58 0,074 B 61,5 18,31 0,298

Logo, os municípios da região B apresentam maior variação nos valores do IDH do que os municípios da região A. Isto quer dizer que, em relação ao IDH, os municípios da região A são mais semelhantes entre si do que os municípios da região B.

Estatística Aplicada ao Serviço Social AULA 06. Estatística Descritiva - Medidas de dispersão. Universidade Federal da Paraíba