GRÁFICOS ESTATÍSTICOS
DISTRIBUIÇÃO DE FREQÜÊNCIA
Suponhamos termos feito uma coleta de dados relativos às estaturas de quarenta alunos, que compõem uma amostra dos alunos de um colégio A, resultando a seguinte tabela de valores:
TABELA 1
ESTATURA DE 40 ALUNOS DO COLÉGIO A
166 160 161 150 162 160 165 167 164 160
162 161 168 163 156 173 160 155 164 168
155 152 163 160 155 155 169 151 170 164
154 161 156 172 153 157 156 158 158 161
A esse tipo de tabela, cujos elementos não foram numericamente organizados, denominamos tabela primitiva.
A tabela obtida após a ordenação dos dados recebe o nome de rol.
TABELA 2
ESTATURA DE 40 ALUNOS DO COLÉGIO A
150 154 155 157 160 161 162 164 166 169
151 155 156 158 160 161 162 164 167 170
152 155 156 158 160 161 163 164 168 172
153 155 156 160 160 161 163 165 168 173
Agora, podemos saber, com relativa facilidade, qual a menor estatura (150 cm) e qual a maior (173 cm); que a amplitude de variação foi de 173 – 150 = 23 cm.
1. DISTRIBUIÇÃO FREQÜÊNCIA
Denominamos freqüência o número de vezes que o elemento fica relacionado a um determinado valor da variável. Obtemos, assim, uma tabela que recebe o nome de
distribuição de freqüência.
TABELA 3
Estat. Freq. Estat. Freq. Estat. Freq.
150 1 158 2 167 1
151 1 160 5 168 2
152 1 161 4 169 1
153 1 162 2 170 1
154 1 163 2 172 1
155 4 164 3 173 1
156 3 165 1
157 1 166 1 Total 40
Mas o processo dado é ainda inconveniente, já que exige muito espaço. A solução é o agrupamento dos valores em vários intervalos, denominado: Distribuição
TABELA 4
ESTATURA DE 40 ALUNOS DO COLÉGIO A
Estaturas (cm) Freqüências
150 154 4
154 158 9
158 162 11
162 166 8
166 170 5
170 174 3
Total 40
Assim, se um dos intervalos for, por exemplo, 154 158 (é um intervalo fechado à esquerda e aberto à direita, tal que: 154 < = x < 158), em vez de dizermos que a estatura de 1 aluno é de 154 cm; de 4 alunos, 155 cm; de 3 alunos, 156 cm; de 1 aluno, 157 cm, diremos que nove alunos têm estaturas entre 154, inclusive, e 158 cm.
Deste modo, estaremos agrupando os valores de variável em intervalos, sendo que, em Estatística, preferimos chamar os intervalos de classes.
2. ELEMENTOS DE UMA DISTRIBUIÇÃO DE FREQÜÊNCIA
2.1 CLASSE
Classe de freqüência ou, simplesmente, classes são intervalos de variação de variável.
Representadas simbolicamente por i, sendo i = 1,2,3,...,k (onde k é o número total de classes da distribuição)
2.2 LIMITES DE CLASSE
Determinamos limites de classe os extremos de cada classe ℓi= limite inferior
Li= limite superior
2.3 AMPLITUDE DE UM INTERVALO DE CLASSE
É a medida do intervalo que define a classe
hi= Li – ℓi
2.4 AMPLITUDE TOTAL DA DISTRIBUIÇÃO
É a diferença entre o limite superior da última classe (máximo) e o limite inferior da primeira classe (mínimo)
AT = L(máx.) – ℓ (mín.)
2.5 AMPLITUDE AMOSTRAL
É a diferença entre o valor máximo e o valor mínimo da amostra:
2.7 FREQÜÊNCIA SIMPLES OU ABSOLUTA
É o número de observações correspondentes a essa classe ou a esse valor
fi = n
Soma de Todas as Freqüências. ∑ fi = n
Podemos, agora, dar a distribuição de freqüência das estaturas dos quarentas alunos do Colégio A a seguinte representação tabular técnica:
TABELA 4.1
ESTATURA DE 40 ALUNOS DO COLÉGIO A
i Estaturas (cm) fi hi xi
1 150 154 4 4 152,0
2 154 158 9 4 156,0
3 158 162 11 4 160,0
4 162 166 8 4 164,0
5 166 170 5 4 168,0
6 170 174 3 4 172,0
∑ fi = 40
L(máx) 174
ℓ2 = 154 ℓ (mín) 150 -
L5 = 170 AT 24
Na amostra
x(máx) 173
x(mín) 150 -
AA 23
3. TIPOS DE FREQÜÊNCIAS
Freqüência simples ou absoluta (fi) são os valores que realmente representam o
número de dados de cada classe
Freqüência relativa (fri) são os valores das razões entre as freqüências simples
e a freqüência total
fri = fi / ∑ fi
Freqüência acumulada (Fi) é o total das freqüências de todos os valores
inferiores ao limite superior do intervalo de uma dada classe:
Fk = f1 + f2 + … + fk
Ou Fk = ∑ fi (i = 1, 2, ..., k)
Freqüência acumulada relativa (Fri) de uma classe é a freqüência acumulada
da classe, dividida pela freqüência total da distribuição.
Considerando a Tabela 4, podemos montar a seguinte tabela com as freqüências estudadas:
TABELA 4.2
i Estaturas (cm) fi xi fri Fi Fri
1 150 154 4 152,0 0,100 4 0,100
2 154 158 9 156,0 0,225 13 0,325
3 158 162 11 160,0 0,275 24 0,600
4 162 166 8 164,0 0,200 32 0,800
5 166 170 5 168,0 0,125 37 0,925
6 170 174 3 172,0 0,075 40 1,000
∑ = 40 ∑ = 1,000
EXERCÍCIO
1. Preencha a distribuição de freqüência:
38 49 26 7 41 52 47 46
46 9 22 8 22 24 16 25
16 41 20 12 51 12 19 30
23 20 27 48 31 26 52 41
52 22 49 21 33 51 16 29
i Notas xi fi fri Fi Fri
1 6 |---- 14
2 14 |---- 22
3 22 |---- 30
4 30 |---- 38
5 38 |---- 46
6 46 |---- 54
Responda:
a. Qual amplitude amostral (AA) ?
b. Qual amplitude da distribuição (AT) ?
c. Qual o limite inferior da 5ª classe ?
d. Qual o limite superior da 2ª classe ?
e. Qual a amplitude do 6º intervalo de classe (hi) ?
4. REPRESENTAÇÃO GRÁFICA DE UMA DISTRIBUIÇÃO
4.1 HISTOGRAMA
É formado por um conjunto de retângulos justapostos, cujas bases se localizam sobre o eixo horizontal, de tal modo que seus pontos médios coincidam com os pontos médios dos intervalos de classe.
4.2 POLÍGONO DE FREQÜÊNCIA
É um gráfico em linha, sendo as freqüências (fi) marcadas sobre perpendiculares
ao eixo horizontal, levantadas pelos pontos médios (xi) dos intervalos de classe.
4.3 POLÍGONO DE FREQÜÊNCIA ACUMULADA
É traçado marcando-se as freqüências acumuladas (Fi) sobre perpendiculares
ao eixo horizontal, levantadas nos pontos correspondentes aos limites superiores (Li)
5. CURVA DA FREQÜÊNCIA
5.1 A CURVA DE FREQÜÊNCIA. CURVA POLIDA
Como no geral, os dados coletados pertencem a uma amostra extraída de uma população, podemos imaginar as amostras tornando-se cada vez mais amplas e a amplitude das classes ficando cada vez menor, o que nos permite concluir que a linha poligonal (contorno do polígono de freqüência) tende a se transformar numa curva – a curva da freqüência – , mostrando, de modo mais evidente, a verdadeira natureza da distribuição da população.
Assim, após o traçado de um polígono de freqüência, é desejável, que se lhe faça
um polimento, de modo a mostrar o que seria tal polígono com um número maior de
dados.
Consegue-se isso com o emprego de uma fórmula, a qual, a partir das freqüências reais, nos fornece novas freqüências – freqüência calculadas (fci) :
fci = fi – 1 + 2fi + fi + 1 / 4
onde:
fci é a freqüência calculada da classe considerada;
fi é a freqüência simples da classe considerada;
fi – 1 é a freqüência simples da classe anterior à classe considerada;
fi + 1 é a freqüência simples da classe posterior à classe considerada;
Exemplo da tabela 4
fc2 = 4 + 2x9 + 11 / 4 = 33/4 = 8,25
i Estaturas (cm) fi fci
1 150 154 4 4,25
2 154 158 9 8,25
3 158 162 11 9,75
4 162 166 8 8,00
5 166 170 5 5,25
6 170 174 3 2,75
EXERCÍCIO
1. Preencha a distribuição de freqüência:
10 24 52 48 59 7 28 26
8 33 3 26 34 16 38 22
25 46 30 36 49 26 3 24
5 11 44 5 19 55 18 12
16 24 47 21 30 12 38 38
46 13 14 48 35 6 38 38
TABELA DE DISTRIBUIÇÃO DE FREQÜÊNCIA
i Notas xi fi fri Fi Fri
1 3 |----------- 10
2 10 |----------- 17
3 17 |----------- 24
4 24 |----------- 31
5 31 |----------- 38
6 38 |----------- 45
7 45 |----------- 52
8 52 |----------- 59
9 59 |----------- 66
MEDIDAS DE POSIÇÃO
1. MÉDIA ARITMÉTICA
É o quociente da divisão da soma dos valores da variável pelo número deles:
= Σxi / n
sendo :
a média aritmética;
xios valores da variável;
n o número de valores.
1.1 DADOS NÃO-AGRUPADOS
Determinamos a média aritmética simples. Exemplo:
Sabendo-se que a produção leiteira diária da vaca A, durante a semana, foi de 10, 14, 13, 15, 16, 18, e 12 litros, temos, para produção média da semana:
= (10+14+13+15+16+18+12) / 7 = 98 / 7 = 14 Logo :
= 14 litros
x
x
x
1.2 DESVIO EM RELAÇÃO À MÉDIA
A diferença entre cada elemento de um conjunto de valores e a média aritmética.
di = xi –
Exemplo
d1 = 10 – 14 = – 4 d2 = 14 – 14 = 0 d3 = 13 – 14 = – 1 d4 = 15 – 14 = 1 d5 = 16 – 14 = 2 d6 = 18 – 14 = 4 d7 = 12 – 14 = – 2
1.3 DADOS AGRUPADOS
1.3.1 Sem intervalos de classe
Consideramos a distribuição relativa a 34 famílias de quatro filhos, tomando para variável o número de filhos do sexo masculino.
Neste caso, como as freqüências são números indicadores da intensidade de cada valor da variável, elas funcionam como fatores de ponderação, o que nos leva a calcular
a média aritmética ponderada.
= Σxifi / Σfi
xi fi xifi
0 2 0
1 6 6
2 10 20
3 12 36
4 4 16
Σ = 34 78
= 78 / 34 = 2,3
= 2,3 meninos
1.3.2 Com intervalos de classe
Neste caso, convencionamos que todos os valores incluídos em um determinado intervalo de classe coincidem com o seu ponto médio, e determinamos a média aritmética ponderada por meio de fórmula:
= Σxifi / Σfi
onde xié o ponto médio da classe.
x
x
x
x
i ESTATURAS (cm) fi xi xifi
1 150 |----- 154 4 152,0 608
2 154 |----- 158 9 156,0 1.404
3 158 |----- 162 11 160,0 1.760
4 162 |----- 166 8 164,0 1.312
5 166 |----- 170 5 168,0 840
6 170 |----- 174 3 172,0 516
Σ = 40 Σ = 6.440
= 6.440 / 40 = 161
= 161 cm
2. A MODA (Mo)
O valor que ocorre com maior freqüência em uma série de valores.
2.1 DADOS NÃO-AGRUPADOS
Quando lidamos com valores não-agrupados, a moda é facilmente reconhecida: basta, de acordo com a definição, procurar o valor que mais se repete
A série de dados : 7, 8, 9, 10, 10, 10, 11, 12, 13, 15, tem moda igual a 10.
Podemos, entretanto, encontrar séries nas quais não exista valor modal, isto é, nas quais nenhum apareça mais vezes que outros. É o caso da série: 3, 5, 8, 10, 12, 13, que não apresenta moda (amodal).
Em outros casos, ao contrario, pode haver dois ou mais valores de concentração. Dizemos, então, que a série tem dois ou mais valores modais. Na série: 2, 3, 4, 4, 4, 5, 7, 7, 7, 8, 9, temos duas modas: 4 e 7 (bimodal).
2.2 DADOS AGRUPADOS
2.2.1 Sem intervalos de classe
xi fi
0 2
1 6
2 10
3 12
4 4
Σ = 34
A freqüência máxima (12) corresponde o valor da variável 3 da variável. Logo:
Mo = 3
2.2.2 Com intervalos de classe
É o valor dominante que está compreendido entre os limites da classe modal Método para o cálculo da moda denominada de moda bruta:
Mo = ℓ* + L* / 2
Onde:
ℓ* é o limite inferior da classe modal
L* é o limite superior da classe modal
x
Exemplo:
i ESTATURAS (cm) fi
1 150 |----- 154 4
2 154 |----- 158 9
3 158 |----- 162 11
4 162 |----- 166 8
5 166 |----- 170 5
6 170 |----- 174 3
Σ = 40
Mo = 158+162 / 2 = 320 / 2 = 160 à logo Mo = 160 cm
Exercício de Moda
Observe e responda:
A = {3,5,6,8,9,10,10,10,11,12,17} B = {4,5,7,10,11,13,15}
C = {2,3,4,5,5,5,5,6,7,8,8,8,8,9,10,11}
I. A é unimodal e Mo = 10 II. B é unimodal e Mo = 10 III. C é bimodal e Mo = 5 e 8
a. Todas estão corretas. b. Todas estão erradas. c. I e II estão corretas. d. I e III estão corretas. e. II e III estão corretas.
3. A MEDIANA
É outra medida de posição definida como o número que se encontra no centro de uma série de números, estando estes dispostos segundo uma ordem.
3.1 DADOS NÃO-AGRUPADOS
Série de valores : 5, 13, 10, 2, 18, 15, 6, 16, 9, o primeiro passo a ser dado é o de ordenação dos valores : 2, 5, 6, 9, 10, 13, 15, 16, 18. Em seguida, tomamos aquele número central que apresenta o mesmo número à direita e à esquerda. Temos, então :
Md = 10.
Se, porém, a série dada tiver um número par de termos, a mediana será, por definição, qualquer dos números compreendidos entre os dois valores centrais da série. Convencionou-se utilizar o ponto médio.
Assim, a série de valores ordenados : 2, 6, 7, 10, 12, 13, 18, 21, tem para mediana a média aritmética entre 10 e 12.
3.2 DADOS AGRUPADOS
3.2.1 Sem intervalos de classe
É o bastante identificar a freqüência acumulada imediatamente superior à metade da soma das freqüências.
É dada por : Σfi / 2
xi fi Fi
0 2 2
1 6 8
2 10 18
3 12 30
4 4 34
Σ = 34
Sendo: 34 / 2 = 17
A menor freqüência acumulada que supera esse valor é 18, que corresponde ao valor de 2 da variável, sendo este o valor mediano. Logo: Md = 2 meninos.
3.2.2 Com intervalos de classe
Neste caso o problema consiste em determinar o ponto do intervalo em que está compreendida a mediana.
i ESTATURAS (cm) fi Fi
1 150 |----- 154 4 4
2 154 |----- 158 9 13
3 158 |----- 162 11 24
4 162 |----- 166 8 32
5 166 |----- 170 5 37
6 170 |----- 174 3 40
Σ = 40 .
Temos : Σfi / 2 – 40 / 2 = 20
Como há 24 valores incluídos nas três primeiras classes da distribuição e como pretendemos determinar o valor que ocupa o 20.º lugar, a partir do início da série, vemos que este deve estar localizado na terceira classe (i = 3).
Como há 11 elementos nessa classe e o intervalo de classe é igual a 4 (162 – 158), devemos tomar, a partir do limite inferior, a distância.
Sendo: Md = ℓ* + ( ([(Σfi / 2) – F(ant)] x h*) / f*) No qual:
ℓ* é o limite inferior da classe mediana;
F(ant) é a freqüência acumulada da classe anterior à classe mediana;
f* é a freqüência simples da classe mediana;
h* é a amplitude do intervalo da classe mediana;
MEDIDAS DE DISPERSÃO OU DE VARIABILIDADE: AMPLITUDE TOTAL, DESVIO MÉDIO, VARIÂNCIA E DESVIO PADRÃO
1. Dispersão ou Variabilidade
Chamamos de dispersão ou variabilidade a maior ou menor diversificação dos valores de uma variável em torno de um valor de tendência central tomado como ponto de comparação.
Exemplo: Consideremos os seguintes conjuntos de valores das variáveis x, y e z
X: 70, 70, 70, 70, 70.
Y: 68, 69, 70, 71, 72.
Z: 5, 15, 50, 120, 160.
Calculando a média aritmética de cada um desses conjuntos, obtemos: x: = Σ xi⇒ x = 350 = 70
n 5
y: = Σ yi⇒ y = 350 = 70 n 5
z: = Σ zi⇒ z = 350 = 70 n 5
Vemos, então, que os três conjuntos apresentam a mesma média aritmética: 70.
Entretanto,é fácil notar que o conjunto X é mais homogêneo que os conjuntos Y
e Z, já que todos os valores são iguais à média.
O conjunto Y, por sua vez , é mais homogêneo que o conjunto Z, pois há menor diversificação entre cada um de seus valores e a média representativa.
Podemos dizer então que o conjunto X apresenta dispersão ou variabilidade
menor que o conjunto Z.
Portanto, para qualificar os valores de uma dada variável, ressaltando a maior ou menor dispersão ou variabilidade entre esses valores e a sua medida de posição, a Estatística recorre às medidas de dispersão ou de variabilidade.
2. Amplitude Total
2.1 Dados não-agrupados
A amplitude total é a diferença entre o maior e o menor valor observado:
AT = x(max.) – x(mín) Exemplo:
Para os valores:
Quando dizemos que a amplitude total dos valores é 30, estamos afirmando alguma coisa do grau de sua concentração. É evidente que, quanto maior a amplitude total, maior é a dispersão ou variabilidade dos valores da variável.
Relativamente aos três conjuntos de valores mencionados no início:
Atx = 70 – 70 = 0 (dispersão nula) Aty = 72 – 68 = 4
Atz = 160 – 5 = 155
2.2 Dados agrupados
2.2.1. Sem intervalos de classe
Neste caso, ainda temos: AT = x(max.) – x(mín.)
Exemplo:
Considerando a tabela abaixo:
xi 0 1 2 3 4
fi 2 6 12 7 3
Temos:
AT = 4 – 0 = 4
2.2.2. Com intervalos de classe
Neste caso, a amplitude total é a diferença entre o limite superior da última classe e o limite inferior da primeira classe:
AT = L(max.) - ϑ(mín.)
Exemplo:
Considerando a distribuição abaixo:
i Estaturas
(cm)
fi
1 2 3 4 5 6
150 154 154 158 158 162 162 166 166 170 170 174
4 9 11
8 5 3 Σ = 40
Temos:
A amplitude total tem o inconveniente de só levar em conta os dois valores extremos da série, descuidando do conjunto de valores intermediários, o que quase sempre invalida a idoneidade do resultado. Ela é apenas uma indicação aproximada da dispersão ou variabilidade.
Faz-se uso da amplitude total quando se quer determinar a amplitude da temperatura em um dia ou no ano, no controle de qualidade ou como uma medida de cálculo rápido, e quando a compreensão popular é mais importante que a exatidão e a estabilidade.
3. Variância Desvio Padrão
Como já foi visto, a amplitude total é instável, por se deixar influenciar pelos valores extremos, que são, na sua maioria, devidos ao acaso.
A variância e o desvio padrão são medidas que fogem a essa falha, pois
levam em consideração a totalidade dos valores da variável em estudo, o que faz delas, índices de variabilidade bastante estáveis e, por isso mesmo, os mais geralmente empregados.
A variância baseia-se nos desvios em torno da média aritmética, porém determinado a média aritmética dos quadrados dos desvios Σ di = Σ(xi – x) = 0. Assim,
representando a variância por s2, temos:
s2 = Σ(xi – x)2
Σ fi
Ou, lembrando que Σ fi = n :
s2 = Σ(xi – x)2
n
Tanto o desvio padrão como a variância são usados como medidas de dispersão ou variabilidade. O uso de uma ou de outra dependerá da finalidade que se tenha em vista. A variância é uma medida que tem pouca utilidade como estatística descritiva, porém é extremamente importante na inferência estatística e em combinações de amostras.
s = Σ xi2 - Σ xi 2 n n
O desvio padrão goza de algumas propriedades, dentre as quais destacamos:
1ª) Somando-se (ou subtraindo-se) uma constante a de todos os valores de uma variável, o desvio padrão não se altera:
yi = xi± c ⇒ sy = sx
Essas propriedades nos permitem introduzir, no cálculo do desvio padrão, simplificações úteis.
Para o cálculo do desvio padrão, consideremos os seguintes casos:
3.2 Dados não-agrupados
Tomemos, como exemplo, o conjunto de valores da variável x:
40, 45, 48, 52, 54, 62, 70
O modo mais prático para se obter o desvio padrão é formar uma tabela com duas colunas: uma para xi e outra para xi2. Assim:
xi xi2
40 45 48 52 54 62 70
1.600 2.025 2.304 2.704 2.916 3.844 4.900 Σ = 371 Σ = 20.293
Como n = 7, temos:
s = 20.293 - 371 2 = 2.899 - 532 = 7 7
= 2.899 – 2.809 = 90 = 9,486
Logo: S = 9,49
3.3 Dados agrupados
3.3.1 Sem intervalos de classe
Como, neste caso, temos a presença de freqüências, devemos levá-las em consideração, resultando a fórmula:
s = Σfixi2 - Σfixi 2 n n
Consideremos, como exemplo, a distribuição da tabela abaixo:
xi 0 1 2 3 4
fi 2 6 12 7 3
O modo mais prático para se obter o desvio padrão é abrir, na tabela dada, uma coluna para os produtos fixi e outra para fixi2, lembrando que para obter fixi2 basta
xi fi fixi fixi2
0 1 2 3 4 2 6 12 7 3 0 6 24 21 12 0 6 48 63 48 Σ = 30 Σ = 63 Σ = 165
Logo:
s = 165 - 63 2 = 5,5 - 4,41 = 1,09 30 30
Daí: s = 1,04
3.3.2 Com intervalos de classe
Tomemos como exemplo a distribuição a tabela:
i Estaturas
(cm) fi 1 2 3 4 5 6
150 154 154 158 158 162 162 166 166 170 170 174
4 9 11 8 5 3 Σ = 40
Comecemos com xi (ponto médio), fixi e fixi2. Assim:
i Estaturas
(cm)
fi xi fixi fixi2
1 2 3 4 5 6
150 154 154 158 158 162 162 166 166 170 170 174
4 9 11 8 5 3 152 156 160 164 168 172 608 1.404 1.760 1.312 840 516 92.416 219.024 281.600 215.168 141.120 88.752 Σ = 40 Σ = 6.440 Σ = 1.038.080 Logo: