• Nenhum resultado encontrado

Figura 1: Gráfico de pontos.

N/A
N/A
Protected

Academic year: 2021

Share "Figura 1: Gráfico de pontos."

Copied!
46
0
0

Texto

(1)

4. Representação gráfica para variáveis quantitativas

Gráfico de pontos

O

gráfico de pontos

é a primeira representação da

amostra, fornecendo um aspecto visual da concentração e

distribuição dos pontos na nossa escala de medidas.

No exemplo abaixo, percebemos o conjunto de dados

concentrado na primeira metade da escala, com uma grande

concentração entre os valores 2.5 e 7.5, e uma dispersão

mais acentuada no lado superior (direito) da distribuição,

com valores chegando a 17.5. Esta dispersão indica uma

forte assimetria na cauda superior da distribuição (assimetria

à direita).

(2)

Histograma

Uma forma prática de representação gráfica para dados

quantitativos (em especial dados contínuos) é dada pelo

histograma

, no qual, representamos as frequências de uma

tabela por barras adjacentes para cada intervalo de classe.

Tabela 1: Tabela de frequências com k = 7 classes:

Classe – (Xi) ni fi 0.0 |--- 2.5 34 0.136 2.5 |--- 5.0 74 0.296 5.0 |--- 7.5 86 0.344 7.5 |--- 10.0 30 0.120 10.0 |--- 12.5 16 0.064 12.5 |--- 15.0 5 0.020 15.0 |--- 17.5 5 0.020 Total 250 1,000

(3)

O polígono de frequências

Marcando o ponto médio de cada retângulo do

histograma na sua na parte superior e ligando esses pontos,

teremos uma figura que chamaremos de

Polígono de

Frequências

(Figura 3).

(4)

Distribuição de frequências

As linhas retas que compõem o polígono de frequências

são uma aproximação rudimentar para uma curva que

representa uma

Distribuição de Frequências

. Essa

distribuição é descrita por uma função

f(x)

, contínua e

diferenciável, definida num intervalo dos reais, a qual será

denotada por

função distribuição de probabilidades

ou

fdp (Figura 4).

Figura 4: Função de distribuição de probabilidades

sobre o histograma.

(5)

4.1. Representação gráfica para dados discretos

Um pesquisador contou o número de ervilhas/vagem em 60 vagens coletadas aleatoriamente num canteiro de sua plantação, tendo obtido os seguintes dados:

3 3 3 3 3 4 3 1 4 3 5 3 2 5 6 5 4 3 1 4 4 2 6 4 3 4 4 4 5 4 4 3 5 3 5 2 3 4 4 5 2 3 5 4 4 6 3 5 4 3 4 3 5 3 3 4 7 3 6 3 Dados ordenados 1 1 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 6 6 6 6 7

Vamos construir uma tabela com as contagens e frequências relativas do número de ervilha/vagem

Tabela 2: Distribuição de frequências para o

número de ervilha por vagem.

Ervilhas por vagem Freq. absoluta Freq. relativa Freq. acumulada ni fi Fac 1 2 0.033 0.033 2 4 0.067 0.100 3 21 0.350 0.450 4 18 0.300 0.750 5 10 0.167 0.917 6 4 0.067 0.084 7 1 0.017 1.001 Totais 60 1.001

Um gráfico para representar as frequências da variável “número de ervilhas por vagem” é dado a seguir:

(6)

Figura 5: Gráfico de frequências para a variável número

de ervilhas por vagem (feito no R).

Também podemos representar a distribuição acima por um gráfico de barras contínuas (histograma), porém, o mais apropriado seria a primeira forma uma vez que os dados são discretos.

Figura 6: Histograma para a variável número de ervilhas

(7)

4.2. Representação gráfica para dados contínuos

Seja a variável horas gastas por semana assistindo TV, referentes aos alunos do primeiro ano do curso de engenharia:

Dados ordenados:

0 2 2 2 2 3 4 5 5 5 5 5 5 5 6 7 7 8 8 8 10 10 10 10 10 10 10 10 10 10 10 12 12 12 12 14 14 14 14 14 15 16 18 20 20 20 25 25 28 30

Estatísticas descritivas no MINITAB Descriptive Statistics: horasTV

Variable N Mean Median StDev SE Mean horasTV 50 10.780 10.000 6.891 0.974 Variable Minimum Maximum Q1 Q3 horasTV 0.000 30.000 5.000 14.000 30 20 10 0 horas

Gráfico de pontos para horas de TV

(8)

Como construir a tabela de frequências?

Para variáveis contínuas vamos utilizar a regra de Sturges.

a) Número de classes: seja k o número de classes, então, k é determinado por:

1 3.32 log10(n)

k    ,

em que a função [.] indica o maior inteiro contido que, na prática, representa o truncamento do valor obtido.

b) Amplitude de classe: denotada por h, é dada por:

Seja A maxmin  x(n)x(1), a amplitude da amostra, então,

k A h

Obs: normalmente o resultado da expressão acima não é inteiro,

por isso, o valor de h deve ser arredondado (convenientemente)

para cima. Exemplo:

Seja a variável: horas gastas por semana assistindo TV. Como n = 50, temos

13.32log10(50)

 

 6.64

 6  k classes, 5 6 0 30  h h.

(9)

Tabela 3: Distribuição de frequências de horas TV, com k = 6 classes e h = 5h. Horas TV classes Freq. absoluta Freq. relativa Freq. acumulada ni fi Fac 0 |--- 5 7 0.14 0.14 5 |--- 10 13 0.26 0.40 10 |--- 15 20 0.40 0.80 15 |--- 20 3 0.06 0.86 20 |--- 25 3 0.06 0.92 25 |--- 30 4 0.08 1.00 Totais 50 1.00

Figura 8: Histograma de horas TV, com k = 6 classes e amplitude h = 5h (feito no R).

(10)

Notas:

1) Observe que o valor 30 foi incluído na última classe, para que

não seja criada uma nova classe;

2) Isto se deve pela forma como foi calculada a amplitude de

classes h e pelo fato dos intervalos serem fechados à esquerda e abertos à direita.

Para contornar esse fato, podemos aumentar ligeiramente o valor de h (e de forma conveniente) para que os extremos fiquem contidos na amplitude total das classes.

Para o exemplo o limite inferior deve ser 0 pela natureza da variável, mas o valor de h pode ser aumentado em 0.5 unidades, levando o limite superior a 33.0.

Tabela 4: Distribuição de frequências de horas TV, com k = 6 classes e h = 5.5h. Horas TV classes Freq. absoluta Freq. relativa Freq. acumulada ni fi Fac 0 |--- 5.5 14 0.28 0.28 5.5 |--- 11.0 17 0.34 0.62 11.0 |--- 16.5 12 0.24 0.86 16.5 |--- 22.0 4 0.08 0.94 22.0 |--- 27.5 2 0.04 0.96 27.5 |--- 33.0 2 0.04 1.00 Totais 50 1.00

(11)

0.0 5.5 11.0 16.5 22.0 27.5 33.0 0 5 10 15 horas F re q ü ê n c ia Histograma de horas de TV

Figura 9: Histograma de horas TV, com k = 6 classes e amplitude h = 5.5h (feito no Minitab).

4.2.1. Regras para a escolha do número de classes k

Existem diversas propostas para a determinação do número de classes k. A regra de Sturges é a mais popular delas, estando implementada em diversos softwares tal como o R-gui.

A seguir apresentaremos outras maneiras para se definir o número de classes de um histograma.

a) Sturges: k

13.32log10(n)

em que [.] indica a função maior inteiro contido.

b) Raiz quadrada: pela regra da raiz quadrada, se:

se n  100  kn

se n > 100 k 5log(n)

(12)

Outros autores, ainda, criaram procedimentos que primeiro determina a amplitude das classes h, após o que, o número de classes é determinado pela relação

h A k  .

A ideia por trás desses procedimentos consiste em obter uma melhor visualização para o histograma.

Mais detalhes podem ser obtidos no link:

(13)

4.2.2. Exemplos:

a) Excel: Tabela de frequências e histograma para variáveis contínuas, no Excel. Bloco Frequência 0 1 4.3 6 8.6 13 12.9 15 17.1 7 21.4 4 25.7 2 Mais 2 Histograma 0 4 8 12 16 0 4.3 8.6 12.9 17.1 21.4 25.7 Mais Bloco F re q ü ê n c ia Freqüência

Figura 10: Histograma de horas TV, com k = 6 classes e amplitude h = 5.5h (feito no Excel).

(14)

b) Dados discretizados:

Uma grande companhia está preocupada com o tempo que seus equipamentos ficam em manutenção na assistência técnica. Sendo assim, fez um levantamento do tempo de manutenção (dias) de 50 equipamentos para um estudo mais detalhado.

X = dias em manutenção de equipamentos.

15 13 21 9 5 5 10 6 2 2 9 10 3 4 2 13 12 16 7 6 4 11 8 6 6 10 17 13 9 5 2 5 9 14 15 3 6 18 3 4 5 7 8 3 10 5 5 4 5 2 Dados Ordenados: 2 2 2 2 2 3 3 3 3 4 4 4 4 5 5 5 5 5 5 5 5 6 6 6 6 6 7 7 8 8 9 9 9 9 10 10 10 10 11 12 13 13 13 14 15 15 16 17 18 21 Tabela de frequências: k = [1 + 3.32·log1050] = [ 6.64 ] = 6 a 7 classes A = 21 – 2 = 19  h = 19/6 = 3.16  3.2

(15)

Com k = 7 classes: Xi (dias) ni fi Fac 2 a 4 13 0.26 0.26 5 a 7 15 0.30 0.56 8 a 10 10 0.20 0.76 11 a 13 5 0.10 0.86 14 a 16 4 0.08 0.94 17 a 19 2 0.04 0.98 20 a 22 1 0.02 1.00 Total 50 1.00 -

Figura 11: Histograma de dias de manutenção, dados discretizados (feito no Excel).

(16)

Figura 12: Gráfico frequências acumuladas de dias de

manutenção (feito no Excel).

Medidas Descritivas de Posição:

i) Média: xi = 392  7.84 50 392 x dias ii) Mediana: Md(x) = 6 2 6 6 2 ) 26 ( ) 25 (  x x dias

(17)

Com k = 6 classes: Xi (dias) ni fi Fac 0 a 3 9 0.18 0.18 4 a 7 19 0.38 0.56 8 a 11 11 0.22 0.78 12 a 15 7 0.14 0.92 16 a 19 3 0.06 0.98 20 a 23 1 0.02 1.00 Total 50 1.00 -

Figura 13: Histograma de dias de manutenção, (k = 6) dados discretizados (feito no Excel).

(18)

Comandos do R-gui para o histograma: x <-c(15, 13, 21, 9, 5, 5, 10, 6, 2, 2, 9, 10, 3, 4, 2, 13, 12, 16, 7, 6, 4, 11, 8, 6, 6, 10, 17, 13, 9, 5, 2, 5, 9, 14, 15, 3, 6, 18, 3, 4, 5, 7, 8, 3, 10, 5, 5, 4, 5, 2)

# pela regra de Sturges #######################

nclass.Sturges(x)

hist(x, col="bisque")

hist(x, breaks="Sturges", col="bisque")

# pela regra de Scott #####################

nclass.scott(x)

hist(x, breaks="Scott", col="bisque")

# pela regra de Fridman-Diacomis ################################

nclass.FD(x)

hist(x, breaks="FD", col="bisque")

hist(x, breaks=7, col="bisque") hist(x, breaks=8, col="bisque")

# definindo os intervalos #########################

h1 <- c(0.5,4.5,8.5,12.5,16.5,20.5,24.5) hist(x, breaks=h1, col="bisque")

h2 <- c(1.5,4.5,7.5,10.5,13.5,16.5,18.5,22.5) hist(x, breaks=h2, col="bisque")

(19)

c) Dados contínuos:

X = notas de avaliação de teste verbal aplicado em 87 alunos.

2.5 2.8 2.8 3.2 3.5 3.6 3.7 3.8 3.9 4.0 4.1 4.1 4.1 4.1 4.2 4.5 4.6 4.7 4.7 4.7 4.7 4.8 4.8 4.9 4.9 5.0 5.0 5.1 5.1 5.1 5.2 5.2 5.2 5.2 5.2 5.3 5.3 5.3 5.3 5.4 5.4 5.4 5.4 5.5 5.5 5.5 5.6 5.7 5.7 5.8 5.9 5.9 5.9 5.9 6.0 6.1 6.1 6.1 6.1 6.2 6.2 6.2 6.3 6.4 6.4 6.4 6.4 6.5 6.5 6.5 6.5 6.5 6.6 6.6 6.7 6.7 6.7 6.7 6.8 6.9 6.9 7.0 7.0 7.1 7.2 7.3 7.5 k = [1 + 3.32·log10(87)] = [ 7.44 ] = 7 a 8 classes A = 7.5 – 2.5 = 5 h = 5/7 = 0.714  0.72 Com k = 7 classes: Xi (nota) ni fi Fac 2.50 |--- 3.22 4 0.046 0.046 3.22 |--- 3.94 5 0.057 0.103 3.94 |--- 4.66 8 0.092 0.195 4.66 |--- 5.38 22 0.253 0.448 5.38 |--- 6.10 16 0.184 0.632 6.10 |--- 6.82 24 0.276 0.908 6.82 |--- 7.54 8 0.092 1.000 Total 87 1.000 -

(20)

Figura 11: Histograma de nota de avaliação

verbal, (feito no Excel).

Medidas descritivas de posição:

i) Média: xi = 475.8  5.47 87 8 . 475 x ii) Mediana: Md(x)  x(44) 5.50

(21)

Comandos do R para o histograma: v <- c(2.5, 2.8, 2.8, 3.2, 3.5, 3.6, 3.7, 3.8, 3.9, 4.0, 4.1, 4.1, 4.1, 4.1, 4.2, 4.5, 4.6, 4.7, 4.7, 4.7, 4.7, 4.8, 4.8, 4.9, 4.9, 5.0, 5.0, 5.1, 5.1, 5.1, 5.2, 5.2, 5.2, 5.2, 5.2, 5.3, 5.3, 5.3, 5.3, 5.4, 5.4, 5.4, 5.4, 5.5, 5.5, 5.5, 5.6, 5.7, 5.7, 5.8, 5.9, 5.9, 5.9, 5.9, 6.0, 6.1, 6.1, 6.1, 6.1, 6.2, 6.2, 6.2, 6.3, 6.4, 6.4, 6.4, 6.4, 6.5, 6.5, 6.5, 6.5, 6.5, 6.6, 6.6, 6.7, 6.7, 6.7, 6.7, 6.8, 6.9, 6.9, 7.0, 7.0, 7.1, 7.2, 7.3, 7.5) hist(v, col="bisque")

# pela regra de Sturges #######################

Nclass.Sturges(v)

hist(v, breaks="Sturges", col="bisque")

# pela regra de Scott #####################

nclass.scott(v)

hist(v, breaks="Scott", col="bisque")

# pela regra de Fridman-Diaconis ################################

nclass.FD(v)

hist(v, breaks="FD", col="bisque") hist(v, breaks=7, col="bisque") hist(v, breaks=8, col="bisque")

# definindo os intervalos #########################

h <- c(2.50,3.22,3.94,4.66,5.38,6.10,6.82,7.54) hist(v, breaks=h, col="bisque")

boxplot(v, col="yellow2", horizontal=FALSE) boxplot(v, col="yellow2")

(22)

4.3. Média. moda, mediana e a simetria dos dados

Figura 12: Função de distribuição de probabilidades sobre o histograma.

O que podemos dizer acerca desta distribuição de frequências em relação a sua simetria?

Quando uma distribuição de frequências é simétrica, teremos que a média, a moda e a mediana serão iguais, ou seja:

(23)

E quanto ao exemplo acima, como podemos classificá-lo em função da sua falta de simetria?

Quando a distribuição não é simétrica, podemos distinguir duas situações possíveis

a) Quando a cauda superior da distribuição for mais alongada,

puxando a distribuição para a direita. Neste caso, a média é

maior do que a moda e a assimetria é dita à direita ou

positiva.

b) Quando a cauda inferior da distribuição for mais alongada.

puxando a distribuição para a esquerda. Neste caso, a média é

menor do que a moda e a assimetria é dita à esquerda ou

negativa.

(24)

4.3.1. Relação entre média, moda e mediana

i) A Média é sempre influenciada por valores extremos, sendo puxada na direção da cauda mais alongada;

ii) A Moda é o elemento de maior frequência, sendo o ponto

de máximo de f(x);

iii) A Mediana está sempre no meio do conjunto, dividindo-o em duas partes iguais, ficando entre as duas medidas anteriores.

Assim, para cada situação, teremos:

(25)

b) Na situação em que ocorre a assimetria à direita, teremos a moda menor do que a mediana que é menor do que a média.

c)E, para a assimetria à esquerda, devemos ter a média menor

(26)

4.3.2. Relação empírica entre média, moda e mediana

Karl Pearson, metemático famoso, no final do século XIX e início do XX, observou empiricamente, a seguinte relação entre as três medidas de posição média mediana e moda.

( )

3 ) (x x med x mo x    Observações:

i) A relação só se aplica à distribuições com boa simetria;

ii) Só é valida para casos unimodais;

iii) Depende de um tamanho de amostra n elevado.

4.3.3. Moda de Czuber

(27)

Distribuição de frequências de horas TV, Horas TV classes Freq. absoluta Freq. relativa Freq. acumulada ni fi Fac 0 |--- 5.5 14 0.28 0.28 5.5 |--- 11.0 17 0.34 0.62 11.0 |--- 16.5 12 0.24 0.86 16.5 |--- 22.0 4 0.08 0.94 22.0 |--- 27.5 2 0.04 0.96 27.5 |--- 33.0 2 0.04 1.00 Totais 50 1.00 56 . 7 8 5 . 60 ) 5 3 ( 3 5 . 5 5 . 5 ) (      x moCZ 4.4. O gráfico box-plot

Representação gráfica da dispersão dos dados em torno da mediana

Valores discrepantes Valores discrepantes

(28)

Procedimento para a construção do box-plot

i)

Construir a “caixa” ou “box” com os quartis Q1 e Q3;

ii)

Com uma linha, demarcar a mediana, dividindo a caixa em

duas partes;

iii)

Calcular os limites inferior (LI) e superior (Ls): - LI = Q1 – 1.5AQ

- LS = Q3 + 1.5AQ

Os valores da amostra menores do que LI ou maiores do que LS

são identificados como “valores discrepantes” e destacados no

box-plot com pontos além desses limites.

iv)

Para os “braços” do box-plot, traçar linhas a partir dos centros

das laterais inferior e superior da caixa até os valores mais

afastados que não sejam discrepantes, ou seja:

- traçar uma linha da lateral inferior da caixa até o menor valor que não seja discrepante e marcar os pontos discrepantes

(menores do que LI );

- traçar uma linha da lateral superior da caixa até o maior valor que não seja discrepante e marcar os pontos discrepantes

(menores do que LS );

Exemplo:

Seja a variável: horas gastas por semana assistindo TV. 10

Q 5 14

(29)

Figura 15: Box-plot para a variável horas de TV

Comandos do R para o box-plot:

x <- c( 0, 2, 2, 2, 2, 3, 4, 5, 5, 5, 5, 5, 5, 5, 6, 7, 7, 8, 8, 8, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 12, 12, 12, 12, 14, 14, 14, 14, 14, 15, 16, 18, 20, 20, 20, 25, 25, 28, 30)

boxplot(x, col="bisque", main="Horas assistindo TV", ylab="Horas", pch=19)

(30)

Exemplo:

Dados do estudo sobre exposição à violência familiar de crianças em idade escolar

(2 grupos  Expostos à violência e Não Expostos)

Variável: Renda PC grupo (Exposto e Não Exposto) Grupo: EXP 68 96 100 100 112 112 117 120 120 135 150 160 160 200 260 - Mediana: Md(x)  x(8) 120 reais - 1o Quartil: Q1 = x(4) = 100 reais - 3o Quartil: Q3 = x(12) = 160 reais - Média: 134 15 2010  

n x x reais - Variância:

x2 300942 14 269340 300942 ) 1 15 ( ) 134 ( 15 300942 ) 1 ( 2 2 2 2        

n x n x s 286 . 2257 14 31602 2   s - Desvio-padrão: ss2  2257.286  47.51 reais

(31)

50 150 250 Box-plot renda per capita

Grupo Exposto

Figura 16: Box-plot renda, grupo exposto

35 85 135 185 235 285 0 1 2 3 4 5 6 7 8 Grupo Exposto F re q ü ê n c ia

(32)

Grupo NEXP 36 50 70 84 108 109 120 120 150 150 180 220 250 260 300 - Mediana: Md(x)  x(8) 120 reais - 1o Quartil: Q1 = x(4) = 184 reais - 3o Quartil: Q3 = x(12) = 220 reais - Média: 147.13 15 2207  

n x x reais - Variância:

x2  413997 14 27 . 324723 413997 ) 1 15 ( ) 13 . 147 ( 15 413997 ) 1 ( 2 2 2 2        

n x n x s 695 . 6376 14 73 . 89273 2   s - Desvio-padrão: ss2  6376.695 79.85 reais

(33)

0 100 200 300 Grupo Não Exposto

Box-plot renda per capita

Figura 18: Box-plot renda, grupo não exposto

0 66 132 198 264 330 0 1 2 3 4 5 6

Grupo não Exposto

F re q ü ê n c ia

(34)

Figura 20: Box-plot renda, comparativo entre os grupos exposto e não exposto

Comandos do R-gui para o box-plot comparativo

ex <- c( 68, 96,100,100,112,112,117,120,120,135,150, 160,160,200,260) nex <- c( 36, 50, 70, 84,108,109,120,120,150,150,180, 220,250,260,300) renda <- c(ex,nex) gr <- c(rep("ex",length(ex)),rep("nex",length(nex))) boxplot(renda~gr, col=c("red3","green3"))

(35)

Exemplo:

Dados simulados do tempo de uma reação química em função do tipo do catalisador.

Comandos do R para o exemplo

# Entrada dos dados ################### Cat.A <- c(77.9,72.6,74.2,76.1,77.8,81.9,83.2,76.3,79.3,77.2,90.8, 79.7,79.7,80.4,84.4,81.7,80.0,71.5,73.4,81.7,71.5,70.9, 85.1,84.0,63.4) Cat.B <- c(87.4,89.3,99.4,100.2,99.4,85.6,102.2,94.7,92.4,89.4, 91.9,88.9,98.0,99.8,91.9,99.1,95.9,89.4,90.5,91.4,87.6, 89.7,92.5,77.4,90.8) Cat.C <- c(89.4,84.2,86.2,82.2,83.4,87.0,82.3,81.9,86.4,80.7,83.2, 87.6,88.9,84.2,85.1,83.8,85.2,88.1,84.2,87.1,87.6,87.3, 85.1,85.6,96.7) Cat.D <- c(84.6,92.3,85.7,88.1,85.5,98.0,98.1,86.5,89.3,93.4,91.2, 93.7,97.3,79.5,94.6,87.9,87.4,88.2,97.3,92.2,98.5,94.5, 93.3,92.8,94.4) # Estatísticas descritivas ##########################

medias <- round(c(mean(Cat.A), mean(Cat.B), mean(Cat.C), mean(Cat.D)),3)

desvios <- round(c(sd(Cat.A),sd(Cat.B),sd(Cat.C),sd(Cat.D)),4) quantis <- rbind(quantile(Cat.A), quantile(Cat.B),

quantile(Cat.C), quantile(Cat.D))

descr <- cbind(medias, desvios, quantis)

dimnames(descr)[1] <- list(c("Catalisador A","Catalisador

B","Catalisador C","Catalisador D")) dimnames(descr)[2] <- list(c("Média","D.Padrão","Min.", "Q1",

"Mediana", "Q3","Max."))

dimnames(descr)[1] <- list(c("Catalisador A","Catalisador B", "Catalisador C","Catalisador D")) descr

Média D.Padrão Min. Q1 Mediana Q3 Max. Catalisador A 78.188 5.7634 63.4 74.2 79.3 81.7 90.8 Catalisador B 92.592 5.6885 77.4 89.4 91.9 98.0 102.2 Catalisador C 85.736 3.2337 80.7 83.8 85.2 87.3 96.7 Catalisador D 91.372 4.9439 79.5 87.9 92.3 94.5 98.5

(36)

# box-plot comparativo ######################

tempo <- c(Cat.A, Cat.B, Cat.C, Cat.D) ni <- length(Cat.A)

cat <- c(rep("Catalisador A",ni), rep("Catalisador B",ni), rep("Catalisador C",ni), rep("Catalisador D",ni)) boxplot(tempo ~ cat, col=c("green4","blue3","red3","yellow3",

main="Tempo de reação x catalisador"), ylab="Tempo de reação", cex=0.8)

(37)

4.5. Estatísticas descritivas para dados agrupados Exemplo 1: dados coletados em entrevistas com 500 pessoas

a) – variável número de divórcios por indivíduo

b) – variável tempo (em anos) até o primeiro divórcio

a) Variável discreta: tabela do número de divórcios por indivíduo.

Divórcios = xi ni fi xi fi Fac ni xi 2 1 240 0.480 0.480 0.480 240 2 125 0.250 0.500 0.730 500 3 81 0.162 0.486 0.892 729 4 48 0.096 0.384 0.988 768 5 6 0.012 0.060 1.000 150 Total 500 1.000 1.910 - 2387 Média amostral: x

xi fi = 1.91 divórcios

Variância e desvio-padrão amostrais:

13 . 1 499 95 . 562 ) 1 500 ( ) 910 . 1 ( 500 2387 ) 1 ( 2 2 2 2        

n x n x s i 06 . 1  s divórcios

Outra forma de representação:

Divórcios = xi ni fi xi fi Fac (xi –

x

) ni (xi –

x

) 2 1 240 0.480 0.480 0.480 –0.910 198.744 2 125 0.250 0.500 0.730 0.090 1.013 3 81 0.162 0.486 0.892 1.090 96.236 4 48 0.096 0.384 0.988 2.090 209.669 5 6 0.012 0.060 1.000 3.090 57.289 Total 500 1.000 1.910 562.951 Média amostral:

x

x

i

f

i = 1.91 divórcios

Variância amostral:

1.13 499 951 . 562 ) 1 ( 2 2   

n x x s i

(38)

b) Variável contínua: tabela do tempo até o primeiro divórcio. Anos Casados ponto médio xi ni fi xi fi Fac ni xi 2 0 |--- 6 3 280 0.56 1.68 0.56 2520 6 |--- 12 9 140 0.28 2.52 0.84 11340 12 |--- 18 15 60 0.12 1.80 0.96 13500 18 |--- 24 21 15 0.03 0.63 0.99 6615 24 |--- 30 27 5 0.01 0.27 1.00 3645 Total 500 1.00 6.90 37620 Média amostral: x

xi fi = 6.90 anos

Variância e desvio-padrão amostrais:

685 . 27 499 13815 ) 1 500 ( ) 90 . 6 ( 500 37620 ) 1 ( 2 2 2 2        

n x n x s i 26 . 5  s anos

Outra forma de representação: Anos = xi ptos. médios ni fi xi fi Fac (xi –

x

) ni (xi –

x

) 2 3 280 0.56 1.68 0.56 -3.9 4258.80 9 140 0.28 2.52 0.84 2.1 617.40 15 60 0.12 1.80 0.96 8.1 3936.60 21 15 0.03 0.63 0.99 14.1 2982.15 27 5 0.01 0.27 1.00 20.1 2020.05 Total 500 1.00 6.90 - - 13815.00 Média amostral:

x

x

i

f

i = 6.90 anos

Variância amostral:

27.685 499 00 . 13815 ) 1 ( 2 2   

n x x s i

(39)

Exemplo 2: Escores GMAT (Graduate Management Apititude

Test) aplicado num processo seletivo para a escolha de alunos num

programa de graduação.

Escores Pto. Médio

xi ni fi Fac xi fi ni xi 2 300 |-- 350 325 3 0.035 0.035 11.5 316875 350 |-- 400 375 7 0.082 0.117 30.9 984375 400 |-- 450 425 18 0.212 0.329 90.0 3251250 450 |-- 500 475 24 0.282 0.611 134.1 5415000 500 |-- 550 525 15 0.177 0.788 92.6 4134375 550 |-- 600 575 10 0.118 0.906 67.6 3306250 600 |-- 650 625 4 0.047 0.953 29.4 1562500 650 |-- 700 675 4 0.047 1.000 31.8 1822500 Totais 85 1.000 488 20793125 Histograma:

(40)

Pela interpolação linear (ou semelhança de triângulos), temos: a) 212 . 0 117 . 0 25 . 0 400 450 400 1     Q  431.4 212 . 0 ) 133 . 0 ( 50 400 1    Q b) 282 . 0 329 . 0 50 . 0 50 450 ~   x  480.3 282 . 0 ) 171 . 0 ( 50 450 ~ x c) 177 . 0 611 . 0 75 . 0 50 500 3    Q  539.3 177 . 0 ) 139 . 0 ( 50 500 3    Q

(41)

4.6. Representação gráfica para variáveis qualitativas

Exemplo 1: Pesquisa PNAD 2004 – Moradores por domicílio Brasil.

a) Tabela de uma entrada: número de domicílios por região

Região Domicílios % SE 23157114 44.8 NE 13090124 25.3 S 8198266 15.8 CO 3745500 7.2 N 3561524 6.9 51752528 100.0

b) Tabela de dupla entrada: moradores/dom, por região

(dados brutos) Moradores por domicílio Região N NE SE S CO 1 292910 1190705 2612431 890834 424563 2 506597 2141312 4816793 1857904 739632 3 747866 2793052 5630782 2103424 843770 4 791985 2936946 5532907 1888026 948878 5 532447 1858876 2682387 917583 457745 6 308311 991114 1094518 322794 189354 7 161696 532787 410151 131936 75022 8 ou + 219712 645332 377145 85765 66536 Total 3561524 13090124 23157114 8198266 3745500

(42)

Tabela de dupla entrada: moradores/dom, por região (porcentagens) Moradores por domicílio Região N NE SE S CO 1 8.2 9.1 11.3 10.9 11.3 2 14.2 16.4 20.8 22.7 19.7 3 21.0 21.3 24.3 25.7 22.5 4 22.2 22.4 23.9 23.0 25.3 5 14.9 14.2 11.6 11.2 12.2 6 8.7 7.6 4.7 3.9 5.1 7 4.5 4.1 1.8 1.6 2.0 8 OU + 6.2 4.9 1.6 1.0 1.8 Total 100.0 100.0 100.0 100.0 100.0

c) Gráfico de setores (pizza): número de domicílios por região

Região Domicílios proporção ângulo SE 23157114 0.447 161 NE 13090124 0.253 91 S 8198266 0.158 57 CO 3745500 0.072 26 N 3561524 0.069 25 51752528 1 360

- Para achar o ângulo, deve-se usar a relação: 100% = 360o.

- Portanto, se uma categoria tem proporção de 0.447, basta

multiplicar 0.447 por 360o para encontrar o ângulo

correspondente (regra de três).

Logo: 0.447 • 360o = 161o 0.072 • 360o = 26o

0.253 • 360o = 91o 0.069 • 360o = 25o

(43)

45%

25% 16%

7%7%

Domicílios por região

SE NE S CO N

(44)
(45)

Exemplo 2:

Variável: Notas de português por grupo de estudantes expostos à

violência familiar.

Nota português

Expostos Não expostos

ni % ângulo ni % ângulo

I 5 33% 119o 3 20% 74o

S 8 54% 194o 6 40% 144o

PS 5 13% 47o 6 40% 144o

I = Insatisfatória, S = Satisfatória e PS = Plenamente Satisfatória

a) Gráfico de colunas:

(46)

Referências

Documentos relacionados

Isto remete para uma terceira ideia: os impactos globais e multiplicadores da agenda do trabalho digno. Aliás, a agenda do trabalho digno é global não apenas pelos efeitos que tem

A mesa localizada na sala da diretoria, possui altura, largura, largura livre sob a superfície e profundidade livre de acordo com a norma NBR 9050 (ASSOCIAÇÃO BRASILEIRA DE NORMAS

Em função de leis ambientais mais restritivas e da busca por máquinas mais eficientes, a indústria global de fluidos frigoríficos tem pesquisado e desenvolvido novas soluções para

Este resultado também foi verificado por Chu e Chan (2003), que reporta o pH ótimo para o tratamento de efluentes via processo Foto-Fenton, apresentando baixa

“Só o amor vale; qualquer atitude sem amor, de nada

Se você conectar um dispositivo MTP que processe um &#34;fluxo de mídia digital USB&#34; para esta unidade, será possível reproduzir arquivos WMA-DRM10 (Gerenciamento de

O presente Termo Aditivo a Convenção Coletiva de Trabalho abrangerá a(s) categoria(s) EM INTERSECÇÃO COM O QUE CONSTA DOS REGISTROS SINDICAIS DAS PARTES, OU SEJA,

Portanto, o tema do artigo nos remete também a pensarmos na importância da família junto à escola, as contribuições que os pais podem oferecer quando existe uma participação