1. Representação de dados qualitativos em tabelas e gráficos
Para a representação de dados qualitativos em tabelas e gráficos vamos precisar definir algumas quantidades:
n = tamanho da amostra ou frequência absoluta total; k = número de categorias ou classes;
ni = frequência absoluta da i-ésima categoria ou classe, i = 1, 2, ..., k; n n k i i 1
fi = frequência relativa da i-ésima categoria ou classe, i = 1, 2, ..., k;
n n fi i , 1 1 1 k i i k i i n n f
1.1. Tabelas de frequências de variáveis qualitativas
Representação das frequências das categorias da variável qualitativa numa tabela com as frequências absolutas e relativas.
Categorias Freq. absolutas Freq. relativas
Categoria 1 n1 f1 = n1 / n ⁞ ⁞ ⁞ Categoria i ni fi = ni / n ⁞ ⁞ ⁞ Categoria k nk fk = nk / n Totais n 1
Exemplo: Número de declarações de imposto de renda por pessoa
física no ano de 2012.
Tabela 1: Declarações de imposto de renda em 2012 por faixas de renda. Faixas de renda Valores
absolutos
Valores relativos
Até 5 mil reais 10.578.893 0.4130
De 5 a 50 mil reais 4.986.451 0.1946 De 50 a 100 mil reais 2.690.803 0.1050 De 100 a 300 mil reais 4.255.263 0.1661 De 300 a 500 mil reais 1.336.082 0.0522 De 500 a 1000 mil reais 1.061.113 0.0414 Acima 1500 mil reais 708.948 0.0277
Totais 25.617.553 1.0000
Fonte: Receita Federal - http://www.receita.fazenda.gov.br
A tabela pode, ainda, ser representada com os valores relativos em porcentagens:
Tabela 2: Declarações de imposto de renda em 2012 por faixas de renda. Faixas de renda Valores
absolutos
Valores relativos
Valores percentuais
Até 5 mil reais 10.578.893 0.4130 41.30
De 5 a 50 mil reais 4.986.451 0.1946 19.46
De 50 a 100 mil reais 2.690.803 0.1050 10.50 De 100 a 300 mil reais 4.255.263 0.1661 16.61 De 300 a 500 mil reais 1.336.082 0.0522 5.22 De 500 a 1000 mil reais 1.061.113 0.0414 4.14
Acima 1500 mil reais 708.948 0.0277 2.77
Totais 25.617.553 1.0000 100.00
Fonte: Receita Federal - http://www.receita.fazenda.gov.br
Obs: Existe uma norma especifica do IBGE para a construção de tabelas que pode ser observada.
1.2. Representação gráfica de variáveis qualitativas
A representação gráfica de variáveis qualitativas é feita basicamente de gráficos de barras (ou colunas) ou gráficos de setores (pizza), com suas diversas variações. Podem, também, ser utilizados gráficos pictóricos, que, na prática são variações dos gráficos de barras.
A seguir são apresentados os gráficos de barras e setores para as Tabelas 1 e 2.
i) Gráfico de barras verticais ou colunas:
Figura 1: Número de declarações de IRPF (mil unidades), por
ii) Gráfico de barras horizontais:
Figura 2: Número de declarações de IRPF, em valores percentuais,
por faixas de renda, ano base 2012.
iii) Gráfico de setores (pizza):
Figura 3: Gráfico de setores (pizza) para causas mais frequentes de
intoxicação e envenenamento em crianças de 1 a 5, anos em valores percentuais.
Variação do gráfico de pizza, o gráfico de rosca
Figura 4: Gráfico tipo rosca para causas mais frequentes de intoxicação e envenenamento em crianças de 1 a 5, anos em valores
1.3. Variáveis qualitativas em tabelas com dupla classificação
Muitas vezes as variáveis são apresentadas em tabelas com duas classificações, conforme esquema.
Tabela 3: Representação de uma tabela de dupla entrada l x c.
Classificação A Totais das linhas A1 … Aj … Ac B1 n11 … n1j … n1c n1 ⁞ ⁞ ⁞ ⁞ ⁞ Bi ni1 … nij … nic ni ⁞ ⁞ ⁞ ⁞ ⁞ Bl nl1 … nlj … nlc nl Totais das colunas n1 … nj … nc n
A Classificação A tem c categorias (número de colunas da tabela).
A Classificação B tem l categorias (número de linhas da tabela). A tabela assim constituída pode ser identificada como:
tabela de dupla entrada (tabela l x c );
tabela cruzada ou
tabela de contingência.
Clas
sificação
As quantidades apresentadas na tabela são definidas como:
nij = Total observado nas categorias Ai e Bj , simultaneamente.
É dado pelo valor no cruzamento da i-ésima linha e j-ésima coluna.
, , 2 , 1 i e j 1, 2,, c.
ni = Total das observações da categoria Bi
É dado pela soma dos valores da i-ésima linha.
nj = Total das observações da categoria Aj
É dado pela soma dos valores da j-ésima coluna.
n = Total das observações ou tamanho da amostra.
É dado pela soma de todos os valores da tabela.
Obs: Se estivermos estudando a população toda, então teremos
N = tamanho da população. Ainda: c j ij i n n 1
total da i-ésima linha;
1 i ij j n
n total da j-ésima coluna;
1 1 i c j ij n
1.3.1. Caso especial l = c = 2, tabelas 2x2.
Tabela 4: Representação de uma tabela de dupla entrada 2 x 2.
A1 A2 Totais das linhas B1 n11 n12 n1 B2 n21 n22 n2 Totais das colunas n1 n2 n
Exemplo 1: Crianças expostas a violência doméstica do pai contra a mãe, variáveis situação civil da mãe e grupo (tabela 2x2).
Tabela 5: Tabela com dupla classificação segundo
situação civil da mãe por grupo.
Vive com o
companheiro Separada Totais
Expostos 11 4 15 Não Expostos 14 1 15 Totais 25 5 30 Assim temos: n11 = 11 n12 = 4 n21 =14 n22 =1 n1 = 15 n2 = 15 n1 = 25 n2 = 5 n = 30
Representação gráfica:
Figura 5: Representação gráfica da dupla classificação
situação civil da mãe por grupo.
1.3.2. Caso especial, tabelas em porcentagens.
A tabela de dupla classificação pode, ainda, ser construída levando em consideração os percentuais em relação às colunas. Desta forma, no exemplo acima teremos:
Tabela 6: Tabela situação civil da mãe por grupo,
em valores percentuais
Vive com o
companheiro Separada Totais
Expostos 44 80 50
Não Expostos 56 20 50
Neste caso, a representação gráfica deve acompanhar a ordem de grandeza.
Figura 6: Representação gráfica da situação civil da mãe
por grupo, em valores percentuais
Obs: quando se tem uma tabela com dupla classificação para se comparar diferentes perfis é prudente que esse comparação seja realizada considerando-se os valores percentuais.
Exemplo 2: Condições clínicas do periodonto de pacientes atendidos na Clínica de Graduação da Faculdade de Odontologia de Araraquara - UNESP, no período de 1994 a 1999 (tabela 4x3).
Tabela 7: Presença de doença por idade (anos).
Presença de Doença
Faixa etária do paciente (anos)
Contagens Porcentagens 19-40 41-60 60 ou + 19-40 41-60 60 ou + Diabete 11 11 3 30.6 17.7 15.8 Hipertensão 10 34 11 27.8 54.8 57.9 Discr. Sanguineas 5 1 3 13.9 1.6 15.8 Alt. Hormonais 10 16 2 27.8 25.8 10.5 Total 36 62 19 100.0 100.0 100.0
Idade x Presença de Doença
30.6 17.7 15.8 27.8 13.9 1.6 15.8 27.8 25.8 10.5 57.9 54.8 0 16 32 48 64
19-40 anos 41-60 anos 60 anos ou+
%
Diabete Hipetensão Discr.Sanguineas Alt.Hormonais
1.4. Representações gráfica: o que se deve evitar:
a) Barras (ou colunas) muito afinadas e compridas:
Figura 5: Origem dos alunos da turma de Bioestatística
por distância, em km.
b) Barras (ou colunas) muito largas e baixas, com cores distintas:
Figura 6: Origem dos alunos da turma de Bioestatística
c) Gráfico muito pequeno num espaço grande:
Figura 7: Origem dos alunos da turma de Bioestatística
por distância, em km.
d) Gráfico muito grande para o espaço:
Figura 7: Origem dos alunos da turma de Bioestatística
e) Gráfico fora de escala (propositalmente): Tabela 3: Intenção de votos
Candidato Votos (%) Candidato A 29.5 Candidato B 26.3 Candidato C 25.2 Candidato D 19.0 Total Geral 100
Figura 7: Intenção de votos para os 4 candidatos
Figura 9: Intenção de votos para os 4 candidatos, lado a lado.
f) Gráfico muito muitas categorias:
g) Erros na apresentação
Artigo do Blog Carta Maior, 16/12/2014:
Os limites atuais da distribuição de renda e riqueza no Brasil Os 0,9% mais ricos do País detêm entre 59,90% e 68,49% da riqueza, sendo as principais fontes de acumulação de riqueza os fluxos de renda e heranças.
http://idg.receita.fazenda.gov.br/dados/receitadata/estudos-e-tributarios-e-aduaneiros/trabalhos-academicos/trabalhos-academicos-pagina