LLLLL
Amaro, Ana; Silvestre, Cláudia e Fernandes, Leonor Estatística Descritiva - O segredo dos dados, 1a edição 114 p.
2009
ISBN 978-1-4452-6376-2
ESTATÍSTICA DESCRITIVA - O segredo dos dados
índice
Sobre o livro e as autoras 3
Capítulo I
Enquadramento, descrição do problema, apresentação dos dados 5
1. Introdução 7 2. Os Casos de estudo 8 Capítulo II Análise gráfica 11 1. Objectivo 15 2. Introdução 15 3. A natureza dos dados 16
4. Representação gráfica da distribuição de dados 18
4.1 Os Dados Qualitativos 18 4.1.1 Nominais 18 4.1.2 Ordinais 20 4.2 Os Dados Quantitativos 21 4.2.1 Discretos 23 4.2.2 Contínuos 25 5. A evolução dos valores de uma variável 27
5.1 Quantitativa 27 5.2 Qualitativa 28 6. Síntese 29 6.1 Estatística 29 6.2 Técnica 30 Capítulo III Análise numérica 31 1. Objectivo 35 2. Introdução 35 3. A organização dos dados 36
4. Tabelas de frequências 39 4.1 Dados quantitativos 39 4.2 Dados qualitativos 43 5. Medidas de tendência central 47
5.1 O valor médio 47 5.2 Mediana 50 5.3 A Moda 54 5.4 Relação entre os três indicadores de tendência central 58
6. Medidas de localização (quantis) 59
6.1 Quartis 59 6.2 Decis 61 6.3 Percentis 61
7. Medidas de dispersão 62
7.1 Amplitude 62 7.2 Distância inter-quartis 64
7.3 Desvio médio 64 7.4 Variância e desvio padrão 66
7.5 Coeficiente de variação 68 8. Medidas de forma 68 8.1 Simetria 68 8.2 Achatamento 73 9. Síntese 74 9.1 Estatística 74 9.2 Técnica 75 Capítulo IV A distribuição Normal 77 1. Objectivo 80 2. Introdução 80 3. Características da função densidade de uma variável aleatória com distribuição Normal 82
4. O Teorema do Limite Central (TLC) 86 5. Exemplificação da importância do Teorema do Limite Central 88
6. Testes de Normalidade 91 6.1 O teste Quiquadrado 94 6.2 O teste de Wilk-Shapiro 96
Capítulo V
Conclusões e definição de necessidades analíticas adicionais 99
1. Síntese 101 2. Necessidade adicionais 101
Referências bibliográficas 105
ANEXO 107
ESTATÍSTICA DESCRITIVA - O segredo dos dados
Sobre o livro e as autoras
Estatística Descritiva - o segredo dos dados nasce de um desafio:
ensinamos Estatística e Análise de Dados há uns anos e é diferente, é sempre diferente. Da experiência partilhada de ensino decidimos escrever um ensaio
/ livro sobre como fazer Estatística e a Análise de Dados.
Ana Amaro
(...) Ensino Estatística, actualmente, no Instituto Superior de Gestão em Lisboa (à Licenciatura em Gestão), tendo ensinado na Faculdade de Ciências e Tecnologia (Engenharia do Ambiente) e como Consultora no IDeiGest. Actualmente colaboro com a Universidade Lusófona (Economia e Gestão) e o ISLA (Mestrados) em disciplinas de Estatística Multivariada, Econometria e Métodos Matemáticos de Previsão.
A Estatística que ensino foi a que aprendi durante 4 anos como responsável pelo sector de Estatística e Investigação Operacional do Centro de Investigação Florestal da Soporcel (CIF). No CIF trabalhei com grande motivação num projecto pluridisciplinar que me empurrou para um projecto de doutoramento subsequente e financiado pela FCT que
conclui em 1997. 0 exemplo de professores de escolas americanas como o David Reed (Forest Resources and Environmental Sciences, Michigan Tech University) e o Peter Bryant (Management Science and Information Systems, University of Colorado at Denver and Health Sciences Center), com quem tive o privilégio de trabalhar, determinaram a minha postura no ensino e aprendizagem da Estatística. Desde então o meu desafio tem sido, todos os anos, aprender a ensinar Estatística.
Tenho ensinado alunos com poucas bases, alunos com cabeças brilhantes, alunos medianos, alunos de Mestrado provenientes de diferentes áreas da ciência, colegas professores... sozinha e em colaboração com outros colegas, sempre em ar de desafio (...)
Cláudia Silvestre
(...) Ensino Análise de Dados e investigo na área de Análise de Agrupamento na Escola Superior de Comunicação Social em Lisboa.
Licenciei-me em Probabilidades e Estatística na Faculdade de Ciências da Universidade de Lisboa em 1997 e obtive o grau de mestre em Probabilidades e Estatística na mesma instituição em 2001, defendendo a dissertação intitulada "Uma Aproximação Bayesiana para Projecções da Epidemia da SIDA pelo Método de Back-Calculation". Estagiei na Cateringpor desempenhando funções de Controlo Estatístico de Qualidade.
Desde então tenho ensinado matemática aplicada na Universidade da Beira Interior; actualmente na Escola Superior de Comunicação Social do Instituto Politécnico de Lisboa, contexto em que me propus doutorar na área de Métodos Quantitativos no Instituto Superior de Ciências do Trabalho e da Empresa.
O objectivo do projecto de investigação em Análise de Agrupamento é o desenvolvimento de métodos de selecção de grupos e de selecção de variáveis base para agrupamento. As suas áreas de interesse são Segmentação e Análise de Conteúdos onde têm sido aplicados os novos métodos desenvolvidos. (...)
Leonor Fernandes
(...) Ensino Matemática e Estatistica no Instituto Superior de Gestão e no IADE. Sou também analista de negócios na Euroatlantic Airways ,SA. Licenciei me em economia no ISEG, em 1990, e paralelamente à actividade de economista fui desenvolvendo a minha carreira de docente na área de Estatistica e Álgebra Linear. Surge em 2000 o mestrado em Estatistica e Gestão de Informação no ISEGI da Universidade Nova de Lisboa na área de sondagens com uma tese intitulada: Avaliação do custo da energia não fornecida: um plano de sondagens complexo.
A análise de dados e o processamento de informação faz parte da minha vida profissional de várias formas na vertente empresarial, na docência e enquanto estudante.
Sou doutoranda no Instituto Superior Técnico, doutoramento de Estatistica e Processos Estocásticos e penso desenvolver um trabalho na área de modelos de gestão de processos de manutenção.
Descobrir o que os números pretendem transmitir e utilizar essa informação no processo de decisão é uma novidade todos os dias. (...)
Em 2006, a Ana e a Cláudia trabalharam, em conjunto, num projecto muito interessante: dados provenientes de um Observatório de Publicidade foram dissecados utilizando análise estatística multivariada. Um dos resultados deste projecto conjunto foi a necessidade de começar a traduzir por escrito a nossa postura perante o ensino e a aprendizagem de Análise de Dados. A Leonor que assistiu ao processo de perto, naturalmente, aderiu ao projecto. Os dados que suportam este livro estão disponíveis em
https://sites.google.com/site/anaairesamaro/Home/analise-descritiva-de-dados e serão descritos mais à frente.
Em Junho de 2009 decidimos divulgar este "nosso" livro e fazê-lo chegar a quem achar interessante partilhar a nossa experiência de ensino e de aprendizagem da Estatística.
Ana, Cláudia e Leonor Julho 2009
ESTATÍSTICA DESCRITIVA - O segredo dos dados
Capítulo III
Capítulo I
Enquadramento, descrição do problema, apresentação dos dados
Make it as simple as possibie but not simpler
Albert Einstein (1879-1955)
ESTATÍSTICA DESCRITIVA - O segredo dos dados
Capítulo III
ESTATÍSTICA DESCRITIVA - O segredo dos dados
Capítulo III
1. Introdução
Transformar a informação contida num inquérito em informação útil ou legível é um processo complexo que exige experiência e habilidade. Ronald Coase (1910), Prémio Nobel da Economia 1991, usou a expressão torturar os dados
-if you torture the data enough, it will confess -, mostrando assim que é uma
tarefa árdua e que a sua activação promoverá resultados que ilustrarão a realidade escondida por trás dos dados. Não devemos ficar por uma análise superficial, antes cruzar informação, procurar incongruências, e caso as identifiquemos, perceber a sua origem e eliminá-las da análise, de modo sustentado.
Antes de iniciar a análise dos dados resultantes de um inquérito ou de um conjunto de dados que, de algum modo caracterizam uma realidade, existem algumas questões que devem ser acauteladas.
Ter algum conhecimento sobre o contexto é fundamental para o tratamento eficiente da informação. No entanto, devemos ser cuidadosos para que esse conhecimento prévio, ou que vamos adquirir ou adquirindo, não limite a nossa análise. Se por um lado, esse conhecimento nos ajuda a compreender melhor a informação que se pode retirar da análise dos dados, definindo assim directrizes de investigação, por outro lado não nos deve impossibilitar a identificação de novas linhas de investigação. O princípio de deixar os dados
falar deve ser seguido.
Depois de recolher informação sobre o assunto em análise e enunciar, de forma muito clara, o objectivo que norteou o seu delineamento e implementação ou aquisição, é fundamental conhecer o contexto em que foi recolhida a informação: como foi coligida a informação? em que circunstâncias? A primeira questão é pertinente pois condiciona as conclusões resultantes da análise dos dados: se a recolha dos dados é inadequada, não representará a realidade, sendo a generalização das conclusões abusiva. Saber qual o objectivo da realização de um inquérito, ou porque foram recolhidos aqueles dados, é essencial para a definição dos objectivos da análise a efectuar. Estes objectivos devem ser claramente definidos, pois constituem a espinha dorsal do relatório final.
Resumindo, podemos identificar três passos preliminares à análise dos dados: • obter o máximo de informação sobre o assunto envolvente / contexto • saber como e quando foi a informação recolhida
• delinear os objectivos da análise
Capítulo III
ESTATÍSTICA DESCRITIVA - O segredo dos dados
2. Os Casos de estudo
A publicidade tem um papel preponderante no mercado, que cada vez é mais competitivo. Ela contribui para que as empresas conquistem o seu espaço no mercado, marcando a diferença e aumentado o nível de notoriedade. Para os consumidores, a publicidade aumenta o conhecimento sobre os produtos e ajuda a distingui-los.
(...) Com o objectivo de lançar projectos de investigação de carácter permanente, foi criado, em 2001, o Observatório da Publicidade, resultando
de um protocolo entre o Instituto do Consumidor e a Escola Superior de Comunicação Social. O Observatório funciona como um Centro de Investigação e tem como principais objectivos: estudar a publicidade nacional de modo a identificar as tendências discursivas; acompanhar a adaptação das comunicações comerciais aos novos meios tecnológicos e identificar se as regras do sector estão a ser aplicadas, de forma a assegurar o conhecimento, em especial das empresas, das alterações e correcções de procedimento que garantam a sua competitividade. Deste trabalho de investigação resultaram já vários estudos, cujos resultados são apresentados regularmente em
conferências e seminários. (...)
(http://www.escs.ipl.pt/index.php?conteudo=investiqa&id=220 [2007-05-21]).
No âmbito do Observatório da Publicidade foi lançado um projecto com o objectivo de analisar a publicidade realizada para veículos automóveis (excluindo a que é relativa a stands e a concessionários), especificamente para descodificar a mensagem publicitária dos anúncios a analisar. Foi dada especial atenção à informação sobre os consumos e à emissão de CO2.
O sector automóvel tem vindo aumentar a informação que disponibiliza aos consumidores, o que altera os comportamentos de compra. Consumidores mais esclarecidos tornam-se mais exigentes e menos dependentes dos concessionários. Existe também uma tendência para os consumidores serem fiéis à marca. Para manter e aumentar esta tendência, a transparência da informação e a confiança devem estar patentes na informação disponibilizada, em particular na publicidade.
Os comportamentos de compra também diferem função do escalão etário do consumidor. Segundo a sexta edição do estudo anual da Capgemini, Cars Online 05/06 (2005), existem diferenças significativas entre os consumidores mais jovens e os idosos:
• Os jovens procuram informação na Internet, são exigentes e instáveis. • Os consumidores mais idosos, raramente usam a Internet como fonte de
informação, são mais leais à marca e ao concessionário.
ESTATÍSTICA DESCRITIVA - O segredo dos dados
Capítulo III
Ao fazer esta breve consideração sobre o assunto a analisar, surgem algumas questões que gostaríamos de ver respondidas no relatório final.
• Haverá diferenças entre os anúncios das várias marcas? • Quais as marcas que têm anúncios mais semelhantes entre si? • Que informação é transmitida na mensagem publicitária?
• É possível diferenciar anúncios destinados a jovens e a idosos? Em caso afirmativo, o que os diferencia?
Os dados a analisar foram recolhidos pelo Observatório de Publicidade, de um inquérito efectuado durante o primeiro trimestre de 2006 através dos seguintes suportes publicitários: televisão, rádio, internet, outdoor e imprensa.
Todas as perguntas são de resposta fechada, ou seja, a resposta é escolhida de entre um conjunto de respostas pré-definidas. Os dados são de natureza qualitativa nominal.
O inquérito (ver Anexo), da responsabilidade do Observatório da Publicidade, pode ser dividido em seis partes:
1. Identificação da publicidade: quando foi recolhida a informação, qual o meio de suporte e qual o produto;
2. Informação sobre a poluição, ou seja, se é feita ou não referência ao consumo e à emissão de CO2;
3. Caracterização do anúncio, onde se dá especial atenção à caracterização das personagens (caso existam), ao cenário e às cores dominantes;
4. Identificação do tipo de discurso usado e a existência de informação sobre o produto;
5. Estilos de vida e valores veiculados pelos anúncios;
6. Se o suporte publicitário usado foi a internet existem mais duas questões específicas deste suporte.
Os dados referem-se a 248 anúncios (projecto AOP) e estão armazenados no ficheiro AOP.xis disponível em
https://sites. gooqle.com/site/anaairesamaro/Home/analise-descritiva-de-dados.
Para complementar a informação recolhida sobre automóveis e atendendo à preocupação do Observatório da Publicidade sobre os consumos e emissões de C02 utilizou-se, ainda, a informação coligida pela Vehicle Certification
Agency (projecto VCA), on New Car Fuel Consumption and Exhaust Emissions Figures (http://www.vcacarfueldata.org.uk/index.asp) reportada a 1 de Maio de
2007, guardada no ficheiro VCA.xls, igualmente disponível em https://sites.gooqle.com/site/anaairesamaro/Home/analise-descritiva-de-dados.
ESTATÍSTICA DESCRITIVA - O segredo dos dados
Capítulo III
ESTATÍSTICA DESCRITIVA - O segredo dos dados
Capítulo III
Capítulo II Análise gráfica
Observe Everything. Communicate Well. Draw, Draw, Draw.
Frank Thomas (1912-2004)
ESTATÍSTICA DESCRITIVA - O segredo dos dados
Capítulo III
ESTATÍSTICA DESCRITIVA - O segredo dos dados
Capítulo III
As mais antigas representações gráficas foram identificadas no Paleolítico Superior, entre 40000 e 10000 anos A.C. (Fig. II-l) . Acredita-se que estas representações reproduzem pormenores
relativos ao quotidiano, aos astros, ao tempo. Primeiro foram gravadas na pedra e mais tarde em cerâmica. Além do processo natural de compor riscos ou traços com as mãos, o objectivo era o de reproduzir fenómenos para os registar ou para poder
transmitir a informação.
O papiro foi utilizado pelos egípcios como suporte do desenho do plano das pirâmides, a par da madeira e da argila. O Teorema de Pitágoras foi desenhado para ser explicado (Fig. II-2). Como meio de transmissão de informação ou, de forma mais elaborada, de suporte à decisão, as representações gráficas são desenvolvidas como meios fáceis e simples de explicar.
F I G . I I - l
(a) Representação de um cavalo (Penascosa, V. N. de Foz Côa) (b) Estilo II (Gravetense/Solutrense)
segundo A. Leroi-Gourhan
(http://www.uc.pt/fozcoa/qravuras.html [2007-06-13])
F I G . I I - 2
Representação gráfica do teorema de Pitágoras
(http://pitaqoras-upt.tripod.com/ [2007-06-13])
Os gráficos, tal como os designamos hoje, surgem no final do séc. XVIII, tornando-se de uso corrente no princípio do séc. XIX. Há indícios de que apareceram em três pontos diferentes, porventura de modo independente:
Capítulo III ESTATÍSTICA DESCRITIVA - O segredo dos dados
• As invenções gráficas de William Playfair (1759-1823), um engenheiro e economista escocês que, com o intuito de melhor descrever a economia britânica (Fig. II-3a),
investiu em técnicas gráficas inovadoras para melhor explicar os conceitos que pretendia transmitir;
• James Watt (1736 - 1818), engenheiro, também escocês e responsável pelo melhoramento da máquina a vapor, utilizou diagramas (Fig. II-3b) para esquematizar o funcionamento da máquina a vapor e as alterações que, do seu ponto de vista, deveriam ser efectuadas para aumentar a sua eficiência;
• Johann Heinrich Lambert (1728 - 1777), matemático de origem francesa que se radicou na Alemanha e que, entre muitos outros feitos, demonstrou que é um número irracional, também promoveu o desenvolvimento do grafismo
(Fig. II-3c e d).
Representações esquemáticas propostas por William Playfair (a)
-http: //dekstop. de/weblog/2006/01/visualization_of_numeric_clata/playfair_wheat. jpg, James Watt (b) - http: //en. wikipedia.org/wiki/Image : Schematic .indicator diagram.png
e Joahann Heirich lambert (c)
-http://www.journals•uchicaqo.edu/Isis/iournal/demo/v000n000/000000/fq7.qif e (d) http://www.uni-mannheim.de/fakul/psycho/irtel/colsys/Lambert.jpg [27-06-2007]
F I G . I I - 3
P r e s s u r e
Assim, no final do séc. XVIII, havia descritos diferentes tipos de gráficos que poderiam ser utilizados por quem deles tivesse necessidade. Contudo, somente a partir de 1830, quando a
ESTATÍSTICA DESCRITIVA - O segredo dos dados
Capítulo III
Estatística se tornou mais mediática, é que a utilização de gráficos para sistematização - fácil percepção de quem tem de conhecer o conteúdo da informação - se começou a generalizar. A motivação do gráfico foi e é, sem dúvida, tornar mais fácil o processo de percepção. Foi este o argumento que gerou os primeiros gráficos e que promoveu (e ainda promove) a sua evolução. Há, portanto, algumas regras simples - decorrentes de uma lei natural - que devem ser seguidas quando se pretende transmitir a alguém o conteúdo de uma base de conhecimento/dados: a organização, a simplicidade, a parcimónia, a clareza e a autonomia.
1. Objectivo
Através de métodos gráficos pretende-se caracterizar um conjunto de variáveis cujos dados foram recolhidos no decurso de dois projectos.
Relativamente ao projecto AOP caracterizam-se as seguintes variáveis: semana do ano em que o anúncio foi observado, marca do automóvel, meio de publicidade utilizado, número de vezes que o anúncio foi visualizado, grupo etário da personagem principal do anúncio (se existente), forma de transmissão de cada um dos 18 valores instrumentais transmitidos durante o anúncio.
Sobre o projecto VCA caracterizam-se as variáveis concentração das emissões de monóxido de carbono e de óxidos de azoto.
2. Introdução
Os 248 anúncios foram caracterizados relativamente à marca anunciada e ao meio utilizado para anunciar (Fig. II-4).
Para caracterizar a distribuição das marcas utilizou-se um gráfico de barras. No primeiro caso (Fig. Il-4a) não se organizou a informação: torna-se difícil e morosa a leitura das marcas mais representadas (ou menos representadas); por outro lado assegurou-se a inclusão da informação respeitante às frequências absolutas (número de observações) e relativas (percentagens) que, de algum modo é redundante se conhecermos o número total de anúncios; incluiu-se ainda informação relativa a indicadores não pertinentes (gerados automaticamente pelo software).
Para caracterizar a distribuição dos meios utilizou-se um gráfico circular ou de sectores. No primeiro caso (Fig. Il-4c) utilizou-se um conjunto de possibilidades disponibilizadas pelo software (as três dimensões e a separação de uma fatia) fundamentado na motivação de um gráfico bonito e diferente
do habitual mas que corre o risco de transmitir uma informação errada: é a
área tridimensional que se visualiza que é bidimensionalmente processada
Capítulo III ESTATÍSTICA DESCRITIVA - O segredo dos dados
pelo cérebro/olho humano e que transmite, afinal erradamente, o valor da proporção relativamente ao total.
Neste capítulo, depois de catalogar os diferentes tipos de dados que podemos ter à nossa disposição para processar, faremos uma incursão aos diferentes métodos de representação gráfica da informação e dos seus objectivos.
A natureza dos dados
Os 248 anúncios foram monitorizados entre a 2a e a 15a semana de 2006
(Fig. 11-5), as marcas de automóveis mais observadas foram a Volkswagen e a Citroen (Fig. Il-4b), tendo a grande maioria da fonte dos anúncios sido a imprensa (Fig. Il-4d) e a maioria dos anúncios (o mesmo) foi visto poucas vezes (número de registos) (Fig. 11-6).
Número e percentagem da anúncios das diferente» marcas Percentagem de anúncios com as diferentes marcas
iliniHJf5iissffiifitf.itifmi| o mmmimmmmmnmmmmmmm
5 I 5 I * i 5 I
| MARCA: N = 248; Mean = 12.97SS; StdDv = 8,4527; Max = 32; M i n ^ T ] Distribuição dos Meios utilizados para anunciar
(a) (b)
T M . u k 21%
Distribuição dos Meios utilizados para anunciar
RMc H»
m
(C) (d)
FIG. 11-4
Distribuição das marcas e meio através de gráficos barras - (a) e (b) - e diagramas circulares - (c) e (d).
ESTATÍSTICA DESCRITIVA - O segredo dos dados
Capitulo II
Deverá a escolha do gráfico ser efectuada no decurso de uma análise do tipo de dados que se pretendem representar? Será interessante representar a distribuição das marcas de automóveis mais observadas através de um gráfico circular ?
Identificam-se diferentes tipos de variáveis. Pela sua capacidade intrínseca de processamento estatístico (por ex. não é possível calcular um valor médio da marca dos automóveis, sendo-o para o número de registos) e pela forma como, naturalmente, se representa graficamente a distribuição dos valores que as variáveis assumem, criam-se duas categorias:
- as variáveis qualitativas, que assumem "valores" que representam categorias (neste caso o número da semana, a marca e a fonte do anúncio) e - as variáveis quantitativas, que assumem "valores" numéricos (neste caso o número de registos e adicionalmente as concentrações das emissões de dióxido de carbono e óxidos de azoto dos automóveis).
Distribuição do número da semana
FIG. 11-5
Distribuição do número da semana em que o anúncio foi caracterizado.
Distr&.jç&o do número de registos
-5 0 5 10 15 20 25 30 35 40 45 50 55 Numero de registos
FIG. 11-6
Distribuição do número de vezes que o anúncio foi visto
A diferença formal entre o número da semana e marca do automóvel é a sequência natural, a ordem que existe nos valores da primeira e que não é arbritária: a 3a semana é depois da 2a. Para a marca do automóvel os diferentes valores ordenam-se, apenas, por critérios alfabéticos: não há como ordenar, naturalmente, as diferentes categorias.
Variáveis qualitativas cujos valores se ordenam naturalmente denominam-se ordinais (por ex. o número da semana). As restantes são nominais (por ex. a marca do automóvel e a fonte do anúncio).
As variáveis quantitativas além de poderem ser contínuas ou discretas podem ser classificadas em função da escala de medida: de razão ou de intervalo. Se puderem assumir, em teoria, um número de valores não finito e entre cada dois valores se verificar esse princípio (por ex. a concentração de dióxido de carbono e óxidos de azoto) classificam-se como contínuas. Serão variáveis discretas se se identificarem dois valores sequenciais entre os quais nada se pode observar (por ex. o número de registos).
Capítulo II ESTATÍSTICA DESCRITIVA - O segredo dos dados
As variáveis podem ser classificadas de acordo com a proximidade do fenómeno que medem: pode ser necessário criar uma escala para medir um fenómeno ou, em alternativa, medir naturalmente. Por exemplo para medir o conceito temperatura foi necessário criar uma grandeza que, em determinadas condições, assume o valor 0 (por ex. 0°C ou 0 F); mas este valor, 0, não significa ausência. Em contrapartida 0 metros, 0 quilogramas e 0 registos significam ausência de comprimento, peso e registos. É comum classificar as variáveis quantitativas deste último grupo (independentemente de serem contínuas ou discretas) como medidas de razão e as primeiras como medidas de intervalo: não é razoável calcular o quociente entre duas temperaturas; a diferença entre duas temperaturas já é interessante.
Estas classificações são, é claro, arbitrárias. Outras poderiam existir. Neste contexto queremos perceber que as variáveis têm poderes explicativos diferentes, visam diferentes objectivos, pelo que têm naturezas diferentes. Foi isso que gerou estas (ou outras) classificações e não o inverso. A sua constatação apenas nos facilita a percepção de que, neste capítulo em que nos propomos representar graficamente a informação de que dispomos, se as variáveis têm poderes de síntese diferentes, as representações gráficas tenderão a adaptar-se à sua natureza. Consideraremos os diferentes tipos de variáveis sempre que isso possa ajudar a diferenciar técnicas e procedimentos: são classificações utilitárias.
A representação gráfica de dados/variáveis pode e deve ser sistematizada, sempre recorrendo ao objectivo que a precede. Assim em face de um conjunto de dados de uma variável podemos pretender representar a sua distribuição ou a evolução dos dados ao longo do tempo ou relativamente a outra variável.
4. Representação gráfica da distribuição de dados 4.1 Os Dados Qualitativos
Os dados de natureza qualitativa são observações de variáveis que assumem categorias como "valores". Estas categorias poderão ser nominais, isto é características sem ordenação natural ou, em alternativa, ordinais pressupondo uma ordem natural.
4.1.1 Nominais
As marcas dos automóveis e dos meios utilizados para anunciar (Fig. II-4) são variáveis qualitativas nominais. Para representar a distribuição das suas
possíveis categorias ou "valores" utilizou-se um gráfico circular (ou de sectores) e um gráfico de barras. Sendo variáveis do mesmo tipo diferem, em tipologia, pelo número de categorias que podem assumir.
ESTATÍSTICA DESCRITIVA - O segredo dos dados
Capítulo II
No caso do meio utilizado para efectuar o anúncio, o número de categorias é reduzido (cinco), tornando possível e interessante a descrição da distribuição das categorias através da utilização de um gráfico circular.
No caso das marcas de automóveis (que são muitas) a representação através de um gráfico circular não é eficiente: muitas "fatias" e leitura difícil. Por outro lado a representação, alternativa, através de um gráfico de barras não é, também muito interessante (Fig. Il-4a): a leitura é difícil e não se "retira" com imediatez a informação que uma representação gráfica propõe quando se efectua. Por outro lado ao ordenar as frequências absolutas e/ou relativas obtém-se um gráfico de barras interessante (Fig. Il-4b). Outra hipótese também útil para, graficamente, mostrar a distribuição das marcas, seria agrupar o conjunto de marcas menos relevantes numa classe geral (reclassificar). Difícil seria depois a tarefa de definir a frequência de quebra1, uma vez que há uma certa cadência na ordem pela qual deixam de ser tão importantes. 0 critério é sempre subjectivo e sempre dependente do objectivo.
As sub-categorias mais comuns dos automóveis caracterizados nos anúncios são a do pequeno utilitário, pequeno familiar e o familiar (Fig. II-7).
O número elevado de categorias é um argumento que impede que a utilização de um gráfico circular (Fig. Il-7a) seja uma eficiente representação gráfica da distribuição: a sobreposição das categorias é um primeiro indício de que a representação mais adequada não é esta. Ao tentar a utilização de um gráfico de barras, deparamo-nos com o mesmo fenómeno observado quando da análise da distribuição da marca, motivado pelo número elevado de categorias: a difícil leitura do conteúdo (Fig. Il-7b). A ordenação das frequências resolve a dificuldade da leitura (Fig. Il-7c). Por outro lado, se o importante for realçar as sub-categorias mais frequentes poderá ser, então, opção - e pela estrutura da distribuição ordenada que apresenta duas quebras (as três primeiras subcategorias isolamse, seguidas das três seguintes) -considerar as seis primeiras categorias sendo as restantes incluídas num grupo não específico designado por outros. A representação gráfica da distribuição das categorias mais importantes pode ser efectuada através de um gráfico de barras (Fig. Il-7d) ou de um gráfico circular (Fig. Il-7e), talvez com preferência para este último que é mais eficiente na transmissão da informação relativa à distribuição.
Representação gráfica da distribuição de variáveis qualitativas nominais
Nominais com poucas categorias - gráfieo circular
Nominais com muitas eategorias - gráfico de barras ordenando as categorias por frequências
1 Considera-se frequência de quebra a primeira frequência que permite identificar, visualmente, uma descontinuidade na cadência das frequências (absolutas ou relativas) quando consideradas por ordem decrescente.
ESTATÍSTICA DESCRITIVA - O segredo dos dados
Capítulo II
Distribuição da subcategoria da automóveis Distribuição da subcategoria da auto mó vais
fa^rtrt»] MonoVoJum» I H Fu^in 3 * Comerciai*. 2K Lu«o. 1% Gr«no» Famlar 3 * Ptqucno Utiktil» 21* Fimkar 19H f^Hjueno Fimikir 19%
Distribuição da subcategoria da automóveis
(a)
II
I
II
I
II
iI
II
i V/ Cit y Ca r Paquan o Utilitári o Pequen o Familia r P H 1 | i J | - i &Kstriburçlo da subcategoria da automóveis
(b)
(c) Paquano Utjhtirio Familiar MonoVolume Outros Paquano Familiar City Car TT (d) Distribuição da subcategoria da automóveis
9 MonoVolume; 6% Paquano Utilitário. 21 % Pequeno Familiar. 19% (e) FIG. II-7
Distribuição da sub-categoria de automóveis através de diagramas circulares - (a) e (e) e gráficos barras - (b) a (d).
4.1.2 Ordinais
Em 53% dos anúncios identificou-se uma personagem principal (Fig. Il-8a). Nestes anúncios a personagem é caracterizada relativamente ao grupo etário (Fig. Il-8b). Na lista de categorias identificam-se sete níveis ordinais e duas categorias ("indeterminado" e "adulto(s) e criança(s)") que, para efeitos de caracterização, de facto não são grupos etários. Caracterizar a variável, tal como ela se apresenta, significa que teremos de considerar a variável como nominal e que, pelo facto de ter muitas categorias, se poderia optar por representar a sua distribuição através de um gráfico de barras (Fig. Il-8c).
ESTATÍSTICA DESCRITIVA - O segredo dos dados
Capítulo II
Por outro lado será porventura mais interessante, eliminar a categoria "indeterminado" registando-se de seguida, a proporção de anúncios com personagem principal em que não é possível determinar o grupo etário (Fig. II-8d).
Em alternativa, e se considerarmos que é importante caracterizar o grupo etário, as categorias "indeterminado" e "adulto(s) e criança(s)" são eliminadas sendo muito claro que a grande maioria dos anúncios privilegiam -por ordem - o adulto como personagem principal (Fig. Il-8e). Pode ser, ainda, interessante mostrar que a proporção de anúncios com personagem principal identificada como indivíduo ou não (neste caso "adulto(s) e criança(s)") é preponderante (Fig. Il-8f). Pode ser também desejável realçar que o grupo etário mais comum é o adulto (Fig. Il-8g).
Foram considerados 18 valores instrumentais2 diferentes cuja relevância foi identificada no anúncio segundo uma ordem: sem relevância, o segundo mais importante e o mais importante. Dos 18 valores há sete considerados não relevantes (Fig. Il-9a). A representação gráfica da distribuição da relevância associada a cada um dos 18 valores através de um gráfico de barras de acumulação (Fig. Il-9b) permite identificar os valores "independência" e "ambição" como os que são mais frequentes nos anúncios, a par do "espírito aberto", "controlo" e "o ser capaz".
»
-Representação gráfica da distribuição de variáveis qualitativas ordinais j gráfico de barras
« • ' 1 •.
gráfico de barras de acumulação
4.2 Os Dados Quantitativos
Os dados de natureza quantitativa são observações de variáveis que assumem valores numéricos discretos ou contínuos. Os dados discretos representam quantidades finitas ou, sendo infinitas, pelo menos enumeráveis (isto é conseguindo designar sequencialmente valores). Os dados contínuos são aqueles que, pelo menos teoricamente, são infinitos e não enumeráveis (entre cada dois valores há sempre uma infinidade de possibilidades).
A forma mais interessante de representar a distribuição de dados quantitativos é, naturalmente, diferente da dos dados qualitativos.
2 Os 18 valores considerados no inquérito designam-se por valores instrumentais por representarem conceitos e formatos que geram atitudes (neste caso perante a vida) que se consideram valiosas.
ESTATÍSTICA DESCRITIVA - O segredo dos dados
Capítulo II
Anúncio» com ou sem personagem principal
Distnbuiçáo do grupo etário da personagem principal
Adulto Jovem Adulto Cnança Indeterminado Adulto(s) ecriança(s) Bebé Distnbuiçlo do grupo etário da personagem pnrapai
O) (c) Grupo etário Bebé Criança Adolescente Jovem adulto Adulto Meia-idade Idoso Indeterminado Adulto (s) e criança (s) (b)
Anúncios com personagem principal cujo grupo etário é ou n i o determinável
Indeterminad
" 1 Grupo etáno identificado 8?%
Anúncios com personagem principal determinada individual o u n i o
Aduttoí») e criança(s); 7%
(d)
Um individuo; 0 3 * Bebé Criança Adolescente Jovem Adulto Adulto
Anúncios com personagem principal determinada
( f )
(g) FIG. 11-8
Distribuição do grupo etário da personagem principal do anúncio.
ESTATÍSTICA DESCRITIVA - O segredo dos dados
Capítulo II
Vaiores veiculados Instiumentafc
(Escofria dois valores Instrumentais de modo hierartjafeado,) Afectuoso Alegre Ambicioso Capaz Controlado Corajoso Espirito Aberto Irrvaginstw Independente (a)
Distnbuiçáo de relevância dos vai ores considerados O« rrportíite > S 0 2* • mportwle u m rdevtnei* 5 i I I ' (b) FIG. 11-9
Distribuição da relevância dos valores (a) transmitidos pelo anúncio (b).
4.2.1 Discretos
0 número de registos (número de vezes que o anúncio foi visualizado) segue uma distribuição com o formato semelhante ao de uma função exponencial negativa (Fig. 11-1 Oa). Com o objectivo de desenhar a distribuição destes valores, o muito elevado número de valores diferentes possíveis que a variável pode assumir gera, naturalmente, a necessidade de agrupar valores diferentes em classes (neste caso de amplitude igual a 5); contabilizam-se, de seguida, as frequências absolutas de cada classe (em vez de cada valor). A representação da distribuição é mais coesa, eliminando o ruído provocado pelo número elevado de valores da variável e a irrelevância de conhecermos a frequência exacta de um valor ou do valor imediatamente a seguir (ou anterior). O objectivo é conseguir ver a distribuição da variável (Fig. 11-1 Ob) e não conhecer as frequências absolutas de todas as observações possíveis. A diferença entre aquelas duas formas de representar graficamente a distribuição da variável é que a primeira é um gráfico de barras (Fig. II-9a) e a segunda um histograma (Fig. 11-1 Ob). Neste último caso pressupõe-se uma
"continuidade" dentro da classe (por ex. é irrelevante a quem correspondem as cerca de 60 observações referidas à classe [5; 10[) e entre as classes.
Capítulo II ESTATÍSTICA DESCRITIVA - O segredo dos dados Distribuiçfto do numero de regato*
BBaaGcn
Distribuição do numero de registos
i
I 1
1 5 9 13 17 21 25 29 33 37 41 45 49 (a) Distribuição do número de registos (< 6)
-5 0 5 10 15 20 25 30 35 40 45 50 55 (b)
(c) FIG. 11-10
Distribuição do número de registos através de um gráfico de barras (a) (c) e de um histograma (b).
Considerando agora o número de registos inferiores a seis visualiza-se de uma forma mais "limpa" que há, de facto, um decréscimo da frequência (Fig. II-10c) com o aumento do número de registos: o gráfico de barras é adequado para representar a sua distribuição. 0 facto de não haver continuidade (os dados são discretos) e termos poucas observações possíveis elimina a opção do histograma: a separação das barras é natural.
Não é interessante representar a distribuição de dados discretos através de um gráfico circular. Este tipo de representação gráfica não pressupõe uma ordem que, aqui neste caso, existe.
Representação gráfica da distribuição de variáveis quantitativas discretas I
Com poucos* valores possíveis - gráfico de barras j Com muitos* valores possíveis - histograma I * é a percepção visual - a capacidade de ler bem o gráfico - que define o limiar de pouco e / o u muito
i
i
ESTATÍSTICA DESCRITIVA - O segredo dos dados
Capítulo II
4.2.2 Contínuos
A distribuição das emissões de monóxido de carbono e de óxidos de azoto pelos automóveis tem, no primeiro caso, a característica de apresentar maioritariamente concentrações reduzidas (Fig. 11-11a) e no segundo concentrações mais frequentes reduzidas mas um conjunto de observações, relevantes, superiores (Fig. 11-11c).
Distribuição da concentração de emisaóes de CO Distribuição da concentração das emssfies de CO
• Median = 0.26 • 25%-75% = (0.145, 0,434) X Non-Outiier Range = (0.005.0.864) o Outliers * Extremes -0.2 0,0 0,2 0.4 0.6 0.8 1.0 1.2 1.4 1,6 1.8 2,0 2.2
Distribuição das emissões de óxidos da azoto
(b)
Distribuição da concentração das emissões de óxidos de azoto
n Median = 0 04 • 2 5%-7 5% = (0,02,0,197) X Non-Ouflier Range = (0. 0,386) o Outli era * Extremes -0.05 0,00 0.05 0 10 0,15 0,20 0.25 0.30 0,35 0,40 0,45 (d)
Distribuição das emissões de monóxido de carbono (a) e (b) e de óxidos de azoto (c) e (d) através de histogramas (a) e (c) e de diagramas box-plot (b) e (d)
Cerca de 75% dos valores de emissões de monóxido de carbono são inferiores a aproximadamente 0.4 registando-se alguns valores de emissões muito elevados e pouco esperados (Fig. 11-11b). No caso das emissões de óxidos de azoto é interessante verificar que a dispersão dos valores assumidos pela variável é superior à anterior (em termos relativos, claro) (Fig. 11-11d).
Surge, de imediato, a vontade de perceber porquê! A razão poderá residir na variação dos valores de outra variável para a qual temos informação disponível3. 0 conhecimento que temos relativamente ao sistema que estamos a analisar é fundamental para efectuar uma análise inteligente e sustentada:
3 O processo, que aqui se inicia, é do âmbito da análise bivariada (se nos cingirmos a uma única variável explicativa), ou multivariada (se utilizarmos mais do que uma).
Capitulo II ESTATÍSTICA DESCRITIVA - 0 segredo dos dados
o tipo de fuel utilizado pode ajudar a explicar a variabilidade e distribuição que se observa rios dois tipos de emissões.
A responsabilidade das emissões de monóxido de carbono é repartida pelos diferentes tipos de fuel utilizados na combustão (Fig. Il-12a). A responsabilidade maioritária das emissões de óxidos de azoto parece ser do gasóleo (Fig. 11-12b).
Muitas vezes, a utilização de um histograma e de um diagrama box-plot complementam-se não sendo substituíveis, dependendo fortemente da própria distribuição da variável. Um histograma é interessante para representar a forma da distribuição e o diagrama box-plot os casos particulares e a
arrumação dos quartos da distribuição (1o, 2o e 3o quartis4) dois aspectos muito interessantes na aprendizagem do comportamento de variáveis.
2.2 2,0 1.8 1.8 1.4 1.2 1.0 0,8 0,6 0,4 0.2 0.0 -0.2 0.45 0.40 0,35 z •8 0.30 s 3 0.25 e g 0,20 | 0.15 I 0,10 g ° 0,05 0,00 -0,05 (a)
Distribuição das emissões de monóxido de carbono (a) e de óxidos de azoto (b) relacionada com o tipo de fuel através da utilização de diagramas box-plot
7 . . .
| Representação gráfica da distribuição de variáveis quantitativas contínuas
| Histograma ! Diagrama box-plot
Distnbuiçáo das emissões de monóxido de carbono
0
• Median • 25%-75% _ „ I Non-Outiier Range Petrol Petrol Electric CNG £
D<esel Petrol Hybrid . Extremes Tipo de fuel
Distribuiçfto das emssóes de óxidos de azoto
]
r
r, cin
° 1=53
Petrol Electric CNG Diesel Petrol Hybnd
Tipo de fuel • Median • 25%-75% X Non-Outlier Range o Outliers * Extremes (b) FIG. 11-12
4 Ver Capítulo III
Representação gráfica da distribuição de dados | Ana Amaro, Cláudia Silvestre, 26
ESTATÍSTICA DESCRITIVA - O segredo dos dados
Capitulo II
5. A evolução dos valores de uma variável 5.1 Quantitativa
A evolução no tempo do número de registos foi armazenada ao longo das semanas de monitorização: observa-se alguma dispersão no número de registos nas mesmas semanas (Fig. 11-13a) que, em termos médios (Fig. II-13b), não é perceptível. Ao comparar a dispersão de valores no primeiro caso com os valores médios do segundo, ao utilizar também o número de registos ao longo do tempo mas com recurso a um gráfico de dispersão que forneça indicação relativa à frequência da observações (Fig. 11-13c), compreende-se melhor o desvio ligeiro que se observa entre os valores médios registados (Fig. 11-13b) e os valores realmente observados (Fig. 11-13a). Para adicionar informação gráfica relativa à representatividade dos valores médios (mais interessantes no que respeita a leitura da tendência) pode acrescentar-se a informação sobre a amplitude dos intervalos de confiança para aos valores médios (Fig. 11-13d): é interessante verificar, desde logo, que é na segunda semana - em que o número de observações é reduzido - que o valor médio tem menos significado.
Evoiuçio do numero de registo* pof semana EvoJuçio do numero médio de registos por semana
Evolução do número e número médio de registos ao longo das semanas
Evoiuçio do número de ragtstoa por semana
FIG. 11-13
» 9 10 11 12 13 14 15 x S S ^ s s c c f W * ™ , Semana
Capítulo II ESTATÍSTICA DESCRITIVA - 0 segredo dos dados
A variável em causa é uma variável discreta com muitas observações em cada semana, com excepção da segunda semana.
Nestas circunstâncias é necessário ter algum cuidado na medida em que a representação gráfica do intervalo de confiança pode ser desprovida de sentido (o que, na prática, sucede se o número de observações associado a cada momento no tempo for inferior a 305). 0 mesmo é válido quando nos referimos a intervalos de confiança para valores médios de variáveis contínuas que não se distribuam segundo uma lei Normal (ver Capítulo IV).
Representação gráfica da evolução de variáveis quantitativas
Gráficos de dispersão
Gráficos de linhas (com valores médios) Gráficos de linhas com indicação de erro
5.2 Qualitativa
A evolução dos meios utilizados para anunciar (Fig. 11-14) ao longo das semanas permite detectar, de imediato, três semanas em que se analisaram anúncios exclusivamente publicados na imprensa. Somente em quatro das semanas em observação se analisaram anúncios na rádio.
Neste casos, em que a síntese recorre a um indicador percentual é importante assegurar a "qualidade" da percentagem: garantir que o número de observações em cada caso é equivalente aos demais.
| Representação gráfica da evolução de variáveis qualitativas
Gráficos circulares para cada momento do tempo
5 A determinação dos limites de um intervalo de confiança para um valor médio pode efectuar-se se a distribuição da variável aleatória média for Normal. No Capítulo III far-se-á referência a esta questão.
A evolução dos valores de uma variável | Ana Amaro, Cláudia Silvestre, Leonor
ESTATÍSTICA DESCRITIVA - O segredo dos dados
Capítulo III
Evolução da distribuição dos meios utilizados pelos anúncios ao longo das semanas
2 6 % l n t . m . t 2 2 * ^ T f i > rv's ,°: Outdoon 1 3 % ^ ^ T < OuMoor.26%^J yimprens.: 391 Televisio. 2 5 % Imprensa 100% SEMANA: 2 Televisão 13%
O
Imprensa; 8 8 % SEMANA: 5 Rádio; 12% 12%A I X ™ Imprensa; 5 4 % SEMANA: 10 fl \ T e l e v Imprensa; 3 5 % SEMANA 14 Imprensa, 4 6 % SEMANA: 3 Televisão, 4 % Imprensa, 5 6 % SEMANA 5 Internet; 8 % ' Outdoor; ^ X Rádio; f f \ y ^ S ^ K Televisão / V \ L -J Internet; 8 % 1 Dutdoor; 50% — • í Imprensa; 100% SEMANA. 11 Imprensa; 100% SEMANA 15 Imprensa, 2 5 % Imprensa. 2 0 % SEMANA 8 8rT5elev V yim. ( 5 ' B 0 % ^ -Televisão. 2 0 % FIG. 11-14Evolução do meio utilizado para anunciar ao longo das semanas
6. Síntese 6.1 Estatística
O tipo de gráfico que deveremos seleccionar para sistematizar o conteúdo dos dados deve ter em conta o objectivo de representação (distribuição ou evolução dos dados) e o tipo de dados. O gráfico deve ser o mais simples e claro que for possível.
Como linha de orientação inicial pode considerar-se o resumo efectuado por tipos diferentes no Quadro ll-l.
QUADRO ll-l
Linha de orientação para o tipo de representação gráfica a adoptar
Tipo de dados Objectivo da representação gráfica Tipo Sub-tipo Número Distribuição Evolução
Qualitativo
Nominal Poucas categorias Gráfico circular Gráfico circular Qualitativo
Nominal
Muitas categorias Gráfico de barras (ordenado)
Gráfico de barras (ordenado) Qualitativo
Ordinal Gráfico de barras (e de acumulação)
Gráfico de barras (ordenado)
Quantitativo
Discreto Poucos valores Gráfico de barras Gráficos de dispersão Gráficos de linhas (c/ valores médios e/ou
indicação de erro) Quantitativo
Discreto
Muitos valores Histograma
Gráficos de dispersão Gráficos de linhas (c/ valores médios e/ou
indicação de erro) Quantitativo
Contínuo Histograma ou Box Plot
Gráficos de dispersão Gráficos de linhas (c/ valores médios e/ou
indicação de erro)
Capítulo III ESTATÍSTICA DESCRITIVA - O segredo dos dados
6.2 Técnica
As conclusões relevantes que decorrem da análise das variáveis efectuadas, até ao momento, são:
. São poucos os anúncios que são visualizados muitas vezes.
. As sub-categorias de automóveis mais anunciadas são o pequeno utilitário, o pequeno familiar e o familiar.
. Cerca de metade dos anúncios têm uma personagem principal que em 80% dos casos é um adulto.
. Dos 18 valores instrumentais potencialmente veiculados pelos anúncios há
o Sete que nunca o são: Educação, Honestidade, Intelectualidade, Limpeza, Obediência, Prestabilidade e Tolerância
o Cinco que o são:
• realçando-se a Independência e Ambição
• seguidos do Abertura de Espírito, Controlo e Ser Capaz . O gasóleo tem maior responsabilidade nas emissões de óxidos de azoto
que os restantes fuéis.
ESTATÍSTICA DESCRITIVA - O segredo dos dados
Capítulo III
Capítulo III Análise numérica
Maris mind, once expanded to encompass a new idea, never regains its original dimensions
Oliver W. Holmes (1841 - 1935)
Statistics: The only science that enables different experts using the same figures to draw different conclusions.
Evan Esar (1899 - 1995)
„ . ESTATÍSTICA DESCRITIVA - O segredo dos
Capitulo III
ESTATÍSTICA DESCRITIVA - O segredo dos dados
Capítulo III
Desde muito cedo, e com o desenvolvimento das sociedades primitivas, o homem começou a ter necessidade de sistematizar. Era importante saber que recursos havia disponíveis para tomar decisões: ficar aproveitando os recursos ou partir à sua procura.
Mais tarde, já com as sociedades organizadas, e com objectivos sobretudo militares e tributários, os governos sentiram necessidade de sistematizar a informação sobre as suas populações e riquezas.
Parece ter acontecido no Egipto, 3050 A.C., o primeiro levantamento estatístico: com o objectivo de sistematizar as riquezas e recursos humanos para a construção das pirâmides
(Fig. III-l) .
F I G . I I I - l
Pirâmides de Gizé http://www. geocities . com/Athens/Marbie/4 341/pÍL'amicies . htm [2007-08-22])
Também os romanos fizeram o recenseamento dos cidadãos e dos bens. Eram os censores, magistrados romanos, que asseguravam o registo dos cidadãos. É muito interessante uma convenção da História que nos faz utilizar a designação Antes de Cristo (A.C.) e Depois de Cristo (D.C) e que parece referir-se ao ano em que o imperador César Augusto ordenou que se fizesse o recenseamento populacional no seu império. Cristo terá nascido por volta dessa altura.
Guilherme, "O Conquistador", que reinou em Inglaterra entre 1066 e 1087, ordenou que se fizesse um levantamento estatístico em Inglaterra que incluísse informação sobre terras, proprietários, a utilização da terra e os animais. Esta informação foi utilizada como base ao cálculo de impostos.
Quase sempre com objectivos tributários...
Até ao início do séc. XVII, a Estatística limitou-se ao estudo dos "assuntos de Estado". Usada pelas autoridades políticas na inventariação ou arrolamento dos recursos disponíveis, a Estatística limitava-se a uma simples técnica de contagem,
Capítulo III ESTATÍSTICA DESCRITIVA - O segredo dos dados
traduzindo numericamente factos ou fenómenos observados. É esta a primeira fase da Estatística que servia, simplesmente, para descrever.
0 termo, pelo qual conhecemos a ciência ou arte de sistematizar, Estatística, parece ter surgido, pela primeira vez, no séc. XVIII, inventado pelo alemão Gottfried Achemmel (1719-1772): statistik de "statizein" do grego... Há quem defenda que o termo tem a sua génese em "statu", que quer dizer "estado" em latim. É o que nos contam mas teremos sempre dúvidas!
Em Portugal, só em 1935 se fundou o Instituto Nacional de Estatística (INE, http://www.ine.pt) que centraliza, até à actualidade, toda a actividade estatística oficial. Actualmente a informação do INE é obtida a partir de recenseamentos à população, à habitação e à agricultura, de amostragens, para além da que é proveniente de fontes administrativas.
0 Banco de Portugal (http://www.bportugal.pt/) foi criado por decreto régio em 19 de Novembro de 1846 com a função de banco comercial e de banco emissor. É actualmente o organismo responsável pela estabilidade dos preços, supervisão das instituições de crédito e das sociedades financeiras, elaboração, análise e divulgação das estatísticas monetárias, financeiras, cambiais e da balança de pagamentos.
A nível internacional podemos considerar os seguintes organismos oficiais com responsabilidade na recolha, processamento e divulgação de informação da sociedade do mundo:
o EUROSTAT (http://epp.eurostat.ec.europa.eu), o organismo responsável pela disponibilização da informação estatística na União Europeia. A informação fornecida deverá ser/é imparcial, fiável e comparável entre os diferentes Estados-membros (15/25)
o OCDE (http://www.oecd.org) - Organização para a Cooperação e Desenvolvimento Económico, o organismo responsável pelo reforço da economia dos países membros
(30) , melhoria da sua eficácia, promoção da economia de mercado, desenvolvimento de um sistema de trocas livres e contribuição para o desenvolvimento e industrialização dos países.
o Banco Mundial (http://www.worldbank.org/), o organismo fonte vital de financiamento e assistência técnica aos países em vias de desenvolvimento (não é um verdadeiro banco). Gera mais de 900 indicadores/estatísticas (208 países)
o FMI (http://www.imf.org/) - Fundo Monetário Internacional, uma organização internacional que pretende assegurar o bom funcionamento do sistema financeiro mundial monitorizando as taxas de câmbio e a balança de pagamentos, através de assistência técnica e financeira.
É de indicadores, do seu significado e produção matemática que falaremos neste capítulo.
ESTATÍSTICA DESCRITIVA - O segredo dos dados
Capítulo III
1. Objectivo
Através de métodos numéricos pretende-se caracterizar um conjunto de variáveis cujos dados foram recolhidos no decurso dos mesmos dois projectos utilizados anteriormente.
Relativamente ao projecto AOP caracterizam-se as mesmas variáveis que no capítulo anterior: semana do ano em que o anúncio foi observado, marca do automóvel, meio de publicidade utilizado, número de vezes que o anúncio foi visualizado, grupo etário da personagem principal do anúncio (se existente), forma de transmissão de cada um dos 18 valores instrumentais transmitidos durante o anúncio.
Sobre o projecto VCA caracterizam-se, também, as variáveis concentração das emissões de monóxido de carbono e de óxidos de azoto.
2. Introdução
Os 248 anúncios foram caracterizados relativamente à marca anunciada, ao meio utilizado para anunciar e ao número de registos (Fig. III-2). A caracterização gráfica foi efectuada anteriormente (Figs. Ill-2a e lll-2b)
Para caracterizar as marcas e o meio utilizado para anunciar utilizaram-se duas abordagens. No primeiro caso utilizou-se o software de uma forma cega, sem procurar identificar que tipo de indicadores poderiam fazer sentido, mas somente utilizando as opções sugeridas pelo próprio software: gera-se o número de observações na amostra, 248, o valor médio, o mínimo , máximo e o desvio padrão (Fig. Ill-2c). No segundo caso seleccionou-se o único indicador que parece ter alguma utilidade para o utilizador: o valor mais frequente (ou moda) (Fig. Ill-2d). Adicionalmente é calculado o número de observações que lhe corresponde.
Para caracterizar numericamente o número de registos - cuja representação gráfica se conhece (Fig. Ill-2e) - de que indicadores dispomos para melhor compreender o comportamento da variável ? A interpretação/significado de cada indicador e do seu valor é fundamental para decidir sobre a sua pertinência e interesse.
Neste capítulo, depois de identificar os dois formatos principais sob os quais a informação nos pode ser fornecida, faremos uma incursão aos diferentes métodos de representação numérica da informação e dos seus objectivos.
ESTATÍSTICA DESCRITIVA - O segredo dos dados
Capítulo III
Percentagem de «núncio* com a» Aferente* mercas Di*ribuç*o doe fcfaioa utilzedos para a
tlliuj" i5|!!!|]i!M?!l|
! j 0 s i :
(a)
Variável » Valor médio Mínimo Máximo Desvio padrSo
MARCA 248 12,98 1 32 8,45
MEIO 248 2,33 1 5 1,13 (c)
Variável n Modd Frequência da moda
MARCA 248 Múltipla 18
MEIO 248 2 119 (d)
Dii*ributç4o do número de regulo*
S S eo «
i
-5 O 5 10 15 20 25 30 35 40 45 50 55 Número de registos (b) FIG. III-2C a r a c t e r i z a ç ã o g r á f i c a - (a), (b) e (e) - e n u m é r i c a das m a r c a s , m e i o e n ú m e r o d e registos - (c) e ( d ) .
3. A organização dos dados
A informação sobre o número de registos que temos à nossa disposição diz respeito, como já vimos, a 248 observações/anúncios analisados. A cada um destes anúncios, observações, para a variável "número de registos" corresponde um valor (Quadro IIMa).
A informação relativa ao número de registos poderia, contudo, ter sido fornecida de modo classificado (Quadro IIMb). Este tipo de representação dos dados é o resultado de um pré-processamento da responsabilidade de quem, por ex., recolhe a informação e que, por diversas razões - entre elas a necessidade de sistematizar -, a arruma numa tabela de frequências.
ESTATÍSTICA DESCRITIVA - O segredo dos dados
Capítulo III
QUADRO 111-1
Dados relativos ao número de registos: informação em bruto (a) e classificada (b). N_R£GIST 1 18 2 8 3 12 4 1 5 2 6 21 248 1 (a) N. de registos N. de anúncios [0; 10[ 210 [10; 20[ 32 [20; 30[ 5 [30; 40[ 0 [40; 50 [ 1 (b)
Tipicamente, os dados que nos são disponibilizados por instituições nacionais ou internacionais responsáveis pela recolha e sistematização de dados sobre o país ou o mundo (por ex. INE, Banco de Portugal, OCDE, EUROSTAT, Banco Mundial e FMI) são-no de modo classificado.
É importante compreender que a natureza dos dados (bruto ou classificado) a que temos acesso para gerar indicadores tem implicações ao nível da sua qualidade:
o tendo acesso a dados em bruto (Quadro lll-1a) o número total de anúncios considerados é 248 produzindo um número médio de registos igual a aproximadamente 5,8 registos/anúncio (resultando da soma dos registos para cada um dos 248 anúncios e a sua divisão por 248).
o Se a nossa fonte de informação for uma tabela, os dados estão já classificados (Quadro lll-1b), não havendo uma discriminação do número de registos para cada um dos 248 anúncios. Para conseguir ter
uma ideia do valor médio para os 248 anúncios teremos de encontrar
uma forma de, por ex., atribuir a cada um dos 210 anúncios da classe [0; 10[ um valor para o número de registos; talvez considerando que, em média, os 210 anúncios tiveram cinco registos cada um (o valor médio de zero e 10, os extremos da classe):
o claro que há anúncios com mais e menos de cinco registos! O princípio é que os que aos quais correspondem menos de cinco registos compensaram (na soma) os que têm mais.
o Estamos também a admitir que a distribuição no número de registos na classe é Uniforme, ou seja que há o mesmo número de anúncios com 0, 1, 2,...,9 registos.
o Será, porventura, a melhor aproximação (mais razoável, que corresponde à utilização de algum bom senso) que conseguimos efectuar.
o O número médio de registos é, nestas circunstâncias, aproximadamente igual a 1,5 (Quadro III-2).
Capítulo III ESTATÍSTICA DESCRITIVA - O segredo dos dados
QUADRO 111-2
Cálculo do valor médio partindo de dados classificados com classes de amplitude 10 registos (pm - ponto médio da classe).
N. de registos N, de anúncios pm Soma parcial [0; 10[ 210 5 210x5 [10; 20[ 32 15 32x15 [20; 30[ 5 25 5x25 [30; 40[ 0 35 0x35 [40; 50[ 1 45 1x45 Soma 373 Valor médio 373/248= 1,5
Naturalmente que os valores médios resultantes da aplicação dos dois métodos são diferentes! Neste caso muito diferentes: o valor médio calculado com os dados reais é, aproximadamente, igual a 5,8 registos e que resulta do processamento dos dados classificados é, aproximadamente, igual a 1,5 registos. O primeiro, naturalmente, mais preciso que o segundo...
É importante referir que quando aplicamos o segundo método, fazêmo-lo por não dispormos de informação em bruto que nos permita chegar a um resultado mais preciso. É também importante referir que se dispusermos de informação classificada mais detalhada (isto é com mais classes) será sempre essa a nossa escolha. Se as classes tivessem uma amplitude mais reduzida o erro cometido na aproximação referida anteriormente seria inferior: considerando classes de amplitude 5 registos (Quadro 111-3> o valor médio calculado é, aproximadamente, igual a 5,8 registos, tal como o valor médio preciso (neste caso a aproximação resulta num valor igual o que não é garantidol).
QUADRO 111-3
Cálculo do valor médio partindo de dados classificados com classes de amplitude 5 registos (pm - ponto médio da classe).
N. de registos N. de anúncios pm Soma parcial [0; 5[ 151 2,5 151x2,5 [5; 10[ 59 7,5 59x7,5 [10; 15[ 23 12,5 23x12,5 [15; 20[ 9 17,5 9x17,5 [20; 25[ 4 22,5 4x22,5 [25; 30[ 1 27,5 1x27,5 [30; 35[ 0 32,5 0x32,5 [35; 40[ 0 37,5 0x37,5 [40; 45[ 0 42,5 0x42,5 [45; 50[ 1 47,5 1x47,5 Soma 1430 Valor médio 1430/248- 5,8
ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III Dados em bruto Indicadores precisos Dados classificados Indicadores aproximados.
Quanto menor a amplitude das classes melhor a aproximação.
4. Tabelas de frequências
Quando dispomos de dados que nos são fornecidos de modo exaustivo é muitas vezes interessante arrumar a informação de forma "apresentável".
No âmbito de um relatório os dados poderão ser sempre remetidos em anexo e/ou em formato electrónico. Contudo pode ser desejável ter uma caracterização visual dos dados, por exemplo através de uma tabela de frequências que nos dá uma primeira aproximação da distribuição da variável em causa: corresponde à quantificação de um histograma, de um gráfico de barras ou de um gráfico circular.
4.1 Dados quantitativos
Consideremos a variável número de registos. No total sabemos haver 248 observações associadas a esta variável discreta.
Considerando classes de amplitude 10 registos, geramos cinco classes com a mesma amplitude. De seguida contabilizamos o número de observações que se encontram dentro de cada classe. A estes valores designamo-los por frequência absoluta (por ex. a frequência absoluta da classes [0; 10[ é 210. Podemos, também, calcular a frequência relativa que corresponde à percentagem ou proporção de observações dentro de cada classe (Quadro III-4).
A questão mais relevante, neste contexto, é saber em quantas classes se devem classificar os nossos dados. O software resolve, por omissão, esta questão. Contudo é importante compreender a razão da análise desta questão. O objectivo é "ver" os dados, percepcionar a distribuição dos dados. Com muitas classes tende a perder-se o efeito da "continuidade da distribuição". Com poucas classes corre-se o risco de esconder a verdade sobre a distribuição dos dados. E afinal uma questão de equilíbrio entre o número de observações e a percepção da distribuição.
Capítulo III E S T A T Í S T I C A D E S C R I T I V A - O s e g r e d o d o s d a d o s
QUADRO III—4
Tabela de frequências corrente (a) e segundo a nomenclatura estatística (b)
N. d s registos N. de anúncios [0; 1 0 [ 2 1 0 [10; 2 0 [ 32 [20; 30[ 5 [30; 4 0 [ 0 [40; 50[ 1
N, de registos Frequência absoluta F r e q u ê n c i a relativa ( % )
[0; 10[ 2 1 0 5 [10; 2 0 [ 32 15 [20; 30[ 5 2 5 [30; 4 0 [ 0 35 [40; 50[ 1 4 5 n 2 4 8 100
Sturges (1926) propôs uma regra empírica para determinar o número óptimo de classes a considerar, em função do número de observações. A relação é logarítmica (Quadro III-5). Há algumas discussões interessantes sobre a qualidade da regra de Sturges. Segundo Hyndman (1995) a regra de Sturges conduz a propostas relativas ao número de classes razoáveis quando a distribuição dos dados é Normal e quando o número de observações é inferior a 200. Propõe, em alternativa, as regras de Scott (1979) ou de Freedman e Diaconis (1981) para cálculo da amplitude das classes (H) que considera serem mais apropriadas, sobretudo se a dimensão da amostra for elevada.
QUADRO III-5
Regras para o estabelecimento das classes de uma tabela de frequências (K - número de classes, H amplitude das classes, n - número de observações, s - desvio padrão da amostra e IQ distância interquartis).
A u t o r R e g r a
S t u r g e s (1926) K= = 1 + log2 n
S c o t t (1979) H = 3 , 5 s n"1/3
F r e e d m a n e D i a c o n i s (1981) H = 2 I Q n '1 / 3
A grande maioria dos softwares utiliza a regra de Sturges. Contudo há mecanismos que permitem alterar o número de classes e/ou a amplitude das classes, de acordo com a decisão do utilizador.
À variável emissões de CO, uma variável contínua com 2866 observações, corresponde-lhe um valor mínimo igual a 0,005 e máximo 1,972, um desvio
E S T A T Í S T I C A D E S C R I T I V A - O s e g r e d o d o s d a d o s
Capítulo III
padrão1 (s) igual a 0,2029 e uma distância interquartis2 (IQ) igual a 0,289. As três regras propostas (Quadro III-5) sugerem a geração de uma tabela de frequências com 13, 39 ou 48 classes, dependendo do autor (Quadro III-6). A sugestão de cada um dos três autores é diferente (sobretudo comparando a de Sturges com as duas outras sugestões). O facto de existir um valor máximo extremo pode explicar esta tão grande diferença (Figura III-3). Eliminando o valor máximo (1,972, correspondente ao valor de emissões de CO para um Cadillac Escalade 6.2 - V8 AUT com 6162 cm3) a sugestão de Sturges não se altera (o que mostra a robustez da sua sugestão, a valores extremos) e as outras duas reduzem-se de modo relevante (Quadro III-7): 28 e 34 classes.
QUADRO III-6
Regras para o estabelecimento das classes de uma tabela de frequências (K - número de classes, H amplitude das classes, n - número de observações, s - desvio padrão da amostra e IQ - distância interquartis, Mini valor mínimo da
amostra, Max - valor máximo da amostra e A - amplitude).
A u t o r R e g r a H K S t u r g e s ( 1 9 2 6 ) K = 1 + log2 n 0 , 1 5 8 1 2 , 5 S c o t t (1979) H = 3,5 s n"1 / 3 0 , 0 5 0 39,3 F r e e d m a n e D i a c o n i s ( 1 9 8 1 ) H = 2 IQ n'1 / 3 0 , 0 4 1 4 8 , 3 n= 2 8 6 6 M i n = 0 , 0 0 5 s= 0 , 2 0 2 9 6 4 M á x = 1 , 9 7 2 IQ= 0 , 2 8 9 A = 1 , 9 6 7 QUADRO III-7
Regras para o estabelecimento das classes de uma tabela de frequências (K - número de classes, H classes, n número de observações, s desvio padrão da amostra e IQ distância interquartis, Mini
-amostra, Max valor máximo da amostra e A • amplitude).
- amplitude das valor mínimo da A u t o r R e g r a H K S t u r g e s (1926) K= 1 + log2 n 0 , 1 0 9 12,5 S c o t t ( 1 9 7 9 ) H = 3,5 s n"1 / 3 0 , 0 4 9 2 7 , 5 F r e e d m a n e D i a c o n i s ( 1 9 8 1 ) H = 2 IQ n"1 / 3 0 , 0 4 1 3 3 , 5 n = 2 8 6 5 M i n = 0 , 0 0 5 s = 0 , 2 0 0 6 0 4 M á x = 1,362 IQ= 0 , 2 8 8 A = 1,357 1 V e r § 7.4 2 V e r § 7 . 2 A n a A m a r o , C l á u d i a Silvestre, L e o n o r F e r n a n d e s | T a b e l a s d e f r e q u ê n c i a s