I
)t,:
l'Rr lttAtìn,n)AI)E
Ís'l'rt
rA
rrItr'trlo
Mlrgalhães
lur
l't'rlt'rlsrl
<lc
[,ima
l,lsllr olrr ir
('llnlir
irrlrorlrtr.iru;t [tlolrrrlrilirlirtlc c rt l,ìstlrtíslit it, It'ttrlrrsi<[o llirlrot'ir<[l ;rirtir irlrrtros rlrrs r'rrcirs
<k' < iôn< iirs lriolrigi< lrs, ('xlrlirs (' hrrmanas. Ao corrtliilio rlt' orr(rrrs
textos e lcrlc'Ìì1iìr'('s, os ttilli<'os <lc Estatística l)escritivir rriro Íìlrarrr apresentados enì urìì Írnit o capítìrlo: procurou-se i n trodrrzir csses conceil os
em paralelo corn outros tópicos mais
teóricos no decorrer do livro. Desse
modo,.buscou-se desenvolver ó texto
de forma similar ao uso prático da Estatística, quando normalmente um conjunto de dados é explorado
descritivamente antes da modelagem
e aplicação de técnicas estatísticas.
Não foi explicitado o uso de nenhum software em particular, uma vez que se
procuroÌÌ enfatrzar as idéias envolvidas
e não a habilidade computacional. Não obstante, vários exercícios
-apresentados ao {im de cada seção e em uma seçào específica ao final
de cada capítulo
-
assumem o uso decomputadores para sua resolução e
alguns conjuntos de dados mais
extensos são disponibilizados na
internet, o que estimula o leitor 4 utilizar um programa computacional
com o qual tenha famiÌiariclade panì
tÌrpyrlglrt O hy Mulcos Nascinrcnlo Magalhãcs c Arrtonio Carlos l)ctltoso clc Lima l" r'rliçÍo 1999 (lMli-tJSP) J'' r'rlt1'rlo 2(XX) ( lMll-l.JSl') .1" crliçlio 2(X) I (lMli-tJSP) ,1" crliçrìo 2(X)2 (lJclusp) .1" crliçrìo 2{X}2 (Ddusp) (rn ctliçlìo 2(X)4 (liclusp)
l )utkrs lnlct nacionais dc Catalogação na Publicaçào (CIP) (('iìnrala Ilrasileira do Livro, SP, Brasil)
Mttgrt lhilt's, Mitt cos Nascinrento
Nuçiics rlc I'robabilidade c Estatística / Marcos Nascimento Mngllhitcs, Ânlonio Carlos Pcclroso cle Liml - ó ed. - São Paulo:
Jltlilurl tlu IJrtive lsichclc de São Paulo, 2004. - (Acadêmica; 40) lllhliogr';r li,rt
tstìN tì5-3 I 4-0ó77-3
L listltísticl - llstuclo e Ensino 2. Matemática - Estudo e
lirrsirur 3. lÌoltabiliclaclcs - Estudo e Ensino I. Título IL Série. tì,1 0.171 cDD-5 t 9.507
índicos para catálogo sistemático:
l, l1\lirlíslicl: Matcnriitica: Estudo e Ensino 519.507
2, lÌolrlhilitlrtilcs c Estatística: Maternática: lisluclo c Errsino 519.507 I)ll'cllns lcsclvltlos à
lklusp lulitrtrt tll [Jnivclsidade de São Paulo
Av, lÌrrl, l,rrciarto Gualbclto, Tlavcssa J,374
(Í'untlll lltl. rll Ântiga lìeitoria - Cidade Universitária 0550tl U{X) .- Siìo l'uulo - SP - Brasil
I)ivisalo (lrrucrcial: tcl. (Oxxl l) 3091-4008 / 3091-4150 SA(l (0xxl l) 3091-291 I - Fax (Oxxll) 3091-4151
www,rrsp,lrr'/ctlusqr - c-mail: edusp@edu.usp.br lrrslilulo rlc Mllcntítica c Estatística - IME-USP Ituil rkr Millikr, l0l0 - Cidadc Universitária
0-55()t1"9(X) - S;io I'aulo - SP - Brasil
{i
Coutro dç Ciêaerap Ldarcai{h a do ìì*hrreln Iiibirotecl ll.. í:;,gilí''rs
0\Íú/0s
4658108
cr|sEral)cplrlnnlcnt(ì tlc listatística - Tel. (Oxxl l) 3091-6129 / 3091-6130
('uixil lÌrslIl (r(),2tÌI - 05315-970
rvww, irrx',rrsgr,lrr'/*ttoproest - c-mail: noproest@ime.usp.br
lÌ irt('(l iil llril/il l(X)4 lroi leito o rlt'1tr1silo lcgal
)''
"
Prefácio
da
6s
edição
Bste texto é fruto da nossa experiência de vários anos como professores clÕ
Departamento
de
Estatísticado
Instituto
de
Matentáticae
Estatística elnUnìversidade de São Paulo. Nesse período, foram ministradas diversas disciplinns lrírsicas
de
Estatística para cursos nas áreasde
Ciências Humanas, Exatns e Biológicas.Buscamos enfatizar
dois
aspectos nestelivro.
O
primeiro se refere $ rcpartir a Estatística Descritiva ao longo do texto, suavizando, assim, a transiçilo pariÌ Probabilidade e Variáveis Aleatórias. Em geral, os alunos sentem o impacto <le uma maior formalizaçáo e, muitas vezes, não conseguem estabelecer o elo clc ligação entre essas partes.Um
segundo interesseé
transmitira
importância dncolrputação na Estatística. Não atrelamos o texto a nenhum softvvare especíÍ:ico,
permitindo que o conhecimento computacional anterior dos estudantes pudesse ser
incorporado, minimizando o desgaste de um novo aprendizado. Ressaltamos qUe
vários software disponíveis
no
mercado podemser
utilizados.Os
arquivosmencionados no decorrer do livro estão disponíveis em www.ime.usp.br/-noproest juntamente com outras informações de interesse'
O livro contém exercícios ao final de seções e capítulos. Os exercícios de
seção são mais diretos e visam a aplicação imediata dos conceitos discutidos. Ao
fim de cada capítulo, um considerável número de exercícios ajuda os estudante$ nll
fixação global das idéias apresentadas. Também são propostos exercícios ptlrn
serem desenvolvidos com
a
ajudado
computador.O
principal objetivo desses exercícios,é
enfatizaras
idéias estatísticas envolvidase
não
a
habilidnclecomputacional.
No
Apêndice'8,
"apresentamosas
soluções comentadas dosexercícios de séção e fornecemôs as respostas para os exercícios ímpares de fim de
capítulo.
Em
relaçãoà
edição anterior,
a
sextâedição
apresenta pequenflsrnodificações. Uma das figuras do Capítulo 7
foi
mudadapara o Capítulo 6, locnlque nos pareceu mais apropriado. Foram acrescentados exercícios
em
algunscapítulos.
Os
erros
em
respostas, identificadosaté
então,foram
corrigidos,Pequenas alterações de redação também foram feitas. As mudanças, em relaçãO tì quinta edição, estão listadas no endereço Internet mencionado acima.
Ao longo das várias edigões, diversos colegas contribuiram com sugestões,
Entre eles destacamos Adilson Simonis, Cláudia Monteiro Peixoto, Clélia Tsloi, Denise Botter, Elisabeti
Kira,
Elisete da ConceiçãoQ.
Aubin,Julio
daMottt
Singer,
Lighia
B.
Horodynski-Matsushigue,Lúcia
P.
Barroso,Marli
Mikael, Nelson Tanaka, Rinaldo Artes e Silvia Ferrari. Maria Cecília Camargo MagalhÍiesvlu Prefácio
colnborou na revisão final da redação.
A
estudante Tatyana Maya Okano auxiliou nn COrreção das respostas de vários exercícios. Apontamos, ainda, o recebimentoCJc vírrias mensagens eletrônicas com comentários e/ou sugestões.
A
todos queColnboraram, o nosso sincero muito obrigado. Agradecemos, ainda, aos alunos de
vÍlrias unidades da USP, que apontaram erros
e
deram sugestões. Finalmente, gostaríamos de agradecer a Luís Ricardo Câmara, da ADUSP- Associação dosDocentes da USP, pela diagramação das tabelas e auxílio na arte final de algumas
dns figuras apresentadas no texto.
Pedimos, desde
já,
desculpaspelos erros
que
serão eventualmenteidentificados nesta nova edição.
As
críticase
sugestões de colegas e estudantes gcrão muito bem-vindas e, certamente, auxiliarão na rnelhoria da próxima versão.São Paulo, janeiro de2004
Marcos N. Magalhães
e
Antonio Carlos P. Lima(marcos
@ime.usp.br)
(acarlos@ime.usp.br)Conteúdo
ì I Â ì' ' Í t"rConteúdo
Lista
de Defïnições
2.r 2.2 2.3 2.4 3.r 3.2 3.3 3.4 3.5 3.6 3.7 3.8 4.1 4.2 4.3 4.4 4.5 5.1 5,2 .5.3 5.4 5.5 .5.(r Probabilidade...,...
... 38 Probabilidade condicional...
...,,,42 Independência deeventos...
...,44 .Partição do espaço
amostral
...46Função discreta de probabilidade ... Função de distribuição de
probabilidade
...63Modelo Uniforme Discreto
...;...
...68Modelo Bernoulli
...
... 70Modelo
Binomial
... ...72Modelo
Geométrico
...78Modelo
Poisson
...,,,,,,79Modelo Hipergeométrico
...
...,82Medidas de posição para um conjunto de
dados
...,..,...,,94Medidas de posição para variáveis aleatórias discretas ... 98
Amplitude de uma variável em um conjunto de
dados
....,.. 103Variância e desvio-padrão em um conjunto de
dados
... 104Variância de uma variável aleatória
discreta
....109Função de probabilidade conjunta
...
..,..128Probabi lidade condicional para variáveis aleatórias discretas ... 137
Independência de variáveis
aleatórias
...,... 137Correlação entre variáveis num conjunto de dados brutos ...,...,.
l4l
Covariância de duas variáveisaleatórias
...,147Correlaçiro entre variáveis aleatórias
...
...,.149 ..t-,xu Lista de Definições
Função densidade de probabilidade
...
... 168Medidas de posição paravariâveis aleatórias
contínuas
...I73
Variância paravariâveis aleatóriascontínuas
...1,73 Modelo UniformeContínuo
...177Modelo Exponencial
...
...180 Modelo Normal Parâmetro Estimador eestimativa
... 208 Vício...
...213 Consistência...
...213Eficiência
...216 6.1 6,2 6.3 6.4 6.5 6,6 7,1 7,2 7.3 7.4 7,5Lista
de
Figuras
1.1 r.2 1.3 t.4 1.5 t.6 1.7 1.8 r.9 2,1 2.2 2.3 2.4 3.1. 3.2 3.3 3.4 3.5 3.6 5.1 5.2 5,3 .5.4 5,.5 População e amostra Classificação de variáveis....'..'...
..."'."",.,', d Exemplos de gráficos publicados naimprensa
..:'...""""""
l2
'DiagramacircularparaavariávelToler...'.'.
.'...'..""""""13
Gráfico de barras paÍa avariável Idade...'..
..."""':""""
14 Histograma paraavariável Peso.'.'....'.
.'..'...'.15Box-plot para o número de laranjas por
caixa
...'..."""""
18 Box-plot para a variável Peso'...'...
....'...".'...18Box-plotda variável Peso para cada
sexo
.'.'...'."...'..'... 19Regra de adição de probabilidades
.'...
....'.,'..' 39Regra do produto de probabilidades
.'...
....',,,,43Árvore de probabilidades
...'..
,...,.,45Partição do espaço amostral (k
: 6)
.'....,"""""
46 Árvore de probabilidades - alterações nosubsolo
...'.,..60Função de distribuição - doses de
vacina
...65Modelo Uniforme Discreto [0,
10]
.'...'...'...,..,69Gráfico de freqüências - natalidade em
porcos
.'."...'..'...75Modelo Geométrico
(P: 0,0t)
..'.'7g
Modelo Poisson (À: 5)
"..."'.80 Independência de variáveisaleatórias
'...'.".."137 Valor esperado da soma de variáveis aleatórias ..'.'.'.':"'..."'...'....'. 145Valor esperado do produto e independôncia de variáveis aleatórias ..,..146
Correlação para conjuntos de dados (brutos)
.'.'.'....'.".
'.'....151 Covariância e correlação de variáveisaleatórias
..'...l5l
rlv
I'islu ilct liigrtnts5,6
Variância da soma de duas variáveisaleatórias
"""""""""
1516,1
Densidade UniformeContínua
""'
1786,2
Densidade Exponencial""""""""'
"""""""""'180
6,3
DensidadeNormal
""'
1836.4
Aproximação Normal para o ModeloBinomial
""""""""'
1896.5
Histogramas para valores simulados da Binomial""""""""""""""""'
1907.l
Efeito de n na distribuição amostral deX
-
N(10,I6/n)
""""""""""22I
7.2
Efeito do tamanho da amostra sobre a distribuição deX """"" """"""224
8.1
Erros associados a testes dehipóteses
""""""'248
8'2Representaçáográficadoserrosd'ep.,.'...
S.3Representaçáogrâficadaregiãoderejeição-unilateral...,.250
8,4Representaçáogrâf\cadaregiãoderejeição-bilatera1
8.5
FunçãoPoder
"""""""""'
""""""'254
8,6
EtaPas de um teste de hiPóteses8.7
Densidade ú-Student
""""""""""'259
8.8
Nível descritivo unilateral"""""""
"""""""""264
8.9
Regiões desfavoráveis num teste bilateral com Hoi F:
Fo""""""""'265
8.
l0
Nível descritivo bilateral"""""""'
"""""""""'266
8.1I
Densidade.Ïf
e RegiãoCrítica
""'27O 9.19.2
9.3
Cirsos na comparação de duas amostras
"""""""'
"""""""'295
Distribuição de Fisher-
Snedecor
""""""""""'317
Resíduos no modelo de regressão linear simples
""""""""':""""""""'335
.qft
Lista
de Tabelas
l
.l
lnformações de questionário estudantil - dadosbrutos
"""""'1
1.2
Tubela de freqüência para a variável Sexo"""""
"""""""""'
91,3
Tlbela de freqüência para a variável Idade""'""
""""""""'
101,4
Tabela de freqüência para a variável Peso"""""
"""""""""
1
I
L5
TabeladefreqüênciaparaavariávelTV""""""'
""""""""'1l
4,1
Meclidas de tendênciacentral
""""
1004,2
Medidas dedispersão
""""""""""
1 11
4,3
Propriedades da média e da variância"""""""'
"""""""""
1 11
4,4
Modelos discretos- valor esperado e variância"""""""""""""""""""
Il3
6,
I
Modelos contínuos- valor esperado e variância""""""""""""""""""'
1877,l
Estimadores para média' proporção evariância
"""''"""""211
1
,2
Intervalos de confianç apaÏa p e p"""""
""""'234
9,I
Comparação de médias para duaspopulações
""""""""""309
g,2
Tnbela de Análise de Variância(ANOVA)
""'
326i
I
Capítulo
LIntrodução
à
Análise
Exploratôria
de Dados
t.1
O
que
éEstatística?
Neste capítulo, pretendemos formalizar alguns conceitos que constitucrn tt
base de técnicas desenvolvidas com a finalidade de auxiliar a responder, de I'ortrtit
objetiva
e
segura, situaçõesque
envolvemuma
grande
quantidadc dcirrformações.
A
utilização dessas técnicas, destinadasà
análisede
situitçõcscomplexas ou não, tem aumentado
efaz
parte de nosso cotidiano. Tome-sc' pofcxemplo,
as
transmissões esportivas.Em jogos de
futebol,
o
número clecscanteios, o número de faltas cometidas e o tempo de posse de bola são daclos
geralmente fornecidos ao telespectador e fazem com que as conclusões sobre qunl
time
foi o
melhor em campo, se tornem objetivas (não que isso impliqlle quetcnlra sido o vencedor...). O que tem levado a essa quantificação de nossas viclus
no dia
a
dia?Um fator
importanteé
a
populatizaçáo dos computadores. Nopassado, tratar uma grande massa de números era uma tarefa custosa e cansativtt,
que exigia
horas
de
trabalho tedioso. Recentemente,no
entanto, grnnCle quantidade de informações pode ser analisada rapidamente com um computudorpessoal
e
pfogramas adequados.Desta
forma,
o
computador contribui, positivamente,na
difusãoe
uso de
métodos estatísticos.Por outro
lado, ocomputador possibilita uma automação que pode levar um indivíduo serÌ prepilro específico a:utilizar técnicas inadequadas para resolver um dado problema. Assitrt,
é necessário a compreensão dos conceitos básicos da Estatística, bem como 0s
suposições necessárias para
o
seuuso de
forma
criteriosa. Entendemos it Estatística comoum
conjunto de técnicas que permite, de forma sistemátictt,organizar, descrever, analisar
e
interpretat dados oriundosde
estudos tlttexperimentos,
realizados
em
qualquer
ârea
do
conhecimento- Estatrtosdenominando por dados um (ou mais) conjunto de valores, numéricos ou nito. A aplicabilidade das técnicas a serem discutidas se dá nas mais variadas árels tln
atividade humana.
A grosso modo podemos dividir a Estatística em três áreas:
o Estatística Descritiva
o Probabilidade
Capítulo 1: Introdução à Análise Exploratória de Dados
Estatística Descritiva é, em geral, utilizada na etapa
inicial
da análise,cprlndo tomamos contato com
os
dados pela primeira vez. Objetivando tirarconclusões de modo informal e direto, a maneira mais simples seria a observação
tlos valores colhidos. Entretanto, ao depararmos com uma grande massa de dados,
lrcrcebemos, imediatamente, que
a
tarefa podenão
ser simples. Para tentardepreender dos dados informações a respeito do fenômeno sob estudo, é preciso
irplicar alguma técnica que nos permita resumir a informação daquele particular
conjunto de valores. Em outras palavras, a estatística descritiva pode ser definida cotììo urn conjunto de técnicas destinadas a descrever e resumir os dados, a fim de
quc possamos tirar conclusões a respeito de características de interesse.
Probabilidade pode ser pensada.como a teoria matemática utilizada para
sc cstudarr a incerteza oriunda de fenômenos de caráter aleatório. Apesar de ser
urrrn írrea extremamente atraente
e
estudadado
pontode vista
matemático,abordaremos, aqui, apenas os aspectos necessários para as técnicas estatísticas
irprcsentadas neste livro.
Inferência
Estatísticaé o
estudode
técnicasque
possibilitam
a cxtrapolação,a um
grande conjunto de dados, das informaçõese
conclusõesobtidas
a
partir
de
subconjuntosde
valores, usualmentede
dimensão muito ffìenor. Deve ser notado que, se tivermos acessoa
todosos
elementos queclesejamos estudar, não é necessário o uso das técnicas de inferência estatística.
Entretanto, elas são indispensáveis quando existe a impossibilidade de acesso a todo o conjunto de dados, por razões de natureza econômica, ética ou física.
Estudos complexos que envolvem
o
tratamento estatístico dos dados, tusnalrnente, incluem as três áreas mencionadas acima. Na terminologia estatística,o
grande conjunto de dados que contéma
característica que temos interesse reccbc o nome de população. Esse termo refere-se não somente a uma coleção deinclivícluos, mas também ao alvo sobre o qual reside nosso interesse. Assim, nossa
populnçiro pode
ser tanto
todosos
habitantesde
Sorocaba, como todas aslârnpaclas produzidas por uma fátbrica em um certo período de tempo, ou todo o
sarìgue
no
corpo
de
uma
pessoa. Algumas vezes podemos acessartoda
a po;lulação para estudarmos características de interesse, mas, em muitas situações,tal llroccciirnento não pode ser realizado. Em geral, razões econômicas são as mais
clctclrninantes dessas situações.
Por
exemplo, uma empresa, usualmente, nãodispõo clc vcrba suficiente para saber
o
que pensam todos os consumidores descus proclutos. Hir ainda razões éticas, quando, por exemplo, os experimentos de
lttlornttilio
cnvolvem o uso de seres vivos. Além disso, existem casos em que a irnpossillilitltclc clc sc accssárr toda a população de interesse é incontomável. Na tndlisc rlo sirngr"rc cle unra pessoiÌ ou em um experimento para determinar o tempol.lOqueéEstatística?
cle funcionamento das lâmpadas produzidas
por
uma indústria, não podemOSobservar toda população de interesse.
Tendo em vista as dificuldades de várias naturezas para se observal todos
os elementos da população, tomaremos alguns deles para formar um grupo iì Ser
cstudado. Este subconjunto da população, em geral com dimensão sensivelmentC
rrìenor,
é
denominado amostra.A
Figura 1.1 ilustra
as
etapasda
anólige cstatística.Amostra
w
Figura 1.1: População e amostra.
A seleção da amostra pode ser feita de várias maneiras, dependendo, entre ()lrlr'os Íhtores, do grau de conhecimento que temos da população, da quantidade
rlc rccursos disponíveis e assim por diante. Devemos ressaltar que, em princípio, A
sr:lcçiro da amostra tenta fornecer um subconjunto de valores
o
mais pareciclopossívcl com
a
população que lhe dá origem.A
amostragem mais usadaé
a(rtt!o,\lru r:ustral simples, em que selecionamos ao acaso, com olt sem reposiç:âo, os
ilcrrs da população que farão parte da amostra.
Eventualmente,
se
tivermos
informações adicionaisa
respeito
clttlrrrlrrrlirçlio de interesse, podemos utilizar outros esquemas de amostragem muis soÍ'isticuclos.
Por
exemplo, se numa cidade, tivermos mais mulheresdo
clue111y111çlrs, podernos selecionar um certo número de indivíduos entre as'mulheres e
outl'o
núnreroentre
os
homens. Esse procedimentoé
conhecido colnoCapítulo
I:
Introdução à Análise Exploratória de Dadositens da populagão (uma lista de referência) que nos permitiria utilizar a chamada
1mostragem sistemática
em que
selecionamosos
indivíduosde
forma
pré-determinada,por
exemplode
8
em8
ou
de
10em
10. Outros esquemas deilmostragem poderiam ser citados
e
todos fazem parte da chamada Teoria da Amostragem, cujos detalhes não serão aprofundados nestelivro.
Assim sendo,terminamos esta seção mencionando que quanto mais complexa for a amostragem'
maiores cuidados deverão ser tomados nas análises estatísticas utilizadas; em contrapartida, o uso de esquemas de amostragem mais elaborados pode levar a
uma diminuição no tamanho de amostra necessário para uma dada precisão.
Exercícios da Seção 1.L:
1. Classifique em verdadeiro ou falso as seguintes afirmações:
a. Estatística é um conjunto de técnicas destinadas aorganizar um conjunto de
valores numéricos.
b.
Sempre que estivermos trabalhando com números, deveremosutilizar
a Inferência Estatística.c.
A
Estatística Descritiva forneceuma
maneira adequadade
tratar
um conjunto de valores, numéricos ou não, com a finalidade de conhecermos ofenômeno de interesse.
d. Qualquer amostra representa, de forma adequada, uma população.
e. As
técnicas estatísticasnão
são adequadas para casosque
envolvamexperimentos destrutivos como,
por
exemplo, queima de equipamentos,destruição de corpos de provas, etc.
2,
Para as situações descritasa
seguir, identifiquea
populaçãoe a
amostfacorrespondente. Discuta a validade do processo.de inferência estatística para
cada um dos casos.
a. Para avaliar
a
eficá'cia de uma campanha de vacinação no Estado de SãoPaulo, 200 mães de recém-nascidos, durante
o
primeiro semestre de umdado ano e em uma dada maternidade em São Paulo, foram entrevistadas a
respeito da última vez em que vacinaram seus.filhos.
b. Uma amostra de sangue foi retirada de um paciente com suspeita de anemia.
c.
Para verificar a audiência de um programa deTV,
563 indivíduos foram entrevistadospor
telefonecom
relaçãoao
canal
em
que
estavam sintonizados.d.
A
fim
de avaliara
intenção de voto para presidente dos brasileiros, 122 pessoas foram entrevistadas em Brasília.-"--qt
1.2 Organização de Dados
3. Discuta, para cadaum dos casos abaixo, os cuidados que precisam ser tomadOa
para garantir uma boa conclusão a partir da amostra.
a. Um grupo de crianças será escolhido para receber uma nova vacina contra meningite.
b. Sorteamos um certo número de donas de casa, para testar um novo sabEO
en
pó.
c.
Uma fâbrica deseja saber se sua produção de biscoitos está como
ssbof previsto.d. Aceitação popular de um certo projeto do governo.
1.2
Organização
de Dados
Nesta seção, discutiremos alguns procedimentos que podem ser utilizados
pnrt organizar e descrever um conjunto de dados, seja em uma populaçãO OU em
ulìB omostra. Veremos como conceitos relacionados à Teoria das Probabilidades 11pnrecem naturalmente, levando-nos, assim, a uma exposição maiS criteriosa dO
Rssullto.
A questão inicial é: dado um conjunto de dados, como "tratar" os vttlofeE,
nurnéricos ou não, a
fim
de se extrair informações a respeito de uma ou mAlCelllctcrísticas de interesse? Basicamente, faremos uso de tabelas de freqüênclas e
grc'('icos, notando que tais procedimentos devem levar em conta a natUreZ& dOÊ
dnelos,
Suponha, por exemplo, que um questionário
foi
aplicado aos alunog doprirneiro ano de uma escola fornecendo as seguintes informações:
Id:
identificação do alunoTurma:
turma a que o aluno foi alocado (A ou B)Scxo:
F se feminino, M se masculinoIclade:
idade em anosAlt:
altura em metrosPeso:
peso em quilogramaslìilhos:
número de filhos na famíli'aÍlumn:
hábito de fumar, sim ou nãoToler:
tolerância ao cigarro:Capítulo
I:
Introdução à Análise Exploratória de DadosExerc:
horas de atividade física, por semanaCine:
número de vezes em que vai ao cinema por semanaOpCine:
opinião a respeito das salas de cinema na cidade:(B) regular a boa e (M) muito boa
TV:
horas gastas assistindo TV, por semanaOpTV:
opinião a respeito da qualidade da programação na TV:(R) ruim, (M) média, (B) boa e (N) não sabe
O conjunto de informações disponíveis, após a tabulação do questionário
ou pesquisa
de
campo,é
denominado de tabela de dados brutos e contém osdaclos da maneira que foram coletados inicialmente. Os valores obtidos para cada
uma
dessas informações estão apresentadosna
Tabela 1.1. Cadauma
dasCaracterísticas perguntadas aos alunos, tais como o peso, a idade e a altura, entre
outras, é denominada
de
variável. Assim, a variável Altura assume os valores(em
metros)1,60;
1,58;...
e
a
variável Turma assumeos
valoresÁ
ou
B.Claramente
tais
variáveis têm naturezas diferentesno
que tange aos possíveisvalores que podem assumir. Tal fato deve ser levado em conta nas análises e, para
fixar
idéias, vamos considerar dois grandes tipos de'variáveis: numéricas e nãonuméricas. As numéricas serão denominadas quantitativas, ao passo que as não
numéricas, qualitativ as.
A
variável
é
qualitativa quandoos
possíveis valoresque
assumerepresentam atributos e/ou qualidades. Se
tais
variáveis têm uma ordenaçãonatural, indicando
intensidades crescentesde
realizaçáo, entãoelas
serãoctassificadas como qualitativas ordinais. Caso contrário, quando não é possível estabelecer uma ordem natural entre seus valores, elas são classificadas como
qualitativas nominais. Variáveis tais como Turma
(A
ou B), Sexo (feminino oumasculino) e Fuma (sim ou não) são variáveis qualitativas nominais. Por outro lndo, variáveis como Tamanho (pequeno, médio ou grande), Classe Social (baixa, rnódia ou alta) são variáveis qualitativas ordinais.
Variáveis quantitativas, isto é, variáveis de natureza numérica, podem ser
subdivididas em discretas e contínuas.
A
grosso modo, variáveis quantitativas discretas podem ser vistas como resultantes de contagens, assumindo assim, emgeral, valores inteiros.
De
uma maneira mais formal,o
conjunto dos valoresassumidos
é
finito
ou
enumerâvel.Jâ as
variáveis quantitativas contínuas assumem valores em intervalos dos números reais e, geralmente, são provenientesde uma mensuração. Por exemplo, Número de Irmãos (0,
I,2,
...) e Número deDef'eitos
(0,
1,2,.,.)
são discretas, enquanto que Peso e Altura são quantitativascontÍnufls.
. -Edl
7 1.2 Organização de Dados
Tabela 1,1: Informações de questiondrio estudantil - dados brutos,
.[d Turma Sexo Idade AIt Peso Filh Fuma Toler Exer Cine Opcine TV OpTV
1.AF
2AF
3AM
4AM
5AF
6AM
7\F
BAF
9ÀF
IOAF
11 À
F12 A
F13 A
FT4AM
15AF
16AF
LTAF
1g À
M19 A
F30 A
F11 A
F22ÀF
33 À
F24AF
25 A
FB6 A
F.3'/ B
F3E B
F39 B
F30 E
F31 B
F3ã E
Mã3 B
F34 ll
F1E li
M16 t!
Ir1't 11
MãË t1
M19 11
1,'4r.) B
M41 t]
F4ã Fr
F'41 HM
44DF
4F F
F4€ E
TI478Iil
4E H
FéS H
Mh0 11
M L,60 60,5
2 1,6955,0
1 L,8512,8
2 l-, 85 80,9
2 1", s8 55,0
l-1_,7660,0
3 1,6058.0
1 L,6441,0
3-L,6257,8
3t,64 58,0
2r,72
70,0
L L,6654,0
3 L,7058,0
2 1, 78 68,5
l-1,6563,5
l-7,63 47,4
3 1.,82 66,0
r 1-,8085,2
2 1,,6054,5 t
L,6852,5
3 1.,7060,0
2 1,6558,5
1 1,57 49,2
1 L,5548,0
1 1.,6957,6
2 L,5451,0
2 L,62 63,0
2 L,6252,0
1 L,5749,0
2t,65 59,0
4t,6L 52,0
1-L,71. 73,0
Lt,65 56,0
3r,67
58,0
L 1",7387,0
rr,60
47,0 t
1,7095,0
1 L,8584,0
1 1,7060,0
1 1,73 '73,0
1 1,7055,0
1 1,4544,0
2I,76 75,0
2 1,6855,0
1 1,5549,0
1 1,7050,0
7 1,5s54,5
2 r., 60 50,0 I
L,8o71,o
1 1,8386,0
L NAO P NAO M NAO P NAO P NAO M NAO M NAO P SIM I NAO M NAO M SIM I NAO M NAO M SIM I NAO I NAO P NAO P NAO P NAO P NAO M NAO P NAO M SfM I SIM T NAO P NAO I NAO M NAO P NAO P NAO M NAO P NAO P NAO M NAO M NAO M NAO P NAO P SIM T NAO P NAO M NAO f NAO M NAO I NAO P NAO M NAO M NAO M NAO P NAO P NAO P 81.6R B7R M1.5R B20R B5R 13 Z .b{ B7R MlOR M1-2R MlOR B8N BOR M 30 R M2N BlOR B18R BlON BlOR B5R B14M B5R B5R BlOR M 28 R M4N B5R M5R MlOR BL2R M2R M6N B 20 R BL4R BlOR B25B M14R M12N B],OR BT2R B2R BlOB B 25 R M1.4N B8R MlOR B8R B3R B5R M1.4R M 20 B 1,7 18 1,8 19 19 20 l-8 t_8 T7 l-8 18 a1 I9 18 t-9 L7 1"8 20 l_8 2L 18 L8 20 )^ L9 z3 18 18 25 18 17 T7 L7 J.õ 18 77 2L 10 1A L7 23 24 L8 18 L9 19 18 t7 1B01-01
5252
a13l-22
102
02
6t
5l_
41-01
31
34
11 1)82
03
54
01
62
82
1"1
3L
12
22
1L
21
42
7L
51
1-0
264
52
4L
54
))
70
51
01
01
43
2L
"t0
70
Capítulo
I:
Introdução à Anólise Exploraúrta de DadosResumimos
a
classificação das variáveisno
esquema apresentado naFigura I.2 (atítulo de exercício, tente classificar todas as variáveis da Tabela 1.1).
Nominal
-a"Qualitativa
'
-.ordinal
Variável\
'Quantitativu
1
--""-Discreta
.-,contínua
liSura
1.2: Classificação de varidveis.Vale ressaltar que, em muitas situações práticas, a classificação depende
de certas particularidades. Por exemplo, a variável ldade, medida em número de
anOS, pode ser vista como discreta, entretanto, Se levarmos em conta os dias, não é
absurdo falar que a idade ê 2,5 ou 2,85 anos, dando assim respaldo para
classificá-la
como contínua.Por
outro lado,
dependendoda
precisãodo
instrumento utilizado para se obter medidas em um objeto, podemos ter limitações no número cle casas decimais e uma variável de mensuração pode se "tornar" discreta. E importante salientar que a classificação apresentada acima se refere à natureza davariável
e, em
geral, devemosutilizar
o
bom sensona
horade
decidir qual procedimento adotar para caracterizaruma
variável. Para salientartal
fato,menciOnamos que podemos, inclusive, discretizar uma variável contínua para
obter uma melhor representação da ocorrência de seus valores
no
conjunto dedirclos.
Outro ponto que pode trazer confusão é que, muitas vezes, na utilização
Cle programas computacionais, associamos códigos numéricos
a
uma variável qqalitativa. Por exemplo na Tabela 1.1, pode-se associar ao sexo feminino o valorI
e ao masculino 2. Apesar da variável ser representada por valores numéricos,issO não a torna uma variável quantitativa. Novamente, vemos que a natureza da
vnriável deve sempre ser levada em conta na hora de se interpretar resultados obtidos na análise descritiva.
I
1.2 Organízação de DadosApesar de conter muita informaçáo, a tabela de dados brutos pode nãO Sef prática pu.u r"rpondermos às questões de interesse. Por exemplo, da Tabela 1'1 rriro
é
imediatodizer
seos
alunos se incomodammuito
ou
poucocom
Osl'umantes. Porlanto, a partir da tabela de dados brutos, vamos construir UmO nOvtl
t1$ela
com as
informações resumidas, para cada variável. Essa tabela Sefdclenominada de tabela de freqüência e, como o nome indica, conterá os valOfeg dA virriável
e
suas respectivas contagens, as quais são denominadas freqüênelAEqttbsolutas
ou
simplesmente, freqüências.No
caso de variáveis qualitativas OUtprantitativas discretas,
a
tabelade
freqüência consisteem
listar os
valorogpossíveis da variável, numéricos ou não
e
fazer a contagem na tabela de dadOg lrrutos do número de suas ocorrências. Representaremos porn;
a freqüênciadq
vulor
i
e por ?? a freqüência total. Para efeito de comparação com outros grupOSou conjunìos de dadoi, será conveniente acrescentarmos uma coluna na tabela de
lì.oqüência contendo
o
cálculo da freqüência relativa, definidapor
fi
=
U/t\:,
Convém notar que, quando estivermos comparando dois grupos com relaçãO àS
freqiiências de ocorrência dos valores de uma dada variável, grupos cgm Um
número total de dados maior tendem a ter maiores freqüências de ocorrência dos
vtlores da variável. Desta forma, o uso da freqüência relativa vem resolver èBte
problema.
A Tabela 1.2 apresenta as freqüências para a variável Sexo, obtida a p0rtir cln Tubela I .1.
Tabela 1.2: Tabela de freqüêncía para a variúvel Sexo.
Sexo n,i .ït
F t t'7
dí 0,74
M 13 0,26
total
n:50
1Note
que, para
variáveiscujos
valores possuem ordenação n0tufel (eluglitltivas ordinaise
quantitativas em geral), faz sentido incluirmos tambémurttrt coluna contendo asJreqüências acumuladas
Ír,,''
Afreqüência acumulada at& un1 cefto valor é obtida pela soma das freqüências de todos os valores da variúvel, tncnorcsou
iguaisao
vator considerado. Sua utilidade principalé
ajudor o estu$eleccr pontosde
corte com uma determinada freqüência nos valores da vurióvel. Poi exemplo, na Tabela t .3, observamos que 907o dos alunos tôm idadcsl0
Capítulo 1: Introdução à Análise Exploratória de DadosTabela 1.3: Tabela de freqüência para a varíável ldade,
Idade TLi .ft .f o"
L7 9 0,18 0,18 18 22 0,44 0,62 19 I 0,L4 0,76 20 4 0,08 0,84 2L .1 0,06 0,90 22 0 0 0,90 ôt ZJ 2 0,04 0,94 24 1 0,02 0,96 25 2 0,04 1,00 total
n:50
1Com
relaçãoà
variável Peso, lembremos quefoi
classificada comoquantitativa contínua
e
assim, teoricamente, seus valores podem ser qualquer número real num certo intervalo. Aqui os valores variam entre 44,0 e 95,0 kg e foram medidos com apenas uma casa decimal. Ainda assim, existe um grandenúmero de valores diferentes de modo que, se a tabela de freqüência fosse feita nos mesmos moldes dos casos anteriores, obteríamos praticamente os valores
originais da tabela de dados brutos.
A
alternativa que vamos adotar consiste emconstruir classes ou faixas de valores e contar o número de ocorrências em cada
laixa. Para a variável Peso, usamos faixas de amplitude 10, iniciando em 40 kg.
Na Tabela 1.4, escolhemos incluir o extremo inferior e excluir o superior. Dessa
I'orma, a freqüência da faixa
40,0
F
50,0 não incluiu os alunos 46 e 48 quetinham peso igual a 50,0 kg.
A
opção de qual extremo incluir pode ser arbitrátria,n"ìos
o
importanteé
indicar claramente quais são os valores que estão sendo conterdos em cada faixa.Apesar de não adotarmos nenhuma regra formal quanto ao total de faixas,
utilizarnos,
em
geral,de
5 a 8
faixas com
mesma amplitude. Entretanto, ressaltamosque faixas
de
tamanho desigual podemser
convenientes para representar valores nas extremidades da tabela.L2 Organização de Dados
Tabela 1.4: Tabela de freqüêncía para a varídvel Peso.
Peso fl,4 lt. fo" 40,01-- 50,0 B 0,16 0,16 50,0
F
60,0 22 0,44 0,60 60,0l--
70,0 8 0,16 0,76 70,0F
80,0 6 0,L2 0,BB 80,0t--
90,0 5 0,10 0,98 90,0F
100,0 1 0',02 1,00 total 50 1Vamos estudar, agora,
a
situaçãoem
quea
variávelé por
naturezacliscreta, mas
o
conjunto de possíveis valores é muito grande. Por exemplo, a vflriávelTV,
definida como o número de horas assistindo televisão, tem valoresinteiros entre
0 e
30
e
uma tabela representando seus valorese
respectivasÍieqüências seria muito extensa e pouco prática. O caminho adequado, nesse caso,
é
trotara
variável como se fosse contínua e criar faixas para representar seus vulores.Assim,
passamosa
tratar como contínuauma
variávelque
seria,originnlmente, classificada como discreta.
Tabela 1.5: Tabela de freqüência para a variável TV.
TV ni .ft fu"
0F-6
L4 0,28 0,286-
12t7
0,34 0,6212-
18 11 0,22 0,84 18t-
24 4 0,08 0,92 24l---136 4 0,08 1,00 total 50 1A
organização dos dados em tabelas de freqüência proporciona um meio cl'icitz cle estudo do comportamento de características de interesse. Muitas vezes, tt irríbrnração contida nas tabelas pode ser mais faci'lmente visualizada através dcgrírl'icos.
Meios de
comunicação apresentam, diariamente, gráficos das maisvlriiÌdils formas para auxiliar na apresentação das informações. Órgãos públicos e
('nìprcsos sc municiom de grírficos e tabelas em documentos internos e relatórios
--- qFFF
t) Cttpftulrt
l;
hilnxluçiltt à Antilise ll.rplorutórfu dt l)urlt*de atividades
e
desempenho. Graçasà
proliferação de recufsos gráficos, cujaCçnstrução tem sido cada vez mais simplificada em programas computacionais,
cxiste hoje uma infinidade de tipos de gráficos que podem ser utilizados' Como ilustraçãõ deste ponto, apresentamos na Figura 1.3 alguns gráficos publicados em
írrgãos de imprensa.
EVOLUÇÃO DO LUCRO tiQÜIDO
U$$ MII"HÓES
LLiPLTO 8,9 12,ç t5,9
VALO|ìES A-IUATIZADOS NOS IüOIDES DA COR|ìEÇAO INÏEGRAI
CIìÉDIO RU|ìAT
RECURSOS PROPRIOS
No D[ C0NTRATCìS E[/ SIR = 22'l 0Ì
RECURSOS HUMANOS
DrsTRrBUrÇÂO POR ruívrL HtrnRRSUtCO
TSCR Ï
CAIMS
23,891
Figura 1.3: Exemplos de grdficos publicados na im'prensa'
Deve ser notado, entretanto, que
a
utilização de recursos visuais nacriação de gráficos deve ser f'eita cuidadosamente; um gráfico desproporcional em
suas medidãs pode dar
falst
impressão de desempenho e conduzir a conclusõesRECURSOS HUN/ANOS
DISIRISUÇÂO POR ESCOLARiDADE
t
ls
e= I
t
'
===
==
,=
==
==
==
l. GÍor==
2Ô GÍou==
SuPeÍior1,2 Organtzação de Dados
TF
Figura 7.4: Diagrama circalar pard ü varilúvel Toler'
ográficodebarrasut\|\zaoplanocartesianocomosvaloresdavariável
no eixo das abiissas e as freqüênciai ou porcentagens no eixo das ordenadas'
Note
que
píIia
cadavalor ãa
variável
desenha-seuma barra
com
altuf8,nrr"rptnd"rrdo à sua freqüência ou porcentagem. Esse tipo de gráfico se adapta
rnelhoi às variáveis discretas ou qualitativas ordinais'
equivocodâír, Obviamente, questões
de
manipulação incorretada
informaçãop,id.*
ocorrer em qualqueíe,"7:
nã:
cabe culpara
Estatística'O
usoe
a divulgação ética e criteriôra de dados devem ser pré-requisitos indispensáveis einegociárveis.
vamos definir três tipos básicos de gráficos: disco ou pizza, barras
çt
li$t(,t4ruma.como
dissemos,a
criatividadena
apresentação gráfica pode sefinrerrsa e os gráficos que discutiremos sintetizam três caminhos, entre vários' de
representação.
o
'grâfico de d.isco, otr pizza, ou ainda diagramacircular,
se adapta muitohem às variáveis qualitativas nominais. consiste em repartir um disco em setores
circularescorrespondentesàsporcentagensdecadlvalor,calculadas
rnnltiplicando-se por 100 a freqüêncìa relativã f6.Por exemplo, O,20 de freqüência
relativa
"o.r"rpond" a207o
o-ã u"'
que 100
x 0'20:20'
AFigura 1'4 apresentao cliagrama de disco para avariável Tol-er, obljd^a.a .nartir da Tabela 1.1. Note que
'
fntiir correspondentè à categoria "indiferente" foit4 Capítulo
l:
Introdução à Aruilise Exploratória de Dados 25 20 .g c o e15 E L 10 5 018 le
20
,í1"Fígura 1.5: Gráftco de barras para a varíável ldade.
O histograma consiste em retângulos contíguos com base nas faixas de
valores da variável
e
com área igual à freqüência relativa da respectiva faixa.Dessa forma, a altura de cada retângulo é denominada densidade de freqüência oa simplesmente densidade definida pelo quociente da âreapela amplitude da faixa.
Para a variável peso, as densidades de cada faixa podem ser obtidas dividindo-se a coluna
fi
da Tabela 1.4por
10, que é a amplitude de cada faixa. O histogramacorrespondente a essa variável é apresentado na Figura 1.6. Note que incluímos,
no topo de cada retângulo, a porcentagem de observações correspondente, para
fìtci I itar a interpretação.
É importante ressaltar que alguns autores utilizam a freqüência absoluta
ou porcentagem na construção do histograma. Preferimos o uso da densidade de
Íì'eqüência, pois
ela
faz
çom queo
histograma nãofique
distorcido, quandoamplitudes diferentes são utilizadas nas faixas. Uma outra vantagem diz respeito à
relação entre histograma e gráfico da função densidade de probabilidade, que será
visto mais adiante.
O histograma também pode ser utilizado no cálculo da mediana (mdor,),
que
é
o
valor da variável que divideo
conjunto de dados ordenados em doissubgrupos de mesmo tamanho, Isto é, das observações ordenadas, 507o estão
abaixo e 507o estão acima da mediana. Assumindo que as observações da variável
t5
1.2 Organização de Dados
em cada faixa são homogeneamente distribuídas, para um mesmo retângulo, fatias
de mesmo tamanho contém uma mesma porcentagem de observações. Apesar do
suposição de homogeneidade não ser sempre verificada, ela é bastante razoávol em muitas situações e pode ser uma boa aproximação da realidade.
/-'t'
I
40x
{) 60 70 80 90 100' .?- Peso
Figura 1.6: Histograma para a variável Peso.
Exemplo 1.1.' Vamos calcular a mediana da variável Peso através do histogramÊ,
Inicialmente identificamos o retângulo que deve conter a mediana. Uma simplos soma das áreas resulta que a mediana pertence ao intervalo [50,0; 60,0), uma vsz eluc até o valor 60,0 temos acumuladas 607o das observações. Dentro dessa faixa,
precisamos determinar um retângulo com área igual a 34Vo, que é o que falta para
rrÍingir
o
valor 50Vo.A
situaçãoé
ilustrada na figuraa
seguir, cujo retânguloprocurado está marcado com área mais escura.
Com uso de proporções, estabelecemos a seguinte igualdade:
mdor,,
-
50_
60-
50
lo0,34
0,44f;,li4
.,t.
-
JJ-'
i,!t
r ) , rtlt rn,
1í-, ,lr,-,-'ì
YÍ ,I''\r
$ru'
t;
t6 Capítulo 1: Introdução à AnáIise Exploratória de Dados q)
E
0,05 p a (Do
o,o+ 0,03 o,o2 0,01 0,0Daí segue qtte mdo6,
: 57,73kg.
tr
O conceito de mediana, que será considerado ern detalhes no Capítulo 4'
pode ser generalizado para situações em que o conjunto de dados é dividido em mais do q:ue dois subgrupos' Um caso importante é aquele
-em que dividimos o
conjunto
em
quatroiubg*pot.
Para tanto, deveremos determinar' além da rn"ãiunu, dois valores tais quã 25Vo das observações ordenadas estarão abaixo deum
delese
75Vo estarão abaixodo
outro'
Tais
valores são denominados'respectivamente, primeiro
quartil
e
terceiro quartil, Usualmente representadospoi
8r
e Q3. Note que a mediana, discutida anteriormerrte, representa o segundoq""ríii.
O
cálculo ãos valores dos quartis também pode serfeito
através dohistograma, conforme mostrado no exemplo a seguir.
Exemplo 1.2; No Exemplo 1.1, o valor da mediana (segUndo quartil) calculado
atravéì do histogram u,
é
57,73 kg. De forma semelhante, vemos que o valor doprimeiro quartii
tambémse
encontrano
intervalo
[50,0;
60,0)' isto
é'correrpondãrâ
ao
valor
8r
que determinaráuma
âteade
9Vono
retângulocorrespondente. Assim, temos (ver figura a seguir)
Q^= =-!o
:
*=
'lo
+
Qt:52,,05kg'
0,09
0,44 mdot, "r'qr 1.2 Organização de DadosI7
6r,'6Ò
'' C,t\í:
.,,'60-'--'^ú
',r"r''",'4'
60 Pesol)c
I'orma semelhante, obtemos para o terceiro quartil Qs:
69,38kg.
tr
Parao
cálculo de quartis e medianas usandoa
tabela de dados brutos,prccisamos ordenar as observações e escolher os valores que dividem os dados
nits
proporções desejadas. Eventualmente, será necessário tomar médias devulores vizinhos. No caso de tabelas de freqüências, os dadosjá estão ordenadoË Ê ru procedimento é similar.
Uma representação grâfica envolvendo os quartis ê o box-plot Definimoa,
ul'nn "caixa" com o nível superior dado pelo terceiro quartil e o nível inferior pelo plirneiro quartil.
A
mediana é representada por um traço no interior da caixa o seglÌlcntos de reta são colocados da caixa até os valores máximo e mínimo, querrÍlo scjam observações discrepantes (o critério para decidir se uma observaçãío é tliscrcpante não será discutido aqui, mas, em geral, envolve a diferença entre o
tercciro e o primeiro quartis)- O próximo exemplo ilustra a construção do box-plot pnrt uma variável quantitativa discreta utilizando-se os dados brutos.
Ilwtttplo
1.3.' Suponha que um produtor de laranjas costuma guardar as frutns cmcuixus c estír interessado em estudar o número de laranjas por caixa. Após um dia rle colhcita, 20 caixas foram contadas. Os resultados brutos, após a ordennção, silo: 22, 29, 33, 35, 35, 37, 38, 43, 43, 44y 48, 48, 52, 53, 55, 57, 61, 62, 67 e 69,
lÌrrrr
osses dados,temos
qüe md,,6,ilfOo+
11s)l2 :
(44+48) 12
=
46, Annlogarnente, obtemosQr
:
36 e Qs:56.
Também observamos que o número
r(-511,,\
''i
50 Qt
18 Capítulo 1: Introdução à Análise Exploratória de Dados
mínimo de laranjas em uma caixa é' 22 e
correspondente é apresentado na Figura 1'7'
o
número máximo, 69.O
box-Plot60
3so
e E J 40 30 20Figara 1.7. Box'plot para o número de laranjas por caixa'
A
representaçáo grá,fica através do box-plot é bastante rica no sentido deinformar, entre outras coisas, a variabilidade e simetria dos dados' Note'que na Figura 1.7 os dados apresentam simetria acentuada (a distância da mediana para os"quartis é a mesma), o mesmo podendo ser observâdo a respeito da distância dos
ponìo, de mínimo e máximo em relação à mediana. Em contraste, temos na Figura
i.A
o box-ptot paraa variável Peso, que apresenta uma pecluena assimetria.o
3to
L 60 50 40 '100 90 80Figura 1.8: Box-plot para a varidvel Peso.
l,.l ()rganização de Dados
Gráficos tipo box-plol também são úteis para detectar, descritivamentc,
rliÍirl'crrças nos comportamentos de grupos de variáveis. Por exemplo, poclemos
tturrsitlornr gráficos da variável Peso para cada sexo. O resultado é apresentado nn
l'jigrrlir 1,9, em que podemos notar que os homens apresentam peso mediano atrllet'iur ito das mulheres, além de uma maior variabilidade'
60 50 40 I I I F Sexo
Irigura 1.9: Box'plot da variável Peso para cada sexo,
llxerr'Íclos
tll
Scção 1.2:l,
tlllssil'ique cacla uma das variáveis abaixo em qualitativa (nominal / ordinal) ott rltmnl il rt i vil (cliscreta / contínua):$. Ocorrêlrcia de hipertensão pré-natal em grávidas com mais de 35 anos (sütl
tttrttílrtsf,opossíveisrespostasparaestavariável). l'
", t;t/ìtitt(
i
,,r rh,
Inlelrçiio clo voto para presidente (possíveis respdstas são os nomes dosctttttlitlitrtts,alémde não sei).''',,,t11
)1'
t
t'r, "
(C. l,r't'rhì rlc pcso de maratonistas ná Corrida de São Silvestre, em quilos. 'tl,\ttì, 1'l
rl,
lrrlr.rrsirlnrlcclt
perda de peso de maratonistas na Corrida de São Silvcstre(lt'Ve, tttoclCrilCla,
fOrte).
-"
' 1t ( r/ ç/
l1 't.\
l;rtJ' 'ë, (lrrrrr rle satisÍ'açiro cla população brasileira com relaçãro ao trabalho cle seu presirlerrte (vnlores de
0
a 5, com0
indicando totalmente insatisÍ'eitoe
5 lrtlttltnettlcsatisl'eito).
i,,t tt! t(l'
r/lr'lI
, ,,1,',' ,l,
{Jrrirrzt pncientcs clc unra ólírrica de ortopcdia foram entrevistados quânto itonrÌnrr'r'rì rk: r'ttcscs prcvistos cle I'isiotcrapin, se haverá (S) ou niro (N) secltlelus
t9 100 90 80 o
En
Í! I M20 Capítulo
I:
Introdução à Análise Exploratória de Dadosapós
o
tratamento e o grau de complexidade da cirurgia realizada: alto (A), médio (M) ou baixo (B). Os dados são apresentados na tabela abaixo:a. Classifique cada uma das variáveis.
b. Para cadavariâvel, construa a tabela de freqüência e faça uma representação
grâlica.
c. Para o grupo de pacientes que não ficaram com seqüelas, faça um gráfico de
barras para a variável Fisioterapia. Você acha que essa variável se comporta
de modo diferente nesse grupo?
3.
Os
dados abaixo referem-seao
salário(em
salários mínimos)de
20funcionários administrativos em uma indústria.
a.
Construa uma tabela de freqüência agrupando os dados em intervalos deamplitude
2
apartir del.
Ìr. Construa o histograma e calculo o 1e e o 3e quartil.
4.
Um
grupode
estudantesdo
ensino médiofoi
submetido amatemática resultando em:
Nota freqüência
0F-2
L42+4
284-6
276FB
118F10
4 a. Construa o histograma.b.
Se
a
nota
mínima para aprovaçã,oé
5,
qual
seráa
porcentagem deaprovação?
c. Obtenha o box-plot.
Um estudo pretende verificar se o problema da,desnutrição em adultos medida pelo peso, em quilos, em uma região agrícola (denotada por Região A), é maior
um
teste de[a
,.r'
5. Pacientes 2 3 4 5 6 7 8 9 10ll
t2 l3 I4 I Fisioterapia 7 8 5 4 5 7 7 6 8 6 5 5 4 5 Seqüelas s S .N: ,N) N S s NN'
S S rN S N N) Cirurgia A M A M M B A M B M ts ts M M A 10,1 ntltú 8,5 5,0 412 3,1))
- )- 9,0 914 6,1 tt Jr9 10,7 1,5 8;2 10,0 4,7 315 6,5 8,9 6,1'.qt
2t1.3 O Uso de Computadares em Estatística
do
que em uma região industrial (RegiãoB).
Para tanto, uma amostrâtomada em cada região, fornecendo a tabela de freqüências a seguir: Região B Peso ni
<60
1060F70
34 TOFBO 109BOF90
111>90
55 total 319a. Os dados apresentados sugerem que o grau de desnutrição é diferente nas
duas regiões? (Note que o total de observações difere em cada região).
b. Construa,
apartir
dos dados das tabelas, um histograma para cada regiã0,Faça uma suposição conveniente para as faixas não delimitadas.
c.
Com
basenos
histogramas apresentadosem
(b),
obtenhaas
medidasnecessárias
e
construao
box-plot, um para cada região. Com base nessarepresentação gráfica, rediscuta o item (a).
1.3
O
Uso de
Computadores
em
Estatística
Foi
mencionado anteriormente queo
desenvolvimento da indústrirr decomputadores
deu
grande impulsoao uso
da
Estatística.Vários
progrumescomputacionais de uso comum contém rotinas estatísticas incorporadas às suas
funções básicas. É o caso das planilhas eletrônicas, usualmente pié-instaladas em
computadores novos. Programas especificamente desenvolvidos para efetuar
análises estatísticas são conhecidos como pacotes estatísticos. Existe um número
considerável desses pacotes, alguns voltados para análises mais comuns na dretl
de
humanidades, outros paraa
área de biomédicas; alguns são extremamentesimples de se utilizar através de menus, outros pressupõem conhecimento de uma
linguagem
de
programação específica. Qualquer que sejao
programaa
ser utilizado, três são as etapas que envolvem seu uso:1 Entrada de Dados
2. Execução da Análise Estatística
3. Interpretação de Resultados
A
Entrada de Dados deve assumir certas convenções. Apesar de certosprogramas terem rotinas desenvolvidas de forma a simplificar a criação do banco foi
22 Capítulo 1: Introdução à Análise Explqratória de Dados
de dados, intrinsecamente o que se temê a criação de uma matriz, em que cada
linha corresponde a uma unidade experimental e cada coluna a uma variável.
Por
unidade experimental, entende-seo
elementoda
população ouamostra
no
qual
observaremosas
variáveis.Por
exemplo,na
Tabela
1.1,observamos
50
unidades experimentais,os
estudantes,nos quais
foram observadas14
variâveis. Assim,os
dados podem ser representadospor
umamatriz com dimensão 50
por
14.
Leitores familiares com planilhas eletrônicasnão terão problema em visualizar esta situação. Assim, quando estudamos uma
única variâvel, consideramos a coluna correspondente. Se estamos interessados
em saber
o
comportamento desta variável em dois grupos diferentes (como naFigura 1.9), precisamos estudar os valores da coluna em que ela se encontra, conjuntamente com a coluna que contém a informação dos grupos'
A
fase da execução da análise estatística pressupõe o conhecimento decomo
o
programa que está sendo utilizado trabalha as informações. Torna-se, assim, importante se ter acesso ao manual do programa'Após as informações terem sido trabalhadas, vem a fase da interpretação dos resultados obtidos. Nesta hora, é aconselhável consultar o manual sempre que
houver dúvida, se o que
foi
calculado relaciona-se, de fato, à análise estatística desejada.Ao
interpretar as características observadas, é importante verificar se resultados absurdos não estão ocorrendo. Em caso positivo, releiao
manual e certifique-se de ter executado a análise correta para os dados em questão. Em muitos casos, a fase de interpretaçáo é a mais difícil e interessante, pois envolve oequacionamento
das
características apresentadasna
análisecom vistas
aresponder as questões inicialmente colocadas'
Exercícios da Seção 1.3:
l.
Utilizando alguma planilha eletrônica ou pacote estatístico disponível e com as informações da Tabela 1.1, construa um banco de dados para os 20 indivíduos iniciais e as 4 primeiras colunas. Imprima e confira os valores digitados.2. Considerando
o
banco de dados criado no Exercício 1 desta seção, construahistogramas para as quatro variáveis e, baseado no gráfico, descreva os seus
comportamentos.
3. Considerando
o
banco de dados criado no ExercícioI
desta seção, divida a idade em três categorias (menores de 18 anos, idade entre 18 e 21 inclusive, e maiores de2l
anos). Construa gráficos de barra para essa variável, incluindotoclos os indivíduos e um para cada sexo. Interprete os resultados obtidos.
1.4 Exercícios
1".4
Exercícios
1. Responda certo ou errado, justificando:
a. Suponha duas amostras colhidas de uma mesma população, sendo uma de
tamanho 100 e outra de tamanho 200. Então, a amostra de tamanho maior é
mais representativa da população. F
b. Duas variáveis diferentes podem apresentar histogramas idênticos'
I
c. Duas variáveis combox-plol iguais não podem ter valores diferentes' Fj
2.
Suponhaque
duas empresas desejam empregá-loe
após considerar âs uuntug"n. de cada uma, você vai escôher aqoelá que lhe pãgar melhor' Após certa pesquisa, você consegue a distribuição de salário das errÍpresas, dadassegundo os gráficos abaixo.
5101520253035404550
Sãlários Mínimos
Com base nas informações de cada gráfico, qual seria sua decisão?
3.
Uma pesquisa com usuários de transporte coletivo na cidade de São Pauloindagou sobre os diferentes tipos usados nas suas locomoções diárias. Dentre ônibus, metro e trem, o número de diferentes meios de transporte utilizados foi
oseguinte:2,3,2,
1,2,1,2,
1,2,3,I,1,1,2,2,3,1,1, 1,I,2, I,
1,2,2,
1,2, 1,2 e 3.a. Organize uma tabela de freqüência.
b. Faça uma representação grâfica.
c. Admitindo que essa amostra represente bem
o
comportamento do usuáriopaulistano, você acha que a porcentagem dos usuários que utilizam mais de
um tipo de transporte é grande?
4.
A
idade dos 20 ingressantes num certo ano no curso de pós-graduação emjornalismo de uma universidade
foi
o seguinte:22,22,22,22,23,23,24,24,
24, 24, 25, 25, 26, 26, 26, 26, 27, 28, 35 e 40.23
24 Capítulo
l:
Introdução à Análise Exploratória de Dadosa.
Apresente os dados em uma tabela de freqüência, incluindo a freqüência relativa.b.
Idades atípicas parecemter
ocorrido nesse ano.Após
sua retirada doconjunto de dados, refaça o item (a). Comente as diferenças encontradas.
Um novo medicamento para cicatrizaçáo está sendo testado e um experimento é
feito
para estudaro
tempo (em dias)de
completo fechamentoem
cortesprovenientes de cirurgia. Uma amostra em trinta cobaias forneceu os valores:
15,17,16, 15,
\7,
14,17, 16, 16,17,15, 18, 14,17, 15,14,15,16,17,
18, 18, 17, 15, 16, 14,18, 18, 16, 15 e 14.a. Organize uma tabela de freqüência.
b. Que porcentagem das observações estão abaixo de 16 dias?
c.
Classifique como rápida as cicatrizações iguais ou inferioresa
15 dias ecomo lenta
as
demais.Faça
um
diagramacircular
indicando
asporcentagens para cada classificação.
O Posto de Saúde de um certo bairro mantém um arquivo com o número de
crianças nas famílias que se utilizam do Posto. Os dados são os seguintes: 3, 4,
3, 4, 5, r, 6, 3, 4, 5, 3, 4, 3, 3, 4, 3, 5,5, 5, 5, 6,
ll,
r0, 2,l,
2, 3, r, 5 e 2.a. Organize uma tabela de freqüência.
b. Faça uma representação grâfica.
c. Você identifica valores nruito discrepantes? Que fazer com eles?
Um questionário
foi
aplicado aos dez funcionários do setor de contabilidade deuma empresa fornecendo os dados apresentados na tabela.
Funcionário Curso (completo) Idade Salário (R$) Anos de Empresa
supenor oÁ 1100,00 5 2 superior 43 1450,00 8 3 médio 31 960,00 6 4 médio dl 960,00 8 5 médio 24 600,00 6 médio 25 600,00 2 1 médio 27 600,00 5 8 médio 22 450,00 2 9 fundamental 2l 450,00 J 10 fundamental 26 450,00 J
a. Classifique cada uma das variáveis.
b. Faça uma representação gráfica para zì variírvel Curso.
c. Discuta a melhor forma de construir a tabela de I'reqiiência para a vitriiivcl
Idade. Construa uma representação griiÍ'ica,
6.
I -l li rrt t:ícios
rl, l{cpita o item (c) para a variável Salário.
r,.
(lonsiderando apenasos
funcionárioscom
maisde
três anos clc clsn,tlcscreva o comportamento da variável Salário.
I lrrr gnrpo de pedagogos estuda a influência da troca de escolas no descntpcttlto
tlt. llrrnos do ensino fundamental. Como parte do levantamento realizndo, lìri nrotiulo o rrúmero de escolas cursadas pelos alunos participantes do estttclo.
Escolas Cursadas freqüência
1 46
2 57
.) 2T
4 15
5 4
ru. (.)rlrl ó a porcentagem dos alunos que cursaram mais de uma escola? Ir- ('onstrua o grírfico de barras.
c.
('lirssil'i11r.rc os alunos em dois grupos segundoa
rotatividade:a/Íc
pnt'uitlulìos cclur rnais de 2 escolas e baixa para os demais. Obtenha a titbclit tlc lìr'r;iiôncin dcssa variável.
Alrrrros
tlir
Escola cle Educação Físicaforam
submetidosa
urn
lcslc
rkr rr.sistôrrciir rpranto ao número de quilômetros que conseguiram corrcr sertì lrrrrirr'. ( )s clirclos cstiro apresentados a seguir.rr. (-)rr;rl ó ir vtriiivcl em estudo? b. ('orrsllrrir o ltistograma. e. ( )lrlt'rrltir o lnx-pktl. Faixas freqüência
0t-4
4384FB
2068F12
125 12F
I6
22 I6F
20I
lltrrrPo
t[r
rrtilizirçiio rlc citixus clctrônicos clcpcrrclc dc cada usuÍrioc
rlits lrrrirçÕr's r'lctrrirtlirs. liorarn colctadas 2(l rncclidas dcssc tcmpo (crn rnirtutos):2.\ ll. rr. tl