CURSO DE ESTAT
ÕSTICA
APLICADA
Prof. Henrique Dantas Neder
Departamento de Economia ñ Universidade Federal de Uberl‚ndia.
2
SUM¡RIO
1. IntroduÁ„o...4
2. EstatÌstica Descritiva...8
2.1 Tipos de Variáveis ...8
2.2 Tabelas e DistribuiÁıes de Freq¸Íncia...10
2.3 Histogramas...13
2.4 TabulaÁ„o de Freq¸Íncia e Histograma para Variáveis ContÌnuas...14
2.5 Medidas de PosiÁ„o e de Dispersão ...17
2.5.1 Uma Nota sobre NotaÁ„o EstatÌstica...18
2.5.2 A MÈdia AritmÈtica N„o Ponderada...19
2.5.3 A MÈdia AritmÈtica Ponderada...20
2.5.4 ProporÁıes como MÈdias...21
2.5.5 A MÈdia GeomÈtrica...22
2.5.6 A MÈdia HarmÙnica...26
2.5.7 A Mediana...27
2.5.8 A MÈdia para Dados Agrupados...28
2.5.9 A Mediana para dados Agrupados...30
2.5.10 A Moda para dados Agrupados...32
2.5.11 O Intervalo (ou amplitude)...39
2.5.12 Percentis, Decis e Quartis...41
2.5.13 Vari‚ncia e Desvio Padr„o...42
2.5.14 Vari‚ncia e Desvio Padr„o para Dados Agrupados...44
2.5.15 Interpretando e Aplicando o Desvio Padr„o...46
2.5.16 Coeficiente de VariaÁ„o...47
2.6 Medidas de Assimetria...49
2.7 Curtose: uma medida de achatamento...50
3. Probabilidade...53
3.1 DefiniÁ„o Clássica de Probabilidade ...54
3.2 Conceito da Freq¸Íncia Relativa ...56
3.3 Probabilidade Subjetiva ...57
3.4 Algumas Regras Básicas de Probabilidade ...57
3.5 A Regra do Complemento ...58
3.6 A Regra Geral da AdiÁ„o ...60
3.7 Regras de MultiplicaÁ„o...62
3.8 Probabilidade Condicional ...64
3.9 Diagramas em ¡rvore ...66
3.10 Teorema de Bayes ...67
Anexo 1 – Recordando DefiniÁıes e Conceitos ...68
Anexo 2 - IndependÍncia e Modelos de ¡rvore para Calcular Probabilidades ...72
Anexo 3 - Probabilidade Condicional...77
Resumo do Cálculo de Probabilidades...81
4. Variáveis AleatÛrias Discretas ...101
4.1 O Valor Esperado (mÈdia) de uma DistribuiÁ„o de Probabilidade Discreta ...105
4.2 A Vari‚ncia e o Desvio Padrão de uma DistribuiÁ„o de Probabilidade Discreta...106
4.3 A DistribuiÁ„o de Probabilidade Binomial ...109
4.4 A MÈdia e Vari‚ncia De Uma DistribuiÁ„o Binomial ...112
ApÍndice 1 (RecordaÁ„o) ...113
Apendice 2 (RecordaÁ„o) ...114
ApÍndice 3 (RecordaÁ„o) ...116
ApÍndice 4 (recordaÁ„o)...119
Valor Esperado e Vari‚ncia de uma Variável AleatÛria ...119
Variáveis AleatÛrias Independentes ...126
5. Variáveis AleatÛrias ContÌnuas e DistribuiÁ„o Normal...129
5.1 Variáveis AleatÛrias ContÌnuas ...129
5.2 MÈdia e Vari‚ncia de uma Variável AleatÛria ContÌnua...130
5.3 Variável AleatÛria Normal ...131
5.4 DistribuiÁ„o Normal Padrão ...133
5.5 ¡reas Abaixo da Curva Normal ...135
6. MÈtodos de Amostragem e DistribuiÁıes Amostrais ...142
6.1 Amostragem ProbabilÌstica ...143 6.2 Teorema do Limite Central ...147474..129 5.
4
1. IntroduÁ„o
A Signific‚ncia e a AbrangÍncia da EstatÌstica Porque a estatÌstica È importante?
Os mÈtodos estatÌsticos são usados hoje em quase todos os campos de investigaÁ„o cientÌfica, já que eles capacitam-nos a responder a um vasto n˙mero de questões, tais como as listadas abaixo:
1) Como os cientistas avaliam a validade de novas teorias?
2) Como os pesquisadores mÈdicos testam a eficiÍncia de novas drogas ?
3) Como os demÛgrafos prevÍem o tamanho da populaÁ„o do mundo em
qualquer tempo futuro?
4) Como pode um economista verificar se a mudanÁa atual no Õndice de PreÁos
ao Consumidor È a continuaÁ„o de uma tendÍncia secular, ou simplesmente um desvio aleatÛrio?
5) Como È possÌvel para alguÈm predizer o resultado de uma eleiÁ„o
entrevistando apenas algumas centenas de eleitores ?
Estes são poucos exemplos nos quais a aplicaÁ„o da estatÌstica È necessária. Podemos presumir que a matemática È uma das rainhas das ciÍncias porque ela fornece a estrutura teÛrica para quase todas as outras ciÍncias. Se vocÍ já fez um curso básico de fÌsica, já está familiarizado com algumas das leis matemáticas que governam temas tão diversificados como gravidade, energia, luz, eletricidade, etc. Mas tambÈm devemos considerar o fato de que as teorias matemáticas estão sendo desenvolvidas todos os dias em muitas áreas por estatÌsticos teÛricos - pessoas treinadas em teoria estatÌstica e probabilidade. Para citar alguns poucos casos ilustrativos elas são desenvolvidas para teoria dos vÙos espaciais em fÌsica; para teorias do conhecimento do comportamento animal e humano em psicologia; para teorias da migraÁ„o e dos diferenciais de raÁa em sociologia; para teorias de epidemias em sa˙de p˙blica;...
De fato, a estatÌstica tornou-se uma ferramenta cotidiana para todos os tipos de profissionais que entram em contato com dados quantitativos ou tiram conclusões a partir destes.
O que È EstatÌstica ?
A noÁ„o de ìEstatÌstica” foi originalmente derivada da mesma raiz da palavra ìEstado”, já que foi a funÁ„o tradicional de governos centrais no sentido de armazenar registros da populaÁ„o, nascimentos e mortes, produÁ„o das lavouras, taxas e muitas outras espÈcies de informaÁ„o e atividades. A contagem e mensuraÁ„o dessas quantidades gera todos os tipos de dados numÈricos que são ˙teis para o desenvolvimento de muitos tipos de funÁıes governamentais e formulaÁ„o de polÌticas p˙blicas.
Dados numÈricos são de fato uma parte da EstatÌstica, mas são apenas a matÈria-prima, que precisa ser transformada pelos ìmÈtodos estatÌsticos” para posterior análise. A EstatÌstica, como um mÈtodo cientÌfico, refere-se ao projeto de experimentos e a descriÁ„o e interpretaÁ„o de observaÁıes que são feitas. De um ponto de vista moderno, a EstatÌstica È freq¸entemente definida como um mÈtodo de tomada de decisão em face da aleatoriedade dos fenÙmenos. Em uma mais vasta perspectiva, o escopo da estatÌstica pode ser pensado em termos de trÍs áreas diferentes de estudos: (1) a EstatÌstica Descritiva (2) A EstatÌstica Indutiva e (3) A Teoria da Decisão EstatÌstica.
EstatÌstica Descritiva
A estatÌstica Descritiva refere-se ao corpo de mÈtodos desenvolvidos para coletar, organizar, apresentar e descrever dados numÈricos. Essa área da EstatÌstica refere-se ‡s seguintes tarefas:
1) Encontrar um mÈtodo apropriado de coletar dados numÈricos eficientemente
e acuradamente para um dado problema.
2) Determinar um formato eficiente , tal como uma apresentaÁ„o tabular, para a
6
que a informaÁ„o fornecida pelos dados possa ser observada com grande facilidade e precisão.
3) Apresentar dados numÈricos, seja organizados ou não, de forma que as
caracterÌsticas e o comportamento dos dados são clara e facilmente revelados. Tais apresentaÁıes São feitas por meio de mÈtodos gráficos.
4) Sumarizar ou descrever cada caracterÌstica ou propriedade dos dados por um
simples n˙mero, tal como uma mÈdia, uma porcentagem ou alguma outra medida apropriada, a qual È calculada a partir dos dados por meio de uma fÛrmula derivada a partir de algum princÌpio válido.
EstatÌstica Indutiva
A EstatÌstica Indutiva, que È tambÈm freq¸entemente chamada de inferÍncia estatÌstica ou estatÌstica inferencial, em contraste com a estatÌstica descritiva, È essencialmente analÌtica em sua natureza. Consiste de um conjunto de princÌpios ou teoremas que nos permitem generalizar acerca de alguma caracterÌstica de uma ìpopulaÁ„o” a partir das caracterÌsticas observadas de uma ìamostra”. Nessa definiÁ„o, uma populaÁ„o È o conjunto de todos os itens, objetos, coisas ou pessoas a respeito das quais a informaÁ„o È desejada para a soluÁ„o de um problema. Uma amostra È um grupo de itens selecionados por um mÈtodo cuidadosamente concebido e projetado a partir de uma populaÁ„o. Existem diferentes tipos de amostras, dependendo dos diferentes mÈtodos de seleÁ„o disponÌveis. Uma amostra aleatÛria simples, falando em termos simplificados, È aquela que È selecionada de tal forma que cada e todos os itens na populaÁ„o tem a mesma chance de serem incluÌdos na amostra.
Se uma medida descritiva È calculada a partir dos dados da populaÁ„o ela È chamada de par‚metro populacional, ou simplesmente par‚metro; se È calculada a partir dos dados da amostra ela È chamada de estatÌstica amostral, ou simplesmente estatÌstica. Considerando esses conceitos podemos definir estatÌstica indutiva como o processo de generalizar acerca de do valor de um par‚metro a partir do valor de uma estatÌstica. Existem dois procedimentos de inferÍncia distintos mas relacionados: estimaÁ„o e teste de hipÛteses.
EstimaÁ„o Èprocesso de usar o valor de uma estatÌstica amostral para estimar o valor de um par‚metro que È desconhecido, mas È uma constante. Como um exemplo suponhamos que temos uma populaÁ„o de 100.000 bolas de gude em um saco, todas as quais são idÍnticas exceto pela cor, e que não podemos vÍ-las embora saibamos que uma parte devÍ-las são brancas e o restante são pretas. Suponha que desejamos ter uma idÈia da proporÁ„o de, digamos, bolas brancas nessa populaÁ„o. Suponha que para conseguir isso selecionamos 1.000 bolas aleatoriamente do saco e verificamos que 350 são brancas. Isso significa que nossa proporÁ„o amostral de bolas brancas È 35 %. A partir disso concluÌmos que a proporÁ„o populacional de bolas brancas È tambÈm 35 %. Fazendo isso nÛs realizamos o que È chamado de estatÌstica pontual.
Mas afirmar que a proporÁ„o de bolas brancas em toda a populaÁ„o È exatamente igual a proporÁ„o daquela amostra particular È como dar um tiro no escuro: o valor da proporÁ„o amostral È um resultado aleatÛrio e depende de cada amostra de 1.000 bolas escolhida da populaÁ„o. Pode ser que por uma enorme casualidade o resultado daquela amostra que escolhemos coincida exatamente com o valor da proporÁ„o de bolas brancas em toda a populaÁ„o. Mas as chances de que isso não ocorra são muito grandes. Uma forma de contornarmos esse problema È afirmarmos que as chances são de 95 em 100 (ou de 95 %) de que o intervalo formado pela proporÁ„o amostral acrescida e diminuÌda de 3 pontos percentuais contenha o verdadeiro valor da proporÁ„o populacional desconhecido. Ou seja, construÌmos um intervalo com limites 35 + 0,03 x 35 = 36,05 e 35 - 0,03 x 35 = 33,95 e afirmamos (com base em algum princÌpio obtido a partir da teoria estatÌstica) que as chances são de 95 em 100 de que o verdadeiro valor da proporÁ„o populacional esteja localizado dentro desse intervalo. Quando uma afirmativa dessa natureza È feita estamos realizando o que se chama de estimativa por intervalo.
Quanto ao segundo procedimento da estatÌstica inferencial deixaremos para comentá-lo quando for abordado em sua Ìntegra. E o terceiro campo de estudos da EstatÌstica, a Teoria da Decisão EstatÌstica não será discutido nessa apresentaÁ„o.
8
2. EstatÌstica Descritiva
2.1 Tipos de Vari·veis
Existem diversos tipos de variáveis que serão utilizadas em um estudo estatÌstico. É importante compreender o conceito matemático de variável. Variável È uma abstraÁ„o que se refere a um determinado aspecto do fenÙmeno que está sendo estudado. Podemos afirmar que a quantidade colhida da safra anual de soja È uma variável. Representemos essa variável pela letra X. Essa variável pode assumir diversos valores especÌficos, dependendo do anos de safra, por exemplo, X1986, X1990e X1992. Esses valores que a variável assume em
determinados anos não são a prÛpria variável , mas valores assumidos ela para determinados objetos ou pessoas da amostra ou da populaÁ„o. Se uma amostra tiver 50 indivÌduos podemos referimo-nos a X como sendo a variável nota de estatÌstica e a X30 como a nota de um indivÌduo particular, no caso o trigÈsimo.
É freq¸ente tambÈm na literatura utilizar-se letras mai˙sculas para a notaÁ„o de variáveis e as correspondentes letras min˙sculas para referÍncia aos valores particulares assumidos por essa variável mas nesse resumo procuraremos evitar essa forma de notaÁ„o.
Vari·veis quantitativas - referem-se a quantidades e podem ser medidas em uma escala numÈrica. Exemplos: idade de pessoas, preÁo de produtos, peso de recÈm nascidos.
As variáveis quantitativas subdividem-se em dois grupos: variáveis quantitativas discretas e variáveis quantitativas contÌnuas. Variáveis discretas são aquelas que assumem apenas determinados valores tais como 0,1,2,3,4,5,6 dando saltos de descontinuidade entre seus valores. Normalmente referem-se a contagens. Por exemplo: n˙mero de vendas diárias em uma empresa, n˙mero
de pessoas por famÌlia, quantidade de doentes por hospital.1 As variáveis quantitativas contÌnuas são aquelas cujos valores assumem uma faixa contÌnua e não apresentam saltos de descontinuidade. Exemplos dessas variáveis são o peso de pessoas, a renda familiar, o consumo mensal de energia elÈtrica, o preÁo de um produto agrÌcola.2 As variáveis quantitativas contÌnuas referem-se ao conjunto dos n˙meros reais ou a um de seus subconjuntos contÌnuos.
Vari·veis Qualitativas - referem-se a dados não numÈricos.3Exemplos dessas variáveis são o sexo das pessoas, a cor, o grau de instruÁ„o.
As variáveis qualitativas subdividem-se tambÈm em dois grupos: as variáveis qualitativas ordinais e as variáveis qualitativas nominais. As variáveis qualitativas ordinais são aquelas que definem um ordenamento ou uma hierarquia.
1
Uma variável quantitativa discreta não precisa assumir necessariamente apenas valores de contagem, ou seja n˙meros inteiros ou n˙meros naturais em seq¸Íncia. Um exemplo de variável quantitativa discreta seria, por exemplo, uma que assumisse apenas os seguintes valores : { 1; 3,5 ; 5,75 ; 10 }. Apesar dessa variável abranger valores não inteiros ela apresenta saltos de descontinuidade: nesse exemplo ela não pode assumir nenhum valor intermediário entre 1 e 3,5 ou entre 5,75 e 10.
2
Seria impossÌvel obter na prática uma variável perfeitamente contÌnua já que os instrumentos de medida não tem precisão infinita. Por exemplo., o peso de pessoas È medido com uma balanÁa com precisão, digamos, de dÈcimos de gramas. Então jamais conseguiremos obter um valor para essa variável que se localize entre 50.000,1 e 50.000,2 gramas, por exemplo, 50.000,15 gramas. Ocorre portanto um salto de descontinuidade entre os dois valores possÌveis de serem medidos e a variável, do ponto de vista teÛrico, não pode ser considerada como variável quantitativa contÌnua, mas variável quantitativa discreta. Mas do ponto de vista prático, acabamos freq¸entemente por considerá-la e tratá-la como sendo uma variável quantitativa contÌnua, apesar dessa falta de precisão absoluta. O mesmo podemos dizer para o caso da renda ou qualquer outra variável econÙmica medida em unidades monetária: não existe uma renda de por exemplo R$ 200,345 já que o centavo È a menor divisão do sistema monetário. Mas de qualquer forma, costuma-se tratar a renda como variável quantitativa contÌnua e não discreta.
3 É muito comum considerar-se que a estatÌstica apenas abrange os estudos
10
Exemplos são o grau de instruÁ„o, a classificaÁ„o de um estudante no curso de estatÌstica, as posiÁıes das 100 empresas mais lucrativas, etc. As variáveis qualitativas nominais por sua vez não definem qualquer ordenamento ou hierarquia. São exemplos destas a cor , o sexo, o local de nascimento, etc.4
Dependendo da situaÁ„o uma variável qualitativa pode ser representada (codificada) atravÈs de emprego de n˙meros (por exemplo: em sexo representamos homens como sendo ì0” e mulheres como sendo ì1”). Mas no tratamento estatÌstico dessa variável codificada não podemos considerá-la como sendo quantitativa. Ela continua sendo uma variável qualitativa (pois o È em sua essÍncia e natureza) apesar de sua codificaÁ„o numÈrica que tem como finalidade uma maior finalidade de tabulaÁ„o de resultados.
Não podemos dizer que para qualquer uma destas categorias qualquer mÈtodo estatÌstico pode ser adequadamente aplicado. As variáveis quantitativas contÌnuas são aquelas que permitem a utilizaÁ„o de um conjunto maior e superior de mÈtodos estatÌsticos e são, sem d˙vida, as variáveis mais passÌveis de um rico tratamento estatÌstico. Em seguida vÍm, nessa ordem, as variáveis quantitativas discretas, as variáveis qualitativas ordinais e por ˙ltimo, as variáveis qualitativas nominais Essas ˙ltimas são as que permitem a utilizaÁ„o de um menor e menos poderoso arsenal de instrumentos estatÌsticos de análise.
2.2 Tabelas e DistribuiÁıes de Freq¸Íncia
A análise estatÌstica se inicia quando um conjunto conjunto de dados torna-se disponÌvel de acordo com a definiÁ„o do problema da pesquisa. Um conjunto de dados, seja de uma populaÁ„o ou de uma amostra contem muitas vezes um n˙mero muito grande de valores. AlÈm disso, esses valores, na sua forma bruta, encontram-se muito desorganizados. Eles variam de um valor para outro sem qualquer ordem ou padrão. Os dados precisam então ser organizados
campo de aplicaÁıes estatÌsticas em que são empregadas as variáveis qualitativas, tanto isoladamente como em conjunto com variáveis quantitativas.
4
Não podemos dizer que a cor X È superior a cor Y mas podemos afirmar que o terceiro ano do segundo grau È superior hierarquicamente ao primeiro ano do primeiro grau.