• Nenhum resultado encontrado

3.3 – Modelos de probabilidade contínuos Função densidade de probabilidade

No documento IntProbabilidadeReanimat (páginas 83-97)

Como dissemos, no final da secção 3.1, há muitas situações da vida real que não podem ser modeladas por um espaço de suporte finito nem tão pouco infinito numerável: o tempo que um aluno leva de manhã a chegar à escola, a altura de um rapaz de uma determinada classe etária, o comprimento do pé de um adulto, etc. Os modelos matemáticos para estas situações saem fora do âmbito deste curso, mas no que se segue vamos tecer algumas considerações sobre modelos contínuos e apresentar um caso especial de um modelo largamente utilizado – o modelo Normal. Vamos então admitir que temos uma variável aleatória contínua, isto é, que pode assumir qualquer valor de um intervalo do seu domínio de variação.

3.3.1 – Histograma versus função densidade

Na continuação do paralelismo que fizemos para as variáveis discretas, entre distribuição de frequências e distribuição de probabilidades, é oportuno investigar se não haverá, no caso de uma variável aleatória contínua, o equivalente ao histograma na amostra, que pode ser considerada a representação por excelência de dados contínuos? Efectivamente assim é. Existe uma função, chamada de função densidade, que se pode considerar como o caso limite para que tenderia o histograma, se considerássemos muitas observações e por conseguinte muitas classes, com amplitude cada vez mais pequena, como se ilustra nos dois exemplos seguintes:

Qualé a utilidade da função densidade? Para responder a esta questão voltemos novamente ao histograma, que é a imagem estatística da função densidade. Dados dois reais quaisquer a e b, a área a ponteado dá um valor aproximado para a frequência relativa de os dados da amostra estarem entre esses dois pontos, se o histograma foi correctamente construído, isto é, com as áreas dos rectângulos iguais às frequências relativas das respectivas classes:

Nota - Recordamos que quando tempos uma amostra de dados contínuos, organizados na forma de uma tabela de frequências, a representação gráfica adequada para representar os dados é o histograma, que é um diagrama de áreas, constituído por rectângulos adjacentes, tendo cada um por base a classe e por área a respectiva frequência relativa. Nestas condições, a área total ocupada pelo histograma é igual a 1.

Da nota anterior, é natural esperar que a área total compreendida entre o gráfico da função densidade e o eixo dos xx, também seja igual a 1. E do mesmo modo, por analogia com o que se passa com o histograma, a área a ponteado na função densidade dá o valor da probabilidade da variável estar compreendida entre os valores a e b. A área a ponteado no histograma – frequência relativa dos dados da amostra no intervalo [a, b], é um valor aproximado da probabilidade da variável aleatória assumir valores nesse mesmo intervalo:

Na interpretação que acabámos de fazer, mais uma vez apelamos para o que foi dito sobre a definição frequencista de Probabilidade, em que esta é entendida como o limite para que estabiliza a frequência relativa.

Qualquer função cujo gráfico nunca passe abaixo do eixo dos xx, e tal que a área compreendida entre o gráfico da função e o eixo dos xx seja igual a uma unidade, pode ser função densidade de probabilidade de uma variável aleatória contínua, isto é, permite construir um modelo de probabilidade no conjunto dos números reais. Para calcular a probabilidade de qualquer intervalo basta calcular a área determinada por esse intervalo, entre o eixo dos xx e a curva.

É importante referir que, ao contrário dum modelo discreto que atribui probabilidades a resultados individuais, um modelo contínuo atribui probababilidades a intervalos de resultados – a qualquer resultado individual é atribuída a probabilidade 0.

Exemplo 3.3.1 – Consideremos uma roleta calibrada de 0 a 1

Põe-se a roleta a girar e o indicador pode parar em qualquer posição do círculo. Seja X a variável aleatória que representa o ponto da circunferência onde se dá essa paragem. A variável X pode assumir qualquer valor entre 0 e 1 – um número infinito de valores. Como atribuir probabilidades aos valores de X? A variável pode assumir um número infinito de valores, todos igualmente possíveis, e podemos dizer que a variável varia uniformemente entre 0 e 1, já que se a roleta estiver equilibrada, não temos razões para admitir que seja mais provável sair esta ou aquela zona da circunferência. Assim, um modelo razoável para X será dado através da seguinte função densidade de probabilidade:

f(x) = 0 quando x<0 f(x) = 1 quando 0≤x≤1 f(x) = 0 quando x>1

A probabilidade de o indicador apontar qualquer valor entre dois pontos a e b será dada pela área da parte sombreada

que é (b-a), ou seja, a probabilidade da variável assumir valores num determinado intervalo (a,b), contido no intervalo [0, 1], é igual à amplitude desse intervalo.

O modelo que apresentámos no exemplo anterior é o modelo Uniforme no intervalo [0, 1] ou distribuição Uniforme.

Modelo Uniforme

De um modo mais geral, podemos definir o modelo Uniforme no intervalo (a, b), com função densidade de probabilidade: f(x) = 1 b - a se a ² x ² b 0 se x < a ou x > b     

Nota: Os números que se obtêm utilizando a tecla RAND da máquina de calcular, apelidados de números aleatórios, mas que de devem chamar de pseudo-aleatórios, uma vez que têm por trás um mecanismo determinista (algoritmo) para os gerar, são números com distribuição Uniforme no intervalo (0, 1). Assim, sempre que carregamos na tecla RAND obtemos um número entre 0 e 1, que tem a mesma possibilidade de surgir que outro qualquer, também no intervalo (0, 1). O algoritmo, que permite obter estes números, simula a extração de um número ao acaso de um saco (virtual…) contendo todos os números entre 0 e 1. Este modelo tem uma grande importância em Estatística, pois em muitas situações permite obter números pseudo-aletaórios com outras distribuições. No Anexo 1 destas folhas, descrevemos um processo de obter números com uma determinada massa de probabilidade, utilizando o modelo Uniforme, ou mais precisamente a tecla RAND da máquina de calcular.

Exemplo 3.3.2 (Loura et al, 2002) - Como todos os alunos, o André estuda mais na véspera dos pontos do que nos restantes dias. No entanto, nunca estuda mais do 5 horas e com maior frequência estuda entre 2 e 3 horas. Com base nesse facto sugeriu o seguinte modelo para o tempo de estudo (em horas) na véspera dos pontos:

De notar que a informação apresentada é suficiente para identificar a função de densidade. Começando por determinar a altura do triângulo de modo a que a sua área seja unitária, ficamos com todos os elementos para determinar a equação das duas rectas que definem a função. Temos então que a altura do triângulo deve ser igual a 0.4 e a função densidade tem a seguinte expressão analítica f(x) = 4 25x para 0²x < 2.5 4 5 - 4 25x para 2.5²x < 5 0 para os outros valores de x

        

É agora só uma questão de cálculo de áreas a determinação de probabilidades associadas a esta situação. Assim, se representarmos por X a variável aleatória que representa o tempo de estudo:

a) A probabilidade de estudar mais de 4 horas, P(X>4), será dada pela área a tracejado:

P(X>4) = 1 21( 4 5  4 254) 2 25

P(2<X<3) = 1 - 2 8

25 = 9 25

A situação dos modelos contínuos exige instrumentos de análise matemática mais elaborados quando a função densidade não tem uma forma que dê origem ao cálculo de áreas de figuras conhecidas como, por exemplo, triângulos ou trapézios.

3.3.2 – Modelo Normal ou Gaussiano

O modelo Normal é um dos modelos mais importantes em Estatística, pois uma grande variedade de situações da vida real podem ser modeladas por aquele modelo. Por exemplo, quando estamos interessados em estudar o comprimento do eucalipto, o diâmetro do tronco do pinheiro bravo, a altura de um jovem adolescente, etc, o modelo Normal ajusta-se bem a este tipo de dados.

É um modelo que tem suporte em R e tem uma função densidade com uma forma característica que faz lembrar a forma de um sino. Quando falamos no modelo Normal estamos a referir-nos a uma família de distribuições caracterizadas por dois parâmetros, o valor médio  e o desvio padrão , e que representamos por N(,). A expressão analítica da função densidade, a partir da qual se podem deduzir algumas propriedades do modelo, é a seguinte:

f(x) = 1 2 e -(x-)2 22 para -< x <

Propriedades da curva normal:

i) É simétrica relativamente ao valor médio  da variável, assumindo aí o valor máximo; ii) Quanto maior for o desvio padrão  mais achatada é a curva;

iii) A área compreendida entre a curva e o eixo dos xx é igual a 1;

iv) A área compreendida entre a curva, o eixo dos xx e as rectas que passam pelos pontos

- e +, é aproximadamente igual a 0.68;

v) A área compreendida entre a curva, o eixo dos xx e as rectas que passam pelos pontos

-2 e +2, é aproximadamente igual a 0.95;

vi) A área compreendida entre a curva, o eixo dos xx e as rectas que passam pelos pontos

-3 e +3, é aproximadamente igual a 1.

Repare-se que as três últimas propriedades fazem lembrar a regra 68 – 96 – 100, geralmente utilizada em Estatística.

No caso do modelo Normal de valor médio 0 e desvio padrão 1, existem umas tabelas que nos permitem obter probabilidades de intervalos, a partir das quais se obtém, no caso de X ter valor médio e desvio padrão :

P(  ≤ X ≤  + )=.683 P(  - 2 ≤ X≤  + 2)=.954 P(  - 3≤ X ≤  + 3)=.997

Quando for necessário calcular probabilidades de intervalos diferentes dos considerados anteriormente, utilizamos as mesmas tabelas.

Exemplo 3.3.3 - Num certo exame, classificado de 0 a 100, o valor médio e o desvio padrão das classificações foi 50 e 10, respectivamente. Admitindo que a classificação de um aluno que realizou o dito exame pode ser bem modelada por uma N(50, 10), calcule a probabilidade desse aluno ter uma classificação:

a) Entre 40 e 60 pontos; b) Entre 30 e 70 pontos; c) Superior a 70. Resolução:

a) Representando por X a v.a. que representa a classificação obtida, P(40≤X≤60) = P(50-10≤X≤50+10) = 0.683

b) P(30≤X≤70) = P(50-2x10≤X≤50+2x10) = 0.954 c) P(X>70) = 1/2x[1- P(30≤X≤70)] = 0.026

Exemplo 3.3.4 – O Sr. Silva, industrial têxtil, decidiu começar a fabricar camisas de homem, destinadas a serem vendidas em Portugal. Para ter alguma informação sobre os moldes que deve considerar, nomeadamente no que diz respeito ao comprimento das mangas, resolveu pedir a uma empresa de Consultoria de Estatística que o ajudasse, dando-lhe algumas indicações sobre a população a que se destinam as camisas.

Vamos delinear o processo utilizado pela tal empresa, para ajudar o Sr. Silva.

1º passo – Recolha de uma amostra

A empresa de Consultoria encarregou o Departamento de Sondagens de recolher uma amostra de dimensão 250, tendo esta fornecido os seguintes dados, relativos ao comprimento do braço direito de 250 homens: 51.5 56.0 55.0 58.3 58.4 55.3 56.3 52.2 55.2 57.3 55.4 52.9 54.0 59.7 55.4 53.0 52.6 55.5 53.1 52.4 57.9 57.7 55.3 53.5 55.8 57.9 54.7 55.7 54.0 52.1 57.6 52.9 54.2 52.9 56.2 54.9 58.2 53.2 54.1 53.1 53.9 54.9 56.7 52.1 57.7 55.4 54.9 54.9 55.5 56.6 56.6 54.7 55.6 53.2 54.7 53.0 57.5 55.6 56.9 57.4 49.9 54.7 53.8 58.4 55.7 55.4 54.3 49.1 56.7 55.4 53.0 55.3 55.7 52.1 51.0 53.1 55.3 52.1 54.3 54.9 55.3 56.7 57.1 54.4 53.7 58.9 53.8 54.8 55.7 55.4 56.6 56.8 53.4 53.4 56.0 56.5 56.7 54.0 51.6 52.6 56.4 56.8 57.4 54.7 55.5 53.2 54.7 54.7 58.4 56.3 58.1 53.4 56.7 58.1 54.9 54.2 56.5 53.2 51.3 56.6 56.6 58.8 57.7 52.5 56.2 54.4 56.8 51.8 53.9 58.4 58.7 55.2 53.0 58.0 58.6 52.3 59.2 56.5 57.1 54.2 55.3 55.5 56.1 52.1 53.9 53.2 52.9 58.8 55.0 54.2 54.8 53.4 56.8 51.9 55.0 51.6 58.2 55.5 56.2 53.7 54.6 51.7 55.5 52.8 54.4 55.7 54.0 56.8 53.3 56.8 54.2 50.5 54.3 54.6 53.2 52.2 55.2 55.4 55.8 55.6

60.2 57.0 54.6 55.0 56.6 55.1 58.0 57.3 56.0 51.7 55.1 54.5 53.8 55.1 55.7 57.1 53.2 52.4 55.5 57.2 56.1 55.1 55.2 56.3 57.1 55.5 53.2 54.8 55.6 56.0 60.7 58.3 59.4 52.8 55.8 56.8 56.3 55.7 53.0 53.0 51.9 55.7 53.4 53.8 52.1 57.5 59.8 55.3 55.0 55.0 54.2 57.6 55.1 56.5 58.3 53.1 55.2 53.7 48.4 54.7 55.0 56.5 56.9 57.0 58.2 56.7 54.4 50.2 54.4 56.5

2º passo – Estudo descritivo

Procedeu-se ao estudo descritivo dos dados anteriores, calculando algumas características amostrais e procedendo à redução dos dados através de uma tabela de frequências e à construção do histograma correspondente. Apresentam-se a seguir os resultados obtidos:

Média Mediana Mínimo Máximo Desvio padrão

55.14 55.22 48.4 60.7 2.09

Para construir a tabela de frequências consideraram-se 8 classes e para obter a amplitude de classe dividiu-se a amplitude da amostra, ou seja (máximo – mínimo), por 8, escolhendo o valor 1.54 para essa amplitude de classe (seguindo a recomendação de que se deve escolher para amplitude de classe um valor aproximado, por excesso, do quociente amplitude da amostra/número de classes):

Classes Freq. relativa

[48.40, 49.94[ 0.012 [49.94, 51.48[ 0.020 [51.48, 53.02[ 0.132 [53.02, 54.56[ 0.196 [54.56, 56.10[ 0.320 [56.10, 57,64[ 0.200 [57.64, 59.18[ 0.096 [59.18, 60.72[ 0.024

5 9 ,1 8 - 6 0 ,7 2 5 7 ,6 4 - 5 9 ,1 8 5 6 ,1 0 - 5 7 ,6 4 5 4 ,5 6 - 5 6 ,1 0 5 3 ,0 2 - 5 4 ,5 6 5 1 ,4 8 - 5 3 ,0 2 4 9 ,9 4 - 5 1 ,4 8 4 8 ,4 0 - 4 9 ,9 4

.

32 .24 .16 .08 0 Std. Dev = 2,09 Mean = 55,14 N = 250

A representação gráfica obtida sugere-nos o modelo Normal para a distribuição da variável aleatória que representa o comprimento do braço de um adulto, escolhido ao acaso, de entre os portugueses.

Uma questão que se levanta neste momento é a seguinte: terá sentido estar a ajustar aos nossos dados um modelo com suporte R, isto é, que pode assumir qualquer valor real, quando nós sabemos que isso não se passa com o comprimento do braço? Mas se estamos renitentes em ajustar um modelo com suporte em R, talvez pensassemos que seria mais razoável um cujo suporte fosse R+, pois se temos a garantia que o comprimento não pode ser negativo, não sabemos qual o valor máximo que devemos escolher. Ou poderíamos inventar um valor ao acaso como limite superior, por exemplo 150 cm, mas com que legitimidade é que escolhemos

este e não outro valor? Também não devemos considerar o valor 60.7 como valor máximo, embora tenha sido o maior valor da amostra que se recolheu. Ninguém nos garante que na população não haja homens com o comprimento do braço superior a 60.7! Nesta altura, de reflexão sobre qual o modelo a adoptar, recordemos o que se disse sobre a escolha de um modelo para traduzir um fenómeno aleatório – todos os modelos são maus, alguns são úteis. No entanto, além do histograma nos sugerir o modelo Normal, devido à semelhança com a função densidade da Normal, também dispomos de alguma informação científica sobre este modelo; e são esses estudos que nos dizem que ele se aplica em situações de fenómenos que possam ser considerados provenientes de uma contribuição aditiva de várias variáveis, como é, por exemplo, o caso da variável em estudo. Então, em posse da informação sobre a proveniência dos dados e dos resultados do estudo descritivo dos mesmos, estamos em condições de propor o modelo Normal.

3º passo – Proposta de um modelo para o fenómeno aleatório em estudo

O modelo que se propõe para o comprimento do braço é o modelo Normal de valor médio 55 cm e desvio padrão 2 cm., cuja função densidade se sobrepôs ao histograma. A Estatística tem ferramentas próprias que, com uma confiança grande, por exemplo 95%, permitem tomar a decisão de não rejeitar o modelo proposto.

4º passo – Transmissão dos resultados ao industrial têxtil

Agora, nesta fase, justificava-se uma conversa com o Sr. Silva, para a apresentação dos resultados. Pode-se, no entanto, ir adiantando alguma informação, em termos de percentagens dos futuros compradores das camisas. Assim, temos os seguintes números:

Aproximadamente 68% dos homens têm o comprimento dos braços no intervalo [53, 57]

Aproximadamente 95% dos homens têm o comprimento dos braços no intervalo [51, 59]

Aproximadamente 100% dos homens têm o comprimento dos braços no intervalo [49, 61]

Se consultarmos as tais tabelas disponíveis para o modelo N(0, 1), podemos ser um pouco mais precisos, informando o Sr. Silva sobre os valores do 1º e 3º quartis, que são respectivamente 53.6 cm e 56.4 cm. Assim o industrial sabe que só 25% dos homens é que têm o comprimento dos braços inferior a 53.6 cm e que 50% dos homens têm o comprimento dos braços no intervalo [53.6, 56.4].

Anexo 1

Processo para simular números pseudo-aleatórios com uma determinada função massa de probabilidades

Suponhamos que se pretende simular uma experiência aleatória, em que em cada realização da experiência se pode obter um de k resultados possíveis, x1, x2, …, xk, com probabilidades p1, p2, …, pk, em que p1+p2+…+pk = 1.

1º passo:

Dividir o intervalo (0,1) em k intervalos [0, p1[, [p1, p1+p2[, [p1+p2, p1+p2+p3[ , …, [p1+p2+…+pk-1, 1[ 2º passo

Utilizando a máquina de calcular e a função RAND, gerar tantos números aleatórios quantos os que se pretendem obter com a distribuição de probabilidades dada. Sejam r1, r2, … , rn os números obtidos.

3º passo

Para cada número ri obtido no passo anterior faz-se o seguinte teste: Se ri [o, p1[ o resultado da experiência é o x1 Se ri [p1, p1+p2[ o resultado da experiência é o x2 Se ri [p1+p2, p1+p2+p3[ o resultado da experiência é o x3 …

Bibliografia

ALPUIM, T. (1997) – Introdução às Probabilidades. Associação dos Estudantes da Faculdade de Ciências de Lisboa

FELLER, W. (1968) – An Introduction to Probability Theory and its Applications, John Wiley & Sons.

FREEDMAN, D. PISANI, R. PURVES, R., ADHIKARI, A. (1991) - Statistics. W. W. Norton & Company.

GRAÇA MARTINS, M. E. (2000) – Introdução às Probabilidades e à Estatística. Sociedade Portuguesa de Estatística.

GRAÇA MARTINS, M. E. , MONTEIRO, C., VIANA, J. P., TURKMAN, M. A. (1999) – Probabilidade e Combinatória. Ministério da Educação. Departamento do Ensino Secundário. GRAÇA MARTINS, M. E. , CERVEIRA, A. (1999) – Introdução às Probabilidades e à Estatística. Universidade Aberta.

IMAN, R. e CONOVER, W. (1983) - A Modern Approach to Statistics. John Wiley & Sons.

LOURA, L., GRAÇA MARTINS, M. E. (2002) – Matemática para as Ciências Sociais. Ministério da Educação. Departamento do Ensino Secundário.

MANN, P. (1995) – Introductory Statistics. John Wiley & Sons.

MENDENHALL. W. BEAVER, R. (1994) – Introduction to Probability and Statistics. Duxbury Press.

MOORE, D. – Statistics – Concepts and Controversies. Freeman, 1997 MOORE, D. – The Basic Practice of Statistics, Freeman, 1995

MOORE, D., McCABE, G. – Introduction to The Basic Practice of Statistics, Freeman, 1993 PARZEN, E. (1969) – Modern Probability Theory and Its Applications. New York.Wiley.

Alguma bibliografia editada posteriormente:

GRAÇA MARTINS, M. E. (2005) – Introdução à Probabilidade e à Estatística.- Com complementos de Excel. Edição da SPE, ISBN-972-8890-03-6. Depósito Legal 228501/05

GRAÇA MARTINS, M. E., LOURA, L., MENDES, F. (2007) – Análise de dados, Texto de apoio para os professores do 1º ciclo, Ministério da Educação, DGIDC. ISBN-978-972-742-261-6. Depósito legal 262674/07

GRAÇA MARTINS, M. E., PONTE, J. P. (2010) – Organização e tratamento de dados, http://area.dgidc.min-edu.pt/materiais_NPMEB/matematicaOTD_Final.pdf

No documento IntProbabilidadeReanimat (páginas 83-97)

Documentos relacionados