O software estatístico R. 1 Cálculo combinatório. 1.1 Amostras aleatórias

(1)

O software estatístico R

A utilização de computadores no tratamento da informação é o principal res-ponsável pelo grande desenvolvimento da Estatística e das Probabilidades. Com as actuais ferramentas informáticas, algumas delas dedicadas quase ex-clusivamente a esta área da Matemática, foi possível tratar grandes quan-tidades de dados e aplicar a estes ferramentas estatísticas cada vez mais avançadas.

O software estatístico R é um exemplo deste tipo de softwares e foi desen-volvido a pensar na modelação e na estatística. A linguagem de programação do R é muito versátil e tem uma sintaxe muito acessível porque foi desen-volvida pensando no tratamento dos dados. Para além das ferramentas de cálculo, o R possui grandes capacidades gráficas.

Para instalar uma versão do software R num computador, basta fazer o download do ficheiro executável, que pode ser encontrado em https://www.r-project.org, escolher um dos Comprehensive R Archive Network mirrors e, em seguida, escolher uma versão que se adeque ao sistema operativo instalado nesse computador.

A instalação de pacotes adicionais pode ser feita usando o menu Packages & Data ou somente Packages que se encontra no topo da “janela” do R e em seguida escolhendo a opção Package Installer ou Install package(s), dependendo do sistema operativo instalado no computador.

Sempre que se pretender inserir um comentário numa linha de código, devemos usar o símbolo cardinal, #, e escrever o texto pretendido após o mesmo. O software R não irá ler o texto que for inserido após o cardinal.

Neste resumo iremos apresentar algumas funções e comandos usados na maioria dos tópicos leccionados nas unidades curriculares de Probabilidades e Estatística.

1 Cálculo combinatório

1.1 Amostras aleatórias

A generalidade dos primeiros trabalhos associados à Teoria das Probabilida-des estavam relacionados com problemas associados a jogos, quase sempre associados a casos onde a simetria desempenhava um papel primordial. Es-tes problemas tinham como base espaços amostrais associados a experiências aleatórias relacionadas com extracção de cartas de um baralho ou a extracção de bolas ou fichas de uma urna. O software estatístico R permite simular estas situações usando a função sample.

O software estatístico R 1/165

Exemplo 1.1. Obtenha uma amostra aleatória composta por 10 números inteiros entre 1 e 100.

Este problema pode ser facilmente resolvido usando o comando sample_{p1 : 100, 10q ,}

obtendo-se, por exemplo, o output:

r1s 19 26 18 74 92 21 53 80 65 15

No primeiro argumento do comando sample px, nq apresenta-se o conjunto de valores de onde é extraída a amostra pxq e no segundo argumento indica-se a dimensão da amostra pnq. No exemplo indicado bastaria usar o comando

samplep100, 10q , visto que apenas foram considerados números naturais.

Por defeito, a função sample permite obter uma amostra aleatória sem repetição, o que implica que:

• as amostras aleatórias não contêm mais do que uma vez o mesmo ele-mento;

• a dimensão da amostra não poderá ser maior do que o número de elementos do conjunto de onde a amostra é extraída.

Se pretendermos uma amostra aleatória com repetição necessitamos de acres-centar o argumento

replace“ T RUE ou somente

replace_{“ T.}

Exemplo 1.2.Obtenha uma amostra aleatória composta por 20 lançamentos de uma moeda honesta.

Atribuindo ao output o nome “moeda_honesta” e usando o comando moeda_honesta <– sample pc p”V ”, ”P ”q , 20, replace “ T RUEq , obtém-se, por exemplo, o output:

r1s ”V ” ”P ” ”P ” ”V ” ”V ” ”P ” ”P ” ”V ” ”V ” ”P ” ”V ” ”P ” ”V ” ”V ”

(2)

Neste exemplo usaram-se as letras V para representar a face onde aparece o valor da moeda e P para representar a face onde está indicado o país de onde a moeda é oriunda.

Para contar o número de vezes que se obteve cada uma das faces basta usar a função table. Atribuindo ao output o nome “tabela_moeda_honesta” e usando o comando

tabela_moeda_honesta <– table pmoeda_honestaq , obtém-se:

moeda_honesta

P V

8 12

Podemos obter um gráfico de barras com as frequências obtidas usando o comando

barplotptabela_moeda_honesta, ylim “ c p0, 20q , main “ ”20 lançamentos de uma moeda honesta”q

20 lançamentos de uma moeda honesta

0 5 10 15 20 P V

Se o número de lançamento for suficientemente grande, n Ñ `8, a pro-porção correspondente ao número de vezes que se obtém cada uma das faces da moeda será aproximadamente 0, 5.

Podemos facilmente simular 1.000.000 de lançamentos de uma moeda honesta obtendo os seguintes resultados:

moeda_honesta

P V

500703 499297 Tem-se o gráfico de barras:

1.000.000 de lançamentos de uma moeda honesta

0

200000

600000

P V

400000

Por defeito, a função sample assume que a probabilidade associada à saída de cada um dos elementos do conjunto de valores de onde é extraída a amostra é a mesma. No entanto uma experiência aleatória não está exclusivamente associada a este tipo de casos. Por este motivo, pode ser conveniente obter amostras aleatórias com probabilidades de ocorrência diferentes para cada um dos elementos do conjunto de valores de onde é extraída a amostra. Para isso basta incluir o argumento prob na função sample, indicando as probabilidades associadas a cada elemento do espaço amostral.

(3)

Exemplo 1.3.Obtenha uma amostra aleatória composta por 20 lançamentos de uma moeda desonesta, sabendo-se que a probabilidade de obter a face com o valor da moeda é três vezes a probabilidade de obter a face com a indicação do país de onde a moeda é oriunda.

Comecemos por determinar as probabilidades associadas à saída de cada uma das faces da moeda desonesta. Com base na informação do enunciado

tem-se: _$ & % PrV s “ 3P rP s P_{rV s ` P rP s “ 1} . Resolvendo o sistema de equações lineares obtém-se:

$ & % P_{rV s “ 0, 75} PrP s “ 0, 25 .

Atribuindo ao output o nome “moeda_desonesta” e usando o comando moeda_desonesta <– sample pc p”V ”, ”P ”q , 20, replace “ T RUE,

prob_{“ c p0.75, 0.25qq ,} obtém-se, por exemplo, o output:

r1s ”V ” ”V ” ”V ” ”P ” ”P ” ”P ” ”V ” ”V ” ”V ” ”V ” ”V ” ”V ” ”P ” ”P ”

r15s ”V ” ”V ” ”V ” ”V ” ”V ” ”V ” Usando o comando

tabela_moeda_desonesta <– table pmoeda_desonestaq , obtém-se:

moeda_desonesta

P V

5 15

Tem-se o gráfico de barras usando o comando

barplot_{ptabela_moeda_desonesta, ylim “ c p0, 20q , main “ ”20 lançamentos} de uma moeda desonesta”q

20 lançamentos de uma moeda desonesta

0 5 10 15 20 P V

Podemos simular 1.000.000 de lançamentos de uma moeda desonesta ob-tendo os seguintes resultados:

moeda_desonesta

P V

(4)

Tem-se o gráfico de barras:

1.000.000 de lançamentos de uma moeda desonesta

0 200000 400000 600000 800000 P V

Nos exemplos anteriores já eram conhecidas as probabilidades de ocor-rência de cada um dos acontecimentos. No entanto podemos usar a função sample para simular situações em que as probabilidades associadas são des-conhecidas. No exemplo seguinte, apresentaremos um problema para o qual não é possível obter uma resposta exacta mas onde a simulação nos permite ter a percepção da evolução do processo.

Exemplo 1.4. O João e a Ana decidiram fazer um jogo que consiste no lançamento sucessivo de uma moeda honesta. Cada vez que sair a face onde aparece o valor da moeda pV q o João ganha um euro e cada vez que sair a face onde está indicado o país de onde a moeda é oriunda pP q o João perde um euro. Repetindo esta experiência aleatória 50 vezes, qual se espera que seja o saldo obtido pelo João no final do jogo?

Sabendo que à saída da face V está associado um ganho de um euro p`1q e que à saída da face P está associada perda de um euro p´1q, podemos gerar a amostra aleatória associada a 50 lançamentos da moeda honesta usando o comando

saldo_{<– sample pc p1, ´1q , 50, replace “ T RUEq ,}

obtendo-se, por exemplo, o output:

r1s 1 _{´ 1} 1 _{´ 1} 1 _{´ 1} 1 _{´ 1} _{´ 1} 1 1 _{´ 1}

1 _{´ 1} _{´ 1} 1 _{´ 1} 1 1

r20s ´ 1 1 _{´ 1} _{´ 1} 1 _{´ 1} 1 1 1 1 _{´ 1} _{´ 1}

1 1 _{´ 1} _{´ 1} _{´ 1} 1 1

r39s ´ 1 1 1 1 1 _{´ 1} 1 1 1 1 _{´ 1} 1

Para obter o saldo após cada jogada basta usar os seguintes comandos soma_{r1s <– saldo r1s}

f or_{pi in 2 : 50q t soma ris <– soma ri ´ 1s ` saldo ris u ,} obtendo-se o seguinte output:

r1s 1 0 1 0 1 0 1 0 _{´ 1} 0 1 0

1 0 _{´ 1} 0 _{´ 1} 0 1

r20s 0 1 0 _{´ 1} 0 _{´ 1} 0 1 2 3 2 1

2 3 2 1 0 1 2

r39s 1 2 3 4 5 4 5 6 7 8 7 8

No primeiro comando associa-se o primeiro valor obtido na amostra alea-tória a soma r1s e no segundo comando define-se a fórmula de cálculo das somas seguintes. Podemos obter um gráfico com estes resultados usando os comandos

num<– 1 : 50

plot_{pnum, soma, type “ ”o”, main “ ”Evolução do jogo”,} xlab“ ”Lançamentos”, ylab “ ”Saldo”q

(5)

obtendo-se 0 1 0 2 0 3 0 4 0 5 0 0246 8 Evolução do jogo Lançamentos Saldo

A função abline é usada para desenhar a recta horizontal de equação y “ 0. Podemos consultar o saldo obtido até à i-ésima jogada usando o comando

somaris ,

onde i deverá ser substituído pelo número do lançamento pretendido. O saldo no final do jogo pode ser obtido fazendo

soma_r50s ou usando a função sum e escrevendo

sumpsaldoq .

1.2 Arranjos, permutações e combinações

Quando trabalhamos com espaços amostrais grandes, a contagem do número de elementos que o compõe ou que satisfazem determinados acontecimen-tos, pode ser um verdadeiro problema. Felizmente, o cálculo combinatório fornece-nos técnicas de contagem que permitem, de uma forma mais ou menos simples, realizar esta contagem sem ser necessário escrever explicitamente um a um dos elementos que compõe o espaço amostral ou que satisfazem os acon-tecimentos pretendidos. As técnicas de contagem mais utilizadas designam-se

por arranjos, permutações e combinações, podendo, para cada uma delas, ser considerada a existência, ou não, de repetição dos seus elementos. Podendo dizer-se que as permutações são um caso particular dos arranjos, quando n _{“ p, a principal diferença entre os arranjos e as combinações reside no} facto de nas combinações não se ter em conta a ordenação dos elementos seleccionados. Estas técnicas de contagem e os seus casos particulares, po-dem ser obtidas usando algumas das funções do software estatístico R, que passaremos a apresentar de seguida.

1.2.1 Factorial de um número natural

No software estatístico R, a função prod devolve o resultado da multiplicação de todos os valores presentes no seu argumento. Escrevendo, por exemplo,

prod_{p4 : 6q} obtém-se o output

r1s 120

que se obtém fazendo 4 ˆ 5 ˆ 6 “ 120. Esta função permite ainda multipli-car um conjunto de valores aleatórios. Para isso teremos que começar por introduzir esses valores escrevendo, por exemplo,

valores<– c p1.5, 3.7, 6q e usando o comando

prodpvaloresq obtém-se o output

r1s 33, 3

que se obtém fazendo 1, 5 ˆ 3, 7 ˆ 6 “ 33, 3.

Recordemos agora a definição de factorial de um número natural n. Definição 1.1.Sendo n P N, dá-se o nome de factorial de n ou n-factorial e representa-se simbolicamente por n!, ao produto dos n números naturais que são menores ou iguais a n, isto é:

n!“ n ˆ pn ´ 1q ˆ pn ´ 2q ˆ ¨ ¨ ¨ ˆ 2 ˆ 1. Assim, o factorial de n pode ser obtido usando a função prod.

(6)

Exemplo 1.5.Determine o factorial de 5.

O resultado pretendido pode ser facilmente obtido usando o comando prodp5 : 1q

obtendo-se o output r1s 120

que se obtém fazendo 5 ˆ 4 ˆ 3 ˆ 2 ˆ 1 “ 120. Como alternativa podemos escrever prod p1 : 5q.

1.2.2 Arranjos com e sem repetição

Definição 1.2.Designamos por arranjo sem repetição ou simplesmente ar-ranjo uma qualquer sequência formada por elementos, todos diferentes, de um dado conjunto. Se o conjunto tiver n elementos, designaremos porn_A

po

nú-mero total de arranjos sem repetição que é possível formar com p elementos escolhidos de entre os n dados. n_A

plê-se arranjos de n, p a p e tem-se: n_A

p“ n ˆ pn ´ 1q ˆ pn ´ 2q ˆ ¨ ¨ ¨ ˆ pn ´ p ` 1q “

n! pn ´ pq!, com p ď n.

Exemplo 1.6. Suponham-se dez atletas. De quantas maneiras diferentes pode vir a ser feita a distribuição de três medalhas?

Tratando-se de arranjos sem repetição de 10 atletas, 3 a 3, tem-se:

10_A 3“ 10 ˆ 9 ˆ 8 “ 720 ou 10_A 3“ 10! p10 ´ 3q!“ 720.

No software estatístico R podemos obter este resultado usando a função prod. Podemos usar o comando

prodp10 : p10 ´ 3 ` 1qq ou simplesmente

prod_{p10 : 8q ,}

dado que n´p`1 “ 10´3`1 “ 8. Em alternativa podemos usar o comando prod_{p10 : 1q {prod pp10 ´ 3q : 1q}

ou simplesmente

prodp10 : 1q {prod p7 : 1q ,

dado que n ´ p “ 10 ´ 3 “ 7, obtendo-se o output r1s 720

Definição 1.3.Designamos por arranjo com repetição ou arranjo completo uma qualquer sequência formada por elementos de um dado conjunto, sendo possível a repetição de elementos. Se o conjunto tiver n elementos, desig-naremos porn_A1

p o número total de arranjos com repetição que é possível

formar com p elementos escolhidos de entre os n dados. n_A1

plê-se arranjos

com repetição de n, p a p e tem-se:

n_A1 p“ n

p_.

Exemplo 1.7.Pretendem-se formar palavras-chave com três letras, com ou sem sentido, com as habituais 23 letras. Quantas palavras-chave distintas se podem formar?

Tratando-se de arranjos com repetição de 23 letras, 3 a 3, tem-se:

23_A1 3“ 23

3

“ 12167.

No software estatístico R podemos obter este resultado escrevendo simples-mente

23ˆ3 tendo-se o output

r1s 12167

1.2.3 Permutações com e sem repetição

Definição 1.4.Chama-se permutação de elementos de um conjunto a um qualquer arranjo em que todos os elementos desse conjunto figurem, não ha-vendo elementos repetidos. Designaremos por Pno número total de

permu-tações de n elementos, lendo-se permupermu-tações de n, tendo-se: Pn“ n ˆ pn ´ 1q ˆ pn ´ 2q ˆ ¨ ¨ ¨ ˆ 2 ˆ 1 “ n!.

Exemplo 1.8.Suponham-se três atletas. De quantas maneiras diferentes pode vir a ser feita a distribuição das três medalhas?

Tratando-se de permutações sem repetição de 3 atletas, tem-se: P3“ 3! “ 3 ˆ 2 ˆ 1.

No software estatístico R podemos obter este resultado usando o comando prod_{p3 : 1q ,}

(7)

obtendo-se o output r1s 6

Definição 1.5.Chama-se permutação completa de elementos de um con-junto a um qualquer arranjo em que todos os elementos desse concon-junto podem figurar, podendo haver elementos repetidos. Designaremos por P1

no número

total de permutações completas de n elementos, lendo-se permutações com-pletas de n, tendo-se:

Pn1“ nn.

Exemplo 1.9.Considere-se o conjunto formado pelos elementos p1, 2, 3, 4, 5q. Quantas sequências formadas por 5 elementos se podem ter?

Tratando-se de permutações com repetição de 5 elementos, tem-se: P51“ 55“ 3125.

No software estatístico R podemos obter este resultado escrevendo simples-mente

5ˆ5 tendo-se o output

r1s 3125

1.2.4 Arranjos circulares

Designamos por arranjo circular uma qualquer sequência formada por ele-mentos em círculo, todos diferentes, de um dado conjunto. Se o conjunto tiver n elementos, o número total de arranjos circulares que é possível formar com p elementos escolhidos de entre os n dados é dado por:

n_A p

p “ n! p_{pn ´ pq!}.

Exemplo 1.10.De quantas maneiras diferentes é possível dispor 5 pessoas à volta de uma mesa circular que só dispõe de 3 lugares?

Tratando-se de arranjos circulares de 5 pessoas para 3 lugares, tem-se

5_A 3

3 “ 5! 3_{ˆ 2!}“ 20.

No software estatístico R podemos obter este resultado usando o comando prodp5 : 1q { p3 ˚ prod pp5 ´ 3q : 1qq

ou simplesmente

prodp5 : 1q { p3 ˚ prod p2 : 1qq ,

dado que n ´ p “ 5 ´ 3 “ 2, obtendo-se o output r1s 20

Por outro lado, dados n elementos, o número de formas diferentes de os dispor em círculo, tendo em conta as posições relativas que ocupam entre si, é dado por:

Pn´1“ pn ´ 1q!

Exemplo 1.11.De quantas maneiras diferentes é possível dispor 5 pessoas à volta de uma mesa circular?

Tratando-se de arranjos circulares de 5 pessoas para 5 lugares, tem-se: P5´1“ P4“ 4! “ 4 ˆ 3 ˆ 2 ˆ 1 “ 24.

No software estatístico R podemos obter este resultado usando o comando prod_{pp5 ´ 1q : 1q}

ou simplesmente

prodp4 : 1q , dado que n ´ 1 “ 5 ´ 1 “ 4, obtendo-se o output

r1s 24

1.2.5 Combinações com e sem repetições

Definição 1.6.Chamamos combinação a um qualquer subconjunto formado por elementos diferentes escolhidos de entre os elementos de um dado con-junto. Se o conjunto tem n elementos, designamos por combinações de n elementos, p a p, tendo-se: n Cp“ ˆ n p ˙ “_p! n! pn ´ pq!, com p ď n.

Este resultado também pode ser obtido fazendo

n_C p“ n_A p Pp .

No software estatístico R, a função choose permite fazer este cálculo. Assim, para calcular o número de combinações de n elementos, p a p devemos usar o comando

(8)

Escrevendo, por exemplo,

choosep40, 5q obtém-se o output

r1s 658008 que é equivalente a fazer

40_C 5“ ˆ 40 5 ˙ “_5! 40! p40 ´ 5q!“ 658008.

Exemplo 1.12.Oito jogadores disputam um torneio de xadrez, pelo que cada um deles deve jogar com todos os outros, mas apenas uma vez. Quantos jogos haverão neste torneio?

Tratando-se de combinações sem repetição de 8 jogadores, 2 a 2, tem-se:

8_C 2“ 8! 2!_{p8 ´ 2q!}“ 28 ou 8_C 2“ 8_A 2 P2 “ 8! p8´2q! 2! “ 28.

No software estatístico R podemos obter este resultado usando o comando choosep8, 2q

ou

pprod p8 : 1q {prod pp8 ´ 2q : 1qq {prod p2 : 1q ou simplesmente

pprod p8 : 1q {prod p6 : 1qq {prod p2 : 1q , dado que n ´ p “ 8 ´ 2 “ 6, obtendo-se o output

r1s 28

Definição 1.7.Chamamos combinações completas de n elementos tomados pa p ao número de grupos que se podem constituir com p dos n elementos de um conjunto, podendo haver elementos repetidos, sendo arbitrário o número de vezes que se repete cada elemento. Temos:

n_C1

p“pn ` p ´ 1q!

p!pn ´ 1q! .

Este resultado também pode ser obtido fazendo

n_C1

p“n`p´1Cp.

Exemplo 1.13.Suponha-se o seguinte conjunto t1, 2, 3, 8, 10u. Quantos gru-pos de três elementos se podem formar?

Tratando-se de combinações com repetição de 5 elementos, 3 a 3, tem-se:

5_C1 3“p5 ` 3 ´ 1q!_3! p5 ´ 1q! “ 35 ou 5_C1 3“ 7_C 3“ 7! 3!_{p7 ´ 5q!}“ 35,

dado que n ` p ´ 1 “ 5 ` 3 ´ 1 “ 7. No software estatístico R podemos obter este resultado usando o comando

prod_{pp5 ` 3 ´ 1q : 1q { pprod p3 : 1q ˚ prod pp5 ´ 1q : 1qq} ou simplesmente

prodp7 : 1q { pprod p3 : 1q ˚ prod p4 : 1qq , dado que n ` p ´ 1 “ 5 ` 3 ´ 1 “ 7 e n ´ 1 “ 5 ´ 1 “ 4 ou

choosep7, 3q , obtendo-se o output

r1s 35

1.2.6 Casos especiais

O número de sequências diferentes de n elementos, dos quais n1são de um

tipo, n2de um segundo tipo, . . . , e nk de um k-ésimo tipo, e em que n1`

n2` ¨ ¨ ¨ ` nk“ n, é:

P_pn1, n2, . . . , nkq “

n! n1!n2!¨ ¨ ¨ nk!

. Observe-se ainda que:

n! n1!n2!¨ ¨ ¨ nk!“ n_C n1ˆ nń1_C n2ˆ nń1ń2_C n3ˆ ¨ ¨ ¨ ˆ nń1´¨¨¨ńk´1_C nk, com n ´ n1´ ¨ ¨ ¨ ´ nk´1“ nk.

(9)

Exemplo 1.14.Quantos números distintos de nove algarismos se podem escrever com três algarismos 1, quatro algarismos 2 e dois algarismos 3?

Tratando-se de um caso especial em que se pretende saber o número de sequências de nove algarismos, dos quais três algarismos são iguais a 1, qua-tro algarismos são iguais a 2 e dois algarismos são iguais a 3, tem-se:

Pp3, 4, 2q “_3!4!2!9! “9_C

3ˆ6C4ˆ2C2“ 1260.

No software estatístico R podemos obter este resultado usando o comando prodp9 : 1q {prod pprod p3 : 1q , prod p4 : 1q , prod p2 : 1qq ou simplesmente

prod_{p9 : 1q { pprod p3 : 1q ˚ prod p4 : 1q ˚ prod p2 : 1qq} ou fazendo

choose_{p9, 3q ˚ choose p6, 4q ˚ choose p2, 2q ,} obtendo-se o output

r1s 1260

O número de maneiras diferentes de dividir n elementos em k grupos, com n1no primeiro grupo, n2no segundo grupo, . . . , e nkno k-ésimo grupo,

e em que n1` n2` ¨ ¨ ¨ ` nk“ n, é:

Ppn1, n2, . . . , nkq “

n! n1!n2!¨ ¨ ¨ nk!

.

Exemplo 1.15.Uma empresa resolveu contratar dez pessoas para executa-rem três tarefas não qualificadas. Uma das tarefas necessita de quatro traba-lhadores e cada uma das restantes de três trabatraba-lhadores. De quantas maneiras diferentes podem ser seleccionados os trabalhadores para as tarefas?

Tratando-se de um caso especial em que se pretende saber o número de maneiras diferentes de seleccionar trabalhadores para executarem três tarefas, das quais uma necessita de quatro trabalhadores, e cada uma das restantes necessita de três trabalhadores, tem-se:

P_{p4, 3, 3q “} 10! 4!3!3!“

10_C

4ˆ6C3ˆ3C3“ 4200.

No software estatístico R podemos obter este resultado usando o comando prod_{p10 : 1q {prod pprod p4 : 1q , prod p3 : 1q , prod p3 : 1qq}

ou simplesmente

prodp10 : 1q { pprod p4 : 1q ˚ prod p3 : 1q ˚ prod p3 : 1qq ou fazendo

choose_{p10, 4q ˚ choose p6, 3q ˚ choose p3, 3q ,} obtendo-se o output

r1s 4200

1.2.7 Uma aplicação à teoria das probabilidades

Vamos agora abordar um problema clássico da teoria das probabilidades que é resolvido recorrendo aos arranjos e às permutações.

Exemplo 1.16(O problema dos aniversários). Considerando um grupo de n pessoas escolhidas aleatoriamente, qual é a probabilidade de pelo menos duas dessas pessoas fazerem anos no mesmo dia?

Neste problema pretende-se determinar a probabilidade de pelo menos duas pessoas, seleccionadas de forma aleatória, de um grupo de n pessoas escolhidas aleatoriamente, fazerem anos no mesmo dia do ano, sem terem obrigatoriamente a mesma idade. Para simplificar o problema, consideremos que um ano tem 365 dias.

Para além deste problema, pode ainda ter interesse determinar o número mínimo de pessoas de forma a que a probabilidade, de pelo menos duas pessoas fazerem anos no mesmo dia, seja superior à probabilidade de todas essas pessoas fazerem anos em dias diferentes.

Consideremos o acontecimento:

‚ E - “pelo menos duas pessoas, em n, fazem anos no mesmo dia”. Neste tipo de situação é mais fácil trabalhar com o acontecimento contrário do acontecimento E, ou seja, com o acontecimento:

‚ E - “todas as n pessoas fazem anos em dias diferentes”.

O número de maneiras diferentes de todas as pessoas fazerem anos em dias diferentes corresponde ao número de maneiras diferentes de escolher n dias diferentes dos 365 disponíveis, ou seja, escolher n dias, sem repetição, dos 365 disponíveis, o que corresponde a um arranjo sem repetição de 365 dias, n a n:

365_A

n “ 365 ˆ 364 ˆ ¨ ¨ ¨ ˆ p365 ´ n ` 1q “

“ 365!

(10)

Por outro lado, cada uma das n pessoas pode fazer anos em qualquer um dos 365 dias disponíveis. Assim, o número de maneiras diferentes destas npessoas fazerem anos, independentemente de ser ou não no mesmo dia, corresponde a um arranjo com repetição de 365 dias, n a n:

365_A1 n“ 365

n_.

Se n ą 365 tem-se obrigatoriamente P rEs “ 1, pois pelo menos duas pessoas terão que fazer anos no mesmo dia. Para n ď 365 a probabilidade de todos as n pessoas fazerem anos em dias diferentes obtém-se fazendo:

P“E‰ “ 365_A n 365_A1_n“ “ 365ˆ 364 ˆ ¨ ¨ ¨ ˆ p365 ´ n ` 1q₃₆₅n “ “ ₃₆₅n_{p365 ´ nq!}365! ,

pelo que, a probabilidade de pelo menos duas pessoas fazerem anos no mesmo dia pode ser obtida fazendo:

PrEs “ 1 ´ 365_A n 365_A1_n“ “ 1 ´365ˆ 364 ˆ ¨ ¨ ¨ ˆ p365 ´ n ` 1q₃₆₅n “ “ 1 ´₃₆₅n_{p365 ´ nq!}365! .

Podemos usar o software estatístico R para calcular estas probabilidades. Usando os comandos

prod_{p365 : p365 ´ n ` 1qq {365ˆn} e

1_{´ prod p365 : p365 ´ n ` 1qq {365ˆn,}

obtêm-se os seguintes resultados:

n P“E‰ P_rEs n_{“ 2} 0, 9972603 0, 0027397 n_{“ 10} 0, 8830518 0, 1169482 n“ 20 0, 5885616 0, 4114384 n “ 23 0, 4927028 0, 5072972 n“ 30 0, 2936838 0, 7063162 n_{“ 40} 0, 1087682 0, 8912318 n“ 50 0, 02962642 0, 9703736 n “ 57 0, 009877541 0, 9901225 n “ 366 0 1

Como se pode observar, a probabilidade de pelo menos duas pessoas faze-rem anos no mesmo dia aumenta rapidamente com o aumento do tamanho do grupo de pessoas pnq. Note-se que apenas com um grupo de 20 pessoas já se obtém uma probabilidade de quase 0, 5, sendo essa probabilidade ultra-passada com n “ 23. Por outro lado, com um grupo de 57 pessoas, essa probabilidade já é superior a 0, 99. No entanto, esta probabilidade só é igual a 1 para n ą 365.

Seguidamente iremos obter um gráfico com a probabilidade de pelo menos duas pessoas, num grupo de n pessoas, fazerem anos no mesmo dia, para vários valores de n entre 1 e 50. Assim, usando os seguintes comandos

dia_diferente <– 1

f or_{pn in 2 : 50q t dia_diferente rns <– prod p365 : p365 ´ n ` 1qq {365ˆn u ,} mesmo_dia <– 1 ´ dia_diferente

n<– seq p1, 50, 1q

plotpn, mesmo_dia, main “ ”O problema dos aniversários”, xlab_{“ ”Número de pessoas no grupo”}

ylab“ ”Probabilidade de pelo menos duas pessoas fazerem anos no mesmo dia”, text p23, 0.5, ” ` ”qq

(11)

obtém-se 0.0 0.2 0.4 0.6 0.8 1.0

O problema dos aniversários

Número de pessoas no grupo

Probabilidade de pelo menos duas pessoas fazerem anos no mesmo dia

0 10 20 30 40 50

+

A função seq permite atribuir a n um conjunto de valores equidistantes uma unidade, entre 1 e 50. Na função plot o argumento text permite colocar o símbolo “`” centrado no ponto de coordenadas px, yq “ p23; 0, 5072972q.

2 Estatística descritiva e análise exploratória

de dados

O programa informático R inclui pacotes específicos sobre estatística descri-tiva e análise exploratória de dados. Por este motivo, alguns deles terão que ser carregados antes de iniciar o tratamento dos dados. Para isso basta es-crever numa linha de comandos do R, library(nome do pacote). Nesta secção iremos usar os seguintes pacotes:

• e1071 e moments, que iremos usar para obter as medidas de assimetria e achatamento;

• fBasics, que iremos usar para obter um resumo alargado sobre as várias medidas;

• plotrix, que iremos usar para produzir sectogramas em três dimensões. Os dados podem ser introduzidos manualmente ou importados de um ficheiro para o R. No caso dos dados serem importados de um ficheiro para o R, podemos ter, em outros, os seguintes casos:

• importação de dados a partir de um ficheiro de texto usando: dados_{<– read.table p”C : { ¨ ¨ ¨ {nome do ficheiro”, header “ T RUE,}

sep“ ” ”q , onde

header_{“ T RUE}

caso a primeira linha dos dados contenha as designações das variáveis. Se nada for indicado, o R considera, por defeito, o valor T RUE para o argumento header. O “caracter separador de campo”, que se usa para separar os dados relativos a cada variável, defini-se usando o argumento sep, podendo pôr-se

sep_{“ ” ”,} sep_{“ ”{”,} sep_{“ ”; ”}

ou outro símbolo que seja usado como separador no ficheiro dos dados; • importação de dados a partir de um ficheiro de Excel: podemos começar por exportar os dados do Excel para um ficheiro do tipo Tab Delimited Text (.txt), ficando os dados relativos a cada variável separados por um “espaço vazio”, ou Windows Comma Separated (.csv), ficando os dados relativos a cada variável separados por “,” ou “;”. Os separadores usados em ambos os casos são o que designámos por “caracteres separadores de campo”. Em seguida usamos a técnica descrita no ponto anterior;

(12)

• importação de dados a partir de um ficheiro de Excel: podemos usar o próprio ficheiro de Excel, mas nesse caso teremos que utilizar o pacote xlsx. Para fazer isso, começamos por carregar o pacote xlsx fazendo:

library_pxlsxq e após isto usando:

dados_{<– read.xlsx p”C : { ¨ ¨ ¨ {nome do ficheiro”,} sheetN ame_{“ ”nome da folha”q ,} onde

sheetN ame_{“ ”nome da folha”}

permite carregar os dados que estão na folha ou sheet com a desig-nação nome da folha do ficheiro de Excel. Podemos ainda substi-tuir o comando sheetName pelo comando sheetIndex, escrevendo-se sheetIndex“ k, onde k deverá ser o número da folha do ficheiro de Excel onde estão os dados;

• importação de um conjunto muito grande de dados a partir de um ficheiro de Excel: o comando é semelhante ao anterior devendo apenas usar-se o read.xlsx2 em vez de read.xlsx.

Quando se usam as funções read.xlsx ou read.xlsx2, poderá ainda ter interesse usar alguns argumentos adicionais, que permitem seleccionar mais facilmente o conjunto de dados que pretendemos importar. Como exemplo salientam-se os seguintes argumentos:

• startRow“ i que permite estabelecer que a importação dos dados tem início na linha i;

• endRow“ i que permite estabelecer que a importação dos dados ter-mina na linha i;

• startColumn“ j que permite estabelecer que a importação dos dados tem início na coluna j;

• endColumn“ j que permite estabelecer que a importação dos dados termina na coluna j;

• rowIndex “ i : j que permite estabelecer que serão importados os dados entre as linhas i e j. Se em vez disso for colocado rowIndex “ N U LL, serão importadas todas as linhas existentes, a menos que se usem também os comandos startRow ou endRow;

• colIndex“ i : j que permite estabelecer que serão importados os dados entre as colunas i e j. Se em vez disso for colocado colIndex “ NULL, serão importadas todas as colunas existentes, a menos que se usem também os comandos startColumn ou endColumn.

Estes comandos aplicam-se quando se usa um sistema operativo Windows pelo que deverão ser adaptados quando se usam outros sistemas operativos. Por exemplo, no caso de se utilizar um sistema operativo Mac, a expres-são ”C : { ¨ ¨ ¨ {nome do ficheiro” terá ser alterada. Assim deverá ser usado ”_{{Users{nome de utilizador{ ¨ ¨ ¨ {nome do ficheiro”.}

Por outro lado a introdução dos dados pode ser feita manualmente e para isso, atribuindo aos valores observados o nome dados, basta fazer:

• dados <– cpx1, x2, . . . , xnq, no caso de se introduzirem todos os valores

observados;

• dados <– cprep px1, F1q , rep px2, F2q , . . . , rep pxn, Fnqq, caso existam

va-lores observados repetidos;

onde xisão os valores da variável e Fia frequência com que os mesmos se

repetem. Os dados podem ser escritos como uma matriz usando o comando matrix_{pdadosq .}

2.1 Dados qualitativos

Exemplo 2.1.No quadro de frequências seguinte, apresenta-se o número de indivíduos, em milhares, por nível de escolaridade completo mais elevado da população residente em Portugal com 15 e mais anos, no ano de 2016:

Sem nível de 1

o_{ciclo 2}o_{ciclo 3}o_ciclo

Secundário e

Superior

do do do

escolaridade ensino ensino ensino pós-secundário básico básico básico

695, 7 2020, 2 950, 3 1810, 7 1805, 3 1576, 5

Comecemos por introduzir os dados. Para isso teremos que escrever: dados<– c p695.7, 2020.2, 950.3, 1810.7, 1805.3, 1576.5q. As várias categorias são introduzidas fazendo:

(13)

”_Superior”q

e as percentagens associadas a cada categoria são introduzidas fazendo pct<– round pdados{sum pdadosq ˚ 100q .

Podemos obter um sectograma ou gráfico circular escrevendo:

piepdados, main “ ”Nível de escolaridade completo mais elevado em 2016”, labels“ paste plbls, pct, ”%”, sep “ ” ”qq ,

obtendo-se Sem nível 8 % 1º ciclo 23 % 2º ciclo 11 % 3º ciclo 20 % Secundário 20 % Superior 18 %

Nível de escolaridade completo mais elevado em 2016

É possível colocar uma legenda junto ao sectograma usando os seguintes comandos:

pie_{pdados, main “ ”Nível de escolaridade completo mais elevado em 2016”,} label_{“ paste ppct, ”%”, sep “ ” ”q , col “ rainbow plength pdadosqqq} legendp”right”, c p”Sem nível”, ”1o

ciclo”, ”2o

ciclo”, ”3o

ciclo”, ”Secundário”, ”Superior”q , cex “ 0.8, fill “ rainbow plength pdadosqqq .

Neste comando a expressão

”right”

permite escolher a localização da legenda em relação ao sectograma e a ex-pressão

cex“ 0.8 permite definir o tamanho da legenda.

Obtém-se: 8 % 23 % 11 % 20 % 20 % 18 %

Sem nível 1º ciclo 2º ciclo 3º ciclo Secundário Superior

Para obter um sectograma tridimensional teremos que carregar previa-mente o pacote plotrix e após isto escrevemos:

pie3Dpdados, main “ ”Nível de escolaridade completo mais elevado em 2016”, labels“ paste plbls, pct, ”%”, sep “ ” ”q , explode “ 0.1q ,

obtendo-se: Sem nível 8 % 1º ciclo 23 % 2º ciclo 11 % 3º ciclo 20 % Secundário 20 % Superior 18 % Nível de escolaridade completo mais elevado em 2016

Neste comando a expressão

(14)

é usada para afastar as fatias do sectograma.

Podemos ainda obter um gráfico ou diagrama de barras escrevendo: barplotpdados, main “ ”Nível de escolaridade completo mais elevado

em 2016”, col “ ”grey80”, xlab “ ”Categorias”,

ylab_{“ ”Milhares de indivíduos”, names.arg “ c p”Sem nível”, ”1}o

ciclo”, ”2o

ciclo”, ”3o

ciclo”, ”Secundário”, ”Superior”qq , obtendo-se: Categorias Milhares de indivíduos 0 500 1000 1500 2000

Sem nível 1º ciclo 2º ciclo 3º ciclo Secundário Superior

2.2 Dados quantitativos

Se pretendermos ordenar os dados por ordem crescente de grandeza podemos usar o comando

sort_{pdadosq .}

A dimensão da amostra pode ser obtida usando o comando length_{pdadosq .}

Se estivermos interessados em identificar o i-ésimo elemento na amostra, devemos usar o comando

dados_ris ou

dadosrc piqs ,

onde i é a posição desse elemento na amostra. De forma análoga, se preten-dermos excluir o i-ésimo elemento na amostra, devemos usar o comando

dados_r´is ou

dadosrc p´iqs ,

onde i é a posição desse elemento na amostra. Os valores mínimo e máximo podem ser obtidos fazendo

minpdadosq e

max_{pdadosq ,} respectivamente.

2.2.1 Medidas descritivas de localização de tendência central e não central

A obtenção destas medidas pode ser feita da seguinte forma: • determinação da mediana:

median_{pdadosq ;}

• determinação da média:

mean_{pdadosq ;}

• determinação dos extremos e dos quartis: quantilepdadosq ;

• determinação de um quantil, onde p é a ordem do quantil pretendido: quantilepdados, pq .

(15)

Um resumo destas medidas, extremos, média e quartis, pode ser obtido usando o comando

summary_{pdadosq .}

O Diagrama de extremos e quartis, também conhecido por caixa de bigodes, que reflete as medidas apresentadas anteriormente, pode ser obtido fazendo:

boxplot_{pdadosq .} 2.2.2 Medidas descritivas de dispersão

A obtenção destas medidas pode ser feita da seguinte forma: • determinação da amplitude total:

maxpdadosq ´ min pdadosq ;

• determinação do intervalo inter-quartis: IQRpdadosq ou fazendo

quantilepdados, 0.75q ´ quantile pdados, 0.25q ;

• determinação da variância:

varpdadosq ;

• determinação do desvio padrão: sdpdadosq ,

podendo-se também determinar a raiz quadrada da variância: sqrt_{pvar pdadosqq}

ou escrever os dados como uma matriz e aplicar o comando apply_{pmatrix pdadosq , 2, sdq ;}

• determinação do coeficiente de dispersão: sd_{pdadosq {mean pdadosq ;}

• determinação do coeficiente de variação:

psd pdadosq {mean pdadosqq ˚ 100;

• determinação do coeficiente de dispersão resistente: IQR_{pdadosq {quantile pdados, 0.5q ;}

• determinação do coeficiente de variação resistente: pIQR pdadosq {quantile pdados, 0.5qq ˚ 100. 2.2.3 Medidas descritivas de assimetria

A obtenção destas medidas pode ser feita da seguinte forma: • determinação do coeficiente de assimetria ca:

skewness_{pdadosq ,}

sendo necessário carregar previamente o pacote moments; • determinação do coeficiente de assimetria G1:

3_{˚ pmean pdadosq ´ quantile pdados, 0.5qq {sd pdadosq ;}

• determinação do coeficiente de Bowley G2:

pquantile pdados, 0.75q ` quantile pdados, 0.25q ´ p2˚ quantilepdados, 0.5qqq {IQR pdadosq . 2.2.4 Medidas descritivas de achatamento ou curtose A obtenção destas medidas pode ser feita da seguinte forma:

• determinação do coeficiente de curtose cc:

kurtosispdadosq ,

sendo necessário carregar previamente o pacote moments; • determinação do coeficiente de achatamento:

(16)

A distribuição normal tem coeficiente de assimetria nulo, coeficiente de curtose igual a 3 e coeficiente de achatamento igual a 0, 263. O R subtrai 3unidades ao valor do coeficiente de curtose, pelo que para ambos os co-eficientes o valor de referência é 0. Para o coeficiente de assimetria diz-se que:

• se o seu valor é negativo a distribuição é assimétrica negativa; • se o seu valor é nulo a distribuição é simétrica;

• se o seu valor é positivo a distribuição é assimétrica positiva. Para o coeficiente de curtose diz-se que:

• se o seu valor é negativo a distribuição é platicúrtica (a distribuição é mais achatada que a normal);

• se o seu valor é nulo a distribuição é mesocúrtica (o achatamento é igual ao da normal);

• se o seu valor é positivo a distribuição é leptocúrtica (a distribuição é menos achatada que a normal).

Para o coeficiente de achatamento diz-se que: • se kă 0, 263 a distribuição é leptocúrtica; • k“ 0, 263 a distribuição é mesocúrtica; • ką 0, 263 a distribuição é platicúrtica.

Um resumo de quase todas as medidas apresentadas anteriormente pode ser obtido facilmente com o comando

basicStatspdadosq , sendo necessário carregar previamente o pacote fBasics.

Na estatística descritiva para dados quantitativos, os dados podem ser apresentados inicialmente de três formas diferentes:

• dados não agrupados;

• dados agrupados por frequência; • dados agrupados em intervalos de classe;

e a forma com eles são tratados pode ser influenciada por este factor.

2.2.5 Dados não agrupados

Exemplo 2.2. Considere os seguintes dados 125, 85, 90, 20, 135, 80, 85, 95, 130, 105.

Comecemos por introduzir os dados. Para isso teremos que escrever: dados<– c p125, 85, 90, 20, 135, 80, 85, 95, 130, 105q. De seguida vamos ordenar os dados por ordem de grandeza fazendo

dados_ordenados <– sort pdadosq

e atribuindo a estes a designação de dados ordenados, para os diferenciar da amostra inicial. Obtém-se a amostra:

20, 80, 85, 85, 90, 95, 105, 125, 130, 135. A dimensão da amostra pode ser facilmente determinada fazendo:

lengthpdados_ordenadosq , obtendo-se n “ 10. O valor mínimo é obtido com:

minpdados_ordenadosq e o valor máximo com:

max_{pdadosq ,} obtendo-se 20 e 135, respectivamente.

Como exemplo, podemos obter algumas das medidas apresentadas anteri-ormente: • a mediana, fazendo medianpdados_ordenadosq , obtendo-se x “ 92, 5; • a média, fazendo meanpdados_ordenadosq , obtendo-se x “ 95;

• o quantil de ordem 29, o percentil 29, considerando p“ 0, 29 e fazendo quantile_{pdados_ordenados, 0.29q ,}

obtendo-se Q29 100“ 85;

(17)

• o intervalo inter-quartis, fazendo IQRpdados_ordenadosq , obtendo-se IQR “ 35; • a variância, fazendo var_{pdados_ordenadosq ,} obtendo-se s2 “ 1100; • o desvio padrão, fazendo

sd_{pdados_ordenadosq ,} obtendo-se s “ 33, 16625;

• o coeficiente de variação, fazendo

psd pdados_ordenadosq {mean pdados_ordenadosqq ˚ 100, obtendo-se cv“ 34, 91184%;

• o coeficiente de assimetria, fazendo

skewness_{pdados_ordenadosq ,}

obtendo-se ´0, 801746, pelo que os dados têm uma distribuição assimé-trica negativa;

• o coeficiente de achatamento, fazendo

kurtosis_{pdados_ordenadosq ,}

obtendo-se 0, 024174, pelo que os dados têm uma distribuição leptocúr-tica.

Podemos obter um resumo das principais medidas usando o comando summary_{pdados_ordenadosq ,}

obtendo-se:

Medidas Min. 1st Qu. Median Mean 3rd Qu. Max. Valor 20, 0 85, 0 92, 5 95, 0 120, 0 135, 0

Neste output podemos encontrar as seguintes informações: • o valor mínimo, Min.: mintxiu “ 20, 0;

• o primeiro quartil, 1st Qu.: Q1 4“ 85, 0; • a mediana, Median: M e“ Q1 2“ Q 2 4“ 92, 5; • a média, Mean: x“ 95, 0; • o terceiro quartil, 3rd Qu.: Q3

4“ 120, 0;

• o valor máximo, Max.: maxtxiu “ 135, 0.

Podemos obter um resumo mais alargado usando o comando basicStatspdados_ordenadosq ,

(18)

carregando previamente o pacote fBasics, obtendo-se: Medidas Valor nobs 10, 000000 NAs 0, 000000 Minimum 20, 000000 Maximum 135, 000000 1. Quartile 85, 000000 3. Quartile 120, 000000 Mean 95, 000000 Median 92, 500000 Sum 950, 000000 SE Mean 10, 488088 LCL Mean 71, 274296 UCL Mean 118, 725704 Variance 1100, 000000 Stdev 33, 166248 Skewness ´0, 801746 Kurtosis 0, 024174

Neste output podemos encontrar as seguintes informações: • o número de observações, nobs: n“ 10, 000000; • o número de observações em falta, NAs: 0, 000000; • o valor mínimo, Minimum: mintxiu “ 20, 000000;

• o valor máximo, Maximum: maxtxiu “ 135, 000000

• o primeiro quartil, 1. Quartile: Q1

4“ 85, 000000;

• o terceiro quartil, 3. Quartile: Q3

4“ 120, 000000; • a média, Mean: x“ 95, 000000. • a mediana, Median: M e“ Q1 2“ Q 2 4“ 92, 500000;

• a soma dos valores observados, Sum: řni“1xi“ 950, 000000;

• o erro padrão para a média, SE Mean: ?s_n_{“ 10, 488088;}

• o limite inferior do intervalo de confiança a 95% para a média, LCL Mean: X ´_?S

ntn´1;1´α2“ 71, 274296;

• o limite superior do intervalo de confiança a 95% para a média, UCL Mean: X `_?S

ntn´1;1´α

2“ 118, 725704;

• a variância, Variance: s2“ 1100, 000000; • o desvio padrão, Stdev: s“ 33, 166248;

• o coeficiente de assimetria, Skewness:´0, 801746; • o coeficiente de achatamento, Kurtosis: 0, 024174. Podemos obter o diagrama de extremos e quartis fazendo

boxplotpdadosq , obtendo-se:

20 40 60 80 100 120

Diagrama de extremos e quartis

Neste diagrama é possível identificar um outlier, representado por ˝.

2.2.6 Dados agrupados por frequência

Exemplo 2.3.Considere os seguintes dados: 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9,

(19)

11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 18, 18, 18, 18, 18, 18, 18, 18, 18, 18, 18, 18, 18, 18, 18, 18, 18, 18, 18, 18, 18, 18.

Podemos resumir esta informação no seguinte quadro de frequências: xi Fi 0 10 3 25 5 35 7 43 9 42 11 30 18 22

Comecemos por introduzir os dados. Para isso podemos escrever: dados<– c prep p0, 10q , rep p3, 25q , rep p5, 35q , rep p7, 43q , rep p9, 42q ,

repp11, 30q , rep p18, 22qq .

Podemos obter um resumo alargado das principais medidas usando o co-mando basicStatspdadosq , obtendo-se: Medidas Valor nobs 207, 000000 NAs 0, 000000 Minimum 0, 000000 Maximum 18, 000000 1. Quartile 5, 000000 3. Quartile 10, 000000 Mean 7, 995169 Median 7, 000000 Sum 1655, 000000 SE Mean 0, 311400 LCL Mean 7, 381229 UCL Mean 8, 609109 Variance 20, 072792 Stdev 4, 480267 Skewness 0, 734801 Kurtosis 0, 383523

Podemos obter o diagrama de extremos e quartis fazendo boxplot_{pdadosq ,}

obtendo-se:

0 5 10 15

(20)

Tal como aconteceu no exemplo anterior, neste diagrama também é pos-sível identificar um outlier, representado por ˝.

Quando os dados estão agrupados por frequência pode ter interesse obter gráficos de linhas ou de barras de frequências absolutas:

0 5 10 15 10 15 20 25 30 35 40

Gráfico de linhas de frequências absolutas

Valores da variável

Frequência

0 3 5 7 9 11 18

Gráfico de barras de frequências absolutas

Valores da variável Frequência 01 0 2 0 3 0 4 0

ou de frequências absolutas acumuladas:

0 5 10 15

50

100

150

200

Gráfico de linhas de frequências absolutas acumuladas

Valores da variável

Frequência acumulada

0 3 5 7 9 11 18

Gráfico de barras de frequências absolutas acumuladas

Valores da variável Frequência acumulada 0 5 0 100 150 200

Estes gráficos podem ser obtidos usando os seguintes comandos: • para obter o gráfico de linhas de frequências absolutas, começamos por

(21)

definir os valores que nos interessam em cada um dos eixos fazendo: dados_1 <– c p0, 3, 5, 7, 9, 11, 18q

e

dados_2 <– c p10, 25, 35, 43, 42, 30, 22q.

Observe-se que o segundo conjunto de dados coincide com as frequências absolutas. Em seguida podemos obter o gráfico fazendo:

plot_{pdados_1, dados_2, type “ ”o”, pch “ 16, main “ ”Gráfico de} linhas de frequências absolutas”, xlab “ ”Valores da variável”,

ylab_{“ ”Frequência”q .}

• para obter o gráfico de barras de frequências absolutas, começamos por definir os valores que nos interessam em cada um dos eixos fazendo:

dados<– matrix pc p10, 25, 35, 43, 42, 30, 22q, nrow “ 1q e em seguida indicam-se os valores que a variável toma:

colnamespdadosq <– c p”0”, ”3”, ”5”, ”7”, ”9”, ”11”, ”18”q. Depois disto constrói-se uma tabela onde se relacionam os dois conjun-tos de valores fazendo:

as.table_{pdadosq .}

Observe-se que os dados introduzidos coincidem com as frequências ab-solutas. Em seguida podemos obter o gráfico fazendo:

barplotpdados, main “ ”Gráfico de barras de frequências absolutas”, col“ ”grey80”, xlab “ ”Valores da variável”, ylab “ ”Frequência”q . • para obter o gráfico de linhas de frequências absolutas acumuladas,

co-meçamos por definir os valores que nos interessam em cada um dos eixos fazendo:

dados_1 <– c p0, 3, 5, 7, 9, 11, 18q e

dados_2 <– c p10, 35, 70, 113, 155, 185, 207q.

Observe-se que o segundo conjunto de dados coincide com as frequências absolutas acumuladas. Em seguida podemos obter o gráfico fazendo:

plot_{pdados_1, dados_2, type “ ”o”, pch “ 16, main “ ”Gráfico de} linhas de frequências absolutas acumuladas”, xlab “ ”Valores da

variável”, ylab “ ”Frequência acumulada”q .

• para obter o gráfico de barras de frequências absolutas acumuladas, co-meçamos por definir os valores que nos interessam em cada um dos eixos fazendo:

dados<– matrix pc p10, 35, 70, 113, 155, 185, 207q, nrow “ 1q e em seguida indicam-se os valores que a variável toma:

colnamespdadosq <– c p”0”, ”3”, ”5”, ”7”, ”9”, ”11”, ”18”q. Depois disto constrói-se uma tabela onde se relacionam os dois conjun-tos de valores fazendo:

as.tablepdadosq .

Observe-se que os dados introduzidos coincidem com as frequências ab-solutas acumuladas. Em seguida podemos obter o gráfico fazendo:

barplot_{pdados, main “ ”Gráfico de barras de frequências absolutas} acumuladas”, col “ ”grey80”, xlab “ ”Valores da variável”,

ylab“ ”Frequência acumulada”q . 2.2.7 Dados agrupados por intervalos de classe

Exemplo 2.4.Considere os seguintes dados: 0, 1, 2, 3, 4, 5, 5, 6, 6, 7, 7, 8, 8, 9, 9, 10, 11, 12, 13, 14, 15.

Podemos resumir esta informação no seguinte quadro de frequências: Classes xi Fi

r0; 5r 2, 5 4 r5; 10r 7, 5 10 r10; 15s 12, 5 6

Total 20

Comecemos por introduzir os dados. Estes são introduzidos de forma semelhante ao que se fez nos outro dois casos. Por este motivo, teremos que conhecer os verdadeiros valores observados. Podemos escrever:

dados<– c p0, 1, 2, 3, 4, 5, 5, 6, 6, 7, 7, 8, 8, 9, 9, 10, 11, 12, 13, 14, 15q. Podemos obter um resumo alargado das principais medidas usando o co-mando

(22)

obtendo-se: Medidas Valor nobs 21, 000000 NAs 0, 000000 Minimum 0, 000000 Maximum 15, 000000 1. Quartile 5, 000000 3. Quartile 10, 000000 Mean 7, 380952 Median 7, 000000 Sum 155, 000000 SE Mean 0, 914112 LCL Mean 5, 474148 UCL Mean 9, 287757 Variance 17, 547619 Stdev 4, 188988 Skewness 0, 071098 Kurtosis ´0, 988226

Podemos obter o diagrama de extremos e quartis fazendo boxplotpdadosq ,

obtendo-se:

0 5 10 15

Neste caso, como se pode verificar no diagrama, não existem outliers.

Quando os dados estão agrupados por frequência pode ter interesse obter gráficos de linhas ou de barras de frequências absolutas:

4 5 6 7 8 9 10

Gráfico de linhas de frequências absolutas

Ponto médio das classes

Frequência

2.5 7.5 12.5

Histograma de frequências absolutas

Classes

Frequência

0246

8

(23)

ou de frequências absolutas acumuladas: 51 0 1 5 2 0

Gráfico de linhas de frequências absolutas acumuladas

Limite superior das classes

Frequência acumulada

5 10 15

Histograma de frequências absolutas acumuladas

Classes Frequência acumulada 0 5 10 15 0 5 10 15

Estes gráficos podem ser obtidos usando os seguintes comandos: • para obter o gráfico de linhas de frequências absolutas, começamos por

definir os valores que nos interessam em cada um dos eixos fazendo: dados_1 <– c p2.5, 7.5, 12.5q

e

dados_2 <– c p4, 10, 6q .

Observe-se que o primeiro conjunto de dados corresponde aos pontos médios das classes e o segundo conjunto de dados coincide com as frequências absolutas. Em seguida podemos obter o gráfico fazendo:

plotpdados_1, dados_2, type “ ”o”, pch “ 16, main “ ”Gráfico de linhas de frequências absolutas”, xlab “ ”Ponto médio das classes”,

ylab_{“ ”Frequência”, xaxt “ ”n”q}

axisp1, at “ c p2.5, 7.5, 12.5q , labels “ c p”2.5”, ”7.5”, ”12.5”qq . • para obter o histograma de frequências absolutas, começamos por definir

os valores que nos interessam em cada um dos eixos fazendo: dados<– matrix pc p0, 1, 2, 3, 4, 5, 5, 6, 6, 7, 7, 8, 8, 9, 9, 10, 11, 12, 13, 14,

15_{qq .}

Observe-se que os dados introduzidos coincidem com as frequências ab-solutas. Em seguida podemos obter o histograma fazendo:

histpdados, main “ ”Histograma de frequências absolutas”, f req“ TRUE, breaks “ cp0, 5, 10, 15q, col “ ”grey80”,

xlab_{“ ”Classes”, ylab “ ”Frequência”, xaxt “ ”n”q} axisp1, at “ c p0, 5, 10, 15q , labels “ c p”0”, ”5”, ”10”, ”15”qq . • para obter o gráfico de linhas de frequências absolutas acumuladas,

co-meçamos por definir os valores que nos interessam em cada um dos eixos fazendo:

dados_1 <– c p5, 10, 15q e

dados_2 <– c p4, 14, 20q .

Observe-se que o primeiro conjunto de dados corresponde aos limites superiores das classes e o segundo conjunto de dados coincide com as

(24)

frequências absolutas acumuladas. Em seguida podemos obter o gráfico fazendo:

plotpdados_1, dados_2, type “ ”o”, pch “ 16, main “ ”Gráfico de linhas de frequências absolutas acumuladas”, xlab “ ”Limite superior

das classes”, ylab “ ”Frequência acumulada”, xaxt “ ”n”q axisp1, at “ c p5, 10, 15q , labels “ c p”5”, ”10”, ”15”qq . • para obter o histograma de frequências absolutas acumuladas,

começa-mos por definir os valores que nos interessam em cada um dos eixos fazendo:

dados<– matrix pc p0, 1, 2, 3, 4, 5, 5, 6, 6, 7, 7, 8, 8, 9, 9, 9, 9, 9, 9, 10, 11, 12, 13, 14, 15, 15, 15, 15, 15, 15, 15, 15, 15, 15, 15, 15, 15, 15, 15_{qq .} Observe-se que o conjunto de dados introduzidos tem como objectivo reflectir o valor das frequências absolutas acumuladas. Em seguida po-demos obter o histograma fazendo:

hist_{pdados, main “ ”Histograma de frequências absolutas} acumuladas”, freq “ TRUE, breaks “ cp0, 5, 10, 15q, col “ ”grey80”,

xlab“ ”Classes”, ylab “ ”Frequência acumulada”, xaxt “ ”n”q axis_{p1, at “ c p0, 5, 10, 15q , labels “ c p”0”, ”5”, ”10”, ”15”qq .}

2.3 Exemplo para dados com várias variáveis

Exemplo 2.5.Consideremos uma amostra constituída pelas varáveis: • Sexo (qualitativa binária);

• Idade (quantitativa discreta); • Peso (quantitativa discreta); • Altura (quantitativa contínua); • Escolaridade (qualitativa ordinal); • Animal (qualitativa nominal);

que se apresenta na figura seguinte:

Como se trata de um ficheiro de Excel, podemos, por exemplo, optar por gravar este conjunto de dados como um ficheiro de texto, usando a opção Tab Delimited Text, atribuindo-lhe, por exemplo, o nome amostra. Para evitar possíveis problemas na importação dos dados, os valores em falta foram pre-enchidos com a expressão NA, como foi o caso da variável Animal, visto que algumas das pessoas consideradas nesta amostra não tinham animal de esti-mação. Também não devem existir espaços em branco entre palavras dentro da mesma célula, porque o R irá interpretar isso como sendo duas células diferentes, o que irá originar erros ao importar os dados. Caso existam es-paços em branco entre palavras, os mesmos deverão ser apagados ou, quando muito, substituídos por um “.” ou um “_”.

Antes de importar os dados do ficheiro de texto para o R, é necessário garantir que, neste ficheiro, o separador das casas decimais é “.”, porque é este o separador que o R utiliza. Assim, e após exportar os dados do Excel para o ficheiro de texto, se o separador das casas decimais for “,”, será necessário substituí-las por “.”. Após isto, a amostra pode ser importada para o R usando:

dados<– read.table p”{Users{ ¨ ¨ ¨ {amostra.txt”, header “ T RUE, sep_{“ ” ”q ,}

tendo-se atribuído, neste exemplo, a este conjunto de dados, a designação dados.

Se pretendermos obter os dados relativos a uma variável quantitativa, por exemplo a variável Peso, basta escrever:

(25)

Podemos obter uma tabela de frequências absolutas fazendo: peso_freq_abs <– table pdados$P esoq e usando a função cbind,

cbind_{ppeso_freq_absq ,} podemos obter o resultado em forma de tabela.

As frequências absolutas acumuladas podem ser obtidas fazendo: peso_freq_abs_acum <– cumsum ppeso_freq_absq ,

onde a função cumsum permite obter a “soma cumulativa” das frequências absolutas, ou seja, as frequências absolutas acumuladas Fi“ F1`F2`¨ ¨ ¨`Fi,

com i “ 1, . . . , 19. Podemos escrever em seguida em forma de tabela com: cbind_{ppeso_freq_abs_acumq .}

As frequências relativas podem ser obtidas fazendo:

peso_{_freq_rel <– round ppeso_freq_abs{sum ppeso_freq_absq , 3q ,} onde 3 indica o número de casas decimais consideradas e a frequência relativa é obtida fazendo fi“ F_ni, com i “ 1, . . . , 19. Podemos escrever em seguida

em forma de tabela com:

cbind_{ppeso_freq_relq .}

As frequências relativas acumuladas podem ser obtidas fazendo: peso_{_freq_rel_acum <– cumsum ppeso_freq_relq ,}

onde a frequência relativa acumulada é obtida fazendo fi“ f1` f2` ¨ ¨ ¨ ` fi,

com i “ 1, . . . , 19. Podemos escrever em seguida em forma de tabela com: cbindppeso_freq_rel_acumq .

Podemos juntar todos estes resultados numa só tabela de frequências es-crevendo:

cbind_{ppeso_freq_abs, peso_freq_abs_acum, peso_freq_rel,} peso_{_freq_rel_acumq ,}

obtendo-se 5 colunas, a primeira com os valores da variável e as seguintes com os resultados das frequências pedidas.

Podemos obter, para esta variável, as medidas descritivas obtidas nos casos anteriores. Como exemplo podemos obter:

• a mediana, fazendo

medianpdados$P esoq , obtendo-se x “ 72, 00;

• a média, fazendo

meanpdados$P esoq , obtendo-se x “ 73, 68421;

• a variância, fazendo

varpdados$P esoq , obtendo-se s2

“ 128, 2281; • o desvio padrão, fazendo

sd_{pdados$P esoq ,} obtendo-se s “ 11, 32378;

• o coeficiente de variação, fazendo

psd pdados$P esoq {mean pdados$P esoqq ˚ 100, obtendo-se cv“ 15, 368%.

Podemos obter um resumo das principais medidas usando o comando summarypdados$P esoq ,

obtendo-se:

Medidas Min. 1st Qu. Median Mean 3rd Qu. Max. Valor 59, 00 65, 00 72, 00 73, 68 79, 00 98, 00

Podemos obter um resumo mais alargado usando o comando basicStats_{pdados$P esoq ,}

(26)

carregando previamente o pacote fBasics, obtendo-se: Medidas Valor nobs 19, 000000 NAs 0, 000000 Minimum 59, 000000 Maximum 98, 000000 1. Quartile 65, 000000 3. Quartile 79, 000000 Mean 73, 684211 Median 72, 000000 Sum 1400, 000000 SE Mean 2, 597854 LCL Mean 68, 226322 UCL Mean 79, 142099 Variance 128, 228070 Stdev 11, 323783 Skewness 0, 710630 Kurtosis ´0, 501673

Podemos obter o diagrama de extremos e quartis fazendo boxplotpdados$P esoq ,

obtendo-se:

60 70 80 90

Neste caso, como se pode verificar no diagrama, não existem outliers.

No caso de uma variável qualitativa, por exemplo a variável Escolaridade, podemos começar por obter os dados relativos à mesma fazendo:

dados$Escolaridade.

A tabela de frequências absolutas pode ser facilmente obtida fazendo escolaridade_{_freq_abs <– table pdados$Escolaridadeq} e usando a função cbind,

cbindpescolaridade_freq_absq , podemos obter o resultado em forma de tabela.

As frequências relativas podem ser obtidas fazendo:

escolaridade_freq_rel <– round pescolaridade_freq_abs{sum p escolaridade_freq_absq , 3q ,

onde 3 indica o número de casas decimais consideradas e a frequência relativa é obtida fazendo fi“Fni, com i “ 1, . . . , 19. Podemos escrever em seguida

em forma de tabela com:

cbindpescolaridade_freq_relq .

Podemos juntar todos estes resultados numa só tabela de frequências es-crevendo:

cbind_{pescolaridade_freq_abs, escolaridade_freq_relq ,} obtendo-se 3 colunas, a primeira com os valores da variável e as seguintes com os resultados das frequências pedidas.

Para obter um sectograma ou gráfico circular comecemos por introduzir as várias categorias são introduzidas fazendo:

lbls<– c p”1o

ciclo”, ”2o

ciclo”, ”3o

ciclo”, ”Secundário”, ”Superior”q e as percentagens associadas a cada categoria são introduzidas fazendo pct<– round pescolaridade_freq_abs{sum pescolaridade_freq_absq ˚ 100q .

Em seguida, escrevendo:

pie_{pdados, main “ ”Nível de escolaridade”, labels “ paste plbls, pct, ”%”,} sep“ ” ”qq ,

(27)

obtém-se 1º ciclo 2º ciclo 3º ciclo Secundário Superior Nível de escolaridade 21 % 11 % 42 % 16 % 11 %

Por outro lado, se pretendermos extrair, dos dados iniciais, apenas os dados que verificam determinadas condições, basta considerar a função sub-set. Por exemplo, se pretendermos todos os dados, agrupados por variável, quando a variável Sexo assume o valor M, basta fazer:

dados_{_sexo <– subset pdados, dados$Sexo ““ ”M”q .}

Para o mesmo exemplo, se pretendermos apenas os valores de algumas va-riáveis, por exemplo Idade e Animal, basta escrever:

dados_sexo <– subset pdados, dados$Sexo ““ ”M”, select “ c pIdade, Animalqq .

Por outro lado, se pretendermos extrair dos dads iniciais apenas os dados que não verificam determinadas condições basta fazer, por exemplo para a variável Escolaridade:

dados_{_escolaridade <– subset pdados, dados$Escolaridade! “ ”Superior”q} e obtêm-se todos os dados, agrupados por variável, quando a variável Esco-laridade não assume o valor Superior. Esta função também permite selecci-onar por exemplo, todas as linhas onde temos valores para a variável Idade superiores a 50 anos e menores ou iguais a 60 anos, fazendo:

dados_idade <– subset pdados, dados$Idade ą 50 & dados$Idade ă“ 60q

ou, por exemplo, todos os indivíduos do sexo feminino com Altura superior a 1, 60m, fazendo:

dados_sexo_altura <– subset pdados, dados$Sexo ““ ”F ” & dados$Alturaą 1.60q .

Por outro lado, se pretendermos obter todas as variáveis entre Idade e Altura, incluindo estas, para todos os indivíduos do sexo masculino que têm Gato, basta fazer:

dados_sexo_animal <– subset pdados, dados$Sexo ““ ”M”& dados$Animal_{““ ”Gato”, select “ Idade : Alturaq .}

Para qualquer um destes conjuntos de dados podemos obter as medidas descritivas apresentadas anteriormente, bem como, os resumos mais alarga-dos que se obtêm com a funções summary ou basicStats, assim como qualquer um dos gráficos apresentados, onde se inclui boxplot.

Por outro lado, a função aggregate permite dividir o conjunto inicial de dados em subconjuntos e ao mesmo tempo obter algumas medidas descritivas. Por exemplo, podemos agregar os dados da variável Peso e da variável Altura, obtendo as somas para cada uma delas em função da variável Escolaridade, fazendo:

aggregatepcbind pdados$P eso, dados$Alturaq , by “ listpdados$Escolaridadeq , F UN “ sumq

ou, por exemplo, agregar os dados da variável Peso e da variável Altura, obtendo as médias para cada uma delas em função da variável Escolaridade e da variável Sexo, fazendo:

aggregate_{pcbind pdados$P eso, dados$Alturaq , by “} list_{pdados$Escolaridade, dados$Sexoq , F UN “ meanq .} Nestes dois últimos exemplos, o argumento F UN permite definir qual é a medida descritiva que pretendemos obter sobre as variáveis Peso e Altura.

(28)

3 Modelos teóricos unidimensionais

3.1 Funções

Nesta secção iremos usar as funções:

• função massa e densidade de probabilidade: dnome px, parâmetrosq , usada para calcular uma probabilidade pontual; • função de distribuição de probabilidade:

p_{nome px, parâmetrosq ,} usada para calcular uma probabilidade acumulada; • quantil de probabilidade p:

qnome pp, parâmetrosq ,

usada para determinar um valor da variável para uma determinada probabilidade conhecida;

onde nome será substituído pela designação do modelo teórico que se está a usar. Para além destes comandos, podemos ainda utilizar o comando

rnome px, parâmetrosq

para gerar números aleatórios que seguem uma determinada distribuição.

3.2 Distribuição binomial

No software estatístico R, a distribuição binomial é representada pela expres-são binom. Consideremos o seguinte exemplo:

Exemplo 3.1. A Sara e Catarina são amigas que gostam muito de jogar xadrez, mas a Sara é uma grande especialista e ganha 60% dos jogos. Assim, resolveram efectuar, no próximo fim-de-semana, um campeonato de 15 jogos.

(a) Qual é a probabilidade da Sara ganhar exactamente 10 jogos? Consideremos a variável aleatória X - “número de jogos que a Sara vence”. Então X „ b pn “ 15; p “ 0, 6q.

Comecemos por definir o valor dos parâmetros da distribuição: n<– 15

p<– 0.6

Para calcular P rX “ 10s usamos a função massa de probabilidade: dbinomp10, n, pq

ou simplesmente escrevendo

dbinom_{p10, 15, 0.6q ,} obtendo-se 0, 1859378.

(b) Qual é a probabilidade da Sara ganhar no máximo 10 jogos? Queremos calcular P rX ď 10s. Tratando-se de uma probabilidade acu-mulada, usamos a função de distribuição de probabilidade

pbinomp10, n, pq ou simplesmente escrevendo

pbinom_{p10, 15, 0.6q ,} obtendo-se 0, 7827223.

(c) Qual é a probabilidade da Sara ganhar pelo menos 10 jogos? Queremos calcular P rX ě 10s. Comecemos por recordar que PrX ě 10s “ 1 ´ P rX ă 10s “ 1 ´ P rX ď 9s . Podemos novamente usar a função de distribuição de probabilidade

1_{´ pbinom p9, n, pq ,} obtendo-se 0, 4032156.

(d) Qual é a probabilidade da Sara ganhar entre 4 e 8 jogos?

Queremos calcular P r4 ď X ď 8s. Podemos fazer este cálculo usando a função de distribuição de probabilidade e a função massa de probabi-lidade:

pbinomp8, n, pq ´ pbinom p4, n, pq ` dbinom p4, n, pq ou somente a função de distribuição de probabilidade:

pbinom_{p8, n, pq ´ pbinom p3, n, pq ,} obtendo-se 0.3882591.

(29)

(e) Sabendo que a probabilidade da Sara ganhar um jogo é 0, 6, determine o número de jogos que as duas amigas têm que fazer para que a proba-bilidade da Sara vencer no máximo 10 jogos seja 0, 7827223.

Queremos determinar a dimensão de n tal que P rX ď 10s “ 0, 7827223. Comecemos por definir o valor dos parâmetros da distribuição:

n<– 10 p<– 0.6

Vamos repetir o cálculo da P rX ď 10s, usando a função de distribuição de probabilidade, até que o seu valor seja inferior ou igual a 0, 7827223.

repeat_t a<– pbinom p10, n, pq print_pnq printpaq n<– pn ` 1q ifpa ď 0.7827223q break u obtendo-se n “ 15.

(f) Em 15 jogos realizados pelas duas amigas, sabe-se que a probabilidade da Sara vencer exactamente 10 jogos é 0, 1859378. Determine a proba-bilidade da Sara vencer um jogo?

Queremos determinar a probabilidade da Sara vencer o jogo, p, tal que PrX “ 10s “ 0, 1859378.

Comecemos por definir o valor dos parâmetros da distribuição: n<– 15

p<– 0.05

Vamos repetir o cálculo da P rX “ 10s, usando a função massa de pro-babilidade, até que o seu valor seja superior ou igual a 0, 1859378.

repeatt a<– dbinom p10, n, pq print_ppq print_paq p<– pp ` 0.05q ifpa ě 0.1859378q break u obtendo-se p “ 0, 6.

3.3 Distribuição binomial negativa

No software estatístico R, a distribuição binomial negativa é representada pela expressão nbinom. Consideremos o seguinte exemplo:

Exemplo 3.2.A probabilidade de um candidato passar no exame de condu-ção é 0, 6.

(a) Determine a probabilidade do segundo candidato aprovado ser o quinto. Consideremos a variável aleatória X - “número de candidatos que efec-tuam o exame até que tenham sido aprovados r candidatos”. Então X_{„ bn pr; p “ 0, 6q. Comecemos por definir o valor dos parâmetros da} distribuição:

r<– 2 p<– 0.6

Queremos calcular P rX “ 5s. O R funciona com o número de insu-cessos, ou seja, 3 insucessos até ter 2 sucessos em 5 provas. Usando a função massa de probabilidade tem-se:

dnbinom_{p3, r, pq} ou simplesmente escrevendo

dnbinom_{p3, 2, 0.6q ,} obtendo-se 0.09216.

(b) Determine a probabilidade do segundo candidato aprovado ser no má-ximo o terceiro.

Queremos calcular P rX ď 3s. O R funciona com o número de insu-cessos, ou seja, 1 insucesso até ter 2 sucessos no máximo em 3 provas. Usando a função de distribuição de probabilidade tem-se:

pnbinom_{p1, r, pq} ou simplesmente escrevendo

pnbinomp1, 2, 0.6q , obtendo-se 0, 648.