Dedicado, Exclusivamente, A Todos Aqueles Que Querem A Aprovação!

(1)

Questões De Estatística Da

Banca ESAF Que Você Precisa

Aprender Como Resolver Antes

De Fazer A Prova Do Concurso

De Auditor-Fiscal Da Receita

Federal 2014

Dedicado, Exclusivamente, A Todos

Aqueles Que Querem A Aprovação!

(2)

8 Questões De Estatística Da Banca ESAF Que Você Precisa

Aprender Como Resolver Antes De Fazer A Prova Do

Concurso De Auditor-Fiscal Da Receita Federal 2014

Dedicado, Exclusivamente, A Todos Aqueles Que Querem A Aprovação!

Neste ebook, irei lhe mostrar oito questões chaves de estatística da banca organizadora de concursos públicos ESAF, resolvidas e comentadas. Você verá mais de perto as nuances dessas questões, que poderão determinar o seu sucesso na parte de estatística de sua prova.

Eu analisei diversas questões desse assunto, especificamente, as da banca desse concurso. E, só depois disso, decidi ficar com as oito que considero cruciais. Iremos abordar aqui os seguintes temas: Estatística Descritiva, Amostragem, Teste de Hipóteses, Análise Combinatória, Probabilidade, Distribuições de Probabilidade, Variáveis Aleatórias e Análise de Regressão. Estes representam toda a parte da ementa do edital referente à disciplina estatística.

Ao longo de nossas resoluções, você perceberá o quão sua mente expandirá, tratando-se desse assunto, pois, tudo aqui será exposto, na medida do possível, na forma mais simples, descomplicada e objetiva.

E ainda, irei lhe oferecer diversas dicas, onde uma parte delas será sobre o que poderá ser feito com as questões mais trabalhosas. Aquelas que dão uma vontade enorme de pular por parecerem ser grandes.

Após o término da leitura desse livro, você estará mais apto a trabalhar com questões de estatística dos temas que abordaremos. E, é muito provável que sua chance de se sair bem em sua prova, na parte dessa disciplina, aumentará drasticamente.

Por fim, eu lhe agradeço muito por ter adiquirido este meu primeiro livro digital. Fique sabendo que você acaba de dar um grande salto de qualidade e eficiência em seus estudos. Não serão todos candidatos que terão acesso a esse material, criado exclusivamente para esse concurso. Portanto, aproveite! Pode ter certeza que eu o fiz pensando em você, futuro Auditor-Fiscal da Receita Federal!

(3)

Uma Questão De Pura Análise

Tema: Estatística Descritiva

ESAF – 2008 – Prefeitura de Natal – RN – Auditor do Tesouro Municipal

A coleta de dados do município, relativa ao ensino fundamental, apresentou a seguinte composição etária:

Faixa Etária

Masculino Feminino

Até 06 anos

9.000

10.200 De 07 a 08 anos 10.000

9.300 De 09 a 10 anos 8.000

8.500 De 11 a 12 anos 7.000

5.500 De 12 a 14 anos 5.000

3.500 De 15 a 18 anos 3.000

2.500 Acima de 18 anos 1.000

1.500 Total

43.000

41.000

Com base nos dados acima, temos as seguintes sentenças: I. A Moda está na faixa etária até os 06 anos.

II. A Média de alunos está na faixa etária de 12 a 14 anos. III. A Mediana é superior à média.

Apontando nos 3 (três) itens acima como V - Verdadeiro e F - Falso, a opção correta é:

a) V, V, V b) V, F, V c) F, V, F d) F, F, F e) V, V, F

(4)

Comentários:

Essa questão é uma daquelas que parece que será trabalhosa de fazer, com muitas contas. Pois, pela quantidade de dados que nos foi dada e pelos termos média, mediana e moda, nas sentenças, parece que despenderemos bastante tempo tentando resolvê-la. Então, vamos olhar essa questão mais de perto. Veja que ela possui sete intervalos de classes: Faixa Etária até 06 anos, de 07 a 08 anos, de 09 a 10 anos, de 11 a 12 anos, de 12 a 14 anos, de 15 a 18 anos e acima de 18 anos. Bem, notou alguma coisa nesses intervalos? Se não, veja mais uma vez esses dois: até 06 anos e acima de 18 anos. E agora? Percebeu um pequeno detalhe? O primeiro poderia ser escrito da seguinte forma: de 0 até 06 anos. Mas, e o segundo? De que maneira ele poderia ser escrito, de tal forma que, fosse possível ter o ponto médio do intervalo? A resposta é...

...Não tem como!

Simplesmente, por termos uma classe aberta. E, portanto, não é possível calcular a média desses dados, já que o ponto médio da classe é crucial.

Se você não está familiarizado com o conceito de ponto médio de classe, entenda o que ele é agora: ele é o valor central da classe. O valor que está exatamente no meio. Por exemplo, se a classe é de 07 a 08 anos. O seu ponto médio de classe é 07,5 anos. Já a média, iremos aprender como calculá-la na questão seguinte. A mediana é o valor central de nossos dados. Para encontrá-la, precisamos acumular as frequências das classes. Ela pertencerá à classe que contém a frequência acumulada de pelo menos 50% dos dados.

Com relação à moda, ou valor modal, saiba que ela é o valor mais popular de nossas observações. Aquele valor que aparece com mais frequência. Nesse caso, como temos intervalos de classes, não temos um valor que é mais frequente, e sim uma classe que é mais frequente. Damos a ela o nome de classe modal. Há vários métodos para estimação do valor da mediana, moda e média. O

enunciado não citou nenhum específico. Nesse caso, a mediana e a moda podem ser consideradas como os pontos médios dos intervalos de classes as quais pertencem. Estes métodos são os mais triviais!

Resolvendo:

Vamos analisar o item I que diz que a moda está na faixa etária até os 06 anos. Para isso, precisamos encontrar o total de alunos nessa faixa. Ou seja,

precisamos somar a quantidade de pessoas do sexo masculino com a quantidade de pessoas do sexo feminino, de todas as faixas, para assim ver qual delas tem a maior frequência.

(5)

Faixa Etária

Masculino Feminino Total

Até 06 anos

_9.000

_10.200

_19.200

De 07 a 08 anos 10.000

9.300

19.300 De 09 a 10 anos 8.000

8.500

16.500 De 11 a 12 anos 7.000

5.500

12.500 De 12 a 14 anos 5.000

3.500

8.500 De 15 a 18 anos 3.000

2.500

5.500 Acima de 18 anos 1.000

1.500

2.500 Total

43.000

41.000

84.000

Portanto, o item I é falso. A classe modal não é a faixa etária até 06 anos. E sim, a de 07 a 08 anos (19.300 é a maior frequência). Lembre-se que a moda está dentro dessa classe.

Os itens II e III são falsos, pois como vimos, não podemos calcular a média desses dados. Ou seja, não podemos afirmar nada a respeito de seu valor. Logo, a alternativa certa dessa questão é a letra d).

(6)

Tomada De Decisão A Partir De Um Critério

Temas: Estatística Descritiva, Amostragem e Teste de Hipótese

ESAF – 2005 – Receita Federal – Auditor Fiscal da Receita Federal

Uma empresa verificou que, historicamente, a idade média dos consumidores de seu principal produto é de 25 anos, considerada baixa por seus dirigentes. Com o objetivo de ampliar sua

participação no mercado, a empresa realizou uma campanha de divulgação voltada para consumidores com idades mais avançadas. Um levantamento realizado para medir o impacto da campanha indicou que as idades dos consumidores apresentaram a seguinte distribuição:

Idade (X) Frequência Porcentagem 18 |- 25 20 40 25 |- 30 15 30 30 |- 35 10 20 35 |- 40 5 10 Total 50 100

Assinale a opção que corresponde ao resultado da campanha considerando o seguinte critério de decisão: se a diferença X - 25

for maior que o valor . Onde, X é a média amostral. Então, a campanha de divulgação surtiu efeito, isto é, a idade média aumentou; caso contrário, a campanha de divulgação não alcançou o resultado desejado.

(7)

a) A campanha surtiu efeito, pois X - 25=2,1 é maior que

b) A campanha não surtiu efeito, pois X - 25=0 é menor que

c) A campanha surtiu efeito, pois X - 25=2,1 é maior que

d) A campanha não surtiu efeito, pois X - 25=0 é menor que

e) A campanha surtiu efeito, pois X - 25=2,5 é maior que

Comentários:

Esta questão engloba três temas: Estatística Descritiva, Amostragem e Teste de Hipótese. E esses aparecem na seguinte ordem. Primeiro é feito uma

amostragem. Depois são calculadas as estatísticas descritivas desses dados. E por último é feito uma comparação do que foi encontrado com o critério estabelecido, a fim de verificar nossa hipótese de interesse.

À primeira vista, essa questão parece ser espantosa. Por ter um longo texto e, principalmente, pelo símbolo grego σ que aparece. Mas, tcharam!

Incrivelmente, essa é uma das questões mais simples desse livro. Veja só como ela é tranquila.

Para resolvê-la, temos que apenas saber como calcular a média e o desvio padrão de uma distribuição de dados com intervalos de classes. Como vimos na questão anterior, só podemos encontrar o valor da média se os intervalos de classes forem definidos. Isto é, se tiverem extremos inferiores e superiores. Pois, só assim poderemos calcular o ponto médio do intervalo. A média, nesse caso, é dada pelo somatório dos pontos médios intervalares multiplicados por suas respectivas proporções de vezes que aparecem na distribuição dos dados. Matematicamente, ela é expressa por:

X = ∑ x

i .

p

i

(8)

i indica a classe. O xi indica o ponto médio do intervalo i. E pi indica a proporção

de vezes que esse ponto médio da classe i aparece na distribuição. Como nessa questão temos apenas quatro classes, o i irá variar de 1 a 4.

O valor do σx é calculado da seguinte forma:

σ

x

=

√[(∑ p

i

. (x

i

– X)

2

]

Resolvendo:

1° Passo – Encontrar os Pontos Médios (xi’s) dos Intervalos

Intervalo 1 = (18 : 25], tem como ponto médio o valor (18 + 25) / 2 = 21,5 = x1.

Intervalo 4 = (35 : 40], tem como ponto médio o valor (35 + 40) / 2 = 37,5 =x4. 2° Passo – Calcular a Média Amostral

X = ∑ x

i .

p

i

= x

1x

0,40 + x

2x

0,30 + x

3 x

0,20 + x

4x

0,10 =

= 21,5

x

0,40 + 27,5

x

0,30 + 32,5

x

0,20 + 37,5

x

0,10 = 27,1

Logo, a média amostral X desse conjunto de dados é igual a 27,1. Observação: Veja que tive que converter os valores das porcentagens, dadas no quadro, para o seu respectivo valor em proporção. Por exemplo, a porcentagem 40, ou 40%, é equivalente a 0,40.

3° Passo – Encontrar o Resultado da Expressão

X – 25

X – 25 = 27,1 – 25 = 2,1.

4° Passo – Encontrar o Valor de

σ

x

σ

x

=

√[(∑ p

i

. (x

i

– X)

2

] = √[0,40 . (21,5 – 27,1)

2

+ 0,30 . (27,5 – 27,1)

2

+ 0,20 . (32,5 – 27,1)

2

_{+ 0,10 . (37,5 – 27,1)}

2

_{] = √[0,40 . 31,36 + 0,30}

. 0,16 + 0,20 . 29,16 + 0,10 . 108,16] = √[12,544 + 0,048 + 5,832 +

10,816] = √29,24 = 5,41.

(9)

5° Passo - Encontrar o Resultado da Expressão

2 . σ

x

/ √n

Sabemos que n, frequência total de consumidores, é igual a 50. Então, temos que,

2 . σ

x

/ √n = 2 . 5,41 / √50 = 1,53.

Portanto, a campanha surtiu efeito. Pois,

X – 25 = 2,1

é maior que

2 . σ

x

/ √n

= 1,53.

Gabarito: letra a).

Comentários finais:

Bem meu caro, eu lhe digo uma coisa: atente-se para a forma de cálculo da média e variância de uma distribuição de dados com intervalos de classes. Como vimos é bem simples. Lembrando, mais uma vez, que o desvio padrão é a raiz quadrada da variância. E isso quer dizer que se você tem um deles, você pode encontrar o outro.

Faça uma ou duas vezes esse exercício por sua conta (faça alterando os dados para não ficar muito repetitivo). Assim, todo o procedimento irá fixar em sua mente naturalmente. E a cada vez que fizer, mais fácil e trivial ficará!

(10)

Um Caso De Teoria

Tema: Distribuições de Probabilidade

Numa distribuição Binomial, temos que:

I. A E[x] = n.p.q, ou seja, é o produto dos parâmetros n - número de elementos da avaliação, p - probabilidade de ocorrência do evento e q - probabilidade contrária (q = 1 - p).

II. O desvio-padrão é dado pela raiz quadrada do produto entre os parâmetros n e p.

III. A variância é dada pelo somatório dos quadrados dos valores (Xi) menos o quadrado da média.

Apontando os três itens acima como V - Verdadeiro e F - Falso, a opção correta é: a) F, V, F b) V, V, F c) F, F, F d) V, F, F e) V, V, V Comentários:

Essa questão é bem teórica. Um tipo de questão que ou você sabe ou não. Sem meios termos. Simples e direta.

Para resolvê-la é necessário conhecer as características da distribuição binomial. A saber:

 É uma distribuição de probabilidade discreta da quantidade de sucessos em n tentativas.

 Seus parâmetros são dados por n e p. Onde n é o número de tentativas e p é a probabilidade de sucesso do evento de interesse.

 Tem valor esperado (ou esperança) dado por E[X] = n.p.

 Tem variância dada por Var[X] = n.p.q. Onde, q é dado por (1 – p). E então, a variância também pode ser expressa por Var[X] = n.p.(1 – p).

(11)

Essas são as principais características da distribuição binomial. E, apenas com essas informações já podemos gabaritar essa questão.

Resolvendo:

O item I comete um erro ao acrescentar q no cálculo do valor esperado. Portanto, ele está falso.

O item II desconsidera o q que deveria estar no cálculo da variância. O desvio padrão é a raiz quadrada da variância. Certo. Mas, a variância é dada por n.p.q. Portanto, esse item também é falso!

O item III vai longe ao erro. Como vimos, a variância da distribuição binomial é expressa por n.p.q.

Logo, todas as sentenças são falsas. E, a alternativa c) é a resposta da questão.

Comentários Finais:

Saber a característica da distribuição binomial foi um ponto decisivo para acertar essa questão. Como o edital inclui o tópico “principais distribuições de probabilidade”, eu sugiro que você vá para a prova conhecendo pelo menos as seguintes distribuições:

 Discretas: Binomial, Geométrica, Poisson e Uniforme

 Contínuas: Normal, Exponencial e Uniforme Contínua

Para cada uma, encontre suas características principais – assim como fiz para a distribuição binomial. E ainda, para as distribuições contínuas, veja também o formato de suas respectivas curvas. Tem muito material na internet que pode lhe ajudar nisso.

(12)

E Mais Teoria!

Tema: Distribuições de Probabilidade

Se x é uma v. a. - variável aleatória com função densidade de probabilidade f(x), caracterizada pelo modelo normal, podemos afirmar que:

a) o desvio-padrão é igual a 1 (um). b) a média tem valor 0 (zero).

c) a função de distribuição acumulada f(x) é igual a 1, para todos os valores acima de b.

d) os parâmetros média, moda e mediana são iguais. e) a variância tem o valor do quadrado da média. Comentários:

Essa é outra questão que requere conhecimentos teóricos para resolvê-la. E eu vou lhe contar uma coisa...

...A Distribuição Normal É A Alma Da Estatística

Ela está praticamente em tudo na estatística. É, simplesmente, a principal distribuição, dentre as principais. Veja, se a regra do jogo fosse que eu só poderia estudar uma única distribuição de probabilidade antes de realizar essa prova. Adivinha qual distribuição que eu iria investir meu tempo? Resposta: Distribuição Normal. Então eu digo, dê uma dedicação diferenciada a ela. Trate-a com mTrate-ais cTrate-arinho e tente compreendê-lTrate-a mTrate-ais. EssTrate-a é umTrate-a dicTrate-a que vem do fundo do meu coração.

E afinal, você saberia me dizer qual a diferença entre distribuição normal e distribuição normal padronizada? Veja a resposta aqui:

A distribuição normal, é uma função de densidade contínua simétrica, em formato de sino (sim, aquele sino mesmo que se vê muito no natal), com

média e variância representadas pelas letras gregas μ e σ2_,

respectivamente. Tanto a mediana, como a moda, coincidem com sua média. A distribuição normal padronizada, que é também chamada de distribuição normal padrão, é uma função de densidade contínua simétrica, em formato de

(13)

sino, com média zero e variância um. E então, seu desvio padrão também é um. Vamos lembrar mais uma vez que o desvio padrão é a raiz quadrada da variância. Tanto a mediana, como a moda também são iguais a 0.

E então, viu que a diferença é simples? A diferença está no valor da média e variância. Mas, melhor falando, a distribuição normal padronizada é um caso particular da distribuição normal.

É muito importante saber que a distribuição normal não padronizada pode ser convertida em distribuição normal padronizada. Para isso, é feito um processo bem simples de cálculo, que não irei mostrar aqui, por fugir um pouco de nossa questão.

Aqui vai uma imagem da distribuição normal para podermos visualizá-la e tê-la em mente:

Resolvendo:

A letra a) diz que o desvio padrão da distribuição/modelo normal é igual a um. Bem, não necessariamente. Vimos que isso acontece na distribuição normal padronizada. Então, essa alternativa é falsa.

A letra b) comete o mesmo erro. Mas, agora falando da média. A distribuição normal, não necessariamente, tem média zero. A distribuição normal

padronizada é quem tem. Portanto, essa alternativa também é falsa.

Sabe o que quer dizer função de distribuição acumulada? Olhe mais uma vez para a figura da distribuição normal. Veja que abaixo da curva, linha azul, tem

(14)

uma área. Cujo valor total, integrado, é (1) um. Então, qualquer janela de

interesse no eixo horizontal pode me levar a uma área cujo valor oscila entre 0 e 1. A esse valor de área, denominamos de probabilidade. Por exemplo, na figura, temos que a média da variável X é 50. Então, a chance de se ter um valor ao acaso, proveniente dessa distribuição, que seja maior que 50 é igual a 0,5. A janela escolhida foi: de 50 até o infinito. Agora, quando se tem uma função de distribuição acumulada, como o próprio nome já diz, tem-se uma função que lhe retorna a probabilidade acumulada. Começando a contar a área do extremo mais a esquerda (ou, menos infinito), até o valor de interesse. Se estamos interessado no valor dessa função, quando o valor de X é 50 (usando a mesma distribuição da figura), por exemplo, esse valor é 0,5. Se estamos interessados em saber o valor dessa função quando X tende ao infinito (maior extremo, à direita, do eixo horizontal), esse valor é 1.

Agora veja o que a letra c) está dizendo: “a função de distribuição acumulada F(x) é igual a 1, para todos os valores acima de b.” Bem, b, pode ser qualquer coisa. Ele não foi definido. Pode haver área após o valor b. Essa questão só estaria certa se b fosse igual ao infinito, positivo. Portanto, essa alternativa está errada.

Olha o que a letra d) diz: os parâmetros média, mediana e moda são iguais. SIM! A curva é simétrica. Olhe mais uma vez para ela se quiser! Esses são os valores centrais dessa distribuição. Invariavelmente. E também, como vimos

anteriormente, essa é uma das características principais da distribuição normal. Logo, a alternativa d) é o gabarito dessa questão.

A alternativa e) tá falando de uma característica da distribuição exponencial - nada a ver com o nosso caso. Essa distribuição é que tem a variância como sendo o quadrado de sua média. Portanto, essa alternativa é falsa.

Amigo, veja o quão e como a parte teórica, que fala sobre distribuições de probabilidade, pode ser cobrada pela banca ESAF em sua prova. Mas, veja também, que basta conhecer as suas características principais para matar a questão rapidamente. Continue aqui comigo e vamos entender mais como as questões podem cair.

(15)

De Olho No Que Não É Informado!

Tema: Análise Combinatória e Probabilidade

ESAF – 2010 – SUSEP – Analista Técnico

Considere um grupo de 15 pessoas dos quais cinco são

estrangeiros. Ao se escolher ao acaso três pessoas do grupo, sem reposição, qual a probabilidade de exatamente uma das três pessoas escolhidas ser um estrangeiro?

a) 45/91 b) 1/3 c) 4/9 d) 2/9 e) 42/81 Comentários:

Essa questão aborda dois temas distintos: Análise Combinatória e

Probabilidade. A análise combinatória irá nos auxiliar a fazer a contagem da quantidade de elementos de nosso espaço amostral (vamos chamá-lo de EA) e da quantidade de casos favoráveis de nosso evento de interesse (vamos chamá-lo de EI). A probabilidade de nosso evento de interesse ocorrer, pela definição de probabilidade, é dada pela razão entre EI e EA, isto é, P (EI) = EI / EA. E também, vamos recordar que a combinação de n escolhe k é dada por:

C

n,k

= n! / [(n – k)!

x

k!]

Onde, n é a quantidade de elementos do conjunto, e k é a quantidade de elementos sendo escolhidos, sem reposição.

Resolvendo:

Dados do problema:

10 pessoas não estrangeiras 5 pessoas estrangeiras

15 pessoas no total

3 pessoas são escolhidas ao acaso

EA = Quaisquer combinações de três pessoas de um grupo de 15 pessoas EI = Exatamente uma das três pessoas escolhidas é estrangeira

(16)

1° Passo – Calcular a Quantidade de Elementos do EA

A quantidade de elementos do EA é contada da seguinte forma:

Combinação de 15 (total de pessoas) escolhe 3 (total de pessoas selecionadas) =

C

15,3

= 15! / [(15-3)!

x

3!] = 15! / (12!

x

3!) = (15

x

14

x

13) / (3

x

2

x

1) =

455

. Logo, EA = 455.

2° Passo – Calcular a Quantidade de Casos Favoráveis

A quantidade de casos favoráveis é contada da seguinte forma:

Combinação de 5 (total de pessoas estrangeiras) escolhe 1 (quantidade de estrangeiros de interesse) E Combinação de 10 (total de pessoas não estrangeiras) escolhe 2 (total de pessoas não estrangeiras de interesse) =

C

5,1 x

C

10,2

=5! / [(5 – 1)!

x

1!]

x

10! / [(10 – 2)!

x

2!] =

5! / (4!

x

1!)

x

10! / (8!

x

2!) = (5

x

4!) / 4!

x

(10

x

9

x

8!) / (8!

x

2)

= 5

x

(5

x

9) = 5

x

45 = 225.

Logo, EI = 225.

Observação: Veja que tenho que considerar a contagem do grupo restante, de não estrangeiros (combinação de 10 escolhe 2). Se quero que apenas uma pessoa seja estrangeira em um grupo de três, duas delas não devem ser, necessariamente. Só assim, terei a quantidade de casos favoráveis correta.

3° Passo – Calcular a Probabilidade do Evento de Interesse

P (EI) = EI / EA = 225 / 455 = 45 / 91

Portanto, a resposta dessa questão é a letra a)

Vimos que para resolver essa questão foi necessário saber um dos conceitos fundamentais de probabilidade, que é a razão entre a quantidade de casos favoráveis pelo espaço amostral. E também, foi necessário saber como contar

(17)

ambos. Para que não ocorra erro durante esses cálculos eu recomendo que você, primeiramente, tente deixar bem claro (escrevendo mesmo, da mesma forma que eu fiz) quem é o evento de interesse. Veja que o enunciado dessa questão deixou implícito que o evento de interesse era composto por duas pessoas não estrangeiras. Ele só disse que estava interessado em saber a probabilidade de exatamente uma pessoa dentre as três, ser estrangeira. Ou seja, se a combinação de 10 escolhe 2 não fosse considerada no processo de cálculo, a resolução do exercício estaria errada. Portanto, vai a dica para uma questão desse tipo:

Defina claramente o seu evento de interesse. E lembre-se da parte do grupo a ser escolhida que não foi explicitada no enunciado (as duas pessoas não estrangeiras).

(18)

Dois Brilhantes Teoremas De Probabilidade

Tema: Probabilidade

Admita que a probabilidade de uma pessoa de um particular grupo genético ter uma determinada doença é de 30%. Um custoso e invasivo exame para diagnóstico específico dessa doença tem uma probabilidade de um resultado falso positivo de 10% e de um resultado falso negativo de 30%. Considerando que uma pessoa desse grupo genético com suspeita da doença fez o referido exame, qual a probabilidade dela ter a doença dado que o resultado do exame foi negativo?

a) 30% b) 7,5% c) 25% d) 15% e) 12,5% Comentários:

Esta questão aborda o Teorema de Bayes, que é uma das derivações mais importantes da teoria de probabilidade condicional, e o Teorema da

Probabilidade Total. Uma notícia boa é que geralmente os exercícios e questões de concursos que envolvem esses assuntos, não variam muito. Traduzindo isso. Na maioria das vezes essas questões pedem a mesma coisa. Em termos gerais, apenas a historinha do enunciado é alterada. Isso é bom, porque pegando o padrão da resolução, é só levá-lo consigo para as questões parecidas. Iremos agora ver o que é a probabilidade condicional. E a partir dela iremos derivar o teorema de Bayes.

A probabilidade condicional, por definição, é expressa por:

Sejam dois eventos A e B, e P(A) e P(B), a probabilidade de cada um desses eventos ocorrerem, respectivamente.

Então, temos que P(A|B), que é lida como “probabilidade de A dado a ocorrência do evento B”, dada por P(A,B) / P(B).

(19)

P(A|B) = P(A,B) / P(B)

Então, podemos ver que ela é equivalente a P(A,B), que significa a probabilidade de ocorrência do evento A e B ao mesmo tempo, dividida por P(B),

probabilidade de ocorrência do evento B individualmente. Bayes, detalhista, percebeu a seguinte magnífica relação: Se, P(A|B) = P(A,B) / P(B), então, ao isolar P(A,B), terei

P(A,B) = P(B) . P(A|B)

Concorda? Se sim, vamos continuar.

Suponha agora que eu queira a probabilidade do contrário, de B dado A. Isto é P(B|A) = P(B,A) / P(A). Da mesma forma feita acima, iremos isolar a P(B,A). E isso é o que temos:

P(B,A) = P(A) . P(B|A) Então, repare.

Se P(A,B) significa a probabilidade de ocorrência dos eventos A e B

simultâneamente, isso é equivalente a P(B,A). Pois, P(B,A) também significa isso.

Então, temos que,

P(A,B) = P(B,A)

E como isso é verdade, posso dizer que P(B) . P(A|B) = P(A) . (B|A). Daí, derivamos o seguinte:

P(A|B) = P(A) . P(B|A) / P(B)

Ou,

P(B|A) = P(B) . P(A|B) / P(A)

E, portanto, Bayes percebeu que a probabilidade condicional também pode ser calculada desta forma. Que nos ajuda muito quando não tempos a informação da probabilidade P(A,B).

Mas, agora veja que no denominador do lado direito da expressão, aparece P(B) (na primeira expressão). O Teorema da Probabilidade Total diz que essa

probabilidade é calculada pela seguinte relação:

P(B) = P(A) . P(B|A) + P(Ã) . P(B|Ã)

(20)

E isso pode ser estendido para uma maior quantidade de eventos.

Bem, tudo isso pode ser demonstrado. Mas, não iremos fazer isso aqui agora. Iremos entender melhor esses pontos ao resolver a questão.

Então vamos nessa!

Resolvendo:

1° Passo – Interpretar e Escrever os Eventos

Sejam, A e O, os seguintes eventos,

A: Pessoa de um particular grupo genético tem uma determinada doença. Ã: Pessoa de um particular grupo genético não tem uma determinada doença. O: Resultado do exame é positivo.

Õ: Resultado do exame é negativo.

2° Passo – Listar Todos os Dados Fornecidos pelo Enunciado

P(A) = 0,30, logo temos que P(Ã) = 1 – 0,30 = 0,70. P(O|Ã) = 0,10, logo temos que P(Õ|Ã) = 1 – 0,10 = 0,90. P(Õ|A) = 0,30, logo temos que P(O|A) = 1 – 0,30 = 0,70.

Lembre-se sempre de listar a probabilidade complementar dos eventos!

Estamos interessados em descobrir a probabilidade de uma pessoa que fez o exame, cujo resultado foi negativo, ter a doença. Isto é, P(A|Õ).

Sabemos que a probabilidade condicional P(A|Õ), pelo teorema de Bayes, pode ser expressa por,

P(A|Õ) = P(A,Õ) / P(Õ) = P(A) . P(Õ|A) / P(Õ).

Os valores de P(A) e P(Õ|A), já foram dados pelo enunciado. E, portanto, precisamos apenas do valor de P(Õ) para resolver a questão.

3° Passo – Calcular a Probabilidade de o Exame Ser Negativo, P(Õ)

Sabemos que uma pessoa pode ter a doença e o resultado dar negativo, e assim também como, a pessoa não ter a doença e o resultado dar negativo. Duas possibilidades.

(21)

P(Õ) = P(A) . P(Õ|A) + P(Ã) . P(Õ|Ã)

Interpretação: A probabilidade de o exame dar negativo é igual à

probabilidade de uma pessoa ter a doença, e a probabilidade de o exame dar negativo dado que ela tem a doença, ou, a probabilidade de uma pessoa não ter a doença, e a probabilidade de o exame dar negativo dado que ela não tem a doença.

Substituindo os valores que já conhecemos,

P(Õ) = 0,30 . 0,30 + 0,70 . 0,90 = 0,72.

Portanto, a probabilidade do exame ser negativo, tendo a doença ou não, é 0,72.

4° Passo – Calcular P(A|Õ)

Como vimos

P(A|Õ) = P(A) . P(Õ|A) / P(Õ).

Então,

P(A|Õ) = 0,30 . 0,30 / 0,72 = 0,125.

Portanto, a probabilidade dessa pessoa ter a doença dado que o resultado do exame foi negativo é: 0,125 (12,5%).

Conforme vimos, tivemos que aplicar dois teoremas derivados da probabilidade condicional (Teorema de Bayes e Teorema da Probabilidade Total) para resolver esta questão. Frequentemente se vê os dois aparecendo juntos por estarem muito conectados. E como eu já tinha dito, esse tipo de questão aparece

bastante com o mesmo padrão de resolução. Geralmente, acrescentam mais um evento (em nosso caso tínhamos apenas dois). Raramente, se vê algo com mais do que três eventos. Portanto, foque um pouco em fazer algumas questões que englobam esse tema. Volte aqui e leia esta resolução quantas vezes forem necessárias. E por fim, você verá por si só que as resoluções de questões desses conceitos são bem mecânicas. Basta praticar!

(22)

Uma Fórmula Gigante

Tema: Amostragem e Variáveis Aleatórias

ESAF – 2005 – Receita Federal – Auditor Fiscal da Receita Federal

Para uma amostra de dez casais residentes em um mesmo bairro, registraram-se os seguintes salários mensais (em salários

mínimos):

Identificação do casal 1 2 3 4 5 6 7 8 9 10 Salário do marido (Y) 30 25 18 15 20 20 21 20 25 27 Salário da esposa (X) 20 25 12 10 10 20 18 15 18 23

Sabe-se que:

Assinale a opção cujo valor corresponda à correlação entre os salários dos homens e os salários das mulheres.

a) 0,72 b) 0,75 c) 0,68 d) 0,81 e) 0,78 Comentários:

Aqui vai uma questão que exige o conhecimento prévio da fórmula que calcula a correlação amostral entre duas variáveis. Bem decoreba! Mas, pelo menos ela já nos fornece todos os dados que precisáremos para substituir na equação. Ufa! Veja agora o tamanho desse monstro (não se assuste):

Correlação (x,y) = n.∑x.y – (∑x) . (∑y)

________________________

√ {[n∑x

2

_{– (∑x)}

2

_{] . [n∑y}

2

_{– (∑y)}

2

_]}

(23)

Legal né? Já temos tudo. Basta inseri-los nesta fórmula, calcular e ver o que encontramos. Então vamos lá.

Resolvendo: Correlação (x,y)

= 10.3940 – (171) . (221)

_________________________

√ {[10.3171– (171)

2

_{] . [10. 5069– (221)}

2

_]}

Correlação (x,y)

= 39400 – 37791

_______________________

√ {[31710– 29241] . [50690– 48841]}

Correlação (x,y)

= 1609

___________

√( 2469 . 1849)

Correlação (x,y)

= 1609

________

√4565181

Correlação (x,y)

= 1609

_____

2136,63

Correlação (x,y)

= 0,75.

Portanto, a resposta dessa questão é a letra b).

Infelizmente, a única saída para resolver essa questão é usar essa fórmula. Todos os dados foram fornecidos. E na verdade, vimos que nem precisamos olhar para os dados dentro da tabela. Puro enfeite! Estavam lá apenas para nos induzir ao erro de tentar calcular coisas desnecessárias.

(24)

Então, fique com essa dica: faça pelo menos duas vezes esse processo de cálculo para que você se acostume com essa fórmula. Mas, aqui vai outra dica que é melhor ainda: refaça o exercício ao longo de alguns dias. Isso quer dizer que você não deve se contentar apenas por conseguir resolvê-la por si só, por

diversas vezes, em um único dia. Você deve ser capaz de resolvê-la por um prazo maior do que isso.

Todavia, há uma forma de deixar essa memorização mais eficiente ainda. E aqui vai minha dica mais valiosa para lhe dar com esse tipo de fixação...

...refaça esse cálculo em dias distantes, com um

intervalo de pelo menos dois dias!

Esse intervalo pode ser aumentado gradativamente, à medida que você vai se sentindo mais confiante, resolvendo sem fazer consultas. E isso é comprovado que funciona cientificamente! O que faz um enorme sentido, pois, você forçará o seu cérebro mais, ao tentar lembrar uma coisa que foi feita em um tempo mais distante. Essa técnica é altamente eficiente para quando se está interessado em obter fixações de longo prazo.

(25)

Eis A Melhor Reta

Tema: Análise de Regressão

A partir de uma amostra aleatória foram obtidas as estatísticas:

médias variâncias amostrais e covariância

Qual a reta de regressão estimada de Y em X? a) b) c) d) e) Comentários:

Esta questão bate bem no núcleo do conceito de Análise de Regressão. Que é a estimação dos parâmetros de um modelo. Em nosso caso aqui agora, temos duas variáveis com seus respectivos dados coletados. Mas, podemos ver que não nos interessa conhecê-los - nessa questão especificamente - para fazer o que está sendo pedido, pois, esses nem nos foram fornecidos. Apenas usaremos o que foi dado.

A equação de regressão linear simples que envolve duas variáveis é dada por

Y = a . X + b

Onde Y é a variável dependente da variável X. E X é conhecida como variável independente ou explicativa/preditora.

Quando temos duas variáveis numéricas que parecem ter alguma relação linear, podemos expressá-las uma em função da outra, de tal forma que uma explique a outra. Então, nesse caso temos a equação acima.

O que nos resta é encontrar os valores dos coeficientes a e b, que melhor expliquem Y, tais que os erros sejam os mínimos.

(26)

Obviamente, não iremos entrar na teoria por trás disso. Pois, precisamos de apenas saber que após um longo processo de cálculo iremos chegar a seguinte forma de estimação:

a = Σ(x

i

– X

m

) . (y

i

– Y

m

) / Σ(x

i

– X

m

)

2

Onde, Xm e Ym representam as médias da variável X e Y, respectivamente.

b = Y

m

– a . X

m

Então, por aqui vemos que o coeficiente b é encontrado depois que encontramos a.

E são apenas esses resultados que precisaremos para encontrar a reta de regressão estimada de Y em X.

Como a questão não nos deus os valores individuais de cada elemento da variável. Temos uma boa notícia: Não precisaremos fazer essa conta toda para encontrar a e b.

Mas, temos que encontrar uma saída então. Utilizando o que nos foi dado. Veja só, a variância S2x amostral de uma variável X qualquer é dado por,

Σ(x

i

– X

m

)

2

/ (n – 1).

E a covariância amostral entre duas variáveis X e Y expressa por,

Σ(x

i

– X

m

) . (y

i

- Y

m

) / (n – 1).

Veja o que acontece quando fazemos a divisão da covariância amostral entre X e Y pela variância amostral de X:

[

Σ(x

i

– X

m

) . (y

i

- Y

m

) / (n – 1)] / [Σ(x

i

– X

m

)

2

/ (n – 1)].

=

[Σ(x

i

– X

m

) . (y

i

- Y

m

) / (n – 1)] . [(n – 1) / Σ(x

i

– X

m

)

2

]

Logo, o (n – 1) desaparece. Pois ele é cortado na razão (n – 1) / (n – 1) = 1. Então, temos,

Σ(x

i

– X

m

) . (y

i

- Y

m

) / Σ(x

i

– X

m

)

2

Portanto, a é estimado por nada mais que Covariância Amostral entre X e

(27)

Resolvendo:

1° Passo – Calcular a

a = Covariância Amostral entre X e Y / Variância Amostral de X = Sxy / S2x

a = 36 / 30 = 1,2.

2° Passo – Calcular b

b = Ym – a . Xm = 19 – 1,2 . 12,5 = 4.

3° Passo – Montar a Reta de Regressão com os Valores a e b

Pelos passos anteriores vimos que a e b são iguais a 1,2 e 4, respectivamente. Logo, a reta de regressão estimada de Y em X é dada por,

Y = 4 + 1,2 . X.

Resposta: letra c).

Mais uma vez vimos que essa questão era uma daquelas que precisamos utilizar uma fórmula e aplicar os resultados prontos que já nos foram dados. Sabendo essas fórmulas, a resolução da questão pode ser extremamente rápida e simples. Essa questão, por exemplo, pode ser resolvida em 30 segundos, ou menos, se você estiver muito bem familiarizado com as etapas de cálculos. Sem segredos! Dê uma praticada nessa resolução. Invente os valores de variâncias,

covariâncias e médias. A ideia é que você se apegue ao hábito de resolvê-la naturalmente.

(28)

Resumo Das Dicas e Pontos Mais Quentes Deste

Livro



Preste muita atenção na forma como os intervalos de classes, das distribuições de frequências, foi construída. Eles precisam estar com os extremos definidos para o cálculo da média.



Algumas questões que aparentemente são as mais trabalhosas acabam sendo as mais simples. A solução pode ser a mais trivial que se parece!



Geralmente, a banca ESAF, nos fornece resultados de contas complicadas já calculados.



Pratique a forma de cálculo da média e variância de uma distribuição de dados por classes.



Procure saber mais sobre as distribuições de probabilidade Binomial, Geométrica, Poisson, Uniforme, Normal, Exponencial e Uniforme Contínua.



A distribuição normal, de formato de sino, é a principal das principais. Entenda suas características.



A distribuição normal padronizada é um caso particular da distribuição normal.



A distribuição normal padronizada tem média zero e variância igual um.



Nas questões de probabilidade, defina muito bem os eventos de interesse.



As questões que abordam o teorema de Bayes e da Probabilidade total geralmente incluem no máximo três eventos.



Resolva os exercícios por caminhos claros: Passo a Passo.



Refaça aqueles exercícios que você teve mais dúvidas, alterando os dados.



Treine o processo de cálculo das questões que exigem equações mais trabalhosas.



Faça e refaça as questões que requerem fórmulas extensas em dias distantes para melhorar a sua eficiência de absorção das etapas a serem seguidas.

Se você gostou de minhas dicas, da leitura deste livro e busca aprender mais, visite o meu espaço virtual:

eunylsonlopes.com/est/blog

E mais uma vez, muito obrigado por ter adquirido este material. Desejo a você um ótimo estudo e, uma excelente prova!

Cordialmente,