• Nenhum resultado encontrado

probabilidade

N/A
N/A
Protected

Academic year: 2021

Share "probabilidade"

Copied!
101
0
0

Texto

(1)

UNIVERSIDADE FEDERAL DE CAMPINA GRANDE - Campus I UNIDADE ACADÊMICA DE MATEMÁTICA E ESTATÍSTICA Disciplina: Probabilidade e Estatística (6 créditos) Período 2009.2 Prof. Gilberto Matos e Areli Mesquita

Aluno(a): .

1a

NOTA DE AULA

1

Introdução à Estatística

1.1

A Ciência Estatística

O conceito de Estatística pode ser considerado de duas maneiras. O primeiro conceito, logo relaciona a Estatística com tabelas e gráficos nos quais os dados obtidos são represen-tados, ou melhor, relaciona à números específicos. Ouvimos, assim, falar em estatísticas do IBGE, estatísticas relacionadas à saúde e educação, índices econômicos, pesquisas de opinião, etc. Um segundo conceito refere-se ao conjunto de processos ou técnicas em-pregadas na investigação e análise de fenômenos. Neste caso, a Estatística é a ciência ou método científico que estuda os fenômenos aleatórios e, procura inferir as leis que os mesmos obedecem. Assim, um conceito mais abrangente e absoluto deve englobar tanto o primeiro conceito, o qual é o mais popular, quanto o segundo, o qual normalmente escapa à noção corrente.

Definição 1.1 (Estatística). A Estatística é uma ciência que se preocupa com a coleta, organização, descrição, análise e interpretação dos dados, a fim de extrair in-formações a respeito de uma população.

Dentro dessa idéia, podemos considerar a Ciência Estatística como dividida basica-mente em duas partes:

1. Estatística Descritiva - que se preocupa com a organização e descrição dos dados experimentais;

2. Estatística Inferencial - que, a partir da observação de alguns dados experimentais, realiza a análise e interpretação de dados com o objetivo de generalizar e prever resultados, utilizando-se para isto da Teoria das Probabilidades.

Nesta disciplina, serão abordados tópicos referentes à estatística descritiva, conceitos fundamentais de probabilidade e os modelos probabilísticos mais importantes para o estudo da inferência estatística.

(2)

1.2

Estatística: Uma Visão Sistêmica

(Desenhar figura representando uma visão sistêmica da estatística)

1.3

Conceitos Fundamentais

Um dos principais conceitos utilizados na estatística é o de população.

1.3.1 População e Amostra

Definição 1.2 (População). A população é um conjunto de todos os elementos (pessoas, objetos, etc) que possuem pelo menos uma característica em comum, a(s) qual(is) os relacionam ao problema que está sendo estudado.

Exemplo 1. Se o problema a ser pesquisado está relacionado com a qualidade de um certo produto produzido numa indústria, a população pode ser composta por todas as peças produzidas numa determinada hora, turno, dia ou mês, dependendo dos objetivos; Exemplo 2. Se o objetivo de um estudo é pesquisar o nível de renda familiar de uma certa cidade, a população seria todas as famílias desta população. Mas, se o objetivo fosse pesquisar apenas a renda mensal do chefe da família, a população a ser pesquisada seria composta por todos os chefes de família desta cidade.

(3)

A População pode ser:

1. Finita - quando o número de unidades de observação pode ser contado e é limitado; 2. Infinita - quando a quantidade de unidades de observação é ilimitada;

Podemos citar como exemplo de população finita o conjunto formado pelos alunos que cursam a disciplina de estatística num determinado semestre da UFCG. Um exemplo de população infinita seria o conjunto formado por todos os alunos de estatística do Brasil, pois este conjunto é composto por um número incontável de elementos.

Definição 1.3 (Amostra). A amostra é apenas uma parte da população, ou seja, é um subconjunto da população.

Vários motivos levam a necessidade de se observar apenas uma parte da população, como, por exemplo: a falta de tempo, recursos financeiros e/ou humanos. A amostra deve ser obtida através de técnicas de amostragem, as quais tem como objetivo principal garantir a representatividade da população, ou seja, fazer com que a amostra seja um retrato fiel da população.

Exemplos de amostra podem ser conjuntos formados por apenas uma parte dos ele-mentos populacionais descritos nos Exemplos 1 e 2.

1.3.2 Parâmetro e Estatística

Dois novos conceitos estreitamente relacionados com os de população e amostra são os de Parâmetro e Estatística, tendo em vista que:

Definição 1.4 (Parâmetro). é uma medida numérica que descreve uma característica da população, ou ainda, que é obtida a partir de todos os dados populacionais (através de um censo).

Definição 1.5 (Estatística). é uma medida numérica que descreve uma característica da amostra, ou ainda, que é obtida a partir de dados amostrais (de uma parte da população).

(4)

1.3.3 Variáveis (ou Dados) e Tipos de Variáveis

Definição 1.6 (Variável). Uma Variável nada mais é que uma característica (ou dado) associada a cada elemento da população ou amostra. A variável apresenta dife-rentes valores, quando sujeita a mensurações sucessivas, e, em geral, é denotada pelas letras maiúsculas: X, Y ou Z.

Antes de realizar qualquer tratamento estatístico de um conjunto de dados, é impor-tante identificar qual é o tipo de dado (ou variável) que será analisado, pois, é mediante a este conhecimento que o pesquisador poderá ou não adotar determinadas técnicas esta-tísticas para a resolução de problemas. Por exemplo, será que é possível calcular o peso médio de lutadores de boxe, quando os dados são coletados segundo a categoria de peso: Leve, Médio ou Pesado?

Tipos de Variáveis

Basicamente, as variáveis podem ser classificadas como sendo Qualitativas ou Quan-titativas.

1. Variáveis Qualitativas - quando os valores que elas podem receber são referentes à qualidade, atributo ou categoria. Exemplos são:

• Raça: podendo assumir os valores Branco ou Negro; • Sexo: Masculino ou Feminino;

• Escolaridade: 1◦ grau completo, 2grau completo, superior, pós-graduado;

• Conceito de qualidade: péssima qualidade, regular ou boa qualidade.

As variáveis qualitativas podem, ainda, ser classificadas como: Nominais ou Ordi-nais.

(a) As variáveis qualitativas nominais - são caracterizadas por dados que se apresentam apenas sob o aspecto qualitativo (Ex: raça e sexo).

(b) As variáveis qualitativas ordinais - são caracterizadas por categorias que aprentam uma ordenação natural. Por exemplo: escolaridade e conceito de qualidade.

2. Variáveis Quantitativas - quando os valores que ela pode assumir são numéricos, os quais podem ser obtidos através de uma contagem ou mensuração.

As variáveis quantitativas podem ser classificadas de acordo com o processo de ob-tenção; podendo ser: Discreta ou Contínua.

(a) As variáveis quantitativas discretas - são variáveis numéricas obtidas a partir de procedimento de contagem. Por exemplo: Quantidade de pessoas numa família, quantidade de acidentes numa indústria, etc.

(5)

(b) As variáveis quantitativas contínuas - são variáveis numéricas cujos valores são obtidos por um procedimento de mensuração, podendo assumir quaisquer valores num intervalo dos números reais, como por exemplo, a temperatura, altura, salário, etc..

Observação 1. O fato de uma variável poder ser expressa por números não significa que ela seja necessariamente quantitativa, por que a classificação da variável depende de como foi medida. Por exemplo, para a variável peso de um lutador de boxe, se for anotado o peso marcado na balança, a variável é quantitativa contínua; por outro lado, se esse peso for classificado segundo as categorias do boxe, a variável é qualitativa ordinal.

1.4

Fases do Método Estatístico

Assim como qualquer ciência, a estatística utiliza o método científico, que consiste das cinco etapas básicas seguintes:

1. Definir cuidadosamente o problema.

Nesta etapa o pesquisador deve certificar-se de que é clara a finalidade de um estudo ou análise. Ao definir o que se quer estudar, ou seja, o problema, é necessário que se faça um levantamento sobre quais estudos já realizados no campo de pesquisa abordado. Deve-se também especificar quem ou o quê será observado no estudo, ou seja, a população a ser pesquisada.

2. Formular um plano para a coleta dos dados adequados.

Nesta fase, o pesquisador deverá listar as variáveis (características ou dados) que sejam relevantes para se atingir os objetivos propostos pela pesquisa. Além disso, deve-se decidir se a coleta dos dados será realizada através de um censo ou amos-tragem, ou seja, se todos os elementos da população serão observados ou se apenas uma parte da população é que será observada e neste último caso deve-se decidir por alguma técnica de amostragem, podendo ser probabilística ou não.

Os dados podem ser classificados quanto à forma de coleta, como:

a. Dados primários - quando o próprio pesquisador é quem elabora e aplica os instrumentos necessários para a coleta dos dados, ou seja, quando a Coleta é Direta; b. Dados secundários - quando o pesquisador utiliza informações já colhidas por outrem, retirando-as de livros, revistas, mapas anuários, etc.

3. Coligir ou apurar os dados.

Esta fase consiste em resumir os dados, através de sua contagem e agrupamento. É possível que nesta fase seja identificado a presença de dados absurdos fazendo-se necessário a eliminação ou correção destes tipos de dados.

(6)

1a

LISTA DE EXERCÍCIOS

1 - Defina e/ou explique com suas próprias palavras, o que você entende por Ciência Estatística e quais os principais ramos (partes) da Estatística.

2 - Através de um exemplo, defina: População e Amostra. 3 - Considere as seguintes situações:

1) Em uma pesquisa, feita pela EMPETUR com 1015 pousadas escolhidas aleato-riamente, 269 (ou 26,5%) possuíam Home-page na Internet para divulgação e prestação de serviços ao turista.

2) Outra pesquisa feita entre as 50 Agências de Viagens de uma certa localidade mostra que 42 (ou 84%) prestam serviços pela Internet.

Identifique em qual das situações nós temos um exemplo de Parâmetro e outro de Estatística (no sentido de medida). Justifique sua resposta.

4 - O que você entende por variável? Justifique a sua resposta por intermédio de um exemplo.

5 - Como você diferencia uma variável discreta de uma variável contínua? Utilize um exemplo para melhor ilustrar.

6 - Defina e/ou explique com suas próprias palavras, o que você entende por amostragem. 7 - Qual é o principal objetivo de qualquer plano de amostragem?

8 - As estatísticas geradas por intermédio de uma amostra devem ser representativas desta amostra ou da população de origem? Justifique a sua resposta.

9 - Para que uma amostra seja representativa, é necessário apenas que a mesma tenha um tamanho apropriado? Justifique a sua resposta.

10 - A Revista dos Eventos, N 13, tentando sanar, ao menos parcialmente, a carência de informações precisas sobre a indústria de eventos, promoveu a 1a PESQUISA

-O Mercado de Congressos no Brasil. -Os resultados desta pesquisa se baseiam em 40 questionários respondidos sobre um total de 1000, os quais foram encaminhados por entrega pessoal a dirigentes de entidades integrantes do cadastro da própria Revista dos Eventos. Qual é o problema ou a limitação desta pesquisa? Pelo menos teoricamente, qual seria o melhor procedimento para este tipo de pesquisa, já que a empresa possui um cadastro das entidades?

11 - Classifique cada uma das informações (variáveis) abaixo, de acordo com os tipos de variáveis.

a) Nome b) Nível de satisfação

(7)

UNIVERSIDADE FEDERAL DE CAMPINA GRANDE - Campus I UNIDADE ACADÊMICA DE MATEMÁTICA E ESTATÍSTICA Disciplina: Probabilidade e Estatística (6 créditos) Período 2009.2 Prof. Gilberto Matos e Areli Mesquita

Aluno(a): .

2a

NOTA DE AULA

2

Análise Exploratória de Dados / Estatística

Des-critiva

2.1

Introdução

A estatística pode ser considerada como um instrumento ou um conjunto de métodos matemáticos que devem ser utilizados quando se pretende transformar dados em informação. Para ilustrar este processo, veja a Figura 1:

12 15 18 15 12 18 18 15 18 17 19 20 Conjunto de dados ⇒ Média Moda Mediana Proporção Quantis Conjunto de informações Figura 1:

No primeiro retângulo, tem-se um conjunto de observações da variável idade de um grupo de 12 pessoas e, no segundo retângulo, as estatísticas (informações) que podem representar esses números.

2.2

Organização de dados: Tabelas e Gráficos

2.2.1 Distribuição de Frequências

O primeiro passo para se resumir um conjunto de dados é ordená-los em ordem cres-cente ou decrescres-cente, e proceder a contagem do número de ocorrência (freqüência) de cada dado. À ordenação dos dados denominamos de Rol. Assim, o rol para o conjunto de dados da Figura 1 fica:

(8)

Desta maneira, fica fácil verificar a freqüência com que cada um dos dados foi obser-vado, por exemplo: o valor 12 ocorreu 2 vezes; o valor 15 ocorreu 3 vezes, e assim por diante.

Uma maneira adequada de apresentar os dados e suas respectivas freqüências é através de uma Tabela de Freqüências, a qual é constituída por uma coluna referente aos dados e outra referente às freqüências associadas a cada valor observado (ni). Veja

como fica para o conjunto de dados da Figua 1:

Tabela 1: Tabela de Freqüências da variável idade, para um grupo de 12 pessoas.

Idade Frequência (ni) 12 2 15 3 17 1 18 4 19 1 20 1 Total de observações (n) 12

Uma medida bastante útil na interpretação de tabelas de freqüências é a freqüência relativa (fri), a qual é dada pela razão entre a freqüência do i-ésimo valor observado, ni e

o total de dados observados, n. Pode-se, ainda, representar a freqüência relativa em termos de porcentagem, bastando para isso multiplicar a freqüência relativa fri por 100.

Para alguns tipos de variáveis, tais como a qualitativa ordinal e as quantitativas (dis-creta ou contínua), pode ser útil também, a informação de quantas observações apresentam valores menores ou iguais a um certo valor fixado. Este tipo de informação é denominado de freqüência acumulada, fac, a qual também pode ser expressa em termos relativos ou

por porcentagens.

Vejamos, agora, como fica a tabela de freqüências anterior com estas informações adicionadas:

Tabela 2: Tabela de Freqüências da variável idade, para um grupo de 12 pessoas. Idade ni fri fri× 100 (%) fac (%) 12 2 0,1667 16,67 16,67 15 3 0,2500 25,00 41,67 17 1 0,0833 8,33 50,00 18 4 0,3333 33,33 83,33 19 1 0,0833 8,33 91,67 20 1 0,0833 8,33 100,00 Total (n) 12 1,0000 100,00

Observação: Ao conjunto de todos os pares de valores, referentes a cada dado obser-vado e sua respectiva freqüência, denominamos de Distribuição de Freqüências. Desta

(9)

forma, os pares (12, 2), (15, 3), (17, 1), (18, 4), (19, 1) e (20, 1) representam a distribuição de freqüências da variável idade para esse grupo de pessoas.

Representação Gráfica

Uma representação gráfica da distribuição de freqüências de uma variável tem a van-tagem de, numa maneira rápida e concisa, informar sobre a variabilidade da mesma.

Gráfico de Colunas - é mais adequado para variáveis discretas mas também pode ser utilizado para variáveis qualitativas ordinais, ou ainda, para variáveis qualitativas nominais cujos nomes das categorias são pequenos.

Neste gráfico, cada valor observado é representado por retângulos de mesma base e alturas proporcionais às freqüências. Para ilustrar, veja como fica este gráfico para a distribuição de freqüências da variável idade, utilizando a freqüência absoluta e relativa em termos de porcentagem:

Figura 1:

Distribuição de freqüências da variável idade

2 3 1 4 1 1 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 12 15 17 18 19 20 Idade (anos) Freqüência (n_i) Figura 2:

Distribuição de freqüências da variável idade

16.7% 25.0% 8.3% 33.3% 8.3% 8.3% 10.0% 15.0% 20.0% 25.0% 30.0% 35.0% 40.0% 45.0% 50.0% Freqüência (%)

(10)

Exercício de Fixação

1 - O seguinte conjunto de dados é referente ao número de acidentes por dia em certo trecho de rodovia no mês de setembro de certo ano:

2 0 1 2 3 1 6 1 0 0 1 2 2 1 2 0 1 4 2 3 0 1 0 2 1 2 4 1 1 1 Responda as seguintes questões:

a) Qual o número mínimo de acidentes, num certo dia? E o número máximo? b) Freqüêntemente, ocorreram quantos acidentes por dia? E o que isso representa

em termos de percentuais?

c) Represente graficamente a distribuição de frequência da variável número de acidentes por dia, no mês de setembro.

d) Faça um gráfico de colunas para o percentual acumulado.

2.2.2 Distribuição de Frequências para Dados Agrupados em Classes Em algumas situações, é necessário o agrupamento de dados em categorias ou classes para se proceder a construção de uma tabela de freqüências. Por exemplo, em um conjunto de dados contínuos, um mesmo valor não ocorrerá com grande freqüência, ou até mesmo, não se repetirá por mais de uma vez. Uma vantagem em agrupar os dados em classes consiste na organização de grandes conjuntos de dados de forma mais clara e objetiva. Por outro lado, uma desvantagem, consiste na perda de informações por não se saber exatamente quais os valores ocorridos dentro de cada classe.

Para ilustrar como proceder a construção de uma tabela de freqüências em classes, considere o seguinte conjunto de dados:

Tabela 2: Dados referentes às notas no 1o estágio de 20 estudantes de estatística.

Código do aluno 1 2 3 4 5 6 7 8 9 10

Nota 7,5 8,0 9,0 7,3 6,0 5,8 10,0 3,5 4,0 6,0 Código do aluno 11 12 13 14 15 16 17 18 19 20 Nota 7,5 7,0 8,5 6,8 9,5 9,8 10,0 4,8 5,5 7,0

Note que, não haverá vantagem alguma se organizarmos estes dados numa tabela de freqüências, uma vez que os dados pouco se repetem. Assim, torna-se útil o agrupamento dos dados, que, de um modo geral, pode ser feito de acordo com os seguintes passos:

(11)

2. Estabelecer o Número de Intervalos (categorias ou classes) para se dividir o con-junto de dados.

A escolha do número de classes é arbitrária, a qual pode ser estabelecida de acordo com o bom senso do pesquisador ou obtido por alguma fórmula matemática

construída para este fim. Uma sugestão prática é a escolha entre 5 e 15 classes com a mesma amplitude e duas fórmulas matemáticas que podem orientar na escolha do número de classes, são:

(a) k = √n

(b) k = 1 + 3, 3 × log(n)

Onde k é o número de classes e n é o número total de observações. 3. Calcular a Amplitude Total:

AT ot = xm´ax− xm´in

Onde xm´ax e xm´in é o valor máximo e mínimo observado no conjunto de dados.

4. Determinar a Amplitude de Classe:

h = AT ot k

5. A partir do menor valor observado no conjunto de dados, ou de algum valor imedia-tamente inferior e adequadamente escolhido, delimitar as classes, ou seja, determinar os limites inferiores e superiores de cada classe.

Neste momento, os seguintes símbolos são úteis:

(a) li −−−−| Li - para indicar que o valor extremo inferior (li) não pertence

à i-ésima classe, enquanto que o valor extremo superior (Li) pertence.

(b) li |−−−− Li - para indicar que o valor extremo inferior (li) pertence à

i-ésima classe, enquanto que o valor extremo superior (Li) não pertence.

6. Após todos estes passos, só resta proceder a contagem do número de observações pertencentes à cada uma das classes e organizar estas informações numa tabela de freqüências para dados agrupados.

(12)

(Construir a tabela de freqüências para dados agrupados)

Representação Gráfica de uma Variável Quantitativa Contínua - Histograma Para a representação gráfica de variáveis quantitativas contínuas é necessário alguma adaptação do gráfico de colunas, uma vez que, em geral, é necessário agrupar os dados em classes e conseqüentemente há perda de informações.

Histograma - é um gráfico indicado para representar dados agrupados em classes. Este gráfico é uma adaptação do gráfico de colunas, onde as bases correspondem aos intervalos de classe e as alturas são proporcionais às freqüências de classe. Veja como fica o histograma para a distribuição das notas:

(13)

Exercícios de Fixação

1 - Segue abaixo os dados da variável taxa de mortalidade infantil de 34 municípios: 32,3 62,2 10,3 22,0 13,1 9,9 11,9 20,0 36,4 23,5 18,0 22,6 20,3 38,3 19,6 27,2 28,9 18,4 27,3 21,7 23,7 13,9 36,3 32,9 29,7 25,4 23,8 15,7 17,0 39,2 22,7 29,9 18,3 33,0

Obtenha uma distribuição de frequências com 7 classes, começando do valor 0 (in-cluso) e com amplitudes de classe iguais a 10. Apresente alguns comentários sobre a taxa de mortalidade infantil dos 34 municípios.

2 - Em uma pesquisa foram anotados os tempos decorridos entre a incidência de uma certa doença e sua cura, em 50 pacientes. Estes tempos são os seguintes, em horas:

21 44 27 323 99 90 20 66 39 16 47 96 127 74 82 92 69 43 33 12

41 84 02 61 35 74 02 83 03 13

41 10 24 24 80 87 40 14 82 58

16 35 114 120 67 37 126 31 56 04

Construa um histograma e comente sobre alguns aspectos relevantes desta distribui-ção.

(14)

UNIVERSIDADE FEDERAL DE CAMPINA GRANDE - Campus I UNIDADE ACADÊMICA DE MATEMÁTICA E ESTATÍSTICA Disciplina: Probabilidade e Estatística (6 créditos) Período 2009.2 Prof. Gilberto Matos e Areli Mesquita

Aluno(a): .

3a

NOTA DE AULA

2.3

Medidas Resumo para Variáveis Quantitativas

Nesta seção veremos algumas medidas que tem como objetivo resumir um conjunto de dados em um único valor o qual possa fornecer informações sobre o comportamento dos dados, ou seja, sobre a distribuição de freqüências da variável.

2.3.1 Medidas de Tendência Central

As medidas de tendência central são bastante utilizadas e representam o centro ou o meio de um conjunto de dados. As principais são: a mediana, a moda, e a média aritmética. A seguir estas medidas são definidas e obtidas para os dois seguintes conjuntos de dados que representam o número de gols registrados em cada partida de futebol, durante 5 e 6 jogos, respectivamente:

Conjunto de dados 1: Número de gols por partida de futebol, em 5 jogos. 3 2 1 2 5

Conjunto de dados 2: Número de gols por partida de futebol, em 6 jogos. 5 3 2 1 2 5

1. Mediana - é o valor que divide o conjunto de dados ordenados em duas partes iguais, ou seja, 50% das unidades observadas possuem valores menores ou iguais ao valor mediano e as demais 50% possuem valores acima da mediana.

Para se obter o valor da mediana é necessário os seguintes passos: 1◦) Ordenar o conjunto de dados em ordem crescente (ou descrescente);

2◦) Identificar a posição central do conjunto de dados, ou seja, a posição onde

se encontra o valor da mediana. Esta(s) posição(ões) pode(m) ser verificada(s) utilizando-se as seguintes fórmulas:

(a) PM d = n+12 , se o total de observações, n, é ímpar. Assim, a mediana será

o valor observado na posição PM d;

(b) P 1M d = n2 e P 2M d = n2 + 1, se o total de observações, n, é par. Pois, neste

caso, existem duas posições centrais e a mediana será a média aritmética dos valores observados nestas duas posições.

(15)

Exemplo 1: A partir do conjunto de dados 1, pode-se obter o seguinte rol de dados:

1 2 2

|{z}

mediana

3 5

Note que, o número de observações, n = 5, é ímpar, logo o valor da mediana (valor central) está na posição PM d= n+12 = 5+12 = 3, que é igual a Md = 2.

Exemplo 2: Ordenando em ordem crescente o conjunto de dados 2, teremos o seguinte rol de dados:

1 2 2 3

| {z }

dois valores centrais

5 5

Agora, neste caso, o número de observações, n = 6, é par, e, portanto, existem dois valores centrais localizados nas posições P 1M d = n2 = 62 = 3 e P 2M d = n2 + 1 =

3 + 1 = 4. Assim, a mediana será a média aritmética dos valores que se encontram nestas duas posições, dada por:

Md = xP1M d+ xP2M d

2 =

2 + 3

2 = 2, 5. Observação:

Pode-se, também, obter a posição da mediana através dos seguintes passos: 1◦) Obter o valor que representa a metade do total de observações: P

M d = n2;

2◦) Utilizar a seguinte regra:

(a) Se PM d for um número não inteiro, então, arredonda-se o valor de PM d para

o maior inteiro mais próximo, e, assim, o valor da mediana estará nesta nova posição obtida.

(b) Se PM dfor um número inteiro, então o valor da mediana será a média aritmética

dos valores que estão nas posições PM d e PM d+ 1.

Exemplo 3: Utilizando-se os procedimentos descritos na observação acima, temos que, para o conjunto de dados 1, PM d = n2 = 52 = 2, 5 (não inteiro), logo o valor da

mediana estará na posição PM d = 3 (maior inteiro mais próximo), que é dado por

Md = 2.

Exemplo 4: No conjunto de dados 2, temos PM d = n2 = 62 = 3 (inteiro), assim, de

acordo com o procedimento descrito na observação acima, temos que a mediana é dada pela média aritmética dos valores observados nas posições PM d= 3 e PM d+1 =

(16)

2. Moda - é o valor (ou os valores) no conjunto de dados que ocorre(m) com maior freqüência.

Notação: Mo ou Mo(X).

Exemplo 5: O primeiro conjunto de dados, 1 2 2 3 5, é dito ser unimodal, tendo em vista que um único valor ocorre com maior frequência. Assim, a moda é Mo = 2.

Exemplo 6: O segundo conjunto de dados, 1 2 2 3 5 5, é dito ser bimodal, tendo em vista que, neste caso, dois valores ocorrem com maior frequência, assim, os valores modais são: Mo = 2 e Mo = 5.

3. Média Aritmética (Média) - é obtida a partir da razão entre a soma dos valores observados e o total de observações:

Média = soma dos valores total de observações (n) Notação: Me, Me(X) ou x.

Exemplo 7: A partir do conjunto de dados 1, a média é obtida por:

Me(X) = x = soma dos valores total de observações (n) =

1 + 2 + 2 + 3 + 5

5 = 2, 6.

Observação:

1) A média aritmética pode ser expressa através do uso do símbolo de somatório P (sigma). Por exemplo, se x1, x2, . . . , xk são k valores distintos da variável X,

podemos escrever: Me(X) = x = x1+ x2 + . . . + xk k = 1 k k X i=1 xi

Agora, se, de um total de n valores observados (ou observações), x1ocorreu n1vezes,

x2 ocorreu n2 vezes, etc., xkocorreu nk vezes, então a média de X pode ser reescrita

como: Me(X) = x = x1.n1+ x2.n2+ . . . + xk.nk n = 1 n k X i=1 xi.ni (1) = k X i=1 xi. ni n (2) = k X i=1 xi.fi. (3) Onde:

(17)

• ni é freqüência absoluta do valor observado xi,

• n =Pki=1ni é o total de observações, e,

• fi é freqüência relativa do valor observado xi.

Exemplo 8: A partir do segundo conjunto de dados, 1 2 2 3 5 5, temos:

Me(X) = x = 1 n k X i=1 xi.ni = 1 6(1 × 1 + 2 × 2 + 3 × 1 + 5 × 2) = 18 6 = 3. Exercícios de Fixação 1 - Dado o seguinte conjunto de dados:

12 12 15 15 15 17 18 18 18 18 19 20 Determine a média, moda e mediana.

(18)

2.3.2 Medidas de Posição: Quartis, Decis e Percentis

Assim como a mediana divide os dados em duas partes iguais, os três quartis, denota-dos por Q1, Q2 e Q3, dividem as observações ordenadas (em ordem crescente) em quatro

partes iguais. A grosso modo:

- Q1 separa os 25% inferiores dos 75% superiores dos valores ordenados;

- Q2 separa os 50% inferiores dos 50% superiores, ou seja, é a mediana; e

- Q3 separa os 75% inferiores dos 25% superiores dos dados;

Analogamente, há nove decis, denotados por D1, D2, . . . , D9, que dividem os dados

em 10 grupos com cerca de 10% deles em cada grupo. Finalmente, há 99 percentis que dividem os dados em 100 grupos com cerca de 1% em cada grupo.

Basicamente, dois passos são necessários para se encontrar as medidas em questão. Primeiro deve-se identificar a sua posição, e, em seguida, determinar o seu valor.

Veja a seguir, como obter os valores referentes aos percentis, quando se está traba-lhando com dados brutos ou em distribuição de freqüências para dados não agrupados:

1◦) Identificar a posição do percentil que se deseja encontrar, através da seguinte

expressão: L = k 100  × n Onde:

- L é o valor que indica a posição do percentil de interesse; - k é o k − ´esimo percentil; e

- n é o total de dados observados. 2◦) Utilizar a seguinte regra:

1. Se L for um número não inteiro, então, arredonda-se o valor de L para o maior inteiro mais próximo, e, assim, o valor do k − ´esimo percentil, Pk, é dado pelo valor

que ocupa esta nova posição obtida.

2. Se L for um número inteiro, então o valor do k − ´esimo percentil, Pk, será a média

aritmética dos valores que estão nas posições L e L + 1.

Uma vez dominados os cálculos para os percentis, pode-se seguir o mesmo processo para calcular os quartis e decis, tendo-se o cuidado de calcular o valor de L, pelas fórmulas L = k 4  × n, k = 1, 2, 3 e L = k 10  × n, k = 1, 2, . . . , 9, respectivamente. Pode-se, ainda, obter os quartis e decis pelas seguintes relações existentes entre estas medidas e os percentis:

(19)

Quartis Decis Q1 = P25 D1 = P10 Q2 = P50 D2 = P20 Q3 = P75 ... D9 = P90 Exercícios de Fixação 1 - Dado o seguinte conjunto de dados:

12 12 15 15 15 17 18 18 18 18 19 20 Determine os Quartis.

(20)

2.3.3 Medidas de Dispersão ou de Variabilidade

Na sumarização de um conjunto de dados, uma única medida representativa da posição central, esconde toda a informação sobre a variabilidade dos dados. Veja, por exemplo, os seguintes dados:

Variável X : 3 4 5 6 7 Variável Y : 4 5 5 6 Variável Z : 5 5 5 5

Note que a média Me(X) = Me(Y ) = Me(Z) = 5, a qual nada informa sobre a variação dos valores nos dois grupos. Assim, torna-se importante o conhecimento de uma medida que forneça este tipo de informação.

Na prática, existem várias medidas que expessam a variabilidade de um conjunto de dados, sendo que as mais utilizadas baseam-se na idéia que consiste em verificar a distância de cada valor observado em relação à média. Estas distâncias são denominadas de desvios em relação à média.

Definição 2.1 (Variância). - é uma medida que representa a variabilidade de um conjunto de dados e, é obtida pelo cálculo da média dos quadrados dos desvios em relação à média: V ar(X) = s2 = 1 n k X i=1 (xi− x)2 × ni = k X i=1 (xi− x)2 × ni n = k X i=1 (xi− x)2 × fi Exercício 1. Mostre que: k X i=1 (xi− x)2× ni = k X i=1 x2ini− nx2

E, por isso, a variância também pode ser obtida pela seguinte fórmula:

V ar(X) = s2 = 1 n k X i=1 x2ini− x2

(21)

Vejamos, agora, como fica a variância para as variáveis X, Y e Z:

Assim, de acordo com a variância, podemos dizer que a variável X apresenta ...

Observação: Para o cálculo da variância, quando os dados estão agrupados em classes, basta substituir os verdadeiros valores observados xi pelo ponto médio da i-ésima

classe si.

Definição 2.2 (Desvio Padrão). - é a raiz quadrada da variância.

D.P.(X) = s =√s2 = v u u t k X i=1 (xi− x)2× fi

O uso do desvio padrão como medida de variabilidade é preferível pelo fato de ser expresso na mesma unidade de medida dos valores observados. Pois, a variância pode causar problemas de interpretação por ser expressa em termos quadráticos.

Definição 2.3 (Coeficiente de Variação). - O coeficiente de variação (CV) é uma medida relativa de variabilidade. O seu valor é determinado por intermédio do quociente entre o desvio padrão e a média aritmética dos dados.

CV (X) = s

x× 100 (expresso em porcentagem (%))

A utilidade imediata do coeficiente de variação é a possibilidade de avaliar o grau de representatividade da média. Esta medida também é bastante útil na comparação entre conjunto de dados, em relação à variabilidade; ainda que as unidades de medida nos conjuntos de dados sejam distintas. Por exemplo, comparar a variabilidade das distribuições da variável peso expressa em quilogramas (Kg) e altura expressa em metros (m).

(22)

Exemplos:

a) Obtenha o desvio padrão das variáveis X, Y e Z além dos coeficientes de variação CV (X), CV (Y ) e CV (Z).

b) Considere os quilômetros rodados por 3 carros: 30 Km, 40 Km e 50 Km. Calcule a média, a variância, o desvio padrão e o CV. Interprete essas medidas.

Exercícios de Fixação 1 - Dado o seguinte conjunto de dados:

12 12 15 15 15 17 18 18 18 18 19 20 Determine o desvio padrão e o CV.

(23)

2.3.4 Medidas Resumo para Dados Agrupados

Sabemos que ao agrupar um conjunto de dados em classes, perde-se informação sobre cada valor individual e, no caso em que seja impossível recuperar cada valor observado, pode-se supor que todos os dados dentro de uma classe tenham seus valores iguais ao ponto médio desta classe que denotaremos por si. Assim, pode-se, por exemplo, utilizar

os pontos médios das classes si e suas respectivas freqüências ni para calcular a média

aritmética de maneira análoga ao exposto anteriormente. Da mesma forma, pode-se adotar como valor modal, o ponto médio da classe modal e como mediana, o ponto médio da classe mediana.

Exemplo: Dada a seguinte distribuição de freqüência da variável S=salário (dados agrupados em classes): Salário ni 4, 00 ⊢ 8, 00 10 8, 00 ⊢ 12, 00 12 12, 00 ⊢ 16, 00 8 16, 00 ⊢ 20, 00 8 20, 00 ⊢ 24, 00 2

Determine o valor (aproximado) da média, moda e mediana. Determine também o desvio padrão e o CV. Determine a mediana aproximada usando o histograma. Determine, ainda, os quartis aproximados pelos pontos médios de classe e usando o histograma.

(24)

2.4

Outra Estratégia de Análise de Dados

Em algumas situações a média e o desvio padrão podem não ser adequados para representar um conjunto de dados, pois:

i - São afetadas, de forma exagerada, por valores extremos;

ii - Apenas com estes dois valores não temos a idéia da assimetria dos valores, ou seja, sobre o quanto os dados se distribuem em torno dos valores inferiores, medianos e superiores.

Para contornar estes problemas, 5 medidas foram sugeridas por Tukey (1977): 1◦) A mediana (Md);

2◦) Os extremos: o menor e o maior valor observado no conjunto de

dados (xm´in e xm´ax, respectivamente);

3◦) O primeiro e o terceiro quartil (ou junta).

2.4.1 Desenho Esquemático - Diagrama em Caixa ("Box-Plot")

As informações obtidas pelas 5 medidas podem ser representadas por um gráfico co-nhecido por "Box-Plot"ou diagrama em caixa. Para construir este diagrama, consideremos um retângulo onde estão representados a mediana e os quartis. A partir do retângulo, para cima, segue uma linha até o ponto mais remoto que não exceda LS = Q3+ (1, 5)dq,

chamado limite superior, onde dqrepresenta a distância entre o primeiro e o terceiro quartil.

De modo similar, da parte inferior do retângulo, para baixo, segue uma linha até o ponto mais remoto que não seja menor do que LI = Q1 − (1, 5)dq, chamado limite inferior.

Os valores compreendidos entre esses dois limites são chamados valores adjacentes. As observações que estiverem acima do limite superior ou abaixo do limite inferior estabelecidos serão chamadas pontos exteriores e representadas por asteriscos. Essas são observações destoantes das demais e podem ou não ser o que chamamos de outliers ou valores atípicos.

O box plot dá uma idéia da posição, dispersão, assimetria, caudas e dados discrepan-tes. A posição central é dada pela mediana e a dispersão por dq. As posições relativas de

Q1, Q2, Q3 dão uma noção da assimetria da distribuição.

Veja, como fica o box-plot da variável Peso apresentado na Figura 3.

Gráficos tipo box-plot também são úteis para detectar, descritivamente, diferenças nos comportamentos de grupos de variáveis. Por exemplo, podemos considerar gráficos da variável Peso para cada sexo. O resultado é apresentado na Figura 4, em que podemos notar que os homens apresentam peso mediano superior ao das mulheres, além de uma maior variabilidade.

(25)

Figura 3: Box-plot para a variável Peso

(26)

UNIVERSIDADE FEDERAL DE CAMPINA GRANDE - Campus I UNIDADE ACADÊMICA DE MATEMÁTICA E ESTATÍSTICA Disciplina: Probabilidade e Estatística (6 créditos) Período 2009.2 Prof. Gilberto Matos e Areli Mesquita

Aluno(a): .

2a

LISTA DE EXERCÍCIOS

1 - Considere uma distribuição de freqüências qualquer representada por (x1, n1), (x2, n2), . . . , (xk, nk).

Mostre que a soma dos desvios em relação à média é igual zero, ou seja, que Pk

i=1(xi− x) × ni = 0.

2 - Obtenha a média e a mediana para o seguinte conjunto de dados:

20 30 40

a) Se substituímos o valor 40 por 70, os valores da média e da mediana serão os mesmos? Justifique?

b) Analisando os resultados acima, ressalte uma característica vantajosa da medi-ana em relação à média.

3 - Na turma A do curso normal da Escola X, estão matriculados 50 alunos no cor-rente ano. O levantamento das fichas biométricas revelou as seguintes estaturas em centímetros: 165 164 151 160 155 169 153 156 165 160 170 157 162 162 155 154 151 155 162 150 168 160 154 151 168 155 156 158 166 155 154 152 163 156 170 158 171 159 175 154 159 158 153 158 156 162 165 156 161 157

a) Elabore uma distribuição de freqüências, fazendo o limite inferior da primeira classe igual a 150 (inclusive) e amplitudes dos intervalos de classe igual a 5 cm.

b) Baseado na distribuição de freqüência calcule: a média, a mediana e a moda.

4 - As taxas de juros recebidas por 10 ações durante certo período foram (medidas em porcentagem): 2.59; 2.64; 2.60; 2.62; 2.57; 2.55; 2.61; 2.50; 2.63; 2.64. Calcule a média e a mediana.

(27)

5 - Dados os conjuntos de números: A = {1000; 1001; 1002; 1003; 1004; 1005} e B = {0, 1, 2, 3, 4, 5} podemos afirmar que:

a) o desvio-padrão de A é igual a 100 vezes o desvio-padrão de B. b) o desvio-padrão de A é igual ao desvio-padrão de B.

c) o desvio-padrão de A é igual ao desvio-padrão de B multiplicado pelo quadrado de 1000.

d) o desvio-padrão de A é igual ao desvio-padrão de B dividido por 1000. e) o desvio-padrão de A é igual ao quadrado do desvio-padrão de B.

(28)

UNIVERSIDADE FEDERAL DE CAMPINA GRANDE - Campus I UNIDADE ACADÊMICA DE MATEMÁTICA E ESTATÍSTICA Disciplina: Período Aluno(a): . 4a NOTA DE AULA

3

Análise Bidimensional

3.1

Introdução

Em algumas análises de dados pode surgir a necessidade de se fazer um estudo sobre o comportamento conjunto de duas ou mais variáveis e para isso a distribuição conjunta de freqüências é de grande utilidade.

Na presente nota de aula estudaremos apenas o caso de duas variáveis e, sendo assim, é possível observar a ocorrência de três situações distintas que requerem técnicas estatísticas também distintas. As três situações distintas que podem ocorrer são:

• As duas variáveis são Qualitativas; • As duas variáveis são Quantitativas;

• Uma variável é Qualitativa e a outra Quantitativa.

Na presente nota de aula, estudaremos apenas os dois primeiros casos.

3.2

Associação entre duas variáveis qualitativas

Para ilustrar como podemos realizar uma análise sobre a associação entre duas variáveis qualitativas, veremos, por exemplo, como se comportam as variáveis: região de procedência (X) e grau de instrução (Y ) cuja distribuição de freqüências pode ser representada por uma tabela de dupla entrada.

Tabela 1 - Distribuição de freqüências conjunta das variáveis X e Y .

Y 1◦ Grau 2Grau Superior Total marginal de X

X

Capital 4 5 2 11

Interior 3 7 2 12

Outra 5 6 2 13

(29)

Observações:

1. Cada célula do corpo da tabela apresenta o número de ocorrência simultânea dos valores (x, y) de X e Y , constituindo a distribuição conjunta;

2. A coluna dos totais (freqüências marginais de X) constitui a distribuição marginal de X;

3. A linha dos totais (freqüências marginais de Y ) constitui a distribuição marginal de Y ;

4. Assim como no caso de uma única variável, as freqüências absolutas podem ser expressas em termos de freqüências relativas e/ou porcentagens, sendo que, estas medidas podem ser obtidas em relação ao total geral, em relação ao total de cada linha ou em relação ao total de cada coluna, de acordo com o objetivo de cada análise;

Exercício de Fixação A partir dos dados apresentados na Tabela 1, determine:

a) O percentual de pessoas que possuem o 2◦ grau e que são do interior. R: 19%.;

b) Dentre os que possuem o 2◦ grau, qual é o percentual de pessoas provenientes do

interior? R: 39%;

c) Sabendo-se que uma pessoa veio do interior, qual é a probabilidade, em termos percentuais, de ter o 2◦ grau? R: 58,3%.

Para responder estas e outras questões, torna-se útil a construção de tabelas de dupla entrada contendo as freqüências relativas em termos de porcentagem, tendo como referência o total geral, os totais de cada linha ou coluna, de acordo com a questão a ser respondida. Vejamos como ficam estas tabelas:

Tabela 2 - Freqüências percentuais da distribuição conjunta das variáveis X e Y , em relação ao total de dados observados.

Y 1◦ Grau 2Grau Superior Total marginal de X

X Capital Interior Outra

(30)

Tabela 3 - Freqüências percentuais da distribuição conjunta das variáveis X e Y , em relação ao total de linha (freqüência marginal de X).

Y 1◦ Grau 2Grau Superior Total marginal de X

X

Capital 100%

Interior 100%

Outra 100%

Total marginal de Y 100%

Tabela 4 - Freqüências percentuais da distribuição conjunta das variáveis X e Y , em relação ao total de coluna (freqüência marginal de Y ).

Y 1◦ Grau 2Grau Superior Total marginal de X

X Capital Interior Outra Total marginal de Y 100% 100% 100% 100%

3.3

Independência de Variáveis

Ocorre com bastante freqüência em análises de distribuição conjunta o questionamento sobre a existência de dependência ou não entre as variáveis, além da necessidade de se saber o grau de dependência entre elas, caso exista.

De modo geral, o grau de dependência entre duas variáveis é quantificado pelos co-eficientes de associação ou correlação. Usualmente, esses coco-eficientes variam de zero até um, sendo que, às vezes, variam de -1 a 1. Desta maneira, valores próximos de zero dão indícios de independência entre as variáveis e, valores próximos de 1 (ou -1) indicam um alto grau de dependência positiva (ou negativa).

3.3.1 Medidas de Associação entre duas Variáveis Qualitativas

Uma medida de dependência bastante utilizada para variáveis qualitativas é o coeficiente de contingência, o qual é dado por

C = s

χ2

χ2+ n,

onde n é o número de observações e χ2 é uma medida conhecida por qui-quadrado, a qual

(31)

χ2 = r X i=1 s X j=1 (oij− eij)2 eij ,

onde o somatório é estendido a todas as caselas de frequências conjuntas em uma tabela de dupla entrada, e

• oij é a freqüência observada na i-ésima casela;

• eij é a freqüência esperada na i-ésima casela, caso houvesse independência entre as

variáveis, ou seja, quando a proporção em cada categoria de uma variável (fixada o total em linha ou coluna) é igual ou próxima a proporção marginal. No entanto, o valor máximo de C depende de r e s e, para evitar esse inconveniente, costuma-se definir um outro coeficiente, que varia entre 0 e 1, dado por

T = s

χ2/n

(r − 1)(s − 1).

3.3.2 Medidas de Associação entre duas Variáveis Quantitativas

Neste caso, pode-se aplicar um procedimento análogo ao realizado para a análise de variáveis qualitativas. E, por se tratar de variáveis quantitativas, antes de construir uma tabela de dupla entrada, os dados marginais podem ser agrupados em intervalos de classe, assim como no caso de uma única variável. Em análises de associação entre variáveis quantitativas, são possíveis procedimentos analíticos mais refinados, como veremos a seguir.

Diagrama de Dispersão

O diagrama (ou gráfico) de dispersão nada mais é que a representação de pares dos valores observados (x, y) num sistema cartesiano. Vejamos a ilustração de alguns gráficos que podem surgir na prática:

(32)

Coeficiente de Correlação (Linear)

Ao ser observada uma associação entre variáveis quantitativas, seria muito útil saber-mos sobre a intensidade desta associação. Aqui, veresaber-mos apenas uma medida referente ao tipo de associação linear, ou seja, ao tipo de relação em que os pontos do gráfico de dispersão aproximam-se de uma reta.

Definição: Dados n pares de valores (x1, y1), (x2, y2), ..., (xn, yn), chama-se

coefici-ente de correlação entre as variáveis X e Y o valor obtido por

corr(X, Y ) = 1 n n X i=1 (xi− x)(yi− y) dp(X)dp(Y )

ou seja, a média dos produtos dos valores reduzidos (ou padronizados) das variáveis. Enquanto o coeficiente T para variáveis qualitativas só assume valores ente 0 e 1, o coeficiente de correlação pode assumir qualquer valor entre -1 e 1. Uma fórmula alternativa e mais operacional para o coeficiente de correlação é dada por

corr(X, Y ) = p P xiyi− nxy (P x2

i − nx2)(P yi2− ny2)

O numerador da expressão acima, que mede o total de concentração dos pontos pelos quatro quadrantes, dá origem à covariância que é uma medida bastante usada.

Definição: Dados n pares de valores (x1, y1), (x2, y2), ..., (xn, yn), chamamos de

co-variância entre as variáveis X e Y à medida dada por

cov(X, Y ) = n X i=1 (xi − x)(yi− y) n .

Ou seja, a média dos produtos dos valores centrados das variáveis.

Alternativamente o coeficiente de correlação também pode ser escrito como

corr(X, Y ) = cov(X, Y ) dp(X)dp(Y ). Exercício de Aplicação

Numa amostra de cinco operários de uma dada empresa foram observadas duas variá-veis. X: anos de experiência num dado cargo e Y: tempo, em minutos, gasto na execução de uma tarefa relacionada com esse cargo. As observações são apresentadas na tabela abaixo.

X 1 2 4 4 5 Y 7 8 3 2 2

Obs.: P x = 16, P x2 = 62, P y = 22, P y2 = 130,P xy = 53.

(33)

UNIVERSIDADE FEDERAL DE CAMPINA GRANDE - Campus I UNIDADE ACADÊMICA DE MATEMÁTICA E ESTATÍSTICA

Disciplina: Probabilidade e Estatística (6 Créditos) Período 2009.2 Professores: Gilberto Matos e Areli Mesquita

Relação de Exercícios para o 1◦ Estágio

Livro: "Estatística Básica"Autores: Wilton O. Bussab e Pedro A. Morettin Capítulo 1 (4a. Edicão - Antiga) / Capítulo 2 (5a. Edicão - Nova):

4a. Edicão - Antiga 5a. Edicão - Nova Problema Página Problema Página

2 8 2 15

3 e 4 15 4 e 5 22

6 16 7 22

7 16 9 26

9 19 11 28

Capítulo 2 (4a. Edicão - Antiga) / Capítulo 3 (5a. Edicão - Nova): 4a. Edicão - Antiga 5a. Edicão - Nova

Problema Página Problema Página Do 1 ao 4 40 e 41 6 41 Do 14 ao 22 58 a 61 23 e 24 61 e 62 26 e 27 62 e 63 29 64 40 66

Capítulo 3 (4a. Edicão - Antiga) / Capítulo 4 (5a. Edicão - Nova): 4a. Edicão - Antiga 5a. Edicão - Nova

Problema Página Problema Página 1, 2, 3 73 4 e 6 76 9 80 18 a 21 95 22 96 29 e 30 97 e 98

(34)

UNIVERSIDADE FEDERAL DE CAMPINA GRANDE - Campus I UNIDADE ACADÊMICA DE MATEMÁTICA E ESTATÍSTICA Disciplina: Probabilidade e Estatística (6 créditos) Período 2009.2 Prof. Gilberto Matos e Areli Mesquita

Aluno(a): .

5a

NOTA DE AULA

4

Introdução à Probabilidade

Objetivo: Definir um modelo matemático probabilístico que seja conveniente a descrição e interpretação de fenômenos aleatórios.

4.1

Introdução

Ao jogarmos uma moeda para o ar, de modo geral, não podemos afirmar se ocorrerá cara ou coroa. Da mesma forma, quando lançamos um dado não sabemos qual das faces 1, 2, 3, 4, 5, ou 6 ocorrerá. No campo dos negócios e do governo há numerosos exemplos de tais situações. Por exemplo, a incerteza existe quando desejamos realizar uma previsão sobre a procura de um novo produto, a opinião pública em relação a determinado assunto, o sucesso de um novo plano econômico, etc - tudo isso contém algum elemento de acaso. Na Estatística, a incerteza existe quando se quer fazer alguma afirmação a respeito de alguma característica populacional baseada em informações extraídas de dados amostrais. Neste caso, a aplicação da Teoria das Probabilidades é de fundamental importância para a solução de problemas de Inferência Estatística.

Independente de qual seja a aplicação em particular, a utilização das probabilidades indica que existe um elemento de acaso, ou de incerteza, quanto à ocorrência ou não de um evento futuro. Assim é que em muitos casos, pode ser impossível afirmar com antecipação o que ocorrerá. No entanto, é possível dizer o que pode ocorrer.

O ponto central em todas essas situações é a possibilidade de quantificar quão provável é determinado evento.

Em suma, podemos dizer que, as probabilidades são utilizadas para exprimir a chance de ocorrência de determinado evento.

(35)

4.2

Definições Básicas

Definição 4.1 (Experimentos Aleatórios ou Fenômenos Aleatórios). são aque-les onde o processo de experimentação está sujeito a influências de fatores casuais e conduz a resultados incertos.

Notação: E. Exemplos:

E1 : Jogar uma moeda e observar a face superior.

E2 : Lançar um dado e observar o número da face superior.

E3: Uma lâmpada é fabricada. Em seguida é testada a duração da vida útil dessa

lâmpada.

Observações:

a) Cada experimento poderá ser repetido um grande número de vezes sob as mesmas condições;

b) Não podemos afirmar que resultado particular ocorrerá, porém podemos descrever o conjunto de todos os possíveis resultados do experimento;

c) Quando o experimento é repetido um grande número de vezes, surgirá uma regula-ridade nos resultados. Esta regularegula-ridade, chamada de regularegula-ridade estatística, é que torna possível construir um modelo matemático preciso com o qual se analisará o experimento.

Definição 4.2 (Espaço Amostral). é o conjunto de todos os possíveis resultados de um experimento aleatório.

Notação: S ou Ω. Exemplos:

Os espaços amostrais associados aos experimentos aleatórios E1, E2 e E3 são:

S1 =

S2 =

(36)

Definição 4.3 (Evento). Dado um espaço amostral S associado a um experimento E, definimos como evento, qualquer subconjunto desse espaço amostral, ou seja, é qualquer coleção de resultados do experimento E.

Notação: A, B, C, D, etc. Exemplos:

1 - Considerando o espaço amostral S2, exemplos de eventos seriam:

A: Ocorre face par =

B: Ocorre um número menor que 4 = C: Ocorre um número maior que 0 = D: Ocorre o número 10 =

2 - Considerando o espaço amostral S3, um exemplo de evento seria:

A: A vida útil de uma lâmpada é menor que 10 horas =

Observação:

Como os eventos de um espaço amostral são conjuntos, todas as operações da teoria dos conjuntos são válidas para obter novos eventos. Considere, por exemplo, dois eventos A e B, então o evento:

a) A ∪ B ocorrerá se, e somente se, A ocorrer, ou B ocorrer, ou ambos ocorrerem; b) A ∩ B ocorrerá se, e somente se, A e B ocorrerem simultaneamente;

c) A ocorrerá se, e somente se, A não ocorrer;

Um recurso gráfico, conhecido como Diagrama de Venn, poderá ser vantajosamente empregado quando estivermos combinando conjuntos. Para ilustrar, vejamos como fica este diagrama representando os eventos descritos nos itens a, b e c:

(37)

Definição 4.4 (Eventos Mutuamente Excludentes). Dois eventos, A e B, são denominados, mutuamente excludentes, se eles não puderem ocorrer simultaneamente, ou seja, A ∩ B = φ.

Exercício: Esboce um Diagrama de Venn, representando dois eventos mutuamente exclu-dentes.

Exemplo: Ao lançar um dado e observar o número da face superior temos que o evento A: observar face par é mutuamente excludente do evento B: observar face ímpar, pois é impossível observar a ocorrência simultânea destes dois eventos, ou seja, A ∩ B = φ.

Observação: Leis de D’Morgan (i) A ∪ B = A ∩ B (ii) A ∩ B = A ∪ B Exemplos:

1 - Lança-se um dado e observa-se o número da face superior. Considerando este expe-rimento aleatório e os eventos:

A: Ocorre face par =

B: Ocorre um número menor que 4 = Determine em notação de conjuntos os seguintes eventos:

a) C: ocorre face menor que 7 =

b) D: ocorre face cujo valor é maior que 6 = c) A ∪ B d) A ∩ B e) A f) B g) A ∪ B h) A ∩ B i) A ∪ B

(38)

4.3

Abordagens para Definir Probabilidade

4.3.1 Aproximação da Probabilidade pela Freqüência Relativa - (Lei dos Grandes Números)

Definição 4.5 (Freqüência Relativa). Suponha que um experimento é repetido n vezes, e seja A e B dois eventos associados ao experimento. Sejam nA e nB o número de

vezes que o evento A e o evento B ocorram nas n repetições. A freqüência relativa do evento A, representada por fA, é definida como

fA =

nA

n . Propriedades:

(i) 0 ≤ fA≤ 1;

(ii) fA = 1, se, e somente se, A ocorrer em todas as n repetições;

(iii) fA= 0, se, e somente se, A nunca ocorrer nas n repetições;

(iv) Se A e B forem eventos mutuamente excludentes, e se fA∪B for a freqüência

relativa associada ao evento A ∪ B, então,

fA∪B = fA+ fB.

Teorema 4.1 (Lei dos Grandes Números). Ao repetir um experimento um grande número de vezes, a probabilidade de um evento A é aproximada pela freqüência relativa, isto é,

P (A) ∼= fA=

nA

n , quando n → ∞.

Observação: Esta aproximação será tanto melhor quanto maior for o número de repetições do experimento.

Exemplos:

1 - Ao lançar uma moeda honesta 5 vezes, ocorreram 4 caras. Baseado neste resultado, qual a probabilidade (aproximada) do evento A : ocorrer cara?

2 - Considere as seguintes situações:

(i) Numa pesquisa de mercado, 5 pessoas foram entrevistadas das quais 4 disseram que comprariam um novo produto a ser lançado.

(ii) Numa outra pesquisa de mercado, 300 pessoas foram entrevistadas das quais 140 disseram que comprariam um novo produto a ser lançado.

a) Para cada pesquisa, determine a probabilidade de que uma pessoa qualquer compre o novo produto.

(39)

4.3.2 Definição Clássica de Probabilidade

4.3.2.1 Introdução e definição

Definição 4.6 (Evento Simples e Evento Composto). Cada um dos possíveis resultados que compõe o espaço amostral e1, e2, e3, . . . é um evento simples, enquanto

um evento composto, A, é uma coleção de eventos simples.

Exemplo: Ao lançar um dado, os eventos simples serão: {1}, {2}, {3}, {4}, {5} e {6} e um evento composto seria A : número par = {2, 4, 6}.

Definição 4.7 (Definição Clássica de Probabilidade). Suponha que um expe-rimento tenha n eventos simples diferentes, cada um dos quais pode ocorrer com a mesma chance. Se r eventos simples são favoráveis à ocorrência do evento A, então

P (A) = Número de eventos simples favoráveis à ocorrência do evento A Número total de resultados possíveis =

#A #S =

r n.

Observações:

(1) Nesta definição é fundamental que os eventos simples sejam igualmente prováveis, e, neste caso, é evidente que:

(i) P (e1) = P (e2) = ... = P (en) = n1, e

(ii) P (e1) + P (e2) + ... + P (en) = 1n+ 1n+ ... + 1n = n.n1 = 1.

(2) Espaços amostrais com as características acima descritas são conhecidos como Espaços Amostrais Finitos e Equiprováveis.

Exemplos:

1 - Considere o experimento E: lançar um dado equilibrado e observar o número da face superior. Considere também, os seguintes eventos:

. A: Ocorre face par =

. B: Ocorre um número menor que 4 = . C: ocorre face menor que 7 =

. D: ocorre face cujo valor é maior que 6 = . A ∩ B =

(40)

4.3.2.2 Noções Básicas de Técnicas de Contagem

Nem sempre a tarefa de calcular a probabilidade de um evento aleatório, da forma P (A) = r/n, é simples. Em algumas situações é necessário alguns procedimentos sistemá-ticos de contagem ou enumeração para se obter o número de maneiras, r, pelas quais A pode ocorrer, bem como o número total de maneiras, n, pelas quais o espaço amostral S pode ocorrer.

É no contexto descrito acima, que as técnicas de contagem são de fundamental im-portância. Neste curso, veremos apenas alguns dos principais procedimentos de contagem.

4.3.2.2.1 Princípio Fundamental da Contagem - Regra da Multiplicação Suponha que um experimento possa ser realizado em k etapas, de modo que, para a primeira etapa existem n1resultados possíveis, para a segunda etapa n2resultados possíveis,

e assim sucessivamente, até que para a k − ésima etapa existem nk resultados possíveis.

Então, existe um total de

n1× n2× .... × nk

resultados possíveis para este experimento. Exemplos:

1 - Ao lançar um dado e uma moeda, quantos resultados possíveis podem ser obtidos? Resp.: 12

2 - Uma companhia produz fechaduras que usam segredos numéricos para serem abertas. Se cada segredo consiste de três números distintos, escolhidos dentre os inteiros de 0 a 9, quanto segredos diferentes poderão ser fabricados? Resp.: 720

3 - Quantos números naturais de 4 algarismos podem ser formados usando-se apenas os algorismos 2, 3, 4 e 5, de forma que sejam menores do que 5000 e divisíveis por 5? Resp.: 48

4.3.2.2.2 Combinação

Quando uma amostra de k elementos for retirada (sem importar a ordem entre si) de um conjunto de n elementos. O número de diferentes amostras possíveis é denotado por  n k  e é igual a:  n k  = n! k!(n − k)! onde o símbolo ! significa que:

n! = n(n − 1)(n − 2)(n − 3) . . . (3)(2)(1)

(41)

Exemplos:

1 - Qual é o número de possíveis empreendimentos quando desejamos selecionar dois dentre quatro? Resp: 6

2 - Suponha que num lote com 20 peças existem cinco defeituosas. Escolhemos 4 peças do lote ao acaso, ou seja, uma amostra de 4 elementos, de modo que a ordem dos elementos seja irrelevante:

a) Quantas amostras possíveis existem? Resp: 4845

b) Dentre todos os possíveis resultados, quantos levam à escolha de duas peças defeituosas? Resp.: 1050

(42)

4.3.3 Definição Axiomática de Probabilidade

Definição 4.8 (Definição Axiomática de Probabilidade). Dado um espaço amos-tral S, a probabilidade de um evento A ocorrer, representado por P (A) , é uma função definida em S, que associa a cada evento A um número real, satisfazendo os seguintes axiomas:

(i) 0 ≤ P (A) ≤ 1; (ii) P (S) = 1;

(iii) Se A e B forem mutuamente excludentes (A ∩ B = φ), então P (A ∪ B) = P (A) + P (B) .

Observação: A probabilidade de um evento A, denotada por P (A) , indica a chance de ocorrência do evento A. Quanto mais próxima de 1 é P (A), maior é a chance de ocorrência do evento A, e quanto mais próxima de zero, menor é a chance de ocorrência do evento A.

Principais Teoremas:

T1. Se φ denota o conjunto vazio (Evento Impossível), então P (φ) = 0.

T2. Se A é o evento complementar de A, então P (A) = 1 − P (A) . T3. Se A e B são dois eventos quaisquer, então

P (A ∪ B) = P (A) + P (B) − P (A ∩ B) .

Exemplo: Considere um experimento aleatório com espaço amostral S e os eventos A e B associados tais que: P (A) = 1/2, P (B) = 1/3 e P (A ∩ B) = 1/4. Determine:

a) P (A) b) P (B) c) P (A ∪ B) d) P (A ∩ B) e) P (A ∪ B)

(43)

4.4

Eventos Independentes

A probabilidade da ocorrência de dois eventos simultaneamente, P (A ∩ B), depende da natureza dos eventos, ou seja, se eles são independentes ou não.

Dois ou mais eventos são independentes quando a ocorrência ou não-ocorrência de um não influencia a ocorrência do(s) outro(s).

Definição 4.9 (Eventos Independentes). Dois eventos A e B são independentes se, e somente se

P (A ∩ B) = P (A)P (B).

Exemplo 1: Se duas moedas equilibradas (sem vício) são lançadas, determine qual a probabilidade de ambas darem cara? E se três moedas fossem lançadas, qual a probabilidade de ocorrer três caras?

Exemplo 2: Uma urna contém duas bolas brancas e cinco pretas. Qual a probabilidade de sair duas bolas pretas se os sorteios são feitos com reposição?

Exemplo 3: A probabilidade de que A resolva um problema é de 2/3, e a probabiliddae de que B o resolva é de 3/4. Se ambos tentarem independentemente, qual a probabilidade de:

a) Ambos resolverem o problema? b) O problema ser resolvido?

Observação: Dizemos que três eventos são mutuamente independentes se P (A ∩ B) = P (A)P (B)

P (A ∩ C) = P (A)P (C) P (B ∩ C) = P (B)P (C)

P (A ∩ B ∩ C) = P (A)P (B)P (C) Exemplo:

(44)

UNIVERSIDADE FEDERAL DE CAMPINA GRANDE - Campus I UNIDADE ACADÊMICA DE MATEMÁTICA E ESTATÍSTICA Disciplina: Probabilidade e Estatística (6 créditos) Período 2009.2 Prof. Gilberto Matos e Areli Mesquita

Aluno(a): .

3a

LISTA DE EXERCÍCIOS Introdução à Probabilidade

1 - De uma linha de produção são retirados três (3) artigos e cada um é classificado como bom (B) ou defeituoso (D). Determine o espaço amostral deste experimento aleatório e expresse também o evento A: obter dois artigos defeituosos.

2 - Pedro tem dois automóveis velhos. Se nas manhãs frias, há 20% de probabilidade de um deles não funcionar e 30% de outro não funcionar,

a) qual a probabilidade de nenhum funcionar? b) qual a probabilidade dos dois funcionarem?

c) qual a probabilidade de pelo menos um funcionar? d) qual a probabilidade de exatamente um funcionar?

3 - Considere o lançamento de dois dados equilibrados com o interesse de observar o número das faces superiores.

a) Calcule a probabilidade dos eventos: i) A: sair face par nos dois dados ii) B: sair face par no primeiro dado iii) C: sair face par no segundo dado d) Os eventos B e C são independentes?

4 - De 120 estudantes, 60 estudam Francês, 50 Espanhol e 20 estudam Francês e Es-panhol. Se um estudante é escolhido ao acaso, encontre a probabilidade de que ele:

a) estude Francês e Espanhol?

b) estude pelo menos uma das línguas? c) não estude nem Francês nem Espanhol?

5 - Ao escolher entre diversos fornecedores de computadores, um comprador deseja saber a probabilidade de um computador falhar durantes os dois primeiros anos. Sabendo-se que só existem duas possibilidades; ou o computador falha durante os dois primeiros anos ou não falha, qual é essa probabilidade? Agora se você conhecesse o resultado de uma pesquisa do PC World feita com 4000 usuários de computadores, na qual revela que 992 computadores falham durantes os dois primeiros anos, qual será a probabilidade estimada? Resp.: 0,5 e 0,248.

(45)

6 - Um terço dos eleitores de certa comunidade é constituido de mulheres, e 40% dos eleitores votaram na última eleição presidencial. Supondo que esses dois eventos sejam independentes, determine a probabilidade de escolher um eleitor da lista geral, que seja mulher e que tenha votado na última eleição presidencial.

7 - Uma urna contém duas bolas brancas e cinco pretas. Qual a probabilidade de sair duas bolas pretas supondo que os sorteios são feitos com reposição?

8 - Se cada carta de um baralho de 52 cartas tem a mesma chance de ser escolhida, então qual é a probabilidade de:

a) se extrair cada uma delas? b) de se extrair uma dama?

9 - Qual a probabilidade de se obter três ou menos pontos no lançamento de um dado? 10 - Uma urna contém duas bolas brancas, três pretas e cinco azuis.

a) Qual a probabilidade de se extrair uma bola branca?

b) Qual a probabilidade de se extrair uma bola preta ou uma azul? 11 - No lançamento de dois dados qual a probabilidade de sair o par (5,2)?

(46)

4.5

Probabilidade Condicional

Em algumas situações, a probabilidade de ocorrência de um certo evento pode ser afetada se tivermos alguma informação sobre a ocorrência ou não de um outro evento. Considere, por exemplo, o seguinte experimento:

E : Lançar um dado.

Seja o evento A: sair o no 3 =

Então, P (A) =

Considere, agora, o seguinte evento: B: sair um número ímpar =

Logo, P (B) =

Suponha, agora, que soubéssemos da ocorrência de B e que quiséssemos calcular a probabilidade de A. Iremos denotar essa probabilidade como P (A | B). Assim,

P (A | B) =

Formalmente definimos probabilidade condicional da maneira a seguir.

Definição 4.10 (Probabilidade Condicional). Dados dois eventos, A e B, deno-taremos P (A | B) a probabilidade condicionada do evento A, quando B tiver ocorrido, por:

P (A | B) = P (A ∩ B) P (B) com P (B) 6= 0.

Exemplo: Dois dados são lançados e os seguintes eventos são considerados: A = {(x1, x2); x1+ x2 = 10}, e

B = {(x1, x2); x1 > x2}.

Baseado nestas informações, obtenha as seguintes probabilidades:

a) P (A) c) P (A ∩ B) e) P (B | A)

(47)

4.5.1 Teorema do Produto

A partir da definição de probabilidade condicional, poderemos enunciar o teorema do produto:

Teorema 1.2 (Teorema do Produto)

P (A | B) = PP(A∩B)(B) ⇒ P (A ∩ B) = P (B)P (A | B).

Analogamente,

P (B | A) = P(A∩B)P(A) ⇒ P (A ∩ B) = P (A)P (B | A).

Exemplos:

1 - Em um lote de 12 peças, 4 são defeituosas. Se duas peças são retiradas uma após a outra sem reposição, qual a probabilidade de que:

a) ambas sejam boas? b) ambas sejam defeituosas?

c) pelo menos uma seja defeituosa?

2 - Uma urna contém duas bolas brancas, três vermelhas e cinco azuis. Qual a pro-babilidade de se retirar sem reposição uma bola azul, uma branca e uma vermelha exatamente nessa ordem?

4.6

Eventos Independentes

Um evento A é considerado independente de um outro evento B se a probabilidade condi-cional de A dado B é igual a probabilidade de A, isto é, se

P (A | B) = P (A).

É evidente que se A é independente de B, então B é independente de A. Assim, P (B | A) = P (B).

Logo, considerando o Teorema do Produto, observamos que a probabilidade da ocor-rência de dois eventos simultaneamente, P (A ∩ B), depende da natureza dos eventos, ou seja, se eles são independentes ou não e no caso dos eventos serem independentes já sabemos que

(48)

4.7

Teorema da Probabilidade Total

Definição 4.11 (Partição do Espaço Amostral). Dizemos que os eventos B1, B2, ..., Bk

representam uma partição do espaço amostral S, quando a) Bi∩ Bj = φ, para todo i 6= j,

b) ∪k

i=1Bi = S,

c) P (Bi) > 0, para todo i.

Considere, agora, um evento A referente a S, e B1, B2, ..., Bk uma partição de S.

Assim, podemos escrever

A = (A ∩ B1) ∪ (A ∩ B2) ∪ (A ∩ B3) ∪ ... ∪ (A ∩ Bk).

Logo,

P (A) = P (A ∩ B1) + P (A ∩ B2) + P (A ∩ B3) + ... + P (A ∩ Bk).

Então, como P (A∩Bj) = P (Bj)P (A | Bj), obteremos o que se denomina o Teorema

da Probabilidade Total:

P (A) = P (B1)P (A | B1) + P (B2)P (A | B2) + ... + P (Bk)P (A | Bk).

4.8

Teorema de Bayes

Sob as mesmas hipóteses do teorema da probabilidade total, podemos calcular a pro-babilidade de Bi dada a ocorrência de A da seguinte forma

P (Bi | A) = P (Bi∩ A) P (A) = P (Bi)P (A | Bi) P jP (Bj)P (A | Bj) .

Este resultado é o que chamamos de Teorema de Bayes. Esse teorema é útil quando conhecemos as probabilidades dos B′

is e a probabilidade condicional de A dado Bi,

mas não conhecemos diretamente a probabilidade de A. Exemplos:

1 - A proporção de peças produzidas pelas máquinas I, II e III é 30%, 30% e 40%, res-pectivamente. Dentre estas peças, 4%, 3% e 2%, respectivamente, são defeituosas. Uma peça escolhida aleatoriamente, foi testada e verificou-se ser defeituosa. Qual é aprobabilidade de que a peça tenha sido produzida pela máquina I? E pela máquina II? E pela III?

(49)

2 - Suponha três urnas com as seguintes configurações: a urna 1 contém 3 bolas pretas, 1 branca e 5 vermelhas; a urna 2 contém 4 bolas pretas, 3 brancas e 2 vermelhas; a urna 3 contém 2 bolas pretas, três brancas e 3 vermelhas. Escolheu-se uma urna ao acaso e dela extraiu-se uma bola ao acaso, verificou-se que a bola é branca. Qual a probabilidade da bola ter vindo da urna 1, 2? E da 3?

Referências

Documentos relacionados

1 República de Maurício

O número de espiras da bobina secundária reduziu a metade do número da bobina primária. Com uma voltagem alternada de 120 V na primária a voltagem na bobina

Implementar um plano de intervenção com vistas à redução da incidência da Diabetes mellitus descompensada na Unidade Básica de Saúde Vilas Reunidas tem uma grande

Objetivo: O objetivo deste estudo foi ava- liar o perfil e a produção científica de pes- quisadores de Nefrologia e Urologia, ca- dastrados como bolsistas de produtividade no

A espectrofotometria é uma técnica quantitativa e qualitativa, a qual se A espectrofotometria é uma técnica quantitativa e qualitativa, a qual se baseia no fato de que uma

A coisa não é bem assim; na UMBANDA, as guias tem função independente e as cores dos colares são relativas apenas ao cromatismo, uma vez que existe uma cor ritual para os Orixás e

Explorando as questões relativas às comunidades disciplinares e epistêmicas, o artigo de Tânia Beraldo e Ozerina Oliveira, “Comunidades Epistêmicas e desafios da

Entrando para a segunda me- tade do encontro com outra di- nâmica, a equipa de Eugénio Bartolomeu mostrou-se mais consistente nas saídas para o contra-ataque, fazendo alguns golos