— CONCEITOS BÁSICOS E FUNDAMENTOS DE ESTATÍSTICA

TÓPICO 3 – FUNDAMENTOS DE PROBABILIDADE

Preparado para ampliar seus conhecimentos? Respire e vamos em frente! Procure um ambiente que facilite a concentração, assim absorverá melhor as informações.

CHAMADA

TÓPICO 1 —

UNIDADE 1

CONCEITOS BÁSICOS E FUNDAMENTOS DE ESTATÍSTICA

1 INTRODUÇÃO

A estatística se faz presente em nossas vidas nos mais variados ramos da atividade humana. Ela está presente em situações cotidianas como em eventos esportivos, em informações cedidas por um determinado governo etc. Por exemplo, em um evento esportivo, geralmente, nos deparamos com certas informações que visam fundamentar as análises subsequentes dos cronistas esportivos acerca de certa equipe ou, mais em geral, acerca do próprio evento esportivo, ou mesmo da história do próprio esporte como um todo. Ali, a estatística pode surgir de diferentes formas possíveis, como na contagem de chutes ao gol por jogo, a eficiência de tais chutes etc.

Fundamentalmente, a estatística trabalha com uma grande quantidade de dados. A origem da própria palavra nos remete ao termo Estado, uma vez que este geralmente trabalha com quantidades enormes de dados, por exemplo, uma população, suas subdivisões em faixas etárias, pirâmide populacional, seja ela referente ao gênero, à classe social e à própria faixa etária etc. Em outras palavras, dados que serão úteis a um determinado município, estado, país etc.

Como podemos ver em Memória (2004, p. 10): “a etimologia da palavra, do latim status (Estado), usada aqui para designar a coleta e a apresentação de dados quantitativos de interesse do Estado, [...]”.

Como nos exemplos citados anteriormente, a estatística deve trabalhar como uma grande quantidade de dados e, a partir destes, organizar, analisar etc. Longe de tais situações corriqueiras, a estatística também desempenha papel importante no desenvolvimento das ciências básicas, como Biologia, Química e Física. Especificamente na ciência Física, ela tem fundamental importância na compreensão dos fenômenos termodinâmicos. Ao tratar um sistema físico microscópico com uma infinidade de partículas que seguem leis da Mecânica (seja ela Clássica ou Quântica), podem-se inferir os conceitos estatísticos, fundando, assim, o campo de estudo conhecido como Física Estatística, também conhecida como Mecânica Estatística. Outros ramos da Física também podem apresentar aspectos estatísticos como Teoria do Caos, Econofísica etc.

Para dar suporte conceitual e matemático para nossos estudos futuros de Probabilidade e Estatística em Física, no Tópico 1, apresentaremos as ideias básicas e os fundamentos matemáticos de Estatística, como construção e análise de tabelas, frequência, mediana, moda, variáveis aleatórias, população e amostra.

Iniciaremos o tópico apresentando situações cotidianas envolvendo estatística para que, posteriormente, ao logo do tópico, possamos introduzir alguns fundamentos e definições matemáticas que nos auxiliarão nos tópicos mais avançados ao longo do curso.

2 ESTATÍSTICA NO COTIDIANO

A estatística aparece em nosso dia a dia de diversas formas, como já havíamos mencionado, em eventos esportivos ou em estudos emitidos por um determinado governo.

Para iniciar nossos estudos, vamos supor que certa administração pública queira dar uma concessão de uso de uma rodovia para o setor privado.

Para este fim, tal administração encomenda um estudo para quantificar o fluxo dos veículos que trafegam sobre esta rodovia. Para desenvolver tal pesquisa, contratam-se funcionários para então estimar tal fluxo em um certo ponto da estrada. Tais funcionários são requeridos de anotar a quantidade de motos, carros, ônibus e caminhões que circulam pela rodovia em tal ponto e em um dado intervalo de tempo.

Ao começar seu trabalho, um funcionário transmite para um computador os primeiros veículos que transitam em tal ponto, ou seja: carro, moto, carro, carro, caminhão, carro, caminhão, ônibus, moto e assim por diante.

Depois de um período de vinte quatro horas, os dados anotados naquele ponto foram organizados na seguinte tabela a seguir:

TABELA 1 – FLUXO DE VEÍCULOS NUM PERÍODO DE 24 HORAS

FONTE: O autor

Desse modo, num período de um dia foram contados 127 motos, 453 carros, 71 ônibus e 145 caminhões. A seguir, apresentamos uma representação gráfica dos dados anteriores.

GRÁFICO 1 – COMPOSIÇÃO DO FLUXO DE VEÍCULOS

FONTE: O autor

Desde que o interesse sob os dados da tabela seja de cunho financeiro, torna-se útil associar para cada variedade (moto, carro, ônibus e caminhão) um valor numérico, que, neste caso, é uma estimativa sobre o preço a ser cobrado no futuro pedágio instalado naquele ponto específico. Atribuíram-se, então, os seguintes valores em reais:

TABELA 2 – PREÇO ESTABELECIDO PARA CADA TIPO DE VEÍCULO

Veículo Preço em R$

Moto 2,00

Carro 5,00

Ônibus 16,00

Caminhão 12,00

FONTE: O autor

As duas tabelas anteriores estão organizadas na única tabela a seguir:

TABELA 3 – FREQUÊNCIA DE OCORRÊNCIA VS PREÇO POR VEÍCULO - I

FONTE: O autor

Frequência R$

127 2,00

453 5,00

071 16,00

145 12,00

A tabela anterior está organizada de acordo com a frequência de ocorrência de um determinado dado (aqui, neste caso: moto, carro etc.).

É útil, ainda, organizar a tabela anterior em ordem crescente quanto ao valor da frequência, ou seja:

TABELA 4 – FREQUÊNCIA DE OCORRÊNCIA VS PREÇO POR VEÍCULO - II

FONTE: O autor

Podemos ainda organizar em termos da frequência relativa, que é nada mais, nada menos, que pegar a razão entre a frequência e a totalidade do conjunto de dados.

Nesse caso, a totalidade de veículos é:

71 + 127 + 145 + 453 = 796.

As frequências relativas, de cada tipo de veículo, serão dadas por:

• Ônibus:

• Moto:

• Caminhão:

• Carro:

Neste caso, podemos reorganizar nossa tabela anterior como:

FONTE: O autor

TABELA 5 – FREQUÊNCIA RELATIVA DE OCORRÊNCIA VS PREÇO POR VEÍCULO

Frequência Relativa R$

0,089 16,00

0,159 2,00

0,182 12,00

0,573 5,00

Todos as diferentes formas de organização dadas anteriormente são construídas em termos de uma amostra que relata, neste nosso exemplo, o número de veículos que trafegam em um dado intervalo de tempo e em um dado ponto da rodovia. Tal amostra constitui apenas uma “parte” da realidade adjacente que é entendida, em estatística, como uma população.

Vamos considerar agora nossa tabela organizada como na Tabela 4.

Notamos que o valor com maior frequência é de R$ 5,00. Chamamos este valor de moda.

Também é, muitas vezes, útil encontrar o valor central da configuração de dados. Neste caso pegamos os valores centrados e tiramos uma média deles, isto é:

Tal valor é nomeado como a mediana associada com a amostra.

Podemos ainda prever o lucro esperado em um dia através de nossa amostra. Por exemplo, em um certo minuto foi verificado: carro, caminhão, carro, carro, ônibus, moto.

Desde que associamos valores a cada tipo de veículo, a sequência anterior é convertida numericamente como:

5,00, 12,00, 5,00, 5,00, 16,00, 2,00.

Desse modo, para aquele dado minuto temos a amostra anterior.

Tal amostra pode ser convertida num lucro bruto esperado da seguinte maneira:

Logo, a amostra, naquele minuto específico, fornece uma previsão de lucro de sete reais e cinquenta centavos.

Como vimos, na amostra referente a 24 horas, o total de veículos era de setecentos e noventa e seis. É um número grande e, então, nesses casos, é conveniente tabelarmos os dados numa tabela de frequência. Note que com a tabela organizada dessa maneira, torna-se mais simples calcular a previsão de lucro bruto nas 24 horas.

Nesse caso, multiplicamos a frequência pelo valor associado, isto é:

71 . 16,00 + 127 . 2,00 + 145 . 12,00 + 453 . 5,00 = 5395.

Assim, o resultado anterior sugere um lucro bruto diário de cinco mil trezentos e noventa e cinco reais.

A seguir, podemos ver a contribuição de cada categoria no montante final de lucro bruto:

GRÁFICO 2 – PREVISÃO DE CONTRIBUIÇÃO NO LUCRO BRUTO TOTAL

FONTE: O autor

Podemos também encontrar o lucro bruto associado por veículo. Basta dividirmos o resultado acima pelo número total de veículos, ou seja

Desse modo, para os preços estabelecidos por cada tipo de veículo, a fórmula anterior nos fornece o valor médio de aproximadamente seis reais e setenta e oito centavos por cada veículo rodado. Os números que acabamos de encontrar são conhecidos como medidas de posição.

3 TERMOS BÁSICOS

Um modelo estatístico é caracterizado por uma população A e uma amostra a. Uma população engloba todo o conjunto de elementos os quais possuem uma atribuição em comum. Um subconjunto de uma população é denominado amostra. A população pode ser infinita ou finita enquanto a amostra deve ser sempre finita.

Em outras palavras, a amostra carrega o conjunto de dados qual trabalhamos em modelos estatísticos através de uma amostragem. Uma amostragem pode ser aleatória ou intencionada. As variáveis estatísticas podem ser quantitativas ou qualitativas. Por sua vez, as variáveis quantitativas podem ser discretas ou contínuas enquanto as qualitativas podem ser nominais ou ordinais.

Como em Magalhães e Lima (2004, p. 8), as variáveis podem ser classificadas como:

FIGURA 1 – CLASSIFICAÇÃO DAS VARIÁVEIS

FONTE: Adaptado de Magalhães e Lima (2004, p. 8)

Variável

Considere que queremos estudar as temperaturas médias das cinco regiões brasileiras. Devido a certas dificuldades, podemos escolher aleatoriamente um grupo de cidades que representarão cada região. Agora, digamos que nossa pesquisa será aplicada para políticas de saúde pública e nos interessa apenas as sub-regiões de cada região que tradicionalmente apresentam as maiores e menores temperaturas médias.

Nesse caso, realizamos uma pesquisa intencionada, buscando escolher as cidades das regiões mais quentes e frias de cada região. Note que em nossa coleta de dados, buscaremos variáveis quantitativas, desde que mediremos a temperaturas em diferentes dias e locais. A temperatura é ainda uma variável contínua, isto é, assume valores reais e, em geral, não inteiros.

Supomos que, na mesma pesquisa, queremos considerar a população das cidades envolvidas. Desse modo, para essa amostragem, serão atribuídos valores quantitativos, desde que a população de uma cidade é um número inteiro. Dentro dessas cidades ainda podemos fazer uma pesquisa paralela para estabelecer a divisão social de cada município (classe A, B etc.). Nesse caso, a variável será qualitativa ordinal, uma vez que a uma “ordem” atribuída: A (alta), B (média-alta), C (média) etc.

Para finalizar, poderíamos querer saber a proporção da população de uma dada cidade que faz parte de um certo “grupo de risco”. Nossa coleta de dados se resumiria em obter as respostas “faz parte” ou “não faz parte”. Tal variável é classificada como qualitativa nominal.

4 MEDIDAS DE POSIÇÃO

Começaremos trabalhando as medidas de posição. Consideremos um conjunto de dados {d_i} de uma certa variável D. Define-se a média d como sendo a somatória de d_i pela quantidade de valores n, isto é:

(1)

Caso um certo conjunto de dados estão organizados de acordo com suas frequências f_i, a expressão (1) torna-se uma média ponderada, e é então reescrita como:

(2)

Há ainda o conceito de classe. Classe é quando a variável é dividida em intervalos definidos por uma amplitude. O conjunto de dados {D_i}, o qual devemos trabalhar, será construído pegando determinadas médias referentes a cada intervalo.

Matematicamente, temos:

Em que d_if é o limite superior do intervalo e d_i0 o limite inferior.

Neste caso, a média será dada por:

(3)

Com F_i sendo a frequência de cada intervalo I_i e N a quantidade de intervalos.

Dada uma amplitude A_i, o intervalo I_i deve ser um semiaberto. Por exemplo, escolhendo:

I₁= ]d₁₀,d

_if

]

Teremos os outros intervalos:

I₂= ]d₂₀,d

_2f

], I₃= ]d₃₀,d

_3f

]

E assim por diante. Em geral, as amplitudes A_i não necessitam serem iguais.

Ainda é útil definir a mediana e a moda associada ao conjunto de dados.

A mediana d_med é definida como o dado que ocupa a “posição” central de um conjunto de dados, enquanto a moda d_mod é o dado com maior frequência.

Como um exemplo, considere um clube de futebol em que a folha de pagamento do time titular é fornecida pela tabela a seguir:

TABELA 6 – FOLHA DE PAGAMENTO DO TIME - I

FONTE: O autor

4 3 5 7 6 4 4 2 6 8 7

Os valores são dados em mil reais.

A média (1) é, então:

No entanto, organizada numa tabela de frequência, a mesma tabela torna-se:

TABELA 7 – FOLHA DE PAGAMENTO ORGANIZADA POR SUA FREQUÊNCIA

FONTE: O autor

f_i 1 1 3 1 2 2 1

d_i 2 3 4 5 6 7 8

Agora, para encontrar d de acordo com a tabela anterior, devemos usar a equação (2). Obviamente, o resultado encontrado deve ser o mesmo. Por sua vez, a mediana d_med é obtida por organizar os dados em ordem crescente: 2, 3, 4, 4, 4, 5, 6, 6, 7, 7, 8. Logo:

d

_med

= 5000.

Já para a moda temos:

d

_mod

= 4000.

Agora, considere o caso que queremos analisar somente os jogadores que jogam “na linha”, ou seja, desconsiderando o salário do goleiro.

A nova tabela (já ordenada em ordem crescente) é então dada por

TABELA 8 – FOLHA DE PAGAMENTO DO TIME - II

FONTE: O autor

2 3 4 4 5 6 6 7 7 8

Note que, agora, nossa coleção de dados é par.

Nesse caso, para obtermos a mediana, devemos encontrar uma média entre os valores centrais, ou seja:

Podemos ainda trabalhar com frequências relativas F_i. Tal frequência é definida assim:

(4)

Com a frequência relativa (4) introduzida, a equação (2) torna-se:

d = ∑ F

d

_i, Enquanto a equação (3) pode ser reescrita como:

d = ∑ F

D

_i, Com F_i definido analogamente como:

Outro tipo de frequência útil a ser introduzido, é a chamada frequência acumulada a_i. Ela é obtida somando f_i com seus antecessores, isto é:

a

= f

+ f

_i-1

+ f

_i-2

+ ... + f₁.

Ainda, devemos definir a frequência acumulada relativa A_i por:

A

= F

+ F

_i-1

+ F

_i-2

+...+ F

₁

.

Com essas novas definições, podemos reescrever a Tabela 6 como:

(5)

(6)

TABELA 9 – FOLHA DE PAGAMENTO ORGANIZADA PELA FREQUÊNCIA E FREQUÊNCIA ACUMULADA

FONTE: O autor

A_i 1/11 2/11 5/11 6/11 8/11 10/11 1

F_i 1/11 1/11 3/11 1/11 2/11 1/11 1/11

a_i 1 2 5 6 8 10 11

f_i 1 1 3 1 2 2 1

d_i 2 3 4 5 6 7 8

Para finalizar este tópico, vamos trabalhar o conceito de classe. Considere que o clube quer arrecadar dinheiro e começa a coletar os possíveis doadores do clube. De um total de 500 torcedores pesquisados, verificou-se 306 pessoas dispostas a doarem até R$ 50, 102 a doarem entre 50 e 100, 82 de 100 a 150, 9 de 150 a 200 e uma pessoa de 200 a 250 reais. Assim, organiza-se a seguinte tabela:

TABELA 10 – POSSÍVEIS DOADORES E VALORES A SEREM DOADOS

FONTE: O autor

FONTE: O autor d_if/ d_i0 f_i a_i

0 - 50 306 306

50 -100 102 408

100 -150 082 490

150 - 200 009 499

200 - 250 001 500

Por considerando o valor médio D_i de cada intervalo, a tabela anterior rende:

TABELA 11 – POSSÍVEIS DOADORES E VALORES MÉDIOS A SEREM DOADOS

D_i f_i a_i

25 306 306

75 102 408

100 082 490

125 009 499

150 001 500

Deste modo, usando (3), encontramos:

Logo, a capacidade de arrecadação do clube será de R$ 53,782 por torcedor. Assim, estipulando que o time tenha 25000 torcedores, a expectativa de arrecadação será de R$ 1344550.

Para reforçar seus estudos referente ao Tópico 1 e os tópicos subsequentes, pode ser útil ler Magalhães e Lima (2004).

DICAS

Neste tópico, você aprendeu que:

• Os conceitos de estatística podem ser tratados em situações corriqueiras.

• Uma tabela é melhor organizada em termos de suas frequências.

• Existem termos básicos que são úteis para trabalhar os modelos estatísticos.

• Os dados trabalhados em estatística formam uma amostra e estas fazem parte de uma população.

• Podemos encontrar valores numéricos importantes como moda e mediana e estas são medidas de posição.

• Medidas de posição podem fornecer grandezas desejáveis para um tratamento mais aprofundado de um certo conjunto de dados.

• As variáveis estatísticas podem ser qualitativas e quantitativas, podendo ser ainda nominais ou ordinais, discretas ou contínuas.

RESUMO DO TÓPICO 1

AUTOATIVIDADE

1 Existem diferentes maneiras de organizar uma tabela a partir de dados brutos extraídos. Podemos organizar uma tabela através da frequência ou mesmo da amplitude. Ainda, muitas vezes, é útil considerar a frequência e amplitude relativas.

Com as informações anteriores, suponha que certo filme para o público adolescente resolveu fazer um levantamento para saber a faixa etária de seu público e obteve os seguintes resultados:

Desenvolva os itens pedidos a seguir:

a) Reescreva a tabela em termos de frequência.

b) Reescreva a tabela em termos da amplitude.

c) Reescreva a tabela em termos de frequência relativa.

d) Reescreva a tabela em termos de amplitude relativa.

Com base em seus resultados, classifique V para as sentenças verdadeiras e F para as falsas:

Agora, assinale a alternativa que apresenta a sequência CORRETA:

a) ( ) V – F – V – F.

b) ( ) V – V – F – F.

c) ( ) V – F – V – V.

d) ( ) F – V – F – V.

2 Em estatística, é útil obter alguns valores numéricos para uma posterior análise das informações colhidas. Tais valores são conhecidos como medidas de posição e, entre eles, temos frequência, mediana, moda e o valor médio.

Com a tabela a seguir:

Encontre demonstrando o resultado, a mediana, moda e o valor médio.

I- Mediana = 11,5. Moda = 13. Valor médio = 8,425.

3 As chamadas variáveis aleatórias podem ser classificadas por diferentes atribuições, podendo ser uma variável quantitativa ou qualitativa. Caso a variável seja qualitativa, ela pode ser nominal ou ordinal enquanto que se for quantitativa, ela pode ser discreta ou contínua. A seguir, temos uma ilustração da classificação de variáveis aleatórias:

FONTE: Adaptado de Magalhães e Lima (2004, p. 8)

variável aleatória.

4 Muitas vezes, usa-se o conceito de classe para trabalhar com certos dados estatísticos. Podemos dizer que em dados classificados por classes, se disponibilizam tais em razão de seus intervalos. Sendo d_if o limite superior do intervalo, d_i0 o limite inferior e f_i as frequências, através da tabela a seguir:

Agora, assinale a alternativa CORRETA:

a) ( ) A média associada a tabela é aproximadamente 27,41.

b) ( ) A média associada a tabela é aproximadamente 43,76.

c) ( ) A média associada a tabela é aproximadamente 36,93.

d) ( ) A média associada a tabela é aproximadamente 32,26.

d_if/ d_i0 f_i

0 - 20 26

20 - 40 59

40 - 60 22

60 - 80 07

80 - 100 01

TÓPICO 2 —

UNIDADE 1

CONCEITOS BÁSICOS DE PROBABILIDADE

1 INTRODUÇÃO

A probabilidade aparece em muitos ramos do conhecimento humano, tal como Economia, Biologia, Física, Teoria dos Jogos etc. Seu estudo, sob o ponto de vista matemático, remonta aos trabalhos de Bernoulli já no Século XVII, em sua obra intitulada Ars Conjectandi, publicado no século seguinte em 1713, como pode ser visto em Hald (2003). Inicialmente, o estudo da probabilidade surge com o emergente interesse em jogos de azar, como pode ser lido em Memória (2004), e se difundindo posteriormente sob as diversas ramificações do conhecimento humano. Hoje em dia, a probabilidade é entendida como um ramo da estatística, que estudamos anteriormente.

Um ramo, em especial, em que os conceitos de probabilidade têm fundamental importância é na ciência Física, já que ela aparece desde a Teoria do Caos como na própria fundação da Teoria Quântica. Na mecânica Quântica, a probabilidade surge nos debates iniciais acerca da interpretação do significado da função de onda de uma partícula. Tal interpretação conhecida como Interpretação de Born diz que tal função de onda pode ser compreendida desde que seu quadrado nos forneça uma onda de probabilidade.

O histórico artigo de Born (1954), pode ser obtido no site oficial do prêmio Nobel, no endereço: nobelprize.org/prizes/physics/1954/born/lecture/.

DICAS

Entretanto, longe de sua importância acadêmica em Física, a probabilidade torna-se familiar simplesmente por observar nossos acontecimentos diários. Nos eventos cotidianos, a probabilidade emerge, por exemplo, num sorteio da loteria federal, em jogos de tabuleiro, de cartas ou de dados, no mercado financeiro etc.

No Tópico 2, observando situações diversas mais próximas da realidade cotidiana, abordaremos os conceitos básicos de probabilidade, como sistema contendo apenas duas possibilidades, sua distribuição binomial de probabilidade e normalização, descritas em diferentes formas, como fazer predições em contextos probabilísticos usando valor esperado e desvio médio.

Espera-se, assim, que tal tópico sirva de suporte para um estudo mais aprofundado que será desenvolvido no Tópico 3.

2 PROBABILIDADE EM ALGUMAS SITUAÇÕES COTIDIANAS

Como já mencionado na Introdução, conceitos de probabilidade podem ser extraídos em diversas situações cotidianas. Alguns deles são os jogos de dados, cartas, loterias etc. Para começar nosso estudo, analisaremos tais situações ocorrentes em nosso dia a dia.

Consideraremos, inicialmente, um desafio de dados não viciados. Em tal desafio, devemos prever o número que será sorteado após alguns lançamentos aleatórios de dados. A probabilidade de acertar a face correta é de uma em seis após um único lançamento de dado, ou simplesmente 1/6. Podemos representar esta situação matematicamente como:

Aqui P(n) representa a probabilidade de se obter um número específico n de um total de seis números possíveis. Caso agora queiramos prever duas jogadas consecutivas, devemos apenas multiplicar uma probabilidade pela outra, ou seja:

Aqui n′ detona que os números não são necessariamente iguais. A regra de multiplicação anterior pode ser generalizada para um número indeterminado de jogadas. Por exemplo, seja m o número de jogadas subsequentes, teremos então a regra de multiplicação reescrita como:

A forma de calcular a probabilidade é muito sensível ao jogo que estamos querendo analisar. Por exemplo, se quisermos acertar dois números diferentes independentes da ordem, teremos então (para m = 2):

A forma anterior ocorre porque, na primeira jogada, temos uma chance em três enquanto na segunda uma chance em seis. Note que no primeiro caso somamos as probabilidades, isto é:

Quando introduzimos, formalmente, os conceitos de probabilidade, veremos, que, em geral, temos regras diferentes para eventos que são independentes e para eventos que são exclusivos. Por hora, vamos nos ater a eventos independentes onde a regra da multiplicação é válida.

Para ilustrar outra situação de aplicabilidade de eventos independentes,

No documento Estatística e Probabilidade em Física (páginas 10-0)