Revisão Básica de Probabilidade e
Estatística
Estatística
• Palavra provém do latim status (estado)
• Associada a censos, pesquisas de opinião pública, aos vários índices governamentais, aos gráficos e médias publicados diariamente na imprensa
• A Estatística engloba muitos outros aspectos
• A estatística é fundamental na análise de dados provenientes de quaisquer processos onde exista variabilidade
Grandes Áreas da Estatística
•
Amostragem
e
Planejamento
de
Experimentos
•
Estatística Descritiva
Amostragem e Planejamento de
Experimentos
• Métodos que tratam dos mecanismos de coleta de dados
– A amostragem é a parte inicial de qualquer estudo estatístico. Consiste na escolha criteriosa dos elementos a serem submetidos ao estudo
Exemplo:
• Pesquisas sobre tendências de votação
– Para que os resultados sejam de fato representativos deve-se entrevistar um conjunto de pessoas com características socioeconômicas, culturais, religiosas etc. tão próximas quanto possível da população à qual os resultados da pesquisa serão estendidos
Estatística Descritiva
• Reúne métodos de organização, apresentação e sintetização dos dados
– Esta é a parte mais conhecida da estatística, pois, diariamente vemos o uso de gráficos, médias e índices na imprensa
Exemplo:
• O INPC, Índice Nacional de Preços ao Consumidor
envolve a sintetização em um único número dos aumentos dos produtos de uma cesta básica. É obtido através de um sucessivo cálculo de médias
Estatística Indutiva ou Inferencial
• Reúne métodos que possibilitam a tomada de
decisões sobre uma população com base em estudos feitos sobre os dados de uma amostra
Inferência Estatística
• O processo de generalização, que é característico do método indutivo, está associado a uma margem de incerteza
• A medida dessa incerteza é obtida a partir da teoria das probabilidades
Conceitos Básicos
População e Amostra
• População ou Universo é o conjunto de todas as
observações potenciais relativas ao estudo de determinado fenômeno
– Censo é uma coleção de dados relativos a todos os
elementos de uma população
• Amostra - É um subconjunto de elementos
Exemplo:
• Deseja-se conhecer o consumo total de energia elétrica em MWH nas indústrias da cidade de Manaus no ano de 2004
– População: todas as indústrias que estavam ligados a rede elétrica em Manaus, em 2004
• Característica de interesse:
Exemplo:
• Deseja-se conhecer o patrimônio líquido, faturamento, número de empregados, tempo de existência, das empresas situadas no Polo Petroquímico de Urucú em 2000
– População: Empresas do Polo Petroquímico de Urucú em 2000
• Características de interesse:
– X = patrimônio líquido, – Y = faturamento,
– W = número de empregados, – Z = tempo de existência
APRESENTAÇÃO
DE
DADOS
Apresentação de Dados
Interesse da Estatística: características passíveis de representação numérica
– Obtidas através de medições e contagens
– Características = variáveis
Tipos de Variáveis
Contínua Discreta va Quantitati Ordinal Nominal a Qualitativ variáveis de TiposTipos de Variáveis
• Qualitativas - quando o resultado da observação é apresentado na forma de qualidade ou atributo
– Exemplos: sexo; estado civil; grau de escolaridade Interesse da Estatística: características passíveis de representação numérica
• Quantitativas - quando o resultado da observação é um número, decorrente de um processo de mensuração ou contagem
– Exemplos: número de filhos; salário mensal; altura; peso; idade; tamanho da família; etc.
Variáveis Qualitativas
• Nominais - Quando não existe qualquer ordenação para os resultados obtidos do processo de observação
– Exemplos: sexo (feminino e masculino); estado civil (solteiro, casado, viúvo, etc.)
• Ordinais: Quando existe uma certa ordenação nos possíveis resultados das observações
– Exemplos: grau de escolaridade (1o grau; 2o grau; e 3o grau), classe social (alta, média e baixa), o porte de uma empresa (micro, pequena, média e grande)
Variáveis Quantitativas
• Discretas - Quando os resultados possíveis da observação formam um conjunto finito ou enumerável de números e que resultam, frequentemente, de uma contagem
– Exemplos: número de filhos (0, 1, 2, ...); tamanho da família (1, 2, 3, ...)
• Contínuas - Quando os possíveis valores formam um intervalo ou uma união de intervalos de números reais e que resultam, normalmente, de uma mensuração
DISTRIBUIÇÃO
DE
FREQUÊNCIAS
Tabelas Estatísticas
• Uma das maneiras de sintetizar um conjunto de dados é através do uso de tabelas. A mais utilizada é a tabela de distribuição de frequências
– Frequência = número de repetições de certo valor no conjunto de dados
Distribuição de Frequência
• Para as variáveis quantitativas podemos
simplificar o conjunto de dados obtidos
agrupando-os em classes de frequência
• Para variáveis quantitativas contínua ou conjuntos de dados com grande variabilidade e amplitude podemos agrupar os dados em classes de valores
Tabelas de Frequências
Tab1: Tipo de Protocolo de Acesso
Fonte: Empresa S/A
Protocolo Frequência ni Proporção fi Porcentagem 100 fi
T ipo 1 11 0,306 30,56
Tipo 2 12 0,333 33,33
T ipo 3 13 0,361 36,11
Tabela de Distribuição de Frequências
Tab2: Tráfego na rede Alfa em valores percentuais
Fonte: Empresa S/A
Tráfego % Frequência ni Proporção fi Porcentagem 100 fi 20 | 25 2 0,0556 5,56 25 | 30 6 0,1667 16,67 30 | 35 10 0,2777 27,77 35 | 40 8 0,2222 22,22 40 | 45 8 0,2222 22 ,22 45 | 50 2 0,0556 5,56 Total 36 1,0000 100,00
REPRESENTAÇÃO
GRÁFICA
O gráfico constitui um elemento básico na análise e apresentação dos trabalhos
Elementos de um Gráfico
• Título geral indicando situação, local e época estudada
• Escalas e as respectivas unidades de medida • Indicação das convenções adotadas
Principais Tipos de Representação Gráfica
• Gráfico em barras • Gráfico em colunas • Gráfico em linhas • Gráfico em setores • HistogramasGráfico em Barras
• Adequado para dados qualitativos
• Ilustra comparações entre categorias
• As categorias são organizadas no eixo vertical
• As frequências são dispostas horizontalmente para dar menos ênfase ao tempo
Gráfico em Colunas
• Adequado para dados qualitativos
• Ilustra comparações entre categorias
• As categorias são organizadas no eixo horizontal • As frequências são dispostas verticalmente para
Gráfico em Linhas
• Em geral é utilizado quando uma das varáveis é o tempo. Este é colocado no eixo horizontal
• Fornece uma ideia da tendência geral e do grau de variabilidade. Em geral os intervalos de tempo são espaçados igualmente
Gráfico em Setores
• Cada categoria corresponderá a uma divisão ou a um setor de um círculo
• Esta representação é adequada quando o objetivo for a análise da participação de cada categoria em relação ao total
Descrevendo Dados Quantitativos
•
Na apresentação de dados quantitativos
estes devem estar ordenados e os gráficos
devem
mostrar
variabilidade
ou
Histograma
• É adequado para ilustrar o comportamento de valores agrupados em classes
– O gráfico é composto de retângulos adjacentes representando a tabela de frequências
• Horizontal - intervalos de classe • Vertical - frequências
Exemplo de Histograma com
Intervalos Constantes
MEDIDAS
ESTATÍSTICAS
--Medidas Estatísticas
• Valores que resumem todo o conjunto de dados • Podem ser divididas em:
- Medidas de Localização - Medidas de Dispersão - Medidas de Assimetria - Medidas de Curtose
Medidas de Localização
• Medidas de localização de uma amostra (ou colecção) de dados de tipo quantitativo, são estatísticas que resumem a informação da amostra, dando indicação quer do centro da distribuição dos dados, de que são exemplos a média e a mediana, quer de outros pontos importantes dessa distribuição, de que são exemplos os quartis.
• As medidas de localização amostrais média, mediana e quartis, dão informação sobre as correspondentes características populacionais ou parâmetros da população (ou variável aleatória) de onde se selecionou a amostra, respectivamente valor médio, mediana populacional e quartis populacionais.
• Existe uma outra medida que é a moda, que localiza a categoria ou classe de maior frequência em dados qualitativos ou quantitativos discretos, ou os picos da distribuição de frequências para dados contínuos.
Medidas de Localização
• Para caracterizar os dados de uma amostra não são suficientes as medidas de localização.
• Embora tenham a mesma média e mediana, têm um aspeto bem diferente no que diz respeito à variabilidade ou dispersão, sendo assim necessário definir outras medidas, as medidas de dispersão, que medem essa variabilidade ou dispersão presente nos dados.
Medidas de Dispersão
• Em Estatística, dispersão (também chamada de variabilidade ou espalhamento) mostra o quão esticada ou espremida uma distribuição (teórica ou que define uma amostra).
• Exemplos comuns de medidas de dispersão estatística são a variância e o desvio padrão.
• Dispersão é contrastada com posição ou tendência central, e juntas elas são as propriedades de distribuições mais usadas.
Medidas de Assimetria
• Uma Distribuição ou uma curva é simétrica quando existe uma exata repartição de valores em torno do ponto central, ou seja, a média, a mediana e a moda coincidem.
• Os valores se agrupam mais acima ou mais abaixo do ponto central, e este “desvio” (ou viés) da simetria denomina-se assimetria.
Exemplo:
• Principais medidas descritivas dos Salário dos funcionários da Cia Milsa (saída do EXCEL)
Salário (em s.m) Média 11,12 Mediana 10,17 Desvio padrão 4,59 Variância da amostra 21,04 Curtose -0,01 Assimetria 0,65 Intervalo 19,3 Mínimo 4,0 Máximo 23,3 Soma 400,4 Contagem 36
MEDIDAS
DE
POSIÇÃO
Medidas de Posição
1
) Média Aritmética Simples• Definição: Sejam , n valores que a variável X pode assumir. A média aritmética simples de X é definida como n x X n 1 i i
Exemplo:
• Salário dos funcionários do setor de orçamento da Cia. Milsa
– Media é de 11,2 salários mínimos.
• Se a empresa resolvesse pagar igual a todos os funcionários daquele setor, cada um ganharia 11,2 salários mínimos
Média Aritmética Ponderada
• Definição: Sejam , k valores que a variável X assume e w1, w2, ..., wk os respectivos pesos (ou ponderadores). A média aritmética ponderada
é definida como
k 1 i i k 1 i i i w w . x XExemplo: Cálculo do INPC
Região IPC Peso IPC x Peso
São Paulo 25,1 3,383 84,9133 Rio de Janeiro 27,7 2,806 77,7262 Recife 25,3 0,726 18,3678 Belo Horizonte 28,6 0,682 19,5052 Porto Alegre 29,0 0,619 17,9510 Salvador 26,0 0,472 12,2720 Fortaleza 25,3 0,444 11,2332 Curitiba 32,6 0,341 11,1166 Belém 23,7 0,270 6,3990 Brasília 25,6 0,257 6,5792 10 266,0635 Fonte: IBGE 61 , 26 10 0635 , 266 INPC
Média aritmética - comentários
• Valor “típico” do conjunto de dados • Principal medida de tendência central
• Definida rigorosamente e pode ser interpretada sem ambiguidades
• Leva em consideração todas as observações
efetuadas
Média aritmética- problemas
• Muito sensível a valores extremos, isto é, a valores excessivamente pequenos ou excessivamente grandes, em relação às demais observações do conjunto de dados
Exemplo:
• Salário médio mensal de cinco funcionários de uma certa empresa. Temos o seguinte conjunto de salários mensais, em reais: 123 - 145 - 210 - 225 - 2.500
• Quatro dos cinco salários apresentam valores entre 123 e 225 reais
• Média salarial de 640,6 reais
• Bastante distinta desse conjunto pela influência do salário de 2.500
Propriedades da média aritmética
• Somando-se (ou subtraindo-se) um valor
constante e arbitrário a cada um dos elementos de um conjunto de dados, a média aritmética fica adicionada (ou subtraída) dessa constante
Exemplo:
• Se a idade média de um certo grupo de pessoas é 24 anos, qual será a idade média daqui a cinco anos?
Propriedades da Média Aritmética
• Multiplicando-se (ou dividindo-se) um valor constante e arbitrário a cada um dos elementos de um conjunto de dados, a média aritmética fica multiplicada (ou dividida) por essa constante
Exemplo:
• Se o custo médio da cesta básica é de R$134,00 e se todos os produtos aumentarem em 5%, em quanto ficará o custo médio da cesta básica?
Moda
•
Definição
: A moda é o valor que ocorre com
Exemplo:
a) X = {2, 3, 3, 5, 5, 5, 6, 7} Mo = 5 b) Y = {10, 12, 17, 21, 32} Mo = não existe, a distribuição é amodal c) Z = {2, 2, 5, 5, 7, 7} Mo = não existe d) W = {10, 12, 12, 12, 13, 13, 15, 18, 18, 18, 21} A distribuição apresenta dois valores modais: 12 e 18 (distribuição bimodal)Mediana
• Definição: Chamamos de mediana o elemento do
conjunto que ocupa a posição central na série ordenada (crescente ou decrescentemente)
• Isto é, divide a distribuição em duas partes de modo que 50% dos valores observados são iguais ou inferiores à mediana e 50% iguais ou superiores a esse valor
Cálculo da mediana
• Disponha os valores em ordem crescente ou
decrescente
- Se o número de valores for ímpar, a mediana é o número que localizado exatamente no meio da lista
- Se o número de valores é par, a mediana é a média dos dois valores centrais
Exemplo:
• Obtenha a mediana para os dois conjuntos abaixo: • Conjunto 1 = {10, 29, 26, 28, 15}
(n ímpar)
Conjunto 1 (ordenado) = { 10, 15, 26, 28, 29} Md = 26